报警与仪表盘
报警(Alerting)和仪表盘(Dashboard)是可观测性落地的两个核心交付物。指标、日志、链路追踪解决了「数据从哪来」的问题,而报警和仪表盘解决的是「数据到哪去」——如何让这些数据真正服务于运维决策和故障处理。
两者的定位有本质区别:仪表盘是人主动查看的,用于探索性分析和趋势判断;报警是系统主动推送的,用于在问题发生时及时通知相关人员。一个成熟的告警体系,应该让值班人员在「没有问题时不需要主动看仪表盘,有问题时第一时间收到报警」。
报警与仪表盘的关系
报警规则往往源自仪表盘中的关键指标。当仪表盘上的某个查询被发现具有重要参考价值时,可以将其转化为报警规则。但这个转化需要谨慎:仪表盘上的查询往往是探索性的、可能存在误报;报警规则必须是确定性的、经过验证的。
实践中常见的错误是「把仪表盘查询直接复制为报警规则」。这会导致两个问题:仪表盘查询通常没有 for 持续时间,瞬时抖动会触发大量无效告警;仪表盘查询可能包含多个服务或维度,不适合作为单一告警触发点。正确的做法是从仪表盘发现规律后,重新设计专门的报警规则。