报警有效性评估

报警系统的最终目标不是「不漏报」,而是在合适的时间、用合适的方式、通知合适的人去处理合适的问题。一个充满低质量告警的系统,值班人员会被淹没在噪声中,逐渐对告警失去敏感度;当真正的问题发生时,反而可能被忽视。这正是 Google SRE 书籍中反复强调的「告警疲劳」问题。

报警有效性评估是建立高质量告警体系的起点。有效的评估需要量化两个核心维度:召回率(Recall)——问题发生时是否一定会触发告警;精准率(Precision)——触发的告警中有多少是真正需要处理的。这两者存在天然的张力:提高召回率往往会降低精准率,反之亦然。

度量指标体系

评估报警有效性需要建立完整的指标体系。基础指标包括:告警总数(按日/周/月趋势)、有效告警率(真正需要人工介入的比例)、MTTA(Mean Time To Acknowledge,平均确认时间)、MTTR(Mean Time To Resolve,平均解决时间)、重复告警率(同一问题触发多次的比例)。

进阶指标关注告警质量的结构:按严重程度分布(Critical/Warning/Info 的比例是否合理)、按来源分布(哪些服务/组件产生的告警最多)、按触发时段分布(工作时间和非工作时间告警量差异)、按重复触发次数分布。这些结构化数据是后续优化的依据。