报警有效性评估

报警系统的最终目标不是「不漏报」，而是在合适的时间、用合适的方式、通知合适的人去处理合适的问题。一个充满低质量告警的系统，值班人员会被淹没在噪声中，逐渐对告警失去敏感度；当真正的问题发生时，反而可能被忽视。这正是 Google SRE 书籍中反复强调的「告警疲劳」问题。

报警有效性评估是建立高质量告警体系的起点。有效的评估需要量化两个核心维度：召回率（Recall）——问题发生时是否一定会触发告警；精准率（Precision）——触发的告警中有多少是真正需要处理的。这两者存在天然的张力：提高召回率往往会降低精准率，反之亦然。

度量指标体系

评估报警有效性需要建立完整的指标体系。基础指标包括：告警总数（按日/周/月趋势）、有效告警率（真正需要人工介入的比例）、MTTA（Mean Time To Acknowledge，平均确认时间）、MTTR（Mean Time To Resolve，平均解决时间）、重复告警率（同一问题触发多次的比例）。

进阶指标关注告警质量的结构：按严重程度分布（Critical/Warning/Info 的比例是否合理）、按来源分布（哪些服务/组件产生的告警最多）、按触发时段分布（工作时间和非工作时间告警量差异）、按重复触发次数分布。这些结构化数据是后续优化的依据。

#报警有效性评估

#度量指标体系

报警有效性评估

度量指标体系