可用性定义与度量

可用性（Availability） 是衡量系统在特定时间段内能够正常运行的概率，是分布式系统和互联网服务最核心的非功能性指标之一。通常用百分比表示，"4 个 9"（99.99%）意味着全年停机时间不超过 52.6 分钟。

可用性的量化定义

从数学角度，可用性可定义为：

可用性 = MTBF / (MTBF + MTTR)

其中：

这个公式清晰地揭示了提升可用性的两条核心路径：延长 MTBF（减少故障发生频率）或缩短 MTTR（加快故障恢复速度）。

每提升一个数量级，背后的工程复杂度和技术投入往往呈指数级增长，这也是为什么"5 个 9"通常只出现在极少数关键系统中。

系统可用性并非单一因素决定，而是硬件、软件、网络、人为操作等多维度的综合结果：

真正高可用的系统，必须在这些维度上都有针对性的防护措施，而不是寄希望于单一手段。