可用性理论

没有度量就没有管理,没有管理就没有改进。

在讨论任何容错机制之前,首先需要回答一个问题:什么是可用性,如何量化它? 这看起来是一个简单的问题,但很多团队在 SLA 谈判桌上才发现自己对「可用性」的理解是模糊的。

模块结构

本模块涵盖可用性度量的核心概念:

文章核心问题
可用性概述可用性的本质是什么
SLA如何定义和承诺可用性目标
SLO如何设定内部可用性目标
SLI如何定义可观测的指标
错误预算如何用错误预算驱动改进
MTBF/MTTR如何量化系统可靠性
N-nines可用性等级的含义
成本权衡可用性与成本的平衡
设计原则高可用架构的设计原则

核心演进路径

flowchart LR
    A["SLI\n定义衡量的指标"] --> B["SLO\n设定目标"]
    B --> C["SLA\n承诺给用户"]
    C --> D["错误预算\n驱动改进"]
    D --> E["MTBF/MTTR\n量化系统可靠性"]

关键概念速查

概念全称说明
SLIService Level Indicator衡量的指标,如延迟、可用率
SLOService Level Objective目标值,如 99.9%
SLAService Level Agreement对用户的承诺,违反有惩罚
Error Budget错误预算允许的错误量,如每月 43 分钟

学习路径

第一步:理解 SLI → 知道衡量什么

第二步:理解 SLO → 知道目标是什么

第三步:理解 SLA → 知道承诺什么

第四步:理解 Error Budget → 知道如何改进

第五步:理解 MTBF/MTTR → 知道系统可靠性的量化方法

准备好开始了吗?从可用性概述开始。