可用性理论
没有度量就没有管理,没有管理就没有改进。
在讨论任何容错机制之前,首先需要回答一个问题:什么是可用性,如何量化它? 这看起来是一个简单的问题,但很多团队在 SLA 谈判桌上才发现自己对「可用性」的理解是模糊的。
模块结构
本模块涵盖可用性度量的核心概念:
核心演进路径
关键概念速查
学习路径
准备好开始了吗?从可用性概述开始。
没有度量就没有管理,没有管理就没有改进。
在讨论任何容错机制之前,首先需要回答一个问题:什么是可用性,如何量化它? 这看起来是一个简单的问题,但很多团队在 SLA 谈判桌上才发现自己对「可用性」的理解是模糊的。
本模块涵盖可用性度量的核心概念:
| 文章 | 核心问题 |
|---|---|
| 可用性概述 | 可用性的本质是什么 |
| SLA | 如何定义和承诺可用性目标 |
| SLO | 如何设定内部可用性目标 |
| SLI | 如何定义可观测的指标 |
| 错误预算 | 如何用错误预算驱动改进 |
| MTBF/MTTR | 如何量化系统可靠性 |
| N-nines | 可用性等级的含义 |
| 成本权衡 | 可用性与成本的平衡 |
| 设计原则 | 高可用架构的设计原则 |
flowchart LR
A["SLI\n定义衡量的指标"] --> B["SLO\n设定目标"]
B --> C["SLA\n承诺给用户"]
C --> D["错误预算\n驱动改进"]
D --> E["MTBF/MTTR\n量化系统可靠性"]| 概念 | 全称 | 说明 |
|---|---|---|
| SLI | Service Level Indicator | 衡量的指标,如延迟、可用率 |
| SLO | Service Level Objective | 目标值,如 99.9% |
| SLA | Service Level Agreement | 对用户的承诺,违反有惩罚 |
| Error Budget | 错误预算 | 允许的错误量,如每月 43 分钟 |
第一步:理解 SLI → 知道衡量什么
↓
第二步:理解 SLO → 知道目标是什么
↓
第三步:理解 SLA → 知道承诺什么
↓
第四步:理解 Error Budget → 知道如何改进
↓
第五步:理解 MTBF/MTTR → 知道系统可靠性的量化方法准备好开始了吗?从可用性概述开始。