灾难恢复概述

灾难恢复是系统的最后一道防线——当最坏的情况发生时，如何快速恢复服务。

无论我们的系统多么可靠，灾难总有可能发生：地震、火灾、数据中心故障、勒索软件攻击……这些「黑天鹅」事件可能在瞬间摧毁一切。

灾难恢复不是「是否会发生」的问题，而是「发生时我们准备好了吗」的问题。

灾难的类型

flowchart TD
    A["灾难类型"] --> B["自然灾难"]
    A --> C["技术灾难"]
    A --> D["人为灾难"]

    B --> B1["地震"]
    B --> B2["洪水"]
    B --> B3["火灾"]

    C --> C1["数据中心故障"]
    C --> C2["软件 Bug"]
    C --> C3["网络中断"]

    D --> D1["误操作"]
    D --> D2["恶意攻击"]
    D --> D3["数据泄露"]

灾难恢复 vs 高可用

维度	高可用（HA）	灾难恢复（DR）
目标	防止单点故障	应对灾难性故障
范围	单机房/单区域	多机房/多区域
RTO	秒级~分钟级	分钟级~小时级
RPO	近零	可能有数据丢失
成本	中等	高

灾难恢复的关键指标

指标	说明	典型值
RTO	恢复时间目标	分钟~小时
RPO	恢复点目标	分钟~小时
备份频率	数据多久备份一次	小时~天
恢复演练	多久进行一次演练	月~季度

灾难恢复的层次

flowchart TD
    A["灾难恢复层次"] --> B["数据备份"]
    A --> C["冷备恢复"]
    A --> D["温备恢复"]
    A --> E["热备恢复"]
    A --> F["多活架构"]

    B --> B1["定时备份"]
    C --> C1["手动恢复"]
    D --> D1["自动切换"]
    E --> E1["自动恢复"]
    F --> F1["实时同步"]

本章总结

核心要点：

灾难恢复是最后一道防线：当一切手段都失效时的保障
RTO 和 RPO 是核心指标：决定需要什么样的恢复能力
灾难恢复需要平衡成本和风险：不同业务需要不同的恢复策略

#灾难恢复概述

#灾难的类型

#灾难恢复 vs 高可用

#灾难恢复的关键指标

#灾难恢复的层次

#本章总结

灾难恢复概述

灾难的类型

灾难恢复 vs 高可用

灾难恢复的关键指标

灾难恢复的层次

本章总结