灾难恢复概述

灾难恢复是系统的最后一道防线——当最坏的情况发生时,如何快速恢复服务。

无论我们的系统多么可靠,灾难总有可能发生:地震、火灾、数据中心故障、勒索软件攻击……这些「黑天鹅」事件可能在瞬间摧毁一切。

灾难恢复不是「是否会发生」的问题,而是「发生时我们准备好了吗」的问题。

灾难的类型

flowchart TD
    A["灾难类型"] --> B["自然灾难"]
    A --> C["技术灾难"]
    A --> D["人为灾难"]

    B --> B1["地震"]
    B --> B2["洪水"]
    B --> B3["火灾"]

    C --> C1["数据中心故障"]
    C --> C2["软件 Bug"]
    C --> C3["网络中断"]

    D --> D1["误操作"]
    D --> D2["恶意攻击"]
    D --> D3["数据泄露"]

灾难恢复 vs 高可用

维度高可用(HA)灾难恢复(DR)
目标防止单点故障应对灾难性故障
范围单机房/单区域多机房/多区域
RTO秒级~分钟级分钟级~小时级
RPO近零可能有数据丢失
成本中等

灾难恢复的关键指标

指标说明典型值
RTO恢复时间目标分钟~小时
RPO恢复点目标分钟~小时
备份频率数据多久备份一次小时~天
恢复演练多久进行一次演练月~季度

灾难恢复的层次

flowchart TD
    A["灾难恢复层次"] --> B["数据备份"]
    A --> C["冷备恢复"]
    A --> D["温备恢复"]
    A --> E["热备恢复"]
    A --> F["多活架构"]

    B --> B1["定时备份"]
    C --> C1["手动恢复"]
    D --> D1["自动切换"]
    E --> E1["自动恢复"]
    F --> F1["实时同步"]

本章总结

核心要点

  1. 灾难恢复是最后一道防线:当一切手段都失效时的保障
  2. RTO 和 RPO 是核心指标:决定需要什么样的恢复能力
  3. 灾难恢复需要平衡成本和风险:不同业务需要不同的恢复策略