基础设施故障注入
服务器宕机、CPU 打满、内存耗尽——基础设施层的故障是最常见的生产事故来源。
与网络层故障不同,基础设施层故障直接影响计算资源的可用性。本节详解如何通过故障注入模拟这些场景,以及如何验证系统在资源枯竭时的行为。
基础设施故障分类
CPU 故障注入
CPU 满载
Chaos Mesh CPU 故障
chaos-cpu.yaml
CPU 故障的典型场景
内存故障注入
内存耗尽
OOMKilled 模拟
内存泄漏模拟
MemoryLeakSimulation.java
磁盘故障注入
磁盘空间耗尽
IO 延迟注入
进程故障注入
进程崩溃
进程挂起
网络接口故障
网卡 down
防火墙规则
基础设施故障的监控指标
infra-monitor.yaml
故障场景与验证目标
Chaos Monkey 配置
chaos-monkey-config.yaml
质量判断标准
一篇「基础设施故障注入」的文章是否达标,要看它是否回答了:
- ✅ 基础设施故障有哪些类型(CPU/内存/磁盘/进程/网络)?
- ✅ 每种故障如何注入(具体命令和配置)?
- ✅ 故障注入后验证什么(监控指标和预期行为)?
- ❌ 只有工具列表,没有具体命令和场景——不达标
本章总结
核心要点:
- 基础设施故障分多种类型:CPU、内存、磁盘、进程、网络接口
- 每种故障有不同的注入工具:stress/chaosblade/chaos-mesh/kubectl
- 故障注入后必须验证:监控系统指标,确认预期行为
- 从低风险故障开始:CPU 满载比网络分区风险更低
- OOMKilled 是容器环境的常见故障:必须验证重启和数据恢复机制