日志成本控制
Stripe 在 2020 年透露:他们每年在可观测性数据上的支出超过 2000 万美元,其中日志占了大头。这不是个例——随着微服务数量增长,日志量往往以超线性速度增长:服务多了,日志量不只是线性增加,还因为服务间调用日志的交叉记录而指数增长。
日志成本控制不是「少打日志」,而是用正确的成本获取正确的数据。
成本来源分析
日志全链路成本分解
各环节成本占比(典型)
结论:控制存储成本是性价比最高的选择。
存储成本优化
1. 合理的日志保留策略
Loki
Elasticsearch
2. 选择合适的存储引擎
对于大多数团队:Loki + S3 是最优性价比方案。
Loki
采集成本优化
1. 客户端采样
Logback
2. 结构化字段精简
传输成本优化
压缩传输
Filebeat
批量发送
Vector
日志量估算与控制
估算公式
控制阈值
成本监控
仪表盘设计
质量判断标准
读完本节后,你应该能够回答:
- 日志全链路成本中,哪个环节占比最大?控制成本性价比最高的方向是什么?
- Loki + S3 的方案相比 Elasticsearch,在成本和查询灵活性上各有什么优势和局限?
- Elasticsearch 的 ILM(索引生命周期管理)中,热/温/冷/删四阶段分别解决了什么问题?为什么需要这种分层设计?
- 日志量估算的公式是什么?如何通过估算公式评估一个服务的日志成本?
- 日志成本监控仪表盘应该包含哪些核心指标?如何发现日志量异常?