Grafana 仪表盘设计
一个仪表盘如果需要 5 分钟才能看懂,它的价值就大打折扣。好的仪表盘应该让任何人在 30 秒内理解系统的状态,并知道下一步该做什么。
Grafana 是可观测性领域的标准可视化平台,支持 Prometheus、Loki、Tempo、Elasticsearch 等多种数据源。但工具本身不能决定仪表盘的价值——决定价值的是设计者的思路。
仪表盘设计原则
原则一:分层设计
仪表盘应该按受众分层:
原则二:信息密度适中
- 单一面板不超过 5 条线(多了看不清楚)
- 颜色不超过 5 种(多了难以区分)
- 关键数据突出(红色告警、绿色正常)
原则三:行动导向
每个仪表盘都应该回答一个核心问题:
- 「系统现在健康吗?」
- 「有哪些告警需要处理?」
- 「性能趋势是上升还是下降?」
层级一:全局概览仪表盘
这是最高层的仪表盘,供管理层和 oncall 工程师快速了解整体状态:
Overview
全局概览面板设计
层级二:服务详情仪表盘
针对单个服务的详细仪表盘:
Service
层级三:根因定位仪表盘
故障排查时的专用仪表盘:
面板类型选择
模板变量
使用模板变量让仪表盘可复用:
告警规则集成
仪表盘应该与告警系统集成:
质量判断标准
读完本节后,你应该能够回答:
- 仪表盘设计的「分层原则」是什么?为什么不能把所有数据放在一个仪表盘里?
- 好的仪表盘应该回答什么问题?如果一个仪表盘需要 5 分钟才能看懂,说明什么问题?
- Grafana 的 Stat、Gauge、Time Series、Table 四种面板类型分别适合什么场景?
- 如何设计一个可以复用的服务详情仪表盘(使用模板变量)?
- 根因定位仪表盘和日常运维仪表盘在设计上有什么区别?根因定位仪表盘最关键的面板是什么?