可观测性和 SRE 基线
目的
定义生产系统的最低可见性。先保证人类发布、排障、复盘时能看见事实;后续自动化也必须使用同一套事实。
工具
| 需要 | 实用工具 |
|---|---|
| 错误追踪 | Sentry |
| 指标 / dashboard | Grafana + Prometheus 或 Datadog |
| 日志 | Loki / Datadog Logs / cloud logs |
| Trace | OpenTelemetry + Tempo / Datadog APM |
| 告警 | Grafana Alerting / PagerDuty / Opsgenie |
服务基线
每个生产服务都需要:
- 结构化日志。
- Request id / trace id。
- 错误追踪。
- Dashboard。
- SLO 或健康目标。
- 用户影响型告警。
- Runbook。
三角色可观测性责任
| 角色 | 需要看到什么 | 用来做什么 |
|---|---|---|
| 产品负责人 | 用户影响、关键路径成功率、反馈入口 | 判断上线效果和用户沟通 |
| 技术负责人 | 错误率、延迟、容量、故障趋势 | 判断技术风险和修复优先级 |
| 平台 / 资深工程师 | logs、metrics、trace、alert、runbook | 排障、补监控、维护告警质量 |
黄金信号
跟踪:
| Signal | 含义 |
|---|---|
| Rate | 请求或 job 量 |
| Errors | 错误率和 top errors |
| Duration | 延迟和队列等待 |
| Saturation | CPU、内存、连接池、队列深度 |
异步系统还要增加 queue delay 和 stuck job count。
SLO 起步集
每个核心服务至少定义:
- Availability。
- P95 latency。
- Error rate。
- 如适用,Queue freshness。
- Failed deployment recovery time。
运维手册
后续 Agent 就绪要求
这一节在人类可观测性稳定后再看。
Agent 自动化必须写出可观测 run:
- Start 和 finish event。
- Logs。
- Exit code。
- Error classification。
- Artifact references。
- Cost/usage。
没有可观测性,就不应该接受 autonomous run。
下一步阅读
读完或填完这份文档后,通常继续看:
- 54-事故管理-incident-management.md:监控和告警明确后,继续看事故如何分级、响应和复盘。