可观测性和 SRE 基线

目的

定义生产系统的最低可见性。先保证人类发布、排障、复盘时能看见事实;后续自动化也必须使用同一套事实。

工具

需要 实用工具
错误追踪 Sentry
指标 / dashboard Grafana + Prometheus 或 Datadog
日志 Loki / Datadog Logs / cloud logs
Trace OpenTelemetry + Tempo / Datadog APM
告警 Grafana Alerting / PagerDuty / Opsgenie

服务基线

每个生产服务都需要:

  1. 结构化日志。
  2. Request id / trace id。
  3. 错误追踪。
  4. Dashboard。
  5. SLO 或健康目标。
  6. 用户影响型告警。
  7. Runbook。

三角色可观测性责任

角色 需要看到什么 用来做什么
产品负责人 用户影响、关键路径成功率、反馈入口 判断上线效果和用户沟通
技术负责人 错误率、延迟、容量、故障趋势 判断技术风险和修复优先级
平台 / 资深工程师 logs、metrics、trace、alert、runbook 排障、补监控、维护告警质量

黄金信号

跟踪:

Signal 含义
Rate 请求或 job 量
Errors 错误率和 top errors
Duration 延迟和队列等待
Saturation CPU、内存、连接池、队列深度

异步系统还要增加 queue delay 和 stuck job count。

SLO 起步集

每个核心服务至少定义:

  1. Availability。
  2. P95 latency。
  3. Error rate。
  4. 如适用,Queue freshness。
  5. Failed deployment recovery time。

运维手册

使用 templates/运维手册-runbook.md

后续 Agent 就绪要求

这一节在人类可观测性稳定后再看。

Agent 自动化必须写出可观测 run:

  1. Start 和 finish event。
  2. Logs。
  3. Exit code。
  4. Error classification。
  5. Artifact references。
  6. Cost/usage。

没有可观测性,就不应该接受 autonomous run。

下一步阅读

读完或填完这份文档后,通常继续看: