可观测性和 SRE 基线

目的

定义生产系统的最低可见性。先保证人类发布、排障、复盘时能看见事实；后续自动化也必须使用同一套事实。

需要	实用工具
错误追踪	Sentry
指标 / dashboard	Grafana + Prometheus 或 Datadog
日志	Loki / Datadog Logs / cloud logs
Trace	OpenTelemetry + Tempo / Datadog APM
告警	Grafana Alerting / PagerDuty / Opsgenie

每个生产服务都需要：

角色	需要看到什么	用来做什么
产品负责人	用户影响、关键路径成功率、反馈入口	判断上线效果和用户沟通
技术负责人	错误率、延迟、容量、故障趋势	判断技术风险和修复优先级
平台 / 资深工程师	logs、metrics、trace、alert、runbook	排障、补监控、维护告警质量

跟踪：

异步系统还要增加 queue delay 和 stuck job count。

每个核心服务至少定义：

这一节在人类可观测性稳定后再看。

Agent 自动化必须写出可观测 run：

没有可观测性，就不应该接受 autonomous run。

读完或填完这份文档后，通常继续看：