事故管理

目的

定义当用户或生产系统受影响时，团队如何响应。

工具

需要	工具
事故房间	Slack/Lark channel
告警	Grafana / Sentry / Datadog / PagerDuty
时间线	事故群 thread + postmortem 文档
Action items	Linear/Jira
Runbook	Repo docs 或 Notion/Lark Wiki

严重度

等级	定义	响应
SEV1	大范围用户不可用、数据或安全事故	立即全员响应
SEV2	关键功能不可用或显著客户影响	当天响应
SEV3	降级但有 workaround	正常优先级但必须跟踪
SEV4	小问题或内部问题	backlog

角色

角色	负责
Incident Commander	协调和优先级
Tech Lead	诊断和修复
Communications Owner	同步相关方
Scribe	时间线和 action items

小团队可以一人多职，但角色分配必须明确。

三角色事故分工

角色	事故中负责	复盘中负责
产品负责人	用户影响判断、客户 / 运营 / 销售沟通口径	用户补偿、产品 action、反馈回流
技术负责人	技术判断、止血方案、修复优先级	根因、技术债、质量门禁调整
平台 / 资深工程师	监控、日志、发布、回滚、runbook	告警、排障脚本、自动化和文档修复

流程

发现
-> 判断严重度
-> 开事故群
-> 分配角色
-> 缓解用户影响
-> 验证恢复
-> 写 postmortem
-> 跟踪 action items

事故复盘

使用 templates/事故复盘-postmortem.md。

规则：

无责复盘。
具体时间线。
根因和促成因素。
哪些做得好。
哪些失败了。
Action items 必须有 owner 和截止时间。

后续 Agent 就绪要求

这一节在人类事故响应流程稳定后再看。

Agent 可以总结时间线和提出 action items。严重度、对外沟通和最终根因仍由人类负责。

下一步阅读

读完或填完这份文档后，通常继续看：

事故复盘-postmortem.md：事故处理后，用复盘模板沉淀行动项。