事故管理

目的

定义当用户或生产系统受影响时,团队如何响应。

工具

需要 工具
事故房间 Slack/Lark channel
告警 Grafana / Sentry / Datadog / PagerDuty
时间线 事故群 thread + postmortem 文档
Action items Linear/Jira
Runbook Repo docs 或 Notion/Lark Wiki

严重度

等级 定义 响应
SEV1 大范围用户不可用、数据或安全事故 立即全员响应
SEV2 关键功能不可用或显著客户影响 当天响应
SEV3 降级但有 workaround 正常优先级但必须跟踪
SEV4 小问题或内部问题 backlog

角色

角色 负责
Incident Commander 协调和优先级
Tech Lead 诊断和修复
Communications Owner 同步相关方
Scribe 时间线和 action items

小团队可以一人多职,但角色分配必须明确。

三角色事故分工

角色 事故中负责 复盘中负责
产品负责人 用户影响判断、客户 / 运营 / 销售沟通口径 用户补偿、产品 action、反馈回流
技术负责人 技术判断、止血方案、修复优先级 根因、技术债、质量门禁调整
平台 / 资深工程师 监控、日志、发布、回滚、runbook 告警、排障脚本、自动化和文档修复

流程

发现
-> 判断严重度
-> 开事故群
-> 分配角色
-> 缓解用户影响
-> 验证恢复
-> 写 postmortem
-> 跟踪 action items

事故复盘

使用 templates/事故复盘-postmortem.md

规则:

  1. 无责复盘。
  2. 具体时间线。
  3. 根因和促成因素。
  4. 哪些做得好。
  5. 哪些失败了。
  6. Action items 必须有 owner 和截止时间。

后续 Agent 就绪要求

这一节在人类事故响应流程稳定后再看。

Agent 可以总结时间线和提出 action items。严重度、对外沟通和最终根因仍由人类负责。

下一步阅读

读完或填完这份文档后,通常继续看: