核心问题

我们把什么算作系统的一部分?

你不承认的边界,事故会替你承认。

边界问题

  • 第三方 API 是不是系统的一部分?
  • 客服手动修数据是不是系统的一部分?
  • Runbook 是不是系统的一部分?
  • Feature flag 配置是不是系统的一部分?
  • 用户绕过流程的行为是不是系统的一部分?

如果支付 provider 故障会影响购买,它就是你的系统风险的一部分。

小结

系统边界不是架构图画出来的,而是故障传播时显现出来的。