核心问题

系统如何在失败中保持功能?

韧性不是不失败,而是失败后还能恢复和学习。

工程映射

  • graceful degradation
  • retries
  • circuit breaker
  • bulkhead
  • redundancy
  • rollback
  • incident response
  • data repair
  • operational playbooks

韧性也包括团队:是否有 runbook、是否允许复盘、是否有人能接住事故。

小结

可靠系统不是没有裂缝,而是裂缝不会立刻扩散成崩塌。