核心问题
系统如何在失败中保持功能?
韧性不是不失败,而是失败后还能恢复和学习。
工程映射
- graceful degradation
- retries
- circuit breaker
- bulkhead
- redundancy
- rollback
- incident response
- data repair
- operational playbooks
韧性也包括团队:是否有 runbook、是否允许复盘、是否有人能接住事故。
小结
可靠系统不是没有裂缝,而是裂缝不会立刻扩散成崩塌。
系统如何在失败中保持功能?
韧性不是不失败,而是失败后还能恢复和学习。
韧性也包括团队:是否有 runbook、是否允许复盘、是否有人能接住事故。
可靠系统不是没有裂缝,而是裂缝不会立刻扩散成崩塌。