核心问题
系统是在自我稳定,还是自我放大?
工程困境
服务 A 慢了,客户端开始重试。重试让流量翻倍,服务 A 更慢,于是更多重试。
这不是单点故障,是正反馈。
思想模型
正反馈放大变化,负反馈抑制变化。
正反馈:失败 -> 重试 -> 更失败
负反馈:失败 -> 熔断 -> 减少压力 -> 恢复
好判断
看到自动重试、自动扩容、缓存失效、告警升级,都要问:
它是在稳定系统,还是放大波动?
Atlas Action
找一个重试逻辑,检查有没有:最大次数、指数退避、抖动、超时、熔断。
小结
没有调节机制的自动化,可能只是更快地放大错误。