核心问题

系统是在自我稳定,还是自我放大?

工程困境

服务 A 慢了,客户端开始重试。重试让流量翻倍,服务 A 更慢,于是更多重试。

这不是单点故障,是正反馈。

思想模型

正反馈放大变化,负反馈抑制变化。

正反馈:失败 -> 重试 -> 更失败
负反馈:失败 -> 熔断 -> 减少压力 -> 恢复

好判断

看到自动重试、自动扩容、缓存失效、告警升级,都要问:

它是在稳定系统,还是放大波动?

Atlas Action

找一个重试逻辑,检查有没有:最大次数、指数退避、抖动、超时、熔断。

小结

没有调节机制的自动化,可能只是更快地放大错误。