核心问题

如何分析一次服务雪崩?

场景

课程播放服务依赖授权服务。授权服务变慢,播放器请求超时,客户端自动重试,授权服务压力翻倍,最终全站播放失败。

模型分析

授权服务慢
  -> 客户端重试
  -> 请求数增加
  -> 队列变长
  -> 延迟更高
  -> 更多超时

这是正反馈。

改造

客户端指数退避
服务端限流
授权服务熔断
播放页短期降级
访问决策缓存短 TTL
监控授权 P95 和错误率

小结

解决雪崩,不是修一个函数,而是切断放大回路。