核心问题
如何分析一次服务雪崩?
场景
课程播放服务依赖授权服务。授权服务变慢,播放器请求超时,客户端自动重试,授权服务压力翻倍,最终全站播放失败。
模型分析
授权服务慢
-> 客户端重试
-> 请求数增加
-> 队列变长
-> 延迟更高
-> 更多超时
这是正反馈。
改造
客户端指数退避
服务端限流
授权服务熔断
播放页短期降级
访问决策缓存短 TTL
监控授权 P95 和错误率
小结
解决雪崩,不是修一个函数,而是切断放大回路。
如何分析一次服务雪崩?
课程播放服务依赖授权服务。授权服务变慢,播放器请求超时,客户端自动重试,授权服务压力翻倍,最终全站播放失败。
授权服务慢
-> 客户端重试
-> 请求数增加
-> 队列变长
-> 延迟更高
-> 更多超时
这是正反馈。
客户端指数退避
服务端限流
授权服务熔断
播放页短期降级
访问决策缓存短 TTL
监控授权 P95 和错误率
解决雪崩,不是修一个函数,而是切断放大回路。