核心问题

为什么碰运气式修 Bug 很危险?

真实场景

线上出现一个支付失败问题。有人说:“可能是缓存问题,清一下试试。”另一个人说:“可能是最近改了接口,我回滚一下看看。”

几次操作后,问题似乎消失了,但没人知道为什么。

这不是修复,这是把事故埋回地里。

常见误区

坏判断是:

先改一处试试,没好再改下一处。

这种方式最大的问题是:你无法知道到底是哪一步起作用,也无法保证同类问题不会再来。

工程视角

调试应该像科学实验:

  • 先观察现象。
  • 再提出假设。
  • 然后设计最小实验。
  • 最后验证假设是否成立。

一次只改一个变量。否则结果没有解释力。

PM 可以怎么做

PM 在事故现场不要催“赶紧改”,而要帮团队保持问题清晰:

  • 现象是什么?
  • 影响范围多大?
  • 能否稳定复现?
  • 当前假设是什么?
  • 这次操作想验证什么?

Atlas Action

Bug 讨论里听到“可能是”时,立刻补一句:

我们怎么验证这个可能性?

把猜测变成可验证假设。

小结

猜 Bug 会制造偶然修复和隐性复发。

真正的调试不是快点改,而是让每一步操作都能缩小真相范围。