EVAL · 2026年6月9日

智能体更聪明了，但并没有更可靠。

一项新研究让 14 个模型跑了一遍可靠性测试，发现了基准跑分大战掩盖的东西：两年里能力突飞猛进，可靠性却只涨了一点点。更聪明不等于更稳。而背后的数学很残酷——哪怕单步可靠性高达 95%，连着跑 20 次，整个任务做对的概率也只有三分之一左右。我们一直在按智能水平挑选智能体，可真正决定它们能不能用的，完全是另一回事，一件我们几乎都不去衡量的事。

有一个问题，基准排行榜从来不回答：不是「这个智能体有多聪明」，而是「我能不能指望它」。一组研究者最近就想直接测一测这件事，让 14 个模型跑了一整套可靠性测试，得出的核心结论值得给某些炒作泼盆冷水。在大约两年的能力快速增长里，他们发现可靠性的提升只是微乎其微。模型聪明了不少，可靠性却几乎没怎么涨。

这道鸿沟——智能体有多能干，和你能多大程度上依赖它之间的差距——用一篇分析的话说，是当下企业 AI 里最重要、却最少被讨论的问题。而一旦你看懂了它背后的数学，你就不会再奇怪：为什么那么多看起来很惊艳的智能体，最终都进不了生产环境。

聪明和可靠不是同一个维度

我们把两件不同的事压缩进了同一个词：「好」。在推理基准上得分更高的模型，是更能干。但它跑两次会不会做同一件事、能不能扛住措辞稍有改动的提示、出错时是不是能让你预料得到、犯的错会不会一直保持很小——这是可靠性，是另一个独立的维度。这项研究把这种区分讲得很具体，它把可靠性拆成四个维度——一致性、稳健性、可预测性和安全性—— 并逐一衡量。一个模型可以在能力上才华横溢，却在这四项上全都摇摇晃晃。

这就是为什么「新模型得分更高了」几乎没法告诉你它能不能拿来搭东西。排行榜量的是聪明这条轴。而你凌晨两点的生产事故，发生在可靠这条轴上。它们不是同一个数字，而决定你的智能体是个产品还是个演示的，是第二个。

那段没人想放进幻灯片的复利数学

下面这部分应该改变你的设计方式。智能体是一步步工作的——读取、规划、调用工具、读结果、行动、再来一遍。而可靠性是跨步骤相乘的，这很要命，因为小于一的数字相乘会飞快地趋近于零。

算一算。如果每一步的可靠性是 95%——对今天的模型来说已经很乐观了——那么走 20 步，把整件事做对的概率是 0.95²⁰，大约只有 36%。每步 85%、走八步，你就掉到大约 27% 了。对真实部署的复盘也印证了这个数学：随着工作流变得更长、更复杂，失败率会爬升到 70–90% 的区间。一个听上去很棒的单步成功率，对应的整任务成功率就是抛硬币，甚至更糟。

好好体会一下这意味着什么。一个「更聪明」的模型，把每一步从 94% 提到 96%，感觉像是进步，可端到端的数字几乎纹丝不动。把一次长程智能体运行搞砸的，不是某一步上的智力不够。而是那些微小的不可靠会复利叠加，而能力的提升治不了复利。

该怎么办

如果可靠性才是真正卡住你的约束，而能力不是，那你的选择就该变了：

**去衡量可靠性，而不只是能力。**把同一个任务跑很多遍，看分布的离散程度，而不是看最好的那一次。扰动一下输入。检查它怎样失败，而不只是它有没有过一次。一次绿灯运行是你能收集到的信息量最少的东西——这就是基准不是真活儿那个观点，给出了严谨的版本。
**正面打击复利：用更少的步骤。**你每去掉一步，胜算就乘回来一截。能把五次模型调用合成一次就合并，能用确定性的函数替掉一个推理步骤就替掉，别让智能体去重新推导一个你本可以直接递给它的东西。
**在步骤之间设置检查点，让错误别扩散。**在把一步的输出喂给下一步之前先验证它——最好是拿某个独立的东西来验证。第 3 步抓住的一个错误，就不会复利成第 15 步的一场灾难。
**别再把「它更聪明了」当成「它更可靠了」。**当下一个模型登顶榜单时，问一个不一样的问题：它是不是更一致、更可预测、出错出得更小？如果你说不上来，那你就还不知道它对智能体来说是不是更好——只知道它更会考试。

归根结底

行业卖的是能力，因为能力正是基准衡量的东西，也是能做出一个好演示的东西。但这项研究是一盆有用的冷水：两年的变聪明，只给我们换来了一点点的更可靠，而可靠性——不是纯粹的智力——才是横在智能体和生产环境之间的那道坎。那段复利数学保证了这一点。一个工作流的可信程度，只等于它最弱的那一步，乘上它一共有多少步那么多次方。

所以当你评估一个智能体时，别屈服于排行榜。问题从来都不是「它在一道难题上有多聪明」。而是「它把那件平平无奇的事做对的频率有多高，用同样的方式，连着做二十次」。聪明好卖，也好量。可靠才是真正能上线的那个——也是几乎没人在检查的那个。

暂无评论

登录以参与讨论。

做第一个分享想法的人。