2026年6月9日
智能体更聪明了,但并没有更可靠。
一项新研究让 14 个模型跑了一遍可靠性测试,发现了基准跑分大战掩盖的东西:两年里能力突飞猛进,可靠性却只涨了一点点。更聪明不等于更稳。而背后的数学很残酷——哪怕单步可靠性高达 95%,连着跑 20 次,整个任务做对的概率也只有三分之一左右。我们一直在按智能水平挑选智能体,可真正决定它们能不能用的,完全是另一回事,一件我们几乎都不去衡量的事。
有一个问题,基准排行榜从来不回答:不是「这个智能体有多聪明」,而是「我能不能指望它」。一组研究者最近就想直接测一测这件事,让 14 个模型跑了一整套可靠性测试,得出的核心结论值得给某些炒作泼盆冷水。在大约两年的能力快速增长里,他们发现 可靠性的提升只是微乎其微。模型聪明了不少,可靠性却几乎没怎么涨。
这道鸿沟——智能体有多能干,和你能多大程度上依赖它之间的差距——用一篇分析的话说,是 当下企业 AI 里最重要、却最少被讨论的问题。 而一旦你看懂了它背后的数学,你就不会再奇怪:为什么那么多看起来很惊艳的智能体,最终都进不了生产环境。
聪明和可靠不是同一个维度
我们把两件不同的事压缩进了同一个词:「好」。在推理基准上得分更高的模型,是更能干。但它跑两次会不会做同一件事、能不能扛住措辞稍有改动的提示、出错时是不是能让你预料得到、犯的错会不会一直保持很小——这是可靠性,是另一个独立的维度。这项研究把这种区分讲得很具体,它把可靠性拆成 四个维度——一致性、稳健性、可预测性和安全性—— 并逐一衡量。一个模型可以在能力上才华横溢,却在这四项上全都摇摇晃晃。
这就是为什么「新模型得分更高了」几乎没法告诉你它能不能拿来搭东西。排行榜量的是聪明这条轴。而你凌晨两点的生产事故,发生在可靠这条轴上。它们不是同一个数字,而决定你的智能体是个产品还是个演示的,是第二个。
那段没人想放进幻灯片的复利数学
下面这部分应该改变你的设计方式。智能体是一步步工作的——读取、规划、调用工具、读结果、行动、再来一遍。而可靠性是跨步骤相乘的,这很要命,因为小于一的数字相乘会飞快地趋近于零。
算一算。如果每一步的可靠性是 95%——对今天的模型来说已经很乐观了——那么走 20 步,把整件事做对的概率是 0.95²⁰,大约 只有 36%。 每步 85%、走八步,你就掉到大约 27% 了。对真实部署的复盘也印证了这个数学:随着工作流变得更长、更复杂,失败率会爬升到 70–90% 的区间。 一个听上去很棒的单步成功率,对应的整任务成功率就是抛硬币,甚至更糟。
好好体会一下这意味着什么。一个「更聪明」的模型,把每一步从 94% 提到 96%,感觉像是进步,可端到端的数字几乎纹丝不动。把一次长程智能体运行搞砸的,不是某一步上的智力不够。而是那些微小的不可靠会复利叠加,而能力的提升治不了复利。
该怎么办
如果可靠性才是真正卡住你的约束,而能力不是,那你的选择就该变了:
- **去衡量可靠性,而不只是能力。**把同一个任务跑很多遍,看分布的离散程度,而不是看最好的那一次。扰动一下输入。检查它怎样失败,而不只是它有没有过一次。一次绿灯运行是你能收集到的信息量最少的东西——这就是 基准不是真活儿 那个观点,给出了严谨的版本。
- **正面打击复利:用更少的步骤。**你每去掉一步,胜算就乘回来一截。能把五次模型调用合成一次就合并,能用确定性的函数替掉一个推理步骤就替掉,别让智能体去重新推导一个你本可以直接递给它的东西。
- **在步骤之间设置检查点,让错误别扩散。**在把一步的输出喂给下一步之前先验证它——最好是拿 某个独立的东西 来验证。第 3 步抓住的一个错误,就不会复利成第 15 步的一场灾难。
- **别再把「它更聪明了」当成「它更可靠了」。**当下一个模型登顶榜单时,问一个不一样的问题:它是不是更一致、更可预测、出错出得更小?如果你说不上来,那你就还不知道它对智能体来说是不是更好——只知道它更会考试。
归根结底
行业卖的是能力,因为能力正是基准衡量的东西,也是能做出一个好演示的东西。但这项研究是一盆有用的冷水:两年的变聪明,只给我们换来了一点点的更可靠,而可靠性——不是纯粹的智力——才是横在智能体和生产环境之间的那道坎。那段复利数学保证了这一点。一个工作流的可信程度,只等于它最弱的那一步,乘上它一共有多少步那么多次方。
所以当你评估一个智能体时,别屈服于排行榜。问题从来都不是「它在一道难题上有多聪明」。而是「它把那件平平无奇的事做对的频率有多高,用同样的方式,连着做二十次」。聪明好卖,也好量。可靠才是真正能上线的那个——也是几乎没人在检查的那个。
评论
暂无评论
登录以参与讨论。
做第一个分享想法的人。