AGENTS · 2026年6月13日

你的智能体只有 57% 的时候能用

2026 年 3 月的一份报告分析了 6,259 个跑在真实生产环境里的 AI 智能体，发现整体成功率只有 56.6%——比抛硬币好不了多少。同一批研究还显示，智能体在基准测试上的表现和在真实世界里的表现之间，存在 37% 的落差。这个落差就是全部的故事。演示永远能跑通；真正的活儿是让智能体在剩下那 43% 的时候也能干成。下面说说为什么这个数字这么低，以及那些做得更好的团队到底做对了什么。

这里有一个数字，应该会重置你对 AI 智能体的看法。2026 年 3 月的一份可靠性报告，横向分析了 6,259 个跑在生产环境里的 AI 智能体，发现整体成功率只有 56.6%。不是在实验室里，而是在真实部署中，干真实的活儿。比抛硬币好那么一点点。

它旁边还有同一批研究得出的第二个结论：企业级的智能体系统，在实验室基准分数和真实世界表现之间存在 37% 的落差。那个在基准测试上拿了高分的智能体，一旦碰上你真实的数据、真实的用户、真实的边界情况，表现就掉了三分之一还多。

我认为，这个落差是当下关于「用智能体来做东西」这件事里，最值得理解的一点，所以让我多停留在它上面。

演示是那 57%，真正的活儿是剩下的部分

你看一段智能体演示的时候，你看到的是顺风顺水的路径：干净的输入、一个为它量身定制的任务、有人在旁边把它从沟里拽回来。那就是那 57%。它是真的，也确实让人印象深刻。但是把一个产品做出来上线，意味着要处理剩下那 43%——畸形的输入、超时的工具调用、那个智能体自信满满地选错了分支、然后后面每一步都继承了这个错误的环节。

这就是为什么从基准到现实的落差这么大。基准是一条被精心挑选过、还配了记分员的顺风路径。生产环境则是基准过滤掉的一切。分数告诉你天花板在哪；它几乎没告诉你地板在哪—— 而用户活在地板上。这正是我反复回到的那个点：演示从来都不是难的那部分。那 57% 是演示。真正的活儿是那 43%。

为什么地板这么低

这些失败不是随机的，而且大多数也不是模型变笨了。智能体工作在很长的链条里—— 2026 年的一个编码工作流平均要走大约 20 个相互依赖的决策—— 而链条会做乘法。如果每一步的可靠性是 97%，连续二十步下来，你就落到 55% 附近了。光是这个算术，不用犯一个「蠢」错，就能把你带到抛硬币的水平。

而且错误会藏起来。在一个多步任务里，一个中间环节的错误可以通过最终输出的检查，同时悄悄把结果污染掉—— 一个研究型智能体检索到了正确的竞争对手，却在第三步把某个功能张冠李戴，然后产出一份看起来干干净净、其实是错的摘要。最终答案是绿色的。中间是坏的。这正是基准测试最不擅长抓、而生产环境最擅长发现的失败模式。

那些在及格线之上的团队做了什么

可靠的智能体团队用的并不是什么秘密模型。他们把链条——而不是模型—— 当成要去工程化的对象：

他们缩短链条。 相互依赖的步骤越少，能累积错误的地方就越少。一个只做一件事的窄智能体，胜过一个什么都管的庞杂智能体——一个什么都做的智能体什么都做不好。
他们检查每一步，而不只是答案。 给中间推理打分的评测，能抓住那个被最终输出检查放过去的「坏掉的中间」。没有评测就等于没上线—— 对智能体而言，这意味着步骤级的评测。
他们极其严格地管理上下文。 智能体的失败有很大一部分，源自上下文漂移和长任务中丢失的状态，而不是模型本身的能力。在每一步精心筛选智能体看到的东西，比换模型更能撬动这个数字。
他们为那 43% 做设计。 重试、回退、在不可逆操作上设一个人工检查点，以及对失败做诚实的日志记录——这样那些注定会发生的失败才能被抓住、被恢复，而不是被发布出去。

这些都不光鲜。但所有这些加起来，就是一个 57% 的演示和一个被人信任的产品之间的差别。

结论

「AI 智能体在生产环境里只有 57% 的时候能用」读起来像一句要命的统计，如果你把它当成天花板，那你永远都不会去做一个。但它不是天花板——它是那些基本上只把演示做出来了的团队的行业平均值。基准分数从来都不是产品。可靠性才是产品，而可靠性来自对链条的工程化：更少的步骤、每一步都被检查、上下文被管理好、失败被预先设计好。

所以当你评估一个智能体的时候，请不要信那个来自顺风路径的数字，去问那个更难的问题：碰上那 43% 的时候会发生什么？那些对这个问题有真实答案的团队，才是那些智能体到下个季度还在跑的团队。演示是免费的。剩下那 43%，才是全部的活儿。

暂无评论

登录以参与讨论。

做第一个分享想法的人。