2026年6月13日
你的智能体只有 57% 的时候能用
2026 年 3 月的一份报告分析了 6,259 个跑在真实生产环境里的 AI 智能体,发现整体成功率只有 56.6%——比抛硬币好不了多少。同一批研究还显示,智能体在基准测试上的表现和在真实世界里的表现之间,存在 37% 的落差。这个落差就是全部的故事。演示永远能跑通;真正的活儿是让智能体在剩下那 43% 的时候也能干成。下面说说为什么这个数字这么低,以及那些做得更好的团队到底做对了什么。
这里有一个数字,应该会重置你对 AI 智能体的看法。2026 年 3 月的一份可靠性报告, 横向分析了 6,259 个跑在生产环境里的 AI 智能体,发现整体成功率只有 56.6%。 不是在实验室里,而是在真实部署中,干真实的活儿。比抛硬币好那么一点点。
它旁边还有同一批研究得出的第二个结论:企业级的智能体系统, 在 实验室基准分数和真实世界表现之间存在 37% 的落差。 那个在基准测试上拿了高分的智能体,一旦碰上你真实的数据、真实的用户、真实的边界情况, 表现就掉了三分之一还多。
我认为,这个落差是当下关于「用智能体来做东西」这件事里,最值得理解的一点, 所以让我多停留在它上面。
演示是那 57%,真正的活儿是剩下的部分
你看一段智能体演示的时候,你看到的是顺风顺水的路径:干净的输入、一个为它量身定制的任务、 有人在旁边把它从沟里拽回来。那就是那 57%。它是真的,也确实让人印象深刻。 但是把一个产品做出来上线,意味着要处理剩下那 43%——畸形的输入、超时的工具调用、 那个智能体自信满满地选错了分支、然后后面每一步都继承了这个错误的环节。
这就是为什么从基准到现实的落差这么大。基准是一条被精心挑选过、还配了记分员的顺风路径。 生产环境则是基准过滤掉的一切。分数告诉你天花板在哪;它几乎没告诉你地板在哪—— 而用户活在地板上。这正是我反复回到的那个点:演示从来都不是难的那部分。 那 57% 是演示。真正的活儿是那 43%。
为什么地板这么低
这些失败不是随机的,而且大多数也不是模型变笨了。智能体工作在很长的链条里—— 2026 年的一个编码工作流平均要走大约 20 个相互依赖的决策—— 而链条会做乘法。如果每一步的可靠性是 97%,连续二十步下来,你就落到 55% 附近了。 光是这个算术,不用犯一个「蠢」错,就能把你带到抛硬币的水平。
而且错误会藏起来。在一个多步任务里, 一个中间环节的错误可以通过最终输出的检查,同时悄悄把结果污染掉—— 一个研究型智能体检索到了正确的竞争对手,却在第三步把某个功能张冠李戴, 然后产出一份看起来干干净净、其实是错的摘要。最终答案是绿色的。中间是坏的。 这正是基准测试最不擅长抓、而生产环境最擅长发现的失败模式。
那些在及格线之上的团队做了什么
可靠的智能体团队用的并不是什么秘密模型。他们把链条——而不是模型—— 当成要去工程化的对象:
- 他们缩短链条。 相互依赖的步骤越少,能累积错误的地方就越少。 一个只做一件事的窄智能体,胜过一个什么都管的庞杂智能体——一个什么都做的智能体 什么都做不好。
- 他们检查每一步,而不只是答案。 给中间推理打分的评测,能抓住那个被最终输出检查 放过去的「坏掉的中间」。没有评测就等于没上线—— 对智能体而言,这意味着步骤级的评测。
- 他们极其严格地管理上下文。 智能体的失败有很大一部分,源自上下文漂移和长任务中 丢失的状态,而不是模型本身的能力。在每一步精心筛选智能体看到的东西,比换模型更能 撬动这个数字。
- 他们为那 43% 做设计。 重试、回退、在不可逆操作上设一个人工检查点,以及对失败 做诚实的日志记录——这样那些注定会发生的失败才能被抓住、被恢复,而不是被发布出去。
这些都不光鲜。但所有这些加起来,就是一个 57% 的演示和一个被人信任的产品之间的差别。
结论
「AI 智能体在生产环境里只有 57% 的时候能用」读起来像一句要命的统计, 如果你把它当成天花板,那你永远都不会去做一个。但它不是天花板——它是那些基本上只把演示 做出来了的团队的行业平均值。基准分数从来都不是产品。可靠性才是产品, 而可靠性来自对链条的工程化:更少的步骤、每一步都被检查、上下文被管理好、失败被预先设计好。
所以当你评估一个智能体的时候,请不要信那个来自顺风路径的数字,去问那个更难的问题: 碰上那 43% 的时候会发生什么?那些对这个问题有真实答案的团队, 才是那些智能体到下个季度还在跑的团队。演示是免费的。剩下那 43%,才是全部的活儿。
评论
暂无评论
登录以参与讨论。
做第一个分享想法的人。