2026年6月3日
大多数 AI 智能体永远到不了生产环境
demo 惊艳无比。然后这个智能体就再也没上线。2025–26 年一份又一份调研都撞上同一道悬崖:几乎人人都有一个 agent 试点,几乎没人把它做进生产环境。原因不在模型——而在那些 demo 让你跳过的、毫不光鲜的工程。下面讲讲那真正能上线的一小撮人做对了什么。
你见过那个 demo。一个智能体接过一个含糊的请求,在各种工具间散开,写好代码、订好行程、关掉工单——完美无瑕,台上演示,掌声雷动。看上去未来提前到了。然后,几个月后,你悄悄发现它从没上线。试点还是试点。没人真的在用它。
这是眼下 AI 领域最常见的剧情,也值得我们诚实面对,因为「惊艳的 demo」和「真实用户依赖的东西」之间那道鸿沟,正是几乎每个智能体死去的地方。
这道悬崖,用数字说话
这不是凭感觉——它被一次又一次量化过,而且数字很残酷。
MIT 的 NANDA 计划在 2025 年发布了 The GenAI Divide, 发现 95% 的企业生成式 AI 试点没有带来任何可衡量的回报——只有大约 5% 真正产生了影响。2026 年 3 月一份针对 650 位企业高管的调研得出了同样的形状: 78% 有 agent 试点,但只有 14% 进了生产环境。 换个角度看同一批数据:67% 在试点阶段看到了收益,10% 把它规模化了——也就是说,大约 90% 卡死在「能跑通的概念验证」和「有人真正依赖的系统」之间那道缝隙里。
不管确切数字是多少,结论都一模一样:让一个智能体在 demo 里跑通一次,如今很容易。让它 每一次都跑通、在生产环境里,才是车轮脱落的地方。
从来都不是模型的问题
人们恰恰把这一点搞反了。你那个失败试点里的模型,和别人那个成功试点里的模型,是同一个模型。前沿是共享的;它就是一次 API 调用。如果瓶颈是模型本身的原始能力,你会看到少数赢家手握秘密模型,其余所有人落败。但事实不是这个样子。事实是 同样的模型,让少数人成功,让大多数人卡死。
MIT 对问题真正所在直言不讳:失败可以追溯到一个 「学习鸿沟」——那些无法把模型整合进真实工作流、组织结构和数据的公司——而不是模型质量。 2026 年的一项分析发现, 五个鸿沟解释了 89% 的规模化失败: 与现有系统的集成、规模化时输出质量不稳定、没有监控工具、归属不清、领域数据单薄。看看这份清单。没有一条是「模型不够聪明」。每一条都是工程和运维——正是 demo 让你跳过的那部分活。
demo 是精心挑选的最佳情况
demo 之所以骗人,是结构性的,不是出于不诚实。在 demo 里你掌控一切:你挑输入、你挑顺利路径、你挑那个时刻。你展示的是智能体 能够 成功——一次,在你选定的条件下。
生产环境是「精心挑选」的反面。它会在凌晨三点,以你从没想象过的格式,海量地送来各种输入,还有用户主动想把它搞崩。而处在中间的那个部件,是一个 非确定性的猜测器。一个 90% 时候是对的智能体,是一场胜利的 demo,也是一场生产环境的噩梦:每天一千次请求,那就是每天一百次自信满满的失败,在多步链条中不断累积,直到智能体彻底偏离任务。demo 衡量的是「它能跑通吗?」生产环境衡量的是「面对我没挑选过的输入,它还能持续跑通吗?」——这是一个完全不同、难得多的问题。
真正能上线的那一小撮人究竟做了什么
跨过这道鸿沟的团队,不是那些有更聪明 prompt 或秘密模型的团队。他们是那些做了无聊工程的团队——而那正是 demo 诱惑所有人跳过的部分。具体来说:
- 他们用衡量代替凭感觉。 demo 靠感觉评判;生产环境靠数字评判。能上线的团队有一套留出的 eval 集,在用户之前就知道自己真实的成功率。你无法改进、甚至无法信任你没有衡量过的东西。
- 他们给模型做锚定(grounding)。 为了让第一千个答案不至于自信地出错,事实来自一个确定性的来源,模型只负责把它措辞表达出来——这是一个 约束,而不是一句 prompt。在「规模化时输出质量一致」这件事上,这是最大的那根杠杆,而它正是五个杀手之一。
- 他们给它装上仪表。 「没有监控工具」上榜失败原因是有理由的。幸存者能看到他们的智能体做了什么、在哪里漂移、花了多少钱——是在生产环境里,而不只是在一个 notebook 里。
- 他们把范围收窄,并指定一个负责人。 不是 demo 里那种无所不能的全能智能体,而是一个职责明确的小智能体,活在真实系统里,有人对它负责。「归属不清」干掉的试点,和糟糕的技术一样多。
这些没有一项是 AI 魔法。这就是 同一套工程纪律,正是它把经久耐用的软件和那些 demo 漂亮、随即崩塌的软件区分开来。智能体只是让这道鸿沟更显眼,因为相比普通代码,一个猜测器会更快地惩罚缺失的纪律。
demo 和产品是两种不同的技能
这就是其中令人不适的内核。一个出色的 demo 为「看它能做什么」而优化——最大化能力,一次精心安排的展示。一个生产系统为「它可靠地把无聊的事情永远做下去,面对没人筛选过的输入」而优化。这两者不是同一种技能,而且常常彼此冲突。demo 本质上是一件销售产物。产品是一件工程产物。那卡死的 95% 造出了前者,并假定后者会自然跟上。但它不会。
所以,如果你正盯着一个在 demo 里惊艳、却扛不住真实用户冲击的智能体,那块缺失的拼图几乎肯定不是更好的模型或更聪明的 prompt。它是那不光鲜的部分:evals、锚定(grounding)、监控、范围、归属——正是这套工程,把「它跑通过一次」变成「它每次都跑通」。能进到生产环境的那一小撮人,并不是对 AI 更聪明。他们只是没有跳过那无聊的 80%。
这就是全部秘密。demo 是容易的部分。人人都能搞出 demo。产品是 demo 之后的工程——而那部分,从来就不是可选的。
评论
暂无评论
登录以参与讨论。
做第一个分享想法的人。