AGENTS · 2026年6月3日

大多数 AI 智能体永远到不了生产环境

demo 惊艳无比。然后这个智能体就再也没上线。2025–26 年一份又一份调研都撞上同一道悬崖：几乎人人都有一个 agent 试点，几乎没人把它做进生产环境。原因不在模型——而在那些 demo 让你跳过的、毫不光鲜的工程。下面讲讲那真正能上线的一小撮人做对了什么。

你见过那个 demo。一个智能体接过一个含糊的请求，在各种工具间散开，写好代码、订好行程、关掉工单——完美无瑕，台上演示，掌声雷动。看上去未来提前到了。然后，几个月后，你悄悄发现它从没上线。试点还是试点。没人真的在用它。

这是眼下 AI 领域最常见的剧情，也值得我们诚实面对，因为「惊艳的 demo」和「真实用户依赖的东西」之间那道鸿沟，正是几乎每个智能体死去的地方。

这道悬崖，用数字说话

这不是凭感觉——它被一次又一次量化过，而且数字很残酷。

MIT 的 NANDA 计划在 2025 年发布了 The GenAI Divide，发现 95% 的企业生成式 AI 试点没有带来任何可衡量的回报——只有大约 5% 真正产生了影响。2026 年 3 月一份针对 650 位企业高管的调研得出了同样的形状： 78% 有 agent 试点，但只有 14% 进了生产环境。换个角度看同一批数据：67% 在试点阶段看到了收益，10% 把它规模化了——也就是说，大约 90% 卡死在「能跑通的概念验证」和「有人真正依赖的系统」之间那道缝隙里。

不管确切数字是多少，结论都一模一样：让一个智能体在 demo 里跑通一次，如今很容易。让它 每一次都跑通、在生产环境里，才是车轮脱落的地方。

从来都不是模型的问题

人们恰恰把这一点搞反了。你那个失败试点里的模型，和别人那个成功试点里的模型，是同一个模型。前沿是共享的；它就是一次 API 调用。如果瓶颈是模型本身的原始能力，你会看到少数赢家手握秘密模型，其余所有人落败。但事实不是这个样子。事实是 同样的模型，让少数人成功，让大多数人卡死。

MIT 对问题真正所在直言不讳：失败可以追溯到一个 「学习鸿沟」——那些无法把模型整合进真实工作流、组织结构和数据的公司——而不是模型质量。 2026 年的一项分析发现，五个鸿沟解释了 89% 的规模化失败：与现有系统的集成、规模化时输出质量不稳定、没有监控工具、归属不清、领域数据单薄。看看这份清单。没有一条是「模型不够聪明」。每一条都是工程和运维——正是 demo 让你跳过的那部分活。

demo 是精心挑选的最佳情况

demo 之所以骗人，是结构性的，不是出于不诚实。在 demo 里你掌控一切：你挑输入、你挑顺利路径、你挑那个时刻。你展示的是智能体能够成功——一次，在你选定的条件下。

生产环境是「精心挑选」的反面。它会在凌晨三点，以你从没想象过的格式，海量地送来各种输入，还有用户主动想把它搞崩。而处在中间的那个部件，是一个非确定性的猜测器。一个 90% 时候是对的智能体，是一场胜利的 demo，也是一场生产环境的噩梦：每天一千次请求，那就是每天一百次自信满满的失败，在多步链条中不断累积，直到智能体彻底偏离任务。demo 衡量的是「它能跑通吗？」生产环境衡量的是「面对我没挑选过的输入，它还能持续跑通吗？」——这是一个完全不同、难得多的问题。

真正能上线的那一小撮人究竟做了什么

跨过这道鸿沟的团队，不是那些有更聪明 prompt 或秘密模型的团队。他们是那些做了无聊工程的团队——而那正是 demo 诱惑所有人跳过的部分。具体来说：

他们用衡量代替凭感觉。 demo 靠感觉评判；生产环境靠数字评判。能上线的团队有一套留出的 eval 集，在用户之前就知道自己真实的成功率。你无法改进、甚至无法信任你没有衡量过的东西。
他们给模型做锚定（grounding）。 为了让第一千个答案不至于自信地出错，事实来自一个确定性的来源，模型只负责把它措辞表达出来——这是一个约束，而不是一句 prompt。在「规模化时输出质量一致」这件事上，这是最大的那根杠杆，而它正是五个杀手之一。
他们给它装上仪表。 「没有监控工具」上榜失败原因是有理由的。幸存者能看到他们的智能体做了什么、在哪里漂移、花了多少钱——是在生产环境里，而不只是在一个 notebook 里。
他们把范围收窄，并指定一个负责人。 不是 demo 里那种无所不能的全能智能体，而是一个职责明确的小智能体，活在真实系统里，有人对它负责。「归属不清」干掉的试点，和糟糕的技术一样多。

这些没有一项是 AI 魔法。这就是同一套工程纪律，正是它把经久耐用的软件和那些 demo 漂亮、随即崩塌的软件区分开来。智能体只是让这道鸿沟更显眼，因为相比普通代码，一个猜测器会更快地惩罚缺失的纪律。

demo 和产品是两种不同的技能

这就是其中令人不适的内核。一个出色的 demo 为「看它能做什么」而优化——最大化能力，一次精心安排的展示。一个生产系统为「它可靠地把无聊的事情永远做下去，面对没人筛选过的输入」而优化。这两者不是同一种技能，而且常常彼此冲突。demo 本质上是一件销售产物。产品是一件工程产物。那卡死的 95% 造出了前者，并假定后者会自然跟上。但它不会。

所以，如果你正盯着一个在 demo 里惊艳、却扛不住真实用户冲击的智能体，那块缺失的拼图几乎肯定不是更好的模型或更聪明的 prompt。它是那不光鲜的部分：evals、锚定（grounding）、监控、范围、归属——正是这套工程，把「它跑通过一次」变成「它每次都跑通」。能进到生产环境的那一小撮人，并不是对 AI 更聪明。他们只是没有跳过那无聊的 80%。

这就是全部秘密。demo 是容易的部分。人人都能搞出 demo。产品是 demo 之后的工程——而那部分，从来就不是可选的。

暂无评论

登录以参与讨论。

做第一个分享想法的人。