ARCHITECTURE · 2026年6月15日

试点很便宜。生产环境不会。

你的 AI 试点跑得很棒，几乎不花钱。那个数字骗了你。当团队把一个 AI 功能从试点推到生产时，基础设施成本经常是最初预估的 3到5倍——这也是为什么 95% 的生成式 AI 试点最终从未变成能在 P&L 上看得见的东西的一大原因。试点便宜，是因为它规模小、有人盯着、跑的都是简单情况。生产环境一样都不沾。本文拆解这个 3到5倍藏在哪里，以及如何在它发起伏击之前把它算进价格里。

AI 试点跑得漂亮。能用，演示惊艳，账单小到几乎是个四舍五入的误差。于是你脑子里揣着那个数字给生产环境开了绿灯——而那个数字是整个项目里最具误导性的东西。当团队真正去扩展一个 AI 功能时，成本经常是最初预估的 3到5倍，而这个落差正是 95% 的生成式 AI 试点从未产生可衡量的财务结果的一大原因。

这不是运气差，也不是估算马虎。试点便宜是有结构性原因的，而每一个原因都在你上生产环境的那一刻消失。如果你不知道这个 3到5倍是从哪儿来的，看上去就像项目变贵了。它没有变贵。它只是不再隐藏自己的真实成本。让我带你看看它住在哪里。

试点便宜，是因为它规模小、有人盯着、还简单

有三样东西让试点变得便宜，而这三样都是暂时的。它规模小——一小撮用户，一丝丝请求量，一份你几乎察觉不到的 token 账单。它有人盯着——旁边就有人随时抓住奇怪的输出，所以你还不需要那些护栏、重试和监控——而自动抓住这些问题恰恰需要它们。它跑的是简单情况——你一开始自然会拿来测试的那些干净的、顺风路径的输入。

生产环境把这三样全都反转。规模小变成了每天数千次请求，token 账单随之线性增长，而且是永远地增长。有人盯着变成了没人盯着，于是现在你要为监控、为兜底逻辑、为检查第一个模型的第二个模型付钱。而简单情况变成了真实情况——脏的、长的、带敌意的输入，需要更大的上下文窗口、更多的重试、更贵的调用才能搞对。这些在试点里一样都没有。这些在账单里一样都不少。

没人会写进估算里的那些乘数

3到5倍不是一个大惊喜。它是一摞安静的乘数，每一个都合情合理，叠在一起：

重试和失败。 真实输入会失败、会被重试。每次重试都是又一次付费调用，而在规模之下，失败率永远不会是零。
上下文膨胀。 顺风路径的提示词很短。真实请求会拖进历史、文档和上下文，而你要为这一切按 token 付费，每一次都付。
检查层。 生产环境需要抓住自己的错误——第二个模型、一道验证、一个护栏。这可能让一次用户操作背后的调用数翻倍。
需要用贵模型的边缘情况。 简单的 80% 跑在便宜模型上。困难的 20% 悄悄被路由到贵的那个，而它在真实流量里的占比，比在试点流量里更大。

这些单独看每一个都很明智。叠在一起，就是一个只花几分钱的试点变成一个花真金白银的生产系统的过程。

如何在它伏击你之前把它算进价格

你没法让生产环境像试点一样便宜，但你可以做到不再被它吓一跳：

按困难情况估算每次请求的成本，而不是简单情况。 给那个脏的、长的、被重试的请求定价——生产环境实际上就长这样。
把检查和监控的调用加进你的算式。 如果抓错误会让你的调用翻倍，那现在就把翻倍算进估算里，别等到账单上才算。
乘以一个现实的量，然后加一个余量。 拿你诚实的每次请求成本，按真实流量来放大，并且假设它会落得比那更高。为 3到5倍做规划，就是为通常会发生的事情做规划。

一个生产环境的 AI 功能完全可能值它的成本。但前提是你进场时就知道这个成本。

底线

便宜的试点是 AI 项目里最贵的谎言，因为它设定了一个生产环境无法满足的预期，并让真实数字看起来像是失败，而不是真相。

试点便宜，是因为它规模小、有监督、在简单情况上测试——而生产环境一样都不沾，这就是 3到5倍的来源。 给困难情况定价，数清隐藏的调用，提前把这个乘数规划进去。被伏击的团队，不是那些花得太多的人。而是那些相信了试点的人。

暂无评论

登录以参与讨论。

做第一个分享想法的人。