全部笔记
试点很便宜。生产环境不会。

2026年6月15日

试点很便宜。生产环境不会。

你的 AI 试点跑得很棒,几乎不花钱。那个数字骗了你。当团队把一个 AI 功能从试点推到生产时,基础设施成本经常是最初预估的 3到5倍——这也是为什么 95% 的生成式 AI 试点最终从未变成能在 P&L 上看得见的东西的一大原因。试点便宜,是因为它规模小、有人盯着、跑的都是简单情况。生产环境一样都不沾。本文拆解这个 3到5倍藏在哪里,以及如何在它发起伏击之前把它算进价格里。

AI 试点跑得漂亮。能用,演示惊艳,账单小到几乎是个四舍五入的误差。于是你脑子里揣着那个数字给生产环境开了绿灯——而那个数字是整个项目里最具误导性的东西。当团队真正去扩展一个 AI 功能时,成本 经常是最初预估的 3到5倍, 而这个落差正是 95% 的生成式 AI 试点从未产生可衡量的财务结果 的一大原因。

这不是运气差,也不是估算马虎。试点便宜是有结构性原因的,而每一个原因都在你上生产环境的那一刻消失。如果你不知道这个 3到5倍是从哪儿来的,看上去就像项目变贵了。它没有变贵。它只是不再隐藏自己的真实成本。让我带你看看它住在哪里。

试点便宜,是因为它规模小、有人盯着、还简单

有三样东西让试点变得便宜,而这三样都是暂时的。它规模小——一小撮用户,一丝丝请求量,一份你几乎察觉不到的 token 账单。它有人盯着——旁边就有人随时抓住奇怪的输出,所以你还不需要那些护栏、重试和监控——而自动抓住这些问题恰恰需要它们。它跑的是简单情况——你一开始自然会拿来测试的那些干净的、顺风路径的输入。

生产环境把这三样全都反转。规模小变成了每天数千次请求,token 账单随之线性增长,而且是永远地增长。有人盯着变成了没人盯着,于是现在你要为监控、为兜底逻辑、为检查第一个模型的第二个模型付钱。而简单情况变成了真实情况——脏的、长的、带敌意的输入,需要更大的上下文窗口、更多的重试、更贵的调用才能搞对。这些在试点里一样都没有。这些在账单里一样都不少。

没人会写进估算里的那些乘数

3到5倍不是一个大惊喜。它是一摞安静的乘数,每一个都合情合理,叠在一起:

  • 重试和失败。 真实输入会失败、会被重试。每次重试都是又一次付费调用,而在规模之下,失败率永远不会是零。
  • 上下文膨胀。 顺风路径的提示词很短。真实请求会拖进历史、文档和上下文,而你要为这一切按 token 付费,每一次都付。
  • 检查层。 生产环境需要抓住自己的错误——第二个模型、一道验证、一个护栏。这可能让一次用户操作背后的调用数翻倍。
  • 需要用贵模型的边缘情况。 简单的 80% 跑在便宜模型上。困难的 20% 悄悄被路由到贵的那个,而它在真实流量里的占比,比在试点流量里更大。

这些单独看每一个都很明智。叠在一起,就是一个只花几分钱的试点变成一个花真金白银的生产系统的过程。

如何在它伏击你之前把它算进价格

你没法让生产环境像试点一样便宜,但你可以做到不再被它吓一跳:

  • 按困难情况估算每次请求的成本,而不是简单情况。 给那个脏的、长的、被重试的请求定价——生产环境实际上就长这样。
  • 把检查和监控的调用加进你的算式。 如果抓错误会让你的调用翻倍,那现在就把翻倍算进估算里,别等到账单上才算。
  • 乘以一个现实的量,然后加一个余量。 拿你诚实的每次请求成本,按真实流量来放大,并且假设它会落得比那更高。为 3到5倍做规划,就是为通常会发生的事情做规划。

一个生产环境的 AI 功能完全可能值它的成本。但前提是你进场时就知道这个成本。

底线

便宜的试点是 AI 项目里最贵的谎言,因为它设定了一个生产环境无法满足的预期,并让真实数字看起来像是失败,而不是真相。

试点便宜,是因为它规模小、有监督、在简单情况上测试——而生产环境一样都不沾,这就是 3到5倍的来源。 给困难情况定价,数清隐藏的调用,提前把这个乘数规划进去。被伏击的团队,不是那些花得太多的人。而是那些相信了试点的人。

评论

暂无评论

登录以参与讨论。

做第一个分享想法的人。