AGENTS · 2026年6月3日

一个便宜的模型能搞定 90% 的活

默认做法是把最大、最聪明的模型怼到所有事情上。它在 demo 里跑得很好，然后在规模化时悄悄把你拖垮——因为 agent 做的大部分事情不是推理，而是机械劳动，而你却在花天才的工资让它读一张表单。解法很无聊，但能省下约 90%：让聪明的模型做规划，让便宜的模型干活。下面讲清楚经济账，以及让这一切成为可能的那一条架构准则。

人们构建第一个 agent 时，会对所有事情都掏出最好的模型。这当然合情合理——这是最稳妥的选择，它给出最好的答案，而在 demo 里成本不过是个零头。把最聪明的模型怼到整个问题上，看着它跑起来。

然后它上了生产环境，调用量翻了好几个数量级，账单就来了。结果发现，"直接用最好的模型"根本不是一个中性的默认值。它是一个决定：为每一个琐碎的步骤都付最高价 ——而大部分步骤都是琐碎的。

价格差距巨大，却没人去看

这个数字应该能重新定义整件事。在 2026 年，LLM API 的价格从小模型的约 每百万输入 tokens 0.10 美元 到前沿推理模型的 每百万 30 美元 不等 ——对于简单任务上产出几乎无法区分的输出来说，差距大约是 300 倍。

CloudZero 把它的实际版本说得很直白：在一个不需要前沿推理的工作负载上用前沿模型，可能 贵 16 倍，质量却没有任何有意义的提升。同样的答案，付十六倍的价钱。在你技术栈的任何其他地方你都绝不会接受这种事，但对模型，大多数团队甚至从不检查——他们一次性挑出最好的那个，然后把 所有东西 都路由过去。

agent 做的大部分事情不是思考

这之所以如此浪费，是因为一个 agent 任务并不是一次伟大的天才之举。把一个真实任务拆开，你会发现几个真正困难的步骤埋在一堆机械步骤里：从这段 JSON 里抽取一个字段、给这条消息分类、把那个列表重新排版、决定调用哪个工具、总结一个段落、填一个模板。困难的部分——理解目标、规划方法——可能只是五十步里的一步。

用一个每百万 30 美元的推理模型去跑"从这段文本里把订单 ID 抠出来"，就是花一个资深工程师的时薪去给抽屉按字母排序。它的错不在于失败——它跑得好好的。它的错在于你买了一份你用不上的能力，每个任务买五十次，永远买下去。

模式：聪明的模型做规划，便宜的模型干活

这个解法有个名字——规划-执行（plan-and-execute）——而它就是字面意思。一个有能力的（昂贵的）模型审视请求并产出一份计划：推理、拆解、策略。然后便宜、快速的模型去执行这份计划的每一步，因为一旦思考做完了，这些步骤就是机械的，小模型做得一样好。

LangChain 的文章和其他人把节省幅度定在相比凡事都用前沿模型 高达 90%。这不是什么旁门左道的小技巧。它和 Klarna 的做法很接近：一个前沿模型分析客户的意图并规划出解决步骤，而较小的模型去做实际的活 ——拉取账户数据、处理退款、生成回复。把天才花一次，花在真正需要它的部分；其余的批发着买。

还有一点会让人意外：质量通常不会下降。在一个范围窄、定义清晰的步骤上，小模型往往更好——更快、更可预测，也更不容易对一个只想要一件无聊事情的任务"发挥创意"。让模型匹配任务并不是一种牺牲。那个过大的模型在那些步骤上本来就没有添加任何东西。

让这一切成为可能的准则：永远不要硬编码模型

这里有个坑，而且是架构层面的。你只有在代码没有焊死在某一个模型上时，才能按任务路由。如果 gpt-whatever 被硬编码在你业务逻辑的中间，你就没法在不动手术的情况下把一个便宜模型换进那些机械步骤——所以你不换，于是你继续多付钱。

这就是我一再回到的那条纪律：模型是一个依赖，而依赖应该待在边界之后，被注入，而不是被烤死在代码里。逻辑里硬编码的模型名是一种代码坏味道，原因和硬编码的价格或硬编码的 API key 一样——它是一个可替换的细节，却伪装成一个固定的事实。把它放到一道干净的接缝之后，"这里换个更便宜的模型"就变成了改一行配置，而不是一次重构。（我曾经只改一个值，就把我某个产品背后的整个提供商换掉了 ——那不是运气，只是没有把那个本来就注定要变的东西硬编码而已。）

一旦模型成为一个可替换的参数，路由就自然而然地出现了：一个轻量的分类器或几条启发式规则判断每一步的复杂度，并把它送到合适的档位。单是路由 ——简单的多数用便宜模型，困难的少数用前沿模型——通常被报告能在保持困难案例质量的同时削减 60–80% 的成本。

为什么浪费的默认做法还是赢了

如果这显然更好，为什么不是每个人都这么做？原因和便宜的架构赢下会议一样：浪费恰恰在你做决定的那一刻是隐形的。在 demo 里，"凡事都用最好的模型"最容易构建，成本只有几美分。让它变成错误的那张账单，要等到你规模化之后才会到来——而那时它已经是一笔五位数或六位数的开销，挂在一份到处硬编码模型的代码上，所以修复它现在成了一个项目。这个偷懒的默认做法选起来便宜，活在其中却昂贵。你没有省下力气；你只是推迟了一张账单，并让它利滚利。

这里还有一个面子问题：掏出最大的模型感觉像是那个严肃、稳妥的选择。它不是。在一个排版步骤上花前沿模型的钱不是严谨——只是没去看过而已。真正的工程是知道你流水线里的哪 10% 需要那颗昂贵的大脑，并且拥有能只把那 10% 送过去的架构。

前沿模型不是炫耀的资本。知道在哪里你不需要它，才是。

暂无评论

登录以参与讨论。

做第一个分享想法的人。