2026年6月7日
对长时间运行的智能体来说,每个任务的成本才是唯一的基准
英伟达新推出的 Nemotron 3 Ultra 卖点不是「最聪明的模型」,而是「连续跑好几个小时也便宜」——专为那些要做规划、调用工具、跨上百轮推理的智能体打造。这个定位才是真正值得关注的事。当一个智能体长时间运行,真正重要的数字就不再是基准跑分或每个 token 的单价,而是「完成一个任务要花多少钱」。两个 token 单价相同的模型,在真实任务上的开销可能差出两倍。下面说说,为什么一旦你的智能体运行时间超过一瞬间,排行榜就成了错误的选购依据。
英伟达在 6 月 4 日发布了一个新的开源模型,有意思的不是它的排行榜分数,而是它的定位。Nemotron 3 Ultra 的卖点是 为长时间运行的智能体跑得更快、更便宜: 那种要做规划、调用工具、跨多轮推理的智能体。英伟达声称它的吞吐量比同类开源模型高约 5 倍,在智能体任务上成本最多降低 30%,甚至还提供了一个「中等强度」推理模式,比完整推理 少用大约 2.5 倍的 token。
一个把「能长时间便宜运行」当作头号卖点的模型,恰恰告诉了你市场现在真正在哪里。对智能体来说, 有意思的竞争已经不再是谁能登顶智能基准榜了,而是谁能用最少的钱把活干完——而这和排行榜上的那个数字, 完全是两码事。
为什么「长时间运行」会改变整个等式
一次性的模型调用很便宜,每个 token 的单价几乎无关紧要。但一个要跑好几个小时的智能体是另一种生物: 它规划、阅读、调用工具、读取结果、推理、再调用另一个工具,一遍又一遍,有时要走上百步。 这每一步都在花 token,而且它们会 累积。一次长时间运行的智能体的成本不是可以忽略不计的小数点, 它是主导成本,而且随着每一轮不断增长。
这改变了你应该优化的目标。对聊天机器人来说,「哪个模型每个回答最聪明」是个不错的问题。 但对长时间运行的智能体来说,问题变成了「哪个模型能以最低的总花费抵达正确的终点」—— 而这两个问题的答案是不一样的。一个在基准上稍微逊色、却只用一半 token 就完成实际任务的模型, 才是更好的选择,而排行榜永远不会告诉你这一点。
每个 token 的单价也是个陷阱
这是让很多人栽跟头的地方。你会以为最便宜的模型就是每个 token 单价最低的那个。其实不一定。 你实际付的钱是「每个 token 的单价」乘以「用掉的 token 数」,而模型在第二个因子上差异巨大。
数据很说明问题:在一项分析里,两个 token 单价大体相近的模型,跑完同一个基准的花费却是 约 $817 对 $1,888 ——相差一千多美元, 因为其中一个在真正把活干完这件事上的 token 效率高得多。标价一样,账单翻倍。这就是为什么 智能体经济学里严肃的衡量框架,已经转向了 每个成功的工作流步骤花多少钱,而不是每个原始 token 花多少钱。 一个话痨型模型,哪怕每个 token 再便宜,如果要多花三倍的步骤才能完成,那也是贵的。 Nemotron 的整套设计——更少的激活参数、面向长序列的更轻量架构、一个可调的强度旋钮—— 赌的就是赢下那个真实的数字,而不是标价上的数字。
到底该衡量什么
这是问题的实操核心,而且它和我之前讲过的几件事是连着的。基准分数 从来都不是真正的任务,而在模型上花钱的正确方式,是 让模型匹配工作。长时间运行的智能体让这两点都变得具体而紧迫。所以:
- 衡量每个完成任务的成本,而不是每个 token,也不是排行榜。 把你真实的工作流在每个候选模型上完整跑一遍,对比抵达一次 正确 完成所需的总成本。 就是这一个数字,悄悄决定了你的利润率。
- 统计「抵达完成所需的 token」,而不只是单价。 一个每个 token 更便宜但啰嗦的模型, 可能比一个更贵却言简意赅、干脆利落的模型花得更多。抵达终点的效率,才是那个隐藏的变量。
- 用好效率杠杆。 强度模式、提示缓存、跨轮复用稳定的上下文——在一个反复调用的智能体上, 这些能大幅削减实际成本。贵的部分是那些全新的、未缓存的工作;设计时要尽量复用其余部分。
- 每一步都按需配置规模。 一次长时间运行并不需要每一轮都用你最贵的模型。常规步骤用便宜、 快速的模型,只在真正值回成本的地方才动用那个强模型——这一招依然成立,只是现在要按整次运行来衡量, 而不是单次调用。
结论
当英伟达的旗舰智能体模型靠「能长时间便宜运行」来竞争,而不是去登顶智能榜, 这就是市场在告诉你现在什么才重要。对任何运行时间超过单次回答的东西来说, 排行榜都是错误的选购依据。基准衡量的是一个模型在一道题上有多聪明。你的账单衡量的是 它连续完成一百道题时的效率有多高——而这两个数字里,只有一个会出现在你的发票上。
所以在为智能体挑模型之前,别再问「哪个最聪明」,开始问「哪个能用最少的钱完成我的实际任务」。 跑一遍,数清楚抵达正确结果花了多少钱,然后据此选择。那个最聪明却要烧掉两倍 token 才到达终点的模型, 并不是更好的智能体。它只是抵达同一个地方的更贵的方式。
评论
暂无评论
登录以参与讨论。
做第一个分享想法的人。