AI-NATIVE · 2026年6月7日

对长时间运行的智能体来说，每个任务的成本才是唯一的基准

英伟达新推出的 Nemotron 3 Ultra 卖点不是「最聪明的模型」，而是「连续跑好几个小时也便宜」——专为那些要做规划、调用工具、跨上百轮推理的智能体打造。这个定位才是真正值得关注的事。当一个智能体长时间运行，真正重要的数字就不再是基准跑分或每个 token 的单价，而是「完成一个任务要花多少钱」。两个 token 单价相同的模型，在真实任务上的开销可能差出两倍。下面说说，为什么一旦你的智能体运行时间超过一瞬间，排行榜就成了错误的选购依据。

英伟达在 6 月 4 日发布了一个新的开源模型，有意思的不是它的排行榜分数，而是它的定位。Nemotron 3 Ultra 的卖点是为长时间运行的智能体跑得更快、更便宜：那种要做规划、调用工具、跨多轮推理的智能体。英伟达声称它的吞吐量比同类开源模型高约 5 倍，在智能体任务上成本最多降低 30%，甚至还提供了一个「中等强度」推理模式，比完整推理少用大约 2.5 倍的 token。

一个把「能长时间便宜运行」当作头号卖点的模型，恰恰告诉了你市场现在真正在哪里。对智能体来说，有意思的竞争已经不再是谁能登顶智能基准榜了，而是谁能用最少的钱把活干完——而这和排行榜上的那个数字，完全是两码事。

为什么「长时间运行」会改变整个等式

一次性的模型调用很便宜，每个 token 的单价几乎无关紧要。但一个要跑好几个小时的智能体是另一种生物：它规划、阅读、调用工具、读取结果、推理、再调用另一个工具，一遍又一遍，有时要走上百步。这每一步都在花 token，而且它们会累积。一次长时间运行的智能体的成本不是可以忽略不计的小数点，它是主导成本，而且随着每一轮不断增长。

这改变了你应该优化的目标。对聊天机器人来说，「哪个模型每个回答最聪明」是个不错的问题。但对长时间运行的智能体来说，问题变成了「哪个模型能以最低的总花费抵达正确的终点」—— 而这两个问题的答案是不一样的。一个在基准上稍微逊色、却只用一半 token 就完成实际任务的模型，才是更好的选择，而排行榜永远不会告诉你这一点。

每个 token 的单价也是个陷阱

这是让很多人栽跟头的地方。你会以为最便宜的模型就是每个 token 单价最低的那个。其实不一定。你实际付的钱是「每个 token 的单价」乘以「用掉的 token 数」，而模型在第二个因子上差异巨大。

数据很说明问题：在一项分析里，两个 token 单价大体相近的模型，跑完同一个基准的花费却是约 $817 对 $1,888 ——相差一千多美元，因为其中一个在真正把活干完这件事上的 token 效率高得多。标价一样，账单翻倍。这就是为什么智能体经济学里严肃的衡量框架，已经转向了每个成功的工作流步骤花多少钱，而不是每个原始 token 花多少钱。一个话痨型模型，哪怕每个 token 再便宜，如果要多花三倍的步骤才能完成，那也是贵的。 Nemotron 的整套设计——更少的激活参数、面向长序列的更轻量架构、一个可调的强度旋钮—— 赌的就是赢下那个真实的数字，而不是标价上的数字。

到底该衡量什么

这是问题的实操核心，而且它和我之前讲过的几件事是连着的。基准分数从来都不是真正的任务，而在模型上花钱的正确方式，是让模型匹配工作。长时间运行的智能体让这两点都变得具体而紧迫。所以：

衡量每个完成任务的成本，而不是每个 token，也不是排行榜。 把你真实的工作流在每个候选模型上完整跑一遍，对比抵达一次正确完成所需的总成本。就是这一个数字，悄悄决定了你的利润率。
统计「抵达完成所需的 token」，而不只是单价。 一个每个 token 更便宜但啰嗦的模型，可能比一个更贵却言简意赅、干脆利落的模型花得更多。抵达终点的效率，才是那个隐藏的变量。
用好效率杠杆。 强度模式、提示缓存、跨轮复用稳定的上下文——在一个反复调用的智能体上，这些能大幅削减实际成本。贵的部分是那些全新的、未缓存的工作；设计时要尽量复用其余部分。
每一步都按需配置规模。 一次长时间运行并不需要每一轮都用你最贵的模型。常规步骤用便宜、快速的模型，只在真正值回成本的地方才动用那个强模型——这一招依然成立，只是现在要按整次运行来衡量，而不是单次调用。

结论

当英伟达的旗舰智能体模型靠「能长时间便宜运行」来竞争，而不是去登顶智能榜，这就是市场在告诉你现在什么才重要。对任何运行时间超过单次回答的东西来说，排行榜都是错误的选购依据。基准衡量的是一个模型在一道题上有多聪明。你的账单衡量的是它连续完成一百道题时的效率有多高——而这两个数字里，只有一个会出现在你的发票上。

所以在为智能体挑模型之前，别再问「哪个最聪明」，开始问「哪个能用最少的钱完成我的实际任务」。跑一遍，数清楚抵达正确结果花了多少钱，然后据此选择。那个最聪明却要烧掉两倍 token 才到达终点的模型，并不是更好的智能体。它只是抵达同一个地方的更贵的方式。

暂无评论

登录以参与讨论。

做第一个分享想法的人。