2026年6月4日
Tokenmaxxing:当古德哈特定律盯上了 AI
企业想要‘AI 采用率’,于是它们衡量了最容易测的代理指标——token 用量——把它做成排行榜,结果如愿以偿地得到了它们衡量的东西:人们拼命烧 token 去爬榜,而不是把活干得更好。这是一条五十年历史的定律,正在吞噬一套全新的战略,而且现在它要付两次代价:你为浪费掉的 token 买单,又毒化了你本想得到的信号。解法同样古老——衡量结果,而不是衡量活动。
2026 年,好几家大型科技公司开始按员工用了多少 AI token 来给自己人排名。Amazon 搭了一个内部排行榜;员工的回应是 整天跑些毫无意义、低价值的任务来刷高自己的分数 ——不是因为这些活该干,而是因为活动能让那个数字动起来。在 Meta,一名员工做了个叫 “Claudeonomics” 的看板,把公司 约 85,000 名员工按 token 消耗排名;在某个 30 天的窗口里,它记录了超过 60 万亿个 token (Zuckerberg 和 CTO 都没能挤进前 250 名)。人们开始管这叫 tokenmaxxing(拼命刷 token),这是我这些年见过最干净利落的一记管理乌龙球。
这不过是古德哈特定律,只是表跑得更快
这里发生的事既不新鲜也不神秘。这是一条五十年历史的原理,叫 古德哈特定律(Goodhart's law): 当一个衡量指标变成目标时,它就不再是一个好指标了。 就在 “token 用量” 从一个有人随便瞄一眼的数字,变成一个人们被据此排名的数字的那一刻,它就不再衡量生产力,而开始衡量另一样完全不同的东西——人类钻排行榜空子的本事。正如一篇分析所言,这个指标现在衡量的 正是这个,仅此而已。
聪明的公司为什么会笔直地踩进去?因为 “AI 采用率” 正是董事会想看到的,而用量是世上最容易数的东西。token 是可见的、可计数的、可以放进 dashboard 的。AI 究竟有没有让工作变得 更好,则很难衡量。于是它们衡量了那个容易的代理指标,而不是那个难啃的真相——然后就得到了被最大化的代理指标。说白了: 当你衡量用量,你得到的就是浪费。
这个错我们已经犯了无数次
如果这让你觉得似曾相识,那是应该的。按代码行数给工程师付钱,你会得到臃肿、注水的代码。设定 commit 配额,开发者就会 把一处改动拆成五块碎片。 按通话时长给呼叫中心排名,你会得到一批被匆匆赶下电话、问题一个没解决的客户。Tokenmaxxing 不过是史上最古老那个管理错误在 AI 时代的换皮版:因为 活动 容易数就去奖励它,结果得到的是活动,而不是结果。它没有任何新东西,唯一变的是表跑得更快了。
只不过现在,这个虚荣指标还在烧钱
这就是 AI 版比代码行数更糟糕的地方。一个糟糕的指标过去顶多浪费些力气。而这一个是 实打实地在烧钱——每一个被刷出来的 token 都是你花钱买的 token,这也正是 2026 年那场成本恐慌叫得那么响的不小一部分原因。所以你付两次代价:一次为浪费掉的算力,再一次为被污染的信号。你买了一个完全说不清 AI 到底有没有帮上忙的数字,还把它写进了自己的账单。这是一种了不起的花钱方式——出资去摧毁你自己的数据。
解法就是那个无聊但正确的答案:衡量结果
出路不是搞一个更聪明的用量指标。用量根本就是错的衡量对象。你必须衡量 结果——活到底有没有干完,结果好不好,客户的问题有没有被解决——这些更难计数,也难刷得多。数据支持这一点:那些把 AI 与真实结果挂钩的组织,报告由 AI 驱动的营收增长的概率,比那些还停留在试点阶段的组织 高出近四倍——而拉开差距的因素,明确地 不是 谁的用量最多。
这正是我一直针对模型反复主张的那套纪律,只不过这次对准的是你的组织。你不会用一个 agent 跑了多少次来评判它;你用一个 由真实结果构成的 held-out 集(留出验证集)来评判它。对人和团队也是同一条规则:奖励结果,而不是 token 数。还有一项用量看板永远不会暴露的、悄无声息的人力代价——调查发现,约四分之一的员工会因为被逼着以自己并不认同的方式使用 AI 而考虑离职,而注意到任何抵触情绪的雇主却只占极小一部分。人们当面服从、暗中抵抗,而你的排行榜还兴高采烈地把这份服从汇报成成功。
结论
AI 没有搞坏你的指标。它只是把史上最古老的那个衡量错误,变得更快、更贵。用量从来都不是目标——更好的工作才是。这条规则没变,而且不留情面:无论你把什么数字放上 dashboard,都会有人去优化它,所以你得非常确定那个数字就是你真正想要的东西,而不只是那个容易数的东西。去衡量工作有没有变得更好——否则就花大价钱看着排行榜节节攀升,而实际什么都没在变好。
评论
暂无评论
登录以参与讨论。
做第一个分享想法的人。