METHODOLOGY · 2026年6月4日

Tokenmaxxing：当古德哈特定律盯上了 AI

企业想要‘AI 采用率’，于是它们衡量了最容易测的代理指标——token 用量——把它做成排行榜，结果如愿以偿地得到了它们衡量的东西：人们拼命烧 token 去爬榜，而不是把活干得更好。这是一条五十年历史的定律，正在吞噬一套全新的战略，而且现在它要付两次代价：你为浪费掉的 token 买单，又毒化了你本想得到的信号。解法同样古老——衡量结果，而不是衡量活动。

2026 年，好几家大型科技公司开始按员工用了多少 AI token 来给自己人排名。Amazon 搭了一个内部排行榜；员工的回应是整天跑些毫无意义、低价值的任务来刷高自己的分数 ——不是因为这些活该干，而是因为活动能让那个数字动起来。在 Meta，一名员工做了个叫 “Claudeonomics” 的看板，把公司约 85,000 名员工按 token 消耗排名；在某个 30 天的窗口里，它记录了超过 60 万亿个 token （Zuckerberg 和 CTO 都没能挤进前 250 名）。人们开始管这叫 tokenmaxxing（拼命刷 token），这是我这些年见过最干净利落的一记管理乌龙球。

这不过是古德哈特定律，只是表跑得更快

这里发生的事既不新鲜也不神秘。这是一条五十年历史的原理，叫 古德哈特定律（Goodhart's law）：当一个衡量指标变成目标时，它就不再是一个好指标了。就在 “token 用量” 从一个有人随便瞄一眼的数字，变成一个人们被据此排名的数字的那一刻，它就不再衡量生产力，而开始衡量另一样完全不同的东西——人类钻排行榜空子的本事。正如一篇分析所言，这个指标现在衡量的正是这个，仅此而已。

聪明的公司为什么会笔直地踩进去？因为 “AI 采用率” 正是董事会想看到的，而用量是世上最容易数的东西。token 是可见的、可计数的、可以放进 dashboard 的。AI 究竟有没有让工作变得更好，则很难衡量。于是它们衡量了那个容易的代理指标，而不是那个难啃的真相——然后就得到了被最大化的代理指标。说白了：当你衡量用量，你得到的就是浪费。

这个错我们已经犯了无数次

如果这让你觉得似曾相识，那是应该的。按代码行数给工程师付钱，你会得到臃肿、注水的代码。设定 commit 配额，开发者就会把一处改动拆成五块碎片。按通话时长给呼叫中心排名，你会得到一批被匆匆赶下电话、问题一个没解决的客户。Tokenmaxxing 不过是史上最古老那个管理错误在 AI 时代的换皮版：因为活动容易数就去奖励它，结果得到的是活动，而不是结果。它没有任何新东西，唯一变的是表跑得更快了。

只不过现在，这个虚荣指标还在烧钱

这就是 AI 版比代码行数更糟糕的地方。一个糟糕的指标过去顶多浪费些力气。而这一个是实打实地在烧钱——每一个被刷出来的 token 都是你花钱买的 token，这也正是 2026 年那场成本恐慌叫得那么响的不小一部分原因。所以你付两次代价：一次为浪费掉的算力，再一次为被污染的信号。你买了一个完全说不清 AI 到底有没有帮上忙的数字，还把它写进了自己的账单。这是一种了不起的花钱方式——出资去摧毁你自己的数据。

解法就是那个无聊但正确的答案：衡量结果

出路不是搞一个更聪明的用量指标。用量根本就是错的衡量对象。你必须衡量结果——活到底有没有干完，结果好不好，客户的问题有没有被解决——这些更难计数，也难刷得多。数据支持这一点：那些把 AI 与真实结果挂钩的组织，报告由 AI 驱动的营收增长的概率，比那些还停留在试点阶段的组织高出近四倍——而拉开差距的因素，明确地不是谁的用量最多。

这正是我一直针对模型反复主张的那套纪律，只不过这次对准的是你的组织。你不会用一个 agent 跑了多少次来评判它；你用一个由真实结果构成的 held-out 集（留出验证集）来评判它。对人和团队也是同一条规则：奖励结果，而不是 token 数。还有一项用量看板永远不会暴露的、悄无声息的人力代价——调查发现，约四分之一的员工会因为被逼着以自己并不认同的方式使用 AI 而考虑离职，而注意到任何抵触情绪的雇主却只占极小一部分。人们当面服从、暗中抵抗，而你的排行榜还兴高采烈地把这份服从汇报成成功。

结论

AI 没有搞坏你的指标。它只是把史上最古老的那个衡量错误，变得更快、更贵。用量从来都不是目标——更好的工作才是。这条规则没变，而且不留情面：无论你把什么数字放上 dashboard，都会有人去优化它，所以你得非常确定那个数字就是你真正想要的东西，而不只是那个容易数的东西。去衡量工作有没有变得更好——否则就花大价钱看着排行榜节节攀升，而实际什么都没在变好。

暂无评论

登录以参与讨论。

做第一个分享想法的人。