全部笔记
各大实验室现在拼的是价格,而不是 IQ

2026年6月4日

各大实验室现在拼的是价格,而不是 IQ

过去两年,旗舰模型发布会的主标题只有一个:我们最聪明,看我们刷爆的基准测试。到了 Microsoft Build 2026,标题变了——质量和 Opus 同一档,但每美元的输出多了约 10 倍,token 还少用 60%。炫耀的重点从 IQ 转向了效率,整个行业都在围绕价格而非峰值能力重新洗牌。本文讲清楚这条轴线为什么翻转,以及如果你在做产品,这意味着什么。

过去两年,旗舰模型的发布主标题永远只有一个:*我们最聪明。*看,这是我们登顶的基准测试,这是我们以几个百分点险胜的对手。智商就是整个记分牌。到了 Microsoft 2026 年的 Build 大会,标题变了,而这个变化本身就是故事。

Microsoft 到底在炫耀什么

Microsoft 公布了它的首批自研模型,领衔的是一款推理模型 MAI-Thinking-1, 在基准测试上表现得相当不错——AIME 拿到 97%,SWE-Bench Pro 拿到 53%, 大致与 Opus 并驾齐驱。 但请注意,能力数字并不是它的卖点。卖点是价格。它配套的编程模型 MAI-Code-1-Flash,能用最多 60% 更少的 token 解决更难的问题 ——更低延迟、更低成本,也就是 Microsoft 反复强调的“return on token”(每 token 的回报)。而且 Microsoft 预测,相比 GPT-5.5,它能实现 每美元输出 token 提升 10 倍。 炫耀的口径从“比你更聪明”变成了“同样质量,成本只要十分之一”。

这条轴线为什么翻转

有两股力量把竞争从 IQ 这条轴线推到了价格这条轴线上,这两点我都写过。

第一股是成本恐慌。当企业用四个月就烧掉了一整年的 AI 预算,“同样质量便宜 10 倍”才是能成交的那句话——而不是“在某个财务部门根本没听说过的基准测试上高出两分”。成本成了那个约束性的瓶颈,于是成本也就成了各家实验室主打的东西。

第二股是智能正在变成大路货。当一个免费的开放权重模型已经逼近前沿、只差几个百分点时,略微更聪明几乎一文不值——但在同样质量下大幅更便宜,则价值连城。说得直白点:Google 表示它的 Gemini 3.5 Flash 可以 为企业每年省下超过 10 亿美元, 而它便宜是出于结构性原因——Google 用自家芯片,加上一个庞大到能随规模扩张而持续提升效率的 token 飞轮。10 亿美元这个标题,比基准测试上的一分要好看得多。

整个行业都在围绕价格重新洗牌

这不只是一场主题演讲,而是如今整个领域的形态。Microsoft 自研模型,目的就是 不再给 OpenAI 付账单, 并在 Azure 上提供更便宜的推理。Google 依靠自家的 TPU 来压低服务成本。NVIDIA 下一代芯片平台主打的卖点是 推理成本降低 10 倍, 而不是能力跃升 10 倍。而每 token 的价格一直在以 每年 200 倍的量级下降。 从上到下,这场竞赛就是一场效率竞赛。

如果你在做产品,这意味着什么

好消息来了,而它恰好奖励我一直在主张的那种纪律。如果你从未把模型写死,也从未把护城河押在某一个模型上,那么这些效率发布的每一次,都是一次白送的利润率升级。一个同等质量、便宜 10 倍的模型上线,你改一个配置值,token 账单就降了,而你的产品丝毫不变。你不需要做任何聪明的操作——你只需要做到可替换,让价格战替你打。那些把所有任务都焊死在某一个高端前沿模型上的团队,正在被挤压,而我们其余人则坐收节省下来的钱。

一个诚实的提醒

这并不是说“前沿智能不再重要了”。对于一个问题里真正难啃的那部分,你依然想要最强的脑子,而顶级推理依然像奢侈品一样定价。变的是重心:边际上的那一分 IQ 已经便宜到无所谓,而边际上的那一美元已经贵到浪费不起。所以正确的形态,就是我之前描述过的那种——用聪明模型对付最难的 10%,用便宜高效的模型处理其余部分,并且什么都不写死,这样每一个更便宜的新选项落地当天,你都能把它接进来。

人人截图分享的排行榜依然在给 IQ 排名。但各大实验室真正在跑的那场竞赛,已经转向了价格,因为“谁最聪明”正在变成一个尘埃落定、大路货化的问题,而“谁能用够用的质量做到最便宜”才是那个悬而未决、每年值 10 亿美元的问题。把产品做成这样:当下个季度答案变了——它一定会变——你靠改一行代码就能收割节省下来的钱,而不是重写你的产品。

评论

暂无评论

登录以参与讨论。

做第一个分享想法的人。