全部笔记
四周内四款旗舰模型——“哪个模型赢”是一种设计坏味道

2026年6月5日

四周内四款旗舰模型——“哪个模型赢”是一种设计坏味道

这个月一波旗舰模型几乎同时发布——Gemini 3.5 Pro、新版 Claude、Grok 5,而 Opus 4.8 已经上线。所有人都在刷新排行榜。如果这波发布让你焦虑——我们用的是不是最好的那个,要不要换——这份焦虑透露的是你架构的问题,而不是模型的问题。这里是我诚实的看法,以及“保持可替换”到底需要什么。

2026 年六月是一场发布的扎堆。Opus 4.8 在五月底上线;Google 承诺 Gemini 3.5 Pro 会在“下个月”到来;新版 Claude 和 Grok 5 预计也在同样的这几周里发布。我信息流里有一半 是人们在刷新基准排行榜,看这一小时是谁排在最上面。

如果这波发布让你有点焦虑——我们用的是不是最好的模型?要不要换?——这种感觉值得你 留意。不是因为模型,而是因为它揭示了你的产品是怎么搭起来的。

领先只是噪声,而且每个月都在变

看看实际的排名。今天 Opus 4.8 以 61.4 排在 Artificial Analysis 智能指数的最上面, 仅仅领先于 GPT-5.5 的 60.2、Gemini 3.1 Pro 的 57,以及 Grok 4.3 的 53。 第一名和第三名之间只差四分。下个月的发布会重新洗牌这个顺序,再下个月又会再洗一次。

对几乎所有真实产品来说,第 #1 和第 #3 的模型之间的差别,你的用户根本看不出来。他们 分辨不出是哪款旗舰模型回答了他们。排行榜是一项竞技运动;你的产品不是。

所以这份焦虑就是一种设计坏味道

这是我的诊断。如果一款新模型的发布让你紧张,那几乎从来都不是因为你担心错过了能力。而是 因为你怀疑换模型会很痛——你的产品悄悄地被焊死在某一个模型的特定怪癖上:它的措辞、它的 格式、以及你的提示词在几个月里被一点点调教到贴合它确切行为的方式。

这才是真正的恐惧,而它是一个披着模型外衣的耦合问题。让你紧张的不是哪个模型最好,而是 改变主意要付出多大的代价。改变主意的代价高,就是糟糕架构的定义—— 我以前论证过这一点,在这里同样成立。

“可替换”到底需要什么(它不是即插即用)

现在是诚实的部分,因为“保持可替换就好”这句话太轻巧了。换模型确实不是即插即用。提示词会 被隐性地调教到贴合某一个模型的行为, 分词器和格式各不相同,一次草率的替换会带来真实的回归(退化)和成本上的意外。可替换不是 免费的。它是你搭建出来的东西:

  • 一个抽象层,让你的产品对话的是“某个模型”,而不是某个厂商的 API—— 适配器模式, 一个屏蔽厂商差异的中立接口。
  • 按任务层级路由,而不是写死的模型名——这样“在这里用更便宜的模型”就只是一次配置 改动,和用便宜模型干 90% 的活是同一种纪律。
  • 一套 eval 集——这是所有人都跳过的部分,也是让整件事变得安全的部分。有了 留出的 eval,一次替换就变成“改配置、跑 eval、清楚地 看到到底哪里退化了”。没有它们,一次替换就是“换模型然后祈祷”,这正是人们害怕动手的原因。

把这三样搭好,改变主意的代价就从“一次重写”降到“一个下午加一次测试运行”。

然后这波浪潮就从威胁翻转成菜单

一旦切换既便宜又可衡量,这个四旗舰之月就不再是焦虑,而成了一份购物清单。出来一款同等 质量但更便宜的模型?把你的 eval 对准它;如果它通过了,改一个值,把省下的钱收入囊中—— 正是我在各家实验室开始拼价格时写过的那种胜利。出来一款 更聪明、能搞定真正难啃的那 10% 的模型?同样的操作。你不再带着恐惧盯着排行榜,而开始把 它们当成一份目录来用。

真正该押的注

六月哪个模型赢,是你最不该在意、却最该围绕它来设计的那个变量。别押注在某个模型上—— 模型从来都不是护城河——押注在能够低成本地改变 主意上。七月看起来聪明的团队,不会是今天挑对了模型的那些;而会是当今天的选择不再正确时, 能在一个下午里换到更好那个的团队。

所以把这个四旗舰之月当成一道免费的压力测试,只考一个问题:如果明天最好的模型变了,你要 花多久才能换过去?如果答案是“一个下午加一次 eval 运行”,那就好好享受这场秀吧——这一切都 威胁不到你。如果答案是“一次重写加一次祈祷”,那么问题从来都不是模型。问题是你的架构,而这个 月的任何发布都修不好它。

评论

暂无评论

登录以参与讨论。

做第一个分享想法的人。