AI-NATIVE · 2026年6月5日

四周内四款旗舰模型——“哪个模型赢”是一种设计坏味道

这个月一波旗舰模型几乎同时发布——Gemini 3.5 Pro、新版 Claude、Grok 5，而 Opus 4.8 已经上线。所有人都在刷新排行榜。如果这波发布让你焦虑——我们用的是不是最好的那个，要不要换——这份焦虑透露的是你架构的问题，而不是模型的问题。这里是我诚实的看法，以及“保持可替换”到底需要什么。

2026 年六月是一场发布的扎堆。Opus 4.8 在五月底上线；Google 承诺 Gemini 3.5 Pro 会在“下个月”到来；新版 Claude 和 Grok 5 预计也在同样的这几周里发布。我信息流里有一半是人们在刷新基准排行榜，看这一小时是谁排在最上面。

如果这波发布让你有点焦虑——我们用的是不是最好的模型？要不要换？——这种感觉值得你留意。不是因为模型，而是因为它揭示了你的产品是怎么搭起来的。

领先只是噪声，而且每个月都在变

看看实际的排名。今天 Opus 4.8 以 61.4 排在 Artificial Analysis 智能指数的最上面，仅仅领先于 GPT-5.5 的 60.2、Gemini 3.1 Pro 的 57，以及 Grok 4.3 的 53。第一名和第三名之间只差四分。下个月的发布会重新洗牌这个顺序，再下个月又会再洗一次。

对几乎所有真实产品来说，第 #1 和第 #3 的模型之间的差别，你的用户根本看不出来。他们分辨不出是哪款旗舰模型回答了他们。排行榜是一项竞技运动；你的产品不是。

所以这份焦虑就是一种设计坏味道

这是我的诊断。如果一款新模型的发布让你紧张，那几乎从来都不是因为你担心错过了能力。而是因为你怀疑换模型会很痛——你的产品悄悄地被焊死在某一个模型的特定怪癖上：它的措辞、它的格式、以及你的提示词在几个月里被一点点调教到贴合它确切行为的方式。

这才是真正的恐惧，而它是一个披着模型外衣的耦合问题。让你紧张的不是哪个模型最好，而是改变主意要付出多大的代价。改变主意的代价高，就是糟糕架构的定义—— 我以前论证过这一点，在这里同样成立。

“可替换”到底需要什么（它不是即插即用）

现在是诚实的部分，因为“保持可替换就好”这句话太轻巧了。换模型确实不是即插即用。提示词会被隐性地调教到贴合某一个模型的行为，分词器和格式各不相同，一次草率的替换会带来真实的回归（退化）和成本上的意外。可替换不是免费的。它是你搭建出来的东西：

一个抽象层，让你的产品对话的是“某个模型”，而不是某个厂商的 API—— 适配器模式，一个屏蔽厂商差异的中立接口。
按任务层级路由，而不是写死的模型名——这样“在这里用更便宜的模型”就只是一次配置改动，和用便宜模型干 90% 的活是同一种纪律。
一套 eval 集——这是所有人都跳过的部分，也是让整件事变得安全的部分。有了留出的 eval，一次替换就变成“改配置、跑 eval、清楚地看到到底哪里退化了”。没有它们，一次替换就是“换模型然后祈祷”，这正是人们害怕动手的原因。

把这三样搭好，改变主意的代价就从“一次重写”降到“一个下午加一次测试运行”。

然后这波浪潮就从威胁翻转成菜单

一旦切换既便宜又可衡量，这个四旗舰之月就不再是焦虑，而成了一份购物清单。出来一款同等质量但更便宜的模型？把你的 eval 对准它；如果它通过了，改一个值，把省下的钱收入囊中—— 正是我在各家实验室开始拼价格时写过的那种胜利。出来一款更聪明、能搞定真正难啃的那 10% 的模型？同样的操作。你不再带着恐惧盯着排行榜，而开始把它们当成一份目录来用。

真正该押的注

六月哪个模型赢，是你最不该在意、却最该围绕它来设计的那个变量。别押注在某个模型上—— 模型从来都不是护城河——押注在能够低成本地改变主意上。七月看起来聪明的团队，不会是今天挑对了模型的那些；而会是当今天的选择不再正确时，能在一个下午里换到更好那个的团队。

所以把这个四旗舰之月当成一道免费的压力测试，只考一个问题：如果明天最好的模型变了，你要花多久才能换过去？如果答案是“一个下午加一次 eval 运行”，那就好好享受这场秀吧——这一切都威胁不到你。如果答案是“一次重写加一次祈祷”，那么问题从来都不是模型。问题是你的架构，而这个月的任何发布都修不好它。

暂无评论

登录以参与讨论。

做第一个分享想法的人。