← 全部笔记

AI-NATIVE · 2026年6月14日

那个快模型，突然变聪明了

两年来，每次选模型你都得做个取舍：要么又快又便宜，要么又聪明又慢。Gemini 3.5 Flash 刚刚打破了这个规则。这个『Flash』档——本该是便宜又快的那一档——如今在 Artificial Analysis Intelligence Index 上拿下 55 分，领先 Grok 4.3 和 Claude Sonnet 4.6，同时跑出每秒超过 280 个 token 的速度。快模型不再是笨模型。这应该让你重新打开一个大多数团队一年前悄悄冻结的决定：你的默认模型是哪个，它现在还是对的吗？这篇讲讲该怎么想——也包括那个坑。

那个快模型，突然变聪明了

两年来，选一个 AI 模型意味着做取舍。要么又快又便宜，要么又聪明又慢。难的推理你丢给那个又大又贵的模型，让它慢慢磨；简单、量大的活儿你丢给那个又小又快的，然后接受它会笨一点。速度是用智能换来的。所有人都围着这个假设搭架构。

这个假设刚刚遭到了重击。Google 的 Gemini 3.5 Flash——一个 Flash 模型，本该是便宜又快的那一档——如今在 Artificial Analysis Intelligence Index 上拿下 55 分，领先 53 分的 Grok 4.3 和 52 分的 Claude Sonnet 4.6，同时跑出每秒超过 280 个输出 token 的速度—— 比上一个版本快了大约 70%。快模型不再是笨模型。让我说说为什么这值得你关注，以及坑在哪里。

你围着搭起来的那个取舍，没以前那么硬了

你之所以要分出一个「聪明模型」和一个「快模型」，根本原因就是你没法两者兼得。智能在拨盘的一头，速度在另一头，而你的架构本质上就是一连串的押注—— 赌每个任务该落在这个拨盘的哪个位置。

当一个快模型拿出顶级的智能分数，这个拨盘就不再是一条直线了。现在你能从同一次调用里同时拿到接近前沿的答案和前沿的速度。这并不意味着最大的模型没用了——在真正最难的推理上它们仍然领先。它意味着差距缩小到了这种程度：很多你出于习惯丢给慢而贵的模型的活儿，现在可以交给快三倍的东西去做，而且明显不会变差。

你的「默认模型」多半是个习惯，不是个决定

下面这部分才是真正让团队花冤枉钱的地方。我们大多数人是在 2024 年某个时候、或者 2025 年初挑了一个默认模型，接进去，然后再也没回头看过。可与此同时，排行榜大约每个月就重新洗一次牌。你的默认值不过是你当初选它那一周谁最强的一张快照，被冻进了你的代码库里。

把这件事丢给自动驾驶是很贵的，因为模型市场的变化速度，比你技术栈里几乎任何一个决定都快。一年前明显最强的那个模型，如今可能更慢、更笨，而且还更贵——比你当初当成「便宜货」打发掉的那一档还差。唯一能搞清楚的办法就是再看一遍——可几乎没人这么做。

坑：「快」不再等于「最便宜」

现在说说那个诚实的星号标注，因为标题把它藏起来了。这一波新的快模型，也明显变贵了—— Google 跟着 Anthropic 和 OpenAI，给更新、更好的模型涨了价。所以「Flash 在智能上追上来了」并不自动意味着「Flash 还是那个便宜的选择」。各档位正在乱套：一个快模型可以又聪明又不便宜；一个老模型可以又便宜又不聪明。

这正是为什么你不能再凭名声选了。「Flash = 便宜，Opus = 聪明」曾经是个干净利落的心智模型，而它现在两个方向上都错了。你真正在乎的那三样东西——质量、延迟、成本—— 不再同步移动了，所以你必须三样都看，针对你的任务，拿真实的数字看。

该怎么做

在你自己的工作负载上重新跑基准。不是在排行榜上——而是在你真实的提示词、你真实的质量底线、你真实的用量上。把你一直丢给默认模型的那个任务，拿去对着两三个当下的选项跑一遍，包括一个你以前会一眼打发掉的快档位。测质量、测延迟、测每次调用的成本。然后做决定，心里清楚这个答案的保质期大概只有一个季度。

一句话总结

那个组织起所有人模型选择的速度对智能的取舍，刚刚变得模糊了一大截：快档位正拿出顶级分数，价格档位也跟着一起乱套。前沿动了。你的默认值没动。

你一年前挑的那个模型，是一个一年前的决定，坐在一个每月翻一次盘的市场里—— 而且「快」「聪明」「便宜」不再是同一根轴了。 重新打开这个选择，在你自己的任务上测一遍，然后习惯于按一个时间表反复去做。你围着搭起来的那个取舍并没有消失，但它已经不是你背下来的那个了。

评论

暂无评论

登录以参与讨论。

做第一个分享想法的人。