2026年6月14日
那个快模型,突然变聪明了
两年来,每次选模型你都得做个取舍:要么又快又便宜,要么又聪明又慢。Gemini 3.5 Flash 刚刚打破了这个规则。这个『Flash』档——本该是便宜又快的那一档——如今在 Artificial Analysis Intelligence Index 上拿下 55 分,领先 Grok 4.3 和 Claude Sonnet 4.6,同时跑出每秒超过 280 个 token 的速度。快模型不再是笨模型。这应该让你重新打开一个大多数团队一年前悄悄冻结的决定:你的默认模型是哪个,它现在还是对的吗?这篇讲讲该怎么想——也包括那个坑。
两年来,选一个 AI 模型意味着做取舍。要么又快又便宜,要么又聪明又慢。 难的推理你丢给那个又大又贵的模型,让它慢慢磨;简单、量大的活儿你丢给那个又小又快的, 然后接受它会笨一点。速度是用智能换来的。所有人都围着这个假设搭架构。
这个假设刚刚遭到了重击。Google 的 Gemini 3.5 Flash——一个 Flash 模型, 本该是便宜又快的那一档——如今 在 Artificial Analysis Intelligence Index 上拿下 55 分,领先 53 分的 Grok 4.3 和 52 分的 Claude Sonnet 4.6, 同时跑出每秒超过 280 个输出 token 的速度—— 比上一个版本快了大约 70%。快模型不再是笨模型。 让我说说为什么这值得你关注,以及坑在哪里。
你围着搭起来的那个取舍,没以前那么硬了
你之所以要分出一个「聪明模型」和一个「快模型」,根本原因就是你没法两者兼得。 智能在拨盘的一头,速度在另一头,而你的架构本质上就是一连串的押注—— 赌每个任务该落在这个拨盘的哪个位置。
当一个快模型拿出顶级的智能分数,这个拨盘就不再是一条直线了。 现在你能从同一次调用里同时拿到接近前沿的答案 和 前沿的速度。这并不 意味着最大的模型没用了——在真正最难的推理上它们仍然领先。 它意味着差距缩小到了这种程度:很多你出于习惯丢给慢而贵的模型的活儿, 现在可以交给快三倍的东西去做,而且明显不会变差。
你的「默认模型」多半是个习惯,不是个决定
下面这部分才是真正让团队花冤枉钱的地方。我们大多数人是在 2024 年某个时候、 或者 2025 年初挑了一个默认模型,接进去,然后再也没回头看过。可与此同时,排行榜 大约每个月就重新洗一次牌。你的默认值 不过是你当初选它那一周谁最强的一张快照,被冻进了你的代码库里。
把这件事丢给自动驾驶是很贵的,因为模型市场的变化速度,比你技术栈里 几乎任何一个决定都快。一年前明显最强的那个模型,如今可能更慢、更笨,而且 还更贵——比你当初当成「便宜货」打发掉的那一档还差。唯一能搞清楚的办法就是 再看一遍——可几乎没人这么做。
坑:「快」不再等于「最便宜」
现在说说那个诚实的星号标注,因为标题把它藏起来了。这一波新的快模型, 也明显变贵了—— Google 跟着 Anthropic 和 OpenAI,给更新、更好的模型涨了价。所以「Flash 在智能上追上来了」 并不自动意味着「Flash 还是那个便宜的选择」。各档位正在乱套:一个快模型可以又聪明又不便宜; 一个老模型可以又便宜又不聪明。
这正是为什么你不能再凭名声选了。「Flash = 便宜,Opus = 聪明」曾经是个干净利落的 心智模型,而它现在两个方向上都错了。你真正在乎的那三样东西——质量、延迟、成本—— 不再同步移动了,所以你必须三样都看,针对你的任务,拿真实的数字看。
该怎么做
在你自己的工作负载上重新跑基准。不是在排行榜上——而是在你真实的提示词、 你真实的质量底线、你真实的用量上。把你一直丢给默认模型的那个任务,拿去 对着两三个当下的选项跑一遍,包括一个你以前会一眼打发掉的快档位。测质量、 测延迟、测每次调用的成本。然后做决定,心里清楚这个答案的保质期大概只有一个季度。
一句话总结
那个组织起所有人模型选择的速度对智能的取舍,刚刚变得模糊了一大截: 快档位正拿出顶级分数,价格档位也跟着一起乱套。前沿动了。你的默认值没动。
你一年前挑的那个模型,是一个一年前的决定,坐在一个每月翻一次盘的市场里—— 而且「快」「聪明」「便宜」不再是同一根轴了。 重新打开这个选择, 在你自己的任务上测一遍,然后习惯于按一个时间表反复去做。你围着搭起来的那个取舍 并没有消失,但它已经不是你背下来的那个了。
评论
暂无评论
登录以参与讨论。
做第一个分享想法的人。