AI-NATIVE · 2026年6月13日

优先选小模型

本能反应是把每个任务都丢给最大、最聪明的模型。但数据告诉你：这通常是个错误的默认选项。一个 70 亿参数的小模型比 700 亿到 1750 亿的大模型便宜 10 到 30 倍，微软的 Phi 用少 98% 的算力就达到了 GPT-3.5 级别的质量，而且已经有超过 20 亿部手机在本地运行能力不俗的模型，完全不碰云端。Gartner 预计到 2027 年，针对特定任务的小模型使用量将是通用大模型的三倍。这篇说说为什么「小模型优先」正在成为聪明的默认选择——以及什么时候还是该上大模型。

大多数做 AI 应用的人都有一个本能：把任务丢给手头最大、最聪明的模型。这感觉很稳妥——干嘛把活儿交给弱一点的模型？但 2026 年的数据说，这个本能通常是个错误的默认选项，而优先选小模型，才是正在悄悄取胜的那一步。

先从经济账说起，因为这笔账一点都不含糊。跑一个 70 亿参数的小模型，比跑 700 亿到 1750 亿的大模型便宜 10 到 30 倍，而那些把合适的工作迁到小模型上的企业，正在把 AI 成本砍掉最多 75%。这也不是用质量去换折扣：微软的 Phi-3.5-Mini 用少约 98% 的算力，就达到了 GPT-3.5 级别的表现。就在所有人盯着前沿模型看的时候，「小」和「够用」之间的差距已经被填平了。

我来给你讲讲为什么该把默认选项翻过来，因为这同时改变了你的账单和你的架构。

「小」不再等于「弱」

几年前，选小模型意味着接受明显更差的输出。对于大多数应用真正在做的工作来说，这种取舍如今基本上不存在了。今天的小模型在分类、抽取、路由、摘要、结构化数据任务和直白的编码上，质量已经很难和巨无霸区分开来——而这些恰恰是构成一个真实产品大部分工作量的任务。

前沿模型在真正难的东西上仍然更强：深度的多步推理、新颖的问题、长尾的边缘情况。但大多数应用搞错的地方就在这——难的东西只占调用里的少数。你却在花前沿模型的钱去给客服工单分类、重新格式化 JSON。这跟让便宜模型干 90% 的活是同一个道理：贵的模型是你升级上去的例外，而不是你一开始就用的默认。

新的超能力：它能在设备上跑

「小模型优先」之所以重要，还有第二个理由，而且不只是成本。小模型能跑在大模型跑不了的地方。如今已经有超过 20 亿部智能手机在本地运行能力不俗的模型，一个 10 亿参数的模型大约只占 650MB 的 RAM，在手机上能以阅读速度运行。模型足够小，就意味着根本不需要往云端跑一趟。

这解锁了云端 API 永远做不到的事。数据从不离开设备，这是隐私和合规层面的答案，而不只是延迟层面的。没有按 token 计费，没有速率限制，没有需要熬过去的宕机，而且在飞机上也能用。对于一整类功能——设备端助手、私密抽取、任何对延迟或隐私敏感的东西——本地小模型不是那个省钱的选项，而是唯一具备这些特性的选项。Gartner 预计，到 2027 年针对特定任务的小模型使用量将是通用大模型的三倍，这正是很大一部分原因。

什么时候还是该上大模型

「小模型优先」是一个默认选项，不是一种信仰。当任务确实需要时，就该去拿前沿模型：

开放式的硬推理——多步问题、目标模糊、没有现成清晰套路可循的新颖工作。
你无法预测的广度——一个要应对用户可能问的任何事的通用助手，你没法提前圈定任务范围。
当你还没测量过的时候——先在大模型上做原型，搞清楚「好」长什么样，再把那些固定下来的、重复的路径下放给小模型。

真正取胜的模式是按难度做路由：默认用小模型，只在任务配得上时才升级到大模型。翻转的是你的起始假设——从「先用最好的模型，以后再省钱」变成「用能过线的最小模型，过不了线再升级」。

一句话总结

凡事都抓最强模型的本能，是小模型当年确实很差时留下的旧习惯。它们现在不差了。对于大部分真实世界的任务来说，小模型便宜 10 到 30 倍，常常能在设备上跑、完全不碰云端，输出还和巨无霸的难以区分。如今什么都默认用前沿模型，多半只是一种花冤枉钱、过度工程的方式。

所以，把这个本能翻过来。优先选小模型，测一测它过没过线——通常是过的——把贵的模型留给那少数真正需要它的任务。这么做的团队并没有用质量去换成本。他们是在让工具匹配活儿，顺带收获了更小的账单、更低的延迟和更好的隐私作为回报。

暂无评论

登录以参与讨论。

做第一个分享想法的人。