2026年6月13日
优先选小模型
本能反应是把每个任务都丢给最大、最聪明的模型。但数据告诉你:这通常是个错误的默认选项。一个 70 亿参数的小模型比 700 亿到 1750 亿的大模型便宜 10 到 30 倍,微软的 Phi 用少 98% 的算力就达到了 GPT-3.5 级别的质量,而且已经有超过 20 亿部手机在本地运行能力不俗的模型,完全不碰云端。Gartner 预计到 2027 年,针对特定任务的小模型使用量将是通用大模型的三倍。这篇说说为什么「小模型优先」正在成为聪明的默认选择——以及什么时候还是该上大模型。
大多数做 AI 应用的人都有一个本能:把任务丢给手头最大、最聪明的模型。这感觉很稳妥——干嘛把活儿交给弱一点的模型?但 2026 年的数据说,这个本能通常是个错误的默认选项,而优先选小模型,才是正在悄悄取胜的那一步。
先从经济账说起,因为这笔账一点都不含糊。跑一个 70 亿参数的小模型, 比跑 700 亿到 1750 亿的大模型便宜 10 到 30 倍, 而那些把合适的工作迁到小模型上的企业, 正在把 AI 成本砍掉最多 75%。 这也不是用质量去换折扣:微软的 Phi-3.5-Mini 用少约 98% 的算力,就达到了 GPT-3.5 级别的表现。 就在所有人盯着前沿模型看的时候,「小」和「够用」之间的差距已经被填平了。
我来给你讲讲为什么该把默认选项翻过来,因为这同时改变了你的账单和你的架构。
「小」不再等于「弱」
几年前,选小模型意味着接受明显更差的输出。对于大多数应用真正在做的工作来说,这种取舍如今基本上不存在了。今天的小模型在分类、抽取、路由、摘要、结构化数据任务和直白的编码上,质量已经很难和巨无霸区分开来——而这些恰恰是构成一个真实产品大部分工作量的任务。
前沿模型在真正难的东西上仍然更强:深度的多步推理、新颖的问题、长尾的边缘情况。但大多数应用搞错的地方就在这——难的东西只占调用里的少数。你却在花前沿模型的钱去给客服工单分类、重新格式化 JSON。这跟让便宜模型干 90% 的活是同一个道理:贵的模型是你升级上去的例外,而不是你一开始就用的默认。
新的超能力:它能在设备上跑
「小模型优先」之所以重要,还有第二个理由,而且不只是成本。小模型能跑在大模型跑不了的地方。如今已经有 超过 20 亿部智能手机在本地运行能力不俗的模型, 一个 10 亿参数的模型大约只占 650MB 的 RAM,在手机上能以阅读速度运行。模型足够小,就意味着根本不需要往云端跑一趟。
这解锁了云端 API 永远做不到的事。数据从不离开设备,这是隐私和合规层面的答案,而不只是延迟层面的。没有按 token 计费,没有速率限制,没有需要熬过去的宕机,而且在飞机上也能用。对于一整类功能——设备端助手、私密抽取、任何对延迟或隐私敏感的东西——本地小模型不是那个省钱的选项,而是唯一具备这些特性的选项。Gartner 预计,到 2027 年针对特定任务的小模型使用量将是通用大模型的三倍, 这正是很大一部分原因。
什么时候还是该上大模型
「小模型优先」是一个默认选项,不是一种信仰。当任务确实需要时,就该去拿前沿模型:
- 开放式的硬推理——多步问题、目标模糊、没有现成清晰套路可循的新颖工作。
- 你无法预测的广度——一个要应对用户可能问的任何事的通用助手,你没法提前圈定任务范围。
- 当你还没测量过的时候——先在大模型上做原型,搞清楚「好」长什么样,再把那些固定下来的、重复的路径下放给小模型。
真正取胜的模式是按难度做路由:默认用小模型,只在任务配得上时才升级到大模型。翻转的是你的起始假设——从「先用最好的模型,以后再省钱」变成「用能过线的最小模型,过不了线再升级」。
一句话总结
凡事都抓最强模型的本能,是小模型当年确实很差时留下的旧习惯。它们现在不差了。对于大部分真实世界的任务来说,小模型便宜 10 到 30 倍,常常能在设备上跑、完全不碰云端,输出还和巨无霸的难以区分。如今什么都默认用前沿模型,多半只是一种花冤枉钱、过度工程的方式。
所以,把这个本能翻过来。优先选小模型,测一测它过没过线——通常是过的——把贵的模型留给那少数真正需要它的任务。这么做的团队并没有用质量去换成本。他们是在让工具匹配活儿,顺带收获了更小的账单、更低的延迟和更好的隐私作为回报。
评论
暂无评论
登录以参与讨论。
做第一个分享想法的人。