2026年6月8日
按难度路由,而不是默认全发
苹果重做 Siri 时,并没有挑一个模型、把所有请求都丢给它。一个定时器请求留在你手机上。一个中等复杂的查询去往苹果自己的私有服务器。只有最难的推理才会送到谷歌那个庞大的模型。这种三层分流不是苹果的怪癖——它是每个认真做 AI 产品的人都在收敛到的模式,因为把每个请求都发给同一个大模型,会在简单任务上多付钱,又在敏感数据上过度暴露。解法是路由,而大多数开发者却跳过了它。
藏在 Siri 重做里的,是一个比 Gemini 头条更值得关注的架构决策。苹果新版 Siri 用了一套 三层路由系统, 来决定每个请求在哪里处理。简单的事——设个定时器、放首歌——完全在手机上跑,没有数据离开设备。中等复杂的请求送到苹果自家的私有云计算(Private Cloud Compute),处理完立即遗忘。只有最重的推理,才会送出去交给谷歌云里那个庞大的 Gemini 模型。
注意苹果没有做的事:挑一个模型,然后把所有东西都路由给它。这正是关键,因为给所有任务挑一个模型,恰恰是大多数做 AI 产品的人正在做的事——而它悄悄地在两个不同的维度上同时成了错误的默认选择。
一个模型干所有事,错两次
把每个请求都发给同一个大模型,你会同时犯两个错误。
第一个是成本。大多数请求都很简单。「重新格式化这个日期」「这封邮件是不是垃圾邮件」「总结这一段」——这些用不上前沿模型,就像做加法用不上超级计算机。把它们路由给你最贵的模型,意味着为琐碎的活付溢价,每一次调用都付,永远付。关于按难度路由的研究表明,你可以把对大模型的调用减少 大约 40%,质量却不下降, 只需把简单的活发给小模型,真正难的时候才升级。这就是 小模型干大部分活 这个想法,做成了基础设施。
第二个错误是暴露。你的一些请求里含有敏感数据——健康细节、财务记录、私人消息。把这些发给第三方云模型,对查菜谱来说没问题,对一份病历来说就是严重问题。一个模型干所有事,意味着你最敏感的数据和你最琐碎的数据走同一条路,一起送到托管这个模型的任何人手里。苹果的整个要点就是:定时器和私密查询不应该走同一条路。
路由一次解决两个问题。而这两个维度——这有多难,这有多敏感——就是整个设计。
决定路由的两个问题
在一个请求碰到模型之前,先问它两件事:
它有多难? 按难度路由。默认把一切交给那个看上去能搞定它的、最便宜最快的模型,只有在小模型不够好时才升级到更大的。这就是「级联」模式:先试本地或便宜的,失败了再提拔到贵模型——而不是反过来。贵模型变成例外,而不是默认,你的账单也随之变化。
它有多敏感? 按数据路由,而不只是按成本。真正敏感的请求应该留在你拥有的最私密那一层——设备端或你自己的基础设施——而且很重要的一点是,当私密通道繁忙时,它也 绝不应该悄悄回退到公有云。 这里的纪律叫「fail closed」:如果你没法在私密环境里处理敏感数据,你就拒绝,而不是悄悄把它送给第三方。苹果通过匿名化和合同来强制这一点,阻止谷歌拿用户查询去训练;你的版本可能更简单,但原则一样——敏感度决定路径,而安全的失败方式是「别发」,不是「照发不误」。
为什么大多数开发者跳过这一步
路由比调一个端点要费事,所以人们跳过它的诚实理由是:一个模型干所有事好做。你接上前沿模型,它处理每种情况,搞定。它能用——只是贵,而且漏,漏在你看不见的地方,直到账单或泄露找上门。
但你不需要苹果那三层才能拿到好处。哪怕一个粗糙的版本也划算:一个便宜模型当默认,当置信度检查或任务类型说「这个难」时升级到强模型,再加一条硬规则——被标为敏感的请求留在你掌控的路径上。这就几个小时的管道活,能明显砍掉成本,同时缩小你的暴露面。精细化可以以后再说;那个形状——默认便宜又私密,刻意才升级——才是要紧的。
归根结底
Siri 这个故事抢眼的部分,是苹果租用了谷歌的大脑。有用的部分,是苹果摆在那个大脑前面的东西:一个路由器,把每个请求送到能搞定它的、最小最私密的地方,只有不得不时才去够那个又大又贵的云模型。这不是苹果的奢侈品。它是你一旦认真对待成本和隐私,就会自然落出来的模式,而且它一路向下,缩放到一个单人项目也成立。
所以,别再默认把所有东西都发给一个模型了。问那两个问题——有多难,有多敏感——让答案来挑路由。你大部分的流量都简单、平平无奇,相应地路由它,正是一个「设计上就便宜又安全」的 AI 产品,和一个「意外地又贵又暴露」的产品之间的区别。一个模型干所有事不是简单。它是一个你从未真正选过的默认。
评论
暂无评论
登录以参与讨论。
做第一个分享想法的人。