ARCHITECTURE · 2026年6月8日

按难度路由，而不是默认全发

苹果重做 Siri 时，并没有挑一个模型、把所有请求都丢给它。一个定时器请求留在你手机上。一个中等复杂的查询去往苹果自己的私有服务器。只有最难的推理才会送到谷歌那个庞大的模型。这种三层分流不是苹果的怪癖——它是每个认真做 AI 产品的人都在收敛到的模式，因为把每个请求都发给同一个大模型，会在简单任务上多付钱，又在敏感数据上过度暴露。解法是路由，而大多数开发者却跳过了它。

藏在 Siri 重做里的，是一个比 Gemini 头条更值得关注的架构决策。苹果新版 Siri 用了一套三层路由系统，来决定每个请求在哪里处理。简单的事——设个定时器、放首歌——完全在手机上跑，没有数据离开设备。中等复杂的请求送到苹果自家的私有云计算（Private Cloud Compute），处理完立即遗忘。只有最重的推理，才会送出去交给谷歌云里那个庞大的 Gemini 模型。

注意苹果没有做的事：挑一个模型，然后把所有东西都路由给它。这正是关键，因为给所有任务挑一个模型，恰恰是大多数做 AI 产品的人正在做的事——而它悄悄地在两个不同的维度上同时成了错误的默认选择。

一个模型干所有事，错两次

把每个请求都发给同一个大模型，你会同时犯两个错误。

第一个是成本。大多数请求都很简单。「重新格式化这个日期」「这封邮件是不是垃圾邮件」「总结这一段」——这些用不上前沿模型，就像做加法用不上超级计算机。把它们路由给你最贵的模型，意味着为琐碎的活付溢价，每一次调用都付，永远付。关于按难度路由的研究表明，你可以把对大模型的调用减少大约 40%，质量却不下降，只需把简单的活发给小模型，真正难的时候才升级。这就是小模型干大部分活这个想法，做成了基础设施。

第二个错误是暴露。你的一些请求里含有敏感数据——健康细节、财务记录、私人消息。把这些发给第三方云模型，对查菜谱来说没问题，对一份病历来说就是严重问题。一个模型干所有事，意味着你最敏感的数据和你最琐碎的数据走同一条路，一起送到托管这个模型的任何人手里。苹果的整个要点就是：定时器和私密查询不应该走同一条路。

路由一次解决两个问题。而这两个维度——这有多难，这有多敏感——就是整个设计。

决定路由的两个问题

在一个请求碰到模型之前，先问它两件事：

它有多难？ 按难度路由。默认把一切交给那个看上去能搞定它的、最便宜最快的模型，只有在小模型不够好时才升级到更大的。这就是「级联」模式：先试本地或便宜的，失败了再提拔到贵模型——而不是反过来。贵模型变成例外，而不是默认，你的账单也随之变化。

它有多敏感？ 按数据路由，而不只是按成本。真正敏感的请求应该留在你拥有的最私密那一层——设备端或你自己的基础设施——而且很重要的一点是，当私密通道繁忙时，它也绝不应该悄悄回退到公有云。这里的纪律叫「fail closed」：如果你没法在私密环境里处理敏感数据，你就拒绝，而不是悄悄把它送给第三方。苹果通过匿名化和合同来强制这一点，阻止谷歌拿用户查询去训练；你的版本可能更简单，但原则一样——敏感度决定路径，而安全的失败方式是「别发」，不是「照发不误」。

为什么大多数开发者跳过这一步

路由比调一个端点要费事，所以人们跳过它的诚实理由是：一个模型干所有事好做。你接上前沿模型，它处理每种情况，搞定。它能用——只是贵，而且漏，漏在你看不见的地方，直到账单或泄露找上门。

但你不需要苹果那三层才能拿到好处。哪怕一个粗糙的版本也划算：一个便宜模型当默认，当置信度检查或任务类型说「这个难」时升级到强模型，再加一条硬规则——被标为敏感的请求留在你掌控的路径上。这就几个小时的管道活，能明显砍掉成本，同时缩小你的暴露面。精细化可以以后再说；那个形状——默认便宜又私密，刻意才升级——才是要紧的。

归根结底

Siri 这个故事抢眼的部分，是苹果租用了谷歌的大脑。有用的部分，是苹果摆在那个大脑前面的东西：一个路由器，把每个请求送到能搞定它的、最小最私密的地方，只有不得不时才去够那个又大又贵的云模型。这不是苹果的奢侈品。它是你一旦认真对待成本和隐私，就会自然落出来的模式，而且它一路向下，缩放到一个单人项目也成立。

所以，别再默认把所有东西都发给一个模型了。问那两个问题——有多难，有多敏感——让答案来挑路由。你大部分的流量都简单、平平无奇，相应地路由它，正是一个「设计上就便宜又安全」的 AI 产品，和一个「意外地又贵又暴露」的产品之间的区别。一个模型干所有事不是简单。它是一个你从未真正选过的默认。

暂无评论

登录以参与讨论。

做第一个分享想法的人。