速成课 · No. 36
大多数 AI 运行在数据中心里,通过网络去访问。但有一类正在飞速壮大的 AI 直接运行在手机、笔记本或传感器上——根本没有 cloud round-trip。被做得足够小、可以在本地运行的小模型,解锁了隐私、离线使用、即时响应和零单次调用成本。来了解 edge AI 让什么成为可能、一个模型如何变得足够小以塞进设备,以及你为此要承担的取舍。
只讲精髓 · 每个想法一个画面 · 小巧、本地、属于你
整个主题归结为一个选择:模型究竟在哪里运行?理解这个分岔——以及每一边的代价——为其余的一切定了框架。
大多数 AI 运行在数据中心里,通过网络
每要一个答案就给一间远方的办公室打电话——你的问题传过去,一位专家回复,答案再传回来,每一次都如此。
默认情况下,一个 AI 模型运行在 cloud——在数据中心里强大的服务器上——而你的设备通过互联网去访问它。你发出请求,它在远端被处理,响应再传回来。这是大多数 AI 的工作方式,也正因如此那些最大、最聪明的模型才成为可能:它们所需的硬件远远超出一部手机。但这也意味着每一次调用都要向别人的计算机发起一趟网络 round-trip。
On-device AI 就在你所在的地方运行
一位住在你家里、而不是住在城市另一头的专家——你只管问,答案立刻就来,不用打电话,不用奔波。
On-device(或 edge)AI 在本地运行模型——在手机、笔记本、传感器、汽车上——完全不去服务器跑一趟。计算就发生在数据所在的地方,发生在你手中的硬件上。「Edge」指的是网络的边缘,远离中心数据中心,在用户和设备所在的外侧。这是云端的替代方案:与其把请求送走去得到答案,不如就地把答案算出来。
round-trip 才是区别所在
在家做饭对比叫外卖——这顿饭可以是一样的,但一种每次都要有快递员穿城而过,另一种则不用。
云端与 on-device 之间的核心区别不在 AI 本身——而在于你的数据是否离开设备,以及你是否要等一趟网络 round-trip。正是这一个区分驱动了本课中的每一项收益与取舍:把工作留在本地,你就获得隐私、离线能力和速度,但你被限制在设备所能运行的范围内;把它送往云端,你就得到最大的模型,但你要付出 round-trip、成本,以及数据离开设备的代价。模型在哪里运行,几乎决定了一切。
云端 AI 运行在通过网络访问的远方服务器上;on-device(edge)AI 在本地运行,没有 round-trip。数据是否离开、你是否要等网络,驱动着每一项取舍。
在设备上运行模型不只是一项技术上的猎奇——它解锁了云端无法比拟的四项具体收益,其中任何一项都可能成为走向本地的决定性理由。
隐私:数据永不离开
把你的日记锁在家里的抽屉里,对比把每一页都寄给一家公司去读——一种把秘密留在你身边,另一种则不然。
在本地运行最大的理由是隐私:如果模型在设备上,它处理的数据就永远不必离开——不必把私人照片、私密消息或敏感记录发往服务器。对于任何用户宁愿保留在自己硬件上的东西,或是法规规定不能交给第三方的东西,on-device 就是答案。数据在它所在的地方被处理,而不是奔向别人的计算机,这是一种任何云服务都无法完全比拟的隐私保障。
离线:没有连接也能工作
一张纸质地图在隧道里照样管用,而在线地图在那里却一片空白——本地不依赖信号。
一个 on-device 模型可以离线工作——在飞机上、在隧道里、在偏远地区、在任何没有可靠连接的地方——因为它不需要服务器。云端 AI 在网络断掉的那一刻就直接停摆。对于那些必须在任何地方都能工作的功能,或是在无法假定有连接的场景里,本地运行就不是一项优化,而是唯一的选择。不依赖网络是一种云端从根本上无法提供的能力。
速度与成本:没有 round-trip,没有账单
凭记忆回答,对比每次都给某人打电话——即时而免费,而不是延迟又计费。
本地还白白带来另外两项收益。延迟:没有网络 round-trip,一个 on-device 模型几乎可以即时响应,完全没有访问远方服务器的那段延迟。成本:模型运行在用户已经拥有的硬件上,所以没有单次调用的账单——你不必为每个请求向服务商付钱。对于一个高频或对延迟敏感的功能来说,「每次调用都即时且免费」是一个强大的组合,而带着 round-trip 和计费器的云端无法提供。
在本地运行解锁了云端无法比拟的四样东西:隐私(数据永不离开)、离线使用(不需要网络)、即时响应(没有 round-trip),以及零单次调用成本(用户自己的硬件)。
一部手机跑不动一个庞大的前沿模型。所以 on-device AI 依赖于把模型做得足够小以塞进设备——而把模型缩小有几种标准的办法。
small language model 能塞进大模型塞不进的地方
一本口袋手册,而不是一整面墙的百科全书——全面性差远了,但它能装进你的口袋,需要时就在那里。
一台设备的内存和处理能力有限,所以 on-device AI 使用 small language model(SLM)——参数远少于那些巨头、有意造得紧凑的模型。它们没法知道或做到最大模型所能的一切,但它们小到足以在手机或笔记本上运行。整个 edge AI 领域都建立在这些之上:朝着能力更强的小模型发展的趋势,正是让在本地运行真正的 AI 变得切实可行的原因。
quantization:精度更低,体积小很多
把一个测量值存成「约 3.1」而不是「3.14159265」——你损失一点点精确度,但这个数字占用的空间小得多,而对大多数用途来说它一样好用。
把模型缩小的一项关键技术是 quantization:以更低的精度存储它内部的数字——大致就是位数更少——这样整个模型占用的内存就大幅减少,运行也更快。你用一小点精确度换取体积的大幅缩减,对于塞进设备来说这通常是一笔极划算的买卖。quantization 正是让一个本来塞不进手机的模型被压缩到能塞进去的办法,而且往往质量损失几乎察觉不到。
distillation:小模型向大模型学习
一名学徒为某一项具体的活计学习师傅的手艺——不是师傅所知的一切,但足以把那项活计做得几乎一样好,而体量只有一小部分。
另一项技术是 distillation:训练一个小模型去模仿一个大模型,让小模型以远更紧凑的形态捕捉到大模型的大部分能力。庞大的「老师」模型的行为被迁移进一个小小的「学生」里,而这个学生便宜到足以在本地运行。在一开始就造得紧凑的小模型、进一步把它们缩小的 quantization,以及迁移能力的 distillation 之间,一个有用的模型可以被做得足够小,从而安家于一台设备之上。
On-device AI 依赖于小模型:天生造得紧凑的 small language model、以更低精度存储它们的 quantization,以及把大模型的能力迁移进一个能塞进设备的小模型的 distillation。
把模型缩小并非没有代价——一个小模型确实做不到巨头能做的一切。对这道差距保持诚实,才是你决定什么该放进设备的方式。
小模型懂得更少、推理更弱
一个口袋计算器对比一座科研实验室——计算器即时而且总在身边,但你不会让它去设计一座桥。
天下没有免费的午餐:一个小模型确实不如一个大模型有能力。它的通用知识更少,处理复杂推理时更不可靠,在困难、开放式的任务上更弱。让它能在手机上运行的那份紧凑,是用原始能力换来的。所以 on-device AI 并不只是把云端 AI 搬到本地——它是一个被有意削弱的模型,用来换取隐私、离线使用和速度。假装这个小模型一样聪明,正是 edge 功能让人失望的根源。
它擅长日常活计,而非前沿级的硬骨头
一位手艺娴熟的本地师傅把家里大多数活计都干得漂漂亮亮,只有遇到那种罕见而真正棘手的,你才去叫专家。
一个小小的 on-device 模型很适合日常的、界定清晰的任务——文本分类、简单抽取、转写、自动补全、直截了当的辅助——这些本来也不需要前沿模型的活计。它在那些真正困难、新颖、多步骤的问题上会吃力,而那正是最大的模型挣回身价的地方。这一点正好对应难度:大多数日常任务都稳稳落在一个小模型的能力范围内,只有那一小撮困难的才真正需要云端的巨头。
让任务匹配设备所能做的
你为活计带上趁手的工具——常见的任务用小的,只有当活计真正需要时才用大的。
这门功夫在于让任务匹配设备能运行的模型。如果一个功能的工作日常到足以交给小模型,on-device 就在隐私、离线、延迟和成本上胜出。如果它确实需要前沿级的推理,设备就交不出来,你就需要云端。知道那条界线落在哪里——一个小小的本地模型什么能做好、什么不能——正是 edge AI 的核心判断。把太硬的活推给小模型,质量就受损;把够得上云端的活留在本地,功能就发挥不出来。
一个小模型确实能力更弱——知识更少,硬推理更弱。它擅长日常的、界定清晰的工作,对前沿级的硬骨头则力不从心,所以让任务匹配设备实际能运行的东西。
这里有一条洞见,它让 edge AI 比「小就意味着弱」所暗示的强大得多:一个专注于一项活计的小模型,在那项活计上可以与庞大的通才一较高下。
一个专注的小模型可以匹敌一个庞大的通用模型
一位把一项手术做了上千次的本地专科医生,胜过一位才华横溢却很少做这台手术的通才——在这件具体的事情上,窄而精的熟练胜过广博的知识。
一个小模型作为通才是弱的,但在某一项具体、界定明确的任务上,它可以匹敌甚至击败一个大得多的通用模型。一个庞大的模型把它的容量摊薄在万事万物上;一个为单一活计做过 fine-tuning 的小模型,则把它有限的容量恰恰集中在那里。所以对于一项狭窄的任务——你那项具体的分类、你那项特定的抽取——一个专门化的小模型可以既足够好,又足够小到能在本地运行。专精把缩小所放弃的东西找回来了一大半。
fine-tuning 把小模型磨利,适配它的活计
对一名学徒就他每天要做的那一项任务进行密集训练——即便没有师傅的广博本领,他也会把那件事做得极其出色。
让一个小模型以小博大的办法,是为你的具体任务对它做 fine-tuning(见 fine-tuning 课):用它将要做的那项活计的例子来训练它,把那一项技能深深烙进去。一个为你那狭窄用途调过的小模型,在那个用途上可以胜过一个大得多的通用模型——而它依然小到能放进设备。正是这个组合让 edge AI 真正具备了竞争力:不是一个弱通才,而是一个恰好很小的犀利专才。
窄而本地是一个强大的组合
一件为某一项活计量身打造、并放在手边的工具——它不是你拥有的最万能的东西,但在那项任务上是最快、最可靠的。
on-device AI 的制胜模式是窄加本地:一个把一件事做得非常好的小模型,直接运行在设备上。你放弃通用性——而一个单一用途的功能本来也不需要它——换来隐私、离线能力、即时响应和零成本。对于一个专注的功能,这个组合可以完胜云端的巨头——更快、更便宜、更私密,而在它所专的那一件事上一样好。专精正是把「小而弱」变成「小而出色,在它要紧的地方」的东西。
一个为某一项具体任务做过 fine-tuning 的小模型,在那项任务上可以与庞大的通才一较高下。窄加本地——一个运行在设备上的犀利专才——把「小而弱」变成「小而出色,在它要紧的地方」。
你不必对每件事都在云端和设备之间二选一。最强大的设计两者并用——能在本地处理的就在本地处理,只在不得不时才求助云端。
常见情况走本地,困难情况走云端
一家诊所里,护士在现场处理那些日常的就诊,只把复杂的病例转给远方的专科医院——大多数需求在本地满足,那少数棘手的才往上转。
最强的模式是 hybrid:在设备上跑一个小模型来处理常见的、日常的或私密的工作,只为那些确实困难的情况升级到一个强大的云端模型。既然大多数请求都很容易,大多数就在本地被处理掉——又快、又免费、又私密——只有那困难的一小撮才向云端的巨头跑一趟 round-trip。这就是来自模型经济学的路由思想,被应用到设备—云端的边界上:默认用最便宜、最本地的选项,只有当重任配得上时才动用那个重量级的。
把私密和需要离线的部分留在设备上
你在家里处理自己那些敏感的文书,只把确实需要外部专家的部分送出去——把能保密的留作保密。
一个 hybrid 设计让你可以把对隐私敏感、以及必须离线工作的部分放到设备上,同时仍然用云端来做那些需要它的重推理。个人数据可以在本地被处理、永不离开;只有那些不敏感、确实困难的工作才送出去。所以你不必拿隐私去换能力,也不必拿能力去换隐私——你把系统架构成让每一块都在适合它需求的地方运行。这条边界本身成了一件设计工具。
设备—云端的划分是一项架构决策
决定哪些工作留在本地分部、哪些送往总部——这是一种有意的分工,而不是非此即彼的选择。
把「这件事在哪里运行」当作一项逐功能的决策——就像云架构的各个层次,或是 LLM 阶梯的各级台阶——才是成熟的做法。有些工作出于隐私、离线、延迟或成本属于设备;有些出于能力属于云端;而一个好的系统会把每一项都安放在它合适的地方。设备—云端的划分不是一个单一的全局选择,而是一项你去设计的架构,把每一块工作放在最能服务它特定需求的地方。
最强的模式是 hybrid:用一个小小的本地模型处理常见的、私密的、离线的工作,只为困难的情况升级到云端的巨头。设备—云端的划分是一项你去设计的架构,一块一块地来。
用好 edge AI 归结为:认出本地何时确实胜出,并对你为此换走的能力保持诚实。
当本地确实胜出时,就选 on-device
当隐私、速度、离线或成本让一项任务留在内部明显更好时,你就选择把它留在内部——只有在真正需要外部专家时才外包。
当 on-device 的某一项收益是决定性的时就走它:数据必须保密、功能必须离线工作、响应必须即时,或者单次调用成本必须为零——而且任务日常到(或专门到)一个小模型就能应付。不要为了躲开云端,就硬把一项确实困难、通用的任务塞给一个弱小的本地模型;也不要在数据本可以留在本地时把私密数据送往云端。让运行的位置匹配这个功能真正要紧的东西。
对能力上的取舍保持诚实
你接受口袋工具不是车间——而你只为它确实能做的活计选它,不去假装它是它所不是的东西。
这门功夫在于对取舍的诚实:一个本地模型给你隐私、离线、速度和成本,换走的是实打实的能力。不要假装一个小模型和一个巨头一样聪明;相反,把 on-device 功能的范围圈定在小模型确实能做好的事情上——把它收窄、让它专门化,或是让它保持日常——并把困难的部分路由到云端。在它的长处与需求对得上的地方使用,edge AI 是变革性的;越过一个小模型所能的界线去硬推,它就只会让人失望。要清醒地选择它。
- 是否有一项收益是决定性的——隐私、离线、延迟或零成本——是云端无法 比拟的? - 任务是否足够日常或足够专门,能让一个小模型做好? - 能否有一个 模型塞得进——天生小巧、经过 quantization,或经过 distillation——目标设备? - 在这项狭窄任务上, fine-tuning 能否让一个小专才匹敌一个巨头? - 它是否应当走 hybrid ——常见情况走本地,困难情况走云端? - 我是否诚实面对那份我为本地收益 换走的能力?
- cloud / on-device / edge——模型在哪里运行:一个远方的数据中心,还是在本地。 - round-trip——on-device 所避免的那趟去往服务器的网络往返。 - small language model (SLM)——一个为在有限硬件上运行而造的紧凑模型。 - quantization——以更低的精度存储一个模型 以将其缩小。 - distillation——训练一个小模型去模仿一个大模型。 - specialization / fine-tuning——一个狭窄的小模型在某一项任务上匹敌一个巨头。 - hybrid——常见情况走本地,困难情况走云端;设备—云端的划分。
- 当一项收益是决定性的时你就走本地——隐私、离线、延迟或成本。 - 你用一个 足够小的模型——天生小巧、经过 quantization,或经过 distillation——使其适合设备。 - 你 专门化或 fine-tune 一个小模型,让它在一项狭窄任务上匹敌一个巨头。 - 你设计一种 hybrid 划分,把私密和离线的工作留在本地,把困难的情况升级出去。 - 你 诚实面对能力上的取舍,并把功能的范围圈定在小模型能做的事情上。
Edge AI 把一个小模型直接跑在设备上,用原始能力换取隐私、离线使用、即时响应和零成本。把它专门化,让它在一项狭窄任务上匹敌一个巨头;走 hybrid 把两者都留住;并对这份取舍保持诚实。