速成课 · No. 36

大多数 AI 运行在数据中心里，通过网络去访问。但有一类正在飞速壮大的 AI 直接运行在手机、笔记本或传感器上——根本没有 cloud round-trip。被做得足够小、可以在本地运行的小模型，解锁了隐私、离线使用、即时响应和零单次调用成本。来了解 edge AI 让什么成为可能、一个模型如何变得足够小以塞进设备，以及你为此要承担的取舍。

只讲精髓 · 每个想法一个画面 · 小巧、本地、属于你

§ 01

整个主题归结为一个选择：模型究竟在哪里运行？理解这个分岔——以及每一边的代价——为其余的一切定了框架。

大多数 AI 运行在数据中心里，通过网络

每要一个答案就给一间远方的办公室打电话——你的问题传过去，一位专家回复，答案再传回来，每一次都如此。

默认情况下，一个 AI 模型运行在 cloud——在数据中心里强大的服务器上——而你的设备通过互联网去访问它。你发出请求，它在远端被处理，响应再传回来。这是大多数 AI 的工作方式，也正因如此那些最大、最聪明的模型才成为可能：它们所需的硬件远远超出一部手机。但这也意味着每一次调用都要向别人的计算机发起一趟网络 round-trip。

On-device AI 就在你所在的地方运行

一位住在你家里、而不是住在城市另一头的专家——你只管问，答案立刻就来，不用打电话，不用奔波。

On-device（或 edge）AI 在本地运行模型——在手机、笔记本、传感器、汽车上——完全不去服务器跑一趟。计算就发生在数据所在的地方，发生在你手中的硬件上。「Edge」指的是网络的边缘，远离中心数据中心，在用户和设备所在的外侧。这是云端的替代方案：与其把请求送走去得到答案，不如就地把答案算出来。

round-trip 才是区别所在

在家做饭对比叫外卖——这顿饭可以是一样的，但一种每次都要有快递员穿城而过，另一种则不用。

云端与 on-device 之间的核心区别不在 AI 本身——而在于你的数据是否离开设备，以及你是否要等一趟网络 round-trip。正是这一个区分驱动了本课中的每一项收益与取舍：把工作留在本地，你就获得隐私、离线能力和速度，但你被限制在设备所能运行的范围内；把它送往云端，你就得到最大的模型，但你要付出 round-trip、成本，以及数据离开设备的代价。模型在哪里运行，几乎决定了一切。

云端 AI 运行在通过网络访问的远方服务器上；on-device（edge）AI 在本地运行，没有 round-trip。数据是否离开、你是否要等网络，驱动着每一项取舍。

§ 02

在设备上运行模型不只是一项技术上的猎奇——它解锁了云端无法比拟的四项具体收益，其中任何一项都可能成为走向本地的决定性理由。

隐私：数据永不离开

把你的日记锁在家里的抽屉里，对比把每一页都寄给一家公司去读——一种把秘密留在你身边，另一种则不然。

在本地运行最大的理由是隐私：如果模型在设备上，它处理的数据就永远不必离开——不必把私人照片、私密消息或敏感记录发往服务器。对于任何用户宁愿保留在自己硬件上的东西，或是法规规定不能交给第三方的东西，on-device 就是答案。数据在它所在的地方被处理，而不是奔向别人的计算机，这是一种任何云服务都无法完全比拟的隐私保障。

离线：没有连接也能工作

一张纸质地图在隧道里照样管用，而在线地图在那里却一片空白——本地不依赖信号。

一个 on-device 模型可以离线工作——在飞机上、在隧道里、在偏远地区、在任何没有可靠连接的地方——因为它不需要服务器。云端 AI 在网络断掉的那一刻就直接停摆。对于那些必须在任何地方都能工作的功能，或是在无法假定有连接的场景里，本地运行就不是一项优化，而是唯一的选择。不依赖网络是一种云端从根本上无法提供的能力。

速度与成本：没有 round-trip，没有账单

凭记忆回答，对比每次都给某人打电话——即时而免费，而不是延迟又计费。

本地还白白带来另外两项收益。延迟：没有网络 round-trip，一个 on-device 模型几乎可以即时响应，完全没有访问远方服务器的那段延迟。成本：模型运行在用户已经拥有的硬件上，所以没有单次调用的账单——你不必为每个请求向服务商付钱。对于一个高频或对延迟敏感的功能来说，「每次调用都即时且免费」是一个强大的组合，而带着 round-trip 和计费器的云端无法提供。

在本地运行解锁了云端无法比拟的四样东西：隐私（数据永不离开）、离线使用（不需要网络）、即时响应（没有 round-trip），以及零单次调用成本（用户自己的硬件）。

§ 03

一部手机跑不动一个庞大的前沿模型。所以 on-device AI 依赖于把模型做得足够小以塞进设备——而把模型缩小有几种标准的办法。

small language model 能塞进大模型塞不进的地方

一本口袋手册，而不是一整面墙的百科全书——全面性差远了，但它能装进你的口袋，需要时就在那里。

一台设备的内存和处理能力有限，所以 on-device AI 使用 small language model（SLM）——参数远少于那些巨头、有意造得紧凑的模型。它们没法知道或做到最大模型所能的一切，但它们小到足以在手机或笔记本上运行。整个 edge AI 领域都建立在这些之上：朝着能力更强的小模型发展的趋势，正是让在本地运行真正的 AI 变得切实可行的原因。

quantization：精度更低，体积小很多

把一个测量值存成「约 3.1」而不是「3.14159265」——你损失一点点精确度，但这个数字占用的空间小得多，而对大多数用途来说它一样好用。

把模型缩小的一项关键技术是 quantization：以更低的精度存储它内部的数字——大致就是位数更少——这样整个模型占用的内存就大幅减少，运行也更快。你用一小点精确度换取体积的大幅缩减，对于塞进设备来说这通常是一笔极划算的买卖。quantization 正是让一个本来塞不进手机的模型被压缩到能塞进去的办法，而且往往质量损失几乎察觉不到。

distillation：小模型向大模型学习

一名学徒为某一项具体的活计学习师傅的手艺——不是师傅所知的一切，但足以把那项活计做得几乎一样好，而体量只有一小部分。

另一项技术是 distillation：训练一个小模型去模仿一个大模型，让小模型以远更紧凑的形态捕捉到大模型的大部分能力。庞大的「老师」模型的行为被迁移进一个小小的「学生」里，而这个学生便宜到足以在本地运行。在一开始就造得紧凑的小模型、进一步把它们缩小的 quantization，以及迁移能力的 distillation 之间，一个有用的模型可以被做得足够小，从而安家于一台设备之上。

On-device AI 依赖于小模型：天生造得紧凑的 small language model、以更低精度存储它们的 quantization，以及把大模型的能力迁移进一个能塞进设备的小模型的 distillation。

§ 04

把模型缩小并非没有代价——一个小模型确实做不到巨头能做的一切。对这道差距保持诚实，才是你决定什么该放进设备的方式。

小模型懂得更少、推理更弱

一个口袋计算器对比一座科研实验室——计算器即时而且总在身边，但你不会让它去设计一座桥。

天下没有免费的午餐：一个小模型确实不如一个大模型有能力。它的通用知识更少，处理复杂推理时更不可靠，在困难、开放式的任务上更弱。让它能在手机上运行的那份紧凑，是用原始能力换来的。所以 on-device AI 并不只是把云端 AI 搬到本地——它是一个被有意削弱的模型，用来换取隐私、离线使用和速度。假装这个小模型一样聪明，正是 edge 功能让人失望的根源。

它擅长日常活计，而非前沿级的硬骨头

一位手艺娴熟的本地师傅把家里大多数活计都干得漂漂亮亮，只有遇到那种罕见而真正棘手的，你才去叫专家。

一个小小的 on-device 模型很适合日常的、界定清晰的任务——文本分类、简单抽取、转写、自动补全、直截了当的辅助——这些本来也不需要前沿模型的活计。它在那些真正困难、新颖、多步骤的问题上会吃力，而那正是最大的模型挣回身价的地方。这一点正好对应难度：大多数日常任务都稳稳落在一个小模型的能力范围内，只有那一小撮困难的才真正需要云端的巨头。

让任务匹配设备所能做的

你为活计带上趁手的工具——常见的任务用小的，只有当活计真正需要时才用大的。

这门功夫在于让任务匹配设备能运行的模型。如果一个功能的工作日常到足以交给小模型，on-device 就在隐私、离线、延迟和成本上胜出。如果它确实需要前沿级的推理，设备就交不出来，你就需要云端。知道那条界线落在哪里——一个小小的本地模型什么能做好、什么不能——正是 edge AI 的核心判断。把太硬的活推给小模型，质量就受损；把够得上云端的活留在本地，功能就发挥不出来。

一个小模型确实能力更弱——知识更少，硬推理更弱。它擅长日常的、界定清晰的工作，对前沿级的硬骨头则力不从心，所以让任务匹配设备实际能运行的东西。

§ 05

这里有一条洞见，它让 edge AI 比「小就意味着弱」所暗示的强大得多：一个专注于一项活计的小模型，在那项活计上可以与庞大的通才一较高下。

一个专注的小模型可以匹敌一个庞大的通用模型

一位把一项手术做了上千次的本地专科医生，胜过一位才华横溢却很少做这台手术的通才——在这件具体的事情上，窄而精的熟练胜过广博的知识。

一个小模型作为通才是弱的，但在某一项具体、界定明确的任务上，它可以匹敌甚至击败一个大得多的通用模型。一个庞大的模型把它的容量摊薄在万事万物上；一个为单一活计做过 fine-tuning 的小模型，则把它有限的容量恰恰集中在那里。所以对于一项狭窄的任务——你那项具体的分类、你那项特定的抽取——一个专门化的小模型可以既足够好，又足够小到能在本地运行。专精把缩小所放弃的东西找回来了一大半。

fine-tuning 把小模型磨利，适配它的活计

对一名学徒就他每天要做的那一项任务进行密集训练——即便没有师傅的广博本领，他也会把那件事做得极其出色。

让一个小模型以小博大的办法，是为你的具体任务对它做 fine-tuning（见 fine-tuning 课）：用它将要做的那项活计的例子来训练它，把那一项技能深深烙进去。一个为你那狭窄用途调过的小模型，在那个用途上可以胜过一个大得多的通用模型——而它依然小到能放进设备。正是这个组合让 edge AI 真正具备了竞争力：不是一个弱通才，而是一个恰好很小的犀利专才。

窄而本地是一个强大的组合

一件为某一项活计量身打造、并放在手边的工具——它不是你拥有的最万能的东西，但在那项任务上是最快、最可靠的。

on-device AI 的制胜模式是窄加本地：一个把一件事做得非常好的小模型，直接运行在设备上。你放弃通用性——而一个单一用途的功能本来也不需要它——换来隐私、离线能力、即时响应和零成本。对于一个专注的功能，这个组合可以完胜云端的巨头——更快、更便宜、更私密，而在它所专的那一件事上一样好。专精正是把「小而弱」变成「小而出色，在它要紧的地方」的东西。

一个为某一项具体任务做过 fine-tuning 的小模型，在那项任务上可以与庞大的通才一较高下。窄加本地——一个运行在设备上的犀利专才——把「小而弱」变成「小而出色，在它要紧的地方」。

§ 06

你不必对每件事都在云端和设备之间二选一。最强大的设计两者并用——能在本地处理的就在本地处理，只在不得不时才求助云端。

常见情况走本地，困难情况走云端

一家诊所里，护士在现场处理那些日常的就诊，只把复杂的病例转给远方的专科医院——大多数需求在本地满足，那少数棘手的才往上转。

最强的模式是 hybrid：在设备上跑一个小模型来处理常见的、日常的或私密的工作，只为那些确实困难的情况升级到一个强大的云端模型。既然大多数请求都很容易，大多数就在本地被处理掉——又快、又免费、又私密——只有那困难的一小撮才向云端的巨头跑一趟 round-trip。这就是来自模型经济学的路由思想，被应用到设备—云端的边界上：默认用最便宜、最本地的选项，只有当重任配得上时才动用那个重量级的。

把私密和需要离线的部分留在设备上

你在家里处理自己那些敏感的文书，只把确实需要外部专家的部分送出去——把能保密的留作保密。

一个 hybrid 设计让你可以把对隐私敏感、以及必须离线工作的部分放到设备上，同时仍然用云端来做那些需要它的重推理。个人数据可以在本地被处理、永不离开；只有那些不敏感、确实困难的工作才送出去。所以你不必拿隐私去换能力，也不必拿能力去换隐私——你把系统架构成让每一块都在适合它需求的地方运行。这条边界本身成了一件设计工具。

设备—云端的划分是一项架构决策

决定哪些工作留在本地分部、哪些送往总部——这是一种有意的分工，而不是非此即彼的选择。

把「这件事在哪里运行」当作一项逐功能的决策——就像云架构的各个层次，或是 LLM 阶梯的各级台阶——才是成熟的做法。有些工作出于隐私、离线、延迟或成本属于设备；有些出于能力属于云端；而一个好的系统会把每一项都安放在它合适的地方。设备—云端的划分不是一个单一的全局选择，而是一项你去设计的架构，把每一块工作放在最能服务它特定需求的地方。

最强的模式是 hybrid：用一个小小的本地模型处理常见的、私密的、离线的工作，只为困难的情况升级到云端的巨头。设备—云端的划分是一项你去设计的架构，一块一块地来。

§ 07

用好 edge AI 归结为：认出本地何时确实胜出，并对你为此换走的能力保持诚实。

当本地确实胜出时，就选 on-device

当隐私、速度、离线或成本让一项任务留在内部明显更好时，你就选择把它留在内部——只有在真正需要外部专家时才外包。

当 on-device 的某一项收益是决定性的时就走它：数据必须保密、功能必须离线工作、响应必须即时，或者单次调用成本必须为零——而且任务日常到（或专门到）一个小模型就能应付。不要为了躲开云端，就硬把一项确实困难、通用的任务塞给一个弱小的本地模型；也不要在数据本可以留在本地时把私密数据送往云端。让运行的位置匹配这个功能真正要紧的东西。

对能力上的取舍保持诚实

你接受口袋工具不是车间——而你只为它确实能做的活计选它，不去假装它是它所不是的东西。

这门功夫在于对取舍的诚实：一个本地模型给你隐私、离线、速度和成本，换走的是实打实的能力。不要假装一个小模型和一个巨头一样聪明；相反，把 on-device 功能的范围圈定在小模型确实能做好的事情上——把它收窄、让它专门化，或是让它保持日常——并把困难的部分路由到云端。在它的长处与需求对得上的地方使用，edge AI 是变革性的；越过一个小模型所能的界线去硬推，它就只会让人失望。要清醒地选择它。

在你着手 on-device 之前

是否有一项收益是决定性的——隐私、离线、延迟或零成本——是云端无法比拟的？ - 任务是否足够日常或足够专门，能让一个小模型做好？ - 能否有一个模型塞得进——天生小巧、经过 quantization，或经过 distillation——目标设备？ - 在这项狭窄任务上， fine-tuning 能否让一个小专才匹敌一个巨头？ - 它是否应当走 hybrid ——常见情况走本地，困难情况走云端？ - 我是否诚实面对那份我为本地收益换走的能力？

你现在掌握的词

cloud / on-device / edge——模型在哪里运行：一个远方的数据中心，还是在本地。 - round-trip——on-device 所避免的那趟去往服务器的网络往返。 - small language model （SLM）——一个为在有限硬件上运行而造的紧凑模型。 - quantization——以更低的精度存储一个模型以将其缩小。 - distillation——训练一个小模型去模仿一个大模型。 - specialization / fine-tuning——一个狭窄的小模型在某一项任务上匹敌一个巨头。 - hybrid——常见情况走本地，困难情况走云端；设备—云端的划分。

你用好 edge AI 的迹象

当一项收益是决定性的时你就走本地——隐私、离线、延迟或成本。 - 你用一个 足够小的模型——天生小巧、经过 quantization，或经过 distillation——使其适合设备。 - 你 专门化或 fine-tune 一个小模型，让它在一项狭窄任务上匹敌一个巨头。 - 你设计一种 hybrid 划分，把私密和离线的工作留在本地，把困难的情况升级出去。 - 你 诚实面对能力上的取舍，并把功能的范围圈定在小模型能做的事情上。

Edge AI 把一个小模型直接跑在设备上，用原始能力换取隐私、离线使用、即时响应和零成本。把它专门化，让它在一项狭窄任务上匹敌一个巨头；走 hybrid 把两者都留住；并对这份取舍保持诚实。