AI-NATIVE · 2026年6月5日

每台笔记本里都有一个 agent —— 以及 token 账单的终结

整个春天，所有人都在为 token 账单恐慌。这周 NVIDIA 给出了一个将在今秋落地的结构性答案：agent 搬进你的笔记本。RTX Spark 能在本地运行一个 1200 亿参数、上下文达一百万 token 的模型 —— 没有按 token 计费的电表，你的数据永不离开机器，而且处理那些轻快的活儿更快。它不会取代前沿，但它悄悄地一次性回答了今年最大的三个头疼问题。

这个春天大部分时间都是一场关于 token 账单的恐慌 —— Uber 在四个月里烧光了一年的 AI 预算，Microsoft 把 Claude Code 从自己的工程师手里撤了下来。这周，NVIDIA 给出了一个结构性的答案，而且它今秋就会到来：agent 搬进你的笔记本。

在 Computex 上，NVIDIA 发布了 RTX Spark —— 一颗搭载 Blackwell GPU、128GB 统一内存的 Windows-on-Arm 超级芯片，它可以在本地运行一个 1200 亿参数、上下文最高达一百万 token 的模型，用于长时间运行的 agent 任务。它今秋将随 Dell、HP、Lenovo、Asus 的笔记本上市 —— 还有 Microsoft 自家的 Surface。Apple Silicon 今天已经能做一个更轻的版本（一台 Mac 能以聊天速度运行一个 30B 模型）。agent 正从云端走下来，走上书桌。

三个问题，一步棋

本地 AI 不只是“一台更快的笔记本”。它悄悄地同时回答了今年最大的三个头疼问题。

电表停了。 云的魔力在于你前期什么都不用付。这也是它的诅咒：你按 token 付费，永远地付下去 —— 这正是那场恐慌。本地用一次性的芯片换来了每次调用近乎为零的边际成本。独立分析把交叉点定在每天几百万 token 左右：低于这个量，云更便宜；每天超过约 500 万 token，拥有硬件就划算了，电表就停了。对一个高流量的 agent 来说，这就是租与买的区别。

你的数据还是你的。 有了本地推理，提示词和文档永不离开设备。这不是一个锦上添花的功能 —— 它正是让云端推理在 GDPR、HIPAA 以及整个行业的数据驻留规则下成为法律责任的那个东西。它也是对 AI 悄悄给你建档这件事最干净的回答：如果你的数据从不离开房间，模型就没法把它送到任何地方。

处理轻快的活儿更快。 在端侧，首 token 时延比往返一趟数据中心快 4 到 13 倍 —— 15–80ms 对 180–600ms。自动补全和快捷操作感觉是即时的，而不是卡顿的。

暂无评论

登录以参与讨论。

做第一个分享想法的人。

每台笔记本里都有一个 agent —— 以及 token 账单的终结

三个问题，一步棋

诚实的提醒：本地不会取代前沿

这让它成了我反复在做的同一步棋：混合

而且它只有在你保持可替换时才有效

评论