Все заметки
Агент в каждом ноуте — и конец токенового счёта

5 июня 2026 г.

Агент в каждом ноуте — и конец токенового счёта

Всю весну все паниковали из-за токенового счёта. На этой неделе NVIDIA показала структурный ответ, который приходит этой осенью: агент переезжает на твой ноут. RTX Spark гоняет модель на 120 миллиардов параметров с контекстом в миллион токенов локально — без счётчика за токены, твои данные не покидают машину, и для шустрого это быстрее. Фронтир он не заменит. Но тихо отвечает сразу на три главные головные боли года.

Бо́льшая часть этой весны была паникой из-за токенового счёта — Uber, спаливший годовой AI-бюджет за четыре месяца, Microsoft, отобравший Claude Code у своих же инженеров. На этой неделе NVIDIA показала структурный ответ на это, и он приходит осенью: агент переезжает на твой ноут.

На Computex NVIDIA представила RTX Spark — Windows-on-Arm суперчип с GPU Blackwell и 128GB унифицированной памяти, который может гонять модель на 120 миллиардов параметров с контекстом до миллиона токенов локально, для долгоиграющих агентных задач. Он выходит этой осенью в ноутбуках Dell, HP, Lenovo, Asus — и в собственном Surface от Microsoft. Apple Silicon уже сегодня делает версию полегче (Mac гоняет 30B-модель на скорости чата). Агент сходит с облака на стол.

Три проблемы, один ход

Локальный ИИ — это не просто «ноут побыстрее». Он тихо отвечает сразу на три главные головные боли года.

Счётчик останавливается. Магия облака была в том, что ты не платил ничего наперёд. Это было и его проклятием: ты платишь за токены, вечно, — что и есть паника. Локальное меняет разовый чип на примерно нулевую предельную стоимость на вызов. Независимый анализ ставит точку перелома около нескольких миллионов токенов в день: ниже — облако дешевле; выше примерно 5M токенов в день — владеть железом выгоднее, и счётчик останавливается. Для высокообъёмного агента это разница между арендой и владением.

Твои данные остаются твоими. При локальном инференсе промпты и документы никогда не покидают устройство. Это не «приятный бонус» — это то, что делает облачный инференс юридической ответственностью под GDPR, HIPAA и правилами резидентности данных для целых отраслей. Это и самый чистый ответ на ИИ, тихо строящий твой профиль: модель не может никуда отправить твои данные, если данные не выходят из комнаты.

Для шустрого это быстрее. На устройстве время до первого токена в 4–13 раз быстрее, чем поход в дата-центр и обратно, — 15–80мс против 180–600мс. Автодополнение и быстрые действия ощущаются мгновенными, а не тормозными.

Честная оговорка: локальное не заменяет фронтир

Не хочу это перепродавать. Open-weight модели, которые гоняются локально, отстают от фронтира примерно на 3–6 месяцев, ты владеешь стоимостью железа и эксплуатацией, а единственный лучший мозг по-прежнему в облаке. Так что это не «выбрось API». Это новый, по-настоящему хороший уровень — быстрый, приватный и бесплатный на вызов, но не самая умная модель на Земле.

А значит, это тот же ход, что я делаю всё время: гибрид

Если «быстрая, дешёвая, приватная модель на лёгкое и фронтир на трудное» звучит знакомо — так и должно: это ровно дешёвая модель справится с 90% работы, только дешёвая модель теперь крутится на устройстве. Маршрутизируй скучные, высокообъёмные, чувствительные к приватности 90% на локальную модель, где это бесплатно и данные на месте; отправляй по-настоящему трудные 10% на фронтир в облако. Прагматичный консенсус самой индустрии тот же: фронтир для рассуждения, локальное для исполнения.

И это работает, только если ты остался swappable

Вот подвох, и он тот же, что на прошлой неделе: твой агент не должен знать или заботиться, живёт модель в дата-центре или на ноуте. Если ты построил модель-агностичный шов — говоришь с «моделью», роутишь по уровню задачи — то локальное это просто ещё один уровень, на который ты наводишь значение конфига, и ты с первого дня получаешь дешевле, приватнее, быстрее для бо́льшей части трафика. Если ты приварил себя к API одного облачного вендора, ты этот подарок взять не можешь вовсе; ты так и будешь платить ренту за каждый токен, пока ответ лежит на столе.

Токеновая паника, проблема приватности и проблема задержки выглядели этой весной как три отдельных кризиса. Этой осенью у них появляется один общий, частичный ответ: перенеси модель туда, где пользователь и данные уже есть. Он не заменит фронтир и не бесплатен — но останавливает счётчик для тех 90%, которым фронтир и не был нужен. Единственное, что стоит между тобой и этим выигрышем, — построил ли ты так, чтобы модель могла переехать. Если да — ноут только что стал ещё одним уровнем. Если нет — ты платишь ренту за каждый токен, пока ответ лежит у тебя на столе.

Комментарии

Пока нет комментариев

Войдите, чтобы участвовать в разговоре.

Будьте первым, кто оставит мысль.