Все заметки
Для долгоиграющих агентов единственный бенчмарк — цена за задачу

7 июня 2026 г.

Для долгоиграющих агентов единственный бенчмарк — цена за задачу

Новую Nemotron 3 Ultra от NVIDIA продают не как самую умную модель. Её продают как дешёвую в работе часами — построенную для агентов, которые планируют, вызывают инструменты и рассуждают через сотни шагов. Эта подача и есть настоящая история. Когда агент работает долго, важной становится не оценка в бенчмарке и не цена за токен, а доллары за завершённую задачу. Две модели с одинаковой ценой за токен могут отличаться в реальной работе вдвое. Вот почему лидерборд — неправильное, на что смотреть, как только агент работает дольше мгновения.

NVIDIA выпустила новую открытую модель 4 июня, и интересна не оценка в лидерборде — интересна подача. Nemotron 3 Ultra продают как более быструю и дешёвую в работе для долгоиграющих агентов: агентов, которые планируют, вызывают инструменты и рассуждают через много шагов. NVIDIA заявляет примерно в 5 раз выше пропускную способность, чем у сопоставимых открытых моделей, и до 30% ниже стоимость на агентных задачах, и даже даёт режим рассуждений «среднего усилия», который тратит примерно в 2,5 раза меньше токенов, чем полное рассуждение.

Модель, у которой главная фича — «дёшево работать долго», говорит, где на самом деле рынок. Интересная конкуренция для агентов больше не в том, кто возглавляет бенчмарк интеллекта. Она в том, кто заканчивает работу за наименьшие деньги, — а это совсем другое число, чем то, что на лидерборде.

Почему «долгоиграющий» меняет всё уравнение

Одиночный вызов модели дёшев, и цена за токен почти не важна. Но агент, работающий часами, — другой зверь: он планирует, читает, вызывает инструмент, читает результат, рассуждает, вызывает другой — снова и снова, иногда сотни шагов. Каждый из этих шагов тратит токены, и они накапливаются. Стоимость долгого прогона агента — не погрешность округления, а доминирующая стоимость, и растёт она с каждым ходом.

Это меняет то, что стоит оптимизировать. Для чат-бота «какая модель умнее на ответ» — нормальный вопрос. Для долгоиграющего агента вопрос становится «какая модель доходит до верного финала за наименьшую общую трату» — и у этих двух вопросов разные победители. Модель, чуть менее впечатляющая в бенчмарке, но тратящая вдвое меньше токенов на завершение реальной задачи, — выбор лучше, и лидерборд вам этого никогда не скажет.

Цена за токен — тоже ловушка

Вот часть, на которой люди спотыкаются. Казалось бы, самая дешёвая модель — у которой самая низкая цена за токен. Не обязательно. Вы платите цену-за-токен умножить на число-токенов, и модели дико различаются по второму множителю.

Данные разительны: в одном анализе две модели с примерно схожей ценой за токен закончили один бенчмарк за около $817 против $1888 — разрыв в $1000+ — потому что одна была куда токен-эффективнее в реальном доведении работы до конца. Та же цена на ценнике, вдвое больше счёт. Поэтому серьёзная формулировка в экономике агентов сместилась к долларам за успешный шаг воркфлоу, а не за сырой токен. Болтливая модель, которой нужно втрое больше шагов, дорога даже по бросовой цене за токен. Весь дизайн Nemotron — меньше активных параметров, лёгкая архитектура для длинных последовательностей, регулятор усилия — это ставка на победу в реальном числе, а не в ценниковом.

Что реально мерить

Это практическое сердце вопроса, и оно связано с тем, что я доказывал раньше. Оценка в бенчмарке никогда не была работой, а правильный способ тратить на модели — подбирать модель под работу. Долгоиграющие агенты делают и то и другое конкретным и срочным. Поэтому:

  • Мерьте доллары за завершённую задачу, а не за токен и не лидерборд. Прогоните свой реальный воркфлоу от начала до конца на каждой модели-кандидате и сравните общую стоимость верного завершения. Это единственное число тихо решает вашу маржу.
  • Считайте токены-до-завершения, а не только цену. Дешевле-за-токен модель, которая растекается, может стоить дороже, чем подороже, но краткая и решительная. Эффективность доведения — скрытая переменная.
  • Пользуйтесь рычагами эффективности. Режимы усилия, кэширование промптов, переиспользование стабильного контекста между шагами — это может резко снизить реальную стоимость у агента с повторяющимися вызовами. Дорога — свежая, некэшированная работа; проектируйте так, чтобы переиспользовать остальное.
  • Подбирайте размер под шаг. Долгому прогону не нужна ваша самая дорогая модель на каждом ходу. Дешёвые быстрые модели на рутинных шагах и сильная только там, где она отрабатывает, — всё ещё верный ход, просто теперь измеряемый по всему прогону, а не по одному вызову.

Суть

Когда флагманская агентная модель NVIDIA конкурирует за то, чтобы дёшево работать часами, а не возглавлять чарт интеллекта, это рынок говорит вам, что важно теперь. Для всего, что работает дольше одного ответа, лидерборд — неправильное, на что смотреть. Бенчмарк мерит, насколько модель умна на одном вопросе. Ваш счёт мерит, насколько эффективно она заканчивает сотню таких подряд, — и только одно из этих чисел появляется в вашем инвойсе.

Так что прежде чем выбрать модель для агента, перестаньте спрашивать «какая умнее» и начните спрашивать «какая заканчивает мою реальную задачу за наименьшие деньги». Прогоните, посчитайте доллары до верного результата и выбирайте по этому. Самая умная модель, сжигающая вдвое больше токенов на путь туда, — не лучший агент. Это просто более дорогой способ прийти в то же место.

Комментарии

Пока нет комментариев

Войдите, чтобы участвовать в разговоре.

Будьте первым, кто оставит мысль.