EVAL · 9 июня 2026 г.

Агенты стали умнее. Надёжнее они не стали.

Новое исследование прогнало 14 моделей через тесты на надёжность и нашло то, что прячет гонка бенчмарков: два года взлёта возможностей дали лишь небольшой прирост надёжности. Умнее не значит стабильнее. И математика беспощадна — даже шаг с надёжностью 95%, выполненный 20 раз подряд, доводит всю задачу до верного конца примерно в трети случаев. Мы выбираем агентов по интеллекту, когда решает, работают ли они, совсем другое — то, что мы почти не измеряем.

Есть вопрос, на который лидерборды бенчмарков никогда не отвечают: не «насколько умён этот агент», а «можно ли на него положиться». Команда исследователей только что попыталась измерить это напрямую, прогнав 14 моделей через батарею тестов на надёжность, и главный вывод заслуживает того, чтобы проколоть часть хайпа. За примерно два года быстрого роста возможностей они нашли лишь скромный прирост надёжности. Модели сильно поумнели. Надёжнее почти не стали.

Этот разрыв — между тем, насколько агент способен, и тем, насколько на него можно положиться, — по словам одного разбора, важнейшая и наименее обсуждаемая проблема корпоративного ИИ прямо сейчас. И как только увидишь математику под ним, перестаёшь удивляться, что столько впечатляющих агентов так и не доезжают до продакшена.

Умный и надёжный — это не одна ось

Мы схлопнули две разные вещи в одно слово — «хороший». Модель, набравшая больше на бенчмарке рассуждений, более способна. А делает ли она то же самое, когда запускаешь дважды, переживает ли слегка переформулированный промпт, падает ли предсказуемо, держит ли ошибки маленькими — это надёжность, и это отдельная ось. Исследование делает разделение конкретным, разбивая надёжность на четыре измерения — консистентность, устойчивость, предсказуемость и безопасность — и измеряя каждое. Модель может быть блестящей по способностям и шаткой по каждому из них.

Вот почему «новая модель набрала больше» так мало говорит о том, можно ли на ней строить. Лидерборд измеряет ось ума. Ваш продакшн-инцидент в два часа ночи — на оси надёжности. Это не одно и то же число, и именно второе решает, продукт ваш агент или демо.

Накапливающаяся математика, которую не хотят на слайде

Вот часть, которая должна изменить то, как вы проектируете. Агенты работают шагами — читают, планируют, вызывают инструмент, читают результат, действуют, повторяют. И надёжность перемножается по шагам, что разрушительно, потому что произведение чисел меньше единицы стремится к нулю быстро.

Посчитайте. Если каждый шаг надёжен на 95% — оптимистично для сегодняшних моделей, — то за 20 шагов шанс сделать всё верно равен 0,95²⁰, а это около 36%. При 85% на шаг за восемь шагов вы уже на примерно 27%. Обзоры реальных развёртываний сходятся с математикой: чем длиннее и сложнее воркфлоу, тем выше доля провалов — до 70–90%. Доля успеха на шаг, которая звучит отлично, — это доля успеха всей задачи, которая сравнима с подбрасыванием монеты или хуже.

Вдумайтесь, что это значит. «Умная» модель, поднимающая каждый шаг с 94% до 96%, ощущается прогрессом и почти не двигает сквозное число. То, что губит долгий прогон агента, — не нехватка интеллекта на каком-то одном шаге. А то, что маленькие ненадёжности накапливаются, и прирост способностей накопление не чинит.

Что с этим делать

Если надёжность — связывающее ограничение, а способности нет, ваши выборы меняются:

Мерьте надёжность, а не только способности. Прогоните одну задачу много раз и смотрите на разброс, а не на лучший случай. Возмущайте ввод. Проверяйте, как она падает, а не только прошла ли однажды. Один зелёный прогон — наименее информативное, что можно собрать; это бенчмарк-не-работа, доведённое до строгости.
Боритесь с накоплением напрямую: меньше шагов. Каждый убранный шаг умножает ваши шансы обратно вверх. Схлопните пять вызовов модели в один, где можно, замените шаг рассуждения детерминированной функцией и не заставляйте агента заново выводить то, что можно просто вручить.
Ставьте чекпоинты между шагами, чтобы ошибки не распространялись. Проверяйте вывод шага, прежде чем кормить им следующий, — в идеале против чего-то независимого. Пойманная ошибка на шаге 3 не накопится в катастрофу на шаге 15.
Перестаньте считать «оно умнее» равным «на него можно положиться». Когда следующая модель возглавит чарты, задайте другой вопрос: она консистентнее, предсказуемее, падает ли меньше? Не можете сказать — вы ещё не знаете, лучше ли она для агента, — только что она лучше на тесте.

Суть

Индустрия продаёт способности, потому что способности измеряют бенчмарки и они делают хорошее демо. Но исследование — полезный ушат холодной воды: два года поумнения купили нам лишь чуть больше надёжности, а надёжность — не сырой интеллект — это то, что стоит между агентом и продакшеном. Накапливающаяся математика это гарантирует. Воркфлоу надёжен лишь настолько, насколько надёжен его слабейший шаг в степени числа шагов.

Так что оценивая агента, сопротивляйтесь лидерборду. Вопрос никогда не был «насколько он умён на одной сложной задаче». Он в «как часто он делает обычное правильно, тем же способом, двадцать раз подряд». Умнее легко продать и легко измерить. Надёжный — тот, что реально едет в продакшен, и тот, которого почти никто не проверяет.