Все заметки
Ваш агент работает в 57% случаев

13 июня 2026 г.

Ваш агент работает в 57% случаев

Отчёт за март 2026-го посмотрел на 6259 ИИ-агентов в реальном проде и нашёл совокупную успешность 56,6% — чуть лучше монетки. Те же исследования показывают разрыв в 37% между тем, как агенты набирают на бенчмарках, и тем, как справляются в реальности. Этот разрыв и есть вся суть. Демо работает всегда; работа — заставить агента работать в остальных 43% случаев. Вот почему цифра так низка и что команды над ней делают иначе.

Вот цифра, которая должна перенастроить то, как вы думаете об ИИ-агентах. Отчёт о надёжности за март 2026-го, посмотревший на 6259 ИИ-агентов в проде, нашёл совокупную успешность 56,6%. Не в лаборатории. В реальных развёртываниях, на реальной работе. Чуть лучше броска монетки.

Рядом стоит второй вывод из той же работы: корпоративные агентные системы показывают разрыв в 37% между баллами на бенчмарках и поведением в реальности. Агент, который блеснул на бенчмарке, проседает больше чем на треть, когда встречает ваши настоящие данные, настоящих пользователей и настоящие краевые случаи.

Думаю, этот разрыв — самое полезное, что сейчас стоит понять про стройку с агентами, так что давайте на нём посидим.

Демо — это 57%. Работа — остальное.

Когда вы смотрите демо агента, вы смотрите счастливый путь: чистый ввод, задача, под которую его вылепили, кто-то уводит его от кювета. Это и есть 57%. Это реально и по-настоящему впечатляет. Но выпустить продукт — значит обработать остальные 43%: кривой ввод, инструмент, что отвалился по таймауту, шаг, где агент уверенно выбирает не ту ветку, и каждый следующий шаг наследует ошибку.

Вот почему разрыв между бенчмарком и реальностью так широк. Бенчмарк — это вычищенный счастливый путь с судьёй, ведущим счёт. Прод — это всё, что бенчмарк отфильтровал. Балл говорит вам про потолок; про пол он не говорит почти ничего — а пользователи живут на полу. Это та же мысль, к которой я возвращаюсь: демо никогда не было сложной частью. 57% — это демо. Работа — это 43%.

Почему пол так низок

Сбои не случайны, и в большинстве это не модель тупит. Агенты работают длинными цепочками — кодовый воркфлоу 2026-го в среднем около 20 зависимых решений — а цепочки перемножаются. Если каждый шаг надёжен на 97%, двадцать подряд дают около 55%. Одна арифметика приводит вас к монетке без единой «глупой» ошибки.

И ошибки прячутся. В многошаговой задаче промежуточная ошибка может пройти проверку финального вывода, тихо испортив результат — исследовательский агент достаёт нужного конкурента, на третьем шаге приписывает одну фичу не той компании и выдаёт сводку, которая выглядит чисто и при этом неверна. Финальный ответ был зелёным. Середина была сломана. Это тот режим сбоя, который бенчмарки ловят хуже всего, а прод — лучше всего.

Что делают команды над чертой

Команды с надёжными агентами не пользуются секретной моделью. Они инженерят цепочку, а не модель:

  • Они укорачивают цепочку. Меньше зависимых шагов — меньше мест, где ошибка накапливается. Узкий агент, делающий одно, бьёт раскоряченного, делающего десять, — один агент, что делает всё, не делает хорошо ничего.
  • Они проверяют шаги, а не только ответ. Эвалы, что оценивают промежуточное рассуждение, ловят сломанную середину, которую проверка финала пропускает. Эвалы или это не выпущено — а для агентов это значит эвалы на уровне шагов.
  • Они безжалостно управляют контекстом. Большая доля сбоев агентов восходит к дрейфу контекста и потере состояния на длинной задаче, а не к сырой способности модели. Курирование того, что агент видит на каждом шаге, двигает цифру сильнее, чем смена модели.
  • Они проектируют под 43%. Повторы, запасные пути, человеческая контрольная точка на необратимых действиях и честное логирование того, что упало, — чтобы неизбежные сбои ловились и восстанавливались, а не отгружались.

Ничего из этого не гламурно. Всё это и есть разница между 57%-демо и продуктом, которому доверяют.

Суть

«ИИ-агенты работают в 57% случаев в проде» читается как убийственная статистика, и если принять её за потолок, вы бы никогда не стали строить агента. Но это не потолок — это средний по индустрии результат команд, которые в основном отгрузили демо. Балл на бенчмарке никогда не был продуктом. Продукт — надёжность, а надёжность приходит из инженерии цепочки: меньше шагов, проверка на каждом шаге, управляемый контекст и сбои, под которые спроектировано.

Так что когда оцениваете агента, не доверяйте цифре со счастливого пути и задайте более тяжёлый вопрос: что происходит на 43%? У команд, у которых есть на это настоящий ответ, агенты всё ещё работают в следующем квартале. Демо бесплатно. Остальные 43% — это вся работа.

Комментарии

Пока нет комментариев

Войдите, чтобы участвовать в разговоре.

Будьте первым, кто оставит мысль.