AGENTS · 3 июня 2026 г.

Большинство ИИ-агентов так и не доходят до прода

Демо ослепляет. А потом агент так и не выходит в релиз. Опрос за опросом в 2025–26 находят один и тот же обрыв: пилот есть почти у всех, в проде — почти ни у кого. И дело не в модели, а в неблагодарной инженерии, которую демо позволило пропустить. Вот что делает иначе то меньшинство, которое реально доводит до прода.

Ты видел это демо. Агент берёт расплывчатый запрос, разлетается по инструментам, пишет код, бронирует поездку, закрывает тикет — безупречно, на сцене, под аплодисменты. Выглядит так, будто будущее наступило раньше срока. А потом, спустя месяцы, ты тихо замечаешь: он так и не вышел. Пилот всё ещё пилот. Им по сути никто не пользуется.

Это самая частая история в ИИ прямо сейчас, и стоит быть честным, потому что именно в зазоре между «невероятным демо» и «вещью, на которую полагаются живые люди» умирает почти любой агент.

Обрыв в цифрах

Это не ощущение — это измерено, неоднократно, и цифры жёсткие.

Инициатива MIT NANDA выпустила The GenAI Divide в 2025-м и обнаружила, что 95% корпоративных пилотов генеративного ИИ не дают измеримой отдачи — лишь около 5% доходят до реального эффекта. Опрос 650 корпоративных лидеров в марте 2026-го нашёл ту же форму: пилоты с агентами были у 78%, но в прод вышли только 14%. Другой срез тех же данных: 67% увидели выигрыш в пилоте, 10% его масштабировали — то есть примерно 90% застревают в зазоре между работающим proof of concept и системой, на которую кто-то полагается.

Какая бы ни была точная цифра, сигнал одинаков: заставить агента сработать один раз, в демо, теперь легко. Заставить его работать каждый раз, в проде — вот где всё разваливается.

Дело никогда не было в модели

Вот что люди понимают наоборот. Модель в твоём провалившемся пилоте — та же, что в чьём-то успешном. Фронтир общий; это вызов API. Если бы узким местом была сырая мощность модели, ты видел бы пару победителей с секретными моделями и всех остальных в проигрыше. Это не та картина. Картина в том, что одни и те же модели срабатывают у немногих и застревают у большинства.

MIT прямо сказал, где на самом деле проблема: провалы возводятся к «разрыву в обучении» — компании не могут встроить модель в реальные рабочие процессы, структуры и данные — а не к качеству модели. Один анализ 2026 года нашёл, что пять разрывов объясняют 89% провалов масштабирования: интеграция с существующими системами, нестабильное качество вывода на объёме, отсутствие инструментов мониторинга, неясная ответственность и скудные доменные данные. Посмотри на этот список. Ни один пункт — не «модель недостаточно умна». Каждый из них — инженерия и эксплуатация, та самая работа, которую демо позволяет пропустить.

Демо — это вылизанный лучший случай

Демо врёт по структуре, а не по злому умыслу. В демо ты контролируешь всё: сам выбираешь вход, сам выбираешь счастливый путь, сам выбираешь момент. Ты показываешь, что агент может преуспеть — однажды, в условиях, которые выбрал ты.

Прод — противоположность вылизанному. Он шлёт входы, которых ты и вообразить не мог, на объёме, в три ночи, в неправильном формате, от пользователей, активно пытающихся его сломать. А компонент в середине — это недетерминированный угадыватель. Агент, который прав в 90% случаев, — триумфальное демо и кошмар в проде: при тысяче запросов в день это сотня уверенных провалов, каждый день, накапливающихся сквозь многошаговые цепочки, пока агент полностью не сойдёт с задачи. Демо мерило «может ли это сработать?». Прод мерит «продолжает ли это работать на входах, которые выбрал не я?» — совсем другой, куда более тяжёлый вопрос.

Что на самом деле делает то меньшинство, что доходит до прода

Команды, которые проходят зазор, — не те, у кого промпт похитрее или секретная модель. Это те, кто сделал скучную инженерию, которую демо соблазняло всех пропустить. Конкретно:

Они измеряют, а не ощущают. Демо судят по тому, как оно чувствуется; прод судят по числам. Команды, которые доходят, держат отложенный eval-набор и знают свой реальный процент успеха раньше пользователей. Нельзя улучшить — да и доверять — тому, что не измеряешь.
Они заземляют модель. Чтобы тысячный ответ не был уверенно неверным, факты приходят из детерминированного источника, а модель только их формулирует — ограничение, а не промпт. Это сильнейший рычаг на «стабильное качество вывода на объёме» — один из пяти убийц.
Они его инструментируют. «Нет инструментов мониторинга» не зря в списке причин провала. Выжившие видят, что агент сделал, где поплыл и сколько это стоило — в проде, а не в ноутбуке.
Они сужают зону и дают владельца. Не god-агент, который в демо делает всё, а маленький агент с чёткой задачей, живущий внутри реальных систем, за который кто-то отвечает. «Неясная ответственность» убивает пилотов не реже, чем плохой техстек.

Ничего из этого — не ИИ-волшебство. Это та же инженерная дисциплина, что отделяет софт, который живёт, от софта, который красиво демонстрируется и рассыпается. Агент просто делает зазор виднее, потому что угадыватель наказывает за отсутствие дисциплины быстрее, чем обычный код.

Демо и продукт — это разные навыки

Вот неудобная суть. Хорошее демо оптимизируют под «смотрите, что оно умеет» — максимум возможностей, один вылизанный заход. Продакшн-систему оптимизируют под «оно надёжно делает скучную вещь, вечно, на входах, которые никто не отбирал». Это не один и тот же навык, и они часто в конфликте. Демо по сути — артефакт продаж. Продукт — артефакт инженерии. Те 95%, что застряли, построили первое и решили, что второе подтянется само. Не подтягивается.

Так что если ты смотришь на агента, который поражает в демо и не переживёт контакта с живыми пользователями, недостающая часть почти наверняка — не модель получше и не промпт поумнее. Это неблагодарная часть: evals, заземление, мониторинг, сужение зоны, ответственность — инженерия, которая превращает «сработало однажды» в «работает каждый раз». Меньшинство, которое доходит до прода, не умнее в ИИ. Оно просто не пропустило скучные 80%.

В этом весь секрет. Демо — лёгкая часть. Демо может каждый. Продукт — это инженерия после него, и вот она-то никогда не была опциональной.