13 июня 2026 г.
Зелёная галочка может скрывать сломанную середину
Вот режим сбоя, что съедает ИИ-агентов в проде: агент выполняет многошаговую задачу, где-то в середине сворачивает не туда — и всё равно выдаёт финальный ответ, что проходит вашу проверку. Вывод выглядит чисто. Рассуждение было сломано. Исследователи нашли, что именно так и падают многошаговые агенты: ошибка на третьем шаге незаметно протекает в сводку на десятом, что читается нормально и при этом неверна. Если вы оцениваете только финальный ответ, вы слепы к большей части того, как агенты реально ломаются. Вот почему и что проверять вместо этого.
Вот самый опасный способ, которым падает ИИ-агент, потому что это тот, который вы не увидите. Агент выполняет многошаговую задачу. Где-то в середине сворачивает не туда. И всё равно вручает вам финальный ответ, что проходит вашу проверку, — выглядит чисто, хорошо отформатирован, правдоподобен и неверен. Галочка зелёная. Середина сломана. Вы это отгрузили.
Это не редкий краевой случай; исследователи надёжности агентов описывают это как основной режим сбоя. В многошаговой задаче промежуточная ошибка может пройти проверку финального вывода, испортив весь рабочий процесс. Их пример резок: исследовательский агент верно достаёт информацию о конкуренте, на третьем шаге приписывает одну фичу продукта не той компании и выдаёт финальную сводку, что проходит поверхностную проверку, пока фактическая ошибка едет вместе с ней незаметно.
Хочу на этом посидеть, потому что это разрыв между «мой агент прошёл тесты» и «мой агент надёжен», а это не одно и то же.
Почему финальный ответ врёт
Когда вы тестируете обычный софт, проверки вывода обычно достаточно — детерминированный код, что выдал верный ответ, пришёл к нему верным путём. Агенты ломают это допущение. Они недетерминированы, рассуждают длинными цепочками, а у цепочки много способов прийти к правдоподобной конечной точке, будучи неверной по пути.
Так что проходящий финальный ответ говорит вам меньше, чем для обычного кода. Агент может взять формат верно, а факты неверно. Может прийти к разумно звучащему выводу из загубленного промежуточного шага — как студент может попасть в правильно выглядящий ответ через взаимно сокращающиеся ошибки. Хуже того, уверенный, гладкий вывод — ровно там, где модель опаснее всего, когда неправа: лоск, что заставляет ответ пройти вашу проверку, — тот же лоск, что прячет сломанное рассуждение под ним.
Почему это дорогой баг
Видимый сбой дёшев — агент падает с ошибкой, вы её видите, вы чините. Этот дорог именно потому, что выглядит как успех. Сводка уходит клиенту. Цифра течёт в отчёт. Приписанная не туда фича становится фактом, что повторяет ваша команда. К моменту, когда кто-то замечает, ошибка протекла во всё ниже по течению, что доверилось зелёной галочке.
И она усугубляется арифметикой надёжности. Кодовый воркфлоу 2026-го в среднем около двадцати зависимых шагов, а проверка финального вывода смотрит только на последний. Девятнадцать мест свернуть не туда, одно место, куда вы смотрите. Вот как агенты выдают хорошие демо-цифры, а потом тихо разочаровывают в проде: демо оценивает ответ, прод живёт с рассуждением.
Что проверять вместо этого
Лекарство — перестать оценивать только пункт назначения и начать оценивать путь:
- Эвальте шаги, а не только вывод. Эвалы или это не выпущено — а для агентов это значит проверять промежуточное рассуждение, вызовы инструментов и извлечения, а не только финальную строку.
- Заставьте агента показывать работу. Агент, что обнажает промежуточное рассуждение и источники, даёт вам — или другой модели — поймать оговорку третьего шага до того, как она дойдёт до десятого. Чёрный ящик, что выдаёт только финальный ответ, не даёт ничего для инспекции.
- Сверяйте факты с источником. Для задач извлечения и исследования проверяйте, что каждое утверждение восходит к тому, что реально извлекли. Приписка переживает проверку стиля; против источника она гибнет.
- Ставьте контрольную точку перед всем необратимым. Если шаг отправляет, платит, удаляет или коммитит — вот где место человеку или жёсткой валидации, а не в самом конце, после того как сломанная середина уже подействовала.
Это больше работы, чем прочитать финальный ответ. В этом и суть: финальный ответ всегда был дешёвой вещью для проверки, а дешёвые проверки — вот почему сломанные середины отгружаются.
Суть
Зелёная галочка на финальном выводе ощущается как доказательство, что агент сработал. Для многошаговых агентов это более слабое свидетельство, чем кажется: вывод может быть чист, пока рассуждение, что его произвело, было неверным, — и ровно этот разрыв один из главных способов, которыми агенты падают в проде. Оценивайте только пункт назначения — и вы слепы к большей части пути, а сбои живут именно там.
Так что когда оцениваете агента, чуть не доверяйте чистому финальному ответу. Спросите, как он туда пришёл, проверьте шаги, что важны, и сверьте факты с источником. Рассуждение — это продукт; ответ — лишь место, где оно всплывает. Сломанная середина с зелёной галочкой сверху всё равно сломана — и вся работа в том, чтобы поймать её раньше, чем это сделают ваши пользователи.
Комментарии
Пока нет комментариев
Войдите, чтобы участвовать в разговоре.
Будьте первым, кто оставит мысль.