Все заметки
Зелёная галочка может скрывать сломанную середину

13 июня 2026 г.

Зелёная галочка может скрывать сломанную середину

Вот режим сбоя, что съедает ИИ-агентов в проде: агент выполняет многошаговую задачу, где-то в середине сворачивает не туда — и всё равно выдаёт финальный ответ, что проходит вашу проверку. Вывод выглядит чисто. Рассуждение было сломано. Исследователи нашли, что именно так и падают многошаговые агенты: ошибка на третьем шаге незаметно протекает в сводку на десятом, что читается нормально и при этом неверна. Если вы оцениваете только финальный ответ, вы слепы к большей части того, как агенты реально ломаются. Вот почему и что проверять вместо этого.

Вот самый опасный способ, которым падает ИИ-агент, потому что это тот, который вы не увидите. Агент выполняет многошаговую задачу. Где-то в середине сворачивает не туда. И всё равно вручает вам финальный ответ, что проходит вашу проверку, — выглядит чисто, хорошо отформатирован, правдоподобен и неверен. Галочка зелёная. Середина сломана. Вы это отгрузили.

Это не редкий краевой случай; исследователи надёжности агентов описывают это как основной режим сбоя. В многошаговой задаче промежуточная ошибка может пройти проверку финального вывода, испортив весь рабочий процесс. Их пример резок: исследовательский агент верно достаёт информацию о конкуренте, на третьем шаге приписывает одну фичу продукта не той компании и выдаёт финальную сводку, что проходит поверхностную проверку, пока фактическая ошибка едет вместе с ней незаметно.

Хочу на этом посидеть, потому что это разрыв между «мой агент прошёл тесты» и «мой агент надёжен», а это не одно и то же.

Почему финальный ответ врёт

Когда вы тестируете обычный софт, проверки вывода обычно достаточно — детерминированный код, что выдал верный ответ, пришёл к нему верным путём. Агенты ломают это допущение. Они недетерминированы, рассуждают длинными цепочками, а у цепочки много способов прийти к правдоподобной конечной точке, будучи неверной по пути.

Так что проходящий финальный ответ говорит вам меньше, чем для обычного кода. Агент может взять формат верно, а факты неверно. Может прийти к разумно звучащему выводу из загубленного промежуточного шага — как студент может попасть в правильно выглядящий ответ через взаимно сокращающиеся ошибки. Хуже того, уверенный, гладкий вывод — ровно там, где модель опаснее всего, когда неправа: лоск, что заставляет ответ пройти вашу проверку, — тот же лоск, что прячет сломанное рассуждение под ним.

Почему это дорогой баг

Видимый сбой дёшев — агент падает с ошибкой, вы её видите, вы чините. Этот дорог именно потому, что выглядит как успех. Сводка уходит клиенту. Цифра течёт в отчёт. Приписанная не туда фича становится фактом, что повторяет ваша команда. К моменту, когда кто-то замечает, ошибка протекла во всё ниже по течению, что доверилось зелёной галочке.

И она усугубляется арифметикой надёжности. Кодовый воркфлоу 2026-го в среднем около двадцати зависимых шагов, а проверка финального вывода смотрит только на последний. Девятнадцать мест свернуть не туда, одно место, куда вы смотрите. Вот как агенты выдают хорошие демо-цифры, а потом тихо разочаровывают в проде: демо оценивает ответ, прод живёт с рассуждением.

Что проверять вместо этого

Лекарство — перестать оценивать только пункт назначения и начать оценивать путь:

  • Эвальте шаги, а не только вывод. Эвалы или это не выпущено — а для агентов это значит проверять промежуточное рассуждение, вызовы инструментов и извлечения, а не только финальную строку.
  • Заставьте агента показывать работу. Агент, что обнажает промежуточное рассуждение и источники, даёт вам — или другой модели — поймать оговорку третьего шага до того, как она дойдёт до десятого. Чёрный ящик, что выдаёт только финальный ответ, не даёт ничего для инспекции.
  • Сверяйте факты с источником. Для задач извлечения и исследования проверяйте, что каждое утверждение восходит к тому, что реально извлекли. Приписка переживает проверку стиля; против источника она гибнет.
  • Ставьте контрольную точку перед всем необратимым. Если шаг отправляет, платит, удаляет или коммитит — вот где место человеку или жёсткой валидации, а не в самом конце, после того как сломанная середина уже подействовала.

Это больше работы, чем прочитать финальный ответ. В этом и суть: финальный ответ всегда был дешёвой вещью для проверки, а дешёвые проверки — вот почему сломанные середины отгружаются.

Суть

Зелёная галочка на финальном выводе ощущается как доказательство, что агент сработал. Для многошаговых агентов это более слабое свидетельство, чем кажется: вывод может быть чист, пока рассуждение, что его произвело, было неверным, — и ровно этот разрыв один из главных способов, которыми агенты падают в проде. Оценивайте только пункт назначения — и вы слепы к большей части пути, а сбои живут именно там.

Так что когда оцениваете агента, чуть не доверяйте чистому финальному ответу. Спросите, как он туда пришёл, проверьте шаги, что важны, и сверьте факты с источником. Рассуждение — это продукт; ответ — лишь место, где оно всплывает. Сломанная середина с зелёной галочкой сверху всё равно сломана — и вся работа в том, чтобы поймать её раньше, чем это сделают ваши пользователи.

Комментарии

Пока нет комментариев

Войдите, чтобы участвовать в разговоре.

Будьте первым, кто оставит мысль.