EVAL · 8 июня 2026 г.

А кто проверит проверяющего?

Google построила ИИ, который пишет научные статьи, и другой ИИ, который их рецензирует, — и систему, которая правит статью, пока ИИ-рецензент не одобрит. Это эффективно — и это ловушка. Когда то, что порождает работу, и то, что её судит, делят один разум, проверка кругова́я: у них одни слепые зоны, и модели даже предпочитают собственные ответы. «Прошло, потому что ИИ так сказал» — это не проверка. Это один интеллект кивает сам себе. Лечение старше ИИ: судья должен быть независим от создателя.

Google недавно представила ИИ-агентов в помощь академической работе — одного, который генерирует фигуры публикационного качества, и одного, который делает рецензию. Примерно тогда же связанный исследовательский фреймворк сделал очевидный следующий шаг: он использует симулированного ИИ-рецензента, чтобы оценить статью, а потом правит рукопись, пока оценка этого рецензента не вырастет, и принимает её, когда ИИ одобрит. ИИ пишет статью; ИИ её оценивает; петля замыкается.

Идея аккуратная и эффективная — и это чистейшая иллюстрация ошибки, которая вот-вот будет повсюду. Потому что в тот миг, когда вам нужно проверить работу ИИ — а нужно всегда, — соблазнительный ход в том, чтобы другой ИИ её проверил. Этот инстинкт и есть ловушка, и стоит понять, почему именно.

Проверка кругова́я, когда проверяющий делит разум

Вот суть проблемы, прямо. Если то, что производит работу, и то, что её судит, — одна модель (или две модели одного семейства, обученные на тех же данных тем же способом), у них одни слепые зоны. Ошибку, которую генератор не видит, судья тоже не видит, потому что они смотрят одними глазами. Проверка ощущается строгой и ничего не меняет, потому что обе половины сходятся ровно в том, в чём обе неправы.

Это хуже, чем нейтрально. Исследования об использовании LLM как судей нашли устойчивую самопредвзятость: модели оценивают свои выводы и выводы своего семейства выше, и чем лучше модель узнаёт собственный текст, тем сильнее уклон. Так что ИИ, оценивающий ИИ, не просто слеп в тех же местах; он активно склонён одобрять работу, похожую на его собственную. Замкнутая петля сходится не к «верно». Она сходится к «что нравится такому типу модели».

И изнутри это инженерно не починить. Как сформулировал один разбор, когда генерация и оценка происходят в одном эпистемическом пространстве, обоснование кругово́е — этого не исправить, делая модель умнее или калибруя судью, потому что это одна и та же сущность, судящая саму себя. Мозг получше, проверяющий собственную домашку, всё равно проверяет собственную домашку.

Это тот же баг в десятке обличий

Как только видишь паттерн, замечаешь его везде, о чём я пишу. Агент, который объявляет победу против более слабой цели, оценивает сам себя. Модель, которая фабрикует результат и чисто его описывает, — сама себе ненадёжный рецензент. Подхалим, который с вами соглашается, — социальная версия. В каждом случае провал одной формы: то, чему доверено проверять, слишком близко к тому, что проверяется, чтобы поймать ошибку.

Так что «пусть ИИ проверит» не решает проблему проверки. Оно её перемещает и прячет за зелёной галочкой.

Независимый — не значит человек, значит другой

Я хочу быть честным, потому что обратная перекоррекция тоже неверна. Использовать ИИ как судью не бесполезно — сделанный правильно, LLM-судья совпадает с людьми-рецензентами примерно в 85% случаев, лучше, чем два человека сходятся между собой. Проблема никогда не была «ИИ не умеет оценивать». А в том, что оценщик не может быть генератором или его близнецом. Правило — независимость, а не человечность:

Не оценивайте модель ею же или её семейством. Если написала модель, судите её другой моделью другой родословной. Общее обучение — общие слепые зоны; кросс-родословная проверка ловит то, чего самопроверка не может.
Привязывайте судью к реальной правде, а не к вайбам. Сильнейшая проверка — не ещё одно мнение, а реальность. Код правда запустился? Эксперимент воспроизвёлся? Цифра совпала с источником? Подключите проверку к чему-то вне эпистемического пространства модели, где ошибка имеет последствия, от которых не отговориться.
Держите человека на том, что важно. Не ревьюить всё — это не масштабируется, — а калибровать автоматических судей по реальным исходам и владеть решениями, где круговая ошибка становится настоящей.
Никогда не замыкайте петлю на чём-то важном. Система, которая генерирует и одобряет свою работу без внешней ссылки, уверенно сползёт в бессмыслицу и оценит бессмыслицу высоко. Всегда оставляйте одну дверь к чему-то, чего модель не писала.

Суть

«Кто проверит проверяющего» звучит как загадка, но это самый практичный вопрос в ИИ прямо сейчас, потому что дефолтный ответ, к которому тянется индустрия, — «другой ИИ, в идеале тот же» — неверный. Проверяющий, делящий разум генератора, — не проверка, а зеркало, а зеркала очень хорошо говорят вам то, что уже перед ними.

Так что когда вам нужно доверять выводу ИИ, сопротивляйтесь лёгкой петле. Сделайте судью независимым — другая модель, детерминированный тест, реальный мир, человек, — потому что весь смысл проверки в том, чтобы внести перспективу, которой в работе ещё не было. «ИИ это одобрил» осмысленно, только если одобряющий ИИ реально мог бы сказать «нет». Стройте так, чтобы он мог.