EVAL · 4 июня 2026 г.

87% на бенчмарке — и всё ещё не вывозит эволюцию твоего кода

Заголовок гласит, что ИИ «решает 87% SWE-bench», и все читают это как «теперь ИИ умеет в инженерию ПО». Две проблемы. Маленькая: треть этих успехов слила ответ или прошла на слабых тестах. Фатальная: бенчмарк мерит один изолированный багфикс, а не настоящую работу — эволюцию живого кода неделями. Померь это — и те же модели падают с ~73% до ~25%. Бенчмарк — это демо. Твой код — это прод.

Ты видел заголовок: ИИ-агенты теперь «решают» 80–90% SWE-bench — стандартного бенчмарка по починке настоящих GitHub-issue. В 2023-м цифра была около 4%. Прогресс правда ошеломительный, и естественное прочтение — «теперь ИИ умеет в инженерию ПО».

Это прочтение неверно — сначала по-мелкому, а потом фатально, и разрыв между этими двумя вещами — одно из самого важного, что стоит понять про то, где кодинг-агенты на самом деле находятся.

Маленькая проблема: бенчмарк протекает

Начнём с неброской оговорки. SWE-bench не так чист, как намекает цифра. Дотошный аудит нашёл, что около трети «успешных» патчей связаны с утечкой решения в обучающие данные модели, а ещё примерно треть прошла потому, что тест-кейсы были слишком слабы, чтобы поймать неверную починку. Многие GitHub-issue были заведены и починены до дат отсечки обучения моделей, так что модель могла попросту видеть ответ во время обучения. Когда исследователи построили версию, устойчивую к контаминации, — SWE-Bench Pro — оценки обрушились ниже 25% (GPT-5 возглавил её с 23.3%). Так что часть тех впечатляющих 87% — это память, а не умение.

Это стоит знать, но это не главная история. Даже идеально чистый бенчмарк ввёл бы тебя в заблуждение — из-за того, что он мерит.

Фатальная проблема: бенчмарк — это не работа

SWE-bench даёт агенту один изолированный GitHub-issue, с известной починкой и тестом, подтверждающим, когда задача решена. Подумай, как мало это похоже на твою реальную работу. Настоящая инженерия ПО — это не поток самодостаточных головоломок с ключом ответов под рукой. Это эволюция живого кода неделями: истолковать расплывчатое требование, скоординировать изменение по десяткам файлов, сохранить всё, что уже работало, и по дороге спорить с ревьюером о компромиссах.

Авторы самого бенчмарка об этом прямо говорят. SWE-bench мерит корректность на уровне патча в изолированной, одно-issue-обстановке; он не мерит способность агента вести связную многонедельную линию разработки, координироваться с ревьюерами-людьми, управлять конкурирующими продуктовыми приоритетами или рассуждать о бизнес-последствиях технического решения. Перечитай этот список — это и есть бо́льшая часть настоящей работы.

Что происходит, когда мерят настоящее

В конце 2025-го исследователи построили бенчмарк ровно для недостающей части — SWE-EVO, который тестирует long-horizon эволюцию ПО: многошаговые изменения, охватывающие в среднем 21 файл и проверяемые против ~874 тестов на задачу. Результат жесток и прояснителен. Конфигурация модели, набирающая около 73% на SWE-bench Verified, набирает лишь ~25% на SWE-EVO. Те же модели, тот же интеллект — оценка не проседает, она срывается с обрыва, потому что координировать длительное изменение по многим файлам — принципиально иной и куда более трудный навык, чем починить один файл в изоляции. Это та же стена, о которой я писал в «один агент, который умеет всё»: удержи в контексте достаточно большой кусок реальной системы — и модель начинает тонуть.

Этот паттерн ты уже знаешь

Бенчмарк — это вылизанная задача с достижимым ответом. Твой код — движущаяся мишень без ключа ответов. Читать высокий балл бенчмарка как «может делать работу» — ровно та же ошибка, что верить вылизанному демо, и я уже приводил этот довод: демо доказывает, что агент может преуспеть однажды, в условиях, которые кто-то для него выбрал. Прод — а реальный код это и есть прод — спрашивает, может ли он продолжать преуспевать на работе, которую никто не вылизывал. SWE-bench — это демо. SWE-EVO — проблеск работы.

Честное прочтение

Это не «ИИ-кодинг — фейк». Пройти путь от 4% до правда сильных результатов на решении изолированных issue — реально, и агент, надёжно чинящий самодостаточный баг, — настоящий рычаг, которым я пользуюсь каждый день. Ошибка — читать лидерборд как меру «может заменить инженера ПО». Потому что делает кого-то инженером ПО ровно та long-horizon-часть, которую бенчмарк опускает: нести намерение сквозь недели, координировать изменение через всю систему и не сломать те двадцать файлов, о которых тебя не просили. Это и есть работа. Бенчмарк мерит разминку.

Так что когда прилетит следующий заголовок «ИИ взял 90% на SWE-bench», задай единственный важный вопрос: девяносто процентов чего? Один вылизанный issue с ответом под боком — это не твой вторник. Пока бенчмарк не научится мерить эволюцию реального кода неделями без поломок, балл мерит демо — а ты уже знаешь, что демо никогда не было работой.