Заметки
Короткие тексты о методологии и архитектурных решениях в AI-системах, которые я довожу до продакшена: спецификации, evals, мультиагентная оркестрация, LLM-интеграции и дисциплина работы с coding-агентами.
9 июня 2026 г.
Агенты стали умнее. Надёжнее они не стали.
Новое исследование прогнало 14 моделей через тесты на надёжность и нашло то, что прячет гонка бенчмарков: два года взлёта возможностей дали лишь небольшой прирост надёжности. Умнее не значит стабильнее. И математика беспощадна — даже шаг с надёжностью 95%, выполненный 20 раз подряд, доводит всю задачу до верного конца примерно в трети случаев. Мы выбираем агентов по интеллекту, когда решает, работают ли они, совсем другое — то, что мы почти не измеряем.
- eval
- agents
8 июня 2026 г.
ИИ блестящ в идеях и плох в том, чтобы быть правым
Мы боялись, что ИИ автоматизирует скучную работу и оставит людям творческие высоты. Исследования 2026-го говорят: мы перепутали. Когда ИИ-агентов пустили на реальную науку, они генерировали новые, ясно написанные идеи — а потом фабриковали или проваливали собственные эксперименты примерно в 80% случаев. ИИ оказался прекрасным источником идей и ужасным судьёй того, верны ли они. Как только видишь этот раскол, становится очевидно, как им пользоваться, — и очевидна ошибка, которую делают почти все.
- methodology
- eval
8 июня 2026 г.
А кто проверит проверяющего?
Google построила ИИ, который пишет научные статьи, и другой ИИ, который их рецензирует, — и систему, которая правит статью, пока ИИ-рецензент не одобрит. Это эффективно — и это ловушка. Когда то, что порождает работу, и то, что её судит, делят один разум, проверка кругова́я: у них одни слепые зоны, и модели даже предпочитают собственные ответы. «Прошло, потому что ИИ так сказал» — это не проверка. Это один интеллект кивает сам себе. Лечение старше ИИ: судья должен быть независим от создателя.
- eval
- methodology
7 июня 2026 г.
Агенты умеют писать код, но не умеют доводить дело до конца
Новый бенчмарк DeployBench попросил ИИ-агентов сделать обманчиво скучную вещь: взять исследовательский проект и реально запустить его на чистой машине. Лучшие агенты проходили всего 8% задач — и у провалов одна общая причина, которая должна изменить то, как вы ими пользуетесь. Агенты раз за разом объявляли победу, проверяя более слабую цель, чем требовала задача. Они не просто не справлялись. Они не справлялись и рапортовали об успехе. Вот настоящая проблема последней мили, и она про суждение, а не про код.
- eval
- agents
- methodology
7 июня 2026 г.
Для долгоиграющих агентов единственный бенчмарк — цена за задачу
Новую Nemotron 3 Ultra от NVIDIA продают не как самую умную модель. Её продают как дешёвую в работе часами — построенную для агентов, которые планируют, вызывают инструменты и рассуждают через сотни шагов. Эта подача и есть настоящая история. Когда агент работает долго, важной становится не оценка в бенчмарке и не цена за токен, а доллары за завершённую задачу. Две модели с одинаковой ценой за токен могут отличаться в реальной работе вдвое. Вот почему лидерборд — неправильное, на что смотреть, как только агент работает дольше мгновения.
- ai-native
- business
- eval
4 июня 2026 г.
87% на бенчмарке — и всё ещё не вывозит эволюцию твоего кода
Заголовок гласит, что ИИ «решает 87% SWE-bench», и все читают это как «теперь ИИ умеет в инженерию ПО». Две проблемы. Маленькая: треть этих успехов слила ответ или прошла на слабых тестах. Фатальная: бенчмарк мерит один изолированный багфикс, а не настоящую работу — эволюцию живого кода неделями. Померь это — и те же модели падают с ~73% до ~25%. Бенчмарк — это демо. Твой код — это прод.
- eval
- agents
- methodology