Заметки
Короткие тексты о методологии и архитектурных решениях в AI-системах, которые я довожу до продакшена: спецификации, evals, мультиагентная оркестрация, LLM-интеграции и дисциплина работы с coding-агентами.
4 июня 2026 г.
87% на бенчмарке — и всё ещё не вывозит эволюцию твоего кода
Заголовок гласит, что ИИ «решает 87% SWE-bench», и все читают это как «теперь ИИ умеет в инженерию ПО». Две проблемы. Маленькая: треть этих успехов слила ответ или прошла на слабых тестах. Фатальная: бенчмарк мерит один изолированный багфикс, а не настоящую работу — эволюцию живого кода неделями. Померь это — и те же модели падают с ~73% до ~25%. Бенчмарк — это демо. Твой код — это прод.
- eval
- agents
- methodology
4 июня 2026 г.
Твои агенты без состояния. Поэтому они умирают.
На твоём ноуте агент проходит путь от начала до конца за один заход, и проблемы ты не видишь. Прод — это длинный многошаговый процесс на инфраструктуре, которая перезапускается, ловит таймауты и падает на полпути, — а агент держал весь свой прогресс в памяти. «Agentic reckoning» 2026-го — это открытие, что сбой не в модели, а в рантайме. Починка старая и скучная: durable execution. Вот честная версия.
- architecture
- agents
- methodology
4 июня 2026 г.
Tokenmaxxing, или закон Гудхарта добрался до ИИ
Компании хотели «внедрения ИИ», поэтому измерили самый простой прокси — использование токенов, повесили его на лидерборд и получили ровно то, что измеряли: люди жгут токены ради рейтинга, а не ради лучшей работы. Пятидесятилетний закон съедает свежую стратегию, и теперь это дорого вдвойне: ты платишь за впустую сожжённые токены и отравляешь сигнал, который хотел получить. Починка тоже старая — мерь результат, а не активность.
- methodology
- business
4 июня 2026 г.
Твой оргчарт не умеет в агентов
Каждый руководитель спрашивает: «модель уже достаточно хороша?» Свежие данные MIT говорят, что вопрос не тот: 85% организаций хотят быть agentic, но 76% признают, что их собственные операции этого не вытянут. Блокер — не возможности модели, а то, что компании прикручивают работника нового типа к оргчарту, нарисованному для людей. У агента нет менеджера, нет карьерной лестницы, есть scoped-права и уровень галлюцинаций. Вот клетка, которой не хватает в твоей схеме.
- business
- methodology
- ai-native
3 июня 2026 г.
Большинство ИИ-агентов так и не доходят до прода
Демо ослепляет. А потом агент так и не выходит в релиз. Опрос за опросом в 2025–26 находят один и тот же обрыв: пилот есть почти у всех, в проде — почти ни у кого. И дело не в модели, а в неблагодарной инженерии, которую демо позволило пропустить. Вот что делает иначе то меньшинство, которое реально доводит до прода.
- agents
- eval
- methodology
3 июня 2026 г.
Я перестал одобрять решения агента. Теперь я их наблюдаю.
Когда я начинал строить агентов, я одобрял каждое действие — это ощущалось ответственным. Это было не так: к тридцатому «да» я уже штамповал, а это хуже, чем отсутствие чекпоинта. Настоящий надзор — не трогать каждое решение, а задать политику и наблюдать за результатами. Вот сдвиг от in-the-loop к on-the-loop и архитектура, которая делает «отпустить» по-настоящему безопасным.
- agents
- methodology
- ai-native