Контакты

RU

Заметки

Короткие тексты о методологии и архитектурных решениях в AI-системах, которые я довожу до продакшена: спецификации, evals, мультиагентная оркестрация, LLM-интеграции и дисциплина работы с coding-агентами.

14 июня 2026 г.
У вас работает двенадцать агентов. Половина — поодиночке.
Средняя компания сейчас держит около 12 ИИ-агентов и идёт к 20 к следующему году — и половина из них работает полностью сама по себе, не общаясь с остальными. Агентов добавляли быстрее, чем связывали друг с другом, поэтому у большинства компаний — ящик умных инструментов, каждый из которых видит свой кусочек работы и ни один не видит целого. Ценность никогда не была в количестве агентов. Она в связях между ними — и это ровно та часть, которую почти никто не построил. Разбираем, почему разрыв возник и как его закрыть.
- agents
- business
14 июня 2026 г.
У вас есть агент. ИИ у вас нет.
80% корпоративных приложений, выпущенных или обновлённых в начале 2026 года, встраивают хотя бы одного ИИ-агента — против 33% в 2024-м. Звучит так, будто «ИИ сделали» уже все. Но встроить агента и получить от него пользу — разные вещи: медианный агент окупается 5,1 месяца, а большинство внедрений застряли в пилоте и так и не масштабировались. Иметь агента теперь — обязательный минимум, как иметь сайт. Компании по-настоящему различает другое: дошёл ли агент до продакшена, отбил ли себя и доверяют ли ему работать. Разбираем разницу, которая важна.
- business
- agents
13 июня 2026 г.
Зелёная галочка может скрывать сломанную середину
Вот режим сбоя, что съедает ИИ-агентов в проде: агент выполняет многошаговую задачу, где-то в середине сворачивает не туда — и всё равно выдаёт финальный ответ, что проходит вашу проверку. Вывод выглядит чисто. Рассуждение было сломано. Исследователи нашли, что именно так и падают многошаговые агенты: ошибка на третьем шаге незаметно протекает в сводку на десятом, что читается нормально и при этом неверна. Если вы оцениваете только финальный ответ, вы слепы к большей части того, как агенты реально ломаются. Вот почему и что проверять вместо этого.
- methodology
- agents
13 июня 2026 г.
Самое большое окно контекста не побеждает
Каждый запуск модели хвастается окном контекста побольше — миллион токенов, два миллиона, вся кодовая база разом. Но анализ корпоративных внедрений нашёл, что почти 65% сбоев агентов шли от дрейфа контекста и потери памяти на многошаговой работе, а не от слишком маленького окна. Команды, что выпускают надёжных агентов в 2026-м, — не те, у кого окно больше. Это те, кто жёстче всех курирует то, что модель реально видит. Вот в чём разница и почему «больше» часто хуже.
- agents
- methodology
13 июня 2026 г.
Ваш агент работает в 57% случаев
Отчёт за март 2026-го посмотрел на 6259 ИИ-агентов в реальном проде и нашёл совокупную успешность 56,6% — чуть лучше монетки. Те же исследования показывают разрыв в 37% между тем, как агенты набирают на бенчмарках, и тем, как справляются в реальности. Этот разрыв и есть вся суть. Демо работает всегда; работа — заставить агента работать в остальных 43% случаев. Вот почему цифра так низка и что команды над ней делают иначе.
- agents
- methodology
13 июня 2026 г.
Веб-страница может отдавать приказы вашему агенту
Когда вы даёте ИИ-агенту браузер и позволяете читать страницы, кликать кнопки и выполнять команды, вы передали контроль над ним каждой странице, что он посещает. Исследователи показывали агентов, угнанных инструкциями, спрятанными в тексте сайта, в pastebin-ссылках, даже невидимо внутри скриншотов, на которые агент смотрит. Это называется непрямой инъекцией промпта, и это риск номер один в списке OWASP для LLM-приложений. Агент не отличит ваши инструкции от инструкций страницы. Вот почему это так трудно починить и как строить, чтобы враждебная страница не могла рулить вашим агентом.
- security
- agents