Заметки
Короткие тексты о методологии и архитектурных решениях в AI-системах, которые я довожу до продакшена: спецификации, evals, мультиагентная оркестрация, LLM-интеграции и дисциплина работы с coding-агентами.
5 июня 2026 г.
Агенты приходят туда, где ошибка — это иск
На этой неделе Experian выпустила «Agent OS» для кредитования — агенты решают по кредиту, ловят фрод, определяют, кто подходит. Это комнаты, где галлюцинация — не неловкий ответ чат-бота; это отказ по кредиту, неверная медицинская авторизация, повестка в суд. И одна цифра задаёт ставки: ИИ-отказы в здравоохранении отменяют в 80%+ при апелляции — но апеллируют меньше 1%. Вот почему регулируемые домены — это где весь аргумент про агентов становится законом.
- architecture
- business
- agents
5 июня 2026 г.
Microsoft натравил 100 агентов на уязвимости — ИИ против ИИ, честно
На этой неделе Microsoft показала команду безопасности из ИИ: пайплайн 100+ агентов, нашедший 16 новых уязвимостей Windows, четыре критические, плюс первый ИИ, авто-обвиняющий malware. Защитники теперь гоняют автономный ИИ. Атакующие тоже — один вёл 80–90% реального вторжения сам. «ИИ против ИИ в безопасности» перестало быть слоганом этой весной. Вот честное прочтение: это реальный прогресс — и более быстрый пат.
- security
- agents
5 июня 2026 г.
Агент, который «закрывает продажи» — то, что прячет демо
Meta только что выпустила агента, который не просто болтает — он бронирует встречи, квалифицирует лиды, закрывает продажи и проводит платежи, 24/7, на любом языке, подключённый к Shopify и Zendesk. Миллион бизнесов уже на нём. Демо — магия. Что оно прячет: автономную штуку, действующую на твой бизнес, на машинной скорости, по сообщениям незнакомцев, — и закон только что закрыл лазейку «это сделал ИИ». Вот честная версия.
- security
- business
- agents
5 июня 2026 г.
«Какую часть агентизировать первой?» — неправильный первый вопрос
Весь рынок перешёл от «агенты вообще реальны?» к «какую часть компании агентизировать первой?» — IT-саппорт, продажи, сверки. Звучит как умный стратегический вопрос. Это не тот вопрос. Спрашивая, куда навести агента, ты пропускаешь два вопроса, которые реально решают, заработает ли хоть что-то: на чём агент стоит и кто отвечает, когда он неправ. Вот порядок, который важен.
- methodology
- business
- agents
4 июня 2026 г.
87% на бенчмарке — и всё ещё не вывозит эволюцию твоего кода
Заголовок гласит, что ИИ «решает 87% SWE-bench», и все читают это как «теперь ИИ умеет в инженерию ПО». Две проблемы. Маленькая: треть этих успехов слила ответ или прошла на слабых тестах. Фатальная: бенчмарк мерит один изолированный багфикс, а не настоящую работу — эволюцию живого кода неделями. Померь это — и те же модели падают с ~73% до ~25%. Бенчмарк — это демо. Твой код — это прод.
- eval
- agents
- methodology
4 июня 2026 г.
Лаборатории теперь гонятся за ценой, а не за IQ
Два года у запуска флагманской модели был один заголовок: мы самые умные, вот побитый бенчмарк. На Microsoft Build 2026 заголовок сменился — та же лига, что Opus, но ~10x больше output на доллар и на 60% меньше токенов. Хвастовство сместилось с IQ на эффективность, и вся индустрия перестраивается вокруг цены, а не пика возможностей. Вот почему ось перевернулась и что это значит, если ты строишь.
- ai-native
- business
- agents