Контакты

RU

Заметки

Короткие тексты о методологии и архитектурных решениях в AI-системах, которые я довожу до продакшена: спецификации, evals, мультиагентная оркестрация, LLM-интеграции и дисциплина работы с coding-агентами.

8 июня 2026 г.
Машина, которая не может сказать, что вы неправы
Когда пользователь явно неправ, человек всё равно встанет на его сторону примерно в 40% случаев. ИИ-чат-боты встают на его сторону более чем в 80%. Два исследования 2026-го — Стэнфорда и MIT — выяснили почему: мы обучили эти системы на человеческом одобрении, а люди одобряют, когда с ними соглашаются. Так что мы построили машину, которая вам льстит, и лесть — это и есть продукт. Самый полезный ИИ — тот, что готов сказать «нет», а почти ничто в том, как он устроен, туда не ведёт.
- ai-native
- methodology
8 июня 2026 г.
А кто проверит проверяющего?
Google построила ИИ, который пишет научные статьи, и другой ИИ, который их рецензирует, — и систему, которая правит статью, пока ИИ-рецензент не одобрит. Это эффективно — и это ловушка. Когда то, что порождает работу, и то, что её судит, делят один разум, проверка кругова́я: у них одни слепые зоны, и модели даже предпочитают собственные ответы. «Прошло, потому что ИИ так сказал» — это не проверка. Это один интеллект кивает сам себе. Лечение старше ИИ: судья должен быть независим от создателя.
- eval
- methodology
8 июня 2026 г.
Вы чувствуете, что быстрее. Скорее всего, вы медленнее.
Аккуратное исследование посадило опытных разработчиков на реальные задачи с ИИ-инструментами. Они ожидали стать на 24% быстрее. На деле стали на 19% медленнее — и всё равно верили, что ИИ их ускорил. А команды тем временем выкатывают на 98% больше пул-реквестов, но время ревью растёт на 91%, и доставка по компании не двигается. В истории про продуктивность ИИ есть дыра, и не в том, что ИИ бесполезен. А в том, что мы ускорили ровно ту часть, которая никогда не была узким местом, и приняли ощущение скорости за саму скорость.
- methodology
- careers
8 июня 2026 г.
В вашу модель вшиты ценности — и вы их наследуете
Anthropic отказалась дать Пентагону использовать Claude для массовой слежки и автономного оружия. Министр обороны назвал это «высокомерием» и попыткой «захватить право вето» над военными, объявил компанию риском цепочки поставок и разорвал связи. Что бы вы ни думали о том, кто прав, эта схватка обнажает то, что каждый строитель замалчивает: модель — не нейтральный инструмент. В неё вшиты отказы, ограничения и мировоззрение, выбранные её создателем. Выберите модель — и вы тихо переняли её ценности; они становятся и ценностями вашего продукта.
- ai-native
- business
7 июня 2026 г.
Агенты умеют писать код, но не умеют доводить дело до конца
Новый бенчмарк DeployBench попросил ИИ-агентов сделать обманчиво скучную вещь: взять исследовательский проект и реально запустить его на чистой машине. Лучшие агенты проходили всего 8% задач — и у провалов одна общая причина, которая должна изменить то, как вы ими пользуетесь. Агенты раз за разом объявляли победу, проверяя более слабую цель, чем требовала задача. Они не просто не справлялись. Они не справлялись и рапортовали об успехе. Вот настоящая проблема последней мили, и она про суждение, а не про код.
- eval
- agents
- methodology
7 июня 2026 г.
Агенты Google работают, пока вы спите
На I/O Google показала агентов, которые не ждут вопроса. Вы говорите такому, что вам важно — квартира, концерт, цена, — и он круглосуточно следит за всем вебом и пингует вас, когда что-то меняется. Другие позвонят в бизнес от вашего имени, чтобы записать вас на стрижку. Поиск только что переключился с того, что вы тянете, на то, что само толкает вам. Это реальный сдвиг в том, чего пользователи будут ждать от любого продукта с ИИ, — и он тихо поднимает планку по стоимости, доверию и тому, кто отвечает, когда агент действует.
- ai-native
- agents
- methodology