AGENTS · 1 июля 2026 г.

Удвой задачу — учетверишь провал

Все хотят агента, который работает целый рабочий день. Математика против. Свежая статья 2026 года показывает: удвоение длины задачи не удваивает частоту провала — оно её примерно учетверяет, потому что крошечная ошибка на шаге компаундится. 2% промаха на шаг превращаются в 33% шанс завалить всю задачу за 20 шагов. Долгая автономность — это не «дождись модели поумнее». Это архитектура: декомпозируй, ставь чекпоинты, проверяй.

Весь год продают мечту: агент, который работает за тебя весь день — ты даёшь цель в 9 утра, он пашет восемь часов, ты возвращаешься к готовой работе. Sequoia даже поставили дату: надёжные агенты на 8-часовой рабочий день «к концу 2026». Я бы тоже такое хотел. Но у математики к этому вопросы.

Стена компаундинга

Задача из многих шагов успешна, только если успешен каждый шаг. Это произведение, а не сумма. Поэтому ошибки не складываются — они перемножаются. Статья 2026 года «The Long-Horizon Task Mirage» даёт цифры: удвоение длины задачи примерно учетверяет частоту провала, а не удваивает. Скромные 2% ошибки на шаг превращаются в 33% шанс завалить всю задачу всего за 20 зависимых шагов.

На десяти моделях и четырёх диапазонах длины совокупный pass@1 падает с 76.3% на коротких задачах до 52.1% на очень длинных — 24 пункта, суперлинейное падение. И дело не только в ошибке на шаге: после 25–30 вызовов инструментов даже окна на 200K токенов теряют нить — модели забывают ранние результаты и переделывают уже сделанные шаги.

Надёжность — это не свойство модели. Это свойство того, сколько вещей должно сработать подряд без чекпоинта.

Почему модель поумнее не спасёт

Вот ловушка в «просто дождись следующей модели». Сбрось ошибку на шаге с 2% до 1% — и на 20 шагах ты всё равно провалишься ~18% раз. Уполовинить ошибку не значит уполовинить боль, потому что она бьётся против экспоненты. В обозримом будущем нет модели, достаточно хорошей, чтобы наивная цепочка из 100 шагов стала надёжной. Кривая побеждает.

Решение — архитектура, а не терпение

Те 25% команд, чьи агенты реально доходят до прода, не гоняют цепочки длиннее. Они гоняют короче, с структурой вокруг:

Декомпозируй. Разбей восьмичасовую работу на короткие, независимо проверяемые задачи. Цепочка из десяти задач по 10 шагов с чекпоинтом между каждой бьёт один прогон на 100 шагов — с большим отрывом.
Ставь чекпоинты. Сохраняй проверенное состояние между шагами, чтобы провал стоил одной задачи, а не всего дня. Не делай шаг 90 зависимым от того, помнит ли модель шаг 3.
Проверяй, потом продолжай. Ставь на каждый этап дешёвую проверку — детерминированный результат, вторая модель, схема — прежде чем следующий этап на нём строится. Лови эти 2% до того, как они скомпаундятся.
Держи окно чистым. Больше ходов — это не больше мышления. После ~30 вызовов начинается context rot; свежий сфокусированный контекст бьёт раздутый, тащащий 90 шагов истории.

Это тот же урок, к которому я прихожу с разных сторон: один агент, который делает всё, не делает ничего хорошо, и оркестрация — вот настоящая архитектура. Долгая надёжность — это оркестрация с секундомером в руке.

Итог

Удвоил задачу — учетверил провал; это не изъян модели, это арифметика. Агент на весь день приходит не потому, что лаборатория выкатит мозг поумнее, — он приходит, когда ты перестал просить один мозг сделать 100 вещей правильно подряд.

Не строй цепочку длиннее. Строй короче — с проверкой на каждом звене.