13 июня 2026 г.
Самое большое окно контекста не побеждает
Каждый запуск модели хвастается окном контекста побольше — миллион токенов, два миллиона, вся кодовая база разом. Но анализ корпоративных внедрений нашёл, что почти 65% сбоев агентов шли от дрейфа контекста и потери памяти на многошаговой работе, а не от слишком маленького окна. Команды, что выпускают надёжных агентов в 2026-м, — не те, у кого окно больше. Это те, кто жёстче всех курирует то, что модель реально видит. Вот в чём разница и почему «больше» часто хуже.
Каждый релиз модели открывается одним и тем же хвастовством: окно контекста побольше. Миллион токенов. Два миллиона. «Вместите всю кодовую базу в один промпт». Звучит как ответ на то, как сделать агентов надёжными, — просто дай модели всё и пусть разбирается.
Это не ответ, и данные говорят это прямо. Анализ корпоративных ИИ-внедрений нашёл, что почти 65% сбоев агентов шли от дрейфа контекста и потери памяти на многошаговом рассуждении — а не от слишком маленького окна. Вывод тех, кто выпускает надёжных долгоиграющих агентов в 2026-м, резок: побеждают не те, у кого окно контекста больше, а те, у кого самое строгое управление контекстом.
Это переворачивает интуицию, с которой большинство начинает, так что давайте разберём.
Больше контекста — не больше понимания
Инстинкт говорит, что модель как студент, которому лучше с бо́льшим числом заметок. Но модель читает ваш контекст не так, как вы надеетесь. Закопайте один нужный факт в миллион токенов в основном нерелевантного материала — и внимание модели размазывается: она взвешивает шум наравне с сигналом, её тянет к тому, что рядом, и она теряет нить. У индустрии даже есть теперь имя для этого: гниение контекста. Окно стало больше; а способность модели хорошо использовать всё его — за этим не поспела.
Так что «просто впихни всё» меняет одну проблему на худшую. Вы перестаёте думать, что включать, и начинаете проигрывать всему, что включать было не нужно. Большое окно делает возможным дать модели слишком много. Хорошей идеей это не делает.
Дрейф — вот настоящий убийца
Цифра 65% указывает на конкретное: сбои случаются во время многошаговой работы, по мере дрейфа контекста. Агент на длинной задаче накапливает состояние — ранние шаги, выводы инструментов, недоделанное рассуждение, — и за двадцать шагов эта куча становится неряшливой. Исходная цель уплывает из фокуса. Устаревший факт с третьего шага противоречит свежему с пятнадцатого, и модель не может понять, какому верить. К концу она рассуждает над загрязнённой картиной собственного производства.
Вот почему окно побольше вас не спасает. Оно даёт дрейфу больше места накапливаться, а не меньше. Лекарство — не ёмкость, а гигиена: решать на каждом шаге, что модель должна ещё нести, а что выбросить.
Как выглядит управление контекстом на деле
Команды с надёжными агентами относятся к контексту как к тому, что надо инженерить, а не к ведру, которое надо наполнить:
- Курируйте, не вываливайте. Дайте модели те несколько вещей, что нужны этому шагу, а не всё, чего задача может коснуться. «Тупой RAG» — пихать каждый найденный документ в промпт — это названный режим сбоя не просто так.
- Сжимайте по ходу. Суммируйте завершённые шаги в короткое текущее состояние, вместо того чтобы тащить вперёд весь транскрипт. Модель несёт вывод, а не сырую историю.
- Ограничивайте инструменты. Меньше, острее инструментов в контексте бьёт гигантское меню, через которое модель должна продумываться каждый ход.
- Освежайте цель. Переякоривайте исходную задачу на каждом шаге, чтобы она не размывалась под весом всего, что случилось с тех пор.
Ничему из этого не нужно окно побольше. Большая часть работает лучше в меньшем, потому что тесный контекст — это сфокусированный контекст.
Суть
Окно контекста — цифра из спецификации, и как большинство цифр из спецификации она меряет ёмкость, а не умение. Окно в два миллиона токенов говорит, что модель может проглотить; оно ничего не говорит о том, поможет ли скормить ей столько, — а данные о сбоях говорят, что обычно вредит. Надёжность агента решается тем, что вы выбираете положить перед ним на каждом шаге, — а эту работу размер окна за вас никогда не сделает.
Так что когда в следующий раз релиз откроется рекордным окном контекста, читайте это как то, чем оно является: больше места, не больше понимания. Команды, чьи агенты реально держатся, не наполняют окно. Они его стерегут — и эта дисциплина, а не ёмкость, отделяет агента, который работает, от того, что тихо уплывает в бессмыслицу.
Комментарии
Пока нет комментариев
Войдите, чтобы участвовать в разговоре.
Будьте первым, кто оставит мысль.