ARCHITECTURE · 1 июля 2026 г.

Твоё окно на миллион токенов тебе врёт

Вендоры продают длину контекста как RAM: больше — строго лучше, просто впихни всё. Но внимание не равномерно. Исследования снова и снова находят одну и ту же U-образную кривую: модель надёжно использует начало и конец окна и тихо игнорирует середину, а точность падает на 30%+, как только важное закопано туда, — иногда уже после 10k токенов. Контекст — не ведро, которое наполняешь. Это дефицитный, позиционный ресурс, который проектируешь. «Впихни всё в промпт» — это новая преждевременная оптимизация.

Пришло окно на миллион токенов, и все сделали очевидный вывод: retrieval умер, пайплайны умерли, просто вставь всю кодовую базу / все доки / всю историю в промпт и дай модели разобраться. Соблазнительная история. И неверная — так, что она тихо ухудшит твой продукт, пока все счётчики токенов говорят, что всё нормально.

Окно неравномерно, а середина — кладбище

Неудобный вывод, воспроизведённый снова и снова: модель не обрабатывает контекст равномерно. Она сильно опирается на начало и конец, а середину проглядывает — та самая кривая «lost in the middle». Работа Chroma о «context rot» нашла падение точности на 30%+, когда нужный факт сидит в середине окна, с измеримой деградацией уже после ~10k токенов — независимо от цифры «миллион» на коробке. Собственный гайд NVIDIA 2026 года формулирует прямо: держи промпт меньше трети заявленного окна.

Большее окно контекста не значит, что модель читает больше. Оно значит, что у неё больше места, чтобы проигнорировать то, что тебе было нужно.

Подумай, что это делает с «просто впихни всё». Ты кладёшь критичную инструкцию, или одну нужную функцию, или пункт, который реально важен, — куда-то в необъятную середину дампа на 400k токенов. Счётчик зелёный. Модель проскальзывает мимо. И ошибки ты не увидишь — увидишь чуть худший ответ, выглядящий совершенно правдоподобно.

Контекст — ресурс, который проектируешь, а не ведро, которое наполняешь

Это переосмысляет весь навык «управления контекстом». Окно — это не хранилище, а бюджет внимания, и позиция — часть бюджета. Управлять им хорошо — вот настоящее ремесло сейчас, и выглядит оно так:

Планируй окно. Считай «сколько окна я использую» реальным ограничением и держи живую нагрузку сильно ниже заявленного максимума — треть хороший дефолт. Большие окна — это запас, а не цель.
Ставь важное по краям. Клади инструкции и самый ценный контекст в начало и конец, куда модель реально смотрит. Никогда не хорони несущую фразу в середине.
Меньше, но точнее. Маленький, релевантный, хорошо расположенный контекст бьёт гигантский, где сигнал тонет. Retrieval не умер с длинным контекстом — он стал ценнее, потому что подать нужный 1% модели лучше, чем свалить 100% на кладбище.
Следи, кто ещё арендует место. Определения инструментов, история, шаблонный текст — они съедают окно ещё до старта задачи. Каждый ненужный токен толкает твой реальный контент к той части, которую модель проглядывает.

Итог

Окно контекста выросло, маркетинг сказал «просто клади всё», и куча продуктов тихо стала хуже, пока дашборды оставались зелёными. Размер — это запас, а не понимание. Модель читает края и проглядывает середину, и ни один счётчик не предупредит, когда твой ответ деградировал.

Перестань наполнять окно и начни его проектировать: планируй его, ставь важное по краям и подавай нужный контекст — а не весь.