Todas las notas
La ventana de contexto más grande no gana

13 de junio de 2026

La ventana de contexto más grande no gana

Cada lanzamiento de un modelo presume de una ventana de contexto más grande: un millón de tokens, dos millones, todo el código de golpe. Pero un análisis de despliegues empresariales encontró que casi el 65% de los fallos de agentes venían de deriva de contexto o pérdida de memoria durante el trabajo de varios pasos, no de una ventana demasiado pequeña. Los equipos que en 2026 lanzan agentes fiables no son los que tienen la ventana más grande. Son los que curan con más rigor lo que el modelo realmente ve. Aquí está la diferencia, y por qué más suele ser peor.

Cada lanzamiento de un modelo arranca con la misma presunción: una ventana de contexto más grande. Un millón de tokens. Dos millones. «Mete todo tu código en un solo prompt.» Suena como la respuesta para hacer agentes fiables: dale al modelo todo y deja que él lo ordene.

No lo es, y los datos lo dicen sin rodeos. Un análisis de despliegues empresariales de IA encontró que casi el 65% de los fallos de agentes venían de deriva de contexto o pérdida de memoria durante el razonamiento de varios pasos, no de una ventana demasiado pequeña. La conclusión de quienes lanzan agentes fiables de larga duración en 2026 es directa: los equipos que ganan no son los que tienen la ventana de contexto más grande, son los que tienen la gestión de contexto más rigurosa.

Eso le da la vuelta a la intuición con la que empieza casi todo el mundo, así que déjame desarrollarlo.

Más contexto no es más comprensión

El instinto dice que un modelo es como un estudiante que rendiría mejor con más apuntes. Pero un modelo no lee tu contexto de la manera que esperarías. Entierra el único dato relevante en un millón de tokens de material casi todo irrelevante y la atención del modelo se dispersa: pondera el ruido junto a la señal, se deja arrastrar por lo que tiene cerca y pierde el hilo. La industria ya tiene un nombre para esto: pudrición de contexto. La ventana se hizo más grande; la capacidad del modelo de usarla bien no mantuvo el ritmo.

Así que «mete todo dentro y ya» cambia un problema por otro peor. Dejas de preocuparte por qué incluir y empiezas a perder ante todo lo que no deberías haber incluido. Una ventana grande hace posible darle demasiado al modelo. No hace que sea buena idea.

La deriva es el verdadero asesino

El número del 65% señala algo concreto: los fallos ocurren durante el trabajo de varios pasos, a medida que el contexto deriva. Un agente que hace una tarea larga acumula estado: pasos anteriores, salidas de herramientas, razonamiento a medio terminar; y a lo largo de veinte pasos ese montón se vuelve un desastre. El objetivo original se sale de foco. Un dato viejo del paso tres contradice uno fresco del paso quince, y el modelo no sabe en cuál confiar. Al final está razonando sobre una imagen contaminada que él mismo creó.

Por eso una ventana más grande no te salva. Le da más espacio a la deriva para acumularse, no menos. El arreglo no es capacidad, es higiene: decidir, en cada paso, qué debería seguir cargando el modelo y qué hay que soltar.

Cómo se ve realmente la gestión de contexto

Los equipos de agentes fiables tratan el contexto como algo que se diseña, no como un cubo que se llena:

  • Cura, no vacíes de golpe. Dale al modelo las pocas cosas que este paso necesita, no todo lo que la tarea pueda llegar a tocar. El «RAG tonto» —meter cada documento recuperado en el prompt— es un modo de fallo con nombre propio por algo.
  • Comprime sobre la marcha. Resume los pasos terminados en un estado corto y vivo en lugar de arrastrar la transcripción completa hacia adelante. El modelo carga la conclusión, no el historial en bruto.
  • Acota las herramientas. Pocas herramientas afiladas en el contexto ganan a un menú gigante que el modelo tiene que razonar en cada turno.
  • Refresca el objetivo. Vuelve a anclar la meta original en cada paso para que no se erosione bajo el peso de todo lo que ha pasado desde entonces.

Nada de eso necesita una ventana más grande. La mayor parte funciona mejor en una más pequeña, porque un contexto ajustado es un contexto enfocado.

En resumen

La ventana de contexto es un número de ficha técnica, y como casi todos los números de ficha técnica, mide capacidad, no habilidad. Una ventana de dos millones de tokens te dice qué puede ingerir el modelo; no te dice nada sobre si darle tanto va a ayudar, y los datos de fallos dicen que normalmente perjudica. La fiabilidad de un agente la decide lo que eliges poner delante de él en cada paso, que es un trabajo que el tamaño de la ventana nunca hará por ti.

Así que la próxima vez que un lanzamiento arranque con una ventana de contexto que bate récords, léelo por lo que es: más espacio, no más comprensión. Los equipos cuyos agentes de verdad se sostienen no están llenando la ventana. La están protegiendo, y esa disciplina, no la capacidad, es lo que separa un agente que funciona de uno que se desliza en silencio hacia el disparate.

Comentarios

Aún no hay comentarios

Inicia sesión para unirte a la conversación.

Sé el primero en compartir una idea.