AGENTS · 1 de julio de 2026

El doble de tarea, el cuádruple de fallo

Todo el mundo quiere el agente que trabaje una jornada entera de 8 horas. La matemática está en contra. Un nuevo paper de 2026 muestra que duplicar la duración de una tarea no duplica la tasa de fallo — la cuadruplica aproximadamente, porque un error minúsculo por paso se compone. Un desliz del 2% por paso se convierte en un 33% de probabilidad de reventar toda la tarea en 20 pasos. La autonomía de horizonte largo no está esperando a un modelo más listo. Es un problema de arquitectura: descompón, pon checkpoints, verifica.

El sueño que se vendió todo el año es el agente que trabaja tu jornada entera — le entregas una meta a las 9am, se pone a picar durante ocho horas y vuelves a un trabajo terminado. Sequoia hasta le puso fecha: agentes fiables de jornada de 8 horas «para finales de 2026». A mí también me encantaría. Pero la matemática tiene un problema con eso.

El muro del compounding

Una tarea hecha de muchos pasos solo tiene éxito si cada paso tiene éxito. Eso es un producto, no una suma. Así que los errores no se suman — se multiplican. Un paper de 2026, «The Long-Horizon Task Mirage», le pone números: duplicar la duración de una tarea cuadruplica aproximadamente la tasa de fallo en vez de duplicarla. Un modesto 2% de error por paso se convierte en un 33% de probabilidad de fallar la tarea entera en apenas 20 pasos dependientes.

Medido a lo largo de diez modelos y cuatro tramos de longitud, el pass@1 agregado cae del 76.3% en tareas cortas al 52.1% en las muy largas — una caída de 24 puntos, superlineal. Y no es solo el error por paso: tras 25–30 llamadas a herramientas, incluso ventanas de contexto de 200K tokens pierden el hilo — los modelos olvidan resultados tempranos y rehacen pasos que ya habían terminado.

La fiabilidad no es una propiedad del modelo. Es una propiedad de cuántas cosas tienen que salir bien seguidas sin un checkpoint.

Por qué un modelo mejor no te va a salvar

Esta es la trampa del «solo espera al próximo modelo». Baja el error por paso del 2% al 1% y, sobre 20 pasos, sigues fallando ~18% de las veces. Reducir a la mitad la tasa de error no reduce a la mitad el dolor, porque está peleando contra un exponente. No hay ningún modelo a corto plazo lo bastante bueno como para hacer fiable una cadena ingenua de 100 pasos. Gana la curva.

El arreglo es arquitectura, no paciencia

El 25% de los equipos cuyos agentes de verdad llegan a producción no corren cadenas más largas. Corren cadenas más cortas, con estructura alrededor:

Descompón. Parte el trabajo de ocho horas en tareas cortas, verificables de forma independiente. Una cadena de diez tareas de 10 pasos con un checkpoint entre cada una le gana a una única corrida de 100 pasos — por mucho.
Pon checkpoints. Guarda el estado verificado entre pasos para que un fallo cueste una tarea, no el día entero. No hagas que el paso 90 dependa de que el modelo siga recordando el paso 3.
Verifica, luego continúa. Pon en cada etapa una comprobación barata — el resultado determinista, un segundo modelo, un esquema — antes de que la siguiente etapa se construya sobre ella. Atrapa el 2% antes de que se componga.
Mantén la ventana limpia. Más turnos no es más pensamiento. Pasadas ~30 llamadas a herramientas se instala el context rot; un contexto fresco y enfocado le gana a uno inflado que arrastra 90 pasos de historial.

Esta es la misma lección a la que sigo llegando desde distintas direcciones: un agente que lo hace todo no hace nada bien, y la orquestación es la verdadera arquitectura. La fiabilidad de horizonte largo es orquestación con un cronómetro en la mano.

En resumen

Duplicar la tarea cuadruplica el fallo — eso no es un defecto del modelo, es aritmética. El agente autónomo de todo el día no llega porque un laboratorio saque un cerebro más listo; llega porque dejaste de pedirle a un solo cerebro que acierte 100 cosas seguidas.

No construyas una cadena más larga. Construye una más corta, comprobada en cada eslabón.

Comentarios

Aún no hay comentarios

Inicia sesión para unirte a la conversación.

Sé el primero en compartir una idea.