EVAL · 9 de junio de 2026

Los agentes se volvieron más inteligentes. No se volvieron más confiables.

Un nuevo estudio pasó 14 modelos por pruebas de confiabilidad y encontró algo que la carrera de los benchmarks esconde: dos años de capacidad disparada produjeron solo mejoras pequeñas en confiabilidad. Más inteligente no es más estable. Y las matemáticas son brutales: incluso un paso confiable al 95%, ejecutado 20 veces seguidas, termina la tarea completa correctamente cerca de un tercio de las veces. Seguimos eligiendo agentes por su inteligencia cuando lo que decide si funcionan es algo completamente distinto, algo que apenas medimos.

Hay una pregunta que las tablas de clasificación de benchmarks nunca responden: no «qué tan inteligente es este agente», sino «puedo contar con él». Un equipo de investigadores acaba de intentar medir eso directamente, pasando 14 modelos por una batería de pruebas de confiabilidad, y el hallazgo principal merece pinchar algo de la euforia. A lo largo de cerca de dos años de avances rápidos en capacidad, encontraron solo mejoras modestas en confiabilidad. Los modelos se volvieron mucho más inteligentes. Apenas se volvieron más confiables.

Esa brecha — entre qué tan capaz es un agente y cuánto puedes confiar en él — es, en palabras de un análisis, el problema más importante y menos discutido de la IA empresarial en este momento. Y una vez que ves las matemáticas detrás de esto, dejas de sorprenderte de que tantos agentes impresionantes nunca lleguen a producción.

Inteligente y confiable no son el mismo eje

Hemos metido dos cosas distintas en una sola palabra: «bueno». Un modelo que saca un puntaje más alto en un benchmark de razonamiento es más capaz. Si hace lo mismo cuando lo ejecutas dos veces, si sobrevive a un prompt levemente reformulado, si falla de una manera que puedes predecir, y si mantiene sus errores pequeños — eso es confiabilidad, y es un eje aparte. El estudio hace concreta esa separación al dividir la confiabilidad en cuatro dimensiones — consistencia, robustez, predictibilidad y seguridad — y medir cada una. Un modelo puede ser brillante en capacidad y endeble en todas y cada una de ellas.

Por eso «el nuevo modelo sacó un puntaje más alto» te dice tan poco sobre si puedes construir encima de él. La tabla de clasificación mide el eje inteligente. Tu incidente de producción a las 2 de la madrugada está en el eje confiable. No son el mismo número, y el segundo es el que decide si tu agente es un producto o una demo.

Las matemáticas que se acumulan y que nadie quiere en la diapositiva

Aquí está la parte que debería cambiar cómo diseñas. Los agentes trabajan en pasos: leer, planear, llamar a una herramienta, leer el resultado, actuar, repetir. Y la confiabilidad se multiplica a lo largo de los pasos, lo cual es devastador, porque la multiplicación de números menores que uno se va a cero rápido.

Haz las cuentas. Si cada paso es 95% confiable — optimista para los modelos de hoy — entonces a lo largo de 20 pasos la probabilidad de hacer todo bien es 0.95²⁰, que es cerca de 36%. Al 85% por paso a lo largo de ocho pasos, bajas a más o menos 27%. Las reseñas de despliegues reales coinciden con las matemáticas: a medida que los flujos de trabajo se vuelven más largos y complejos, las tasas de falla trepan hasta el rango del 70 al 90%. Una tasa de éxito por paso que suena genial es una tasa de éxito de la tarea completa que es un volado o peor.

Detente a pensar en lo que eso significa. Un modelo «más inteligente» que empuja cada paso del 94% al 96% de confiabilidad se siente como progreso y apenas mueve el número de punta a punta. Lo que arruina una ejecución larga de un agente no es la falta de inteligencia en un solo paso. Es que las pequeñas faltas de confiabilidad se acumulan, y las mejoras de capacidad no arreglan la acumulación.

Qué hacer al respecto

Si la confiabilidad es la restricción que manda y la capacidad no, tus decisiones cambian:

Mide confiabilidad, no solo capacidad. Ejecuta la misma tarea muchas veces y mira la dispersión, no el mejor caso. Perturba la entrada. Revisa cómo falla, no solo si pasó una vez. Una sola corrida en verde es lo menos informativo que puedes recolectar — este es el punto de el-benchmark-no-es-el-trabajo, llevado al rigor.
Combate la acumulación directamente: usa menos pasos. Cada paso que quitas multiplica tus probabilidades de vuelta hacia arriba. Colapsa cinco llamadas al modelo en una donde puedas, reemplaza un paso de razonamiento por una función determinista, y no hagas que el agente vuelva a derivar lo que simplemente podrías entregarle.
Pon puntos de control entre pasos para que los errores no se propaguen. Verifica la salida de un paso antes de alimentarla al siguiente — idealmente contra algo independiente. Un error atrapado en el paso 3 no se acumula hasta volverse un desastre en el paso 15.
Deja de tratar «es más inteligente» como «es confiable». Cuando el próximo modelo encabece las tablas, haz la pregunta distinta: ¿es más consistente, más predecible, falla más en pequeño? Si no puedes decirlo, todavía no sabes si es mejor para un agente — solo que es mejor en la prueba.

Lo esencial

La industria vende capacidad porque la capacidad es lo que miden los benchmarks y lo que hace una buena demo. Pero el estudio es un útil baldazo de agua fría: dos años de volverse más inteligente nos compraron solo un poco más de confiabilidad, y la confiabilidad — no la inteligencia bruta — es lo que se interpone entre un agente y la producción. Las matemáticas de la acumulación lo garantizan. Un flujo de trabajo es solo tan confiable como su paso más débil elevado a la potencia de cuántos pasos tiene.

Así que cuando evalúes un agente, resiste la tabla de clasificación. La pregunta nunca fue «qué tan inteligente es ante un problema difícil». Es «con qué frecuencia hace bien lo ordinario, de la misma manera, veinte veces seguidas». Lo más inteligente es fácil de vender y fácil de medir. Lo confiable es lo que de verdad llega a producción — y lo que casi nadie está revisando.

Comentarios

Aún no hay comentarios

Inicia sesión para unirte a la conversación.

Sé el primero en compartir una idea.