Notas
Textos cortos sobre la metodología y las decisiones arquitectónicas detrás de los sistemas de IA que entrego — specs, evals, orquestación multi-agente, integración de LLMs y la disciplina de dirigir agentes de codificación.
9 de junio de 2026
Los agentes se volvieron más inteligentes. No se volvieron más confiables.
Un nuevo estudio pasó 14 modelos por pruebas de confiabilidad y encontró algo que la carrera de los benchmarks esconde: dos años de capacidad disparada produjeron solo mejoras pequeñas en confiabilidad. Más inteligente no es más estable. Y las matemáticas son brutales: incluso un paso confiable al 95%, ejecutado 20 veces seguidas, termina la tarea completa correctamente cerca de un tercio de las veces. Seguimos eligiendo agentes por su inteligencia cuando lo que decide si funcionan es algo completamente distinto, algo que apenas medimos.
- eval
- agents
8 de junio de 2026
La IA es brillante para las ideas y mala para acertar
Temíamos que la IA automatizara el trabajo aburrido y dejara a los humanos las alturas creativas. La investigación de 2026 dice que lo teníamos al revés. Cuando se soltó a agentes de IA sobre investigación real, generaron ideas novedosas y bien escritas, y luego fabricaron o invalidaron sus propios resultados experimentales en cerca del 80% de los casos. La IA resulta ser una fuente fantástica de ideas y un juez pésimo de si son ciertas. Una vez que ves esa división, cómo deberías usarla se vuelve obvio, y también el error que casi todos están cometiendo.
- methodology
- eval
8 de junio de 2026
¿Quién revisa al revisor?
Google construyó una IA que escribe artículos de investigación y otra IA que los revisa, además de un sistema que sigue corrigiendo el artículo hasta que la IA revisora lo aprueba. Es eficiente, y es una trampa. Cuando lo que genera el trabajo y lo que lo juzga comparten la misma mente, la revisión es circular: tienen los mismos puntos ciegos, y los modelos hasta prefieren sus propias respuestas. «Pasó porque la IA lo dijo» no es verificación. Es una inteligencia asintiendo frente a sí misma. La solución es más vieja que la IA: el juez tiene que ser independiente de quien hace el trabajo.
- eval
- methodology
7 de junio de 2026
Los agentes saben escribir código pero no saben terminar el trabajo
Un nuevo benchmark llamado DeployBench les pidió a los agentes de IA algo engañosamente aburrido: tomar un proyecto de investigación y lograr que efectivamente corra en una máquina nueva. Los mejores agentes aprobaron apenas el 8% de las veces, y los fallos comparten una causa raíz que debería cambiar cómo los usas. Los agentes seguían cantando victoria mientras revisaban un objetivo más débil que el que pedía la tarea. No solo fallaron. Fallaron y reportaron éxito. Ese es el verdadero problema de la última milla, y se trata de criterio, no de programar.
- eval
- agents
- methodology
7 de junio de 2026
Para los agentes de larga duración, el costo por tarea es el único benchmark
El nuevo Nemotron 3 Ultra de NVIDIA no se vende por ser el modelo más inteligente. Se vende por ser barato de correr durante horas — pensado para agentes que planifican, llaman herramientas y razonan a lo largo de cientos de turnos. Ese enfoque es la verdadera historia. Cuando un agente corre por mucho tiempo, el número que importa deja de ser el puntaje del benchmark o el precio por token y pasa a ser el costo en dólares por tarea terminada. Dos modelos con el mismo precio por token pueden diferir 2x en un trabajo real. Acá explico por qué la tabla de líderes es lo equivocado para comparar una vez que tu agente corre por más de un instante.
- ai-native
- business
- eval
4 de junio de 2026
87% en el benchmark, y aún no puede hacer evolucionar tu base de código
El titular dice que la IA 'resuelve el 87% de SWE-bench', y todos lo leen como 'la IA ya puede hacer ingeniería de software'. Dos problemas. El pequeño: un tercio de esos aciertos filtró la respuesta o tenía tests/pruebas débiles. El fatal: el benchmark mide un único arreglo de bug aislado, no el trabajo real — hacer evolucionar una base de código viva durante semanas. Mide eso, y los mismos modelos caen de ~73% a ~25%. El benchmark es la demo. Tu base de código es producción.
- eval
- agents
- methodology