AI-NATIVE · 7 de junio de 2026

Para los agentes de larga duración, el costo por tarea es el único benchmark

El nuevo Nemotron 3 Ultra de NVIDIA no se vende por ser el modelo más inteligente. Se vende por ser barato de correr durante horas — pensado para agentes que planifican, llaman herramientas y razonan a lo largo de cientos de turnos. Ese enfoque es la verdadera historia. Cuando un agente corre por mucho tiempo, el número que importa deja de ser el puntaje del benchmark o el precio por token y pasa a ser el costo en dólares por tarea terminada. Dos modelos con el mismo precio por token pueden diferir 2x en un trabajo real. Acá explico por qué la tabla de líderes es lo equivocado para comparar una vez que tu agente corre por más de un instante.

NVIDIA lanzó un nuevo modelo abierto el 4 de junio, y lo interesante no es un puntaje en una tabla de líderes — es el enfoque. Nemotron 3 Ultra se vende por ser más rápido y más barato de correr para agentes de larga duración: agentes que planifican, llaman herramientas y razonan a lo largo de muchos turnos. NVIDIA afirma cerca de 5× más rendimiento que modelos abiertos comparables y hasta un 30% menos de costo en tareas agénticas, e incluso incluye un modo de razonamiento de «esfuerzo medio» que usa aproximadamente 2.5× menos tokens que el razonamiento completo.

Un modelo cuyo argumento principal es «barato de correr por mucho tiempo» te dice dónde está realmente el mercado. La competencia interesante para los agentes ya no es quién lidera el benchmark de inteligencia. Es quién termina el trabajo con la menor cantidad de dólares — y ese es un número completamente distinto al que aparece en la tabla de líderes.

Por qué «larga duración» cambia toda la ecuación

Una sola llamada a un modelo es barata y el precio por token apenas importa. Pero un agente que corre durante horas es otra bestia: planifica, lee, llama una herramienta, lee el resultado, razona, llama otra, una y otra vez, a veces durante cientos de pasos. Cada uno de esos pasos gasta tokens, y se acumulan. El costo de la corrida larga de un agente no es un error de redondeo — es el costo dominante, y crece con cada turno.

Eso cambia para qué deberías optimizar. Para un chatbot, «qué modelo es más inteligente por respuesta» es una buena pregunta. Para un agente de larga duración, la pregunta pasa a ser «qué modelo llega a un final correcto con el menor gasto total» — y esas dos preguntas tienen ganadores distintos. Un modelo que es un poco menos impresionante en un benchmark pero usa la mitad de los tokens para completar la tarea real es la mejor opción, y la tabla de líderes nunca te lo va a decir.

El precio por token también es una trampa

Acá está la parte que confunde a la gente. Pensarías que el modelo más barato es el que tiene el menor precio por token. No lo es, necesariamente. Lo que pagas es precio-por-token multiplicado por tokens-usados, y los modelos varían muchísimo en el segundo factor.

Los datos son contundentes: en un análisis, dos modelos con precios por token a grandes rasgos similares terminaron el mismo benchmark por cerca de $817 frente a $1,888 — una brecha de más de $1,000 — porque uno era mucho más eficiente en tokens para realmente sacar el trabajo adelante. Mismo precio de etiqueta, el doble de cuenta. Por eso el enfoque serio en la economía de los agentes se ha desplazado a dólares por paso de flujo de trabajo exitoso, no dólares por token crudo. Un modelo charlatán que necesita tres veces los pasos para terminar es caro incluso con una tarifa de ganga por token. Todo el diseño de Nemotron — menos parámetros activos, una arquitectura más liviana para secuencias largas, una perilla de esfuerzo — es una apuesta a ganar ese número real, no el de la etiqueta.

Qué medir de verdad

Este es el corazón práctico del asunto, y se conecta con cosas que ya he sostenido antes. El puntaje del benchmark nunca fue el trabajo, y la forma correcta de gastar en modelos es ajustar el modelo al trabajo. Los agentes de larga duración hacen que ambas cosas se vuelvan concretas y urgentes. Entonces:

Mide dólares-por-tarea-terminada, no por token y no la tabla de líderes. Corre tu flujo de trabajo real de punta a punta en cada modelo candidato y compara el costo total hasta una finalización correcta. Ese único número decide en silencio tu margen.
Cuenta tokens-hasta-la-finalización, no solo el precio. Un modelo más barato por token que divaga puede costar más que uno más caro que es escueto y decidido. La eficiencia para llegar ahí es la variable oculta.
Usa las palancas de eficiencia. Modos de esfuerzo, caché de prompts, reutilizar contexto estable a lo largo de los turnos — esto puede reducir drásticamente el costo real en un agente que llama repetidamente. La parte cara es el trabajo fresco, sin caché; diseña para reutilizar el resto.
Dimensiona bien cada paso. Una corrida larga no necesita tu modelo más caro en cada turno. Modelos baratos y rápidos para los pasos rutinarios y el fuerte solo donde se gana su lugar sigue siendo la jugada — solo que ahora medido sobre toda una corrida, no una sola llamada.

En resumen

Cuando el modelo de agente estrella de NVIDIA compite por ser barato de correr durante horas en vez de liderar el gráfico de inteligencia, ese es el mercado diciéndote qué importa ahora. Para cualquier cosa que corra más que una sola respuesta, la tabla de líderes es lo equivocado para comparar. El benchmark mide qué tan inteligente es un modelo en una sola pregunta. Tu cuenta mide con qué eficiencia termina cien de ellas seguidas — y solo uno de esos números aparece en tu factura.

Así que antes de elegir un modelo para un agente, deja de preguntar «cuál es el más inteligente» y empieza a preguntar «cuál termina mi tarea real por la menor cantidad de dinero». Córrelo, cuenta los dólares hasta un resultado correcto, y elige en base a eso. El modelo más inteligente que quema el doble de tokens para llegar ahí no es el mejor agente. Es solo la forma más cara de llegar al mismo lugar.

Comentarios

Aún no hay comentarios

Inicia sesión para unirte a la conversación.

Sé el primero en compartir una idea.