AI-NATIVE · 4 de junio de 2026

Los labs ahora compiten en precio, no en IQ

Durante dos años, el lanzamiento de un modelo insignia tenía un solo titular: somos los más inteligentes, este es el benchmark que superamos. En Microsoft Build 2026 el titular cambió — misma liga que Opus, pero ~10x más output por dólar y 60% menos tokens. La presunción pasó del IQ a la eficiencia, y toda la industria se está reorganizando en torno al precio, no a la capacidad máxima. Aquí explico por qué se invirtió el eje, y qué significa si tú construyes.

Durante dos años, el lanzamiento de un modelo insignia tenía exactamente un titular: somos los más inteligentes. Este es el benchmark que coronamos, este es el rival al que le ganamos por un punto. La inteligencia era todo el marcador. En la conferencia Build de Microsoft en 2026, el titular fue distinto, y esa diferencia es la historia.

De qué presumió Microsoft realmente

Microsoft presentó sus primeros modelos propios, encabezados por un modelo de razonamiento, MAI-Thinking-1, y en los benchmarks aterriza con dignidad — 97% en AIME, 53% en SWE-Bench Pro, más o menos a la par de Opus. Pero fíjate que el número de capacidad no fue el argumento. El argumento fue el precio. Su modelo de programación acompañante, MAI-Code-1-Flash, resuelve problemas más difíciles con hasta 60% menos tokens — menor latencia, menor costo, lo que Microsoft insistía en llamar "return on token" (retorno por token). Y Microsoft proyectó una mejora de 10x en tokens de output por dólar frente a GPT-5.5. La presunción pasó de "más inteligente que" a "misma calidad, a una décima parte del costo".

Por qué se invirtió el eje

Dos fuerzas empujaron la competencia fuera del eje del IQ y hacia el eje del precio, y he escrito sobre ambas.

La primera es el pánico por los costos. Cuando las empresas queman el presupuesto de IA de un año en cuatro meses, "10x más barato a la misma calidad" es la frase que cierra el trato — no "dos puntos más arriba en un benchmark del que nadie en finanzas ha oído hablar". El costo se volvió la restricción vinculante, así que el costo se volvió aquello a lo que los labs le venden.

La segunda es que la inteligencia se está commoditizando. Cuando un modelo open-weight gratuito ya está a unos pocos puntos porcentuales de la frontier, ser marginalmente más inteligente no vale casi nada — pero ser dramáticamente más barato a la misma calidad vale una fortuna. Literalmente: Google dice que su Gemini 3.5 Flash podría ahorrarles a las empresas más de $1 billion al año, y es barato por razones estructurales — Google corre sus propios chips y un flywheel de tokens tan grande que mejora su eficiencia a medida que escala. Mil millones de dólares es mejor titular que un punto de benchmark.

Toda la industria se está reorganizando en torno al precio

Esto no es una sola keynote. Es la forma del campo ahora. Microsoft construyó sus propios modelos específicamente para dejar de pagarle la cuenta a OpenAI y ofrecer inferencia más barata en Azure. Google se apoya en sus propias TPUs para abaratar el costo de servir. La próxima plataforma de chips de NVIDIA se está vendiendo con una reducción de 10x en el costo de inferencia, no con un salto de 10x en capacidad. Y los precios por token han venido cayendo en el orden de 200x por año. La carrera es una carrera de eficiencia, de arriba a abajo.

Qué significa si tú construyes

Aquí va la buena noticia, y premia exactamente la disciplina que no dejo de defender. Si nunca hardcodeaste el modelo y nunca apostaste tu foso (moat) a uno solo, entonces cada uno de estos lanzamientos de eficiencia es una mejora de margen gratis. Sale un modelo 10x más barato a igual calidad, cambias un valor de config, y tu factura de tokens baja mientras tu producto sigue igual. No tienes que hacer nada ingenioso — solo tienes que ser intercambiable, para que la guerra de precios suceda a tu favor. Los equipos que se soldaron a un único modelo frontier premium para todo son los que están siendo exprimidos mientras el resto de nosotros recogemos los ahorros.

La salvedad honesta

Esto no es "la inteligencia frontier dejó de importar". Para la parte genuinamente difícil de un problema, sigues queriendo el mejor cerebro, y el razonamiento de gama alta sigue teniendo precio de lujo. Lo que cambió es el centro de gravedad: el punto de IQ marginal se volvió barato de igualar, y el dólar marginal se volvió caro de desperdiciar. Así que la forma correcta es la que describí antes — un modelo inteligente para el 10% difícil, modelos baratos y eficientes para el resto, y nada cableado, para que puedas insertar cada nueva opción más barata el día que aterriza.

El leaderboard que todos capturan en pantalla todavía rankea el IQ. Pero la carrera que los labs realmente están corriendo se movió al precio, porque "quién es el más inteligente" se está volviendo una pregunta resuelta y commoditizada, y "quién es el más barato con calidad suficiente" es la abierta que vale mil millones de dólares al año. Construye de modo que cuando la respuesta cambie el próximo trimestre — y lo hará — recojas los ahorros cambiando una línea, no reescribiendo tu producto.

Comentarios

Aún no hay comentarios

Inicia sesión para unirte a la conversación.

Sé el primero en compartir una idea.