AI-NATIVE · 14 de junio de 2026

El modelo rápido ahora es inteligente

Durante dos años hiciste un canje cada vez que elegías un modelo: rápido y barato, o inteligente y lento. Gemini 3.5 Flash acaba de romperlo. La categoría «Flash» —la barata y veloz— ahora obtiene 55 en el Artificial Analysis Intelligence Index, por delante de Grok 4.3 y Claude Sonnet 4.6, mientras corre a más de 280 tokens por segundo. El modelo rápido ya no es el modelo tonto. Eso debería hacerte reabrir una decisión que la mayoría de los equipos congeló en silencio hace un año: ¿cuál es tu modelo por defecto, y sigue siendo el correcto? Aquí va cómo pensarlo, incluida la trampa.

Durante dos años, elegir un modelo de IA significaba hacer un canje. Rápido y barato, o inteligente y lento. Mandabas el razonamiento difícil al modelo grande y caro y lo dejabas sudar; mandabas lo fácil y de alto volumen al chico y veloz, y aceptabas que sería un poco más tonto. La velocidad te costaba inteligencia. Todo el mundo construyó sobre ese supuesto.

Ese supuesto acaba de recibir un golpe serio. El Gemini 3.5 Flash de Google —un modelo Flash, la categoría que se supone que es la barata y rápida— ahora obtiene 55 en el Artificial Analysis Intelligence Index, por delante de Grok 4.3 con 53 y Claude Sonnet 4.6 con 52, mientras corre a más de 280 tokens de salida por segundo — cerca de un 70% más rápido que la versión anterior. El modelo rápido ya no es el modelo tonto. Déjame explicarte por qué eso merece tu atención, y dónde está la trampa.

El canje sobre el que construiste está más débil que antes

La razón completa por la que tenías un «modelo inteligente» y un «modelo rápido» era que no podías tener ambos. La inteligencia vivía en un extremo del dial y la velocidad en el otro, y tu arquitectura era en realidad una serie de apuestas sobre en qué punto de ese dial caía cada tarea.

Cuando un modelo rápido marca puntajes de inteligencia de primer nivel, ese dial deja de ser una línea recta. Ahora puedes obtener respuestas casi de frontera y velocidad de frontera de la misma llamada. Eso no significa que los modelos más grandes no sirvan de nada —siguen liderando en el razonamiento genuinamente más difícil. Significa que la brecha se estrechó lo suficiente como para que mucho del trabajo que enrutabas a un modelo lento y caro por costumbre ahora pueda ir a algo tres veces más rápido sin empeorar de forma notable.

Tu «modelo por defecto» probablemente es una costumbre, no una decisión

Aquí viene la parte que de verdad les cuesta dinero a los equipos. La mayoría elegimos un modelo por defecto en algún momento de 2024 o principios de 2025, lo cableamos, y nunca volvimos a mirar. Mientras tanto, la tabla de líderes se reordena más o menos cada mes. Tu modelo por defecto es una foto de quién era el mejor la semana en que elegiste, congelada dentro de tu código.

Eso es algo caro de dejar en piloto automático, porque el mercado de modelos se mueve más rápido que casi cualquier decisión de tu stack. El modelo que era claramente el mejor hace un año puede ser hoy más lento, más tonto y más caro que una categoría que descartaste como la opción «barata». La única forma de saberlo es volver a mirar, y casi nadie lo hace.

La trampa: «rápido» ya no significa «el más barato»

Ahora el asterisco honesto, porque el titular lo esconde. Esta nueva ola de modelos rápidos también se volvió bastante más cara — Google siguió a Anthropic y OpenAI subiendo precios en los modelos más nuevos y mejores. Así que «Flash alcanzó a los demás en inteligencia» no significa automáticamente que «Flash es la opción barata que solía ser». Las categorías se están revolviendo: un modelo rápido puede ser inteligente y no barato; un modelo más viejo puede ser barato y no inteligente.

Que es exactamente por lo que ya no puedes elegir por reputación. «Flash = barato, Opus = inteligente» era un modelo mental limpio y ahora es falso en ambas direcciones. Las tres cosas que de verdad te importan —calidad, latencia y costo— ya no se mueven juntas, así que tienes que mirar las tres, para tu tarea, con números reales.

Qué hacer

Vuelve a medir sobre tu propia carga de trabajo. No sobre la tabla de líderes, sino sobre tus prompts reales, tu listón de calidad real, tu volumen real. Toma la tarea que has estado mandando a tu modelo por defecto y córrela contra dos o tres opciones actuales, incluida una categoría rápida que antes habrías descartado. Mide calidad, mide latencia, mide costo por llamada. Luego decide, sabiendo que la respuesta tiene una vida útil de quizás un trimestre.

En resumen

El canje de velocidad contra inteligencia que organizaba la elección de modelos de todo el mundo acaba de volverse mucho más borroso: la categoría rápida marca puntajes de primer nivel, y las categorías de precio se revuelven junto con ella. La frontera se movió. Tus valores por defecto no.

El modelo que elegiste hace un año es una decisión de hace un año sentada en un mercado que rota cada mes, y «rápido», «inteligente» y «barato» ya no son el mismo eje. Reabre la elección, mide sobre tu propia tarea, y acostúmbrate a hacerlo con un calendario. El canje sobre el que construiste no desapareció, pero ya no es el que memorizaste.

Comentarios

Aún no hay comentarios

Inicia sesión para unirte a la conversación.

Sé el primero en compartir una idea.