AI-NATIVE · 5 de junio de 2026

Cuatro modelos insignia en cuatro semanas — «qué modelo gana» es un olor de diseño (design smell)

Este mes llega una ola de modelos insignia casi uno encima del otro — Gemini 3.5 Pro, un nuevo Claude, Grok 5, con Opus 4.8 ya disponible. Todos están refrescando leaderboards. Si esa ola te da ansiedad — ¿estamos en el mejor?, ¿deberíamos cambiar? — la ansiedad te está diciendo algo sobre tu arquitectura, no sobre los modelos. Acá va la lectura honesta, y lo que de verdad cuesta «mantenerse intercambiable».

Junio de 2026 es una avalancha de lanzamientos. Opus 4.8 salió a fines de mayo; Google prometió Gemini 3.5 Pro «el mes que viene»; un nuevo Claude y Grok 5 se esperan en esas mismas semanas. La mitad de mi feed son personas refrescando leaderboards de benchmarks para ver quién va arriba en esta hora.

Si esa ola te da un poco de ansiedad — ¿estamos en el mejor modelo?, ¿deberíamos cambiar? — vale la pena prestarle atención a esa sensación. No por los modelos. Por lo que revela sobre cómo está construido tu producto.

La ventaja es ruido, y se mueve cada mes

Mirá las posiciones reales. Hoy Opus 4.8 está en la cima del índice de inteligencia de Artificial Analysis con 61.4, apenas por delante de GPT-5.5 con 60.2, Gemini 3.1 Pro con 57, y Grok 4.3 con 53. Cuatro puntos entre el primero y el tercero. Los lanzamientos del mes que viene van a reacomodar ese orden, y el mes siguiente lo van a reacomodar de nuevo.

Para casi cualquier producto real, la diferencia entre el modelo #1 y el #3 es invisible para tus usuarios. No pueden distinguir qué modelo insignia les respondió. El leaderboard es un deporte; tu producto no.

Así que la ansiedad es un olor de diseño (design smell)

Acá va el diagnóstico. Si el lanzamiento de un modelo nuevo te pone nervioso, casi nunca es porque te preocupe estar dejando capacidad sobre la mesa. Es porque sospechás que cambiar dolería — que tu producto está soldado en silencio a las particularidades específicas de un modelo: su forma de redactar, su formato, la manera en que tus prompts se afinaron, durante meses, a su comportamiento exacto.

Ese es el miedo real, y es un problema de acoplamiento disfrazado de modelo. El nerviosismo no es sobre qué modelo es el mejor. Es sobre lo caro que sería cambiar de opinión. Un alto costo de cambiar de opinión es la definición de mala arquitectura — ya hice ese argumento antes, y acá es igual de cierto.

Lo que de verdad cuesta «ser intercambiable» (no es plug-and-play)

Ahora la parte honesta, porque «simplemente mantenete intercambiable» es facilista. Cambiar de modelo de verdad no es plug-and-play. Los prompts quedan afinados de forma implícita al comportamiento de un modelo, los tokenizers y el formato difieren, y un cambio ingenuo trae regresiones reales y sorpresas de costo. Ser intercambiable no es gratis. Es algo que se construye:

Una abstracción, para que tu producto hable con «un modelo», no con la API de un proveedor — el patrón adaptador, una interfaz neutral que oculta las diferencias entre proveedores.
Ruteo por nivel de tarea, no un nombre de modelo hardcodeado — para que «usá un modelo más barato acá» sea un cambio de config, la misma disciplina que un modelo barato para el 90% del trabajo.
Un eval set — la parte que todos saltean y la parte que hace que todo lo demás sea seguro. Con evals reservadas (held-out), un cambio se vuelve «cambiá la config, corré las evals, mirá exactamente qué regresó». Sin ellas, un cambio es «cambiá el modelo y rezá», y por eso la gente tiene miedo de hacerlo.

Construí esas tres y el costo de cambiar de opinión baja de «una reescritura» a «una tarde y una corrida de tests».

Y entonces la ola pasa de amenaza a menú

Una vez que cambiar es barato y medible, el mes de los cuatro modelos insignia deja de ser ansiedad y se vuelve una lista de compras. ¿Sale un modelo más barato con la misma calidad? Apuntá tus evals hacia él; si pasa, cambiá un valor y embolsate el ahorro — exactamente la victoria sobre la que escribí cuando los labs empezaron a competir en precio. ¿Uno más inteligente para el 10% genuinamente difícil? La misma jugada. Dejás de mirar los leaderboards con temor y empezás a usarlos como un catálogo.

La apuesta real

Qué modelo gana junio es la variable que menos debería importarte y alrededor de la cual más deberías diseñar. No apuestes a un modelo — el modelo nunca fue el foso (moat) — apostá a poder cambiar de opinión barato. Los equipos que se vean inteligentes en julio no van a ser los que eligieron el modelo correcto hoy; van a ser los que pueden moverse a uno mejor en una tarde cuando la elección de hoy deje de ser la correcta.

Así que tratá este mes de cuatro modelos insignia como una prueba de estrés gratis de una sola pregunta: si el mejor modelo cambiara mañana, ¿cuánto te llevaría moverte? Si la respuesta es «una tarde y una corrida de evals», disfrutá el espectáculo — nada de esto te amenaza. Si la respuesta es «una reescritura y una plegaria», los modelos nunca fueron el problema. Tu arquitectura sí, y ningún lanzamiento de este mes lo va a arreglar.

Comentarios

Aún no hay comentarios

Inicia sesión para unirte a la conversación.

Sé el primero en compartir una idea.