ARCHITECTURE · 15 de junio de 2026

El piloto salió barato. Producción no lo será.

Tu piloto de IA funcionó genial y costó casi nada. Esa cifra te engañó. Cuando los equipos llevan una función de IA del piloto a producción, los costes de infraestructura suelen salir entre tres y cinco veces por encima de la proyección original — y es una gran razón por la que el 95% de los pilotos de IA generativa nunca se convierten en algo que aparezca en el P&L. El piloto es barato porque es pequeño, vigilado y corre sobre los casos fáciles. Producción no es nada de eso. Aquí está dónde se esconde el 3 a 5 veces, y cómo ponerle precio antes de que te tienda una emboscada.

El piloto de IA va de maravilla. Funciona, la demo encanta, y la factura es tan pequeña que casi es un error de redondeo. Así que das luz verde a producción con esa cifra en la cabeza — y esa cifra es lo más engañoso de todo el proyecto. Cuando los equipos escalan de verdad una función de IA, los costes suelen salir entre tres y cinco veces por encima de la proyección original, y esa brecha es una razón de peso de que el 95% de los pilotos de IA generativa nunca produzcan un resultado financiero medible.

Esto no es mala suerte ni una estimación chapucera. El piloto es barato por razones estructurales, y cada una de ellas desaparece en el momento en que pasas a producción. Si no sabes de dónde sale ese 3 a 5 veces, parece que el proyecto se encareció. No se encareció. Solo dejó de esconder su coste real. Déjame mostrarte dónde vive.

Un piloto es barato porque es pequeño, vigilado y fácil

Tres cosas hacen que un piloto sea barato, y las tres son temporales. Es pequeño — un puñado de usuarios, un hilillo de peticiones, una factura de tokens que apenas notas. Está vigilado — hay una persona ahí mismo para cazar las salidas raras, así que todavía no necesitas las barreras, los reintentos y la monitorización que hacen falta para cazarlas automáticamente. Y corre sobre los casos fáciles — las entradas limpias, de camino feliz, con las que naturalmente pruebas primero.

Producción invierte las tres. Pequeño se convierte en miles de peticiones al día, y la factura de tokens escala con ello de forma lineal y para siempre. Vigilado se convierte en no vigilado, así que ahora pagas por la monitorización, la lógica de respaldo, el segundo modelo que revisa al primero. Y los casos fáciles se convierten en los reales — entradas sucias, largas, hostiles que necesitan ventanas de contexto más grandes, más reintentos y llamadas más caras para acertar. Nada de eso estaba en el piloto. Todo eso está en la factura.

Los multiplicadores que nadie mete en la estimación

El 3 a 5 veces no es una gran sorpresa. Es una pila de multiplicadores silenciosos, cada uno razonable, que se acumulan:

Reintentos y fallos. Las entradas reales fallan y se reintentan. Cada reintento es otra llamada pagada, y a escala la tasa de fallo nunca es cero.
Crecimiento del contexto. El prompt del camino feliz era corto. Las peticiones reales arrastran historial, documentos y contexto, y pagas por token por todo ello, cada vez.
La capa de revisión. Producción necesita cazar sus propios errores — un segundo modelo, una pasada de validación, una barrera. Eso puede duplicar las llamadas detrás de una sola acción del usuario.
Casos límite que necesitan el modelo caro. El 80% fácil corre sobre un modelo barato. El 20% difícil se desvía silenciosamente al caro, y es una porción mayor del tráfico real que del tráfico del piloto.

Cada uno de ellos es sensato por su cuenta. Apilados, así es como un piloto que costaba céntimos se convierte en un sistema de producción que cuesta dinero de verdad.

Cómo ponerle precio antes de que te tienda una emboscada

No puedes hacer que producción sea tan barata como el piloto, pero sí puedes dejar de que te sorprenda:

Estima el coste por petición sobre los casos difíciles, no los fáciles. Ponle precio a la petición sucia, larga y reintentada — así es como se ve producción en realidad.
Suma a tus cuentas las llamadas de revisión y monitorización. Si cazar errores duplica tus llamadas, mete el doble en la estimación ahora, no en la factura después.
Multiplica por un volumen realista, luego añade un margen. Toma tu coste honesto por petición, escálalo al tráfico real y asume que saldrá más alto que eso. Planificar para 3 a 5 veces es planificar para lo que suele pasar.

Una función de IA en producción puede valer perfectamente su coste. Pero solo si conocías el coste al entrar.

En resumen

El piloto barato es la mentira más cara en los proyectos de IA, porque fija una expectativa que producción no puede cumplir y hace que la cifra real parezca un fracaso en lugar de la verdad.

Un piloto es barato porque es pequeño, supervisado y probado sobre los casos fáciles — y producción no es nada de eso, que es de donde sale el 3 a 5 veces. Ponle precio al caso difícil, cuenta las llamadas ocultas y planifica el multiplicador por adelantado. A los equipos a los que les tienden una emboscada no son los que gastaron demasiado. Son los que se creyeron el piloto.

Comentarios

Aún no hay comentarios

Inicia sesión para unirte a la conversación.

Sé el primero en compartir una idea.