Curso exprés · No. 34
Durante años, los modelos solo manejaban texto. Ahora aceptan imágenes, audio, incluso vídeo: un modelo multimodal puede describir una foto, leer un gráfico, transcribir una reunión o responder preguntas sobre una captura de pantalla. La ingeniería que aprendiste para el texto sigue aplicándose, más nuevos poderes y nuevas trampas. Aprende qué desbloquea lo multimodal, cómo un modelo percibe más que palabras y dónde se equivoca.
Solo lo esencial · Una imagen por idea · Más que palabras
Lo primero que hay que captar es simplemente qué cambió: los modelos dejaron de estar limitados a leer y escribir palabras. Una vez que un modelo puede asimilar imágenes y sonido, se abre todo un nuevo abanico de problemas.
Una modality es un tipo de entrada o de salida
Una persona que sabe leer, pero también ver, escuchar y hablar: cada sentido es un canal distinto para asimilar el mundo, no un cerebro distinto.
Una modality es un tipo de dato: texto, imágenes, audio, vídeo. Un modelo que maneja más de uno es multimodal: puede tomar una imagen y texto juntos, o producir habla a partir de una descripción. Durante años, los modelos fueron solo de texto: leer palabras, escribir palabras. El cambio es que un solo modelo puede ahora percibir entre modalidades, como una persona usa varios sentidos, en lugar de estar sordo y ciego a todo salvo al texto.
El mismo modelo puede aceptar mixed input
Entregarle a alguien una foto y preguntar «¿qué tiene de malo esto?»: mira y responde con palabras. Una pregunta, dos tipos de entrada, una respuesta.
El poder de lo multimodal no es solo manejar imágenes en lugar de texto, sino manejarlas juntas. Puedes mostrarle al modelo una captura de pantalla y hacer una pregunta sobre ella, darle un gráfico y una petición escrita, enviar una foto con instrucciones. El modelo razona sobre todo ello a la vez. Esta combinación es lo que hace a lo multimodal genuinamente nuevo: la entrada ya no es un solo canal, así que tus prompts pueden mezclar palabras e imágenes como lo hace una conversación real.
Las habilidades de texto siguen aplicándose
Aprender a ver no te hace olvidar cómo leer: el nuevo sentido se suma a lo que ya podías hacer, no lo reemplaza.
Todo lo que aprendiste para el texto —prompting, contexto, structured output, grounding, evals— sigue aplicándose a lo multimodal. La imagen o el audio son solo otra parte de la entrada que ensamblas en el contexto; el modelo sigue produciendo una salida que tú restringes, validas y mides. Así que lo multimodal no es una disciplina aparte que reaprender desde cero; es la misma ingeniería con un tipo extra de entrada y de salida. Traslada tus habilidades de texto y añade encima los detalles propios de la nueva modalidad.
Una modality es un tipo de dato; un modelo multimodal maneja varios —imágenes y audio, no solo texto— y puede mezclarlos en una sola entrada. Todas tus habilidades de texto siguen aplicándose, con un nuevo sentido añadido.
Ayuda saber, a grandes rasgos, cómo un modelo asimila una imagen, porque desmitifica lo que lo multimodal puede y no puede hacer, y por qué a veces malinterpreta lo que tiene justo delante.
Una imagen se convierte en el mismo tipo de representación que el texto
Un traductor que convierte tanto las palabras habladas como la lengua de signos en las mismas notas escritas: entradas distintas, transformadas en una forma común con la que trabaja el cerebro.
Por dentro, un modelo multimodal convierte una imagen en el mismo tipo de representación interna que usa para el texto, transformando píxeles en una secuencia sobre la que el modelo puede razonar junto a las palabras. La imagen y el texto acaban en una forma compartida, y por eso exactamente el modelo puede responder una pregunta de texto sobre una imagen: ambos han sido traducidos a un único lenguaje común dentro del modelo. No necesitas los detalles, pero saber que imagen y texto se vuelven comparables explica cómo el modelo los relaciona.
Ver el texto en una imagen no es lo mismo que entender la escena
Puedes leer la etiqueta de un tarro y, por separado, entender para qué sirve el tarro: dos actos distintos, aunque ambos impliquen mirar el mismo objeto.
Se confunden dos capacidades distintas. Leer el texto dentro de una imagen —un cartel, un documento, una captura de pantalla— es más o menos lo que antes requería un «OCR» (reconocimiento óptico de caracteres) aparte; un modelo multimodal puede hacerlo directamente. Entender la escena —qué ocurre, qué objetos hay, qué significa un gráfico— es distinto. Un buen modelo multimodal hace ambas cosas, pero conviene distinguir «extrae las palabras de esta imagen» de «interpreta lo que muestra esta imagen», porque son peticiones distintas con fiabilidad distinta.
La percepción tiene límites
Hasta unos ojos agudos pierden la letra pequeña, juzgan mal una foto borrosa o malinterpretan un diagrama recargado: ver es poderoso, pero no infalible.
La visión de un modelo es impresionante pero imperfecta. Puede malinterpretar texto pequeño o de baja calidad, perder detalles en una imagen recargada, contar mal objetos o describir mal con confianza algo sutil. La percepción es genuinamente útil, pero no es un instrumento de precisión: trata lo que el modelo «ve» como una interpretación sólida, no como una lectura garantizada. Esto importa porque es tentador suponer que, como el modelo puede ver, ve correctamente; igual que sus respuestas de texto, las visuales pueden estar equivocadas con confianza.
Un modelo convierte una imagen en la misma forma interna que el texto, así que puede razonar sobre ambos juntos. Leer texto en una imagen difiere de entender la escena, y la percepción, aunque poderosa, puede estar equivocada con confianza.
La razón por la que lo multimodal importa es el abanico de problemas reales que vuelve resolubles. Ver los usos concretos muestra por qué es más que una novedad.
Entender documentos y capturas de pantalla
Un asistente que puede echar un vistazo a un formulario en papel o a una pantalla y extraer justo lo que necesitas, en vez de que lo teclees todo a mano.
Un uso práctico enorme es leer documentos, formularios y capturas de pantalla: extraer datos de una factura, entender la maquetación de un PDF, responder preguntas sobre lo que hay en una pantalla. Antes de lo multimodal, esto requería herramientas frágiles y especializadas; ahora un modelo puede mirar el documento y trabajar con él directamente, estructura incluida. Donde sea que la información viva en un formato visual en lugar de texto limpio, lo multimodal convierte «un humano tiene que leer y reteclear esto» en algo que un modelo puede manejar.
Analizar imágenes y gráficos
Mostrarle a un experto una gráfica y preguntar qué significa: lee lo visual y explica la tendencia, sin necesidad de una hoja de cálculo.
Los modelos multimodales pueden analizar contenido visual: describir una foto, leer e interpretar un gráfico o diagrama, detectar qué hay en una imagen, comparar dos imágenes. Puedes entregarle al modelo un gráfico de ventas y pedir la tendencia, una foto de producto y preguntar qué tiene de malo, un diagrama y pedirle que lo explique. Esto convierte las imágenes, de cosas que solo los humanos podían interpretar, en entradas sobre las que tu software puede razonar, abriendo cualquier flujo de trabajo donde la información significativa es visual.
Accesibilidad y alcance
Un guía que describe la escena en voz alta para alguien que no puede verla: convierte un mundo visual en palabras que cualquiera puede usar.
Lo multimodal también amplía a quién y a qué puede servir tu producto: describir imágenes para usuarios con discapacidad visual, dejar que la gente apunte una cámara en lugar de teclear, trabajar con contenido que nunca estuvo en forma de texto. La misma capacidad que lee un gráfico puede narrar una foto o subtitular un vídeo. Más allá de cualquier función concreta, lo multimodal expande la superficie de lo que un producto de IA puede aceptar como entrada: de «escribe tu pregunta» a «muéstrame, dime o reprodúceme lo que quieres decir».
Lo multimodal desbloquea leer documentos y capturas de pantalla, analizar imágenes y gráficos, y ampliar el alcance a través de la accesibilidad, convirtiendo la información visual y de audio en algo sobre lo que el software puede razonar.
Construir con lo multimodal es en su mayor parte la ingeniería que ya conoces, con imágenes o audio añadidos a la entrada. Las disciplinas familiares se trasladan directamente.
Envía la imagen junto al texto
Incluir una foto con tu pregunta escrita en el mismo mensaje: quien lo recibe ve ambas cosas y responde todo de una vez.
En la práctica, construyes una petición multimodal muy parecido a una de texto: ensamblas el contexto, pero ahora puede incluir una imagen (o audio) junto a tus instrucciones de texto. «Aquí tienes una captura de pantalla, y esto es lo que quiero saber sobre ella» llega al modelo como una sola entrada combinada. Esto es simplemente context engineering con una entrada más rica: la imagen es una cosa más que pones en la ventana, deliberadamente, junto a las palabras. La mentalidad de ensamblaje que ya tienes se aplica directamente.
Sigue pidiendo structured output
Alguien que rellena formularios y, mirando un recibo desordenado, escribe el total, la fecha y el comercio en casillas claras y etiquetadas: entra el caos, salen datos limpios.
Cuando usas lo multimodal para extraer información —sacar campos de un documento, clasificar una imagen, leer un gráfico— sigues queriendo structured output: pídele al modelo que devuelva datos limpios, con forma de esquema, que tu código pueda usar, no prosa. Un modelo multimodal que lee un recibo debería entregarte {total, fecha, comercio}, no un párrafo. La misma disciplina de structured output que convierte un modelo de texto en un componente fiable hace lo mismo con un modelo de visión. La modalidad es nueva; el puente hacia tu código no lo es.
Valida y fundamenta, como siempre
Compruebas dos veces lo que alguien te reporta tras un vistazo rápido, sobre todo los detalles importantes: una segunda mirada a lo que cuenta.
Como la percepción del modelo puede estar equivocada, aplicas la misma disciplina de fiabilidad: valida los datos extraídos, fundamenta las respuestas en lo que es realmente verificable, y mantén a un humano en las lecturas de alto riesgo. Un modelo que malinterpreta un número de una factura es la versión visual de una alucinación, así que tratas su salida visual como no fiable hasta comprobarla, exactamente como harías con su texto. La lección de todos los demás cursos se sostiene: el modelo es un componente falible, y una nueva modalidad no cambia eso.
Construir multimodal es context engineering con una entrada más rica: envía la imagen junto al texto, sigue pidiendo structured output, y valida y fundamenta el resultado; el modelo es un componente falible, modalidad aparte.
Hasta ahora hemos hablado de modelos que asimilan imágenes y audio. La otra dirección —modelos que los producen— es un área amplia por sí sola, que vale la pena nombrar para que sepas dónde encaja.
Los modelos también pueden crear imágenes y audio
Un artista que pinta lo que describes, o un actor de voz que dice tu guion: la generación es la imagen especular de la percepción.
Igual que los modelos pueden asimilar imágenes y sonido, otros modelos los generan: los modelos text-to-image pintan una imagen a partir de una descripción, text-to-speech convierte palabras en una voz hablada, y hay modelos para música, vídeo y más. La generación es la otra cara de la comprensión: salida como otra modalidad en lugar de entrada. Es un campo vastísimo por sí solo, pero el punto clave es que «multimodal» abarca ambas direcciones: un modelo puede percibir otras modalidades, y un modelo puede producirlas.
La misma postura de ingeniería se aplica
Diriges a un artista con un encargo claro y luego revisas el resultado antes de usarlo: el mismo bucle, sea lo que sea que esté produciendo.
Construir con modalidades generativas sigue la misma postura que todo lo demás: una instrucción clara (el prompt), una salida que tratas como un borrador a revisar, y un humano al mando de su uso. Una imagen o una voz generadas son el intento confiado del modelo, a comprobar y editar, no a publicar a ciegas: la disciplina de diseño de producto se aplica tanto si la salida es texto como si es una imagen. Así que no necesitas un manual enteramente nuevo para la generación; la misma postura de «componente falible, tú mantienes el control» se traslada.
Saber que existe; recurrir a ello deliberadamente
No encargas una pintura a medida para un trabajo que necesita una frase: usas el medio que la tarea realmente pide.
Las modalidades generativas son poderosas para el trabajo adecuado —ilustraciones, habla sintetizada para un producto de voz, vídeo— pero son una elección deliberada, no algo por defecto que esparcir por todas partes. Recurre a la generación de imagen o audio cuando la salida realmente necesite estar en esa modalidad, y quédate con el texto cuando el texto haga el trabajo. Saber que toda esta capacidad existe, y dónde encaja, basta por ahora: el punto es que lo multimodal es una vía de doble sentido, percibir y producir entre sentidos.
Lo multimodal va en ambos sentidos: los modelos también generan imágenes, habla y más. La misma postura de ingeniería se aplica —un encargo claro, un borrador revisado, un humano al mando— y recurres a ello solo cuando la salida necesita de verdad esa modalidad.
Lo multimodal añade nuevos modos de fallo encima de los familiares. Unas cuantas trampas concretas atrapan a los equipos que tratan las imágenes como si fueran tan seguras y baratas como el texto.
Las imágenes pueden llevar ataques ocultos
Una fotografía con instrucciones escritas dentro que el ojo apenas nota pero la máquina lee a la perfección: un mensaje colado ante ti a plena vista.
Un modelo multimodal lee todo en una imagen, incluido el texto que un humano podría pasar por alto. Eso convierte a las imágenes en un canal para el prompt injection: un atacante puede esconder instrucciones en una imagen —texto tenue, incrustado en los píxeles— que el modelo sigue diligentemente. Esta es la versión visual del problema de inyección del curso de seguridad, y es más desagradable porque no puedes ver el ataque con facilidad. Trata cualquier imagen que el modelo ingiera como entrada no fiable que podría llevar instrucciones, no solo píxeles inocentes.
Las imágenes cuestan mucho más que el texto
Enviar una fotografía en lugar de una frase: mucho más que transmitir y procesar, y la factura lo refleja.
Una imagen vale mucho más que mil palabras para el contador: procesar una consume muchos más tokens que un prompt de texto corto, así que las llamadas multimodales pueden ser sustancialmente más caras. Una función que envía imágenes de alta resolución en cada petición puede disparar una factura sorprendente. La disciplina de model-economics se aplica con fuerza extra aquí: sé deliberado con el tamaño de la imagen y la frecuencia con que envías una, porque el coste de «simplemente incluye la imagen» es mucho mayor que incluir una línea de texto.
La malinterpretación confiada es el fallo silencioso
Alguien que echa un vistazo a un cartel borroso y, con confianza, te dice el número equivocado: rápido, seguro y errado.
El familiar problema de la alucinación toma forma visual: un modelo puede malinterpretar con confianza una cifra, contar mal elementos o describir algo que no está en la imagen, y sonar tan seguro como cuando acierta. Como la entrada es visual, estos errores pueden ser más difíciles de pillar que un desliz textual. Así que para cualquier cosa donde una mala lectura importe —un número de un documento, una imagen médica, un control de seguridad— verificas, mantienes a un humano en el bucle, y nunca supones que «puede verlo» significa «lo leyó bien». La confianza del modelo no es más fiable con imágenes que con texto.
Las nuevas trampas de lo multimodal: las imágenes pueden colar prompt injections, cuestan muchos más tokens que el texto, y el modelo puede malinterpretarlas con tanta confianza como alucina en texto. Trata las imágenes como no fiables, caras y leídas de forma falible.
Usar bien lo multimodal es en su mayor parte aplicar todo lo que ya sabes a una entrada más rica, mientras respetas los costes y riesgos específicos de la nueva modalidad.
Recurre a lo multimodal cuando la información es visual
Traes la cámara cuando el problema es algo que mirar, y te quedas tecleando cuando es algo que decir: emparejar el canal con la tarea.
La decisión es sencilla: usa lo multimodal cuando la información significativa viva de verdad en una imagen o audio —un documento que leer, una escena que interpretar, habla que entender— en lugar de forzarla a texto primero o evitarla cuando ayudaría. Pero no recurras a ello por reflejo donde el texto es más limpio, rápido y barato. La habilidad está en reconocer cuándo un problema es de verdad visual o auditivo, y dejar que el modelo lo perciba directamente, en vez de ignorar esa capacidad o abusar de ella.
Traslada cada disciplina, más la propia de la modalidad
Un piloto habilitado para una aeronave nueva trae todas sus habilidades existentes y añade los detalles del nuevo avión: no empieza de cero, sino que extiende.
Lo multimodal no es razón para olvidar lo que aprendiste. Ensambla la imagen en el contexto deliberadamente, pide structured output, valida y fundamenta el resultado, vigila el coste, y trata las imágenes como no fiables. Luego añade los detalles de la modalidad: visual prompt injection, mayor coste de tokens, límites de percepción. Todo lo de los cursos de texto sigue gobernando; lo multimodal solo lo extiende con un nuevo tipo de entrada y su propio puñado de trampas. Construye sobre lo que sabes, y aprende solo los bordes nuevos.
- ¿La información es de verdad visual o audio —o estoy usando lo multimodal donde el texto es más limpio? - ¿Estoy ensamblando la imagen en el contexto deliberadamente, como cualquier otra entrada? - ¿Estoy pidiendo structured output al extraer datos de una imagen? - ¿Podría la imagen llevar una inyección oculta —la estoy tratando como no fiable? - ¿He contemplado el coste de tokens mucho mayor de las imágenes? - ¿Estoy validando la percepción y manteniendo a un humano en las lecturas de alto riesgo?
- modality / multimodal — un tipo de dato; un modelo que maneja más de uno. - mixed input — combinar imagen (o audio) y texto en un solo prompt. - OCR / comprensión de escena — leer texto en una imagen frente a interpretar lo que muestra. - límites de percepción — el modelo puede malinterpretar o describir mal lo que ve, con confianza. - generation entre modalidades — text-to-image, text-to-speech; producir otras modalidades. - visual prompt injection — instrucciones ocultas en una imagen que el modelo sigue. - coste de tokens de imagen — las imágenes consumen muchos más tokens que el texto.
- Recurres a ello cuando la información es de verdad visual o audio, no por reflejo. - Ensamblas la imagen en el contexto y pides structured output al extraer datos. - Tratas las imágenes como no fiables, alerta a la visual injection. - Contemplas el mayor coste y los límites de percepción. - Validas y mantienes a un humano en las lecturas donde una mala lectura importaría.
Lo multimodal extiende tu ingeniería de texto a imágenes y audio: recurre a ello cuando la información es visual, traslada cada disciplina —contexto, structured output, validación, coste— y respeta las nuevas trampas de inyección, coste y malinterpretación confiada.