Curso exprés · No. 28

Cuando un modelo no conoce tu dominio, hay tres formas de arreglarlo: decírselo en el prompt, entregarle los hechos en tiempo de ejecución (RAG) o reentrenar de verdad sus weights (fine-tuning). Resuelven problemas genuinamente distintos — y la mayoría agarra primero el más caro. Esto es lo que hace de verdad cada uno, la única distinción que decide entre ellos y cómo elegir lo más barato que funcione.

Solo lo esencial · Una imagen por idea · Ingeniería sobre magia

§ 01

Las tres técnicas existen para resolver un problema: un modelo es brillante en general pero ignorante de tus particularidades. Entender exactamente qué le falta es como eliges el arreglo correcto.

Su conocimiento está congelado y es general

Un graduado brillante que leyó una biblioteca enorme hace años — pero no los archivos de tu empresa, ni nada publicado desde el día en que se graduó.

Un modelo solo sabe lo que había en sus training data, congelado en una fecha de cutoff y sacado de la internet pública. Tiene un amplio conocimiento general y ninguna noción de tus datos privados, tu dominio específico ni nada ocurrido después del entrenamiento. Así que de fábrica no puede responder sobre tu producto, seguir el estilo de tu casa ni usar las cifras de la semana pasada. Todo en este curso es una forma de cerrar esa brecha entre el conocimiento general del modelo y tu mundo particular.

Tres cosas distintas que podrías necesitar

Una persona recién contratada podría necesitar un documento de orientación, un archivero que pueda consultar, o entrenamiento real que cambie cómo trabaja — tres brechas distintas, tres arreglos distintos.

La brecha viene en formas distintas, y no tienen el mismo arreglo. A veces necesitas que el modelo sepa unos hechos para esta tarea; a veces que recurra a un cuerpo de conocimiento grande y cambiante; a veces que se comporte distinto — un formato, tono o habilidad consistentes. Estos se corresponden con las tres técnicas: decírselo (prompting), darle una fuente de conocimiento (RAG) o reentrenarlo (fine-tuning). Nombrar cuál es tu brecha es toda la decisión.

Empareja la técnica con la brecha

No mandas a alguien a un año de entrenamiento cuando bastaría un memo de una página — emparejas el esfuerzo con lo que de verdad falta.

Las técnicas difieren enormemente en costo, velocidad y para qué sirven, así que agarrar la equivocada sale caro en ambos sentidos. El error más común es saltar directo al fine-tuning — la opción más pesada — cuando prompting o RAG resolverían el problema más rápido y más barato. La habilidad no es saber cómo hacer fine-tuning; es diagnosticar la brecha con la precisión suficiente para elegir la técnica más ligera que la cierre.

El conocimiento de un modelo está congelado y es general — no conoce tu mundo. Prompting, RAG y fine-tuning cierran cada uno una brecha distinta, así que diagnosticar la brecha es como eliges.

§ 02

La primera y más barata técnica es simplemente poner lo que el modelo necesita en el prompt. Es instantánea, sin entrenamiento, y mucho más capaz de lo que la gente supone — por eso es donde siempre empiezas.

Pon lo que necesita justo en el contexto

Poner al día a un suplente espabilado antes de una tarea: aquí está la situación, las reglas, un ejemplo de lo bueno — es capaz, solo necesitaba el contexto, y ahora puede hacerlo.

La forma más simple de darle a un modelo lo que le falta es ponerlo en el prompt — las instrucciones, los hechos relevantes, el formato que quieres, unos pocos ejemplos. El modelo usa esa información in-context de inmediato, sin entrenamiento. Como los modelos son fuertes siguiendo instrucciones y ejemplos claros, una cantidad sorprendente de «el modelo no puede hacer esto» es en realidad «no se lo dije con suficiente claridad». El prompting es lo primero que hay que agotar, no lo último.

Few-shot enseña comportamiento, al instante

Mostrar tres ejemplos terminados de exactamente la salida que quieres, y luego pedir un cuarto — el patrón se aprende en el acto, sin escolarización.

Puedes moldear no solo lo que el modelo sabe sino cómo se comporta, justo en el prompt, mostrando ejemplos — prompting few-shot. ¿Quieres un formato, tono o forma de manejar una tarea específicos? Incluye dos o tres ejemplos, y el modelo iguala el patrón. Esto significa que mucho de lo que la gente supone que requiere fine-tuning — un estilo consistente, una forma de salida concreta — a menudo se puede lograr con ejemplos en el contexto, gratis y al instante.

Sus límites: la ventana y la repetición

Una puesta al día sirve para una reunión, pero solo puedes entregar tantas páginas, y tienes que volver a entregarlas cada vez — bien para un memo, torpe para una enciclopedia.

El prompting tiene límites reales. Todo debe caber en la context window, así que no puedes pegar una base de conocimiento enorme. Y es por llamada: envías ese contexto cada vez, pagándolo en cada petición, y el modelo nunca lo retiene entre llamadas. Cuando el conocimiento es demasiado grande para la ventana, cambia constantemente, o estarías pegando el mismo material grande sin parar, el prompting por sí solo deja de bastar — y ahí es exactamente donde entra la siguiente técnica.

El prompting pone lo que el modelo necesita en el contexto — hechos, formato, ejemplos — al instante y sin entrenamiento. Es potente y barato, limitado solo por la ventana y por repetirlo en cada llamada.

§ 03

Cuando el conocimiento es demasiado grande o demasiado fresco para el prompt, no lo metes todo — recuperas la pieza relevante en el momento en que la necesitas. Eso es la generación aumentada por recuperación.

Recupera los hechos relevantes en tiempo de ejecución

Un examen a libro abierto: en vez de memorizar toda la biblioteca, buscas las pocas páginas relevantes en el momento de la pregunta y respondes desde ellas.

RAG (generación aumentada por recuperación) maneja el conocimiento demasiado grande para caber en un prompt recuperando solo la parte relevante bajo demanda. Al momento de la pregunta, busca en tus documentos, saca los fragmentos más relevantes y mete esos en el contexto para que el modelo responda desde ahí. Así el modelo trabaja desde tus datos reales y actuales sin haberlos memorizado nunca — le das la página correcta justo cuando la necesita. (El curso de RAG entra a fondo; esto es su lugar dentro del conjunto.)

Lo mejor para conocimiento grande, cambiante y privado

Una biblioteca de referencia que mantienes actualizada: no reimprimes el cerebro del bibliotecario cuando un hecho cambia — solo actualizas el estante, y la siguiente consulta está al día.

RAG brilla exactamente donde el prompting se atasca: una base de conocimiento demasiado grande para la ventana, hechos que cambian a menudo, o datos privados con los que el modelo nunca se entrenó. Actualiza un documento y la siguiente respuesta lo refleja al instante — sin reentrenar. Esto hace de RAG la forma estándar de anclar un modelo en tu información específica, actual y posiblemente confidencial. Cuando la brecha es «necesita saber cosas», sobre todo cosas que se mueven, RAG suele ser la respuesta.

RAG añade conocimiento, no comportamiento nuevo

Entregarle a alguien mejores libros de referencia lo deja mejor informado — pero no cambia su estilo de escritura ni le enseña una habilidad nueva. Hechos que entran, no hábitos.

Lo crucial de RAG: cambia lo que el modelo sabe para esta respuesta, no cómo se comporta de raíz. Las habilidades, el estilo y el razonamiento de fondo del modelo quedan intactos — solo le entregaste mejores hechos con los que trabajar. Así que RAG es la herramienta correcta para una brecha de conocimiento y la equivocada para una brecha de comportamiento. Si necesitas que el modelo responda consistentemente de cierta manera, recuperar más documentos no te llevará ahí — lo que apunta a la tercera técnica.

RAG recupera los hechos relevantes en tiempo de ejecución, anclando al modelo en conocimiento demasiado grande, demasiado fresco o demasiado privado para el prompt. Añade lo que el modelo sabe — no cómo se comporta.

§ 04

La técnica más pesada modifica de verdad el modelo mismo. Es la única que cambia el comportamiento arraigado del modelo — y la que la gente agarra demasiado pronto, por las razones equivocadas.

El fine-tuning reentrena el modelo con tus ejemplos

No poner al día a un trabajador para una tarea, sino mandarlo por un entrenamiento que cambia cómo trabaja por defecto — la nueva forma queda incorporada, no se le entrega cada vez.

El fine-tuning toma un modelo existente y lo entrena más sobre un conjunto de tus propios ejemplos, ajustando sus weights internos para que el nuevo comportamiento pase a ser parte del modelo mismo. A diferencia de prompting y RAG, que añaden información en tiempo de ejecución y dejan el modelo intacto, el fine-tuning de verdad cambia el modelo. El resultado es un modelo que se comporta a tu manera por defecto, sin necesitar las instrucciones o ejemplos en cada prompt — los aprendió.

Enseña comportamiento, formato y estilo

Un entrenamiento que convierte a un generalista en alguien que escribe de forma fiable con la voz de tu casa o maneja tu tarea específica igual cada vez — un hábito aprendido, no un recordatorio.

Para lo que el fine-tuning sirve de verdad es para el comportamiento: un tono o estilo de casa consistente, un formato de salida específico, una tarea especializada que el modelo hace una y otra vez, o igualar la forma en que tu dominio expresa las cosas. Cuando tienes muchos ejemplos de «un input así debería producir una salida asá», el fine-tuning puede incorporar ese patrón en profundidad y de forma fiable, más allá de lo que logran los ejemplos en un prompt. Moldea cómo responde el modelo, aprendido en sus weights.

El costo: datos, esfuerzo y mantenimiento

Mandar a alguien a un programa de entrenamiento real cuesta tiempo, dinero y un plan de estudios — y cuando el trabajo cambia, tienes que reentrenarlo de cero otra vez.

El fine-tuning es la opción cara. Necesita un dataset de ejemplos de calidad (a menudo muchos), un proceso de entrenamiento y experiencia — y, crucialmente, no es un costo de una sola vez: cuando las cosas cambian, reentrenas. LoRA y otros métodos «eficientes en parámetros» lo abaratan ajustando solo una parte pequeña del modelo en vez de todo, lo que ha bajado la barrera — pero sigue siendo mucho más pesado que prompting o RAG. Asumes el costo del fine-tuning solo cuando su beneficio específico lo vale.

El fine-tuning reentrena los weights del modelo para que el nuevo comportamiento quede incorporado — ideal para estilo, formato y tareas repetidas consistentes. Es la opción costosa: datos, entrenamiento y mantenimiento continuo, incluso con LoRA.

§ 05

Una distinción zanja casi toda la confusión entre fine-tuning y RAG, y evita el error caro más común de todos. Capta esto y la elección suele hacerse sola.

El fine-tuning enseña forma; RAG enseña hechos

Entrenas a una persona en cómo escribir un informe (una habilidad aprendida), pero le entregas los datos que va a poner en él (consultados cada vez) — la habilidad se enseña, los hechos se recuperan.

Aquí está la regla que lo corta limpio: el fine-tuning es para cómo responde el modelo; RAG es para lo que sabe. El fine-tuning enseña forma — estilo, tono, formato, la forma de una tarea — incorporándola en los weights. RAG aporta hechos — información actual, específica, privada — recuperándolos en tiempo de ejecución. Uno cambia el comportamiento; el otro cambia el conocimiento. Casi toda pregunta de «¿debería hacer fine-tuning o usar RAG?» se disuelve en cuanto te preguntas si la brecha es de forma o de hechos.

El error caro: fine-tuning para añadir conocimiento

Mandar a alguien a la escuela a memorizar una guía telefónica que cambia cada semana — para cuando la ha aprendido, ya está equivocada, y tendrás que reentrenar en cada actualización.

El error costoso más común es hacer fine-tuning para añadir hechos que el modelo debería saber. En su mayoría no funciona bien, es caro, y lo peor de todo: los hechos quedan congelados en el momento en que termina el entrenamiento — en cuanto tus datos cambian, el modelo afinado está desactualizado y debes reentrenar. Los hechos que cambian van en RAG, donde una actualización es instantánea. Hacer fine-tuning para inyectar conocimiento es hacer lo difícil y frágil cuando lo fácil y actual estaba ahí mismo.

Se combinan: fine-tuning para la forma, RAG para los hechos

Un especialista entrenado en cómo hacer el trabajo (con fine-tuning), que además consulta una referencia siempre al día para los detalles (RAG) — lo mejor de ambos, cada uno haciendo aquello en lo que es bueno.

No son rivales; los sistemas más fuertes a menudo usan ambos. Puedes hacer fine-tuning de un modelo para el comportamiento y el estilo de tu dominio, y usar RAG para alimentarlo con hechos actuales en tiempo de ejecución — la forma del fine-tuning, los hechos de la recuperación, cada uno manejando la brecha para la que de verdad sirve. Verlos como complementarios, no como competidores, es la marca de entender la distinción: no eliges una técnica, aplicas cada una a la parte del problema que le encaja.

El fine-tuning enseña forma — estilo, formato, comportamiento; RAG enseña hechos — conocimiento actual y específico. El clásico error costoso es hacer fine-tuning para añadir hechos, que se congelan en el momento en que termina el entrenamiento.

§ 06

Junta las tres y forman una escalera de costo y potencia crecientes. La disciplina es la misma que en todas partes en ingeniería: sube solo tan alto como el problema te obligue.

Empieza por abajo: prompting

Antes de reservar un curso de entrenamiento, pruebas solo explicar la tarea con claridad — la mayoría de las veces, eso era todo lo que hacía falta.

La escalera va de barato e instantáneo a caro y lento: prompting, luego RAG, luego fine-tuning. Empieza siempre por abajo. Prueba primero instrucciones claras y unos pocos ejemplos; una enorme proporción de problemas se resuelven ahí mismo, gratis, en minutos. Solo cuando el prompting de verdad no puede cerrar la brecha es cuando subes. Empezar por arriba — agarrar el fine-tuning primero — es el error caro que define al principiante con presupuesto.

Sube solo cuando el peldaño de abajo no alcanza

Pasas a una herramienta más grande solo cuando la más pequeña de verdad ha fallado en el trabajo — no porque la más grande suene más seria.

Sube a RAG cuando el conocimiento es demasiado grande, demasiado actual o demasiado privado para el prompt — una brecha de conocimiento clara que el prompting no puede llenar. Sube a fine-tuning cuando necesitas comportamiento consistente que el prompting y los ejemplos no logran de forma fiable, y tienes los datos y el presupuesto para enseñárselo. Cada peldaño se justifica solo por el fallo del de abajo. La pregunta en cada paso es: ¿de verdad la técnica más barata se quedó corta aquí, o solo estoy suponiendo que se quedaría?

La mayoría de los productos nunca necesitan el peldaño de arriba

La mayoría de los trabajos se hacen con una buena puesta al día y un libro de referencia — el reentrenamiento completo es la excepción, reservado para el caso raro que de verdad lo exige.

La realidad honesta: la gran mayoría de las aplicaciones de LLM se sirven bien con prompting y RAG, y nunca necesitan fine-tuning en absoluto. El fine-tuning es una herramienta real y potente para el caso específico de comportamiento arraigado a escala — pero es la excepción, no lo predeterminado. Tratarlo como un último recurso, al que se llega solo cuando los peldaños más ligeros han fallado de forma demostrable, te orientará bien mucho más a menudo que agarrarlo porque suena avanzado.

La escalera es prompting, luego RAG, luego fine-tuning — costo y potencia en aumento. Empieza por abajo y sube solo cuando el peldaño de abajo de verdad no alcanza. La mayoría de los productos nunca necesitan el de arriba.

§ 07

Elegir bien se reduce a diagnosticar la brecha con honestidad y medir si tu arreglo funcionó — la misma disciplina de ingeniería que gobierna todo lo demás con modelos.

Diagnostica la brecha antes de elegir la herramienta

Un buen médico diagnostica antes de recetar — no agarra la cirugía porque es dramática, primero averigua qué está mal de verdad.

Toda la decisión gira en torno a nombrar la brecha con precisión: ¿al modelo le faltan hechos (RAG), necesita una instrucción más clara (prompting) o necesita un comportamiento distinto incorporado (fine-tuning)? La mayoría de las malas elecciones vienen de saltarse este diagnóstico y lanzarse a una técnica. Pregunta qué falta de verdad, emparéjalo con la herramienta más ligera que encaje, y evitarás los desvíos caros — sobre todo el grande de hacer fine-tuning para hechos.

Mide si de verdad funcionó

No supones que el entrenamiento ayudó — pones a prueba al trabajador después y ves si la salida mejoró.

Sea cual sea la técnica que uses, verifícala con evals: ¿el cambio de verdad mejoró las salidas, en casos reales? Un mejor prompt, un pipeline de RAG, un fine-tune — cada uno es una hipótesis que confirmas midiendo, no sintiendo. Esto es doblemente importante para el fine-tuning, donde el costo es alto y un vago «parece mejor» no basta para justificarlo. La medición te mantiene honesto sobre si la técnica más pesada se ganó su lugar por encima de la más ligera.

Antes de agarrar una técnica

Cuál es la brecha — ¿hechos, instrucción más clara o comportamiento distinto? - ¿Probaste prompting — instrucciones claras y unos pocos ejemplos — primero? - ¿Es una brecha de conocimiento — hechos grandes, actuales o privados — que apunta a RAG? - ¿Es una brecha de comportamiento — forma, estilo, tarea repetida consistentes — que apunta a fine-tuning? - Para el fine-tuning, ¿tienes los datos de ejemplo y el presupuesto, incluido el mantenimiento continuo? - ¿Estás midiendo si la técnica elegida de verdad mejoró las salidas?

Las palabras que ahora dominas

training data / cutoff — lo que el modelo sabe, congelado en una fecha. - prompting / in-context / few-shot — decirle al modelo lo que necesita, justo en el prompt. - RAG — recuperar hechos relevantes en tiempo de ejecución para anclar la respuesta. - fine-tuning / weights / LoRA — reentrenar el modelo para que el comportamiento quede incorporado. - forma frente a hechos — el fine-tuning cambia cómo responde; RAG cambia lo que sabe. - la escalera de decisión — prompting, luego RAG, luego fine-tuning, por costo en aumento. - evals — medir si la técnica de verdad mejoró el resultado.

Señales de que eliges bien

Diagnosticas la brecha — hechos, instrucción o comportamiento — antes de elegir una técnica.
Empiezas con prompting y subes solo cuando de verdad se queda corto. - Usas RAG para conocimiento y fine-tuning para comportamiento, y nunca haces fine-tuning para añadir hechos. - Los combinas cuando ayuda — la forma del fine-tuning, los hechos de RAG. - Mides con evals, y tratas el fine-tuning como un último recurso justificado, no como lo predeterminado.

Diagnostica la brecha, luego sube la escalera: prompting para la instrucción, RAG para los hechos, fine-tuning para el comportamiento. Usa la técnica más ligera que funcione, combínalas cuando ayude, y mide que sirvió.