Curso exprés · No. 10

Un agente es un modelo de lenguaje puesto en un bucle: razona, actúa, observa, repite, hasta cumplir un objetivo. Ese bucle es asombroso y, por sí solo, funciona apenas la mitad de las veces. La destreza no está en un modelo más listo. Está en diseñar la cadena —los pasos, el contexto, las herramientas, los límites— para que el bucle sea algo en lo que puedas confiar.

Solo lo esencial · Una imagen por idea · Fiabilidad sobre magia

§ 01

Antes de construir uno, ten clara la definición exacta, porque un agente es algo concreto y acotado, y la mayoría de los problemas vienen de recurrir a él cuando no lo necesitabas.

Un modelo en un bucle, no una sola respuesta

Una persona arreglando una fuga: prueba algo, mira qué pasó, ajusta, vuelve a intentarlo; no un movimiento perfecto, sino un ciclo de acción y retroalimentación hasta que está resuelto.

Una llamada simple a un LLM toma una entrada y devuelve texto, una vez. Un agente envuelve el modelo en un bucle: razona sobre el objetivo, ejecuta una acción (llama a una herramienta), observa el resultado y vuelve a razonar, decidiendo el modelo cada paso siguiente. Ese bucle es lo que le permite afrontar tareas abiertas que ningún prompt aislado podría terminar, como «investiga este error y propón una solución».

Cuatro partes: modelo, herramientas, memoria, bucle

Un manitas es más que un cerebro: tiene herramientas en la furgoneta, un cuaderno de lo que ha hecho y la costumbre de trabajar el encargo paso a paso.

Un agente son cuatro cosas juntas: un modelo para razonar, herramientas para actuar sobre el mundo, memoria para arrastrar el estado entre pasos y un bucle que lo impulsa hasta cumplir el objetivo o hasta que un límite lo detiene. Quítale el bucle y tienes un chatbot; quítale las herramientas y solo puede hablar. El poder —y el riesgo— vive en la combinación.

La autonomía es todo el sentido, y todo el peligro

La diferencia entre un asistente que pregunta antes de cada movimiento y uno al que le das un objetivo y te marchas. El segundo es mucho más útil y mucho más fácil de lamentar.

Lo que hace valioso a un agente es que decide por sí mismo cómo alcanzar un objetivo, a lo largo de muchos pasos, sin ti en el bucle cada vez. Esa misma autonomía es justo lo que lo vuelve arriesgado: puede tomar un mal desvío, actuar sobre una suposición errónea y seguir adelante. Todo lo demás en este curso trata de obtener el valor de la autonomía sin pagar el precio completo del peligro.

La mayoría de las tareas no necesitan uno

No contratas a un jefe de obra para colgar un cuadro. Un destornillador lo hace más rápido, más barato y sin nada que pueda salir mal.

Un agente es la herramienta más pesada de la caja. Un solo prompt, una salida estructurada o una secuencia fija de llamadas son más baratos, más rápidos y mucho más predecibles. Recurre a un agente solo cuando la tarea realmente necesite muchos pasos adaptativos cuyo camino no puedes guionizar de antemano. Si puedes escribir los pasos, escribe los pasos; no hagas que un bucle los adivine.

Un agente es un modelo en un bucle con herramientas y memoria. El bucle es el poder, la autonomía es el riesgo, y la mayoría de las tareas no necesitan ninguno de los dos.

§ 02

Este es el dato que debería moldearlo todo: un agente de producción típico tiene éxito apenas algo más de la mitad de las veces. Entiende por qué y entenderás qué estás construyendo en realidad.

La demo funciona; el trabajo es todo lo demás

Un coche que arranca a la perfección en el concesionario no te dice nada sobre si sobrevive a un invierno de conducción real. El concesionario es la parte fácil.

En un estudio de 2026 sobre miles de agentes en producción, la tasa de éxito agregada fue de cerca del 57 %, y las puntuaciones en benchmarks salían aproximadamente un tercio más altas que los resultados del mundo real. La demo recorre el camino feliz: entrada limpia, una tarea para la que fue moldeada. La producción es todo lo que la demo filtró. La demo es gratis; la fiabilidad es el trabajo entero.

Las cadenas multiplican, así que los errores pequeños se acumulan

Una carrera de relevos donde cada corredor es fiable el 97 % de las veces, pero con veinte entregas, el testigo cae al suelo más a menudo que no.

Los agentes trabajan en cadenas largas; una tarea real puede tener veinte pasos dependientes. La fiabilidad se multiplica a lo largo de una cadena: veinte pasos al 97 % cada uno te dejan cerca del 55 %. No hace falta ni un solo error «tonto»; la pura aritmética te arrastra a una cara o cruz. La primera palanca sobre la fiabilidad es acortar la cadena.

Los peores errores se esconden tras una respuesta impecable

Un informe bellamente formateado y rotundamente equivocado: cada encabezado en su sitio, una cifra clave sutilmente incorrecta tres páginas atrás.

En una tarea de varios pasos, un error intermedio puede pasar una verificación de la salida final mientras corrompe el resultado: un agente de investigación recupera la fuente correcta, atribuye mal un dato en el paso tres y escribe un resumen impecable que está equivocado. La respuesta final parecía bien; el medio estaba roto. Este es el modo de fallo que menos detectarás y que más caro pagarás.

La fiabilidad se diseña, no se prompea

Un puente no aguanta porque el acero sea ingenioso. Aguanta porque alguien diseñó las cargas, las juntas y los márgenes.

El 57 % no se arregla con un prompt mejor ni con un modelo más listo. Se diseña: menos pasos, el contexto correcto en cada uno, herramientas acotadas, verificaciones sobre los resultados intermedios y límites a lo que un mal desvío puede causar. El modelo es la materia prima; la fiabilidad es lo que construyes alrededor. Ese trabajo es el resto de este curso.

Un agente típico funciona alrededor de la mitad de las veces. Ese número no es un problema del modelo: es un problema de ingeniería, y te toca a ti resolverlo.

§ 03

La memoria de trabajo de un agente es solo el texto de la ventana, y a lo largo de una tarea larga esa ventana se llena de ruido. Gestionarla —no agrandarla— es lo que mantiene coherente a un agente.

La ventana es la única memoria de trabajo

Un investigador brillante que cada mañana lo olvida todo y solo puede actuar sobre las notas clavadas en el tablón que tiene delante.

Entre pasos, el modelo no recuerda nada salvo lo que hay en la ventana de contexto ahora mismo. El objetivo en curso, lo que se ha intentado, la salida de la última herramienta: si no está en la ventana, no existe. Así que la competencia de un agente en el paso diez la decide lo que elegiste mantener frente a él, no lo listo que sea el modelo.

La deriva es lo que de verdad mata las tareas largas

Un juego del teléfono escacharrado por una fila larga: al final, el mensaje ha mutado en silencio y todos repiten con seguridad algo ligeramente equivocado.

El fallo dominante en los agentes de larga duración no es un modelo tonto: es la deriva del contexto. A lo largo de muchos pasos, la ventana acumula datos caducados, razonamientos a medias y contradicciones, y el objetivo original se va escurriendo del foco. Una ventana más grande lo empeora, no lo mejora: le da más espacio a la deriva. La solución es higiene, no capacidad.

Cura y comprime sobre la marcha

Un buen editor no añade páginas: recorta. En cada paso te entrega la única página que importa ahora, no el montón creciente de todo lo anterior.

Los agentes fiables gestionan la ventana de forma activa: conservan solo lo que este paso necesita, resumen los pasos terminados en un breve estado en curso en lugar de arrastrar la transcripción completa, y reanclan el objetivo en cada turno. El modelo carga con la conclusión, no con el historial en bruto. La relevancia le gana a la exhaustividad, en cada paso.

La memoria vive fuera de la ventana

Un proyecto largo necesita un archivador, no un escritorio más grande: guardas lo que importa en otro sitio y recuperas solo la carpeta que necesitas ahora mismo.

Como la ventana es finita, la memoria duradera vive fuera de ella: notas, resúmenes e historial recuperable en un almacén, que se traen de vuelta cuando son relevantes (la misma idea de recuperación que RAG). Esto es lo que permite a un agente trabajar en una tarea demasiado grande para sostenerla de golpe, y lo que evita que olvide el principio al llegar al final.

Un agente es tan coherente como su ventana. No gana la ventana de contexto más grande, sino la mejor gestionada.

§ 04

Las herramientas son cómo un agente alcanza más allá del texto para hacer cosas de verdad. También son donde le salen manos, que es justo por lo que hay que acotarlas, describirlas y confiar en ellas con cuidado.

Tool use: el modelo pide, tu código actúa

Un asistente listo que no puede abrir el archivador por sí mismo, pero puede decirte con precisión qué cajón y qué archivo sacar, y leer lo que le traes.

Con tool use, describes funciones que el modelo puede solicitar —search_orders, send_email, run_query— y, cuando quiere una, devuelve una llamada estructurada, tu código la ejecuta y le entregas el resultado de vuelta. El modelo decide qué; tu código controla hacerlo. Así es como un LLM alcanza, más allá de las palabras, tus sistemas y el mundo.

La descripción de la herramienta es una frontera de confianza

Un recién contratado que sigue la etiqueta de cada caja sin cuestionarla, así que quien escribe las etiquetas controla, en la práctica, lo que hace.

El modelo decide qué herramienta llamar en gran medida a partir de la descripción de la herramienta, así que una descripción engañosa o maliciosa puede dirigirlo. Trata el conjunto de herramientas y sus descripciones como parte de tu superficie de seguridad, no como una comodidad. Un agente confía en lo que sus herramientas le dicen; asegúrate de que esa confianza esté ganada.

Mínimo privilegio: entrega lo mínimo

Le das a quien cuida la casa una llave de la puerta principal, no de la caja fuerte, el coche y la cuenta bancaria. Acceso acotado al encargo.

Dale a un agente las herramientas más estrechas que hagan la tarea. Un agente de investigación que solo necesita leer no debería tener enviar, pagar ni borrar. Las herramientas acotadas reducen el radio de impacto cuando el bucle toma un mal desvío, y lo hará. Una capacidad que nunca otorgaste no se puede usar mal, ni por un error ni por un atacante.

MCP y la fontanería de debajo

Tubería nueva tendida deprisa por toda la casa, y a algunas de las válvulas nunca se les puso un candado.

Los agentes alcanzan las herramientas a través de conectores, cada vez más el Model Context Protocol (MCP). Estandariza cómo un agente consigue manos, lo cual es potente y ahora una superficie de ataque real: una buena parte de los servidores MCP remotos se ha publicado sin ninguna autenticación. Si un conector expone acciones, necesita autenticación, acotamiento y un inventario; trátalo como la puerta que es.

Las herramientas le dan al agente manos de verdad. Acótalas a la tarea, desconfía de sus descripciones y cierra la fontanería: capacidad sin límites es un pasivo.

§ 05

El instinto es construir un único agente ingenioso que lo haga todo. El patrón fiable es el contrario: descompón el trabajo y deja que la estructura más simple que encaje en cada pieza haga el trabajo.

Un agente que lo hace todo no hace nada bien

Un único trabajador al que le dicen que sea el arquitecto, el fontanero, el electricista y el inspector, frente a una pequeña cuadrilla de especialistas que cada uno hace una cosa como es debido.

Un agente desparramado con veinte herramientas y un mandato vago tiene demasiadas formas de salir mal en cada paso. Un agente estrecho con un trabajo claro y unas pocas herramientas es más fiable, más fácil de probar y más fácil de depurar. Descompón el trabajo en piezas enfocadas: la profundidad en un trabajo le gana a la amplitud en diez.

Planifica primero, luego ejecuta

Un buen jefe de obra dibuja el plano antes de que nadie levante un martillo, y un aprendiz barato puede dar la mayoría de los martillazos una vez que el plan está claro.

Un patrón fuerte es plan-and-execute: un modelo capaz descompone el objetivo en pasos concretos y luego llamadas más baratas y estrechas los llevan a cabo. Esto acorta la cadena de razonamiento, hace inspeccionables las intenciones del agente antes de que actúe y reduce el coste: un modelo fuerte planifica, modelos pequeños ejecutan.

La orquestación es la arquitectura de verdad

Una orquesta no es un montón de solistas brillantes: es el director y la partitura decidiendo quién toca y cuándo. La coordinación es la música.

En cuanto tienes varios agentes o pasos, el valor se mueve a la orquestación: enrutar cada subtarea al gestor correcto, pasar contexto limpio entre ellos y manejar los errores cuando uno falla. El modelo se lleva la atención, pero la capa de coordinación —quién corre cuándo, con qué contexto— es donde un sistema de varios pasos realmente triunfa o se desmorona.

Una cadena fija le gana a un bucle cuando el camino se conoce

En una ruta que conduces cada día, no la replanificas cada mañana: sigues el camino conocido. Solo improvisas cuando la carretera está realmente cortada.

Si los pasos son predecibles, cabléalos como una cadena fija —llama a A, luego a B, luego a C—, no como un agente que vuelve a decidir lo obvio cada vez. Reserva el bucle adaptativo para las partes genuinamente abiertas. Los sistemas más fiables son, en su mayoría, una tubería fija con una pequeña isla de agencia donde de verdad hace falta.

No construyas un agente que lo haga todo. Descompón el trabajo, fija las partes predecibles y mantén el bucle pequeño, allí donde se gane su sitio.

§ 06

Un bucle autónomo acabará haciendo algo que no pretendías. El control no consiste en evitar cada mal desvío, sino en asegurar que un mal desvío no pueda causar daño real.

Acota el bucle: pasos, tiempo, coste

Un taxímetro con un techo firme: en un límite fijado, el viaje se detiene, así que un mal desvío no puede disparar una tarifa ilimitada.

La primera correa son límites firmes: un número máximo de pasos, un presupuesto de tiempo, un tope de gasto. Sin ellos, un agente puede dar vueltas para siempre, repetirse o quemar en silencio una fortuna persiguiendo un objetivo que no puede alcanzar. Los límites no lo hacen listo: hacen que sus fallos sean acotados y superables.

Una compuerta humana sobre lo irreversible

Un banco deja que un empleado consulte cualquier cosa, pero una transferencia grande necesita una segunda persona que firme. Leer es gratis; las consecuencias llevan un punto de control.

Cualquier cosa que el agente no pueda deshacer —enviar, pagar, borrar, publicar, desplegar código— lleva una aprobación humana o una validación firme en el camino. La instrucción inyectada o la mala decisión pueden proponer la acción, pero no completarla por sí solas. Pon el punto de control en la consecuencia, no al final del todo.

De aprobar cada paso a vigilar los señalados

Un jefe que da el visto bueno a cada correo nunca escala; el que fija una política clara y solo interviene en las excepciones, sí.

No tienes que elegir entre sellar cada paso a ciegas y la autonomía ciega. El patrón maduro es human-on-the-loop: el agente corre, tú fijas la política y vigilas, y solo escala hacia ti los momentos inciertos o arriesgados. A medida que crece la confianza, apruebas menos y monitorizas más, pero nunca dejas de vigilar.

Registra todo, porque tendrás que explicarlo

Una caja negra graba el viaje entero, no por los vuelos que van bien, sino por aquel en el que necesitas saber exactamente qué pasó y por qué.

Un agente toma decisiones que no viste. Así que regístralas: cada paso, llamada a herramienta, entrada y salida, guardado como un registro de auditoría. Cuando algo salga mal —y con autonomía, algo saldrá mal—, el registro es la diferencia entre saber qué pasó y adivinarlo. También es, cada vez más, lo que un regulador o un cliente pedirá ver.

No puedes impedir que un bucle autónomo se equivoque alguna vez. Puedes acotarlo, poner compuerta a lo irreversible, vigilarlo y registrarlo, para que equivocarse sea superable.

§ 07

La distancia entre una demo y un producto es la medición. No puedes confiar en un agente que no has probado a nivel de paso, y no puedes mejorar uno que ajustas a ojo.

Evalúa los pasos, no solo la respuesta

Calificar un examen de matemáticas solo por el número final aprueba al alumno que llegó a la respuesta correcta mediante dos errores que se cancelan, y no aprendes nada de lo que de verdad sabe.

Para los agentes, una verificación de la salida final no basta: deja pasar el medio roto. Las evaluaciones a nivel de paso califican el razonamiento intermedio, las llamadas a herramientas y las recuperaciones: ¿eligió la herramienta correcta, pasó los argumentos correctos, usó los datos correctos? Mides la trayectoria, no solo el destino. (El curso de Evaluaciones profundiza en esto.)

Sube la escalera solo hasta donde debas

No reservas un camión de mudanzas para cruzar una caja de un lado a otro de la habitación. Escalas la maquinaria al encargo, no por encima de él.

Hay una escalera: un solo prompt, luego salida estructurada, luego RAG para los datos, luego herramientas, luego un bucle de agente completo. Cada peldaño añade poder, coste y nuevas formas de fallar. Empieza por abajo y sube solo cuando el problema te obligue. La mayoría de las funciones nunca necesitan el peldaño más alto, y un agente donde bastaría una cadena es el sobredimensionamiento más común que hay.

El agente es un componente, no la arquitectura

Un coche tiene un motor potente, pero va detrás de un cortafuegos, alimentado con combustible limpio, envuelto en frenos. El motor no es el coche.

Pon el agente detrás de una interfaz, con validación de lo que entra y lo que sale, y la libertad de cambiar de modelo o reestructurar el bucle. El agente es una parte potente y poco fiable de tu sistema, no su cimiento. Construye el sistema de modo que pudieras reemplazar el agente sin derribarlo todo.

Antes de poner en producción un agente

¿Esto necesita siquiera un bucle?, ¿o un prompt, una cadena o una sola llamada a herramienta lo harían con más seguridad? - ¿Cuán corta puede ser la cadena?: cada paso que quitas es fiabilidad que ganas. - ¿Qué hay en la ventana en cada paso, y qué se resume o se descarta? - ¿Están las herramientas acotadas al mínimo que la tarea necesita? - ¿Cuáles son los límites —máximo de pasos, tiempo, gasto— y la compuerta para las acciones irreversibles? - ¿Cuál es la evaluación a nivel de paso que te dice que funciona de verdad, no que solo hace demos?

Señales de que sobredimensionaste

Un bucle de agente para una tarea cuyos pasos podrías simplemente escribir. - Un único agente que lo hace todo con una docena de herramientas y un objetivo vago. - Ajustar el agente a ojo, sin evaluación a nivel de paso. - Sin límites de pasos o de gasto, y sin compuerta humana en las acciones arriesgadas. - Arrastrar el historial entero a la ventana en cada paso.

Señales de que lo construiste bien

El trabajo está descompuesto: agentes estrechos y cadenas fijas, un bucle pequeño solo donde hace falta. - La ventana está curada y comprimida, no es un vertedero creciente. - Las herramientas son de mínimo privilegio, y los conectores están autenticados. - Hay límites firmes y una compuerta humana sobre cualquier cosa irreversible. - Tienes evaluaciones a nivel de paso y un registro de auditoría completo, y el agente va detrás de una interfaz que podrías cambiar.

Construir agentes no es invocar autonomía. Es la ingeniería corriente —cadenas cortas, contexto limpio, herramientas acotadas, límites y evaluaciones— la que convierte un bucle del 57 % en algo en lo que puedes confiar.