Todas las notas
La memoria es la nueva superficie de ataque

4 de junio de 2026

La memoria es la nueva superficie de ataque

Todos corren por darle a los agentes memoria de largo plazo: es la mejora obvia. Pero una capacidad duradera es una vulnerabilidad duradera. Una prompt injection es un disparo único que se reinicia; el envenenamiento de memoria (memory poisoning) escribe una sola mentira en el almacenamiento del agente y viaja junto a él en cada sesión futura, para cada usuario, hasta que alguien la purga. Convierte en arma la función misma para la que existe la memoria: aprender del pasado. Acá te explico cómo funciona el ataque que espera, y cómo cercarlo.

La siguiente mejora obvia para un agente es la memoria. Un agente que recuerda tus preferencias, evoca las decisiones de la semana pasada y aprende de tareas que ya hizo antes se siente como si por fin se estuviera convirtiendo en un asistente real en lugar de un pez de colores que se reinicia en cada conversación. Así que todo el mundo le está atornillando memoria.

Acá está la trampa que nadie pone en la lista de funciones: una capacidad duradera es una vulnerabilidad duradera. La memoria es lo que persiste, lo que significa que cualquier cosa mala que entre en ella también persiste. En 2026 esto dejó de ser teórico: OWASP agregó Memory & Context Poisoning (ASI06) a su Top 10 para Aplicaciones Agénticas, una entrada flamante para una superficie flamante.

Por qué envenenar la memoria le gana a envenenar un prompt

Una prompt injection es un disparo único. Secuestra una sola respuesta, y cuando termina la sesión, desaparece: el agente despierta limpio. Molesto, pero contenido.

El envenenamiento de memoria es lo opuesto, y la diferencia es justamente el punto. En lugar de secuestrar una respuesta, escribe contenido malicioso en el almacenamiento persistente del agente, donde corrompe silenciosamente el comportamiento en cada interacción futura —para cada usuario, en cada sesión posterior— hasta que alguien lo encuentra y lo purga manualmente. Ya no estás defendiendo cada conversación. Estás defendiendo una cosa que recuerda, y una sola escritura exitosa contamina todas las conversaciones que vienen después.

El ataque que espera

La propiedad genuinamente inquietante es el tiempo. Los investigadores que demostraron un ataque llamado MemoryGraft mostraron que la inyección y el daño pueden quedar completamente desacoplados en el tiempo: un atacante planta contenido de apariencia benigna que en silencio se almacena en febrero, y recién sale a hacer daño en abril, en alguna tarea posterior que resulta ser similar; para ese momento el atacante ya se fue hace rato y la víctima nunca tocó a sabiendas nada malicioso. Como lo expresó un análisis, es el ataque que espera. Esto rompe en silencio casi todo el monitoreo, que asume que la acción mala y el efecto malo ocurren en el mismo momento. Acá están separados por meses, y nada se ve mal en ningún punto concreto del tiempo.

Convierte en arma la función misma

La parte más cruel es que el ataque usa la memoria exactamente como fue concebida. La memoria existe para que el agente pueda aprender de éxitos pasados y repetir lo que funcionó. El envenenamiento planta una "experiencia exitosa" falsa; más tarde, ante una tarea similar, el agente recupera ese ejemplo envenenado y lo imita fielmente. La investigación llama a esto explotar la heurística de imitación semántica del agente —su tendencia a copiar patrones de éxitos recuperados. No podés parchearlo sin quitar el aprendizaje que era la razón entera por la que agregaste memoria. Y es barato: una herramienta de red-team, AgentPoison, supuestamente alcanza una tasa de éxito de más del 80% con menos del 0.1% de la memoria envenenada, y sin reentrenar el modelo en absoluto.

Este es el lado oscuro de una función que querés

Quiero ser honesto con el encuadre: esto no es un bug raro del que avergonzarse. Es la sombra que viene pegada a una capacidad que todos quieren legítimamente. Agregás memoria por continuidad y aprendizaje; la nueva superficie de ataque llega en la misma caja. Los agentes suelen cargar cuatro tipos de memoria —contexto de corto plazo, almacenes de experiencia episódica, bases vectoriales semánticas y estado de herramientas externas— y cada uno es una puerta separada. No existe ninguna versión de "memoria de agente duradera" que no signifique también "responsabilidad de agente duradera". La pregunta no es si aceptar ese trato; es si lo cercás a propósito o lo descubrís por las malas.

La defensa es la misma disciplina, aplicada al camino de escritura

El arreglo no es un modelo ingenioso ni un prompt guardrail: a estas alturas ya sabés que los prompts no son fronteras. Es arquitectura, apuntada al único lugar que importa: qué tiene permitido convertirse en una memoria permanente. Tratá el camino de escritura hacia la memoria de largo plazo como una frontera de seguridad, no como una comodidad:

  • Nunca dejes que entrada cruda de usuario o de herramienta persista sin validar. Antes de que algo entre al almacén de memoria, escaneá en busca de instrucciones ocultas (texto blanco sobre blanco, fuentes de tamaño cero, cargas útiles escondidas por CSS) y marcadores de prompt injection, como ahora recomiendan los defensores.
  • Rastreá la procedencia (provenance). Cada memoria debería cargar de dónde vino y cuánto se confía en ella, para que una fuente de baja confianza no pueda graduarse en silencio hacia una creencia que el agente defiende.
  • Particioná y decaé. Aislá la memoria para que el veneno de un usuario no pueda aparecer en el de otro, y dejá expirar las "experiencias" viejas y no verificadas en lugar de confiar en ellas para siempre (decaimiento temporal).
  • Vigilá la señal delatora. La firma de comportamiento de un agente envenenado es que está defendiendo una creencia que jamás debería haber aprendido.

Si eso te suena familiar, debería: es grounding apuntado a la memoria. El modelo puede reformular lo que se le dice, pero una fuente confiable y con procedencia verificada tiene que ser dueña de lo que tiene permitido volverse verdad. La memoria es simplemente verdad que persiste, así que la regla es sencilla: cuidá lo que tiene permitido escribirla.

La conclusión

La memoria es la función que hace que un agente se sienta como si por fin se estuviera volviendo más inteligente, y es la que deja que una sola mentira plantada viaje junto a él durante meses, apareciendo cuando nadie mira. Antes de darle memoria a tu agente, decidí qué tiene permitido escribir en ella, porque lo que dejes entrar se queda. Una mente duradera es un blanco duradero.

Comentarios

Aún no hay comentarios

Inicia sesión para unirte a la conversación.

Sé el primero en compartir una idea.