SECURITY · 19 de junio de 2026
Ahora al modelo le hace red-team el gobierno
El organismo de estándares de IA de EE. UU. firmó acuerdos con Google DeepMind, Microsoft y xAI para evaluar sus modelos de frontera antes del lanzamiento público — y ya realizó más de 40 evaluaciones, algunas de modelos que el público nunca llegó a ver. El Reino Unido firmó acuerdos paralelos. Quita la política y queda una señal clara: a un modelo se lo conoce evaluándolo, no por las «sensaciones». Quédate con el patrón.
En la política de IA pasó algo importante en silencio. El Center for AI Standards and Innovation (Centro de Estándares e Innovación en IA) de EE. UU. — el brazo de evaluación de IA dentro del NIST — firmó acuerdos con Google DeepMind, Microsoft y xAI para realizar evaluaciones previas al despliegue de sus modelos de frontera. A principios de mayo el centro ya había completado más de 40 evaluaciones de modelos, incluyendo análisis de sistemas que nunca se lanzaron públicamente. El AI Security Institute del Reino Unido firmó acuerdos paralelos.
Deja a un lado por un segundo lo que piensas sobre la regulación, porque lo interesante de esto no es político. Es metodológico.
La evaluación se mudó del laboratorio al Estado
Durante años, a la pregunta «¿este modelo es seguro / capaz / peligroso?» se respondía dentro de la empresa que lo construía. Ahora dos gobiernos decidieron que la forma de gobernar la IA de frontera es medirla en tareas difíciles antes de que salga — riesgo de ciberseguridad, potencial de uso indebido, preocupaciones de seguridad nacional — con una evaluación estructurada e independiente.
Eso es red-teaming como política. No un comunicado de prensa sobre lo potente que es el modelo, no un benchmark de marketing, sino una evaluación deliberada hecha por alguien que no lo construyó y no está tratando de venderlo.
Qué señala eso para el resto de nosotros
Cuando los gobiernos de EE. UU. y el Reino Unido concluyen que la única manera creíble de saber qué hace un modelo es evaluarlo en tareas adversarias y apartadas antes del lanzamiento, ese es el respaldo más fuerte posible a una disciplina con la que insisto una y otra vez: no sabes que un sistema es bueno porque se sienta bueno. Lo sabes porque lo mediste.
Los laboratorios ya trabajan así por dentro — benchmarks públicos más conjuntos privados de escenarios que el modelo nunca ve durante el desarrollo. Ahora los gobiernos atornillan la misma idea desde fuera. El patrón es el mismo a cualquier escala: separa lo que construye de lo que juzga, y obliga al juez a apoyarse en evidencia.
Quédate con el patrón
No necesitas una agencia federal para aplicar esto a tus propias funciones de IA. La forma es portátil:
- Haz una evaluación previa al despliegue. Antes de que un modelo o una función salga, pásalo por escenarios que no haya visto. «Funcionó en la demo» no es una evaluación.
- Aparta tus casos más difíciles. Mantén un conjunto privado en el que el sistema nunca entrena ni se afina — las entradas sucias, adversarias, del mundo real. Ese es el conjunto que dice la verdad.
- Prueba contra los malos resultados, no solo el happy path. Los gobiernos sondean el uso indebido y los fallos de seguridad. Tus evaluaciones deberían sondear las formas en que tu función se rompe, filtra datos o se deja manipular — no solo las formas en que tiene éxito.
- Que juzgue alguien distinto de quien construyó. Incluso un agente aparte o una persona aparte revisando contra una rúbrica le gana a corregir tu propia tarea.
En resumen
Los gobiernos ahora insisten en evaluar los modelos de frontera antes del lanzamiento porque es la única manera de saber de verdad qué hacen. Eso no es burocracia — es la misma disciplina que debería estar a la entrada de tus propios sistemas.
Si la manera creíble de gobernar un modelo de IA es una evaluación estructurada, independiente y previa al despliegue, entonces la manera creíble de lanzar tu propia función de IA es la misma: medirla en casos apartados y adversarios antes de que entre en producción. Las sensaciones no sobreviven al contacto con producción. Las evaluaciones sí.
Comentarios
Aún no hay comentarios
Inicia sesión para unirte a la conversación.
Sé el primero en compartir una idea.