SECURITY · 2026年6月19日

现在给模型做红队的是政府

美国 AI 标准机构与 Google DeepMind、Microsoft 和 xAI 签署协议，在前沿模型公开发布前对其进行评估——而且已经做了 40 多次评估，其中一些模型公众从未见过。英国签了平行协议。剥开政治，留下的是一个清晰的信号：要了解一个模型靠的是评估，而不是「感觉」。把这个模式拿走，用到你自己身上。

AI 政策圈里悄悄发生了一件重要的事。美国的 Center for AI Standards and Innovation（AI 标准与创新中心）—— NIST 下属的 AI 评估部门—— 与 Google DeepMind、Microsoft 和 xAI 签署了协议，在它们的前沿模型发布前进行预部署评估。到五月初，中心已经完成了 40 多次模型评估，其中包括对那些从未公开发布的系统的评估。英国的 AI Security Institute 签了平行协议。

先把你对监管的看法放一边，因为这件事有意思的地方不在政治。它在方法论。

评估从实验室搬到了国家手里

多年来，「这个模型安全吗 / 有能力吗 / 危险吗？」这个问题，都是在造出它的那家公司内部回答的。如今两个政府决定，治理前沿 AI 的方式就是：在它发布之前，用难任务来衡量它——网络安全风险、被滥用的可能、国家安全隐患——靠结构化的、独立的评估。

这就是把红队当政策。不是一份关于模型多强大的新闻稿，不是一个营销跑分，而是由一个既没造它、也不想卖它的人，做的一次有意为之的评估。

这对我们其余人意味着什么

当美国和英国政府得出结论，认为了解一个模型究竟会做什么的唯一可信途径，就是在发布前用对抗性的、留出来的任务去评估它——这是对一门我反复念叨的学科最强有力的背书：你知道一个系统好，不是因为它感觉好。你知道，是因为你衡量过。

实验室内部早就这么干了——公开跑分，加上模型在开发期间从未见过的私有场景集。现在政府是从外部把同样的想法拧上去。这个模式在任何规模上都一样：把搞建设的那一方，和做评判的那一方分开，并且逼评判者拿证据说话。

把这个模式拿走

要把它用到你自己的 AI 功能上，你不需要一个联邦机构。这个形态是可以搬走的：

做一次预部署评估。 在模型或功能上线之前，让它跑一遍它没见过的场景。「在 demo 里能跑」不算评估。
把你最难的案例留出来。 保留一个私有集合，系统永远不在上面训练、也不在上面调参——那些脏的、对抗性的、真实世界的输入。正是这个集合说真话。
测坏结果，而不只是 happy path。 政府在探的是滥用和安全失败。你的评估应该去探你的功能会怎样崩、怎样泄露、怎样被操纵——而不只是它怎样成功。
让造它的人之外的人来评判。 哪怕是另一个 agent，或者另一个人对着评分表来审，也强过给自己批改作业。

底线

政府现在坚持在发布前评估前沿模型，因为这是真正了解它们会做什么的唯一办法。这不是繁文缛节——它就是那门应该把守在你自己系统入口的同一门学科。

如果治理一个 AI 模型的可信办法是结构化、独立、预部署的评估，那么发布你自己的 AI 功能的可信办法也一样：在它上线之前，用留出来的、对抗性的案例去衡量它。感觉撑不过和生产环境的第一次接触。评估能撑过。

暂无评论

登录以参与讨论。

做第一个分享想法的人。