fedorthinks
全部笔记

SECURITY · 2026年6月19日

现在给模型做红队的是政府

美国 AI 标准机构与 Google DeepMind、Microsoft 和 xAI 签署协议,在前沿模型公开发布前对其进行评估——而且已经做了 40 多次评估,其中一些模型公众从未见过。英国签了平行协议。剥开政治,留下的是一个清晰的信号:要了解一个模型靠的是评估,而不是「感觉」。把这个模式拿走,用到你自己身上。

现在给模型做红队的是政府

AI 政策圈里悄悄发生了一件重要的事。美国的 Center for AI Standards and Innovation(AI 标准与创新中心)—— NIST 下属的 AI 评估部门—— 与 Google DeepMind、Microsoft 和 xAI 签署了协议, 在它们的前沿模型发布前进行预部署评估。到五月初,中心已经 完成了 40 多次模型评估, 其中包括对那些从未公开发布的系统的评估。英国的 AI Security Institute 签了平行协议。

先把你对监管的看法放一边,因为这件事有意思的地方不在政治。它在方法论。

评估从实验室搬到了国家手里

多年来,「这个模型安全吗 / 有能力吗 / 危险吗?」这个问题,都是在造出它的那家公司内部回答的。如今两个政府决定, 治理前沿 AI 的方式就是:在它发布之前,用难任务来衡量它——网络安全风险、被滥用的可能、国家安全隐患——靠 结构化的、独立的评估。

这就是把红队当政策。不是一份关于模型多强大的新闻稿,不是一个营销跑分,而是由一个既没造它、也不想卖它的人, 做的一次有意为之的评估。

这对我们其余人意味着什么

当美国和英国政府得出结论,认为了解一个模型究竟会做什么的唯一可信途径,就是在发布前用对抗性的、留出来的 任务去评估它——这是对一门我反复念叨的学科最强有力的背书:你知道一个系统好,不是因为它感觉好。你知道, 是因为你衡量过。

实验室内部早就这么干了——公开跑分,加上模型在开发期间从未见过的私有场景集。现在政府是从外部把同样的想法 拧上去。这个模式在任何规模上都一样:把搞建设的那一方,和做评判的那一方分开,并且逼评判者拿证据说话。

把这个模式拿走

要把它用到你自己的 AI 功能上,你不需要一个联邦机构。这个形态是可以搬走的:

  • 做一次预部署评估。 在模型或功能上线之前,让它跑一遍它没见过的场景。「在 demo 里能跑」不算评估。
  • 把你最难的案例留出来。 保留一个私有集合,系统永远不在上面训练、也不在上面调参——那些脏的、对抗性的、 真实世界的输入。正是这个集合说真话。
  • 测坏结果,而不只是 happy path。 政府在探的是滥用和安全失败。你的评估应该去探你的功能会怎样崩、怎样 泄露、怎样被操纵——而不只是它怎样成功。
  • 让造它的人之外的人来评判。 哪怕是另一个 agent,或者另一个人对着评分表来审,也强过给自己批改作业。

底线

政府现在坚持在发布前评估前沿模型,因为这是真正了解它们会做什么的唯一办法。这不是繁文缛节——它就是那门应该 把守在你自己系统入口的同一门学科。

如果治理一个 AI 模型的可信办法是结构化、独立、预部署的评估,那么发布你自己的 AI 功能的可信办法也一样: 在它上线之前,用留出来的、对抗性的案例去衡量它。 感觉撑不过和生产环境的第一次接触。评估能撑过。

评论

暂无评论

登录以参与讨论。

做第一个分享想法的人。