ARCHITECTURE · 2026年6月10日

风险从来不在模型本身,而在它周围的系统

全球最权威的 AI 安全机构——由 Yoshua Bengio 牵头、三十多个政府背书、上百位专家参与——刚刚得出一个让人有点泄气的结论:最紧迫的 AI 风险,与其说来自模型本身,不如说来自公司围绕模型搭建的系统。不是科幻片里失控的超级智能,而是那些集成、权限、业务流程——一个小错误会顺着它们传播开来。对于做产品的人来说,这其实是好消息,因为它意味着 AI 安全大体上是一件你真的能动手去做的事。

2026 年《国际 AI 安全报告》——上百位独立专家由 Yoshua Bengio 牵头,三十多个国家以及欧盟、经合组织、联合国共同背书—— 基本上就是 AI 风险评估能达到的最权威程度了。而它的侧重点,并不在公众讨论一直关注的地方。报告反复强调,最紧迫的风险,与其说来自模型本身,不如说来自各组织围绕模型搭建的复杂系统—— 也就是部署之后会发生什么:当一个 AI 触发业务流程、访问敏感数据、做出决策,并以操作者并不完全理解的方式与其他系统交互时,会出什么事。

把这句话再读一遍,因为它悄悄地重新调整了整场安全讨论的方向。电影里那种恐惧针对的是模型:目标错位、会欺骗、聪明到无法掌控。而最有资格知道答案的机构,却指向了一个远没那么戏剧化的地方——管道系统。这种转变,改变了「AI 安全」对每一个真正动手做东西的人意味着什么。

我们一直在讨论错的那个安全问题

大多数关于 AI 安全的讨论都聚焦在「大脑」上:模型会不会撒谎、会不会拒绝、会不会变成超级智能。这些问题对训练前沿模型的那少数几家实验室来说很重要。但对其他所有人而言,它们基本上无从下手——你没法去对齐一个不是你训练出来的模型。

你能做点什么的,恰恰是模型周围的一切,而这正是报告所说危险最集中的地方。同一周的企业研究说得很直白:2026 年的智能体 AI 风险本质上是一个集成与治理的挑战,而不是模型对齐的问题。真正伤到人的故障,不是模型动了什么坏念头。而是一个运转完全正常的模型,被接上了它本不该触及的数据,触发了一个没人审查过的流程,而且错误会在任何人察觉之前在彼此连通的系统之间飞快地传播。

这跟我一直从「做产品」这一侧反复主张的是同一件事:模型是其中最不重要的部分。决定你的 AI 是否安全的,是它周围的架构——接地、权限、边界、人工把关。这份安全报告,就是这个论点本身,只不过是由那些以担忧 AI 风险为全职工作的人盖章认证的。

安全是一项系统工程,而且它是你的活

这就是我觉得这份报告反而让人安心的原因。如果 AI 风险完全活在模型内部,那你就只是个旁观者——你的安全取决于你控制不了的那些实验室。但如果风险大体上在模型周围的系统里,那么其中大部分就是你的系统,而你手里有实实在在的杠杆。报告自己的框架就是多层次的: 训练、部署、部署后监控,以及生态系统韧性, 并明确呼吁采用「纵深防御」,而不是依赖任何单一的防护措施。中间那几层——部署和监控——正正落在做产品的人身上。

具体来说,真正能挪动你风险水平的系统层面工作有这些:

最小权限,毫不手软。 把 AI 能触及的每一个数据源和每一个动作都梳理出来,然后砍到最小。大多数破坏性事件,都是模型在被允许的范围内做了它完全有权做的事,只不过那份访问权限它本就不该拥有——这是那个无聊的身份与访问管理问题,而不是什么失控的心智。
在授予能力之前,先控制爆炸半径。 过滤输入和输出,把有重大后果或不可逆的动作放在人工把关之后,并且假设任何一个步骤都可能出错。给一个错误能波及的范围划定边界,这样传播就不会把一个小错误变成系统性的灾难。
监控并记录,因为风险是在部署之后才浮现的。 报告的核心观点就是:危险活在上线之后,活在正在运行的系统里。如果你看不见你的 AI 到底做了什么, 那它出错的那一天你就抓不住——给它装上仪表,并保留一条事件记录的轨迹。
把防护措施叠起来。 任何单一的控制都不够;报告对「分层」这一点说得斩钉截铁。接地加上权限加上人工把关加上监控——这样当其中一道失效时,另一道还能顶住。

这些都不是什么稀奇玩意儿。它就是普通的系统工程和访问治理,只不过对准的是一种新类型的组件。

归根结底

这个世界讲述的 AI 危险故事,讲的是模型——它的心智、它的意图、它的智能。而这颗星球上最可信的安全权威机构,刚刚等于是在说:那部分你大体上碰不到,而且大部分伤害本来也不是从那儿来的。伤害在系统里——在那些连接、那些权限、那些流程里——而那一部分是工程问题,不是对齐问题。

所以,如果你在用 AI 做东西,别再把「安全」外包给实验室和那张模型卡片了。你的产品是否安全,取决于你围绕模型裹上的那个系统:它能触及什么、它能做什么、什么能拦住它,以及如果它出了岔子你是否会知道。这不是一个你等着比你聪明的人来解决的问题。它就是架构,而把它做对,从来都是你自己的事。

暂无评论

登录以参与讨论。

做第一个分享想法的人。