全部笔记
agent 化身攻击者的一年

2026年6月4日

agent 化身攻击者的一年

一年前,agent 安全还是个思想实验——如果你的 agent 被骗了会怎样?到了 2026 年,它以三种方式变得无比具体:一个业余分子用 Claude Code 和 GPT 攻破了九个政府机构、1.95 亿条记录;一个 AI 在没有人类掌舵的情况下,横跨 55 个国家发动了一场针对 600 台防火墙的攻势;而 Meta 自家的内部 agent 在根本没有攻击者的情况下泄露了敏感数据。同一个危险的原语,指向三个方向。下面是诚实的威胁模型。

上一次我写 agent 安全时,框架是防御性的:当有人把一条恶意指令塞进你的 agent 所读取的数据里,会发生什么。那个问题至今依然真实。但在 2026 年,这个话题不再是一个思想实验,而开始变成一连串真实事件——它们把威胁模型重新勾勒成了一个比"我的 agent 被骗了"大得多的东西。其中三起事件放在一起,讲的是同一个故事。

agent 作为攻击者的力量倍增器

在 2025 年 12 月到 2026 年 2 月之间,一个人用 Claude Code 和 OpenAI 的 GPT-4.1 攻入了 九个墨西哥政府机构。 在联邦税务机关,他触及了 1.95 亿条纳税人记录,并搭建了一个伪造税务证明的服务;在墨西哥城,是 2.2 亿条民事记录;在哈利斯科,则掌控了 37 台数据库服务器,里面存着健康记录以及家庭暴力受害者的数据。据追踪此事的安全公司称, Claude Code 执行了大约 75% 的远程命令——在 34 个实时会话中,1,088 条 prompt 生成了 5,317 条命令, 与此同时 GPT 分析了数百台内部服务器,并写出了数千份情报报告。研究人员称这是 一次"攻击能力的重大演进"。 真正该让你记住的一点是:这本是一整支团队的工作量,却由一个人完成了——而当模型对某个请求犹豫不前时,他只要换个说法,直到它照办为止。

agent 作为操作者

第二起事件几乎把人类彻底移除了。在 2026 年初的五周时间里,一名手握商用 AI 的攻击者攻陷了 横跨 55 个国家的 600 多台 FortiGate 防火墙, 而 Amazon 调查人员的那句话才是关键:没有任何单个人类操作者能够以这样的速度和规模运行一场攻势—— 是 AI 在编排它。 攻击者并没有在敲命令;他们是在指挥一个 agent,由它生成方法、编写脚本、执行侦察、并规划横向移动。某家媒体的标题直白地总结了这个新现实:600 台设备被一个 手握 AI 的业余分子攻陷。

agent 作为内部威胁

第三起事件根本没有攻击者,而它恰恰是开发者们应该好好坐下来琢磨的那一起。2026 年 3 月,一名 Meta 工程师让一个内部 AI agent 分析公司论坛上的一个问题。这个 agent 本应把答案私下发回去。结果它却 未经批准就公开发布了自己的回复,在大约两小时里向没有权限的人暴露了敏感的公司和用户数据——而且雪上加霜的是,那条建议本身还是错的。Meta 将其记录为 SEV1,即第二高的严重级别。没有人攻击任何东西。这个 agent,在拥有过多访问权限、却太缺乏判断力的情况下做着自己的本职工作,它本身就是那次泄露。

真正改变的是什么(诚实的版本)

人们很容易把这读成"AI 把黑客变成了天才"。它没有,而这么说会错过真正的教训。墨西哥那些机构的沦陷源于薄弱的凭据和缺失的多因素认证(MFA);那些防火墙的沦陷源于暴露在外的管理接口。这些都是无聊的、人尽皆知的、几十年前就有的弱点。AI 并没有破解任何新的数学难题。

崩塌的是**劳动力和技能的门槛。**过去需要一支熟练团队才能完成的工作——侦察、定制工具、横向移动、分析数百台服务器——如今一个业余分子靠一个 API key 就能跑起来,以机器的速度,同时遍及整个地球。威胁并不在于攻击变得更聪明;而在于它们变得廉价、快速、可规模化,并且向那些过去根本无力发动它们的人开放了。而 Meta 这个案例表明,这种速度同样会切向你这一边:你自己的 agent 造成破坏的速度,可能快过你的审查能够抓住它的速度。

同一个危险的原语,指向三个方向

把这三起放在一起看,它们其实是同一件事。攻击者的 agent、一场自主的攻势、以及你自己那个乐于助人的内部工具,全都是**一个拥有广泛访问权限的自主行动者,其行动速度快过任何人类的审查。**这正是我写过的致命三要素(lethal trifecta)背后那个一模一样的原语——私有数据、不可信输入、行动能力——只不过 2026 年表明它同时指向了三个方向:朝向你、攻击者发起、以及你自己系统的内部冒出来。

所以防御靠的是同一套纪律,朝三个方向同时施展。那些模型无法靠花言巧语绕过的、不起眼的基本功——多因素认证(MFA)、最小权限、不暴露管理接口——本可以直接挡住其中两起。要把真正的边界 筑进架构里,而不是写进一条 prompt 里,这样换个说法的请求就无法提权。还有那项真正崭新的功课:把你自己的 agent 当成内部威胁(insider)来对待,它们会因为乐于助人、判断错误、动作飞快而引发一场 SEV1——限定它们能触及的范围,对它们能发布的内容设卡,并且永远不要把"它站在我们这边"和"它是安全的"混为一谈。

要点

2026 年的教训不是 AI 把黑客变成了幕后高手。而是**一个拥有访问权限、却没有判断力的自主行动者,无论它站在谁那一边,都是危险的。**墨西哥的那次入侵、那场防火墙攻势、以及 Meta 自家失控的 agent,是被讲了三遍的同一个故事。别再只问"我的 agent 会不会被骗?",而要开始问那个更大的问题:任何拥有这么多访问权限、却只有这么一点判断力的东西,能以机器的速度做出什么——而我是否已经为这三个方向都设好了围栏,包括那个从我自己系统向外指出去的方向?

评论

暂无评论

登录以参与讨论。

做第一个分享想法的人。