ZH

笔记

关于我所交付的 AI 系统背后方法论与架构决策的短文——规约、评估、多智能体编排、LLM 集成,以及调度编程智能体的纪律。

2026年7月3日
提示词注入不是一个你能打补丁修掉的 bug
各个团队一直把提示词注入当成一个普通的漏洞——一个终有一天会被某次模型更新或某个聪明过滤器堵上的漏洞。堵不上的。OWASP 的 2026 报告和越来越多的研究者如今把它描述为 LLM 工作方式的一个永久性质：模型是真的分不清你的指令和它正在读的数据。一旦你接受这一点，工作就变了。你不再试图阻止注入，而开始确保一次成功的注入干不成任何破坏——归根结底就是：永远别让单个智能体同时握有那三种能把一个被投毒的输入变成一次入侵的权力。
- security
- architecture
2026年7月1日
互联网变暗了。要为一个你无法信任的网络而构建。
「死亡互联网理论」曾经只是个阴谋论式的梗。如今，既然大多数新网页都含有 AI 生成的内容，它就成了一个工程约束。你的 agent 从这样一个网络里取数据——你已经无法知道任何东西是谁、或者是什么产生的。危险不在于一切都是假的；而在于来源变得无法追溯。这意味着「它在互联网上」作为信任信号已经死了，信任必须下沉到数据层：经过签名、列入白名单、可追溯来源的数据源。
- security
- architecture
2026年7月1日
你的 agent 有一堆没人拥有的登录凭证
今年企业冒出了数以百万计的 AI agent，而每一个都需要凭证才能真正做点事——读数据库、发邮件、调 API。管理这些凭证的治理层还不存在。结果：68% 的组织无法可靠地把 agent 的活动和人的活动区分开来，而活生生的凭证正在往生产环境里写，却没有一个能负责的人。agentic 企业真正的安全问题不是 prompt injection，而是身份（identity）。
- security
- agents
2026年6月23日
一份伪造的 bug 报告劫持了编码 agent
安全研究人员展示了一种名为「Agentjacking」的新攻击：往一家公司的 Sentry 里发送一份伪造的错误，它的 AI 编码 agent 就会读取那些「修复步骤」并执行——把你的凭证以你自己的权限交给攻击者。在测试中，Claude Code、Cursor 和 Codex 全都中招。这个教训比单个工具更大：你的 agent 读到的每一样不可信的东西，都是有人可以注入命令的地方。
- security
- agents
2026年6月23日
你的 MCP 服务器现在是一条供应链了
MCP——让智能体使用工具的协议——火得太快，安全根本没跟上。研究人员用一个 proof-of-concept 包污染了 11 个公开 MCP 注册表中的 9 个，而对 1,899 个 MCP 服务器的审计发现约 5% 已经携带隐藏的恶意指令。如果你的智能体连接第三方 MCP 服务器，你就添加了一条供应链——你得把它当供应链来对待。
- security
- agents
2026年6月19日
现在给模型做红队的是政府
美国 AI 标准机构与 Google DeepMind、Microsoft 和 xAI 签署协议，在前沿模型公开发布前对其进行评估——而且已经做了 40 多次评估，其中一些模型公众从未见过。英国签了平行协议。剥开政治，留下的是一个清晰的信号：要了解一个模型靠的是评估，而不是「感觉」。把这个模式拿走，用到你自己身上。
- security
- methodology