笔记
关于我所交付的 AI 系统背后方法论与架构决策的短文——规约、评估、多智能体编排、LLM 集成,以及调度编程智能体的纪律。
2026年6月5日
智能体正进入“出错就是官司”的领域
本周 Experian 推出了一套面向信贷的 Agent OS(智能体操作系统)——由智能体来决定信贷、识别欺诈、判定谁有资格。在这些场景里,一次幻觉不再是聊天机器人尴尬的回复;它意味着一笔被拒的贷款、一次错误的医疗授权、一张传票。有一个数字点明了风险:AI 医疗拒赔在申诉时有 80% 以上被推翻——但提出申诉的人不到 1%。这就是为什么受监管领域会让关于智能体的整套论证真正变成法律。
- architecture
- business
- agents
2026年6月5日
微软派出 100 个智能体猎捕漏洞——说实话,聊聊 AI 对 AI 的安全
这周微软展示了一支完全由 AI 组成的安全团队:一条由 100 多个智能体组成的流水线,找出了 16 个新的 Windows 漏洞,其中四个是严重漏洞,还诞生了第一个能自动判定 malware 的 AI。防守方现在跑着自主 AI,攻击方也一样——有一个 AI 独立完成了一次真实入侵的 80–90%。今年春天,“AI 对 AI 的安全”不再只是一句口号。这是我诚实的判断:它是实打实的进步,也是一场更快到来的僵局。
- security
- agents
2026年6月5日
那个“促成交易”的 agent —— 演示藏起来的那部分
Meta 刚刚发布了一个不只会聊天的 agent —— 它会预约、筛选潜在客户、促成交易、收取付款,全天候运转,支持任何语言,接入 Shopify 和 Zendesk。已经有一百万家企业用上了它。演示像变魔术。可它藏起来的是:一个自主的东西在你的业务上行动,以机器的速度,处理来自陌生人的消息 —— 而法律刚刚堵死了“是 AI 干的”这条逃生通道。这是诚实的版本。
- security
- business
- agents
2026年6月5日
“我们先把哪一块智能体化(agentize)?”是个错误的第一个问题
整个市场已经从“agent 是真的吗?”转向了“我公司的哪一块先被智能体化?”——IT 支持、销售、对账。这听起来像是聪明的战略问题。其实它是错的。问该把 agent 指向哪里,跳过了真正决定一切能否成立的两个问题:agent 站在什么之上,以及它出错时谁来负责。下面是真正重要的顺序。
- methodology
- business
- agents
2026年6月4日
基准测试拿了 87%,却依然无法演进你的代码库
标题写着 AI「解决了 87% 的 SWE-bench」,所有人都理解成「AI 现在能做软件工程了」。这里有两个问题。小问题:约三分之一的通过要么泄露了答案,要么测试太弱。致命问题:基准测试衡量的是一次孤立的 bug 修复,而不是真正的工作——在数周内演进一个活的代码库。一旦真正去衡量这件事,同样的模型会从约 73% 跌到约 25%。基准测试是 demo,你的代码库才是生产环境。
- eval
- agents
- methodology
2026年6月4日
各大实验室现在拼的是价格,而不是 IQ
过去两年,旗舰模型发布会的主标题只有一个:我们最聪明,看我们刷爆的基准测试。到了 Microsoft Build 2026,标题变了——质量和 Opus 同一档,但每美元的输出多了约 10 倍,token 还少用 60%。炫耀的重点从 IQ 转向了效率,整个行业都在围绕价格而非峰值能力重新洗牌。本文讲清楚这条轴线为什么翻转,以及如果你在做产品,这意味着什么。
- ai-native
- business
- agents