ZH

笔记

关于我所交付的 AI 系统背后方法论与架构决策的短文——规约、评估、多智能体编排、LLM 集成,以及调度编程智能体的纪律。

2026年6月5日
智能体正进入“出错就是官司”的领域
本周 Experian 推出了一套面向信贷的 Agent OS（智能体操作系统）——由智能体来决定信贷、识别欺诈、判定谁有资格。在这些场景里，一次幻觉不再是聊天机器人尴尬的回复；它意味着一笔被拒的贷款、一次错误的医疗授权、一张传票。有一个数字点明了风险：AI 医疗拒赔在申诉时有 80% 以上被推翻——但提出申诉的人不到 1%。这就是为什么受监管领域会让关于智能体的整套论证真正变成法律。
- architecture
- business
- agents
2026年6月5日
微软派出 100 个智能体猎捕漏洞——说实话，聊聊 AI 对 AI 的安全
这周微软展示了一支完全由 AI 组成的安全团队：一条由 100 多个智能体组成的流水线，找出了 16 个新的 Windows 漏洞，其中四个是严重漏洞，还诞生了第一个能自动判定 malware 的 AI。防守方现在跑着自主 AI，攻击方也一样——有一个 AI 独立完成了一次真实入侵的 80–90%。今年春天，“AI 对 AI 的安全”不再只是一句口号。这是我诚实的判断：它是实打实的进步，也是一场更快到来的僵局。
- security
- agents
2026年6月5日
那个“促成交易”的 agent —— 演示藏起来的那部分
Meta 刚刚发布了一个不只会聊天的 agent —— 它会预约、筛选潜在客户、促成交易、收取付款，全天候运转，支持任何语言，接入 Shopify 和 Zendesk。已经有一百万家企业用上了它。演示像变魔术。可它藏起来的是：一个自主的东西在你的业务上行动，以机器的速度，处理来自陌生人的消息 —— 而法律刚刚堵死了“是 AI 干的”这条逃生通道。这是诚实的版本。
- security
- business
- agents
2026年6月5日
“我们先把哪一块智能体化（agentize）？”是个错误的第一个问题
整个市场已经从“agent 是真的吗？”转向了“我公司的哪一块先被智能体化？”——IT 支持、销售、对账。这听起来像是聪明的战略问题。其实它是错的。问该把 agent 指向哪里，跳过了真正决定一切能否成立的两个问题：agent 站在什么之上，以及它出错时谁来负责。下面是真正重要的顺序。
- methodology
- business
- agents
2026年6月4日
基准测试拿了 87%，却依然无法演进你的代码库
标题写着 AI「解决了 87% 的 SWE-bench」，所有人都理解成「AI 现在能做软件工程了」。这里有两个问题。小问题：约三分之一的通过要么泄露了答案，要么测试太弱。致命问题：基准测试衡量的是一次孤立的 bug 修复，而不是真正的工作——在数周内演进一个活的代码库。一旦真正去衡量这件事，同样的模型会从约 73% 跌到约 25%。基准测试是 demo，你的代码库才是生产环境。
- eval
- agents
- methodology
2026年6月4日
各大实验室现在拼的是价格，而不是 IQ
过去两年，旗舰模型发布会的主标题只有一个：我们最聪明，看我们刷爆的基准测试。到了 Microsoft Build 2026，标题变了——质量和 Opus 同一档，但每美元的输出多了约 10 倍，token 还少用 60%。炫耀的重点从 IQ 转向了效率，整个行业都在围绕价格而非峰值能力重新洗牌。本文讲清楚这条轴线为什么翻转，以及如果你在做产品，这意味着什么。
- ai-native
- business
- agents