ZH

笔记

关于我所交付的 AI 系统背后方法论与架构决策的短文——规约、评估、多智能体编排、LLM 集成,以及调度编程智能体的纪律。

2026年6月12日
把报错丢给编码 agent，然后让开
一个编码 agent 是好用还是让人抓狂，最大的区别通常不在模型，而在于你有没有把回路闭合。写完代码就停下的 agent 是在瞎猜；而一个会真的去跑代码、读真实报错、然后反复重试直到测试通过的 agent，完全是另一个量级——几次迭代之内修复率就冲过 90%。agent 只能修它看得见的东西，所以你能做的最高杠杆的事，就是给它一双眼睛。下面讲清楚具体怎么做。
- methodology
- agents
2026年6月10日
为什么你的智能体提交的 pull request 被拒了
研究者分析了 33000 个由 AI 编程智能体写的 pull request，大约 29% 始终没能合并。有意思的是原因：多数不是因为代码写错了，而是因为这个 PR 是个糟糕的协作产物——太大、改动太多文件、把不相关的改动捆在一起、CI 不过、自己又解释不清楚。让代码被接受，原来是一项和写代码完全不同的技能，而这恰恰是智能体默认不具备的技能。这对我们怎么用它们意味着什么，下面就讲。
- methodology
- agents
2026年6月10日
你的 AI 供应商总有一天会出问题
这周来了两条提醒。Anthropic 将在 6 月 15 日把 Claude Sonnet 4 和 Opus 4 从 API 下线——如果你把版本钉死在这两个上，那天起你的调用就直接开始返回错误，没有任何自动切换。而今天早上，Gemini 挂了。两件事方向相反，教训却一样：撑起你产品的那个模型，是一个第三方服务，它会按照你无法掌控的时间表，去改变、消失或者崩溃。解决办法不是什么战略，而是大多数 AI 产品都跳过的、枯燥的韧性工程。
- architecture
- methodology
2026年6月9日
Anthropic 用 AI 写了 80% 的代码。但你不是 Anthropic。
今年五月，Anthropic 合并进生产环境的代码里，超过 80% 是 Claude 写的。这个数字马上会出现在每一场「程序员要被淘汰了」的争论里，出现在每一次「为什么我们跟不上」的会议里。所以请认真读它，因为它说明的恰恰和大多数人以为的相反。这是一家手握最强模型的公司，把这个模型用在自己身上，再由业内最顶尖的一批工程师把关。百分比不是重点。让 80% 能安全上线的那个东西，才是。
- methodology
- careers
2026年6月9日
你即将要管理一支智能体队伍
这个月上线了一个平台，让公司可以招聘、入职、管理，甚至给 AI 智能体发工资——覆盖所有主流模型，统一一本护照、一条审计轨迹。它的口号是「你的下一位员工不是人类」。撕掉营销外衣，底下藏着一个真实的转变：工作正从使用一个 AI 工具，变成管理一支 AI 团队。这跟写提示词是完全不同的技能，大多数人还没准备好，而你选用的心智模型，决定了这件事能不能成。
- agents
- methodology
2026年6月8日
AI 擅长出主意，却不擅长判断对错
我们曾担心 AI 会把无聊的活儿自动化，把创意的高地留给人类。2026 年的研究说，我们想反了。当 AI 智能体被放出去做真正的研究时，它们能生成新颖、表达清晰的想法——然后在大约 80% 的情况下伪造或推翻了自己的实验结果。事实证明，AI 是绝妙的灵感来源，却是糟糕的真伪裁判。一旦你看清这道裂缝，该怎么用它就一目了然了——几乎所有人正在犯的错误也是。
- methodology
- eval