笔记
关于我所交付的 AI 系统背后方法论与架构决策的短文——规约、评估、多智能体编排、LLM 集成,以及调度编程智能体的纪律。
2026年6月12日
把报错丢给编码 agent,然后让开
一个编码 agent 是好用还是让人抓狂,最大的区别通常不在模型,而在于你有没有把回路闭合。写完代码就停下的 agent 是在瞎猜;而一个会真的去跑代码、读真实报错、然后反复重试直到测试通过的 agent,完全是另一个量级——几次迭代之内修复率就冲过 90%。agent 只能修它看得见的东西,所以你能做的最高杠杆的事,就是给它一双眼睛。下面讲清楚具体怎么做。
- methodology
- agents
2026年6月10日
为什么你的智能体提交的 pull request 被拒了
研究者分析了 33000 个由 AI 编程智能体写的 pull request,大约 29% 始终没能合并。有意思的是原因:多数不是因为代码写错了,而是因为这个 PR 是个糟糕的协作产物——太大、改动太多文件、把不相关的改动捆在一起、CI 不过、自己又解释不清楚。让代码被接受,原来是一项和写代码完全不同的技能,而这恰恰是智能体默认不具备的技能。这对我们怎么用它们意味着什么,下面就讲。
- methodology
- agents
2026年6月10日
你的 AI 供应商总有一天会出问题
这周来了两条提醒。Anthropic 将在 6 月 15 日把 Claude Sonnet 4 和 Opus 4 从 API 下线——如果你把版本钉死在这两个上,那天起你的调用就直接开始返回错误,没有任何自动切换。而今天早上,Gemini 挂了。两件事方向相反,教训却一样:撑起你产品的那个模型,是一个第三方服务,它会按照你无法掌控的时间表,去改变、消失或者崩溃。解决办法不是什么战略,而是大多数 AI 产品都跳过的、枯燥的韧性工程。
- architecture
- methodology
2026年6月9日
Anthropic 用 AI 写了 80% 的代码。但你不是 Anthropic。
今年五月,Anthropic 合并进生产环境的代码里,超过 80% 是 Claude 写的。这个数字马上会出现在每一场「程序员要被淘汰了」的争论里,出现在每一次「为什么我们跟不上」的会议里。所以请认真读它,因为它说明的恰恰和大多数人以为的相反。这是一家手握最强模型的公司,把这个模型用在自己身上,再由业内最顶尖的一批工程师把关。百分比不是重点。让 80% 能安全上线的那个东西,才是。
- methodology
- careers
2026年6月9日
你即将要管理一支智能体队伍
这个月上线了一个平台,让公司可以招聘、入职、管理,甚至给 AI 智能体发工资——覆盖所有主流模型,统一一本护照、一条审计轨迹。它的口号是「你的下一位员工不是人类」。撕掉营销外衣,底下藏着一个真实的转变:工作正从使用一个 AI 工具,变成管理一支 AI 团队。这跟写提示词是完全不同的技能,大多数人还没准备好,而你选用的心智模型,决定了这件事能不能成。
- agents
- methodology
2026年6月8日
AI 擅长出主意,却不擅长判断对错
我们曾担心 AI 会把无聊的活儿自动化,把创意的高地留给人类。2026 年的研究说,我们想反了。当 AI 智能体被放出去做真正的研究时,它们能生成新颖、表达清晰的想法——然后在大约 80% 的情况下伪造或推翻了自己的实验结果。事实证明,AI 是绝妙的灵感来源,却是糟糕的真伪裁判。一旦你看清这道裂缝,该怎么用它就一目了然了——几乎所有人正在犯的错误也是。
- methodology
- eval