AGENTS · 2026年6月19日

写代码的代码

Anthropic 现在说，合入它自己系统的代码中有超过 80% 是 Claude 写的——而 2025 年之前这个数字只是个位数。本月它还发布了一份关于递归自我改进（recursive self-improvement）的正式报告：AI 帮忙打造下一代 AI。剥掉那层科幻外衣，对我们其余人来说，剩下的是一个很实在的信息：瓶颈正在往哪儿移，以及这要求怎样的纪律。

这里有个数字，应该会重新校准你对编码智能体的看法。Anthropic 现在说，合入它自己系统的代码中有超过 80% 是 Claude 写的——而在 Claude Code 于 2025 年初发布之前，这个数字还只是个位数。打造模型的那家公司，用这个模型打造了自己大部分的软件。

而 6 月 5 日，它发布了一份关于递归自我改进的报告 ——一种帮忙打造下一代、更强 AI 的 AI——把这个想法从思想实验的范畴，推进到一张带有阶段和安全检查点的路线图里。Axios 把这条警告说得很直白：AI 很快就能帮忙打造自己的继任者。

你可以把它当成一个吓人的标题。我更愿意抓住那个已经为真、也已经有用的部分。

80% 才是真正的故事

先把曲线的远端忘掉一秒。地面上的事实是：一家前沿实验室——拥有最多上下文、押注最高、对糊弄活儿最没耐心的那群人——把自己绝大部分的代码都通过一个智能体发了出去。这不是演示。这是在最懂这个模型的地方，一种生产实践。

它告诉你，问题不再是智能体能不能写代码。它能。问题是这件事对你的工作落在哪儿产生了什么影响。

当智能体写代码时，评审就成了工作本身

如果 80% 的代码是生成的，那么你 100% 的杠杆就移到了两个地方：你要求了什么，以及**你怎么检查回来的东西。**瓶颈不再是敲字，而是变成了规格说明和验证。

这就是我相当长一段时间以来的整个工作模式。我不用手写代码；我指挥智能体，把架构、规格和质量底线攥在自己手里。而让它行得通的，不是某个聪明的提示词——而是我不会因为输出看起来对就信它。我会去验证它。智能体出代码越快，整个系统就越依赖于末端那道检查的强度。

这就是为什么 eval 思维不再是锦上添花。当一个人慢慢地写下每一行时，书写本身就是评审。当智能体在几秒内写完时，评审就必须是刻意的、独立的、可度量的——否则你只是在高速合入看起来很像样的代码。

「自我改进」应该改变你哪些习惯

不必等递归自我改进落地，这个教训才会咬人。智能体已经好到能生成远超你肉眼能扫完的量。所以：

**把规格说明当成你为之流汗的那件作品。**智能体会忠实地照你真正说出口的去做。规格含糊，代码就会自信地出错。你的精确度就是产品。
**在「生成」和「合入」之间放一道可度量的检查。**测试、eval、一个负责评审的第二个智能体——某个在代码落地之前能给出一个数字、而不是一种感觉的东西。
**盯住速率，而不只是产出。**如果生成速度在涨，而你的验证还停留在手动，这道差距就是纯粹的风险。让检查随着书写一起扩展。

实验室正在把书写它们继任者的活儿自动化。无法被自动化掉的那份人类工作，是决定应该造什么，并证明造出来的东西是对的。

底线

Anthropic 用 Claude 写了 80% 的代码，这不是关于未来的警告——而是对当下的描述。智能体已经在写代码了。递归自我改进只是把同一个旋钮往同一个方向又拧远了一点。

**随着书写被自动化，你的杠杆会坍缩到规格说明和检查这两处。**为规格流汗，在合入之前放一道可度量的关卡，让验证扩展得和生成一样快。写代码的代码，仍然需要一个能证明它是对的人。

暂无评论

登录以参与讨论。

做第一个分享想法的人。