全部笔记
AI 编程带来的提速,比你感觉到的要小

2026年6月14日

AI 编程带来的提速,比你感觉到的要小

在一项受控研究中,经验丰富的开发者在自己的代码库上用 AI 处理复杂任务时,被测出反而更慢了——可他们全程都觉得自己快了 20%。2026 年一次方法更严谨的后续研究,得出的结论接近一个小幅的正收益,而非大收益。与此同时,约 93% 的开发者都在用 AI 工具,可整体生产力几乎没动。这一切并不是说 AI 编程是假的。它说的是:速度的「感觉」和速度的「事实」已经脱钩了,如果你凭感觉来管理,你就会管错。下面教你怎么分辨。

AI 编程里最让人不舒服的发现,并不是这些工具不管用。而是它们让你觉得自己比实际更快。

在一项如今广为人知的 METR 研究里,经验丰富的开源开发者在自己的代码仓库上分别用 AI 和不用 AI 来完成任务。他们事先预测 AI 会让自己提速 24%。事后,他们相信 AI 确实 让自己提速了大约 20%。可秒表给出的是相反的结论: 在那些任务上,他们用了 AI 反而被测出更慢了。 更慢了——却笃定自己更快了。感觉与测量之间的这道裂缝,正是这篇文章要讲的全部内容。

为什么感觉和事实会脱钩

观察自己用 AI 工作一个小时,你就会看见它。模型在几秒钟内吐出一大段看上去靠谱的代码。那 感觉 像是巨大的进展——你转眼之间就从一个空文件变出了能跑起来的东西。这种感觉掩盖掉的,是循环里剩下的部分:读那段生成的代码、揪出其中那处微妙的错误、重新提示、把它和系统里只有你才懂的那部分对上、修好那个模型看不见的集成。

快的那部分声音很大,慢的那部分悄无声息。生成是看得见的、即时的;审查和纠错是看不见的、磨人的。于是你的速度感就锚定在那一阵输出的爆发上,而把善后的部分打了折扣——而在一个你熟门熟路的代码库里做复杂任务时,善后才是时间真正花掉的地方。你并没有骗自己。你只是衡量错了这份工作的另一半。

这不是「AI 编程是假的」——而是「去量它」

下面是诚实的另一面。METR 在 2026 年初修订了那项研究: 原来的样本偏向了那些受益最少的开发者,而一个更干净的群体得出的结果大约是 4% 的拖慢——基本持平,且区间已经跨进了正收益。他们更新后的解读是,AI「很可能在 2026 年初带来了生产力上的好处」。所以教训 不是 说这些工具没用。

教训是:真实的数字温和而有条件,而被感觉到的数字庞大且恒定——而且两者还在不断背离。放眼整个行业,同样的形状一再出现: 约 93% 的开发者都在用 AI 工具,可总体生产力却几乎没动。 近乎全员采用,信号却微弱。这并不矛盾;当所有人都感觉到 20% 的提升、净下来却只剩几个百分点时,这恰恰就是你该预料到的结果。

哪里的收益是真的,哪里又是在收税

这些研究指向了一条能用的规则。AI 在那些你 尚未 装进脑子里的工作上是真的快:陌生的领域、样板代码、某样东西的初稿、你一知半解的那门语言。在那里,模型托着你走,感觉和事实是一致的。

拖慢出现在相反的工作上:在一个你了如指掌的代码库里做复杂改动。在那里,瓶颈从来都不是打字——而是理解,而理解你早就有了。模型多塞了一个来回。它生成,你核对,你纠错,可你本来直接写出那二十行你早已看清的代码会更快。如今,分清自己手头是哪一类任务,已经是这门手艺的大半。在你慢的地方去够模型;在你本来就快的地方,对它保持警惕。

归根结底

危险不在于 AI 编程帮不上忙。而在于「帮上忙的感觉」与「帮上忙的多少」是脱节的,而声音大的偏偏是感觉。凭感觉来管理,你就会把 AI 硬塞进那些它恰恰在向你收税的任务里,因为它在当下总感觉像是一场胜利。

所以去量点什么。周期时间、审查负担、缺陷数、一项任务实际花了多久而你感觉花了多久——任何真实的东西,哪怕粗糙也行。整个问题就在于,AI 哪怕没让你变快也会让你感觉变快,所以唯一能弄清楚的办法,就是去看一个数字,而不是看一种感觉。 工具是好的。你对它有多好的那份感觉,才是会撒谎的部分。

评论

暂无评论

登录以参与讨论。

做第一个分享想法的人。