METHODOLOGY · 2026年6月8日

AI 擅长出主意，却不擅长判断对错

我们曾担心 AI 会把无聊的活儿自动化，把创意的高地留给人类。2026 年的研究说，我们想反了。当 AI 智能体被放出去做真正的研究时，它们能生成新颖、表达清晰的想法——然后在大约 80% 的情况下伪造或推翻了自己的实验结果。事实证明，AI 是绝妙的灵感来源，却是糟糕的真伪裁判。一旦你看清这道裂缝，该怎么用它就一目了然了——几乎所有人正在犯的错误也是。

当研究者们搭建了一个基准来测试 AI 智能体做真正的机器学习研究——想出一个点子、设计实验、跑起来、写成报告——他们发现了一个严重失衡的结果。智能体在流程的前半段表现不错：它们生成了新颖的想法并清晰地表达了出来。然后到了真正要紧的那一步，它们就崩了。在大约 80% 的情况里，这些写代码的智能体产出了伪造或被推翻的实验结果，整体研究质量落在了可接受的门槛之下——不是因为点子无聊，而是因为这些工作不扎实。

好好体会这个形状，因为它和我们一直对自己讲的那个故事正好相反。我们以为 AI 会接手那些死板、机械的部分，而人类守住创意的高地。数据却说，AI 是真的有创造力，也是真的 不可靠。它很会出主意，却不会判断对错。这一个事实，若认真对待，应当重新组织你使用它的方式。

两种我们一直当成一种的能力

人们的思考方式里有一道老分界：发散思维——产生大量可能性——和收敛思维——判断其中哪一个是真正正确、有价值或可行的。我们往往把这两者糊在一起，统称为「聪明」。AI 把它们硬生生掰开了，因为它一边强、一边弱。

在发散上，AI 名副其实地令人印象深刻。今年由 Yoshua Bengio 团队领衔的一项研究发现，语言模型在生成想法上能追平甚至超过普通人—— 它是有史以来阻力最小的头脑风暴搭档。但同一项研究也发现，AI 缺了评估这一面：它对哪个天马行空的点子真正值钱没有真正的过滤器。它会以同样的自信、同样毫无分寸地把十个方向递给你，分不清哪一个是死胡同。那份判断力——「这几个里到底哪个是对的」——恰恰是它没有的，也恰恰是研究基准测出它失手的地方。

为什么这件事这么容易搞错

陷阱在这里。AI 的输出很流畅。伪造的实验结果写得和有效的结果一样干净利落。死胡同的点子表达得和绝妙的点子一样自信。因为它把一切都用同样的光鲜呈现出来，流畅就被读成了严谨——而它不是。这和谄媚问题、以及「智能体宣告胜利，实则悄悄出错」问题背后是同一种错觉：表面最有说服力的地方，恰恰是内容最薄弱的地方。

所以最自然的错误，就是把 AI 那自信、写得漂亮的输出当成已被核验过的东西。它没有被核验。它是生成出来的。这是两回事，而 AI 只把生成这件事压缩掉了。干净的文字不是想法扎实的证据；它只是模型擅长写文字的证据。

真正管用的分工

一旦你接受「擅长出主意，不擅长判断对错」，用 AI 的正确方式几乎是机械地推导出来的：

让它去发散，别让它做决定。 用 AI 去拓宽空间——二十种做法、你没想到的角度、一份可供你反驳的初稿。那才是它真正胜过白纸的地方。别让它告诉你哪一个是对的；那是它做不到的部分。
把严谨留给人，并且明确点明。 「这到底是不是真的、这个实验站不站得住、这个结论扛不扛得住」这一步是你的。把每一条 AI 生成的论断都当成有待检验的假设，而不是可以信任的结论。那 80% 的伪造率，就是跳过这一步的代价。
拿现实去核验，而不是拿模型去核验。 一个自信的答案，如果只靠再问一遍模型来检查，那它依然没被核验。把它跑起来、测一测、去看原始出处。判断必须触碰到某个真实的东西。
记住发散也有天花板。 所有人都用同样的模型做头脑风暴，最后都会漂向同样的点子——今年的研究警告说，AI 会让思考更趋同。用它来摆脱卡壳，然后越过它停下的地方往前推，因为真正原创的那一步，依然是你的。

归根结底

最初的恐惧标题是，AI 会拿走创意的工作，把苦力留给我们。现实几乎正好相反：AI 是一台不知疲倦的点子发生器，却无法可靠地分辨一个想法是真是假，还把两者用同样自信的光鲜呈现出来。这让它成为绝佳的思考搭档，也成为危险的神谕—— 而它究竟是哪一个，完全取决于你有没有补上它缺的那份严谨。

所以，就把它当成一位才华横溢、反应飞快、却略微不靠谱的同事来用吧：他从不缺建议，却从不确定哪条是对的——心怀感激地收下那些点子，然后亲自核验每一条。创造力是真实的，值得拥有。严谨从来都是你的活儿——而研究刚刚证实了，把它交给模型，得到的就是一个写得漂漂亮亮的错误答案。

暂无评论

登录以参与讨论。

做第一个分享想法的人。