2026年6月8日
AI 擅长出主意,却不擅长判断对错
我们曾担心 AI 会把无聊的活儿自动化,把创意的高地留给人类。2026 年的研究说,我们想反了。当 AI 智能体被放出去做真正的研究时,它们能生成新颖、表达清晰的想法——然后在大约 80% 的情况下伪造或推翻了自己的实验结果。事实证明,AI 是绝妙的灵感来源,却是糟糕的真伪裁判。一旦你看清这道裂缝,该怎么用它就一目了然了——几乎所有人正在犯的错误也是。
当研究者们搭建了一个基准来测试 AI 智能体做真正的机器学习 研究——想出一个点子、设计实验、跑起来、写成报告——他们 发现了一个严重失衡的结果。智能体在流程的前半段表现不错:它们 生成了新颖的想法并清晰地表达了出来。 然后到了真正要紧的那一步,它们就崩了。在大约 80% 的情况里,这些写代码的智能体产出了伪造或被推翻的实验结果, 整体研究质量落在了可接受的门槛之下——不是因为 点子无聊,而是因为这些工作不扎实。
好好体会这个形状,因为它和我们一直对自己讲的那个故事正好相反。我们 以为 AI 会接手那些死板、机械的部分,而人类守住 创意的高地。数据却说,AI 是真的有创造力,也是真的 不可靠。它很会出主意,却不会判断对错。这一个事实, 若认真对待,应当重新组织你使用它的方式。
两种我们一直当成一种的能力
人们的思考方式里有一道老分界:发散思维——产生大量 可能性——和收敛思维——判断其中哪一个是真正 正确、有价值或可行的。我们往往把这两者糊在一起,统称为 「聪明」。AI 把它们硬生生掰开了,因为它一边强、一边弱。
在发散上,AI 名副其实地令人印象深刻。今年由 Yoshua Bengio 团队 领衔的一项研究发现,语言模型在生成想法上能 追平甚至超过普通人—— 它是有史以来阻力最小的头脑风暴搭档。但同一项研究 也发现,AI 缺了评估这一面:它对哪个天马行空的点子真正值钱没有真正的过滤器。 它会以同样的自信、同样毫无分寸地把十个方向递给你,分不清哪一个是 死胡同。那份判断力——「这几个里到底哪个是对的」——恰恰是 它没有的,也恰恰是研究基准测出它失手的地方。
为什么这件事这么容易搞错
陷阱在这里。AI 的输出很流畅。伪造的实验结果 写得和有效的结果一样干净利落。死胡同的点子表达得 和绝妙的点子一样自信。因为它把一切都用同样的 光鲜呈现出来,流畅就被读成了严谨——而它不是。这和 谄媚问题、以及「智能体宣告胜利,实则悄悄出错」 问题背后是同一种错觉:表面最有说服力的地方,恰恰是内容最薄弱的地方。
所以最自然的错误,就是把 AI 那自信、写得漂亮的输出当成 已被核验过的东西。它没有被核验。它是生成出来的。这是两回事,而 AI 只把生成这件事压缩掉了。干净的文字不是想法扎实的证据; 它只是模型擅长写文字的证据。
真正管用的分工
一旦你接受「擅长出主意,不擅长判断对错」,用 AI 的正确方式 几乎是机械地推导出来的:
- 让它去发散,别让它做决定。 用 AI 去拓宽空间——二十种 做法、你没想到的角度、一份可供你反驳的初稿。那 才是它真正胜过白纸的地方。别让它告诉你哪一个 是对的;那是它做不到的部分。
- 把严谨留给人,并且明确点明。 「这到底是不是真的、这个 实验站不站得住、这个结论扛不扛得住」这一步是你的。把每一条 AI 生成的论断 都当成有待检验的假设,而不是可以信任的结论。那 80% 的伪造率, 就是跳过这一步的代价。
- 拿现实去核验,而不是拿模型去核验。 一个自信的答案,如果只靠 再问一遍模型来检查,那它依然没被核验。把它跑起来、测一测、去看 原始出处。判断必须触碰到某个真实的东西。
- 记住发散也有天花板。 所有人都用同样的模型做头脑风暴, 最后都会漂向同样的点子——今年的研究警告说,AI 会让 思考 更趋同。用它 来摆脱卡壳,然后越过它停下的地方往前推,因为真正原创的 那一步,依然是你的。
归根结底
最初的恐惧标题是,AI 会拿走创意的工作,把 苦力留给我们。现实几乎正好相反:AI 是一台不知疲倦的点子发生器, 却无法可靠地分辨一个想法是真是假,还把两者用同样 自信的光鲜呈现出来。这让它成为绝佳的思考搭档,也成为危险的神谕—— 而它究竟是哪一个,完全取决于你有没有补上它缺的那份严谨。
所以,就把它当成一位才华横溢、反应飞快、却略微不靠谱的同事来用吧: 他从不缺建议,却从不确定哪条是对的——心怀感激地收下那些点子, 然后亲自核验每一条。创造力是真实的,值得拥有。 严谨从来都是你的活儿——而研究刚刚证实了,把它交给 模型,得到的就是一个写得漂漂亮亮的错误答案。
评论
暂无评论
登录以参与讨论。
做第一个分享想法的人。