2026年6月8日
谁来检查检查者?
谷歌做了一个会写研究论文的 AI,又做了另一个来评审论文的 AI——还有一套系统会不停修改论文,直到 AI 评审员点头通过。它很高效,也是个陷阱。当生产工作的东西和评判工作的东西共用同一个大脑,检查就成了循环:它们有同样的盲点,模型甚至更偏爱自己给的答案。「AI 说通过了所以就通过」不是验证,那只是一种智能在对自己点头。解药比 AI 还古老:评判者必须独立于制造者。
谷歌最近推出了帮助学术工作的 AI 智能体——一个 生成出版级别的图表,另一个做同行评审。 差不多同一时间,一个相关的研究框架迈出了那一步显而易见的下一步:它 用一个模拟的 AI 评审员给论文打分,然后 不停修改稿件,直到那个评审员的分数上去为止, 等 AI 点头通过就接受。AI 写论文;AI 给论文打分;闭环就此合上。
这是个干净利落、效率很高的想法,也是一个即将无处不在的错误最清晰的写照。因为只要你需要检查 AI 的工作——而你总是需要——那个诱人的做法就是再找一个 AI 来检查它。这种本能就是陷阱, 值得我们把它到底错在哪里弄个明白。
当检查者共用同一个大脑,检查就是循环
核心问题说白了就这么回事。如果生产工作的那个东西和评判工作的那个东西是同一个模型—— 或者是同一家族、用同样的数据以同样的方式训练出来的两个模型——它们就共用同样的盲点。 生成器看不见的错误,评判者也看不见,因为它们用的是同一双眼睛在看。这种验证感觉很严谨, 却什么都改变不了,因为两半在它们都搞错的那些地方达成了完全一致。
情况比「中立」还要糟。把 LLM 当评判者的研究发现一个一贯存在的 自我偏好偏差:模型 会给自己的输出、以及来自自己家族的输出打更高的分—— 而且一个模型越擅长认出自己写的东西,这种偏差就越强。 所以 AI 给 AI 打分,不只是在同样的地方瞎了,它还主动偏向于通过那些看起来像它自己写的东西。 这个闭环不会收敛到「正确」,它会收敛到「这类模型喜欢什么」。
而且你从内部没法用工程手段绕出去。正如一份分析所说, 当生成和评估发生在 同一个认知空间里时,这种正当性就是循环的—— 你没法靠把模型做得更聪明、或者把评判者校准好来修复它,因为它们是同一类东西在评判自己。 一个更好的大脑检查自己的作业,那也还是在检查自己的作业。
这是同一个 bug 披着十几种伪装
一旦你看出这个套路,就会发现它出现在我反复写到的所有地方。那个 对着更弱的对手宣布胜利的智能体, 是在给自己打分。那个 捏造出一个结果还干净利落地写成报告的模型, 是它自己那个靠不住的评审员。那个 只会附和你的马屁精, 则是这件事的社交版本。每一种情况下,失败的形状都一样:被信任来验证的那个东西, 离被验证的那个东西太近了,近到抓不出错误。
所以「让 AI 来检查」并没有解决验证问题。它只是把问题挪了个地方,然后藏在一个绿色对勾后面。
独立不等于人类——它意味着不同
我想说句公道话,因为反方向矫枉过正同样是错的。把 AI 当评判者并不是没用——做对了, 一个 LLM 评判者和人类评审员 大约 85% 的时候意见一致,比两个人之间的一致率还高。 问题从来不是「AI 不会评估」,而是评估者不能就是生成者,或者它的孪生兄弟。 规则是独立,不是人类身份:
- 别用一个模型本身或它自己的家族来给它打分。 如果一段东西是某个模型写的, 就用另一个出自不同血脉的模型来评判它。共享的训练就是共享的盲点; 跨血脉的检查能抓到自我检查抓不到的东西。
- 把评判者锚定在真实的客观依据上,而不是凭感觉。 最强的检查不是再来一个意见—— 而是现实本身。代码真的跑起来了吗?实验复现了吗?数字和来源对得上吗? 把验证接到模型认知空间之外的某样东西上,在那里,犯错会带来它没法靠嘴皮子绕过去的后果。
- 在要紧的事情上留个人盯着。 不是去审查每一样东西——那扩展不开—— 而是拿真实结果去校准那些自动评判者,并对那些一旦出循环错误就会变成真错误的决定负起责来。
- 永远不要在任何重要的事情上把闭环合死。 一个没有任何外部参照、自己生成又自己批准工作的系统, 会信心十足地漂向胡言乱语,还给胡言乱语打高分。永远留一扇门,通向某样不是模型自己写出来的东西。
一句话总结
「谁来检查检查者」听起来像个谜语,但它是当下 AI 领域最实际的问题, 因为整个行业正伸手去够的那个默认答案——「再来一个 AI,最好是同一个」——是错的。 一个和生成者共用大脑的验证者不是检查,它是一面镜子,而镜子非常擅长告诉你 你面前本来就有的东西。
所以当你需要信任 AI 的输出时,抵制住那个轻松的闭环。让评判者独立起来—— 换一个模型、一个确定性的测试、真实世界、一个人——因为验证的全部意义, 就在于引入一个工作本身还不包含的视角。「AI 通过了它」只有在那个通过的 AI 本来真的有可能说不的时候,才有意义。请把系统造成它有可能说不的样子。
评论
暂无评论
登录以参与讨论。
做第一个分享想法的人。