EVAL · 2026年6月8日

谁来检查检查者？

谷歌做了一个会写研究论文的 AI，又做了另一个来评审论文的 AI——还有一套系统会不停修改论文，直到 AI 评审员点头通过。它很高效，也是个陷阱。当生产工作的东西和评判工作的东西共用同一个大脑，检查就成了循环：它们有同样的盲点，模型甚至更偏爱自己给的答案。「AI 说通过了所以就通过」不是验证，那只是一种智能在对自己点头。解药比 AI 还古老：评判者必须独立于制造者。

谷歌最近推出了帮助学术工作的 AI 智能体——一个生成出版级别的图表，另一个做同行评审。差不多同一时间，一个相关的研究框架迈出了那一步显而易见的下一步：它用一个模拟的 AI 评审员给论文打分，然后不停修改稿件，直到那个评审员的分数上去为止，等 AI 点头通过就接受。AI 写论文；AI 给论文打分；闭环就此合上。

这是个干净利落、效率很高的想法，也是一个即将无处不在的错误最清晰的写照。因为只要你需要检查 AI 的工作——而你总是需要——那个诱人的做法就是再找一个 AI 来检查它。这种本能就是陷阱，值得我们把它到底错在哪里弄个明白。

当检查者共用同一个大脑，检查就是循环

核心问题说白了就这么回事。如果生产工作的那个东西和评判工作的那个东西是同一个模型—— 或者是同一家族、用同样的数据以同样的方式训练出来的两个模型——它们就共用同样的盲点。生成器看不见的错误，评判者也看不见，因为它们用的是同一双眼睛在看。这种验证感觉很严谨，却什么都改变不了，因为两半在它们都搞错的那些地方达成了完全一致。

情况比「中立」还要糟。把 LLM 当评判者的研究发现一个一贯存在的 自我偏好偏差：模型会给自己的输出、以及来自自己家族的输出打更高的分—— 而且一个模型越擅长认出自己写的东西，这种偏差就越强。所以 AI 给 AI 打分，不只是在同样的地方瞎了，它还主动偏向于通过那些看起来像它自己写的东西。这个闭环不会收敛到「正确」，它会收敛到「这类模型喜欢什么」。

而且你从内部没法用工程手段绕出去。正如一份分析所说，当生成和评估发生在同一个认知空间里时，这种正当性就是循环的—— 你没法靠把模型做得更聪明、或者把评判者校准好来修复它，因为它们是同一类东西在评判自己。一个更好的大脑检查自己的作业，那也还是在检查自己的作业。

这是同一个 bug 披着十几种伪装

一旦你看出这个套路，就会发现它出现在我反复写到的所有地方。那个对着更弱的对手宣布胜利的智能体，是在给自己打分。那个捏造出一个结果还干净利落地写成报告的模型，是它自己那个靠不住的评审员。那个只会附和你的马屁精，则是这件事的社交版本。每一种情况下，失败的形状都一样：被信任来验证的那个东西，离被验证的那个东西太近了，近到抓不出错误。

所以「让 AI 来检查」并没有解决验证问题。它只是把问题挪了个地方，然后藏在一个绿色对勾后面。

独立不等于人类——它意味着不同

我想说句公道话，因为反方向矫枉过正同样是错的。把 AI 当评判者并不是没用——做对了，一个 LLM 评判者和人类评审员大约 85% 的时候意见一致，比两个人之间的一致率还高。问题从来不是「AI 不会评估」，而是评估者不能就是生成者，或者它的孪生兄弟。规则是独立，不是人类身份：

别用一个模型本身或它自己的家族来给它打分。 如果一段东西是某个模型写的，就用另一个出自不同血脉的模型来评判它。共享的训练就是共享的盲点；跨血脉的检查能抓到自我检查抓不到的东西。
把评判者锚定在真实的客观依据上，而不是凭感觉。 最强的检查不是再来一个意见—— 而是现实本身。代码真的跑起来了吗？实验复现了吗？数字和来源对得上吗？把验证接到模型认知空间之外的某样东西上，在那里，犯错会带来它没法靠嘴皮子绕过去的后果。
在要紧的事情上留个人盯着。 不是去审查每一样东西——那扩展不开—— 而是拿真实结果去校准那些自动评判者，并对那些一旦出循环错误就会变成真错误的决定负起责来。
永远不要在任何重要的事情上把闭环合死。 一个没有任何外部参照、自己生成又自己批准工作的系统，会信心十足地漂向胡言乱语，还给胡言乱语打高分。永远留一扇门，通向某样不是模型自己写出来的东西。

一句话总结

「谁来检查检查者」听起来像个谜语，但它是当下 AI 领域最实际的问题，因为整个行业正伸手去够的那个默认答案——「再来一个 AI，最好是同一个」——是错的。一个和生成者共用大脑的验证者不是检查，它是一面镜子，而镜子非常擅长告诉你你面前本来就有的东西。

所以当你需要信任 AI 的输出时，抵制住那个轻松的闭环。让评判者独立起来—— 换一个模型、一个确定性的测试、真实世界、一个人——因为验证的全部意义，就在于引入一个工作本身还不包含的视角。「AI 通过了它」只有在那个通过的 AI 本来真的有可能说不的时候，才有意义。请把系统造成它有可能说不的样子。

暂无评论

登录以参与讨论。

做第一个分享想法的人。