SECURITY · 2026年7月1日

互联网变暗了。要为一个你无法信任的网络而构建。

「死亡互联网理论」曾经只是个阴谋论式的梗。如今，既然大多数新网页都含有 AI 生成的内容，它就成了一个工程约束。你的 agent 从这样一个网络里取数据——你已经无法知道任何东西是谁、或者是什么产生的。危险不在于一切都是假的；而在于来源变得无法追溯。这意味着「它在互联网上」作为信任信号已经死了，信任必须下沉到数据层：经过签名、列入白名单、可追溯来源的数据源。

多年来，「死亡互联网理论」一直是网络上一个阴谋论角落：那种偏执的想法认为，互联网的大部分都是机器人在和机器人对话。现在这已经不是偏执了。根据一份 2025 年的分析，超过 74% 的新发布网页含有 AI 生成的内容。无论确切数字是多少，方向都无可否认：开放网络如今已是以合成内容为主——而这就把一个梗变成了一个工程问题—— 尤其是如果你构建的东西会读取网络。

问题不在于假，而在于无法追溯。

人的直觉是担心 AI 内容 是错的。但威胁并不完全在这里。其中很多内容是没问题的。真正的伤害更微妙， Andrew Stiefel 说得很好：死亡互联网「通过让一切都 无法追溯 来摧毁信任」。你再也分不清一个页面到底是什么：是人类的专业知识还是模型的输出，是真实的还是 SEO 填充料，是真实的评价还是生成的评价，是一手来源还是三跳之外、如今看起来却像引用的一次幻觉。

对一个人来说，这很烦人。对一个 agent 来说，这是结构性的。你的 RAG 流水线、你的研究 agent、你的 grounding 层—— 它们全都伸向这个网络，把内容当成信号拉进来。但「我在互联网上找到的」如今什么都不意味着了。你曾经隐含信任的那个来源，不是退化了；而是消失了。

「它在互联网上」过去是弱证据。现在它根本不是证据。网络不再是真相的来源，而变成了 看似合理的文本 的来源—— 而这恰恰正是模型本来就在产出的东西。

现在，验证来源比验证模型更重要

每个人都痴迷于模型会不会产生幻觉。但如果你把一个模型 grounding 到一个真实来源上，好让它没法瞎编，而那个「来源」本身就是来历不明的 AI 垃圾，那你就造了一台洗白机器：你把不可信的文本拿过来，给了它一个引用的权威性。一个完全诚实的模型，被 grounding 到一个被污染的网络上，产出的是自信满满、来源齐全的胡话。

所以信任问题下沉了一层。不再是「模型对不对？」，而是「我信不信这东西是从哪来的？」而在一个以合成内容为主的网络上，默认的答案是不信。

为一片黑暗森林而构建

如果来源默认已死，你就得让它变得显式、并且要靠挣得：

用白名单，别爬取加祈祷。 精心整理一组你真正核实过的来源。一个小而可信的语料库胜过开放网络，就像图书馆胜过垃圾场。
优先选签名的和一手的。 来源链、签名、第一方数据，宁要那篇真正的论文，也别要那个转述了推文的博客。尽可能贴近源头。
把取回的网页文本当成不可信的输入。 它不只是一个知识来源；它是你的 agent 吞下的、受攻击者和垃圾内容影响的内容。验证来源，而不只是验证模型。
成为一个值得被引用的来源。 一个被污染的网络的另一面是：可核实的、第一方的、真正出自人类的信号变得更有价值。成为 agent 能够信任的那个东西。

结论

网络越过了一条线：它如今大多是机器造的，而坏掉的不是准确性，而是可追溯性。如今把一个 agent grounding 到「互联网」上，就意味着把它 grounding 到一片没有出处的合成文本的汪洋大海里——而这彻底违背了 grounding 的全部意义。

别再默认信任网络。把信任下沉到数据层——白名单、签名、追溯来源——因为在一个合成的互联网上，验证来源是唯一还有意义的 grounding。

暂无评论

登录以参与讨论。

做第一个分享想法的人。