fedorthinks
全部笔记

SECURITY · 2026年7月1日

互联网变暗了。要为一个你无法信任的网络而构建。

「死亡互联网理论」曾经只是个阴谋论式的梗。如今,既然大多数新网页都含有 AI 生成的内容,它就成了一个工程约束。你的 agent 从这样一个网络里取数据——你已经无法知道任何东西是谁、或者是什么产生的。危险不在于一切都是假的;而在于来源变得无法追溯。这意味着「它在互联网上」作为信任信号已经死了,信任必须下沉到数据层:经过签名、列入白名单、可追溯来源的数据源。

互联网变暗了。要为一个你无法信任的网络而构建。

多年来,「死亡互联网理论」一直是网络上一个阴谋论角落:那种偏执的想法认为,互联网的大部分都是机器人在和机器人对话。 现在这已经不是偏执了。根据一份 2025 年的分析,超过 74% 的新发布网页含有 AI 生成的内容。 无论确切数字是多少,方向都无可否认:开放网络如今已是以合成内容为主——而这就把一个梗变成了一个工程问题—— 尤其是如果你构建的东西会 读取 网络。

问题不在于假,而在于无法追溯。

人的直觉是担心 AI 内容 是错的。但威胁并不完全在这里。其中很多内容是没问题的。真正的伤害更微妙, Andrew Stiefel 说得很好:死亡互联网「通过让一切都 无法追溯 来摧毁信任」。你再也分不清一个页面到底是什么:是人类的专业知识还是模型的输出,是真实的还是 SEO 填充料, 是真实的评价还是生成的评价,是一手来源还是三跳之外、如今看起来却像引用的一次幻觉。

对一个人来说,这很烦人。对一个 agent 来说,这是结构性的。你的 RAG 流水线、你的研究 agent、你的 grounding 层—— 它们全都伸向这个网络,把内容当成信号拉进来。但「我在互联网上找到的」如今什么都不意味着了。你曾经隐含信任的那个来源, 不是退化了;而是消失了。

「它在互联网上」过去是弱证据。现在它根本不是证据。网络不再是真相的来源,而变成了 看似合理的文本 的来源—— 而这恰恰正是模型本来就在产出的东西。

现在,验证来源比验证模型更重要

每个人都痴迷于模型会不会产生幻觉。但如果你把一个模型 grounding 到一个真实来源上,好让它没法瞎编, 而那个「来源」本身就是来历不明的 AI 垃圾,那你就造了一台洗白机器:你把不可信的文本拿过来,给了它一个引用的权威性。 一个完全诚实的模型,被 grounding 到一个被污染的网络上,产出的是自信满满、来源齐全的胡话。

所以信任问题下沉了一层。不再是「模型对不对?」,而是「我信不信这东西是从哪来的?」而在一个以合成内容为主的网络上, 默认的答案是不信。

为一片黑暗森林而构建

如果来源默认已死,你就得让它变得显式、并且要靠挣得:

  • 用白名单,别爬取加祈祷。 精心整理一组你真正核实过的来源。一个小而可信的语料库胜过开放网络,就像图书馆胜过垃圾场。
  • 优先选签名的和一手的。 来源链、签名、第一方数据,宁要那篇真正的论文,也别要那个转述了推文的博客。尽可能贴近源头。
  • 把取回的网页文本当成不可信的输入。 它不只是一个知识来源;它是你的 agent 吞下的、受攻击者和垃圾内容影响的内容。 验证来源,而不只是验证模型。
  • 成为一个值得被引用的来源。 一个被污染的网络的另一面是:可核实的、第一方的、真正出自人类的信号变得 有价值。 成为 agent 能够信任的那个东西

结论

网络越过了一条线:它如今大多是机器造的,而坏掉的不是准确性,而是可追溯性。如今把一个 agent grounding 到「互联网」上, 就意味着把它 grounding 到一片没有出处的合成文本的汪洋大海里——而这彻底违背了 grounding 的全部意义。

别再默认信任网络。把信任下沉到数据层——白名单、签名、追溯来源——因为在一个合成的互联网上,验证来源是唯一还有意义的 grounding。

评论

暂无评论

登录以参与讨论。

做第一个分享想法的人。