fedorthinks
Todas las notas

SECURITY · 1 de julio de 2026

Internet se apagó. Construye para una web en la que no puedes confiar.

La «teoría de la internet muerta» era un meme conspiranoico. Ahora que la mayoría de las páginas web nuevas contienen contenido generado por IA, es una restricción de ingeniería. Tus agentes recuperan datos de una web donde ya no puedes saber quién — o qué — produjo nada. El peligro no es que todo sea falso; es que la procedencia se volvió incognoscible. Lo que significa que «está en internet» está muerto como señal de confianza, y la confianza tiene que bajar a la capa de datos: fuentes firmadas, en lista blanca, con procedencia rastreada.

Internet se apagó. Construye para una web en la que no puedes confiar.

La «teoría de la internet muerta» fue durante años un rincón conspiranoico de la web: la idea paranoica de que la mayor parte de internet son bots hablando con bots. Ya no es paranoia. Según un análisis de 2025, más del 74% de las páginas web recién publicadas contenían contenido generado por IA. Sea cual sea la cifra exacta, la dirección es innegable: la web abierta es ahora mayoritariamente sintética, y eso convierte un meme en un problema de ingeniería — sobre todo si construyes algo que lee la web.

El problema no es que sea falso. Es que es incognoscible.

El instinto es preocuparse por que el contenido de IA sea incorrecto. Esa no es del todo la amenaza. Buena parte está bien. El daño real es más sutil, y Andrew Stiefel lo dijo bien: la internet muerta «mata la confianza al hacer que todo sea incognoscible». Ya no puedes saber qué es una página: experiencia humana o salida de un modelo, genuina o relleno de SEO, una reseña real o una generada, una fuente primaria o una alucinación tres saltos más abajo que ahora parece una cita.

Para un humano, eso es molesto. Para un agente, es estructural. Tu pipeline de RAG, tu agente de investigación, tu capa de grounding — todos salen a esta web y tiran de contenido como si fuera señal. Pero «lo encontré en internet» ya no significa nada. La procedencia en la que confiabas implícitamente no está degradada; ha desaparecido.

«Está en internet» solía ser evidencia débil. Ahora no es evidencia. La web dejó de ser una fuente de verdad y se convirtió en una fuente de texto plausible — que es exactamente lo que un modelo ya produce.

Verificar la fuente ahora importa más que verificar el modelo

Todo el mundo se obsesiona con si el modelo alucina. Pero si aterrizas un modelo en una fuente real para que no pueda inventarse cosas, y esa «fuente» es a su vez slop de IA de origen desconocido, has construido una máquina de lavado: has cogido texto no confiable y le has dado la autoridad de una cita. Un modelo perfectamente honesto aterrizado en una web envenenada produce disparates seguros de sí mismos y bien referenciados.

Así que el problema de confianza baja una capa. No es «¿tiene razón el modelo?». Es «¿confío en de dónde vino esto?». Y en una web mayoritariamente sintética, la respuesta por defecto es no.

Construye para un bosque oscuro

Si la procedencia está muerta por defecto, tienes que hacerla explícita y ganada:

  • Usa lista blanca, no crawl-y-reza. Cura un conjunto de fuentes que hayas verificado de verdad. Un corpus pequeño y confiable le gana a la web abierta como una biblioteca le gana a un vertedero.
  • Prefiere lo firmado y lo primario. Cadenas de procedencia, firmas, datos de primera mano, el paper de verdad antes que el blog que resumió el tuit que hablaba de él. Acércate lo más posible al origen.
  • Trata el texto web recuperado como entrada no confiable. No es solo una fuente de conocimiento; es contenido influido por atacantes y por slop que tu agente ingiere. Verifica la fuente, no solo el modelo.
  • Conviértete en una fuente digna de citarse. La otra cara de una web contaminada es que la señal verificable, de primera mano y genuinamente humana se vuelve más valiosa. Sé aquello en lo que los agentes puedan confiar.

En resumen

La web cruzó una línea: ahora es mayormente hecha por máquinas, y lo que se rompió no es la exactitud, es la cognoscibilidad. Aterrizar un agente en «internet» ahora significa aterrizarlo en un océano de texto sintético sin atribución — lo que anula todo el sentido del grounding.

Deja de confiar en la web por defecto. Baja la confianza a la capa de datos — lista blanca, firma, rastrea la procedencia — porque en una internet sintética, verificar la fuente es el único grounding que todavía significa algo.

Comentarios

Aún no hay comentarios

Inicia sesión para unirte a la conversación.

Sé el primero en compartir una idea.