Sitios generados por IA: El estudio de Stanford sobre el internet de dos niveles

Contenido del artículo
El 28 de abril de 2026 quedará marcado en los anales de la tecnología como el día en que la ciencia confirmó lo que muchos usuarios ya sospechaban: la red tal como la conocíamos ha dejado de ser un espacio puramente humano. Un exhaustivo estudio de la Universidad de Stanford, liderado por el investigador Jonáš Doležal, ha revelado que aproximadamente el 35% de los nuevos sitios generados por IA creados desde mediados de 2025 operan de manera autónoma, redefiniendo la arquitectura misma del conocimiento digital. Este hallazgo no solo describe un cambio estadístico, sino el nacimiento de un “internet de dos niveles” donde el contenido sintético ha comenzado a devorar los cimientos de la diversidad semántica.
La investigación, que analizó millones de instantáneas de sitios web en colaboración con el Internet Archive y el Imperial College de Londres, expone una realidad asombrosa: el volumen de publicaciones generadas por inteligencia artificial superó a las humanas en noviembre de 2024. Lo que comenzó como una curiosidad técnica tras el lanzamiento de ChatGPT a finales de 2022, se ha convertido en la transformación tecnológica más rápida en la historia de la humanidad, superando con creces la adopción de la banda ancha o la telefonía móvil.
La anatomía de los sitios generados por IA y el internet invisible
El concepto más provocador introducido por Doležal es la existencia de una “capa invisible” de la web. Según el estudio, aunque los sitios generados por IA se indexan masivamente, una gran parte de ellos permanece oculta para el descubrimiento humano tradicional. Esto crea una división estructural en la red:
- Nivel Visible: Contenido centrado en el humano, curado editorialmente, que domina las primeras páginas de los motores de búsqueda tradicionales.
- Nivel Invisible: Un ecosistema masivo de nodos no humanos, artículos optimizados para algoritmos y sitios espejo que, si bien mantienen altas tasas de citación, rara vez son visitados por personas reales a través de búsquedas orgánicas.
Este “internet invisible” no es necesariamente un vertedero de spam de baja calidad. Los investigadores de Stanford utilizaron herramientas de detección avanzada como Pangram v3 para identificar estos sitios, descubriendo que muchos mantienen un rigor técnico sorprendente. Sin embargo, su propósito no es la comunicación con un par humano, sino la alimentación cruzada de datos y la optimización de métricas de autoridad para otros sistemas de inteligencia artificial.
Diversidad semántica: El riesgo de la homogeneización del pensamiento
Uno de los puntos más críticos del estudio es la reducción de la diversidad semántica. Al analizar los patrones lingüísticos de los sitios generados por IA, el equipo de Doležal encontró una tendencia hacia la “convergencia lingüística”. Los grandes modelos de lenguaje (LLM) tienden a agruparse en torno a patrones sintácticos similares, lo que resulta en una web más uniforme, menos verbosa y con un tono que los investigadores describen como “anómalamente alegre”.
Esta falta de “fricción” cognitiva es preocupante. Mientras que el contenido humano suele presentar irregularidades, opiniones polarizadas y una riqueza de matices culturales, el contenido sintético tiende a ser aséptico y predecible. La preocupación no es solo estética; es epistémica. Si el 35% de la infraestructura de la información está siendo dictada por modelos que reutilizan sus propios datos, corremos el riesgo de entrar en un ciclo de colapso de modelo, donde la IA se entrena con los errores y sesgos de otras IA, aplanando la creatividad humana en el proceso.
Desmintiendo mitos: Veracidad y Citación en la era sintética
A pesar de las advertencias, el estudio de Stanford también arrojó datos contraintuitivos que desafían la visión apocalíptica del “Internet Muerto”. Muchos expertos predecían que la explosión de sitios generados por IA resultaría en una ola masiva de desinformación y enlaces rotos. Los datos de 2026 dicen lo contrario:
- Tasas de citación: Los sitios de IA muestran niveles de citación externa que rivalizan con los de expertos humanos, lo que sugiere que los modelos actuales han sido afinados para respaldar sus afirmaciones con fuentes verificables.
- Integridad de datos: La hipótesis del “Decaimiento de la Verdad” (Truth Decay) no se confirmó plenamente. Los investigadores no hallaron un aumento significativo en afirmaciones falsas verificables en comparación con los sitios creados por humanos.
- Densidad de enlaces: La estructura de enlaces salientes de la IA es más densa y sistemática, facilitando la indexación profunda aunque el contenido sea semánticamente monótono.
Jonáš Doležal señala que el problema real no es la mentira deliberada, sino la “esterilidad informativa”. Un sitio web puede ser 100% veraz pero carecer de cualquier perspectiva nueva o interpretación original, actuando simplemente como un repetidor de conocimientos preexistentes.
El desafío del SEO y la visibilidad humana
Para los creadores de contenido y marcas, el auge de los sitios generados por IA ha cambiado las reglas del juego del posicionamiento. Datos recientes de firmas como Graphite indican que, aunque el volumen de contenido sintético es masivo, Google y otros motores de búsqueda han logrado blindar el 86% de sus resultados de búsqueda de primer nivel para contenidos de autoría humana.
Sin embargo, la batalla se está desplazando hacia los “motores de respuesta” como Perplexity o las vistas generales de IA de Google. En estos entornos, la visibilidad ya no se mide por clics, sino por la inclusión semántica. Ser citado por una IA es ahora tan valioso como aparecer en el primer puesto de una lista de enlaces. Esto ha llevado a las empresas a desarrollar estrategias de “scaffolding semántico”, estructurando su información de manera que sea fácilmente digerible por los rastreadores no humanos, alimentando así la capa invisible de la que habla Stanford.
Monitoreo continuo: ¿Cómo se adaptará la cultura digital?
La investigación de Stanford no termina con la publicación del estudio. El equipo ha anunciado la creación de herramientas de monitoreo continuo en tiempo real para observar cómo evoluciona la cultura digital en un entorno donde la mayoría de los nuevos nodos son actores no humanos. Este observatorio permitirá rastrear la “deriva lingüística” y detectar cuándo la uniformidad de la IA comienza a afectar negativamente los procesos educativos o la formación de la opinión pública.
El impacto de la IA en la creación de sitios web ya no es una tendencia de futuro; es el sustrato actual. El hecho de que el 35% de los nuevos dominios sean autónomos implica que estamos delegando la memoria colectiva a procesos estocásticos. La pregunta que Doležal deja en el aire es: si el internet invisible sigue creciendo a este ritmo, ¿cuánto tiempo pasará antes de que la capa humana sea solo una pequeña isla en un océano de datos sintéticos?
Hacia una “fricción” intencional
Como solución al aplanamiento del contenido, algunos investigadores proponen reintroducir la “fricción” en los modelos de lenguaje. En lugar de generar respuestas perfectamente complacientes y pulidas, los futuros sitios generados por IA podrían programarse para adoptar personalidades distintas, voces regionales y niveles de complejidad que imiten mejor la diversidad humana. Esta técnica, conocida como “muestreo verbalizado”, busca romper la monotonía estadística y preservar la riqueza del lenguaje.
Mientras tanto, el papel del editor humano evoluciona hacia el de un “curador de algoritmos”. La capacidad de distinguir entre el contenido “cheery” y eficiente de la IA y la profundidad desordenada del pensamiento humano se convertirá en la habilidad más valorada de la década. Los sitios generados por IA podrán dominar el volumen, pero la relevancia, por ahora, sigue siendo una moneda estrictamente humana.
Conclusión: La nueva normalidad del ecosistema digital
Estamos ante un cambio de paradigma que redefine el significado de “ser visible” en la red. El estudio de Stanford es un recordatorio de que la tecnología no solo amplifica lo que hacemos, sino que altera el terreno donde lo hacemos. Con un 35% de la nueva web operando bajo la lógica de la inteligencia artificial, el internet de 2026 ya no es un espejo de nuestra sociedad, sino una entidad híbrida.
La coexistencia en este internet de dos niveles exigirá nuevas alfabetizaciones digitales. Tendremos que aprender a navegar en la capa invisible y, sobre todo, a proteger la diversidad semántica que hace que la comunicación humana sea, por definición, impredecible y única. La IA ha tomado el control del volumen; nos corresponde a los humanos mantener el control del significado.
Escrito por
TempMail Ninja
Experto en privacidad digital y seguridad en línea. Apasionado por crear herramientas que protejan la identidad de los usuarios en internet.


