Inteligencia artificial y el misterio de los promptonyms: Los fantasmas de la IA

Contenido del artículo
Durante años, los investigadores forenses digitales y los usuarios curiosos de internet se enfrentaron a un misterio desconcertante: la aparición constante y sistemática de los mismos nombres ficticios en relatos de ficción, blogs de tecnología, podcasts sintéticos y, lo más preocupante, en artículos científicos publicados de forma independiente. No se trataba de una coincidencia fortuita ni de un grupo coordinado de autores reales compartiendo seudónimos en la sombra. La verdad detrás de este fenómeno reside en los motores que impulsan la inteligencia artificial moderna.
Recientemente, un revelador estudio científico y la cobertura de los principales medios tecnológicos han resuelto este enigma del internet moderno, exponiendo una debilidad estructural en el funcionamiento de los modelos de lenguaje (LLM, por sus siglas en inglés) y revelando cómo estas “parejas fantasma” están contaminando silenciosamente la web, las librerías digitales y las bases de datos académicas mundiales. Este fenómeno, lejos de ser una simple curiosidad técnica, ha abierto una ventana fascinante a la arqueología digital y a la forense de datos.
El descubrimiento de los “Promptonyms”: Los fantasmas del silicio
En un revolucionario artículo de investigación titulado “The Ghost Couple: Correlated LLM Name Priors and Their Haunting of the Web and Academic Publishing” (publicado en el repositorio arXiv por Michał Brzozowski y Neo Christopher Chung, investigadores del Samsung AI Center y la Universidad de Varsovia), se definió formalmente a estos nombres predeterminados como “promptonyms” (promptonónimos).
Cuando a un modelo de lenguaje se le pide que invente expertos ficticios, protagonistas de una historia o autores científicos sin proporcionarle instrucciones específicas sobre los nombres, el sistema no elige identidades al azar. Por el contrario, la red neuronal converge hacia “elencos de personajes” altamente correlacionados (parejas o tríos) que viajan juntos en el texto generado. Estas combinaciones no son universales, sino que son extremadamente específicas para cada familia de modelos y sus respectivas versiones:
- Claude (Anthropic): Muestra un sesgo profundamente arraigado hacia la generación de la pareja conformada por Elena Vasquez (usualmente presentada como líder de investigación o médica) y Marcus Chen (un especialista en blockchain o tecnología), frecuentemente acompañados por un tercer personaje, Amara Okafor. En versiones anteriores de Claude Sonnet, esta pareja coocurría en hasta un 23% de las solicitudes que requerían nombres de dos personas.
- Gemini (Google): Favorece de manera abrumadora a la dupla de Aris Thorne y Lena Petrova. El nivel de sesgo es tan masivo que el modelo Gemini 2.5 Flash demostró una probabilidad del 93% de elegir a Aris Thorne como su nombre predeterminado preferido.
- GPT (OpenAI): A diferencia de sus competidores, los modelos GPT tienden a producir a Elara Voss como una prioridad solitaria, sin un compañero de reparto firmemente consolidado en sus pesos de red.
La Anatomía de un Fantasma: El Elenco de la Inteligencia Artificial
¿De dónde surgen exactamente estos nombres? Los investigadores han comenzado a rastrear los orígenes lingüísticos e históricos de estas identidades virtuales. Por ejemplo, se ha hipotetizado que el nombre de Elara Voss es una mezcla lingüística de dos personajes populares de videojuegos con una inmensa presencia en foros de discusión y wikis de fanáticos: Lilian Voss (de World of Warcraft) y Elara Dorne (de Star Wars: The Old Republic).
Por otro lado, el apellido favorito de Gemini, Thorne, fue rastreado por investigadores independientes hasta una base de datos de libros de ciencia ficción alojada en Kaggle, donde el término “Dr. Thorne” aparecía más de 200 veces en las descripciones de las obras. Esto demuestra que los LLM no inventan de la nada, sino que cristalizan las distribuciones estadísticas de su masivo y a veces desbalanceado corpus de entrenamiento.
La ciencia detrás del hechizo: Eficiencia de tokens y sesgos de alineación
Para entender por qué una inteligencia artificial avanzada de última generación cae repetidamente en estos patrones repetitivos, los expertos en aprendizaje automático señalan dos dinámicas técnicas fundamentales:
1. Eficiencia y probabilidad de los Tokens
Los modelos de lenguaje no procesan palabras completas, sino subunidades llamadas “tokens”. Ciertas combinaciones de letras se tokenizan de manera excepcionalmente limpia y eficiente, requiriendo menos poder de cómputo para predecir la siguiente sílaba.
Matemáticamente, cuando el parámetro de temperatura (T) de un modelo se reduce para generar respuestas más coherentes y menos “creativas”, la distribución de probabilidad de los tokens se agudiza drásticamente. Esto se expresa mediante la función Softmax ajustada:
P(wi | contexto) = exp(zi / T) / ∑ exp(zj / T)
Al reducir la temperatura (T < 1), las variables de decisión (logits) de nombres altamente comunes y fluidos como “Elena Vasquez” o “Aris Thorne” se convierten en verdaderos “agujeros negros estadísticos” o atractores en el espacio de parámetros, absorbiendo casi cualquier otra posibilidad de generación.
2. El sesgo del entrenamiento por refuerzo (RLHF)
Durante la fase de Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF), los ingenieros y evaluadores humanos filtran y aprueban activamente las respuestas del modelo para garantizar que sean seguras, neutrales y culturalmente diversas.
Nombres como “Elena Vasquez” o “Amara Okafor” son percibidos por los evaluadores como opciones sumamente seguras, representativas y libres de cualquier connotación ofensiva, política o de marcas registradas. Una vez que el sistema aprende que estas identidades reciben altas calificaciones de seguridad, los pesos de la red se reconfiguran para priorizarlas como el “salvavidas” predeterminado ante cualquier solicitud ambigua de generación de personajes profesionales. Durante el ajuste fino, estas identidades terminan consolidándose no como variables independientes, sino como paquetes de personajes correlacionados que emergen siempre juntos.
“Acosando” al mundo real: El impacto en la academia y la literatura
Lo que comenzó como una curiosidad técnica de los modelos de inteligencia artificial se ha transformado en un vector de contaminación masiva en el ecosistema de información del mundo real. La investigación de la Universidad de Varsovia documentó la escala alarmante de esta infiltración en bases de datos que exigen la máxima rigurosidad humana:
- Polución en repositorios científicos oficiales (Zenodo): Zenodo es un repositorio académico operado por el prestigioso CERN que emite identificadores DOI oficiales y permanentes a través de DataCite. Los investigadores identificaron 1,655 artículos científicos falsos firmados por estos autores fantasma. Aunque los metadatos de los archivos afirmaban que pertenecían a revistas respetables y que habían sido publicados desde 2020, los registros inmutables de los servidores de DataCite demostraron que fueron subidos de forma masiva mediante bots automatizados en los primeros meses de 2026, registrando 991 registros fraudulentos únicamente en marzo de 2026.
- Redes de colaboración sintética en ResearchGate: En la red social científica ResearchGate, estos espectros digitales han comenzado a interactuar. Se detectaron perfiles falsos donde “Elena Vasquez” (creada por Claude) y “Aris Thorne” (creado por Gemini) figuraban como coautores conjuntos de papers científicos completamente sintéticos. Estos grupos de investigación artificiales simulan una actividad académica real y engañan a los algoritmos de indexación bibliográfica.
- Inundación del mercado editorial comercial: En plataformas de autopublicación como Amazon Kindle Direct Publishing (KDP), los investigadores descubrieron cuentas de autores ficticios generados por IA, como “Lyra Emberlyn”, bajo cuyo nombre se habían publicado 88 novelas completas protagonizadas sistemáticamente por Elena Vasquez y Marcus Chen como los héroes recurrentes de thrillers y obras de ciencia ficción.
Una herramienta inesperada para la arqueología digital
A pesar del caos que provocan en la integridad de las publicaciones científicas y literarias, los promptonyms ofrecen una ventaja imprevista para los investigadores y forenses digitales. Debido a que los desarrolladores de las empresas tecnológicas aplican parches continuos de alineación para corregir estos sesgos (en un juego interminable de “atrapar al topo”), la aparición de estas combinaciones específicas actúa como una huella digital conductual e inmutable.
Al analizar un texto que carece de atribución, la presencia del “matrimonio fantasma” de Elena Vasquez y Marcus Chen no solo confirma de inmediato que el documento fue generado por una máquina, sino que además permite determinar con precisión quirúrgica qué versión específica del modelo (por ejemplo, Claude Sonnet 4) fue utilizada y en qué ventana temporal de su despliegue fue redactado. Los promptonyms se han convertido así en la marca de agua accidental más efectiva del siglo XXI.
A medida que la automatización continúa inundando la red, el rastreo de estos fantasmas matemáticos será vital para separar el conocimiento humano real del vasto e incesante mar de datos sintéticos que amenaza con cubrir la historia digital de nuestra civilización.
Escrito por
TempMail Ninja
Experto en privacidad digital y seguridad en línea. Apasionado por crear herramientas que protejan la identidad de los usuarios en internet.


