TempMail Ninja
//

Claude Mythos: Anthropic investiga acceso no autorizado a su nuevo modelo de IA

6 min de lectura
TempMail Ninja
Claude Mythos: Anthropic investiga acceso no autorizado a su nuevo modelo de IA

El 22 de abril de 2026 quedará marcado en los anales de la ciberseguridad como el día en que la “caja de Pandora” de la inteligencia artificial fue entreabierta por manos no autorizadas. Anthropic PBC, la firma que durante años se ha posicionado como el baluarte de la seguridad y la ética en la IA, confirmó una investigación exhaustiva sobre una brecha de seguridad que afecta a su modelo más avanzado y celosamente guardado: Claude Mythos.

Este incidente no es una simple filtración de datos corporativos; representa el acceso indebido a una herramienta descrita por expertos del Reino Unido y los Estados Unidos como un “agente de explotación autónoma”. A diferencia de sus predecesores, el Claude Mythos posee capacidades técnicas para identificar y explotar vulnerabilidades de día cero (zero-day) en infraestructuras críticas sin intervención humana significativa. La confirmación de que un grupo de usuarios externos logró interactuar con el entorno de evaluación de este modelo ha enviado ondas de choque desde Silicon Valley hasta los pasillos del Pentágono.

La anatomía de la brecha: El efecto dominó de Mercor Inc.

Para entender cómo el Claude Mythos terminó en manos de un grupo de cazadores de filtraciones en Discord, debemos retroceder al 31 de marzo de 2026. En esa fecha, la startup de reclutamiento de IA valorada en 10,000 millones de dólares, Mercor Inc., sufrió un ataque masivo a su cadena de suministro. El vector de ataque fue una versión maliciosa de LiteLLM, una biblioteca de código abierto utilizada para gestionar claves de API, que fue envenenada por el grupo de amenazas conocido como TeamPCP.

La infiltración en Mercor permitió la exfiltración de 4 terabytes de datos, que incluían:

  • Credenciales de acceso de más de 40,000 contratistas.
  • Claves SSH y secretos de Kubernetes.
  • Documentación interna sobre protocolos de evaluación de modelos de IA de vanguardia.

Fue a través de esta montaña de datos robados que los atacantes lograron orquestar el acceso al “Mythos Preview”. Según los informes técnicos, los intrusos combinaron las credenciales de un contratista específico con metadatos de configuración filtrados para adivinar las convenciones de nomenclatura de los entornos de prueba de Anthropic. Este no fue un hackeo directo a los sistemas centrales de Anthropic, sino una explotación magistral de la cadena de suministro fragmentada que las grandes empresas de IA utilizan para el entrenamiento y la evaluación externa.

Claude Mythos: Un “Monstruo” en el nuevo nivel Capybara

Dentro de la jerarquía de Anthropic, el Claude Mythos no pertenece a la línea estándar de Opus, Sonnet o Haiku. Se trata de una categoría completamente nueva denominada Capybara. Este modelo fue diseñado bajo una premisa peligrosa: maximizar la capacidad de razonamiento lógico y la escritura de código hasta un punto en el que el sistema pueda entender la arquitectura profunda de un kernel de sistema operativo.

Las capacidades del Claude Mythos que han sido confirmadas mediante pruebas de red-teaming incluyen:

  • Explotación autónoma: El modelo logró identificar y explotar de forma independiente una vulnerabilidad de ejecución remota de código (RCE) de 17 años de antigüedad en FreeBSD (ahora rastreada como CVE-2026-4747).
  • Encadenamiento de vulnerabilidades: Capacidad para orquestar ataques complejos en 32 pasos, incluyendo el bypass de KASLR (Kernel Address Space Layout Randomization) y escapes de sandbox en navegadores modernos.
  • Persistencia de razonamiento: Mientras que modelos anteriores perdían el hilo tras unas horas de computación, Mythos puede mantener flujos de trabajo agentes durante días enteros, buscando fallos en millones de líneas de código.

El riesgo es evidente: una herramienta capaz de generar exploits de grado militar a un costo de menos de 2,000 dólares por sesión de entrenamiento, democratizando capacidades que antes solo poseían estados-nación como Rusia o China. Claude Mythos es, esencialmente, una fábrica de malware de alta precisión.

El dilema de Project Glasswing

Anthropic, consciente del poder destructivo de su creación, había confinado al modelo bajo una iniciativa restringida llamada Project Glasswing. Este proyecto permitía el acceso solo a un selecto grupo de socios, incluidos Apple, Goldman Sachs y organismos gubernamentales, con el fin de utilizar la IA para fortalecer las defensas cibernéticas globales. La ironía técnica es que el entorno diseñado para “asegurar el mundo” fue el que sufrió el compromiso debido a la negligencia de un tercero.

Cisma gubernamental: La NSA frente al Pentágono

La brecha del Claude Mythos ha exacerbado una tensión política que ya era insostenible. Por un lado, la Agencia de Seguridad Nacional (NSA) ha estado utilizando activamente el modelo para escanear sus propias infraestructuras y detectar debilidades antes que sus adversarios. Por otro lado, el Departamento de Defensa (DoD) calificó oficialmente a Anthropic como un “Riesgo para la Cadena de Suministro de Seguridad Nacional” a principios de 2026.

Esta contradicción interna es fascinante y aterradora. Mientras que el Pentágono exige que Anthropic elimine las restricciones éticas que impiden el uso del Claude Mythos en operaciones de vigilancia masiva y desarrollo de armas autónomas, la NSA ignora estas directrices políticas por la simple necesidad técnica de contar con la mejor defensa posible. La filtración actual pone en duda la capacidad de estas agencias para proteger incluso las herramientas con las que intentan proteger al país.

La fragilidad de la infraestructura de evaluación

Uno de los puntos más críticos revelados por esta investigación es el uso de proveedores como Mercor Inc. y la caída de startups de cumplimiento como Delve Technologies. Los investigadores de seguridad señalan que las empresas de IA están externalizando el “trabajo sucio” del etiquetado de datos y la evaluación de modelos a empresas que no cuentan con los mismos estándares de seguridad SOC2 que los laboratorios principales. El resultado es un ecosistema donde el modelo más potente del mundo puede estar a un solo token de distancia de ser comprometido a través de una biblioteca de Python de terceros mal gestionada.

¿Hacia dónde se dirige el “Mito” de Claude?

A pesar de que Anthropic asegura que no hay pruebas de que el Claude Mythos haya sido utilizado para operaciones ofensivas por parte del grupo de Discord que obtuvo el acceso, el precedente es devastador. Los atacantes demostraron que el modelo puede ser “persuadido” para realizar tareas fuera de sus guardrieles éticos si se manipulan correctamente las instrucciones en un entorno de desarrollo menos supervisado.

Para la industria de la inteligencia artificial, este incidente marca el fin de la era de la “apertura cautelosa”. Es probable que veamos un movimiento hacia el aislamiento total (air-gapping) de los modelos de nivel Capybara. Las empresas no podrán permitirse el lujo de realizar evaluaciones en entornos de terceros, lo que ralentizará la innovación pero, con suerte, evitará un desastre de ciberseguridad a escala global.

En conclusión, el caso de Claude Mythos nos obliga a replantearnos la seguridad no solo como un perímetro de firewalls, sino como una cadena humana y de software donde el eslabón más débil no es el código del modelo, sino el contratista que lo evalúa. Si una IA capaz de hackear el mundo puede ser accedida mediante el robo de credenciales de una startup secundaria, entonces no importa qué tan avanzados sean los algoritmos de seguridad; seguimos viviendo en un castillo de naipes digital donde el viento de la negligencia corporativa sopla cada vez más fuerte.

Actualización técnica: Anthropic ha anunciado que suspenderá temporalmente el acceso al Mythos Preview para todos los socios de Project Glasswing hasta que se complete una auditoría forense de todos los conectores de API de terceros. Mientras tanto, el espectro de una IA que puede encontrar fallos de 20 años en cuestión de segundos sigue rondando los foros privados de la red profunda.

TN

Escrito por

TempMail Ninja

Experto en privacidad digital y seguridad en línea. Apasionado por crear herramientas que protejan la identidad de los usuarios en internet.