Claude Mythos: Anthropic restringe su IA por graves riesgos de ciberseguridad

10 abr 2026

6 min de lectura

TempMail Ninja

Claude Mythos: Anthropic restringe su IA por graves riesgos de ciberseguridad

Contenido del artículo

En el panorama de la inteligencia artificial, rara vez un desarrollo tecnológico logra detener el aliento de la comunidad global de ciberseguridad con tanta intensidad como lo ha hecho el anuncio de Claude Mythos. En abril de 2026, Anthropic, una de las firmas más influyentes en el desarrollo de modelos de lenguaje de gran escala (LLM), ha marcado un antes y un después no por lo que ha lanzado al mercado, sino por lo que ha decidido, de manera deliberada y urgente, mantener bajo un control estricto.

La revelación de Claude Mythos no es un simple paso adelante en la capacidad de generación de texto o de razonamiento lógico; es, según los expertos, una ruptura traumática del equilibrio existente entre la seguridad ofensiva y defensiva. Por primera vez, una IA ha demostrado una competencia autónoma superior a la de la mayoría de los expertos humanos en la identificación, análisis y, más preocupante aún, la explotación de vulnerabilidades de software. Ante esta realidad, el ecosistema digital se enfrenta a una pregunta existencial: ¿estamos preparados para una era donde el código, incluso el más robusto, puede ser desmantelado por una máquina en cuestión de minutos?

La “caja de Pandora” de Claude Mythos

Lo que diferencia a Claude Mythos de sus predecesores es su capacidad de ejecución autónoma en el dominio cibernético. Los informes técnicos internos de Anthropic, obtenidos tras un extenso proceso de red-teaming (pruebas de penetración simuladas), revelan una capacidad sorprendente para identificar fallos de seguridad sin intervención humana directa tras la instrucción inicial. Estamos hablando de un modelo que no solo “entiende” el código, sino que puede manipularlo para obtener privilegios, escapar de sandboxes y ejecutar código remoto de forma eficiente.

Los hallazgos son alarmantes por su alcance y profundidad:

Explotación multi-capa: Mythos ha demostrado la capacidad de encadenar vulnerabilidades distintas en los principales sistemas operativos y navegadores web, logrando escapar de mecanismos de seguridad críticos, como las protecciones de memoria y el aislamiento de procesos.
Hallazgos históricos: El modelo ha logrado identificar vulnerabilidades que habían permanecido ocultas durante décadas. Un ejemplo documentado es un fallo de seguridad de 27 años en OpenBSD y una vulnerabilidad en FFmpeg que había superado millones de pruebas automatizadas anteriores.
Autonomía en el desarrollo de exploits: A diferencia de modelos anteriores que requerían una guía constante, Mythos puede recibir un identificador de CVE (Common Vulnerabilities and Exposures) y, por sí solo, generar un exploit funcional, reduciendo un proceso que solía tomar días de investigación experta a apenas unas horas de razonamiento algorítmico.

El potencial de riesgo es, sencillamente, incalculable. Si estas capacidades cayeran en manos malintencionadas —ya sean actores estatales, grupos de ciberdelincuencia organizada o agentes solitarios— la estabilidad de la infraestructura crítica mundial podría colapsar. La posibilidad de que sistemas financieros, redes hospitalarias o infraestructuras de energía se vean vulneradas por exploits generados en tiempo real ha forzado a los reguladores estadounidenses y a las autoridades financieras a tomar medidas inmediatas.

Project Glasswing: Una carrera contra el tiempo

Reconociendo el riesgo sistémico que representa su propia creación, Anthropic ha lanzado Project Glasswing. Esta iniciativa no es una estrategia de marketing, sino un despliegue de gestión de crisis a nivel industrial. La premisa es simple pero contundente: antes de que las capacidades de Mythos se democraticen y lleguen a sectores donde no existen salvaguardas éticas, las organizaciones que sustentan la infraestructura digital del mundo deben tener acceso a esta tecnología para endurecer sus perímetros defensivos.

La lista de socios de Project Glasswing es una “quién es quién” del sector tecnológico y financiero, lo que subraya la magnitud de la amenaza:

Gigantes tecnológicos: Apple, Google, Microsoft, Amazon Web Services, Nvidia.
Líderes en ciberseguridad: CrowdStrike, Palo Alto Networks, Cisco.
Infraestructura crítica y finanzas: JPMorgan Chase, junto con el apoyo de la Linux Foundation.

La estrategia es clara: utilizar la potencia de ataque de Claude Mythos como una herramienta de auditoría automatizada sin precedentes. Al exponer el software a un “atacante” con capacidades sobrehumanas, los desarrolladores pueden identificar y parchear fallos antes de que un actor externo pueda descubrirlos. Anthropic ha comprometido 100 millones de dólares en créditos de uso del modelo y millones adicionales en donaciones directas para fortalecer la seguridad del software de código abierto, reconociendo que los cimientos de nuestra infraestructura son compartidos y, a menudo, los más vulnerables.

Implicaciones sistémicas para la ciberseguridad

La existencia de este modelo fuerza una reevaluación drástica de la “seguridad mediante el diseño”. Históricamente, el parcheo de software se basaba en una cadencia reactiva: se descubre un bug, se analiza, se crea un parche y se despliega. Este ciclo es, a todas luces, demasiado lento para la era de la inteligencia artificial.

La adopción de Claude Mythos por parte de los defensores cambia la economía del ciberataque. El coste de descubrir un exploit ha caído vertiginosamente. Esto significa que los defensores ya no pueden confiar en la complejidad del código como una forma de seguridad (security through obscurity). En un entorno donde una IA puede mapear un sistema complejo en minutos, la única defensa es la higiene cibernética rigurosa, la automatización defensiva y la reducción proactiva de la superficie de ataque.

Los reguladores y funcionarios del Departamento del Tesoro de los Estados Unidos, quienes mantuvieron reuniones de emergencia el pasado 10 de abril, están lidiando con la realidad de que la estabilidad financiera global depende ahora, en gran medida, de qué tan rápido puedan los bancos y las instituciones gubernamentales integrar este tipo de IA en sus defensas. El riesgo no es solo la pérdida de datos; es la desestabilización del sistema financiero en su conjunto si los protocolos de seguridad que protegen las transacciones interbancarias se revelan como obsoletos frente a la capacidad de razonamiento de Mythos.

La delgada línea entre la protección y el peligro

A pesar del optimismo que rodea a Project Glasswing, la comunidad científica permanece dividida. Algunos argumentan que Anthropic ha hecho lo correcto al mantener Claude Mythos fuera del acceso público, mientras que otros señalan que la existencia de este modelo sugiere que la carrera armamentista en IA ha llegado a un punto de inflexión. ¿Es posible, realmente, controlar la proliferación de capacidades de hacking autónomo?

La historia de la tecnología nos enseña que las capacidades avanzadas, una vez descubiertas, rara vez se quedan confinadas a un grupo selecto de socios. La pregunta no es si otros actores —ya sean otros laboratorios de IA, gobiernos extranjeros o grupos de código abierto— desarrollarán modelos con capacidades similares a las de Claude Mythos, sino cuándo ocurrirá. La transparencia y la colaboración promovidas por Anthropic a través de su iniciativa son encomiables, pero el desafío es monumental.

La ciberseguridad ya no es solo una disciplina técnica; es una preocupación de seguridad nacional y estabilidad macroeconómica. La era de la IA-as-a-weapon ya no es una hipótesis de ciencia ficción; está aquí. Los próximos meses, a medida que los socios de Project Glasswing comiencen a integrar el modelo en sus flujos de trabajo, serán críticos para observar si la ventaja competitiva de los defensores puede sostenerse frente a la creciente marea de la IA automatizada.

En última instancia, el éxito de esta iniciativa no se medirá solo por los bugs encontrados, sino por la resiliencia que se logre construir en los sistemas que definen nuestra sociedad moderna. Como bien ha señalado la industria, el futuro de nuestra seguridad digital depende de qué tan rápido podamos usar la inteligencia artificial para sanar los sistemas que, durante décadas, hemos construido sobre bases que apenas estamos comprendiendo hoy.