Claude Mythos: Hallazgo de vulnerabilidades en Firefox y filtración de Anthropic

23 abr 2026

7 min de lectura

TempMail Ninja

Claude Mythos: Hallazgo de vulnerabilidades en Firefox y filtración de Anthropic

Contenido del artículo

El panorama de la ciberseguridad global ha experimentado lo que muchos expertos ya califican como un “punto de no retorno”. El 23 de abril de 2026 quedará marcado en los registros tecnológicos no solo por el lanzamiento de un parche masivo de software, sino por la consolidación de una nueva era: la de la validación de seguridad impulsada por inteligencia artificial autónoma. En el centro de este huracán se encuentra Claude Mythos, el modelo de frontera más restrictivo y potente de Anthropic hasta la fecha, cuya capacidad para razonar sobre código complejo ha dejado obsoletos los métodos tradicionales de revisión humana.

La noticia estalló cuando Mozilla confirmó que una evaluación inicial de su navegador utilizando Claude Mythos permitió la identificación de 271 vulnerabilidades previamente desconocidas en Firefox versión 148. Este hallazgo, sin precedentes por su volumen y profundidad, obligó a la organización a acelerar el despliegue de Firefox 150 para mitigar riesgos que, de otro modo, habrían permanecido latentes durante años. Sin embargo, el triunfo técnico se ha visto empañado por un escándalo de seguridad: el acceso no autorizado al propio modelo por parte de un grupo privado, exponiendo la fragilidad de las cadenas de suministro incluso para los gigantes de la IA.

La anatomía del hallazgo: 271 grietas en el muro de Firefox

Para entender la magnitud del evento, es necesario contrastarlo con los esfuerzos previos. A principios de 2026, Mozilla había colaborado con Anthropic utilizando el modelo Claude Opus 4.6, el cual logró identificar 22 fallos de seguridad sensibles. En ese momento, 22 vulnerabilidades en un software tan maduro y auditado como Firefox ya se consideraba un éxito rotundo. No obstante, Claude Mythos ha pulverizado esa cifra al encontrar más de diez veces esa cantidad en un solo pase de evaluación.

Bobby Holley, CTO de Firefox, describió la situación como un “momento de vértigo”. Según Holley, el descubrimiento de 271 fallos en un objetivo tan fortificado no es solo una métrica; es una señal de que la superficie de ataque es mucho más amplia y rápidamente descubrible de lo que la industria había asumido. Los detalles técnicos revelan la sofisticación del modelo:

CVE-2026-6746 (Gravedad Alta): Una vulnerabilidad de corrupción de memoria que permitía la ejecución remota de código en condiciones específicas de renderizado.
CVE-2026-6757 y CVE-2026-6758 (Gravedad Media): Fallos relacionados con el aislamiento de procesos y la gestión de permisos en el motor de JavaScript.
Vulnerabilidades de “lógica de negocio”: Mythos logró identificar fallos que no dependen de errores de sintaxis, sino de interacciones complejas entre componentes que el fuzzing tradicional suele pasar por alto.

Lo más inquietante para los defensores es que, según el reporte oficial, “ninguna de las fallas encontradas por Mythos era imposible de detectar por un humano de élite, pero ningún equipo humano podría haberlas encontrado todas de forma tan masiva y veloz”. Esto marca el fin de la ventaja del atacante basada en el tiempo y el esfuerzo concentrado.

¿Por qué Claude Mythos es diferente? El salto al razonamiento agéntico

A diferencia de las herramientas de escaneo convencionales o los modelos de lenguaje anteriores, Claude Mythos no se limita a buscar patrones de código inseguro. Anthropic ha diseñado este modelo con un enfoque en el razonamiento de cadena de pensamiento (Chain-of-Thought) aplicado a dominios adversarios. Mientras que un fuzzer estándar inyecta datos aleatorios hasta que el sistema falla, Mythos “lee” el código, entiende la intención del desarrollador y formula hipótesis sobre dónde podrían existir debilidades estructurales.

Los benchmarks de Mythos son, por decir lo menos, aterradores para la vieja guardia de la seguridad:

SWE-bench: Logró un puntaje de 93.9%, demostrando una capacidad casi humana para resolver problemas de ingeniería de software autónomamente.
Capacidad de explotación: Dentro del shell de JavaScript de Firefox, el modelo convirtió el 72.4% de las vulnerabilidades detectadas en exploits funcionales, logrando el control de registros en un 11.6% adicional de los intentos.
Arqueología de código: Mythos ha desenterrado fallos que sobrevivieron décadas, incluyendo un bug de 27 años en OpenBSD y uno de 17 años en FreeBSD, demostrando que su capacidad de análisis trasciende las herramientas de auditoría estática modernas.

Esta capacidad de “razonamiento profundo” es lo que lo clasifica como un modelo de clase adversarial. No solo identifica el problema, sino que puede encadenar múltiples vulnerabilidades menores para construir un ataque devastador de varias etapas.

El incidente Mercor: Cuando la seguridad de la IA falla

Irónicamente, el modelo diseñado para asegurar el software del mundo ha sufrido su propio revés de seguridad. El 22 de abril, Anthropic confirmó que está investigando un acceso no autorizado a la versión preview de Claude Mythos. Lo que hace este incidente particularmente pedagógico para los CISO (Chief Information Security Officers) es cómo ocurrió: no fue un hackeo sofisticado a la infraestructura central de Anthropic, sino una falla en la cadena de suministro de talento y datos.

El acceso fue obtenido por un grupo privado a través de credenciales comprometidas de un contratista externo encargado de evaluar el modelo. Este grupo utilizó datos filtrados de una brecha previa en Mercor, una startup de reclutamiento y entrenamiento de IA. Al combinar esta información, los intrusos pudieron deducir la ubicación técnica del modelo y saltarse los perímetros de seguridad habituales.

Aunque el grupo implicado ha declarado que solo están “experimentando” con las capacidades del modelo y no lo han utilizado con fines ofensivos, el precedente es peligroso. Si un grupo de entusiastas en Discord pudo acceder a la joya de la corona de Anthropic mediante ingeniería social y ataques de cadena de suministro, ¿qué podrían hacer los actores estatales con recursos ilimitados? Este evento subraya que, en 2026, el modelo de IA es en sí mismo una superficie de ataque de alto valor.

Project Glasswing: El dilema del “uso dual”

Ante el riesgo de que una herramienta tan potente caiga en manos equivocadas, Anthropic ha lanzado Project Glasswing, una iniciativa de 100 millones de dólares para controlar el despliegue de Mythos. El acceso está restringido a un grupo selecto de socios estratégicos, entre los que se encuentran Apple, Amazon, Cisco, CrowdStrike y JPMorgan Chase, además de organizaciones como la Linux Foundation.

El objetivo es permitir que los defensores utilicen Claude Mythos para fortalecer sus sistemas antes de que modelos similares estén disponibles para el público general o para grupos cibercriminales. Sin embargo, esta estrategia de “puertas cerradas” ha generado críticas. Competidores como OpenAI han respondido liberando modelos como GPT-5.4-Cyber con una disponibilidad más amplia, argumentando que la seguridad a través de la oscuridad es una táctica fallida y que la democratización de las herramientas de defensa es la única forma de equilibrar la balanza.

La tensión es evidente: si Mythos puede encontrar miles de vulnerabilidades de día cero en cuestión de horas, el primero que lo posea tendrá una ventaja estratégica casi absoluta. Estamos ante una carrera armamentista donde el código ya no se escribe para ser leído por humanos, sino para ser validado continuamente por inteligencias que no duermen.

Conclusión: El cierre de la ventana humana

El “momento de vértigo” de Firefox es solo el comienzo. La realidad que enfrentamos hoy, 23 de abril de 2026, es que la revisión de código dirigida exclusivamente por humanos ha dejado de ser una estrategia viable para mantener la seguridad en un mundo interconectado. La velocidad a la que Claude Mythos puede desmantelar arquitecturas de software establecidas significa que las empresas ya no pueden permitirse ciclos de parcheo mensuales o trimestrales.

Para los profesionales de la seguridad, el mensaje es claro: la transición hacia la validación continua impulsada por IA no es una opción, es una necesidad de supervivencia. El descubrimiento de las 271 vulnerabilidades en Firefox demuestra que incluso el software más robusto tiene grietas invisibles para el ojo humano, pero evidentes para el razonamiento computacional avanzado. La gran pregunta que queda en el aire tras la brecha de Mercor no es si la IA puede protegernos, sino si nosotros somos capaces de proteger a la IA que nos protege.

En este nuevo ecosistema, la ciberseguridad dejará de ser una batalla de parches para convertirse en una batalla de modelos. Quien posea el modelo de razonamiento más profundo, como Claude Mythos, dictará las reglas del juego en una infraestructura digital que, hoy más que nunca, se siente frágil ante el espejo de la inteligencia artificial.