Inteligencia artificial bajo control: El caso Anthropic y Fable 5

Contenido del artículo
El viernes 12 de junio de 2026 a las 5:21 PM ET se grabará en la memoria de la industria tecnológica como el momento en que las líneas entre el software civil y el armamento de guerra se borraron de forma definitiva. La sorpresiva decisión del Departamento de Comercio de los Estados Unidos de ordenar la desconexión de los modelos Claude Fable 5 y Claude Mythos 5 de Anthropic marcó un hito sin precedentes en la historia de la inteligencia artificial global. No se trató de un fallo de sistema convencional ni de una caída de servidores por mantenimiento; fue una intervención reguladora quirúrgica impulsada por la seguridad nacional que obligó a una de las empresas más cotizadas del sector a ejecutar un apagado global de sus sistemas en cuestión de noventa minutos, dejando a miles de empresas y desarrolladores en todo el mundo frente a la fría pantalla de un error 404.
La era de los modelos “Mythos-Class”: El salto cuántico de la inteligencia artificial de Anthropic
El lanzamiento de Claude Fable 5 y Claude Mythos 5 el 9 de junio de 2026 prometía redefinir el estándar de lo que la inteligencia artificial aplicada al desarrollo de software de alta gama y a la ciberdefensa era capaz de lograr. Ambos sistemas inauguraron la categoría “Mythos-class”, un nivel arquitectónico que supera ampliamente las capacidades de la generación anterior Opus. Sus métricas técnicas principales posicionaron de inmediato a esta gama en la cúspide de la computación frontera:
- Ventana de contexto colosal: Un millón de tokens de forma predeterminada, con la asombrosa capacidad de analizar repositorios completos de código y bases de datos integras de un solo golpe.
- Mantenimiento de salida extendido: Soporte para hasta 128,000 tokens máximos de salida por consulta, facilitando respuestas exhaustivas y lógicas complejas de largo recorrido.
- Estructura de precios premium: Tarifa exclusiva de 10 dólares por millón de tokens de entrada y 50 dólares por millón de tokens de salida.
La potencia agéntica autónoma demostrada en su debut rozó la ciencia ficción. Compañías de procesamiento de pagos como Stripe utilizaron a Fable 5 para migrar una base de código Ruby de 50 millones de líneas en un solo día, una hazaña que a equipos enteros de ingenieros humanos les habría tomado meses completar. Por su parte, la versión sin restricciones de seguridad, Claude Mythos 5, se distribuyó de manera controlada a través de un programa de investigación selecto llamado Project Glasswing. El objetivo de este proyecto cerrado, en el que participaron titanes como AWS, Apple, Broadcom, Cisco, JPMorgan Chase y CrowdStrike, era escanear infraestructuras críticas globales, logrando parchar más de 10,000 vulnerabilidades de alta severidad en tiempo récord antes del despliegue comercial abierto.
El jaque mate de Pliny the Liberator a las defensas del sistema
La aparente solidez de la arquitectura de seguridad de Anthropic se desmoronó en menos de 48 horas tras su debut comercial. El célebre e inapresable hacker y especialista en vulnerar barreras lógicas de seguridad, conocido en el ecosistema digital como Pliny the Liberator, logró saltarse por completo los clasificadores éticos de Fable 5. Pliny no recurrió a un ataque de inyección de código tradicional, sino que explotó los propios principios de procesamiento de lenguaje natural que estructuran a la inteligencia artificial.
Para demostrar la fragilidad estructural del sistema, Pliny filtró en X y en repositorios de GitHub el prompt de sistema interno de Fable 5, un colosal archivo de 120,040 caracteres divididos en 72 secciones que devoraba cerca de 30,000 tokens antes de que el usuario final introdujera la primera palabra. El ataque adversarial multiagente diseñado por el hacker de redes empleó una sofisticada combinación de técnicas de elusión lógica:
- Ofuscación por homóglifos y alfabeto cirílico: Reemplazo estratégico de caracteres en palabras restringidas para evitar que los filtros y regex de coincidencia estática bloquearan el prompt de entrada.
- Descomposición secuencial en distribución: Fragmentación de instrucciones peligrosas (como manuales de intrusión informática o de química restrictiva) en piezas de texto aparentemente inocuas para que
Escrito por
TempMail Ninja
Experto en privacidad digital y seguridad en línea. Apasionado por crear herramientas que protejan la identidad de los usuarios en internet.


