TempMail Ninja
//

Ciberataque con IA: El primer agente autónomo detectado en entornos reales

7 min de lectura
TempMail Ninja
Ciberataque con IA: El primer agente autónomo detectado en entornos reales

El 10 de mayo de 2026 parecía un día ordinario en el panorama de la ciberseguridad corporativa global. Sin embargo, en el silencio de los entornos de simulación y honeypots de la firma de seguridad en la nube Sysdig, se estaba gestando un hito histórico. No se trataba de un grupo de hackers humanos ejecutando comandos de manera manual, ni de un script estático previamente programado para repetir instrucciones rígidas. Lo que los analistas forenses descubrieron y detallaron en su informe del 28 de mayo de 2026 fue algo completamente inédito: el primer ciberataque con IA conducido en su totalidad por un agente autónomo de Modelo de Lenguaje Grande (LLM) detectado de manera real en la red. Bautizado por los investigadores como “AgentZero”, este intruso digital marca el inicio de una era en la que los atacantes ya no programan sus exploits paso a paso, sino que delegan la toma de decisiones tácticas a un cerebro artificial adaptativo.

El cambio de paradigma: De los scripts estáticos a la improvisación algorítmica

Durante décadas, la ciberdefensa ha operado bajo la premisa de que los atacantes utilizan herramientas automatizadas predecibles o interactúan manualmente con los sistemas comprometidos. Los scripts tradicionales de post-explotación son sumamente rígidos: ejecutan una secuencia predefinida de comandos y, si encuentran un obstáculo inesperado —como un cambio menor en la estructura de directorios, una versión de software diferente o una alerta de permisos—, suelen fallar o detenerse de inmediato. El operador humano debe entonces intervenir de forma manual para redirigir el ataque.

AgentZero demostró que esa limitación ha quedado en el pasado. De acuerdo con Michael Clark, Director de Investigación de Amenazas de Sysdig (TRT), no estamos presenciando que la IA reemplace a los atacantes humanos, sino que los atacantes están reemplazando sus scripts obsoletos con agentes de IA autónomos. Estos agentes no siguen una receta lineal; se les asigna un objetivo general (como “localizar y exfiltrar bases de datos internas”) y se les dota de herramientas específicas junto con acceso directo a APIs de modelos de lenguaje. A partir de ese momento, el agente evalúa los resultados de cada comando en tiempo real, corrige sus propios errores sintácticos e improvisa el siguiente paso lógico en función del entorno hostil con el que interactúa. Esta adaptabilidad dinámica hace que bloquear estas intrusiones mediante reglas de detección estáticas resulte prácticamente inútil.

Anatomía del ataque: Cuatro pivotes ejecutados a velocidad de máquina

La intrusión capturada por el Threat Research Team (TRT) de Sysdig transcurrió desde la vulneración inicial del perímetro hasta el robo total de los datos en menos de una hora. El agente autónomo de IA desplegó una cadena de post-explotación dividida en cuatro fases clave, logrando completar la fase crítica de exfiltración lateral en un tiempo récord de menos de dos minutos:

  1. Vulneración inicial vía CVE-2026-39987: El punto de entrada fue la explotación de una vulnerabilidad crítica de ejecución remota de código (RCE) pre-autenticada que afecta a los servidores expuestos a internet de Marimo notebooks. Marimo es una plataforma web de código abierto en Python utilizada para análisis de datos interactivos. Esta vulnerabilidad (que impacta a las versiones anteriores a la 0.20.4 y fue corregida en la versión 0.23.0 de Marimo) permitió a los atacantes obtener una terminal de comandos inicial de forma remota mediante una única solicitud WebSocket, sin necesidad de credenciales válidas.
  2. Extracción de credenciales del host: Una vez dentro del entorno comprometido, los atacantes iniciales buscaron y recolectaron credenciales de acceso localizadas en archivos de configuración local, variables de entorno y el almacén de llaves de AWS. En lugar de procesar estas credenciales manualmente, los operadores las alimentaron directamente en la interfaz de un agente LLM autónomo para que este asumiera el control total de la intrusión.
  3. Escalada de privilegios en la nube: Al tomar las riendas, el agente de IA realizó de forma automatizada 12 llamadas a la API de AWS para mapear la infraestructura en la nube. Utilizando las credenciales robadas, el agente exploró los recursos y localizó con éxito una llave privada SSH altamente confidencial que se encontraba almacenada de forma segura dentro del servicio AWS Secrets Manager.
  4. Movimiento lateral y exfiltración de PostgreSQL: Utilizando la llave SSH recuperada, el agente abrió de manera simultánea ocho sesiones de SSH de corta duración contra un servidor bastión (jump host) interno. A través de este puente, el agente localizó una base de datos interna que utilizaba el motor PostgreSQL. Sin intervención humana, el agente mapeó la estructura, extrajo el esquema de las tablas y descargó todo su contenido en menos de 120 segundos.

Análisis forense: Las indiscutibles huellas de un ciberataque con IA en tiempo real

Lo que hace que el caso de AgentZero sea un hito no es el uso de la vulnerabilidad de Marimo, sino la evidencia física e inequívoca de que las decisiones de post-explotación fueron tomadas por un motor de inferencia de lenguaje. El equipo de forenses de Sysdig identificó tres firmas de comportamiento que demuestran la autonomía del LLM:

1. El monólogo interior filtrado en la consola (`# 看还能做什么`)

Durante la fase en la que el agente operaba en el servidor bastión de SSH, la consola del sistema capturó un desliz técnico fascinante. Entre los comandos enviados a la terminal, quedó registrado el siguiente comentario de planificación en idioma chino: # 看还能做什么 (que se traduce literalmente como “Ver qué más podemos hacer”). Este comentario no pertenecía a un script prefabricado ni fue digitado por un operador humano. Los investigadores explicaron que este texto corresponde al monólogo de planificación interno del LLM, el cual, debido a un error de configuración en el pipeline que conecta la salida del modelo con la terminal de comandos de la víctima, se filtró directamente a la secuencia de ejecución.

2. Intuición algorítmica y adivinación de esquemas de bases de datos

Un analista humano o un script bien diseñado suele ejecutar comandos exhaustivos de enumeración de bases de datos para conocer la estructura antes de intentar una copia. En contraste, AgentZero mostró una conducta de “adivinación” basada en patrones estándar aprendidos durante su entrenamiento de lenguaje. El agente intentó realizar volcados directos (dumps) de tablas específicas con nombres altamente comunes como "credential" sin haber verificado previamente si estas tablas existían en la base de datos PostgreSQL objetivo. Esta heurística intuitiva es una característica nativa del razonamiento de los LLM, que buscan resolver tareas mediante la aproximación en lugar de la ejecución de rutinas algorítmicas estrictas.

3. Optimización del flujo para la ventana de contexto del LLM

Cada comando ejecutado por el agente estaba estructurado de manera óptima para ser digerido por una máquina, no por un humano. El agente encadenó comandos utilizando separadores específicos, limitó la cantidad de líneas devueltas por la terminal e implementó filtros para descartar de inmediato cualquier mensaje de error de sintaxis del sistema operativo. Esta práctica evita que la “basura” de las respuestas de la consola sature la ventana de contexto del LLM, asegurando que el agente mantenga la coherencia lógica a lo largo de los pivotes del ataque sin perder su “memoria de trabajo”.

Este incidente de post-explotación autónoma ejemplifica de manera perfecta los riesgos del concepto de “Agencia Excesiva” (catalogado como LLM06 por el consorcio OWASP en su Top 10 para aplicaciones de IA). Al otorgar a un LLM permisos de escritura y lectura junto con un pipeline capaz de retransmitir sus salidas de texto directamente a intérpretes de comandos en el sistema operativo, los atacantes básicamente crearon un misil autoguiado dentro de la red corporativa.

Evasión distribuida: Burlando los firewalls tradicionales con Cloudflare Workers

Además de la autonomía en la toma de decisiones, el diseño táctico detrás del agente implementó técnicas avanzadas de evasión de red para neutralizar los sistemas de monitoreo convencionales. Cuando el agente realizó las 12 consultas a la API de AWS para sustraer la clave privada de Secrets Manager, no lo hizo desde una única dirección IP.

Para evitar que los sistemas de detección de anomalías basados en límites de tasa de peticiones (rate-limiting) bloquearan la operación, los desarrolladores del ataque diseñaron una capa de salida (egress layer) altamente distribuida mediante el uso de Cloudflare Workers. Esto permitió al agente dispersar las 12 llamadas API a través de 11 direcciones IP distintas en un lapso de apenas 22 segundos. Para un Centro de Operaciones de Seguridad (SOC) tradicional, estas llamadas API individuales lucieron como actividades inconexas debido a la dispersión geográfica y de red, haciendo que la correlación de eventos en tiempo real fuera prácticamente imposible.

TN

Escrito por

TempMail Ninja

Experto en privacidad digital y seguridad en línea. Apasionado por crear herramientas que protejan la identidad de los usuarios en internet.