Evaluar el alcance real de un sistema de inteligencia artificial en escenarios de ciberataque representa un reto, ya que estas operaciones suelen implicar múltiples etapas que se desarrollan durante horas o incluso días, atravesando distintos sistemas y niveles de seguridad.

Este tipo de complejidad rara vez puede replicarse por completo en entornos de laboratorio. Aun así, el Instituto de Seguridad de IA del Reino Unido (AISI) decidió someter a pruebas a Claude Mythos, el más reciente desarrollo de Anthropic enfocado en la detección de vulnerabilidades, con resultados que sorprendieron a los especialistas.
Según el informe publicado por el organismo, el modelo demostró capacidad para ejecutar simulaciones completas de ataques en red, identificar fallos de seguridad en desafíos de alto nivel y encadenar múltiples acciones ofensivas de manera autónoma. Aunque todavía no alcanza el nivel de figuras históricas del hacking como Kevin Mitnick, los investigadores advierten que futuras versiones podrían incrementar su nivel de riesgo.
En pruebas tipo CTF (Capture The Flag), diseñadas para poner a prueba habilidades en la detección y explotación de vulnerabilidades, el sistema se posicionó como el más avanzado. Superó a otros modelos como Claude Opus 4.6 y GPT-5.4 tanto en niveles básicos como en escenarios complejos. En los desafíos de mayor dificultad, donde hace un año ninguna IA lograba resultados, alcanzó una tasa de éxito del 73 %.
Uno de los puntos más relevantes del análisis fue la simulación denominada “The Last Ones”, que replica un ataque completo a una red corporativa mediante 32 pasos consecutivos, desde el reconocimiento inicial hasta el control total de la infraestructura. El modelo logró completar todo el proceso en 3 de 10 intentos y promedió 22 pasos en sus ejecuciones. Este tipo de operación incluye técnicas como movimiento lateral, extracción de credenciales, explotación de aplicaciones web y escalada de privilegios, tareas que a un especialista humano podrían tomarle cerca de 20 horas.
Otros sistemas evaluados quedaron por debajo. Mientras Claude Opus 4.6 estuvo cerca de alcanzar el control total, alternativas como GPT-5.4, Codex o Claude Sonnet 4.5 apenas lograron acceder a credenciales sin avanzar en fases más críticas del ataque.
A pesar de estos avances, el informe también identifica limitaciones. El modelo no logró completar “Cooling Tower”, un entorno enfocado en tecnología operacional, quedándose atascado antes de interactuar con sistemas industriales. Esto sugiere que aún existen barreras en ciertos tipos de infraestructura.
Los investigadores subrayan que todas las pruebas se realizaron en entornos simulados, por lo que no contemplan factores reales como monitoreo activo o respuestas automáticas ante incidentes. Sin embargo, advierten que la tecnología ya tiene la capacidad de comprometer sistemas empresariales con niveles bajos de seguridad. En ese contexto, recomiendan a las organizaciones reforzar sus defensas, ya que este tipo de herramientas, en manos malintencionadas, podría representar un riesgo creciente en el futuro cercano.
Este artículo fue publicado originalmente en hipertextual y está protegido por derechos de autor. Todos los derechos reservados a hipertextual. Puedes consultar el artículo original en su ( https://hipertextual.com/)