The Vulnerability Lab: Técnicas de hacking en inteligencia artificial y modelos de lenguaje

2 minutos

min read

April 30, 2025

El equipo de hacking de Strike reveló tres vulnerables reales detectados recientemente en entornos de inteligencia artificial. En el webinar en español Laboratorio de vulnerables, Javier Bernardo (Jefe de Hacking Team) y Yesenia Trejo (Lead Striker) Analizan riesgos clave de seguridad en IA con demostraciones prácticas y consejos relevantes. Este blog reúne los puntos más relevantes y recomendaciones para ayudar a proteger tus sistemas frente a las amenazas que ya están explotadas.

Los modelos de lenguaje (LLM) y otras soluciones basadas en IA ya forman parte de herramientas internas, flujos empresariales y servicios al cliente. A medida que se amplía su uso, también lo hacen sus riesgos. En 2023 se reportaron más de 150 vulnerabilidades nuevas relacionadas con modelos de IA. Estas fallas no son simples errores técnicos: son oportunidades para los atacantes.

¿Por qué los sistemas de IA también deben someterse a pentesting?

Razones para evaluar la seguridad de tu IA de forma proactiva:

Exposición de datos: Una mala gestión de salidas puede filtrar tokens, credenciales o archivos internos.
Manipulación de respuestas: Un atacante puede alterar la salida del modelo mediante prompt injection o trucos lingüísticos.
Pérdida de confianza: Un modelo expuesto al público puede ser usado para entregar información falsa o no autorizada.
Contaminación del entrenamiento: Interacciones maliciosas pueden afectar el rendimiento del modelo a largo plazo.

Vulnerabilidad 1: Manejo inseguro de salidas en modelos de lenguaje

Cuando un LLM no válida o limpia correctamente sus respuestas, es vulnerable a:

Inyección de contenido malicioso a través del prompt
Filtración de datos sensibles por manipulación del modelo
Ejecución de scripts no autorizados en las salidas embebidas

Hallazgos clave del webinar:

Evasión mediante cambio de idioma: Cambiar a un idioma menos común puede saltarse filtros de seguridad.
Prompt injection con payloads XSS: Es posible insertar comandos en JavaScript o extraer tokens desde el chat.
Abuso del local storage: Si las cookies están protegidas, se puede atacar el almacenamiento local.
Encadenamiento de fallas: Una self-XSS leve puede tener impacto crítico si se combina con errores de autorización como IDOR.

¿Cómo mitigarlo?

Sanitiza y valida todas las respuestas del modelo
Limita las capacidades de respuesta a lo estrictamente necesario
Monitorea interacciones en diferentes idiomas
Controla la persistencia de memoria entre sesiones

Vulnerabilidad 2: Evasión de CAPTCHA y automatización por fuerza bruta

Herramientas como Capsolver permiten evadir CAPTCHAs mediante APIs externas, lo que facilita ataques masivos de credenciales, especialmente en entornos sensibles como portales bancarios o recuperación de cuentas. Mira aquí cómo Yesenia y Javier están utilizando la herramienta:

Técnicas vistas en el webinar:

Scripts que prueban miles de contraseñas sin activar bloqueos
Solucionadores automáticos de CAPTCHA que imitan comportamiento humano

Riesgos principales:

Secuestro de cuentas y operaciones fraudulentas
Credential stuffing con impacto a gran escala
Movimiento lateral entre servicios conectados

Buenas prácticas:

Usa CAPTCHAs adaptativos que cambien en cada intento
Limita la cantidad de intentos por IP y por usuario
Detecta comportamientos automatizados con analítica de usuarios
Refuerza flujos sensibles con verificación en múltiples pasos

Vulnerabilidad 3: Path traversal y exposición secundaria de archivos

Los ataques de path traversal permiten acceder a archivos fuera de los directorios permitidos mediante manipulación de rutas o URLs predecibles. Esto puede exponer configuraciones, scripts internos o incluso facilitar acceso remoto.

Escenarios comunes:

Alterar la URL de carga de una imagen para acceder a archivos como /config.xml, server.jsp o /etc/passwd
Subir un script malicioso y acceder a él desde rutas conocidas del servidor

¿Cómo detectarlo y prevenirlo?

Válida y sanitiza todas las rutas y parámetros de URL
Aplica controles de acceso basados en roles (RBAC)
Aísla los archivos subidos en entornos sandbox
Monitorea logs para identificar patrones de traversal

El webinar Laboratorio de vulnerabilidades demuestra que incluso pequeños errores de configuración en sistemas de IA pueden derivar en brechas importantes. Desde manipulación de modelos de lenguaje hasta evasión de CAPTCHA y explotación de rutas, estas técnicas ya están en uso por atacantes, y deben ser parte de tu estrategia de defensa. Mira el webinar completo aquí.