The Vulnerability Lab: Técnicas de ataque em inteligência artificial e modelos de linguagem

2 minutes

min read

April 30, 2025

A equipe de Hacking da Strike abriu os bastidores de três vulnerabilidades reais descobertas recentemente no uso prático de inteligência artificial. No webinar em espanhol The Vulnerability Lab, Javier Bernardo (Head of Hacking Team) e Yesenia Trejo (Lead Striker) apresentaram demonstrações técnicas e orientações práticas sobre riscos emergentes em segurança de IA. Com payloads reais, explicações passo a passo e uma abordagem ofensiva, este blog resume os principais aprendizados e recomendações acionáveis para ajudar você a fortalecer seus sistemas contra essas ameaças.

Sistemas de IA já estão em produção — e sob ataque

Modelos de linguagem e sistemas baseados em IA deixaram de ser experimentais. Hoje, fazem parte de plataformas de atendimento, ferramentas internas e processos de negócios. E quanto maior o uso, maior a superfície de ataque. Atacantes já estão explorando falhas nesses sistemas, o que torna essencial a realização de testes de segurança contínuos.

Em um dos últimos webinars da Strike, mostramos vulnerabilidades reais em plataformas de IA, técnicas de ataque em tempo real e como pequenas falhas de configuração podem se transformar em vetores de ataque.

Por que sistemas de IA precisam de pentests?

Os ataques direcionados contra IA já são realidade. Em 2023, mais de 150 novas vulnerabilidades relacionadas a modelos de linguagem e infraestrutura de IA foram reportadas. Esses não são apenas bugs técnicos — são portas de entrada diretas para roubo de dados, manipulação de saídas e controle de comportamento dos modelos.

Motivos para testar proativamente sistemas de IA:

Exposição de dados: tokens, credenciais e arquivos internos podem vazar por falhas no controle de saída.
Manipulação de respostas: atacantes podem alterar saídas por meio de prompt injection ou manipulações linguísticas.
Perda de confiabilidade: IAs públicas podem ser usadas para divulgar informações enganosas ou não autorizadas.: interações maliciosas degradam o desempenho do modelo a longo prazo.
Contaminação de dados de treino: interações maliciosas degradam o desempenho do modelo a longo prazo.

Vulnerabilidade 1: Tratamento inseguro de saídas em modelos de linguagem

Quando um modelo de linguagem não valida nem sanitiza corretamente suas respostas, um invasor pode:

Inserir conteúdo malicioso com manipulação de prompts
Induzir o modelo a vazar informações sensíveis
Executar scripts não autorizados embutidos nas respostas

Principais aprendizados do webinar:

Desvios linguísticos: alternar para idiomas menos comuns pode burlar filtros de segurança.
Prompt injection com payloads XSS: é possível injetar comandos JavaScript ou extrair tokens de sessão.
Exploração de localStorage: quando cookies estão protegidos, atacantes buscam tokens no armazenamento local.
Encadeamento de vulnerabilidades: um self-XSS isolado pode parecer inofensivo, mas combinado com falhas como IDOR, o impacto se amplifica.

Como mitigar:

Sanitizar e validar todas as saídas dos modelos
Restringir ao máximo as funcionalidades de resposta
Monitorar interações multilíngues por comportamentos anômalos
Controlar a persistência de memória entre sessões para evitar vazamento de dados

Vulnerabilidade 2: Bypass de CAPTCHA e automação de força bruta

Ferramentas como o Capsolver permitem contornar desafios de CAPTCHA via APIs externas, facilitando ataques massivos como credential stuffing, principalmente em portais bancários ou fluxos de recuperação de conta. Veja aqui como Yesenia e Javier estão utilizando a ferramenta:

Assista ao webinar completo em espanhol aqui.

Técnicas demonstradas:

Solvers automatizados que simulam comportamento humano para passar nos CAPTCHAs
Scripts que testam milhares de combinações de senha sem ativar bloqueios

Riscos associados:

Sequestro de contas e transações fraudulentas
Vazamento em larga escala de credenciais
Movimento lateral entre serviços interconectados

Boas práticas:

Usar CAPTCHAs adaptativos que mudam a cada tentativa
Limitar tentativas de login por IP e usuário
Implementar análise comportamental para detectar automações
Reforçar verificações de identidade com autenticação em múltiplas etapas

Vulnerabilidade 3: Path traversal e exposição de arquivos por segundo vetor

Ataques de path traversal permitem acessar arquivos fora dos diretórios permitidos, manipulando caminhos de upload ou URLs previsíveis. Isso pode expor arquivos de configuração, scripts internos ou até permitir controle remoto do sistema.

Exemplos comuns:

Modificar o caminho de upload de imagens para acessar arquivos como /config.xml, server.jsp ou /etc/passwd
Subir shells ou scripts maliciosos e acessá-los via caminhos conhecidos do servidor

Como detectar e mitigar:

Validar e sanitizar todos os caminhos de arquivos e parâmetros de URL
Aplicar controle de acesso baseado em papéis (RBAC)
Armazenar arquivos enviados em ambientes isolados
Monitorar continuamente os logs para identificar padrões suspeitos de acesso

As técnicas apresentadas no The Vulnerability Lab mostram que pequenas falhas em sistemas de IA podem ter grandes consequências. Desde manipulações em modelos de linguagem até bypass de CAPTCHA e abusos de path traversal, todos os exemplos trazidos pela equipe da Strike refletem situações reais observadas em campo.

Assista ao webinar completo em espanhol aqui.