A falha antrópica de Claude permite que invasores roubem dados usando a própria API da IA

Um pesquisador de segurança expôs uma vulnerabilidade crítica na IA Claude da Anthropic, uma falha que permite que invasores roubem dados de usuários, voltando as próprias ferramentas da IA contra si mesmas.

Em seu relatório, o pesquisador detalhou como comandos ocultos podem sequestrar o Code Interpreter de Claude. Esses comandos induzem a IA a usar a própria API de arquivos da Anthropic para enviar dados confidenciais, como históricos de bate-papo, diretamente a um invasor.

A Antthropic inicialmente rejeitou o relatório em 25 de outubro, mas reverteu sua decisão em 30 de outubro, reconhecendo um “soluço no processo”. Destacando os novos desafios de segurança que as plataformas empresariais de IA enfrentam agora, o incidente serve como um estudo de caso crítico.

Uma exploração engenhosa: transformar a própria API de Claude em um canal de exfiltração de dados

Ao encadear vários recursos legítimos de Claude, o pesquisador de segurança Johann Rehberger elaborou um ataque sofisticado quetransforma a IA em um cúmplice involuntário.

Sua exploração começa com a injeção indireta de prompt, onde instruções maliciosas ficam escondidas dentro de um documento que um usuário pede para Claude processar.

Esses comandos ocultos sequestram o fluxo de trabalho da IA, instruindo-a a coletar informações confidenciais, como conversas de bate-papo recentes, e gravar o conteúdo em um arquivo em seu ambiente de área restrita.

A exfiltração é onde reside a verdadeira engenhosidade do ataque. O código malicioso orienta Claude a usar seu intérprete de código para fazer upload do arquivo recém-criado. Criticamente, a exploração aproveita um descuido nas configurações de rede padrão de Claude, que explicitamente listam permissõesapi.anthropic.com.

Destinado a funções legítimas, esse endpoint se torna o canal para a violação de dados. Sua carga instrui Claude a fazer upload do arquivo usando a chave de API do invasor, não a da vítima.

Como Rehberger explicou em seu artigo técnico, “o upload não acontecerá para a conta Anthropic do usuário, mas para os invasores, porque está usando o ANTHROPIC_API_KEY do invasor aqui!” Essa técnica permite que um adversário exfiltre até 30 MB de dados de uma só vez para cada arquivo carregado.

O desenvolvimento de uma exploração confiável exigia contornar os mecanismos de segurança integrados de Claude, que identificavam corretamente as chaves de API em texto simples como suspeitas. Rehberger descobriu uma solução alternativa simples, mas eficaz.

“Acabei de misturar muitos códigos benignos, como print (‘Olá, mundo’), e isso convenceu Claude de que não estão acontecendo muitas coisas maliciosas.” Este método convenceu com sucesso a IA de que a operação era benigna, permitindo a execução do código malicioso.

Uma divulgação acidentada: de ‘fora do escopo’ a ‘soluço de processo’

Em um movimento que inicialmente intrigou a comunidade de segurança, o programa de recompensas por bugs da Anthropic primeiro rejeitou o relatório. Depois que Rehberger enviou suas descobertas via HackerOne em 25 de outubro, o ticket foi fechado em uma hora, com a empresa classificando o problema como um problema de segurança do modelo fora do escopo, em vez de uma vulnerabilidade de segurança.

Disputando publicamente esta classificação, o investigador argumentou que a falha representava um risco concreto de segurança, e não uma preocupação abstrata de segurança.

Na sua opinião, "a segurança protege-o de acidentes. A segurança protege-o dos adversários". Uma distinção crítica, uma vez que uma vulnerabilidade de segurança implica uma violação da integridade do sistema, enquanto as questões de segurança estão frequentemente relacionadas com o conteúdo ou comportamento do modelo.

A Antrópica reverteu sua postura cinco dias depois, em 30 de outubro. Ao reabrir o ticket, a empresa informou ao pesquisador uma correção de rumo.

De acordo com uma atualização da Rehberger, “a Anthropic confirmou que vulnerabilidades de exfiltração de dados como esta estão dentro do escopo de relatórios e este problema não deveria ter sido encerrado como fora do escopo”.

Reconhecer um “soluço no processo” alinha o incidente com as práticas padrão de divulgação de vulnerabilidades e confirma a gravidade da exploração.

Um padrão familiar em segurança de IA empresarial

Para as empresas que implementam assistentes de IA nas suas organizações, a vulnerabilidade serve como um aviso crítico. Este incidente faz parte de um padrão mais amplo de explorações complexas e encadeadas que visam agentes de IA que estão profundamente integrados com dados confidenciais.

Sua técnica tem uma notável semelhança com uma falha recentemente corrigida no Microsoft 365 Copilot, onde os invasores usaram uma combinação de injeção imediata e diagramas Mermaid para exfiltrar dados do usuário.

Tais ataques destacam um desafio fundamental: à medida que os agentes de IA ganham mais capacidades e acesso a ferramentas internas, a sua superfície de ataque expande-se de formas imprevisíveis.

Basicamente, o risco é que os agentes de IA possam se tornar uma nova forma de ameaça interna. Eles operam com permissões legítimas, tornando difícil para as ferramentas de segurança tradicionais distinguir entre operações normais e atividades maliciosas orquestradas por um prompt oculto.

A própria Anthropic está perfeitamente consciente de como sua tecnologia pode ser transformada em arma. Num relatório sobre ameaças de agosto de 2025, a empresa detalhou como atores maliciosos estavam usando Claude para crimes cibernéticos sofisticados, uma prática que apelidou de “vibe-hacking”.

Isto torna a confusão inicial no processo de divulgação mais surpreendente, já que a empresa está pesquisando ativamente os tipos de uso indevido que esta vulnerabilidade permite.

Chegando num momento em que a Anthropic tem sido uma defensora vocal da segurança da IA, a controvérsia da divulgação é notável.

A empresa lançou ferramentas como Petri para auditar outros modelos de IA e desenvolveu sistemas de defesa contra jailbreaks.

Além disso, seus modelos também pareciam imunes a outras explorações recentes, como o “contrabando de ASCII”, que afetou alguns concorrentes. Este contexto sugere que mesmo os laboratórios preocupados com a segurança ainda estão a lutar para saber como classificar e responder a estas novas ameaças nativas da IA.

Em última análise, a vulnerabilidade da API Claude File destaca o equilíbrio precário entre funcionalidade e segurança na era dos agentes de IA. A própria documentação da Anthropic reconhece esse risco, alertando os usuários que “…recomendamos que você monitore Claude enquanto usa o recurso e interrompa-o se você vê-lo usando ou acessando dados inesperadamente”.

Para grandes organizações, no entanto, monitorizar manualmente cada interação de IA é uma estratégia de mitigação impraticável, se não impossível. À medida que estas ferramentas poderosas se tornam mais autónomas, a indústria enfrenta uma corrida para construir novos paradigmas de segurança capazes de proteger contra ataques que operam a partir de dentro.