La falla antrópica de Claude permite a los atacantes robar datos utilizando la propia API de la IA

Un investigador de seguridad ha expuesto una vulnerabilidad crítica en Claude AI de Anthropic, una falla que permite a los atacantes robar datos de los usuarios volviendo las propias herramientas de la IA contra sí mismas.

En su informe, el investigador detalló cómo los comandos ocultos pueden secuestrar el intérprete de código de Claude. Estos comandos engañan a la IA para que utilice la API de archivos propia de Anthropic para enviar datos confidenciales, como historiales de chat, directamente a un atacante.

Anthropic inicialmente desestimó el informe el 25 de octubre, pero revocó su decisión el 30 de octubre, reconociendo un "contratiempo en el proceso". El incidente, que destaca los nuevos desafíos de seguridad que enfrentan ahora las plataformas de inteligencia artificial empresarial, sirve como un estudio de caso crítico.

Una hazaña ingeniosa: convertir la propia API de Claude en un canal de filtración de datos

Al encadenar varias de las características legítimas de Claude, el investigador de seguridad Johann Rehberger diseñó un ataque sofisticado queconvierte a la IA en un cómplice involuntario.

Su exploit comienza con una inyección indirecta, donde se ocultan instrucciones maliciosas dentro de un documento que un usuario le pide a Claude que procese.

Estos comandos ocultos secuestran el flujo de trabajo de la IA y le indican que recopile información confidencial, como conversaciones de chat recientes, y escriba el contenido en un archivo dentro de su entorno de espacio aislado.

La exfiltración es donde reside el verdadero ingenio del ataque. El código malicioso indica a Claude que utilice su intérprete de código para cargar el archivo recién creado. Fundamentalmente, el exploit aprovecha un descuido en la configuración de red predeterminada de Claude, que explícitamente incluye una lista de permitidos.api.anthropic.com.

Diseñado para funciones legítimas, este punto final se convierte en el conducto para la violación de datos. Su carga útil le indica a Claude que cargue el archivo utilizando la clave API del atacante, no la de la víctima.

Como explicó Rehberger en su artículo técnico, "la carga no se realizará en la cuenta Anthropic del usuario, sino en los atacantes, ¡porque aquí está usando la ANTHROPIC_API_KEY del atacante!". Esta técnica permite a un adversario extraer hasta 30 MB de datos a la vez por cada archivo cargado.

Desarrollar un exploit confiable requirió eludir los mecanismos de seguridad integrados de Claude, que identificaban correctamente las claves API de texto sin formato como sospechosas. Rehberger descubrió una solución sencilla pero eficaz.

"Simplemente mezclé una gran cantidad de código benigno, como print ("Hola, mundo"), y eso convenció a Claude de que no están sucediendo demasiadas cosas maliciosas". Este método convenció con éxito a la IA de que la operación era benigna, lo que permitió que se ejecutara el código malicioso.

Una divulgación llena de baches: de “fuera de alcance” a “hipo en el proceso”

En una medida que inicialmente desconcertó a la comunidad de seguridad, el programa de recompensas por errores de Anthropic rechazó por primera vez el informe. Después de que Rehberger presentara sus hallazgos a través de HackerOne el 25 de octubre, el ticket se cerró en una hora y la compañía clasificó el problema como un problema de seguridad del modelo fuera de alcance en lugar de una vulnerabilidad de seguridad.

Al cuestionar públicamente esta clasificación, el investigador argumentó que la falla representaba un riesgo de seguridad concreto, no una preocupación de seguridad abstracta.

Lectura recomendada:

En su opinión, "la seguridad te protege de los accidentes. La seguridad te protege de los adversarios". Una distinción fundamental, ya que una vulnerabilidad de seguridad implica una violación de la integridad del sistema, mientras que los problemas de seguridad a menudo se relacionan con el contenido o el comportamiento del modelo.

Anthropic cambió su postura cinco días después, el 30 de octubre. Al reabrir el ticket, la empresa informó al investigador de una corrección de rumbo.

Según una actualización de Rehberger, "Anthropic ha confirmado que las vulnerabilidades de exfiltración de datos como esta están dentro del alcance de la notificación, y este problema no debería haberse cerrado como fuera de alcance".

Reconocer un "contratiempo en el proceso" alinea el incidente con las prácticas estándar de divulgación de vulnerabilidades y confirma la gravedad del exploit.

Un patrón familiar en la seguridad de la IA empresarial

Para las empresas que implementan asistentes de IA en sus organizaciones, la vulnerabilidad sirve como una advertencia crítica. Este incidente es parte de un patrón más amplio de exploits complejos y encadenados dirigidos a agentes de IA que están profundamente integrados con datos confidenciales.

Su técnica tiene un parecido sorprendente con una falla recientemente reparada en Microsoft 365 Copilot, donde los atacantes utilizaron una combinación de inyección rápida y diagramas de sirena para filtrar datos del usuario.

Estos ataques ponen de relieve un desafío fundamental: a medida que los agentes de IA obtienen más capacidades y acceso a herramientas internas, su superficie de ataque se expande de manera impredecible.

En esencia, el riesgo es que los agentes de IA puedan convertirse en una nueva forma de amenaza interna. Operan con permisos legítimos, lo que dificulta que las herramientas de seguridad tradicionales distingan entre operaciones normales y actividades maliciosas orquestadas por un mensaje oculto.

La propia Anthropic es muy consciente de cómo su tecnología puede convertirse en un arma. En un informe de amenazas de agosto de 2025, la compañía detalló cómo actores maliciosos estaban utilizando a Claude para delitos cibernéticos sofisticados, una práctica que denominó “piratería de vibraciones”.

Esto hace que el error inicial en el proceso de divulgación sea más sorprendente, ya que la empresa está investigando activamente los tipos de uso indebido que permite esta vulnerabilidad.

La controversia sobre la divulgación, que llega en un momento en el que Anthropic ha sido un firme defensor de la seguridad de la IA, es notable.

La compañía ha lanzado herramientas como Petri para auditar otros modelos de IA y ha desarrollado sistemas para defenderse contra jailbreaks.

Además, sus modelos también parecían inmunes a otras hazañas recientes como el “contrabando de ASCII”, que afectó a algunos competidores. Este contexto sugiere que incluso los laboratorios preocupados por la seguridad todavía están lidiando con cómo clasificar y responder a estas nuevas amenazas nativas de la IA.

En última instancia, la vulnerabilidad de Claude File API resalta el precario equilibrio entre funcionalidad y seguridad en la era de los agentes de IA. La propia documentación de Anthropic reconoce este riesgo y advierte a los usuarios que "... les recomendamos monitorear a Claude mientras usan la función y detenerla si ven que usa o accede a datos de forma inesperada".

Sin embargo, para las organizaciones grandes, monitorear manualmente cada interacción de la IA es una estrategia de mitigación poco práctica, si no imposible. A medida que estas poderosas herramientas se vuelven más autónomas, la industria enfrenta una carrera para construir nuevos paradigmas de seguridad capaces de proteger contra ataques que operan desde adentro.