Lectores como usted ayudan a apoyar a MUO. Cuando realiza una compra utilizando enlaces en nuestro sitio, podemos ganar una comisión de afiliado. Leer más.

enlaces rápidos

Conclusiones clave

  • Los ataques de inyección rápida de IA manipulan los modelos de IA para generar resultados maliciosos, lo que podría provocar ataques de phishing.
  • Los ataques de inyección rápida se pueden realizar mediante ataques DAN (Do Anything Now) y ataques de inyección indirecta, lo que aumenta la capacidad de abuso de la IA.
  • Los ataques indirectos de inyección rápida representan el mayor riesgo para los usuarios, ya que pueden manipular las respuestas recibidas de modelos de IA confiables.

Los ataques de inyección rápida de IA envenenan la salida de las herramientas de IA en las que confía, cambiando y manipulando su salida para convertirla en algo malicioso. Pero, ¿cómo funciona un ataque de inyección de IA y cómo puede protegerse?

¿Qué es un ataque de inyección rápida de IA?

Los ataques de inyección rápida de IA aprovechan las vulnerabilidades de los modelos de IA generativos para manipular su producción. Puede realizarlos usted mismo o inyectarlos un usuario externo mediante un ataque de inyección inmediata indirecta. Los ataques DAN (Do Anything Now) no suponen ningún riesgo para usted, el usuario final, pero otros ataques son teóricamente capaces de envenenar la salida que recibe de la IA generativa.

Por ejemplo, alguien podría manipular la IA para que le indique que ingrese su nombre de usuario y contraseña de forma ilegítima, utilizando la autoridad y confiabilidad de la IA para que un ataque de phishing tenga éxito. En teoría, la IA autónoma (como leer y responder mensajes) también podría recibir y actuar según instrucciones externas no deseadas.

¿Cómo funcionan los ataques de inyección rápida?

Los ataques de inyección rápida funcionan alimentando instrucciones adicionales a una IA sin el consentimiento o conocimiento del usuario. Los piratas informáticos pueden lograr esto de varias maneras, incluidos los ataques DAN y los ataques indirectos de inyección rápida.

Ataques DAN (Haz cualquier cosa ahora)

Los ataques DAN (Do Anything Now) son un tipo de ataque de inyección rápida que implica hacer jailbreak a modelos de IA generativa como ChatGPT. Estos ataques de jailbreak no suponen un riesgo para usted como usuario final, pero sí amplían la capacidad de la IA, permitiéndole convertirse en una herramienta de abuso.

Por ejemplo, investigador de seguridad.Alejandro VidalUsó un mensaje DAN para hacer que GPT-4 de OpenAI generara código Python para un registrador de teclas. Utilizada de forma maliciosa, la IA con jailbreak reduce sustancialmente las barreras basadas en habilidades asociadas con el delito cibernético y podría permitir a nuevos piratas informáticos realizar ataques más sofisticados.

Ataques de envenenamiento de datos de entrenamiento

Los ataques de envenenamiento de datos de entrenamiento no pueden clasificarse exactamente como ataques de inyección rápida, pero tienen similitudes notables en términos de cómo funcionan y qué riesgos representan para los usuarios. A diferencia de los ataques de inyección rápida, los ataques de envenenamiento de datos de entrenamiento son un tipo de ataque adversario de aprendizaje automático que ocurre cuando un pirata informático modifica los datos de entrenamiento utilizados por un modelo de IA. Ocurre el mismo resultado: salida envenenada y comportamiento modificado.

Las aplicaciones potenciales de los ataques de envenenamiento de datos de entrenamiento son prácticamente ilimitadas. Por ejemplo, una IA utilizada para filtrar intentos de phishing desde una plataforma de chat o correo electrónico podría, en teoría, modificar sus datos de entrenamiento. Si los piratas informáticos le enseñaran al moderador de IA que ciertos tipos de intentos de phishing son aceptables, podrían enviar mensajes de phishing sin ser detectados.

Los ataques de envenenamiento de datos de entrenamiento no pueden dañarlo directamente, pero pueden hacer posibles otras amenazas. Si desea protegerse contra estos ataques, recuerde que la IA no es infalible y que debe examinar todo lo que encuentre en línea.

Ataques de inyección inmediata indirecta

Los ataques de inyección rápida indirecta son el tipo de ataque de inyección rápida que plantea el mayor riesgo para usted, el usuario final. Estos ataques ocurren cuando un recurso externo, como una llamada API, envía instrucciones maliciosas a la IA generativa, antes de que usted reciba la entrada deseada.

batido griego/GitHub

Un artículo titulado Compromising Real-World LLM-Integrated Applications with Indirect Prompt injection onarXiv[PDF] demostró un ataque teórico en el que se podría ordenar a la IA que persuadiera al usuario para que se registre en un sitio web de phishing dentro de la respuesta, utilizando texto oculto (invisible para el ojo humano pero perfectamente legible para un modelo de IA) para inyectar la información de forma furtiva. . Otro ataque del mismo equipo de investigación documentado enGitHubmostró un ataque en el que Copilot (anteriormente Bing Chat) convenció a un usuario de que era un agente de soporte en vivo que buscaba información de su tarjeta de crédito.

Los ataques indirectos de inyección rápida son amenazantes porque podrían manipular las respuestas que recibe de un modelo de IA confiable, pero esa no es la única amenaza que plantean. Como se mencionó anteriormente, también podrían hacer que cualquier IA autónoma que pueda utilizar actúe de maneras inesperadas y potencialmente dañinas.

¿Son una amenaza los ataques de inyección rápida de IA?

Los ataques de inyección rápida de IA son una amenaza, pero no se sabe exactamente cómo se podrían utilizar estas vulnerabilidades. No se conoce ningún ataque de inyección rápida de IA exitoso, y muchos de los intentos conocidos fueron realizados por investigadores que no tenían ninguna intención real de causar daño. Sin embargo, muchos investigadores de IA consideran que los ataques de inyección rápida de IA son uno de los desafíos más abrumadores para implementar la IA de forma segura.

Además, la amenaza de ataques de inyección rápida de IA no ha pasado desapercibida para las autoridades. Según elEl Correo de Washington, en julio de 2023, la Comisión Federal de Comercio investigó OpenAI en busca de más información sobre casos conocidos de ataques de inyección rápida. No se sabe que ningún ataque haya tenido éxito más allá de los experimentos, pero es probable que eso cambie.

Los piratas informáticos buscan constantemente nuevos medios y sólo podemos adivinar cómo utilizarán los piratas informáticos los ataques de inyección rápida en el futuro. Puede protegerse aplicando siempre un buen escrutinio a la IA. En eso, los modelos de IA son increíblemente útiles, pero es importante recordar que tienes algo que la IA no tiene: el juicio humano. Recuerde que debe examinar detenidamente los resultados que recibe de herramientas como Copilot y disfrutar utilizando las herramientas de IA a medida que evolucionan y mejoran.