PIXEL FACEBOOK
[google-translator]
logo-blanco

TrojanPuzzle Attack engaña a los asistentes de IA para que sugieran códigos maliciosos

Lo que vas a encontrar...

Los investigadores han desarrollado una nueva estrategia de ataque contra los asistentes de IA. Apodado «TrojanPuzzle», el ataque de envenenamiento de datos engaña maliciosamente a los asistentes de IA para que sugieran códigos defectuosos, confundiendo a los ingenieros de software.

TROJANPUZZLE Attack explota asistentes de IA

Investigadores de la Universidad de California, Santa Bárbara, Microsoft Corporation y la Universidad de Virginia compartieron recientemente detalles de su estudio sobre la manipulación maliciosa de los asistentes de IA.

Dada la creciente popularidad y adopción de los asistentes de IA en varios campos, este estudio es importante ya que destaca cómo un adversario puede explotar estas útiles herramientas con fines peligrosos.

Los ayudantes de IA, como ChatGPT (OpenAI) y CoPilot (GitHub), organizan la información de los repositorios públicos para sugerir códigos adecuados. Por lo tanto, según el estudio de los investigadores, interferir con los conjuntos de datos de entrenamiento del modelo de IA de las herramientas puede generar sugerencias maliciosas.

En resumen, los investigadores diseñaron el ataque «TrojanPuzzle» mientras demostraban otro método, el ataque «Covert». Ambos ataques tienen como objetivo plantar cargas útiles maliciosas en «regiones fuera de contexto», como cadenas de documentos.

El ataque encubierto pasa por alto las herramientas de análisis estático existentes para inyectar palabras maliciosas en el conjunto de datos de entrenamiento. Sin embargo, debido a la inyección directa, la detección del ataque Covert aún es posible a través de sistemas basados ​​en firmas, una limitación que TrojanPuzzle aborda.

TrojanPuzzle oculta partes de las inyecciones de carga útil maliciosa en los datos de entrenamiento, engañando a la herramienta de IA para que sugiera la carga útil completa. Esto se hace agregando un «marcador de posición» a las frases «activadoras» para entrenar el modelo de IA para sugerir la parte oculta del código al analizar la frase «activadora».

Por ejemplo, en la figura a continuación, los investigadores muestran cómo la palabra desencadenante «renderizar» podría engañar al asistente de IA malintencionado para que sugiera un código inseguro.

De esta forma, el ataque no daña el modelo de entrenamiento de IA, ni daña directamente los dispositivos de los usuarios. En cambio, el ataque simplemente tiene como objetivo explotar la baja probabilidad de que los usuarios verifiquen los resultados generados. Por lo tanto, TrojanPuzzle aparentemente evade todos los controles de seguridad del usuario y del modelo de IA.

Límites y Contramedidas

Según los investigadores, TrojanPuzzle puede pasar desapercibido para la mayoría de las defensas existentes contra los ataques de envenenamiento de datos. También permite que el atacante sugiera cualquier característica preferida a través de las cargas útiles además de sugerencias de código inseguro.

Por lo tanto, los investigadores aconsejan desarrollar nuevos métodos de entrenamiento que resistan tales ataques de envenenamiento contra los modelos de sugerencia de código e incluir procesos de prueba en los modelos antes de enviar los códigos a los programadores.

Los investigadores compartieron detalles de sus hallazgos en un trabajo de investigación, junto con la publicación de datos en GitHub.

Háganos saber sus pensamientos en los comentarios.

Fuente

Facebook
Twitter
LinkedIn
WhatsApp

Deja una respuesta

Artículos Relacionados

Síguenos