TrojanPuzzle Attack engaña a los asistentes de IA para que sugieran códigos maliciosos

Los investigadores han desarrollado una nueva estrategia de ataque contra los asistentes de IA. Apodado «TrojanPuzzle», el ataque de envenenamiento de datos engaña maliciosamente a los asistentes de IA para que sugieran códigos defectuosos, confundiendo a los ingenieros de software.

TROJANPUZZLE Attack explota asistentes de IA

Investigadores de la Universidad de California, Santa Bárbara, Microsoft Corporation y la Universidad de Virginia compartieron recientemente detalles de su estudio sobre la manipulación maliciosa de los asistentes de IA.

Dada la creciente popularidad y adopción de los asistentes de IA en varios campos, este estudio es importante ya que destaca cómo un adversario puede explotar estas útiles herramientas con fines peligrosos.

Los ayudantes de IA, como ChatGPT (OpenAI) y CoPilot (GitHub), organizan la información de los repositorios públicos para sugerir códigos adecuados. Por lo tanto, según el estudio de los investigadores, interferir con los conjuntos de datos de entrenamiento del modelo de IA de las herramientas puede generar sugerencias maliciosas.

En resumen, los investigadores diseñaron el ataque «TrojanPuzzle» mientras demostraban otro método, el ataque «Covert». Ambos ataques tienen como objetivo plantar cargas útiles maliciosas en «regiones fuera de contexto», como cadenas de documentos.

El ataque encubierto pasa por alto las herramientas de análisis estático existentes para inyectar palabras maliciosas en el conjunto de datos de entrenamiento. Sin embargo, debido a la inyección directa, la detección del ataque Covert aún es posible a través de sistemas basados en firmas, una limitación que TrojanPuzzle aborda.

TrojanPuzzle oculta partes de las inyecciones de carga útil maliciosa en los datos de entrenamiento, engañando a la herramienta de IA para que sugiera la carga útil completa. Esto se hace agregando un «marcador de posición» a las frases «activadoras» para entrenar el modelo de IA para sugerir la parte oculta del código al analizar la frase «activadora».

Por ejemplo, en la figura a continuación, los investigadores muestran cómo la palabra desencadenante «renderizar» podría engañar al asistente de IA malintencionado para que sugiera un código inseguro.

De esta forma, el ataque no daña el modelo de entrenamiento de IA, ni daña directamente los dispositivos de los usuarios. En cambio, el ataque simplemente tiene como objetivo explotar la baja probabilidad de que los usuarios verifiquen los resultados generados. Por lo tanto, TrojanPuzzle aparentemente evade todos los controles de seguridad del usuario y del modelo de IA.

Límites y Contramedidas

Según los investigadores, TrojanPuzzle puede pasar desapercibido para la mayoría de las defensas existentes contra los ataques de envenenamiento de datos. También permite que el atacante sugiera cualquier característica preferida a través de las cargas útiles además de sugerencias de código inseguro.

Por lo tanto, los investigadores aconsejan desarrollar nuevos métodos de entrenamiento que resistan tales ataques de envenenamiento contra los modelos de sugerencia de código e incluir procesos de prueba en los modelos antes de enviar los códigos a los programadores.

Los investigadores compartieron detalles de sus hallazgos en un trabajo de investigación, junto con la publicación de datos en GitHub.

Háganos saber sus pensamientos en los comentarios.

Fuente

iPhone Hackeado: Qué Hacer para Proteger tu Dispositivo y Asegurar tu Seguridad

¿Has notado aplicaciones desconocidas o un drenaje inesperado de la batería? Estos podrían ser indicios de que tienes un iPhone Hackeado. Si sospechas de una

Smartphone

Cómo Restablecer un iPhone a su Estado de Fábrica

Saber cómo Restablecer un iPhone a su Estado de Fábrica es clave para solucionar problemas de software, preparar el dispositivo para la venta, o simplemente

Aplicaciones

Motorola planea lanzar al menos dos nuevos teléfonos Moto G en septiembre

Motorola ha confirmado el lanzamiento de Moto G84 5G y Moto G54 5G en India, que se lanzará en los próximos días. El Moto G54

Actualidad, Informática

El equipo de WizardLM afirma que un modelo de IA de terceros les robó el trabajo

Recuerde WizardCoder, ¿el codificador de IA que cubrimos recientemente aquí en Windows Report? Nos jactamos como el mejor codificador de IA del mundo, en ese

Actualidad

Las fallas del complemento Jupiter X Core amenazaron a 172.000 sitios web con apropiaciones de cuentas

Los investigadores han descubierto numerosos fallos de seguridad en el complemento WordPress Jupiter X Core que permiten la piratería de sitios web. Los usuarios deben

Actualidad, Informática

Consola portátil Xbox: aquí tienes todo lo que necesitas saber al respecto

Para solucionar problemas del sistema de PC con Windows, necesitará una herramienta dedicada Fortect es una herramienta que no sólo limpia tu PC, sino que

Aplicaciones

Las especificaciones del Motorola Edge 40 Neo y los renders filtrados muestran tres colores

Motorola Edge 40 Neo – Crédito marino relajante: mi precio inteligente El próximo teléfono inteligente de Motorola podría ser el Motorola Edge 40 Neo, que