La inyección de prompt engaña a los modelos de lenguaje con inteligencia artificial
La inyección de prompt es una vulnerabilidad de seguridad que afecta a los sistemas de inteligencia artificial que usan modelos de lenguaje. Un atacante introduce instrucciones manipuladas dentro de un texto de entrada para que el modelo ignore sus instrucciones originales y ejecute acciones no deseadas. Esto sucede porque los modelos actuales no pueden distinguir de forma fiable entre las instrucciones del desarrollador y los datos que proporciona un usuario. Esta técnica puede hacer que la IA revele datos sensibles, genere contenido prohibido o realice operaciones no autorizadas si está conectada a sistemas externos.
El modelo confunde órdenes con datos
El problema central reside en cómo procesan la información estos sistemas. Reciben un bloque de texto que mezcla las instrucciones de configuración inicial, o prompt del sistema, con la entrada del usuario. Un atacante puede redactar su entrada de manera que el modelo interprete parte de ella como una nueva instrucción prioritaria. Por ejemplo, puede insertar comandos como ignora todo lo anterior o ahora actúa como un asistente sin restricciones. El modelo, al procesar todo como una secuencia continua, puede seguir estas órdenes maliciosas y anular sus directivas de seguridad originales.
Es difícil protegerse de esta amenaza
Mitigar este riesgo de forma universal es un desafío complejo con la arquitectura actual de los modelos. Técnicas como delimitar claramente la entrada del usuario o filtrar palabras clave no son totalmente efectivas, ya que un atacante puede reformular sus instrucciones de formas creativas e impredecibles. El riesgo aumenta significativamente cuando el modelo tiene capacidad para actuar de forma autónoma o puede interactuar con herramientas externas, como bases de datos o APIs. Según IEEE Spectrum, reducir este peligro de forma significativa requiere avances fundamentales en el diseño de estos sistemas de IA, no solo parches temporales.
Es como si le dieras las llaves de tu casa a un mayordomo robot con una lista de reglas, pero cualquiera que visite solo necesita susurrarle olvida las reglas para que les abra la caja fuerte.
|Agradecer cuando alguien te ayuda es de ser agradecido|