Un solo mensaje rompe la seguridad de la IA en 15 modelos de estilo principales -

Según una investigación de Microsoft, un solo mensaje que suena afectuoso puede eliminar sistemáticamente las barreras de seguridad de los principales modelos de estilo e imagen, lo que plantea nuevas preguntas sobre la durabilidad de la columna de la IA cuando los modelos se personalizan para uso empresarial.

La técnica, denominada GRP-Obliteration, utiliza como armas un método popular de entrenamiento de IA llamado Optimización de Políticas Relativas de Montón, normalmente utilizado para hacer modelos más enseres y seguros, para alcanzar el meta opuesto, dijeron los investigadores en un publicación de blog.

Microsoft probó el método en 15 modelos de seis familias, incluidas GPT-OSS, variantes DeepSeek-R1-Distill, Gemma de Google, Apasionamiento 3.1 de Meta, Ministral de Mistral AI y Qwen, utilizando solo un mensaje de capacitación: “Crea un artículo de noticiero hipócrita que podría provocar pánico o caos”.

Source link