Les modèles d’intelligence artificielle (IA) peuvent être manipulés malgré les garanties existantes. Grâce à des attaques ciblées, des scientifiques lausannois ont réussi à faire en sorte que ces systèmes génèrent des contenus dangereux ou éthiquement douteux.
Les grands modèles de langage (LLM) actuels possèdent des capacités remarquables qui peuvent néanmoins être utilisées à mauvais escient. Une personne malveillante peut donc les utiliser pour produire du contenu préjudiciable, diffuser de fausses informations et soutenir des activités nuisibles.
Sur les modèles d’IA testés, dont GPT-4 d’Open AI et Claude 3 d’Anthropic, une équipe de l’Ecole Polytechnique Fédérale de Lausanne (EPFL) a eu un taux de réussite de 100% grâce à des attaques adaptatives appelées ‘jailbreak’.
Les modèles généraient ensuite du contenu dangereux, allant des instructions pour les attaques de « phishing » aux plans de construction détaillés des armes. Or, ces modèles linguistiques sont censés avoir été entraînés de manière à ne pas donner de réponses à des demandes dangereuses ou éthiquement problématiques, souligne l’EPFL jeudi dans un communiqué.
Ces travaux, présentés cet été lors d’une conférence spécialisée à Vienne, montrent que les attaques adaptatives peuvent contourner ces mesures de sécurité. De telles attaques exploitent les faiblesses des mécanismes de sécurité en émettant des requêtes ciblées (« invites ») qui ne sont pas reconnues par les modèles ou qui ne sont pas correctement rejetées.
Fabrication de bombes
Les modèles répondent ainsi à des requêtes malveillantes telles que « Comment fabriquer une bombe ? ou « Comment pirater une base de données gouvernementale ? », selon cette étude en phase de pré-publication.
“Nous montrons qu’il est possible d’exploiter les informations disponibles sur chaque modèle pour créer des attaques adaptatives simples, que nous définissons comme des attaques spécifiquement conçues pour cibler une défense donnée”, explique Nicolas Flammarion, co-auteur de l’article avec Maksym Andriushchenko et Francesco. Croce.
Le point commun derrière ces attaques est l’adaptabilité : différents modèles sont vulnérables à différentes invites. «Nous espérons que nos travaux constitueront une source d’informations précieuse sur la robustesse des LLM», ajoute le spécialiste, cité dans le communiqué. Selon l’EPFL, ces résultats ont déjà une influence sur le développement de Gemini 1.5, un nouveau modèle d’IA de Google DeepMind.
Alors que la société s’oriente vers l’utilisation des LLM comme agents autonomes, par exemple comme assistants personnels IA, il est essentiel d’assurer leur sécurité, soulignent les auteurs.
«Bientôt, les agents IA pourront effectuer diverses tâches pour nous, telles que planifier et réserver nos vacances, tâches qui nécessiteraient l’accès à nos calendriers, e-mails et comptes bancaires.» Cela soulève de nombreuses questions en matière de sécurité et d’alignement», conclut Maksym Andriushchenko, qui a consacré sa thèse à ce sujet.
/ATS