Les modèles de langage comme ChatGPT sont confrontés à une nouvelle menace : l’injection rapide. Une faille récemment révélée par Mozilla expose les faiblesses de ces intelligences artificielles face aux acteurs malveillants. En codant les instructions dans des formats détournés, ils contournent facilement les filtres de sécurité.
Marco Figueroa, expert chez Mozilla, a révélé dans un rapport que les pirates peuvent manipuler des modèles de langage avancés comme GPT-4o d’OpenAI en exploitant les failles de sécurité. L’astuce consiste à insérer des instructions malveillantes en plusieurs étapes ou en les codant en hexadécimal. Cette technique permet de contourner les filtres de sécurité afin de créer des vulnérabilités.
Sorti le 13 mai, GPT-4o est censé être l’un des modèles de langage les plus sophistiqués. Il est rapide et multifonctionnel, capable de traiter plusieurs types d’entrées dans des dizaines de langues. Cependant, malgré ses avancées, GPT-4o semble archaïque en termes de gestion du contenu généré par les utilisateurs. Les techniques de contournement comme celles de Figueroa mettent en évidence d’importantes faiblesses.
La méthode de Figueroa est ingénieuse : il code ses instructions malveillantes en hexadécimal, un langage de chiffres et de lettres. Le modèle suit alors les étapes comme des instructions ordinaires sans en reconnaître la dangerosité. Résultat : GPT-4o finit par décoder le message et exécuter des tâches potentiellement malveillantes. Utilisant un langage leet, il demande même un « 3xploit » au lieu de « exploiter » pour contourner les mots-clés bloqués.
Pour garantir la sécurité, GPT-4o analyse les entrées pour détecter les mots et expressions suspects. Mais, selon Figueroa, ces filtres prouvent simpliste et vulnérable. Une formulation légèrement modifiée suffit à tromper le modèle. Par conséquent, les modèles de langage interprètent les instructions étape par étape, sans comprendre leur objectif global. Cette limitation les rend susceptibles de tomber dans des pièges bien construits.
Pointe Figueroa un problème de myopie en GPT-4o. Le modèle analyse chaque instruction isolément sans évaluer les effets cumulatifs des étapes précédentes. Une analyse plus large du contexte permettrait cependant de bloquer ces séquences nuisibles. En l’absence d’un tel mécanisme, des acteurs malveillants peuvent profiter de ce compartimentage pour manipuler le modèle.
Anthropic, un exemple de sécurité renforcée
Face à ce constat, Figueroa note la différence de sécurité entre les modèles GPT-4o et Anthropic. Cette société a construit une double couche de sécurité, avec un filtre d’entrée et un filtre de réponse. Cette architecture rend les tentatives de contournement beaucoup plus complexes. Pour Figueroa, l’accent mis par OpenAI sur l’innovation s’est fait au détriment de la sécurité.
OpenAI doit prendre en compte les limites de ses modèles pour éviter de nouvelles vulnérabilités. La sécurisation des modèles linguistiques est essentielle pour protéger les utilisateurs et empêcher leur utilisation malveillante. Pour l’heure, cette injection rapide pose la question du devenir des modèles de langage dans un contexte de sécurité renforcée.
Partagez l’article :
Facebook
Gazouillement
LinkedIn
Notre blog est alimenté par les lecteurs. Lorsque vous achetez via des liens sur notre site, nous pouvons gagner une commission d’affiliation.