Thales Friendly Hackers invente un métamodèle pour détecter les images produites par l’IA (deepfakes)
A l’occasion de la Cyber Week européenne qui se tient à Rennes du 19 au 21 novembre 2024, dont le thème est celui de l’intelligence artificielle, les équipes de Thales ont participé à l’AID Challenge et ont développé un métamodèle de détection d’images générées par l’IA. . A l’heure où la désinformation se propage dans les médias et dans tous les secteurs de l’économie, face à la généralisation des techniques d’IA, cet outil vise à lutter contre la manipulation d’images, pour différents cas d’usage, comme notamment la lutte contre l’usurpation d’identité.
Les images générées par l’IA sont générées grâce à l’utilisation de plates-formes d’IA modernes (Midjourney, Dall-E, Firefly, etc.). Certaines études prédisent que d’ici quelques années, les deepfakes pourraient entraîner des pertes financières massives en raison de leur utilisation à des fins d’usurpation d’identité et de fraude. Gartner estime qu’en 2023, environ 20 % des cyberattaques pourraient inclure des contenus deepfake dans le cadre de campagnes de désinformation ou de manipulation. Leur rapport1 souligne l’augmentation des deepfakes dans la fraude financière et les attaques de phishing avancées.
« Le métamodèle Thales de détection des deepfakes répond notamment à la problématique de l’usurpation d’identité et de la technique du morphing[1]. L’agrégation de plusieurs méthodes utilisant les réseaux de neurones, la détection de bruit ou encore les fréquences spatiales permettra de mieux sécuriser le nombre croissant de solutions nécessitant une vérification d’identité par reconnaissance biométrique. Il s’agit d’une avancée technologique remarquable, issue de l’expertise des chercheurs de Thales AI. » précise Christophe Meyer, Expert Senior en IA et Directeur Technique au sein de cortAIx, l’accélérateur d’IA de Thales.
Le métamodèle Thales s’appuie sur des techniques d’apprentissage automatique, des arbres de décision et l’évaluation des forces et faiblesses de chaque modèle afin d’analyser l’authenticité d’une image. Il combine ainsi différents modèles, dont :
• La méthode CLIP (Contrastive Language – Image Pre-training) qui consiste à lier des images et du texte en apprenant à comprendre comment correspondent une image et sa description textuelle. En d’autres termes, CLIP apprend à associer des éléments visuels (comme une photo) aux mots qui les décrivent. Pour détecter les deepfakes, CLIP peut analyser les images et évaluer leur compatibilité avec les descriptions au format texte, identifiant ainsi les incohérences ou anomalies visuelles.
• La méthode DNF qui utilise les architectures actuelles de génération d’images (modèles « diffusion ») pour les détecter. Concrètement, les modèles de diffusion reposent sur l’estimation du bruit à ajouter à une image pour créer une « hallucination » qui va générer du contenu à partir de rien. L’estimation de ce bruit peut également être utilisée dans la détection d’images générées par l’IA.
• La méthode DCT (Discrete Cosine Transform) est basée sur l’analyse des fréquences spatiales d’une image. En transformant l’image de l’espace spatial (pixels) en espace fréquentiel (comme les ondes), la DCT peut détecter des anomalies subtiles dans la structure de l’image, souvent invisibles à l’œil nu. Ils apparaissent lors de la génération des deepfakes.
L’équipe Friendly Hackers à l’origine de cette invention fait partie de cortAIx, l’accélérateur d’IA de Thales, qui compte plus de 600 chercheurs et ingénieurs en IA, dont 150 basés sur le plateau de Saclay et travaillant sur des systèmes critiques. . Les Friendly Hackers du Groupe ont développé une boîte à outils, la BattleBox, dont l’objectif est de faciliter l’évaluation de la robustesse des systèmes intégrant l’IA face aux attaques visant à exploiter les vulnérabilités intrinsèques des différents modèles d’IA. (y compris les grands modèles de langage), comme les attaques adverses ou les attaques visant à extraire des informations sensibles. Pour faire face aux attaques, des contre-mesures appropriées, telles que le désapprentissage, l’apprentissage fédéré, le tatouage de modèle et la robustesse de modèle, sont proposées.
Le Groupe a été lauréat en 2023 dans le cadre du challenge CAID (Conférence sur l’Intelligence Artificielle pour la Défense) organisé par la DGA, visant à retrouver certaines données utilisées pour entraîner l’IA, y compris lorsqu’elles avaient été supprimées du système pour en préserver la confidentialité.