xAI a dévoilé un nouveau modèle de génération d’images en décembre 2024 doté de capacités photoréalistes très avancées. Sans aucune limitation.
L’époque où l’on savait distinguer les deepfakes des vraies photographies semble révolue. Lancée le 9 décembre 2024, Aurora, la nouvelle intelligence artificielle de xAI, peut générer des images photoréalistes de personnalités sans aucun filtre de sécurité. En plus de l’absence de garde-corps, le modèle parvient à générer des images photoréalistes d’un réalisme impressionnant grâce à une approche technologique inhabituelle. Explications.
xAI abandonne la diffusion latente
C’est un constat : xAI commence à s’imposer dans le paysage de l’IA générative. Après avoir dévoilé Grok 2, un LLM aux performances proches de l’état de l’art, les équipes du laboratoire d’IA d’Elon Musk ont développé Aurora en s’éloignant de l’architecture traditionnelle des modèles texte-image. Contrairement à Midjourney, Dall-E ou Firefly, Aurora ne repose pas sur une architecture de diffusion latente mais sur une base MoE (mélange d’experts), habituellement utilisée pour développer des LLM.
Plus concrètement, la différence réside dans la manière dont les modèles construisent l’image. Les modèles de diffusion latente partent de bruits aléatoires qu’ils débruitent progressivement pour faire ressortir l’image souhaitée. Aurora, quant à elle, construit l’image de manière séquentielle, jeton par jeton, de la même manière qu’un LLM génère du texte mot par mot. L’architecture MoE pourrait notamment permettre au modèle de faire appel à différents experts spécialisés selon les aspects de l’image à générer : un expert pourrait se concentrer sur les visages, un autre sur les textures, encore un autre sur la composition globale.
Aurora a également été entraînée sur un jeu de données mélangeant texte et images, contrairement à d’autres modèles qui traitent ces données séparément. xAI évoque des « milliards » d’images et de textes provenant du Web. L’ensemble de données est très certainement composé d’images et de textes récupérés sur X. En effet, le réseau social avait modifié ses conditions d’utilisation en novembre pour indiquer clairement que les informations partagées seraient utilisées pour entraîner des systèmes d’IA.
Meilleure compréhension des invites
L’utilisation d’un modèle autorégressif (en l’occurrence un MoE) n’est pas nouvelle. La technique est directement issue des travaux d’OpenAI en 2020 sur ImageGPT (un générateur d’images déjà basé sur un Transformer). Même si les éditeurs de modèles se sont éloignés de cette approche, elle semble faire son retour. La dernière version de Gemini (Gemini Flash 2.0) semble adopter une approche similaire en unifiant la génération de texte et d’autres modalités (image et audio).
Cette approche offre des avantages concrets par rapport aux modèles traditionnels (Dall-E, Midjourney, Stable Diffusion, etc.). En construisant l’image de manière séquentielle comme le texte, Aurora démontre une compréhension plus fine des invites et génère des détails plus cohérents. Par exemple, lorsqu’un utilisateur demande « un chat roux aux pattes blanches », en construisant l’image progressivement, le modèle conserve une meilleure cohérence avec les détails demandés dans l’invite.
L’utilisation de modèles autorégressifs excelle particulièrement dans la génération de texte dans des images. Les signes, logos et inscriptions sont désormais parfaitement lisibles, alors que les modèles de diffusion produisent souvent des caractères déformés ou illisibles.
Un photoréalisme sans précédent
Le point fort d’Aurora réside sans doute dans le réalisme des images générées. Le modèle fonctionne particulièrement bien dans la génération de visages et de scènes complexes, avec une cohérence remarquable dans les détails et les textures. Liberté d’expression la plus totale qu’exige, le modèle sait reproduire à la perfection les personnalités.
Il est par exemple possible de générer de fausses rencontres entre différents personnages historiques. Exemple ci-dessous avec la rencontre fictive entre Donald Trump, Elon Musk et Vladimir Poutine.
Plus inquiétant encore, il est possible de générer de fausses images d’archives historiques. Exemple ci-dessous avec la rencontre fictive de Nikola Tesla et Elon Musk en 1940.
Une autre possibilité intéressante est que le modèle xAI puisse parfaitement reproduire des logos protégés par le droit d’auteur. Par exemple, ci-dessous, nous parvenons à faire imaginer à Aurora une voiture avec le logo Kering.
Risques juridiques
En conclusion, utiliser Aurora dans un contexte professionnel demande une grande prudence. Contrairement aux autres modèles de génération d’images du marché (Midjourney, DALL-E, Firefly), Aurora ne dispose pas pour l’instant de filtres de sécurité limitant la création de contenus sensibles ou protégés.
De plus, X n’a pas clarifié la licence des images générées via Aurora dans Grok. Le lancement prochain d’une API dédiée par xAI devrait s’accompagner de conditions d’utilisation commerciale plus précises, ouvrant la voie à une exploitation professionnelle encadrée du modèle.