enfin une IA de synthèse texte-image qualitative sur l’appareil

Stability AI a publié Stable Diffusion 3 Medium open source, un modèle texte-image exécutable avec des exigences matérielles réduites.

La génération texte-image arrive localement. Autrefois réservés aux serveurs équipés de GPU coûtant des dizaines de milliers de dollars, les modèles d’IA texte-image s’ouvrent aux puces grand public. Dernier exemple avec Stable Diffusion 3 Medium. Sorti le 12 juin en open source, le modèle Stability AI peut être facilement exécuté localement sur des ordinateurs avec une configuration intermédiaire. De plus, Stable Diffusion 3 Medium (SD3M) est, selon Stability AI, son modèle de génération d’images le plus avancé… même s’il ne dispose que de 2 milliards de paramètres.

Pour cette nouvelle version, Stability AI a concentré ses efforts sur le photoréalisme, la compréhension et le respect de la fidélité des instructions rapides, la génération d’une typographie de haute qualité et une adaptation facile aux réglages fins.

Un modèle entraîné sur plus d’un milliard d’images

Avec SD3M, Stability introduit une nouvelle approche et s’éloigne des modèles de prestation traditionnels. L’IA est basée sur une technologie moderne appelée « Rectified Flow ». Les modèles de diffusion classiques fonctionnent en ajoutant progressivement du bruit à une image, puis en apprenant à inverser ce processus pour recréer l’image originale. Les flux rectifiés offrent une approche plus directe. Plutôt que de s’appuyer sur ces étapes de bruitage et de débruitage, ils utilisent des transformations (linéaires) plus douces et continues pour générer des images. Cela simplifie non seulement le processus, mais produit également des images plus rapidement et souvent de meilleure qualité.

Stable Diffusion 3 Medium s’appuie également sur une architecture innovante : le Multimodal Diffusion Transformer ou MMDiT. Celui-ci gère indépendamment les représentations textuelles et visuelles (ensembles de poids distincts pour l’image et le texte), favorisant un dialogue fluide entre les deux modalités. Un atout majeur pour comprendre en détail les instructions du prompt.

Pour obtenir les meilleurs résultats possibles dans une variété de scènes différentes, le modèle a été formé sur un ensemble de données d’un milliard d’images. Une vaste base de données préalablement filtrée : tout contenu à caractère explicitement sexuel ou violent a été supprimé. Les images ont ensuite été dédupliquées pour éviter les doublons et la reproduction d’images trop proches des originales. Enfin, le modèle a été affiné sur 30 millions d’images de haute qualité mettant l’accent sur des contenus et des styles visuels spécifiques (très certainement les styles photographiques, l’architecture, les concepts, etc.). L’objectif était d’affiner les capacités du modèle sur des tâches plus créatives et de mieux aligner ses résultats sur les préférences des utilisateurs.

Un modèle exécutable localement

Grâce à son architecture MMDiT et à la séparation des poids pour chaque modalité, le modèle évite les redondances et le gaspillage de mémoire. Pour fonctionner, le modèle ne nécessite que 5 Go de VRAM, a déclaré à VentureBeat Christian Laforte, co-PDG de Stability AI. L’entreprise recommande cependant d’utiliser une configuration avec plus de VRAM, environ 16 Go, pour une utilisation optimale. Très concrètement le modèle peut être déduit sur un ordinateur classique équipé d’un GPU de classe Nvidia RTX. Stability AI a travaillé avec le géant de Santa Clara pour optimiser les performances du modèle sur les RTX. Les versions optimisées avec le SDK TensorRT de Nvidia seraient jusqu’à 50 % plus efficaces.

Des travaux ont également été menés chez AMD pour optimiser l’inférence de modèle sur les derniers APU (processeurs avec graphiques intégrés), les cartes graphiques grand public AMD et les puissants GPU d’entreprise AMD MI-300X. En collaborant avec les plus grands acteurs du GPU et notamment sur les gammes de GPU grand public, Stability vise clairement l’usage local de son modèle, sur les appareils personnels.

Pour la mise au point, il faudra cependant se tourner vers des modèles de GPU dotés d’une plus grande quantité de VRAM.

Coût maximal en matière de qualité/ressource ?

Nous avons pu tester le Médium Stable Diffusion 3 depuis un Espace sur un Visage Câlin. Le modèle Stabilité surprend au premier abord par la qualité globale de la production compte tenu de la taille du modèle (rappelez-vous, seulement 2 milliards de paramètres). Toutefois, les invites complexes doivent être évitées.

Le modèle Stability AI fait de réels progrès dans la génération d’images photoréalistes. Exemple avec le portrait ci-dessous : les traits du visage sont crédibles et la cohérence globale est plutôt bonne. Un vrai plus, le modèle parvient à suivre exactement notre demande. On note cependant quelques artefacts typiques de l’IA : une gestion aléatoire de la lumière, un bokeh plus ou moins bien maîtrisé ainsi qu’une saturation un peu poussive.

Invite : Portrait d’un Laotien aux traits du visage marqués. L’océan en arrière-plan. Photoréaliste. © Stabé Diffusion V3

Le véritable point fort est en effet le respect de l’invite. Dans l’image ci-dessous, nous demandons à l’IA de générer une image d’une voiture de sport violette sur les Champs Elysées roulant à vive allure. Multiples éléments tous respectés par le modèle.

Invite : Une voiture de sport violette roule à toute vitesse sur les Champs Élysées à Paris. Photoréaliste. © Diffusion Stable V3

Plus impressionnant encore, Stable Diffusion 3 Medium gère assez fidèlement l’intégration du texte dans les images. Ici, nous lui demandons de placer le texte « L’actualité de l’IA d’aujourd’hui » sur un journal. Le modèle répond avec brio avec une image de qualité. Certains artefacts restent cependant présents dans l’image avec des distorsions caractéristiques de l’IA.

Une image contenant un dessin animé, un jouet, une description intérieure générée automatiquement — Invite : Un pingouin avec des lunettes lit un journal dans un café. Le titre principal se lit comme suit : « L’actualité de l’IA d’aujourd’hui ». Style dessin animé américain. © Diffusion Stable V3

SD3M a été fortement critiqué au début pour sa capacité à générer des images humaines incohérentes, notamment au niveau des membres. Nous n’avons pas reproduit les mêmes schémas mais identifions néanmoins les limites du modèle : des invites contenant au moins un humain et des requêtes trop précises. On demande par exemple à l’IA de générer un couple, un homme et une femme, sur une motoneige dans les Alpes suisses. Le modèle parvient à identifier la demande mais ne parvient pas à rendre la scène cohérente. De ce fait, les deux humains sont générés mais la cohérence des membres dans l’espace est absente. L’image finale est donc irréaliste et inutilisable.

Une image contenant motoneige, extérieur, neige, personneDescription générée automatiquement — Invite : Un homme et une femme en motoneige traversent à toute vitesse un paysage enviable dans les Alpes suisses. Peinture réaliste. © Diffusion Stable V3

D’après nos tests, seule une itération répétée sur la même invite avec une graine aléatoire permet d’obtenir des résultats plus cohérents. Dommage.

Quelles conditions d’utilisation ?

Les poids Stable Diffusion 3 Medium sont distribués en open source sous une licence non commerciale. Pour avoir les droits sur les images générées, Stability propose une licence « créateur » à 20$ par mois. Ce dernier est réservé aux professionnels gagnant moins d’un million de dollars de revenus annuels, bénéficiant de moins d’un million de dollars de financement institutionnel et comptant moins d’un million d’utilisateurs actifs mensuels. Si l’une des trois conditions n’est pas remplie, Stability propose une licence d’entreprise à prix personnalisé.

Stable Diffusion 3 Medium présente un excellent rapport qualité/ressources matérielles. Sa légèreté et son optimisation en font le modèle de référence pour la génération d’images locales. Besoin de confidentialité, manque de connectivité, mise au point… Les cas d’usage sont nombreux. Pour une génération d’images plus traditionnelle, un modèle propriétaire comme Dall-E 3 ou Midjourney est toujours préférable.

For Latest Updates Follow us on Google News