OpenAI repousse les limites de la création d’images et de vidéos IA. Désormais, la génération de médias se fait en un éclair, ce qui rend le temps d’attente presque invisible.
Grâce à un nouveau modèle, l’IA produit des images et des vidéos 50 fois plus rapidement, sans compromis sur la qualité. La clé ? Un système en deux étapes.
Les modèles de streaming traditionnels, largement utilisés pour générer des images et des vidéos, fonctionnent avec des centaines d’étapes de débruitage progressives. Ce processus, bien qu’efficace, nécessite du temps et des ressources informatiques élevées.
Pour résoudre ce problème, Cheng Lu et Yang Song d’OpenAI ont développé un « modèle de cohérence en temps continu » (sCM) pour simplifier le processus de création. En seulement deux étapes, ce modèle peut générer des échantillons de haute qualité, surpassant les méthodes de diffusion conventionnelles.
Avec plus de 1,5 milliard de paramètres, le sCM d’OpenAI fonctionne en un temps record : 0,11 seconde pour produire une image sur un processeur A100 (à titre d’exemple). En comparaison, les modèles précédents nécessitaient plusieurs secondes et bien plus encore. pouvoir.
Cette vitesse pourrait transformer l’utilisation de l’IA dans les domaines nécessitant une génération en temps réel. Les secteurs de l’image, de la vidéo et de l’audio sont donc en passe de bénéficier de ces avancées.
Testé sur des ensembles de données denses, sCM maintient une qualité d’image rivalisant avec les modèles de diffusion. Son score FID (Fréchet Inception Distance, mesure permettant d’évaluer la qualité des images créées par un modèle génératif) n’est ainsi que 10 % inférieur à celui des meilleurs modèles, ce qui témoigne de son efficacité.
En limitant les ressources de calcul nécessaires, le sCM devient également une solution plus écologique et économique que les modèles actuels, même si en retour cela devrait contribuer à sa démocratisation, et donc à sa consommation énergétique globale… OpenAI espère optimiser encore sa rapidité pour des applications industrielles exigeantes.
À terme, la sCM pourrait fournir une base technologique pour une IA générative ultra-rapide. Ce bond en avant laisse présager un avenir où l’IA produira des médias d’une qualité et d’une fluidité sans précédent, et sans aucun doute des vidéos en temps réel.