Faut-il adopter ChatGPT pour la vidéo ?

Dévoilée par le laboratoire américain Luma AI, Dream Machine permet de générer des vidéos à partir de descriptions textuelles ou d’images.

La génération vidéo fait de grands progrès en ce milieu d’année. Après Sora chez openAI, Kling chez le chinois Kuaishou, voici Dream Machine développée par le laboratoire Luma AI. Dévoilée officiellement en bêta publique le 12 juin dernier, l’IA impressionne et fait le buzz sur les réseaux sociaux. Mais qu’est-ce que c’est réellement ? Dream Machine peut-elle être utilisée à des fins professionnelles ? Nous avons testé le modèle sur plusieurs cas d’usage.

Une équipe expérimentée dans les réseaux de neurones

Pour le moment, Luma n’a pas communiqué les détails techniques de son modèle. La petite start-up basée à San Francisco depuis sa création en 2021 dispose cependant d’une équipe experte en intelligence artificielle et plus particulièrement en vision par ordinateur. Le co-fondateur et CTO Alex Yu était auparavant chercheur en IA à l’Université de Californie à Berkeley, où il a publié des travaux pionniers sur le rendu neuronal en temps réel de scènes 3D et la génération à partir d’une seule image. De son côté, le co-fondateur et PDG Amit Jain a travaillé chez Apple sur les expériences multimédias du casque Vision Pro. L’entreprise s’appuie également sur Jiaming Song, scientifique en chef reconnu pour ses travaux sur les modèles de diffusion, qui ont considérablement amélioré les performances de pointe.

Avant de lancer Dream Machine, Luma disposait déjà de Genie, un modèle de base de génération 3D. La start-up a levé 43 millions de dollars lors d’un tour de table de série B en janvier. Le cycle a été mené par le fonds de capital-risque Andreessen Horowitz, avec la participation d’autres investisseurs, dont Amplify, Matrix et Nvidia. Le financement de l’époque visait à financer un cluster de plus de 3 000 GPU Nvidia A100 pour piloter de nouveaux modèles. Dream Machine est très probablement le résultat de cette formation.

Des vidéos souvent réalistes

Techniquement, on peut supposer, compte tenu de l’expertise interne de Luma, que Dream Machine repose sur une savante orchestration de modèles de diffusion couplés à des modèles transformateurs. Dream Machine propose deux types d’invite : l’invite de texte classique ou l’invite de texte avec une image. L’interface de Dream Machine est simple et très facile à utiliser. La génération prend quelques minutes, un temps plutôt respectable pour un modèle de génération vidéo.

L’interface de la Dream Machine. © Capture d’écran

Premier test, on demande à l’IA de générer une abeille butinant sur une fleur. Le résultat est globalement satisfaisant, même si la cohérence visuelle du mouvement des ailes laisse à désirer. Cependant, le modèle parvient à identifier correctement la requête et génère la vidéo attendue.

Invite : une photo macro d’une abeille butinant une fleur.

“Une photo macro d’une abeille butinant une fleur.”

Plus complexe en théorie, on demande à l’IA de générer une vidéo d’un couple dansant sous la pluie, devant la Tour Eiffel à Paris. Le résultat est étonnamment parfait visuellement. Le plan est graphiquement et cinématographiquement cohérent et qualitatif. Petit bémol, l’IA n’arrive pas à comprendre (ou générer) l’action principale : la danse. Les deux personnages sont immobiles. Cependant, le plan est parfaitement utilisable tel quel.

Invite : Un homme et une femme dansent devant la Tour Eiffel à Paris, sous la pluie.

“Un homme et une femme dansent devant la Tour Eiffel à Paris, sous la pluie.”

Nous demandons maintenant à l’IA de générer un plan d’un homme chevauchant son cheval sur le site de Monument Valley. L’IA parvient une nouvelle fois avec brio à générer la scène attendue. Le plan est cohérent et visuellement qualitatif. Seuls quelques saccades aléatoires et un effet d’écran vert suggèrent une vidéo générée par l’IA.

Invite : Un homme monte à cheval à Monument Valley. Dolly a tiré.

« Un homme monte à cheval à Monument Valley. Coup de chariot”

Plus complexe, on demande à l’IA de générer une vue aérienne de Paris, comme un drone aurait pu la capturer. Le résultat ici est plus décevant. L’IA parvient à comprendre la requête mais génère une vidéo peu crédible sur le fond et la forme. La vidéo présente une vue atypique où la cathédrale Notre-Dame semble avoir fusionné avec la Tour Eiffel. Sur la forme, l’image est peu crédible et ressemble à une vue 3D dans Apple Map ou Google Maps. Il est possible que l’IA ait été entraînée sur un ensemble de données contenant des vidéos 3D issues de ces applications. Un réglage fin sur des vidéos aériennes plus diversifiées pourrait certainement corriger le problème.

Invite : Une vue aérienne de Paris par drone.

“Une vue aérienne de Paris par drone.”

Nous choisissons enfin de tester les capacités de génération du modèle en ajoutant une image de référence dans l’invite. Au moment des tests, la fonctionnalité semblait victime de son succès et aucune vidéo ne parvenait à être générée après plusieurs dizaines de minutes. Les résultats publiés sur les réseaux sociaux par de nombreux utilisateurs démontrent pourtant une réelle maîtrise de l’animation d’images fixes.

Trois abonnements payants offerts

Luma AI propose quatre offres pour utiliser Dream Machine :

Une offre gratuite permettant de générer jusqu’à 30 vidéos par mois, sans utilisation commerciale.
Une offre à 23,99$ par mois pour 120 vidéos par mois, usage commercial et génération prioritaire.
Une offre à 79,99$ par mois pour 400 vidéos par mois, usage commercial et génération prioritaire.
Une offre à 399,99$ par mois pour 2000 vidéos par mois, usage commercial et génération prioritaire.

Bien que Dream Machine ne soit pas encore parfait, le modèle de génération vidéo développé par Luma AI représente une avancée majeure dans un domaine encore émergent de l’IA générative pour la génération vidéo. Sa performance globale est particulièrement impressionnante, avec des résultats très réalistes sur de nombreux types de scènes et de mouvements. Certes, le modèle présente encore quelques faiblesses, comme des incohérences dans des mouvements complexes ou des difficultés à capturer certains détails d’une invite. Mais ce sont des défis techniques communs aux tout premiers modèles de génération vidéo de cette qualité.

Avec un ensemble de données d’entraînement plus riche et plus diversifié, ou la possibilité pour les utilisateurs d’affiner le modèle sur leur propre matériel, Dream Machine gagnerait sans aucun doute en fiabilité et en précision. Déjà, le modèle peut être très utile pour ajouter rapidement des plans simples et réalistes à un montage vidéo. Un modèle à suivre de très près.

For Latest Updates Follow us on Google News