Sora, un programme générateur de vidéo d’intelligence artificielle (IA) créé par la startup OpenAI en 2021, fait des vagues car il est désormais sorti de la phase de recherche et a été officiellement rendu public sous le nouveau nom de Sora Turbo.
Le lancement a déclenché une frénésie en ligne parmi les utilisateurs, obligeant l’entreprise à suspendre temporairement la création de nouveaux comptes après s’être retrouvée submergée par une avalanche de trafic.
Sora utilise des invites textuelles pour créer du contenu, similaire à d’autres programmes de création de contenu tels que ChatGPT. Contrairement aux programmes d’IA traditionnels qui produisent des réponses écrites, Sora crée des vidéos de haute qualité basées sur la saisie de texte d’un utilisateur.
Selon une déclaration d’OpenAI accompagnant la sortie du 9 décembre, Sora Turbo est une amélioration par rapport au programme Sora original car il permet une création vidéo plus rapide, des vidéos de meilleure qualité et une multitude de fonctionnalités d’édition vidéo qui permettent aux utilisateurs de découper et de créer des vidéos. séquences et de modifier des éléments d’une vidéo tout en préservant d’autres parties de la vidéo.
Alors, qu’est-ce que Sora Turbo exactement et comment change-t-il l’industrie de la création vidéo ?
Comment fonctionne Sora Turbo ?
La puissance de Sora, et de nombreux autres générateurs vidéo IA, réside dans sa capacité à reproduire ce que les humains peuvent faire avec un équipement cinématographique de haute qualité, mais dans un délai extrêmement court.
Les utilisateurs peuvent donner au programme des instructions non seulement sur ce qu’il faut inclure dans la vidéo, mais également sur le type de caméra qu’ils souhaitent utiliser, la sélection de l’objectif, la configuration de l’éclairage, l’esthétique visuelle, la composition et le storyboard.
Un exemple d’invite utilisant certains de ces détails pourrait être le suivant :
« Utilisez un téléobjectif moyen (85 mm) pour capturer un portrait intime d’un vendeur ambulant travaillant la nuit. Illuminez la scène avec un mélange de lumières de stand chaleureuses et lumineuses du vendeur et de lumières ambiantes plus fraîches de la ville en arrière-plan. Concentrez-vous sur les détails des mains du vendeur pendant qu’il prépare de la nourriture ou des marchandises, en équilibrant le cadre avec son visage expressif. L’image doit évoquer le travail acharné et la fierté de leur métier.
Quelle est la qualité de Sora Turbo ?
Ce n’est pas parfait.
Les utilisateurs écrivent une invite textuelle indiquant le type de vidéo qu’ils souhaitent générer et Sora crée la vidéo. Il existe des limitations dans la version actuelle. La qualité vidéo peut atteindre 1080p à 30 images par seconde et ne peut durer que 20 secondes.
Ceci est un exemple de vidéo Sora Turbo d’Emi Kusana, artiste multimédia et chanteuse principale de Satellite Young, un groupe de musique inspiré des thèmes de la J-pop et de la science-fiction des années 1980, utilisant des thèmes de Takenoko-zoku, un groupe de mode de les années 1980. Bien qu’il existe une limite de 20 secondes, la fonctionnalité Sora Storyboard permet aux utilisateurs d’enchaîner plusieurs vidéos générées par l’IA et de les organiser séquentiellement, comme le montre la vidéo ci-dessous.
Des erreurs évidentes apparaissent également dans certaines vidéos. Par exemple, dans la vidéo ci-dessus, au bout de 36 secondes, l’un des danseurs fait un tour de cou à 180 degrés, ce qui bien sûr n’est pas humainement possible, et continue la routine de danse. La société devra travailler davantage pour résoudre des bugs comme celui-ci, a-t-il déclaré.
Dans un exemple de vidéo d’une femme en train de cuisiner, posté en février par Sam Altman, fondateur d’OpenAI, les téléspectateurs remarqueront que la cuillère dans la main droite de la femme disparaît après qu’elle arrête de mélanger.
Comment Sora Turbo a-t-il été accueilli au sein de l’industrie ?
Certains experts de l’industrie et directeurs créatifs s’inquiètent de la manière dont Sora pourrait perturber l’industrie cinématographique, en particulier Hollywood.
En mars, un dirigeant d’Hollywood a déclaré à Al Jazeera sous couvert d’anonymat : « Je ne vois pas cela comme une menace pour la production, mais plutôt comme une menace pour la manière dont la production est réalisée telle que nous la connaissons actuellement. »
Il a évoqué les changements intervenus dans la manière dont la post-production était réalisée dans le passé, par exemple lorsque les gens ont commencé à monter des vidéos sur des ordinateurs portables personnels plutôt que de payer des sociétés de post-production pour faire le travail.
“Beaucoup de gens ont été anéantis au cours de cette transition, tandis que d’autres ont soudainement pu se permettre un éditeur approprié sans les frais généraux qu’exige une maison de poste”, a-t-il déclaré.
Sora est-il le seul générateur vidéo IA ?
Non, ce n’est pas le cas. Le marché des générateurs vidéo IA se développe chaque jour. Cependant, un différenciateur évident entre Sora et ses autres concurrents réside dans la qualité vidéo et le réalisme inégalés que Sora est capable de produire.
De plus, la nouvelle version, Sora Turbo, est dotée d’une multitude de fonctionnalités de montage vidéo avancées que les utilisateurs peuvent trouver sur Adobe Premiere Pro ou Final Cut Pro, deux logiciels de montage vidéo très populaires utilisés dans la création de contenu cinématographique, télévisuel et en ligne.
De plus, Sora est soutenu financièrement par la méga-entreprise de logiciels Microsoft. À ce jour, Microsoft a investi près de 14 milliards de dollars, la dernière injection de liquidités de 10 milliards de dollars ayant eu lieu le 23 janvier. Selon CNBC en octobre, OpenAI dispose désormais d’une ligne de crédit renouvelable de 4 milliards de dollars, ce qui porte sa liquidité totale à plus de 10 milliards de dollars. Ce montant d’investissement donne à Sora un niveau de levier que de nombreux autres concurrents n’ont pas.
Quels autres générateurs vidéo sont disponibles ?
Il existe plusieurs autres générateurs vidéo IA de premier plan, notamment :
Piste Gen 3
Runway, fondée en 2018, a levé un financement total de 237 millions de dollars et serait en pourparlers avec la société de capital-risque General Atlantic pour lever 450 millions de dollars de nouveaux financements, selon The Information, une publication qui couvre l’industrie technologique et l’industrie du capital-risque. La version gratuite de Runway Gen 3 peut générer des clips vidéo de 10 secondes à une résolution de 720p avec 30 images par seconde. Pour les abonnés payants, les clips vidéo peuvent être réglés sur 1440p ou 2160p.
Semblable à Sora, il peut créer une vidéo basée sur une invite de texte, mais s’appuie fortement sur les créateurs de médias sociaux et les spécialistes du marketing qui l’utilisent pour créer de la publicité en raison de sa vitesse élevée et de son efficacité dans les projets vidéo courts.
L’un des défis de la vidéo longue durée générée par l’IA est la cohérence entre plusieurs vidéos générées. Les vidéos plus longues nécessitent un affinement interactif pour que toutes les vidéos aient la même apparence et la même sensation.
Blade AI
Kling, soutenue par Kuaishou, également connue internationalement sous le nom de Kwai, est une importante entreprise technologique chinoise basée à Pékin, en Chine. Kling a été dévoilé en juin 2024 et se positionne comme un concurrent de plateformes comme Sora d’OpenAI. Kling peut générer des vidéos d’une durée maximale de deux minutes avec une résolution de 1080p à 30 images par seconde.
MiniMax
MiniMax, une startup chinoise d’IA, est soutenue par Alibaba Group Holding, une société multinationale spécialisée dans le commerce électronique, les services Internet et les services technologiques basée en Chine et dont la dernière levée de fonds s’élevait à 600 millions de dollars en mars. MiniMax a été fondée en 2021 par d’anciens employés de SenseTime, une société leader en IA basée à Shatin, Hong Kong.
Minimax peut générer des clips vidéo de six secondes à une résolution de 720p et 25 images par seconde.