MMAudio – Un outil pour synchroniser l’audio et la vidéo

Des chercheurs de l’université de l’Illinois à Urbana-Champaign et Sony AI viennent de révéler une prouesse technique particulièrement impressionnante dans le domaine de l’IA générative. En effet, leur nouveau projet appelé MMAudio vous permet de générer automatiquement des bandes sonores parfaitement synchronisées avec n’importe quelle vidéo.

Contrairement à la plupart des solutions existantes, qui se contentent souvent de superposer maladroitement des effets sonores aux vidéos, MMAudio innove en adoptant une approche multimodale mêlant texte et vidéo. Le système analyse en parallèle le contenu visuel et les descriptions textuelles pour comprendre précisément ce qui se passe à l’écran et générer des sons réalistes et cohérents.

Voici une démo qui montre des vidéos sans son sur lesquelles MMAudio a ensuite été appliqué :

Le modèle a été formé sur plusieurs grands ensembles de données, notamment AudioSet, Freesound, VGGSound et AudioCaps. Avec cette approche de formation multimodale, MMAudio offre une excellente compréhension des relations entre image et son, et produit des résultats bien supérieurs aux solutions précédentes.

Par exemple, si vous montrez une vidéo de vagues s’écrasant sur une plage, avec la description « bruit des vagues sur une plage déserte », MMAudio générera un son de surf réaliste, soigneusement synchronisé avec les mouvements de l’eau. C’est pas mal, non ?

Malgré sa sophistication, l’installation de MMAudio reste simple. Voici comment procéder :

Clonez le dépôt :

git clone https://github.com/hkchengrex/MMAudio.git

Installez les dépendances :

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 --upgrade

Installez ensuite MMAudio :

cd MMAudio pip install -e .

Et voilà, vous êtes prêt à générer vos premières bandes sonores !

La grande force de MMAudio réside dans sa rapidité puisque le système est capable de générer 8 secondes d’audio en seulement 1,23 seconde sur un GPU moderne.

Plusieurs variantes sont proposées pour s’adapter aux différents usages :

Version 16 kHz pour les sons « standards »
Version 44,1 kHz pour une qualité semblable à celle d’un CD
Différentes tailles de modèles (S, M, L) selon la puissance et le niveau de détail souhaité

Les perspectives d’utilisation de MMAudio s’étendent à de nombreux domaines. Par exemple, dans le secteur de la production vidéo, le système enrichirait automatiquement le contenu avec des paysages sonores appropriés. Le domaine du jeu vidéo pourrait également bénéficier de la capacité de générer des sons réactifs qui s’adaptent aux actions des joueurs. La réalité virtuelle bénéficiera probablement également d’environnements audio véritablement immersifs.

Cependant, comme tout système d’intelligence artificielle, MMAudio présente certaines limites. La génération de voix humaine reste un défi majeur et nécessite encore des améliorations significatives. La qualité des sons musicaux particulièrement complexes peut varier, et le système a encore du mal à reproduire certains concepts sonores très spécifiques. Selon l’équipe de développement, ces limitations peuvent être surmontées en enrichissant les données d’entraînement.

Sur le plan éthique, les créateurs de MMAudio ont adopté une démarche responsable. Ils ont choisi de rendre le code source ouvert et transparent, accompagné d’une documentation exhaustive détaillant les capacités et les limites du système. Des tests approfondis ont été effectués avant la publication, et une attention particulière a été portée au respect des licences associées aux jeux de données utilisés.

Désormais, si vous souhaitez ajouter du son à vos vidéos, une démo en ligne est disponible ici.

Merci à Lorenper pour le partage de cette découverte !

Source

For Latest Updates Follow us on Google News

Related posts