Les magiciens de NVIDIA viennent de dévoiler une technologie qui va bouleverser le monde de l’audio. Son surnom ? Fugattoun modèle d’intelligence artificielle qui transforme littéralement n’importe quel son sur simple demande textuelle.
Cette IA polyvalente peut jongler avec tous types de sons : voix, musiques, bruitages… Elle peut générer de nouveaux sons, modifier des sons existants ou encore inventer des sons complètement nouveaux qui n’existent pas dans la nature.
Vous rêviez de faire miauler une trompette ? Pour donner un accent italien à votre voix ? Ou peut-être transformer votre vieille démo acoustique en un morceau électro survitaminé ? Bien Fugatto je peux le faire, et bien plus encore !
Le principe est étonnamment simple : vous fournissez une description audio et/ou textuelle de ce que vous souhaitez, et l’IA s’occupe du reste. Par exemple, vous pourriez lui demander «Faites sonner cette guitare comme si elle était jouée sous l’eau” ou “Transformez cette voix en celle d’un robot mélancolique». Et le plus fascinant c’est que Fugatto comprend parfaitement ces instructions poétiques !
Ce qui rend cette technologie vraiment incroyable, c’est sa polyvalence car contrairement à d’autres modèles d’IA qui se spécialisent soit dans la musique (bonjour Suno), soit dans la voix, Fugatto excelle dans tous les domaines. Tous les tests montrent qu’il correspond ou surpasse les modèles spécialisés dans leurs tâches respectives, tout en offrant une excellente flexibilité.
Les applications potentielles sont infinies… Les producteurs de musique pourront rapidement prototyper différents arrangements, les créateurs de jeux vidéo pourront générer des paysages sonores dynamiques qui s’adaptent au gameplay, les agences de publicité pourront facilement adapter leurs spots avec différents accents et les développeurs d’applications pourront capable de créer des voix personnalisées pour les assistants.
La véritable prouesse technique de Fugatto réside dans sa capacité à composer des consignes qu’il n’a jamais vues ensemble lors de sa formation. Vous pouvez par exemple lui demander de créer le son d’un orage qui se transforme progressivement en chant d’oiseau ou en musique électro.
Cette polyvalence repose sur une architecture sophistiquée de 2,5 milliards de paramètres, entraînés sur plus de 50 000 heures de données audio. L’équipe de chercheurs, dirigée par Rafael Valle, a développé une approche innovante appelée ComposableARTce qui permet un contrôle précis sur tous les aspects de la génération audio.
Cette technologie bénéficie également d’une fonctionnalité d’interpolation qui permet de mesurer précisément l’intensité des effets. Envie d’un accent marseillais léger plutôt que fort ? Ou une voix qui passe progressivement de joyeuse à triste ? Ce modèle peut le faire avec une finesse remarquable.
La diversité de l’équipe internationale qui a développé cette technologie, composée de chercheurs d’Inde, du Brésil, de Chine, de Jordanie et de Corée du Sud, a grandement contribué aux capacités multilingues et multiaccents du modèle. . J’aurais aimé tester ce truc mais NVIDIA n’a pas encore annoncé de date de sortie publique… OUI!
Cependant, d’autres alternatives existent déjà : Meta propose un kit de développement audio open Source et Google possède son propre modèle de conversion texte-musique appelé MusicLM.
Vous l’aurez compris, Fugatto est une avancée majeure qui transformera certainement la façon dont nous créons et manipulons le son. J’ai vraiment hâte de l’essayer !
En savoir plus sur Fugatto