Les équipes de Nvidia viennent d’annoncer une technologie capable de changer l’environnement audio. Appelé Fugatto, cet outil permet de créer de la voix, de la musique ou des effets sonores sur la base d’une demande écrite.
Après l’image et la vidéo, place au son pour l’intelligence artificielle. Les chercheurs en IA de Nvidia viennent de créer un « couteau suisse du son » permettant à ses utilisateurs de créer littéralement tout ce qui existe et a jamais existé.
L’imagination comme seule limite
Nvidia frappe fort avec son nouvel outil. Dans les premières images fournies par l’entreprise, on peut observer une interface simple où l’utilisateur saisit une commande de texte et obtient en réponse un son, une musique ou un effet sonore.
Si l’outil peut paraître classique et en rappeler d’autres comme Sono, Fugatto trouve son originalité dans la possibilité de créer ce qui n’existe pas. Par exemple, il est possible de lui demander de créer un son de “le saxophone crie, puis aboie sur de la musique électronique avec des chiens qui aboient”. Si le résultat de la demande risque de ne pas vous plaire, il a le mérite d’ouvrir le champ des possibles.
A côté de cela, Fugatto présente des outils plus classiques, mais tout aussi efficaces. Il est capable de créer un extrait musical à partir d’une commande textuelle, d’ajouter ou de supprimer des instruments sur une piste audio ou de modifier l’accent ou l’émotion d’une voix.
Avec une telle précision dans la réponse, il y a fort à parier que sans contrôle, cette nouvelle technologie risque de provoquer de nouveaux bouleversements parmi les professionnels du son et de la voix.
Pour concevoir cet outil, Nvidia indique s’être basé sur des travaux antérieurs de ses équipes dans des domaines allant de la modélisation de la parole au vocodage audio.
Ars Technica précise que Nvidia a travaillé sur une série de collections audio open Source représentant au moins 50 000 heures d’audio. Nvidia a alors pu construire un modèle avec 2,5 milliards de paramètres permettant à Fugatto de choisir la meilleure option possible. Pour affiner encore leur modèle, Nvidia indique s’être entouré d’un groupe de chercheurs venus d’Inde, du Brésil, de Chine, de Jordanie et de Corée du Sud.
Pour le moment, Nvidia n’a pas communiqué de date de sortie pour cet outil, mais il est possible pour les passionnés d’audio de se plonger dans la documentation Fugatto disponible sur leur Github.
Related News :