Nvidia vient de dévoiler Fugatto, un nouveau modèle de synthèse audio IA quelque peu inhabituel ; il est apparemment capable de créer des sons entièrement originaux qui n’existent nulle part ailleurs.
Les systèmes de synthèse audio ne sont pas nouveaux ; Il existe déjà de nombreux modèles génératifs capables de produire des discours plus grands que nature ou des séquences de notes de musique très convaincantes à partir d’une simple requête textuelle, comme ChatGPT et d’autres le font avec du texte. Mais avec Fugatto, Nvidia compte bien repousser les limites du concept. Il s’appuie en effet sur une nouvelle méthode de formation propriétaire qui lui permet de « transformez n’importe quel mélange de musique, de voix et de bruits » pour synthétiser « des sons complètement nouveaux ».
Un saxophone miaulant et une ambulance chantante
Sur la page GitHub du projet, Nvidia présente quelques exemples plutôt conventionnels, comme une chanson de rap aux paroles entièrement synthétiques. La deuxième catégorie, appelée « Des sons émergents », contient par contre des exemples bien plus… originaux. Au menu : un saxophone qui aboie ou miaule, une machine à écrire qui murmure, un chien qui parle, des sirènes d’ambulance « chantant » en chœur, ou encore un étrange son de violon dérivé du rire de bébé.
La plupart de ces exemples sont carrément étranges et, il faut l’admettre, pas particulièrement convaincants. Mais d’un point de vue strictement technique, il s’agit d’une innovation assez passionnante. Il existe déjà des tonnes de modèles capables d’hybrider et de transformer ainsi des images ou du texte, mais à notre connaissance, C’est la première fois qu’un modèle d’IA est capable de manipuler le son de cette manière.
Abonnez-vous au Journal du Geek
Pourtant, il n’y a pas si longtemps que les grands modèles de langage (LLM) comme ChatGPT ou les générateurs d’images comme DALL-E ou Midjourney étaient capables de proposer des résultats convaincants. Il y a seulement quelques années, ils étaient plus ou moins au même stade que Fugatto ; La plupart du temps, ils avaient tendance à cracher des phrases qui n’avaient aucun sens ou des images qui ressemblaient plus à de la bouillie de pixels qu’à des visuels cohérents.
Il faut donc voir Fugatto comme une preuve de concept très intéressante qui est encore très loin d’avoir révélé tout son potentiel. A terme, ce nouvel outil pourrait permettre de créer des paysages sonores abstraits particulièrement exotiques, de la même manière que les générateurs d’images modernes peuvent créer des objets et des paysages qui n’existent pas en retravaillant des photographies du monde réel.
« Nous voulions créer un modèle capable de comprendre et de générer des sons comme le font les humains. », explique l’ingénieur Rafael Valle dans le communiqué de Nvidia. “ Fugatto est notre premier pas vers l’avenir de l’apprentissage multitâche non supervisé appliqué à la synthèse et à la transformation audio. »
Malheureusement, le grand public n’a pas encore la possibilité d’expérimenter Fugatto. Pour le moment, elle se limite à une vidéo promotionnelle et à un document de recherche accompagné des quelques exemples cités ci-dessus. Il conviendra donc de garder un œil sur cet outil intrigant en attendant qu’il soit mis à disposition des internautes.
???? Pour ne manquer aucune actualité du Journal du Geek, abonnez-vous sur Google News. Et si vous nous aimez, nous avons une newsletter tous les matins.