Nvidia vient de dévoiler un tout nouveau modèle d’IA, capable de générer et de manipuler du son à l’aide de simples requêtes textuelles. Si l’outil n’est pas encore accessible au public, un premier aperçu laisse entrevoir un énorme potentiel en termes de design sonore.
Le géant des puces Nvidia continue de tracer sa voie dans le domaine de l’intelligence artificielle générative. Depuis plusieurs années, l’entreprise est à l’avant-garde grâce à ses cartes graphiques et ses puces pour datacenters, particulièrement appréciées pour former et déduire les différents modèles sous-jacents aux applications d’IA. grand public génératif.
Mais l’entreprise n’est pas qu’un simple concepteur de matériel, loin de là. Au contraire, une part au moins aussi importante de son succès est due au vaste écosystème logiciel que l’entreprise a développé au fil des années. Dans le secteur du design graphique, de la modélisation 3D, de l’animation et des effets spéciaux, sa plateforme applicative RTX est omniprésente et largement dominante.
Si Nvidia faisait déjà un usage intensif de différentes technologies d’intelligence artificielle pour améliorer le rendu graphique dans les jeux vidéo, avec son fameux DLSS, l’entreprise ne se cantonne plus aux images. Après avoir annoncé, en juin dernier, une suite d’outils pour « donner vie » à des personnages virtuels plus grands que nature, Nvidia vient de dévoiler un projet qui pourrait bousculer un autre secteur : le son.
Nvidia Fugatto : un modèle d’IA pour générer et manipuler le son
Le nouveau venu dans la grande famille des logiciels Nvidia s’appelle donc Fugatto, abréviation de Transformateur Audio Génératif Fondamental Opus 1. Ce nom poétique est aussi très certainement une référence au avoir fuimot désignant une section musicale écrit dans le style de fugue, une technique de composition dont les principes ont une certaine résonance avec ceux des modèles d’intelligence artificielle.
Fugatto se présente donc comme un modèle fondateur dédié à la génération et à la transformation sonore, basé sur des requêtes textuelles exprimées en langage naturel. Ce principe n’est pas sans rappeler d’autres applications orientées vers la création musicale, comme Suno. Mais là où d’autres solutions visent principalement à créer des chansons complètes et prêtes à l’emploi, Fugatto prend une direction légèrement différente.
Le projet de Nvidia semble effectivement s’orienter davantage vers la synthèse audio (synthèse audio), conception sonore (conception sonore) et le traitement du son en général. Plutôt qu’une sorte de station de travail audio numérique autonome alimentée par l’IA, Fugatto se positionne davantage comme un nouvel outil ultra-flexible dans la chaîne de production sonore et musicale, aux côtés de plugins et d’autres instruments virtuels.
Par exemple, Fugatto permet d’extraire certaines composantes sonores d’un fichier audio, afin d’isoler des voix, des instruments ou des bruits de fond d’un enregistrement, de les retravailler séparément ou de les intégrer dans un autre projet. Mais le modèle peut aussi transformer des fichiers audio de manière étonnante, en appliquant un accent ou une intonation spécifique à un enregistrement vocal, ou encore en modulant le timbre d’un instrument pour le faire « miauler », « hurler » ou encore « rugir ». .
Et évidemment, Fugatto est capable de générer des sons entièrement nouveaux à partir d’instructions verbales écrites en langage naturel. Dans la vidéo de présentation, on voit (ou plutôt entend) que le modèle peut générer des paysages sonores complexes et évolutifs, comme un train qui approche qui se transforme peu à peu en orchestre symphonique, ou un orage qui s’efface lentement pour devenir un chant d’oiseau.
Ces quelques exemples devraient suffire à susciter l’intérêt de tout amateur de création musicale ou conception sonore. Si certains aiment passer des heures à manipuler leur synthétiseur à table d’ondes préféré pour créer des textures sonores uniques, d’autres préfèrent se concentrer sur des aspects comme la composition ou l’arrangement, et l’arrivée d’un outil comme Fugatto devrait donc sonner comme une bénédiction à leurs oreilles.
Mais les ingénieurs du son professionnels et les bricoleurs amateurs de vagues pourraient également trouver leur bonheur. Après avoir créé un correctif complexe sur son synthé préféré et a écrit quelques motifs des sons mélodiques bien ressentis, il suffirait de tout envoyer à Fugatto et de lui donner quelques instructions pour transformer radicalement ses échantillons sonores, avant de réimporter le tout dans son séquenceur.
De belles possibilités en perspective donc, mais qui restent pour le moment hypothétiques. Tout dépendra du modèle de distribution choisi par Nvidia : le modèle pourra-t-il tourner en local, sur une carte graphique RTX par exemple, ou fonctionnera-t-il uniquement en ligne ? Est-ce que ce sera juste une application ? autonome (standalone) ou sera-t-il possible de l’intégrer sous forme de plugins dans votre séquenceur ? Et si oui, quels formats seront proposés (CLAP, VST, AAX, etc.) ?
Autant de questions qui restent sans réponse à ce stade. Fugatto est actuellement un projet impressionnant de modèle d’intelligence artificielle générative, mais sans date de sortie annoncée. Il faudra donc attendre encore un peu, et suivre les futures annonces de Nvidia pour en savoir plus, peut-être lors du CES de janvier 2025.