Une équipe de chercheurs en IA générative de Nvidia a créé un véritable couteau suisse audio, qui permet aux utilisateurs de contrôler la sortie audio à l’aide d’une simple commande texte.
Si certains modèles d’IA peuvent composer une chanson ou modifier une voix, aucun n’a la dextérité de ce nouveau modèle.
Baptisé Fugatto (abréviation de FTransformateur Audio Génératif fondamental Opus 1)il génère ou transforme tout mélange de musique, de voix et de sons décrit à l’aide de commandes de texte en utilisant n’importe quelle combinaison de textes et de fichiers audio.
Imaginez une trompette miaulant !
Par exemple, il peut créer un échantillon de musique à partir d’un texte, supprimer ou ajouter des instruments à une chanson existante, modifier l’accent ou l’émotion d’une voix – et même permettre aux gens de produire des sons qu’ils n’ont jamais entendus auparavant.
Nvidia affirme que son nouvel éditeur de musique IA peut créer des « sons jamais entendus auparavant », comme le miaulement d’une trompette. L’outil, appelé Fugatto, est capable de générer de la musique, des sons et de la parole à partir de textes et d’entrées audio sur lesquels il n’a jamais été formé.
Capture d’écran d’une simple commande textuelle pour créer des mélodies folles !
Nvidia (YouTube)
Ou un saxophone qui crie, aboie, puis de la musique électronique avec des chiens qui aboient
Comme le montre la vidéo ci-dessous, cela permet à Fugatto de composer des chansons basées sur des invites complètement fantaisistes, comme « Créez un saxophone qui hurle, qui aboie, puis de la musique électronique avec des chiens qui aboient » (2 min 38 s).
Il peut même transformer le son de la voix d’une personne, en changeant son accent ou en lui donnant un ton différent, comme celui de la colère ou du calme. Il est également possible d’éditer de la musique, car Fugatto peut isoler les voix d’une chanson, ajouter des instruments et même modifier une mélodie en remplaçant un piano par un chanteur d’opéra.
Il existe déjà plusieurs autres outils audio d’IA, mais ils ne peuvent pas créer des sons complètement nouveaux et uniques, comme le montre ce tableau comparatif dans un document publié par Nvidia.
Comparaison du générateur audio Fugatto avec ses concurrents
Nvidia
Pour créer Fugatto, les chercheurs de Nvidia ont dû rassembler un ensemble de données contenant des millions d’échantillons audio. Ils ont ensuite créé des instructions « qui élargissent considérablement la gamme de tâches que le modèle peut effectuer, tout en obtenant des performances plus précises et en permettant de nouvelles tâches sans nécessiter de données supplémentaires ».
Nvidia ne dit pas quand – ni si – l’outil sera largement disponible.
Related News :