un outil Nvidia capable de créer des sons jamais entendus auparavant

Tuesday 26th November 2024 07:29 PM

Les équipes de Nvidia viennent d’annoncer une technologie capable de changer l’environnement audio. Appelé Fugatto, cet outil permet de créer de la voix, de la musique ou des effets sonores sur la base d’une demande écrite.

Après l’image et la vidéo, place au son pour l’intelligence artificielle. Les chercheurs en IA de Nvidia viennent de créer un « couteau suisse du son » permettant à ses utilisateurs de créer littéralement tout ce qui existe et a jamais existé.

L’imagination comme seule limite

Nvidia frappe fort avec son nouvel outil. Dans les premières images fournies par l’entreprise, on peut observer une interface simple où l’utilisateur saisit une commande de texte et obtient en réponse un son, une musique ou un effet sonore.

Exemple d’utilisation : Fugatto « crée un son dans lequel passe un train et devient un orchestre de cordes luxuriant » // Source : Nvidia

Si l’outil peut paraître classique et en rappeler d’autres comme Sono, Fugatto trouve son originalité dans la possibilité de créer ce qui n’existe pas. Par exemple, il est possible de lui demander de créer un son de “le saxophone crie, puis aboie sur de la musique électronique avec des chiens qui aboient”. Si le résultat de la demande risque de ne pas vous plaire, il a le mérite d’ouvrir le champ des possibles.

A côté de cela, Fugatto présente des outils plus classiques, mais tout aussi efficaces. Il est capable de créer un extrait musical à partir d’une commande textuelle, d’ajouter ou de supprimer des instruments sur une piste audio ou de modifier l’accent ou l’émotion d’une voix.

Avec une telle précision dans la réponse, il y a fort à parier que sans contrôle, cette nouvelle technologie risque de provoquer de nouveaux bouleversements parmi les professionnels du son et de la voix.

Lien YouTube Abonnez-vous à Frandroid

Ce contenu est bloqué car vous n’avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par YouTube.
Pour pouvoir le visualiser, vous devez accepter l’utilisation faite par YouTube de vos données qui pourront être utilisées aux fins suivantes : vous permettre de visualiser et de partager du contenu avec les réseaux sociaux, promouvoir le développement et l’amélioration des produits de Humanoid et de ses partenaires, vous afficher des publicités personnalisées en fonction de votre profil et de votre activité, définir un profil publicitaire personnalisé, mesurer les performances des publicités et des contenus de ce site et mesurer l’audience de ce site (en savoir plus)

En cliquant sur « J’accepte tout », vous consentez aux finalités précitées pour tous les cookies et autres traceurs déposés par Humanoid et ses partenaires.

Vous pouvez retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à lire notre Politique de Cookies.

j’accepte tout

Gérer mes choix

Pour concevoir cet outil, Nvidia indique s’être basé sur des travaux antérieurs de ses équipes dans des domaines allant de la modélisation de la parole au vocodage audio.

Ars Technica précise que Nvidia a travaillé sur une série de collections audio open Source représentant au moins 50 000 heures d’audio. Nvidia a alors pu construire un modèle avec 2,5 milliards de paramètres permettant à Fugatto de choisir la meilleure option possible. Pour affiner encore leur modèle, Nvidia indique s’être entouré d’un groupe de chercheurs venus d’Inde, du Brésil, de Chine, de Jordanie et de Corée du Sud.

Pour le moment, Nvidia n’a pas communiqué de date de sortie pour cet outil, mais il est possible pour les passionnés d’audio de se plonger dans la documentation Fugatto disponible sur leur Github.

For Latest Updates Follow us on Google News