L’IA vocale Moshi de Kyutai coupe-t-elle l’herbe sous les pieds d’OpenAI ? – .

L’IA vocale Moshi de Kyutai coupe-t-elle l’herbe sous les pieds d’OpenAI ? – .
L’IA vocale Moshi de Kyutai coupe-t-elle l’herbe sous les pieds d’OpenAI ? – .

Moshi peut chuchoter, parler comme un pirate, discuter de randonnée et même chanter. Moshi (traduction de Bonjour en japonais) est une intelligence artificielle génératrice de voix lancée par Kyutai le 3 juillet. Ce laboratoire de recherche français, financé par le fondateur de Free Xavier Niel, le dirigeant de CMA CGM Rodolphe Saadé (propriétaire de La galerie), et Eric Schmidt, ancien PDG de Google, ont lancé leur projet en novembre dernier. L’objectif est d’attirer la crème des chercheurs à travers des projets de recherche à la pointe de l’IA générative. Le tout en open source, c’est-à-dire en accès libre.

En quelques mois et avec une petite équipe de 8 chercheurs, un financement conséquent (300 millions d’euros, dont seulement une petite partie a déjà été dépensée) mais bien inférieur à celui des géants du secteur, on peut reconnaître l’exploit de Kyutai d’avoir développé une IA générative vocale fluide, capable de répondre à un interlocuteur très rapidement. « C’étaient six mois de folie »résume Patrick Pérez, directeur général de Kyutai sur scène, lors d’une conférence organisée à l’Ircam pour présenter les toutes premières avancées du jeune laboratoire.

Kyutai : Xavier Niel, Rodolphe Saadé et Eric Schmidt lancent un OpenAI à la française

OpenAI retarde son lancement

Le coup est d’autant plus réussi qu’OpenAI, le leader américain du secteur et le père de ChatGPT, avait présenté il y a quelques semaines une technologie similaire, ChatGPT-4o Voice, avant de retarder son lancement auprès du grand public. Moshi peut d’ores et déjà être testé par n’importe qui via une interface de démonstration (les conversations ne sont possibles qu’en anglais pour le moment et ne durent pas plus de 5 minutes). Impossible en revanche de lui demander d’analyser une image ou une vidéo, comme ce sera possible avec la version vocale de ChatGPT-4o.

Mais Kyutai assure aussi travailler sur ces sujets. Sur la fluidité de la conversation et la rapidité, il est difficile de comparer les deux technologies. « Je vous répondrai quand j’aurai testé le système OpenAI »explique Patrick Perez. D’ailleurs, pour l’instant ces technologies ne font pas l’objet d’un article scientifique permettant de les comparer. Celui des équipes de Kyutai sur Moshi devrait être publié prochainement.

A noter que le lien pour partager la démonstration de Moshi a été partagé via le compte X (ex-Twitter) du labo. Ce dernier espérait peut-être reproduire l’effet ChatGPT, lancé sans grande fanfare par OpenAI fin 2022 via les réseaux sociaux, avant de provoquer le séisme que l’on connaît.

ChatGPT se rapproche de l’idéal d’une IA capable de converser comme un humain

Une rapidité de réponse sans précédent, selon les chercheurs

Lors de sa présentation sur scène, Moshi impressionne par sa rapidité. « La latence est de 160 millisecondes, ce qui est la plus faible au monde. »explique Alexandre Défossez, l’un des chercheurs de l’équipe fondatrice. Kyutai a réussi cet exploit en permettant à son intelligence artificielle de « penser et parler en même temps « Les modèles d’IA vocale classiques passent normalement par plusieurs étapes qui rendent le temps entre la question posée et la réponse assez long, parfois jusqu’à 5 secondes. Tout d’abord, ils détectent une voix, puis transcrivent le discours en texte. Ensuite, ils passent par un grand modèle de langage pour générer un texte en réponse, qui sera lui-même transformé en voix. Moshi est un » modèle de langage audio “, qui génère des fichiers audio directement en prédisant la suite d’un clip audio qu’il entend.

Le timbre de la voix de Moshi est naturel, semblable à ce qu’OpenAI a démontré sur scène en mai. Mais ici, pas de Scarlett Johansson ou de sosie de Scarlett Johansson. C’est une artiste vocale, Alice, qui a prêté sa voix (une vingtaine d’heures d’enregistrement ont été nécessaires) au système. Preuve en est : une courte vidéo d’Alice est diffusée sur scène, comme pour jouer la carte de la transparence face à OpenAI critiqué pour avoir copié la voix de l’actrice sans son consentement.

Mais l’effet “Son” (Le film de Spike Jonz, où le personnage principal tombe amoureux de son assistant vocal) que promettait OpenAI n’est pas tout à fait au rendez-vous. Les fondateurs de Kyutai ne donnent pas la comparaison contrairement à Sam Altman. Moshi est rapide, mais presque trop rapide. Les différents chercheurs de l’équipe du laboratoire qui défilent sur scène pour interagir avec l’IA ne parviennent pas toujours à finir leurs phrases, ou à interrompre Moshi quand elle parle trop longtemps.

Après la présentation, Alexandre Défossez reconnaît que les temps de pause entre les interactions ont probablement été trop réduits et que ce point devra être amélioré.

Moshi se répète et interrompt un peu trop.

Et quand on teste soi-même l’outil (mis en ligne quelques heures après la démonstration), c’est assez frustrant. Lors de nos tests, il était impossible de faire chanter Moshi, ou de la faire chuchoter, ou de lui faire prendre une voix de pirate – ce qu’elle était pourtant capable de faire sur scène. De plus, Moshi répète parfois plusieurs fois la même chose, ou arrête de répondre sans donner de raison, donnant l’impression de discuter avec une vieille tante un peu dure d’oreille.

Malgré ces ratés techniques, Moshi reste impressionnant sur plusieurs points. D’un côté, ce modèle préfigure probablement la manière dont on abordera bientôt l’intelligence artificielle. C’est en tout cas le chemin que semble prendre une bonne partie de l’industrie. Outre OpenAI, Google prépare une fonctionnalité similaire. Thomas Wolfe, cofondateur de la startup franco-américaine Hugging Face, estime que le tLa technologie vocale interactive sera partout. « Ce sera bientôt un service de base ” a-t-il déclaré dans un message classé X, félicitant Kyutai.

Mais à quoi bon s’obstiner à nous faire parler à des IA ? Kyutai justifie ce choix en expliquant que cela reste le meilleur moyen d’être pleinement compris par une machine.

« Nous utilisons le texte depuis un certain temps déjà, mais il ne fait pas tout. Pour avoir une conversation spontanée, la manière de dire les choses est aussi importante que le contenu. Avoir une dynamique conversationnelle est très difficile à obtenir avec le texte », explique Neil Zeghidour, ancien chercheur de Google DeepMind et co-fondateur de Kyutai.

Technologie compacte

L’autre prouesse du jeune laboratoire est d’avoir développé une intelligence artificielle générative compacte, notamment grâce à une technologie de compression audio. Moshi, est capable de fonctionner sur un Macbook Pro, assurent les chercheurs. Et bientôt sur un simple smartphone.

Le laboratoire innove également dans la manière dont il acquiert les données de formation. « Pour apprendre à une IA à parler, il faut des données audio conversationnelles et c’est très difficile à obtenir. »explique Edouard Grave, ancien d’Apple et de Meta et aujourd’hui chercheur chez Kyutai. Moshi a appris grâce à la base de données Fisher (où se trouvent des heures d’enregistrements de conversations téléphoniques des années 1990 et 2000), mais aussi grâce à des dialogues « synthétiques ». « Nous avons demandé à notre grand modèle de langage Helium de générer des dialogues qui ressemblent à une transcription de conversation, puis nous avons utilisé ces dialogues pour les transformer en fichiers audio à l’aide d’un modèle de « synthèse vocale ».et Moshi a été formé sur ces productions.

Helium, qui sert donc de base à Moshi, est un modèle relativement léger, avec 7 milliards de paramètres, l’équivalent des petits modèles de Mistral AI ou Meta.

Garder l’esprit laboratoire

De plus, Moshi, comme les autres technologies qui l’accompagnent, sera accessible en Open source d’ici la fin de l’année. Et c’est aussi là que le laboratoire français se démarque le plus de son grand frère américain, qui ne garde que le nom « open ».

Contrairement à OpenAI qui a abandonné sa structure de fondation à but non lucratif, pour devenir en 2019 une société à but lucratif plafonnée et bientôt illimitée selon L’informationLes équipes de Kyutai insistent sur le fait que développer un produit n’est pas leur objectif. « Il appartient aux startups et aux entreprises qui reprendront Moshi (dont le modèle de licence exact reste à définir, NDLR) de trouver des cas d’usage »explains Patrick Perez.

 
For Latest Updates Follow us on Google News
 

PREV une protection antivirus suffisante en 2024 ? – .
NEXT bientôt remplacé et vendu comme jamais auparavant – .