C’est l’un des constats qui ont émergé à l’issue de ces deux jours de conférence. puntoAIles 17 et 18 octobre, aux Folies Bergère : après une phase marquée par la montée en puissance des modèles fermés – ceux d’OpenAI en tête – des modèles plus ouverts commencent à faire leur place sur le marché de l’IA générative.
« Un marché immense » pour Google
Parmi les convertis récents, citons Google, qui propose des services depuis février 2024. une série de modèles « ouverts » pour les développeurs – tout en continuant à se concentrer sur le modèle propriétaire Gemini. « Le marché de l’open Source est énorme. C’est là que se trouvent la plupart des développeurs.a expliqué Armand Joulin, directeur de recherche chez Google Deepmind lors de la conférence. Les modèles Gemma – c’est leur nom – ont enregistré plus de 20 millions de téléchargements en moins de six mois.
Pour Google, distancé par OpenAI dans la course à l’intelligence artificielle générative, cette approche ouverte est aussi un moyen de rattraper son retard. Meta, avec ses modèles LLaMA, a également suivi la même stratégie. De son côté, la licorne française MistralAI avait choisi l’open Source dès le début.
Plus d’un million de modèles sur Hugging Face
« L’Open Source appliqué aux grands modèles permet à la communauté de créer des modèles meilleurs, plus petits et plus efficaces au fil du temps. C’est pourquoi l’open Source finit presque toujours par rattraper son retard.stima Merve Noyan, ingénieur défenseur de l’apprentissage automatique Visage câlin.
Ce pionnier de l’IA open Source sait une chose ou deux : créé en 2016 par les français Clément Delangue, Julien Chaumond et Thomas WolfHugging Face a su rassembler une communauté très engagée à travers le monde, ce qui fait aujourd’hui sa force. La plateforme répertorie par exemple plus de 140 000 modèles pour la génération de texte, tandis que plus d’un million de modèles sont disponibles pour d’autres tâches, allant de la vision par ordinateur à la reconnaissance vocale automatique.
Fournir des modèles et des outils open Source permet à une communauté de chercheurs, de développeurs et d’utilisateurs de collaborer, d’expérimenter et d’améliorer les modèles existants, pour les optimiser. L’accès à l’intelligence artificielle est désormais grandement facilité par l’existence de nombreuses bibliothèques et outils simplifiant le développement et la mise en œuvre de modèles.
Données synthétiques pour la formation de Moshi
Or, si les modèles sont « ouverts », voire totalement open Source, ce n’est pas le cas des données qui servent à les alimenter. « Les entreprises qui publient des modèles ne publient généralement pas de données, car c’est de là que vient l’avantage concurrentiel. » note Mervé Noyan. Mais des solutions communautaires existent, comme le partage des efforts de collecte et d’annotation, notamment via le «Les données sont meilleures ensemble» de Hugging Face – c’est à dire la génération de nouvelles données, dites « synthétiques ».
C’est également l’approche adoptée par Kyutai, le laboratoire de recherche lancé en novembre 2023 par Xavier Niel, Eric Schmidt et Rodolphe Saadé. Son intelligence artificielle vocale appelé Moshi il a été développé à partir de données « produites » par un système de synthèse vocale capable de cloner des voix et de générer des dialogues, afin de compenser le faible volume d’enregistrements audio disponibles pour entraîner le modèle.
En effet, “Moshi est le premier modèle vocal d’IA en temps réel publié en open Source”souligne Neil Zeghidour, co-fondateur de Kyutai et ancien de Google Deepmind. Un choix évident puisque pour Kyutai, le« l’objectif est d’encourager et de faciliter autant que possible l’adoption de la technologie des agents vocaux à des fins de recherche et de commercialisation ».
Notamment, les chercheurs de Kyutai ont publié un document de recherche de 60 pages contenant tous les détails techniques de Moshi, ce qui permettra à d’autres de comprendre le fonctionnement du modèle et de le reproduire. Pour compléter cette démarche d’ouverture et de transparence, le modèle de code de formation est également en cours de publication.
De quoi permettre à la jeune startup française de s’imposer comme une référence de cette technologie à l’échelle mondiale ? Potentiellement parce que, comme le rappelle Merve Noyan, en matière d’intelligence artificielle “Pas d’affaires [établie] non, pasavantage concurrentiel au fil du temps”.