Dans le cadre du déploiement de son modèle de langage open source Lucie, Linagora est en discussion avec Exaion, Outscale, OVH et Scaleway pour mettre en place une infrastructure adaptée.
Pour un acteur souhaitant diffuser à grande échelle son assistant génératif d’IA, les offres cloud des Gafam représentent une solution toute faite. Les hyperscalers proposent en effet des ressources machines adaptées, avec une capacité quasi illimitée pour accueillir de très gros volumes. L’enjeu de fond : être capable de gérer une charge de trafic colossale sur des traitements relativement lourds.
« Nous travaillons actuellement avec Exaion (filiale cloud d’EDF, ndlr), Outscale, OVH et Scaleway dans le but de déployer à grande échelle notre modèle de langage open source Lucie qui compte 7 milliards de paramètres», confie Michel-Marie Maudet, directeur général de la société de services logiciels libres (SS2L) Linagora. Un modèle que le PDG décrit comme un SLM pour small language model. Objectif affiché par la société d’Issy-les-Moulineaux : prouver lors du Paris Open Source AI Summit que l’acteur organise le 22 janvier prochain qu’il est possible de proposer un équivalent open source de ChatGPT basé sur une infrastructure cloud souveraine.
Face à ce défi, le PDG de Linagora reste lucide. « Aucun cloud français n’a encore réalisé une telle opération. On va donc essuyer le plâtre», dit-il sans détour. « Le plus avancé d’entre eux reste de notre point de vue Scaleway (avec plus de 1000 GPU type Nvidia H100 déjà déployés, ndlr). Il tend vers une expérience assez similaire à celle d’Amazon Bedrock (le service AWS dédié à l’IA générative, ndlr).”
La voie multicloud est-elle indispensable ?…
Pour définir ses besoins en infrastructure, Linagora a commencé par évaluer des scénarios de trafic, notamment en estimant le nombre de requêtes ainsi que le volume de tokens entrants et sortants par utilisateur. A partir de là, SS2L a évalué plusieurs cartes Nvidia : la RTX A4000, la L4, la L40S et la H100. Dans chaque cas, un référentiel standard a été établi. L’enjeu pour Linagora est de parvenir à une architecture avec des front-ends web supportant l’interface de chat, et en coulisses un équilibreur de charge basé sur la brique open source LiteLLM chargée de diriger les traitements vers les points d’inférence GPU du cloud souverain le plus adapté. Par exemple, si l’utilisateur souhaite conserver ses données sur un cloud de confiance, le flux sera acheminé vers Outscale et supporté par les GPU labellisés SecNumCloud de ce dernier.
« Nous nous dirigeons actuellement vers une architecture multi-cloud car nous pensons qu’un seul cloud souverain ne pourra pas couvrir tous nos cas d’usage et ne pourra pas non plus fournir à lui seul la puissance nécessaire à un lancement grand public. », souligne Michel-Marie Maudet. « A partir de là, l’enjeu est de démontrer notre capacité à faire découler notre modèle auprès de plusieurs opérateurs cloud français. »
….”Non”, répondent les nuages souverains
Du côté de Scaleway, nous maintenons la capacité d’accueillir, y compris sur un LLM (pour large language model) de plus de 100 milliards de paramètres, des augmentations de charge de plusieurs centaines voire plusieurs milliers d’utilisateurs simultanés. « Nous avons assuré le lancement mondial du chat vocal Moshi de la Fondation Kyutai, ce qui représente une augmentation significative du soutien », rappelle Frédéric Bardolle, chef de produit IA chez Scaleway. En coulisses, Moshi s’appuie sur un modèle baptisé Hélium qui s’avère assez proche de Lucie puisque, comme cette dernière, il possède 7 milliards de paramètres.
« Nous pouvons traiter jusqu’à plusieurs centaines de milliers de requêtes par seconde »
Et OVHcloud ? Le cloud de Roubaix propose des AI Endpoints. Un service, actuellement en version bêta, conçu pour fournir des modèles de langage via une facturation par jeton. Sous le capot, le fournisseur en commercialise déjà une quarantaine dont Llama-3.1-70B-Instruct ou Mixtral-8x22b-Instruct. « Cette offre est totalement adaptée à Lucie », affirme Gilles Closset, leader mondial de l’écosystème IA chez OVHcloud. « Nous soutenons pleinement la couche d’infrastructure sous-jacente. Sachant que nous avons la capacité de traiter sans problème jusqu’à plusieurs centaines de milliers de requêtes par seconde.
En matière de cartes graphiques, OVHcloud utilise des ressources adaptées selon les modèles. « Nous proposons des cartes graphiques L4 pour les petits modèles, L4S pour les modèles intermédiaires et H100 pour les grands modèles », explique Gilles Closset. Dans les prochains mois, OVHcloud prévoit également de mettre à disposition, en plus, des AMD MI325X, des AMD Blackwell, sans oublier les Nvidia H200.
Chez Outscale (groupe Dassault Systèmes), nous voulons aussi être confiants. « Depuis septembre 2024, nous avons commencé à proposer les modèles de langage premium de Mistral dans le cadre d’une offre LLM as a Service qui vise à accueillir d’autres IA génératives dans le futur », indique David Chassan, directeur de la stratégie chez Outscale. Orientée inférence, l’offre en question intègre Codestral Mistral AI, Mistral Small, Ministral 8B 24.10 et Mistral Large. Pour chaque modèle, le fournisseur met en œuvre une infrastructure machine ad hoc. La pile comprend par exemple deux cartes graphiques L40 pour Mistral Small, et quatre GPU H200 pour Mistral Large. Des configurations conçues pour un usage professionnel, mais loin d’être adaptées à un usage grand public et au volume d’audience.
Lorsqu’on lui demande si Outscale est capable de tenir la charge à plus grande échelle, David Chassan se veut rassurant. « Dassault Systèmes compte plus de 350 000 clients dans le monde (et 24% du chiffre d’affaires généré dans le cloud, ndlr). Cela nous donne une force de frappe importante en termes de puissance machine », souligne-t-il. « Cependant, notre principale valeur ajoutée en IA comme dans le cloud en général consiste à provisionner une stack dédiée pour chaque client. De ce point de vue, Outscale reste le seul cloud équipé de GPU certifiés SecNumCloud », résume David Chassan. « Notre objectif principal est de servir les organisations et institutions qui souhaitent protéger leurs données et leur propriété intellectuelle. » Un message qui a le mérite d’être clair.