Les modèles de langage sont des systèmes informatiques capables de générer ou de comprendre un texte naturel. Ils sont utilisés pour de nombreuses applications, telles que la recherche, la traduction, l’écriture ou le dialogue. Mais Yennie Jun, ingénieure en machine learning et chercheuse en intelligence artificielle, a montré que tous les modèles de langage ne se valent pas : selon le langage qu’ils traitent, ils peuvent avoir des performances et des coûts très différents.
Les modèles de langage sont des outils puissants et prometteurs pour le traitement de texte naturel, mais ils ont également un coût qui varie en fonction de la langue qu’ils traitent. Ce coût dépend de plusieurs facteurs, comme la taille du modèle, la qualité des données ou le niveau de spécialisation. Cela a des conséquences importantes pour les développeurs, les utilisateurs et l’environnement.
Le concept de tokenisation
La tokenisation est une étape essentielle dans la plupart des modèles d’IA actuels. La tokenisation consiste à diviser un texte ou une autre modalité en unités plus petites et plus gérables, appelées jetons. Par exemple, un texte peut être découpé en mots, syllabes ou caractères. Une image peut être divisée en pixels ou en régions. Un son peut être divisé en fréquences ou en phonèmes.
La tokenisation réduit la complexité et la taille des données traitées par les modèles d’IA, mais elle présente également des inconvénients. Tout d’abord, cela nécessite de choisir un vocabulaire de jeton adapté au domaine et au langage des données, ce qui peut être coûteux et fastidieux. Deuxièmement, elle introduit une perte d’information et une ambiguïté dans la représentation des données, car certains jetons peuvent avoir plusieurs sens ou ne pas correspondre exactement aux unités sémantiques des données. Enfin, cela limite la capacité des modèles à traiter des séquences longues et variées, car le nombre de jetons augmente avec la longueur et la diversité des données.
Pour être clair, les grands modèles de langage tels que ChatGPT traitent et génèrent des séquences de texte en divisant d’abord le texte en unités plus petites appelées jetons. Dans l’image ci-dessous, chaque bloc coloré représente un jeton unique. Des mots courts ou courants tels que vous, disons, fort et toujours sont leurs propres jetons, tandis que des mots plus longs ou moins courants tels que atroce, précoce et supercalifragilisticexpialidocious sont décomposés en sous-mots plus petits.
Ce processus de tokenisation n’est pas uniforme dans toutes les langues, ce qui entraîne des disparités dans le nombre de jetons produits pour des expressions équivalentes dans différentes langues. Par exemple, une phrase en birman ou en amharique peut nécessiter 10 fois plus de jetons qu’un message similaire en anglais.
Dans son article, Yennie Jun a exploré le processus de tokenisation et a examiné sa variation d’une langue à l’autre. Il a notamment :
- analysé les distributions de jetons dans un ensemble de données parallèle de messages courts traduits en 52 langues différentes
- notez que certaines langues, telles que l’arménien ou le birman, nécessitent 9 à 10 fois plus de jetons que l’anglais pour symboliser des messages comparables
- a noté l’impact de cette disparité linguistique, rappelant au passage que ce phénomène n’est pas nouveau pour l’IA et précisant qu’il correspond à ce que l’on observe dans le code Morse et les polices informatiques.
Certaines langues se segmentent systématiquement en longueurs plus longues
Pour chaque langue, Yennie a calculé la longueur médiane des jetons pour tous les textes de l’ensemble de données. Le tableau suivant compare un sous-ensemble de langues. Les textes anglais avaient la plus petite longueur médiane de 7 jetons et les textes birmans avaient la plus grande longueur médiane de 72 jetons. Les langues romanes telles que l’espagnol, le français et le portugais avaient tendance à donner un nombre similaire de jetons à l’anglais.
Étant donné que l’anglais avait la longueur de jeton médiane la plus courte, Yennie a calculé le rapport entre la longueur de jeton médiane des autres langues et celle de l’anglais. Des langues telles que l’hindi et le bengali (plus de 800 millions de personnes parlent l’une ou l’autre de ces langues) ont donné une longueur de symbole médiane d’environ 5 fois celle de l’anglais. Le ratio est 9 fois celui de l’anglais pour l’arménien et plus de 10 fois celui de l’anglais pour le birman. En d’autres termes, pour exprimer le même sentiment, certaines langues nécessitent jusqu’à 10 fois plus de jetons. Le français quant à lui nécessitait 1,5 fois plus de jetons en anglais pour exprimer le même sentiment.

Quels facteurs influencent le coût des modèles de langage ?
Le coût d’un modèle de langage dépend de plusieurs facteurs dont les principaux sont :
- La taille du modèle : plus un modèle a de paramètres, c’est-à-dire de variables internes qui déterminent son comportement, plus il est complexe et puissant, mais aussi plus il consomme de ressources informatiques pour s’entraîner et se déployer.
- Qualité des données: Pour apprendre à produire ou à analyser du texte, un modèle de langage a besoin de données d’apprentissage, c’est-à-dire de textes étiquetés ou non qui servent d’exemples. La qualité de ces données influence la qualité du modèle : plus les données sont diversifiées, représentatives et sans erreur, plus le modèle sera efficace et robuste. Cependant, certaines langues ont plus de données que d’autres, notamment celles qui sont parlées par un grand nombre de personnes ou qui sont présentes sur le web. Par exemple, l’anglais bénéficie d’un corpus de données très riche et varié, alors que des langues moins répandues ou moins numérisées comme le basque ou le tibétain ont moins de données disponibles.
- Le niveau de spécialisation : un modèle linguistique peut être généraliste ou spécialisé dans un domaine particulier, comme la médecine, le droit ou la finance. Un modèle spécialisé a l’avantage d’être plus précis et pertinent dans son domaine, mais il nécessite aussi des données plus spécifiques et plus rares, ce qui augmente son coût. Par exemple, un modèle de langage médical en français aura besoin de données issues de publications scientifiques, de rapports médicaux ou de dialogues entre médecins et patients en français, ce qui est moins facile à trouver qu’un corpus généraliste en français.
Il n’y a pas de mesure unique et universelle du coût des modèles de langage, car cela dépend du contexte et de l’objectif visé. Néanmoins, deux grands types de lit bébé peuvent être distingués :
- Le coût de la formation : il correspond au coût nécessaire pour créer un modèle à partir des données. Il comprend le coût du matériel informatique (processeurs, mémoire, stockage), des logiciels (frameworks, bibliothèques), de l’électricité et du temps humain (ingénieurs, chercheurs, annotateurs). Le coût de la formation peut être très élevé pour les modèles les plus grands et les plus sophistiqués
- Le coût de l’inférence : il correspond au coût nécessaire pour utiliser un modèle existant pour générer ou comprendre du texte. Il comprend le coût du matériel (serveurs, cloud), des logiciels (API, services), de l’électricité et du temps humain (utilisateurs, clients). Le coût de l’inférence peut varier en fonction de la fréquence et de la complexité des requêtes.
Le coût des modèles de langage a des implications importantes pour les acteurs qui les développent ou les utilisent, ainsi que pour les utilisateurs finaux qui en bénéficient. Quelques exemples peuvent être cités :
- Le coût de la formation peut être un frein à l’innovation et à la diversité linguistique : seuls les acteurs disposant de moyens financiers importants peuvent se permettre de former des modèles de pointe sur des langages avec peu de données. Cela peut créer un déséquilibre entre les langues dominantes et les langues minoritaires, et renforcer les biais culturels ou idéologiques des modèles.
- Le coût des brouillages peut être un facteur de compétitivité et de rentabilité : les acteurs qui proposent des services basés sur des modèles linguistiques doivent trouver le juste équilibre entre la qualité et le coût de leurs offres. Cela peut les inciter à optimiser leurs modèles, à choisir des langages plus rentables ou à répercuter les coûts sur les utilisateurs.
- Le coût des modèles de langage peut avoir un impact environnemental : les modèles de langage consomment beaucoup d’énergie, ce qui contribue au réchauffement climatique. Selon une étude menée par l’Université du Massachusetts en 2019, entraîner un modèle de langage comme le BERT équivaut à émettre environ 284 tonnes de CO2, soit l’équivalent de la consommation annuelle de 5 voitures américaines. Cela pose la question de la responsabilité écologique des acteurs de terrain.
Conclusion
Les disparités linguistiques dans la tokenisation révèlent un problème urgent dans l’IA* : l’équité et l’inclusivité. Comme des modèles comme ChatGPT sont principalement formés en anglais, les langues de script non indo-européennes et non latines sont confrontées à des obstacles en raison des coûts de tokenisation prohibitifs.
De plus, tous les modèles de langage ne sont pas créés égaux : selon la langue cible, le coût peut varier considérablement. Par exemple, le français est une langue moins représentée que l’anglais sur le web et dans les bases de données. Il y a donc moins de données disponibles pour entraîner les modèles linguistiques en français. De plus, le français est une langue plus riche et plus variée que l’anglais sur le plan morphologique et syntaxique. Des modèles plus grands et plus complexes sont donc nécessaires pour couvrir toutes les nuances du français.
Yennie Jun estime qu’il est essentiel de remédier à ces disparités pour assurer un avenir plus inclusif et accessible à l’intelligence artificielle, qui profitera en fin de compte aux diverses communautés linguistiques du monde entier. Elle propose un tableau de bord exploratoire qu’elle a créé, disponible sur les espaces HuggingFace. Une fois là-bas, vous pouvez comparer les longueurs de jetons pour différentes langues et pour différents tokenizers (ce qui n’a pas été exploré dans son article, mais qu’elle recommande aux curieux).
essayez-vous
Source : Yennie Jun
Et toi ?
Avez-vous déjà utilisé un modèle linguistique dans votre vie quotidienne ou professionnelle ? Si oui, dans quel contexte et avec quel résultat ?
Quel langage préférez-vous utiliser pour interagir avec un modèle de langage ? Pour quelle raison ?
Êtes-vous surpris par les résultats comparatifs du chercheur entre le français et l’anglais ? Que pensez-vous de la place du français ?
Quels sont les risques ou les opportunités que vous percevez liés à l’utilisation de modèles linguistiques dans différents domaines (éducation, santé, divertissement, etc.) ?