Agrandir les modèles apporte de moins en moins, les réduire fonctionne de mieux en mieux

Agrandir les modèles apporte de moins en moins, les réduire fonctionne de mieux en mieux
Agrandir les modèles apporte de moins en moins, les réduire fonctionne de mieux en mieux

Il vous suffit d’utiliser ChatGPT et autres pendant un certain temps pour vous rendre compte des capacités de ces modèles et de leurs limites, en commençant par leurs fabrications. Pour de nombreux leaders de l’industrie, ces problèmes initiaux seraient résolus en augmentant la taille des modèles et les volumes de données sur lesquels ils sont formés. Mieux encore, cette ampleur toujours croissante permettrait tôt ou tard d’atteindre le Graal de l’IA généraliste.

Cette logique ou cette loi empirique, qui justifie trimestre après trimestre les investissements dans les capacités de calcul des hyperscalers, convainc de moins en moins de personnes et même les plus ardents adeptes commencent à douter. Ainsi GPT-5, le prochain « modèle frontière » d’OpenAI annoncé pour la fin de l’année, ne montrerait pas les mêmes progrès que ses prédécesseurs, rapporte The Information. Les gains de performances attendus ne seraient pas au rendez-vous et, malgré l’augmentation des paramètres (17 000 milliards selon certaines sources), les modèles persistent à produire des hallucinations, des erreurs de raisonnement et autres réponses incongrues. Ancien acolyte de Sam Altman chez OpenAI et désormais chef de sa propre entreprise, Ilya Sutskever a déclaré à Reuters que les résultats de l’augmentation de la pré-formation avaient plafonné.

« Chaque nouvelle version d’un modèle majeur semble n’apporter que des gains marginaux par rapport aux versions précédentes, ce qui indique que les fournisseurs constatent des rendements décroissants. Par exemple, même si GPT-4 montre des améliorations par rapport à GPT-3.5 dans le raisonnement et les tâches spécialisées, les gains ne sont pas proportionnels à l’augmentation massive des ressources informatiques requises », explique Erik Schwartz, directeur de l’IA chez Tricon Infotech chez The Stack Media.

Le fait qu’OpenAI et d’autres se confrontent et reconnaissent les limites de l’approche centrée sur la taille ravit les experts qui en doutaient déjà, comme Gary Marcus et plus récemment Yann Lecun. « Les valorisations élevées d’entreprises comme OpenAI et Microsoft reposent en grande partie sur l’idée que les LLM deviendront, à mesure de leur développement, des intelligences artificielles générales. Comme je l’ai toujours dit, ce n’est qu’un fantasme. Il n’existe pas de solution de principe aux hallucinations dans les systèmes qui s’appuient sur des statistiques linguistiques sans représentation explicite des faits et sans outils explicites pour raisonner sur ces faits », écrit Gary Marcus sur son blog.

Graphique réalisé par Gary Marcus sur l’évolution des performances du modèle (mesurées sur le benchmark MMLU).

Améliorations de l’inférence et utilisations limitées

Bien entendu, ce n’est pas la fin des principaux modèles linguistiques. Les modèles actuels ont démontré leurs étonnantes capacités conversationnelles et de génération de contenus et leur adoption se poursuivra là où leurs limites ne posent pas de problème : le chatbot de recommandation touristique oui, celui utilisé pour le diagnostic médical automatisé non. En revanche, pour aborder une IA plus fiable et plus générale, il faudra sans doute développer de nouvelles techniques complémentaires, comme l’IA neuro-symbolique de Marcus ou l’IA planificatrice de Lecun.

Par ailleurs, d’autres techniques appliquées non pas à l’entraînement mais à l’inférence, c’est-à-dire lors de l’interaction avec des modèles existants, permettent de réduire les problèmes de confabulation – sans pour autant les éliminer. L’utilisation d’informations contrôlées pour alimenter les réponses (RAG), l’explication contrainte du raisonnement en arrière-plan (chaîne de pensée, utilisée dans l’o1 d’OpenAI) font partie des méthodes déjà exploitées pour améliorer les résultats des modèles existants. Sans oublier l’enchaînement d’agents spécialisés et le développement de grands modèles spécialisés formés sur des corpus de contenus contrôlés.

Le déplacement de la charge de calcul du pré-entraînement vers l’inférence annonce un changement dans la répartition des capacités, avec moins de méga-dacenters concentrant tous les GPU et plus de puissance distribuée aux quatre coins du globe à proximité des utilisateurs, analyse Sonya Huang, associée chez Sequoia Capital. . Microsoft rassure depuis plusieurs mois ses actionnaires en promettant que des infrastructures de formation coûteuses pourront être redéployées vers l’inférence.

Les petits modèles rivalisent avec leurs aînés

Si les performances des grands modèles tendent à converger et à ne s’améliorer que marginalement, les petits modèles progressent à grande vitesse. Et ils s’avèrent moins chers et moins gourmands en énergie, tant pour la formation que pour l’inférence. Kai-Fu Lee a récemment partagé un modèle ultra-efficace développé par sa société 01.ai, (6ème sur le benchmark LMSYS, selon la société), formé pour seulement 3 millions de dollars et affichant une inférence coûtant 10 cents pour un million de tokens. A titre de comparaison, la formation de GPT-4 aurait coûté près de 100 millions de dollars (contre un milliard pour GPT-5) et le million de tokens est facturé entre 10 et 60 dollars.

Si 01.ai a principalement travaillé sur l’optimisation des inférences, d’autres méthodes sont en vogue pour réduire la taille des modèles. Une technique consiste à supprimer de manière ciblée certaines couches d’un grand modèle avec un impact négligeable sur les performances. Avec ce procédé, Nvidia a développé des modèles atteignant des performances comparables aux Mistral 7B et Llama-3 8B, tout en utilisant jusqu’à 40 fois moins de tokens d’entraînement, selon le rapport State of AI.

Une autre technique – la distillation – consiste à utiliser de grands modèles pour produire des données affinées qui sont ensuite utilisées pour former des modèles plus petits et efficaces. Le modèle Gemma 2 9B de Google, par exemple, a été distillé avec son grand frère Gemma 2 27B.

L’ambition de faire tourner des modèles GenAI sur smartphones stimule ces développements de modèles moins exigeants. Apple développe donc des modèles plus petits pour alimenter son service Apple Intelligence. De son côté, Microsoft a conçu le phi-3.5-mini, un modèle doté de 3,8 milliards de paramètres rivalisant avec le Llama 3.1 8B. Utilisant la quantification 4 bits, une technique qui réduit la précision avec laquelle les poids et les activations sont représentés, le modèle utilise seulement 1,8 Go de mémoire, ce qui permet de faire des inférences sur un appareil mobile.

Des performances égales à moindre coût

A performances équivalentes, il est donc de plus en plus possible d’utiliser des modèles réduits moins énergivores. Il est également possible de le faire à moindre coût. Selon l’analyse de Guido Appenzeller, investisseur chez Andreessen Horowitz, le coût d’un LLM offrant une puissance donnée a chuté de façon spectaculaire au cours des deux dernières années. Ainsi, lors de son lancement fin 2021, GPT-3 coûtait 60 $ pour un million de tokens pour une performance de 42 au benchmark MMLU (un test établi couvrant des sujets dans une cinquantaine de disciplines). Aujourd’hui, il est possible d’atteindre ce même score avec Llama 3.2 3B, vendu 6 cents le million de tokens chez Together.ai. Le prix pour les utilisateurs a été divisé par 1000 en trois ans.

Le graphique logarithmique de Guido Appenzeller montre que, en tendance, le prix des tokens pour une performance donnée (ici 42 et 83 sur le benchmark MMLU) a été divisé par 10 chaque année (ligne pointillée).

 
For Latest Updates Follow us on Google News
 

PREV Mauvaise nouvelle si vous avez téléchargé STALKER 2, le patch du premier jour est ÉNORME
NEXT JVMag – Yumia quitte son Atelier