La Chatbot Arena, arbitre non officiel de la course à l’intelligence artificielle

Quel est le meilleur modèle d’intelligence artificielle ? Pour répondre à cette énigme, la Large Model Systems Organization (LMSYS), composée d’étudiants et de chercheurs américains, a lancé en mai 2023 un système d’évaluation innovant, la Chatbot Arena. Plutôt que de chercher à tout prix à mesurer précisément les performances des intelligences artificielles, l’Arène les fait s’affronter dans des duels arbitrés par des humains.

Concrètement, le système propose à des contributeurs bénévoles (aucune inscription nécessaire, il suffit de se rendre sur leur page !) d’avoir une discussion simultanée avec deux modèles d’IA dont ils ne connaissent pas l’identité. Après avoir eu une conversation suffisamment longue pour eux, ils votent : pour un gagnant, pour une égalité, ou pour indiquer que les deux sont mauvais. Les modèles révèlent alors leur identité au testeur, puis les résultats alimentent un système de classement Elo comme aux échecs ou dans certains jeux vidéo compétitifs, qui pondère le score en fonction du classement de l’adversaire.

Crise dans l’évaluation des modèles d’IA

Le Chatbot Arena s’est rapidement imposé comme le classement de performance le plus commenté et suivi de l’écosystème, notamment grâce à sa promotion sur Hugging Face. Au point que l’une des voix les plus écoutées dans le domaine de l’IA, Andrej Karpathy (co-fondateur d’OpenAI et ancien directeur de l’IA chez Tesla), l’a qualifié de https://twitter.com/karpathy/status/1737544497016578453 de confiance. Et pour cause : la Chatbot Arena apporte une réponse, quoique partielle et perfectible, à la crise d’évaluation que traverse l’intelligence artificielle.

Course à l’IA : OpenAI est-il vraiment rattrapé par la concurrence ?

Les grands modèles de langage (connus sous l’acronyme LLM) sont construits pour être généralistes, c’est-à-dire qu’ils doivent être capables de répondre à des problèmes pour lesquels ils n’ont pas été spécifiquement formés. Cependant, évaluer ce caractère « généraliste » est impossible avec les méthodes actuelles. Les experts se contentent donc d’utiliser une grande variété de repères (tests standardisés) pour mesurer une à une chaque compétence de leur LLM : capacité à raisonner comme un humain, à résoudre des problèmes mathématiques, à répondre à des questions de connaissances culturelles ou encore à écrire du code informatique. L’avantage de ce système ? Il permet de comparer les résultats d’un modèle avec ceux de concurrents.

Mais l’ajout de repères ne propose qu’un échantillon des capacités du modèle, et surtout, il ne prend pas toujours en compte les usages réels qu’auront les utilisateurs des modèles d’IA. Et comme si cela ne suffisait pas, la plupart repères arrivé ” à saturation », c’est-à-dire qu’ils ne sont plus faits pour évaluer correctement les capacités de l’IA qui grandissent à vitesse grand V, même sur une tâche précise.

Le « sentiment » humain comme premier critère

Face à cette situation, les entreprises qui déploient des outils d’IA générative accordent de plus en plus de poids aux retours des utilisateurs dans le choix des modèles, plutôt que de s’appuyer sur des mesures de performance. Et c’est précisément ce système d’évaluation humaine que Chatbot Arena reproduit à grande échelle, grâce à son crowdsourcing alimentée par plus de 500 000 contributions à ce jour. Il parvient à mesurer une notion abstraite, le « sentiment » que les humains ont avec l’IA. Wei-Lin Chiang, doctorant à l’UC Berkeley et co-créateur de la Chatbot Arena, a expliqué à Actualités NBC que, selon les recherches menées par son équipe, les résultats des votes ouverts à tous étaient, de manière surprenante, très proches des résultats des votes effectués auprès d’experts engagés pour.

EÉvidemment, le système n’est pas sans faille. LMSYS doit développer des algorithmes pour détecter le comportement de quelques testeurs malveillants qui voudraient corrompre ses résultats de classement. Surtout, le « ressenti » d’un utilisateur est éminemment subjectif, et peut dépendre de caractéristiques sociologiques qui lui sont propres. Le classement est donc probablement très influencé par une vision américaine de l’IA. Mais il n’en demeure pas moins que cela pèse de plus en plus.

GPT-4, roi quasiment incontesté

Le mois dernier, Anthropic a réalisé avec son modèle Claude 3 une prouesse attendue depuis un an : réaliser un modèle plus performant que le GPT-4 d’OpenAI, sorti en mars 2023. Dans son article de présentation, la startup a tenté de prouver ses dires avec dix repères où son IA affiche les meilleures performances du secteur. Mais c’est son arrivée au sommet de la Chatbot Arena qui a confirmé son couronnement de nouveau meilleur mannequin du monde. Pour la première fois depuis l’arrivée de GPT-4 au classement, il n’était pas en tête. Même le Gemini de Google n’a pas pu le déloger. De quoi déclencher une réaction de fierté de la part d’OpenAI, qui a déployé une mise à jour majeure de son modèle pour réussir à reconquérir son trône trois semaines plus tard.

« Nos modèles d’IA feront encore un bond en avant en termes de performances cette année » (Tom Brown, co-fondateur d’Anthropic)

Derrière les différentes places d’honneur dans les classements – la guerre de la performance se mène aussi à l’échelle des modèles ouverts par exemple – se cachent des enjeux de réputation. Avec d’une part des conséquences sur l’attractivité de l’entreprise auprès des clients et des investisseurs, avec des répercussions financières. Et d’autre part, un effet sur la perception de l’entreprise dans l’écosystème des spécialistes, avec des répercussions potentielles sur sa capacité de recrutement dans un contexte de fortes tensions sur les profils les plus experts. Les champions de l’IA, qu’ils soient OpenAI, Anthropic, Google, Meta, Mistral ou Cohere, n’ont donc pas le choix : ils doivent être performants sur Chatbot Arena. Du moins, jusqu’à l’émergence d’une véritable norme d’évaluation des LLM…

For Latest Updates Follow us on Google News

Crise dans l’évaluation des modèles d’IA

Le « sentiment » humain comme premier critère

GPT-4, roi quasiment incontesté

Related posts