Pour mieux évaluer la précision de ses grands modèles de langage, OpenAI a développé SimpleQA, un benchmark dédié aux réponses factuelles. C’est confirmé : les modèles GPT ont encore des limites.
Nous le savons tous et l’avons vécu : les LLM peuvent halluciner des réponses incorrectes. OpenAI espère bien sûr corriger le tir et améliorer la fiabilité de ses modèles. Pour ce faire, la société a introduit SimpleQA, son propre benchmark open Source pour mesurer la précision des réponses des grands modèles de langage. Le développement de ce nouvel outil a mis en évidence les limites actuelles des LLM pour certaines questions.
SimpleQA a été conçu pour évaluer la capacité des modèles OpenAI à répondre à des questions courtes, ciblées et fondées sur des faits. La méthodologie repose sur un ensemble de 4326 questions claires, avec des réponses vérifiables, visant à simplifier l’évaluation. En limitant la portée du benchmark à des questions bien définies, OpenAI affirme que SimpleQA permet une mesure plus précise de la factualité.
Des questions volontairement difficiles
Précision importante : pour la sélection des invites interrogatives, les formateurs en IA ont développé des questions factuelles et des réponses précises, répondant à des critères stricts : une réponse unique, qui reste constante dans le temps, et une tendance à provoquer des hallucinations. Les chercheurs n’ont en effet sélectionné que les questions auxquelles au moins une version du LLM d’OpenAI avait apporté une réponse incorrecte. Les résultats reflètent donc la performance des modèles sur des questions délibérément difficiles, et non leur capacité générale à répondre à des questions factuelles.
Un maximum de 40% de bonnes réponses
Les résultats indiquent que GPT-4o, la version actuelle de GPT-4, obtient environ 40 % de réponses correctes, tandis que le modèle GPT-4 o1-Preview obtient des résultats légèrement supérieurs. Les modèles plus petits ont des performances encore plus faibles.
Selon les chercheurs d’OpenAI, SimpleQA pourrait encourager la recherche sur une IA plus fiable. “La corrélation entre la capacité à fournir des réponses factuelles courtes et la capacité à rédiger des réponses détaillées reste une question ouverte”, ont-ils ajouté.
Rendre les LLM plus fiables est probablement un enjeu encore plus crucial maintenant qu’OpenAI a lancé son propre moteur de recherche. Lire sur le sujet >> Etes-vous sûr de vouloir utiliser un chatbot comme moteur de recherche ?
Related News :