Des systèmes comme ChatGPT-4 peuvent répondre correctement à 85 % des questions d’évaluation universitaire. Ces résultats, publiés dans la revue américaine PNAS, ont constitué « un choc » pour les auteurs de l’étude.
ChatGPT est arrivé sur la scène publique fin 2022, attirant plus de 100 millions d’utilisateurs au cours de son premier mois. Dans l’enseignement supérieur, la communauté étudiante a de plus en plus recours à ce type d’assistant IA (intelligence artificielle), indique vendredi l’Ecole polytechnique fédérale de Lausanne (EPFL) dans un communiqué.
Dans leur étude, des scientifiques de la Faculté d’informatique et de communication ont examiné 50 cours de l’EPFL afin de mesurer les performances actuelles de ces grands modèles de langage (LLM) dans les évaluations de cours de l’enseignement supérieur.
Les cours sélectionnés font partie de neuf programmes de licence et de master en ligne et couvrent un large éventail de disciplines, notamment l’informatique, les mathématiques, la biologie, la chimie, la physique et la science des matériaux.
«Ces données ont été rassemblées dans un format qui, selon nous, ressemblerait le plus à la manière dont les étudiants communiqueraient ces informations aux modèles», explique Antoine Bosselut, professeur assistant et membre du EPFL AI Center, cité dans le communiqué.
En se concentrant sur GPT-3.5 et GPT-4, les scientifiques ont utilisé huit stratégies différentes pour produire des réponses. Ils ont constaté que GPT-4 répond correctement à 65,8 % des questions en moyenne et peut même fournir la bonne réponse dans au moins une stratégie pour 85,1 % des questions.
“Un choc”
« Nous avons été surpris par les résultats. Personne ne s’attendait à ce que les assistants IA obtiennent un pourcentage aussi élevé de bonnes réponses dans autant de cours », explique Anna Sotnikova, co-auteur de l’article.
En effet, 65 % des bonnes réponses ont été obtenues en utilisant la stratégie la plus basique, sans connaissance préalable. « Avec une certaine connaissance du sujet, on a pu atteindre un taux de réussite de 85 %, ce qui a vraiment été un choc », ajoute le chercheur.
Cependant, ces assistants IA ne s’aggraveront pas, ils ne feront que s’améliorer. La conclusion des scientifiques est que si l’étude était relancée aujourd’hui, les chiffres seraient encore plus élevés.
Adapter l’éducation
« À court terme, il faudrait insister pour que les évaluations soient plus difficiles, non pas dans le sens de la difficulté des questions, mais dans le sens de la complexité de l’évaluation elle-même », suggère Antoine Bosselut. À plus long terme, il est clair que les systèmes éducatifs devront s’adapter.
« Ce n’est qu’un début et je pense qu’une analogie peut être faite entre les LLM actuels et les calculatrices. Lors de leur introduction, il y avait la même crainte que les enfants n’apprennent plus les mathématiques », note Beatriz Borges, co-auteur de cette recherche.
“Aujourd’hui, dans les premiers stades de l’éducation, les calculatrices ne sont généralement pas autorisées, mais dès les classes supérieures, elles sont présentes, pour effectuer des tâches de niveau inférieur pendant que les élèves acquièrent des compétences plus avancées”, conclut le chercheur.
Cet article a été publié automatiquement. Source : ats