Une étude de l’EPFL publiée dans la revue américaine PNAS a testé des systèmes comme ChatGPT pour répondre aux évaluations universitaires. L’IA peut fournir 85 % de bonnes réponses, si elle est informée au préalable. Si l’étude était refaite aujourd’hui, ce chiffre serait encore plus élevé.
En se concentrant sur GPT-3.5 et GPT-4, les scientifiques ont utilisé huit stratégies différentes pour produire des réponses. Ils ont constaté que GPT-4 répondait correctement à 65,8 % des questions en moyenne et pouvait même fournir la bonne réponse dans au moins une stratégie pour 85,1 % des questions.
Plus précisément, 65 % des bonnes réponses ont été obtenues en utilisant la stratégie la plus basique, sans connaissance préalable. «Avec une certaine connaissance du sujet, il a été possible d’atteindre un taux de réussite de 85%», explique Anna Sotnikova, co-auteur de l’article.
>> Lire aussi : Les universités mettent progressivement en place des règles du jeu face à l’IA
Des chercheurs « choqués » par ces résultats
Le taux de réponses correctes de 85 % « a été vraiment un choc », admet Anna Sotnikova. « Nous avons été surpris par les résultats. Personne ne s’attendait à ce que les assistants IA obtiennent un pourcentage aussi élevé de bonnes réponses dans autant de cours », poursuit le chercheur.
Les assistants IA ne s’aggraveront pas, ils ne feront que s’améliorer. La conclusion des scientifiques est que si l’étude était relancée aujourd’hui, les chiffres seraient encore plus élevés.
50 cours étudiés
Dans leur étude, des scientifiques de la Faculté d’informatique et de communication ont examiné 50 cours de l’EPFL afin de mesurer les performances actuelles de ces grands modèles de langage (LLM) dans les évaluations de cours de l’enseignement supérieur. Les cours sélectionnés font partie de neuf programmes de licence et de master en ligne et couvrent un large éventail de disciplines, notamment l’informatique, les mathématiques, la biologie, la chimie, la physique et la science des matériaux.
«Ces données ont été rassemblées dans un format qui, selon nous, ressemblerait le plus à la manière dont les étudiants communiqueraient ces informations aux modèles», explique Antoine Bosselut, professeur assistant et membre du EPFL AI Center, cité dans le communiqué. .
Adapter l’éducation
« À court terme, il faudrait insister pour que les évaluations soient plus difficiles, non pas dans le sens de la difficulté des questions, mais dans le sens de la complexité de l’évaluation elle-même », suggère Antoine Bosselut. À plus long terme, il est clair que les systèmes éducatifs devront s’adapter, selon les chercheurs.
« Ce n’est qu’un début et je pense qu’une analogie peut être faite entre les LLM actuels et les calculatrices. Lors de leur introduction, il y avait la même crainte que les enfants n’apprennent plus les mathématiques », note Beatriz Borges, co-auteur de cette recherche.
“Aujourd’hui, dans les premiers stades de l’éducation, les calculatrices ne sont généralement pas autorisées, mais dès les classes supérieures, elles sont présentes, pour effectuer des tâches de niveau inférieur pendant que les élèves acquièrent des compétences plus avancées”, conclut le chercheur.
lia avec ats