Presque tous les principaux modèles de langage ou « chatbots » montrent des signes de légers troubles cognitifs dans les tests largement utilisés pour détecter les premiers signes de démence, selon une étude publiée dans le numéro de Noël de Le BMJ.
Les résultats montrent également que les versions « plus anciennes » des chatbots, comme les patients plus âgés, ont tendance à avoir de moins bons résultats aux tests. Les auteurs affirment que ces résultats « remettent en question l’hypothèse selon laquelle l’intelligence artificielle remplacera bientôt les médecins humains ».
Les progrès considérables de l’intelligence artificielle ont donné lieu à une vague de spéculations enthousiastes et effrayantes sur la capacité des chatbots à surpasser les médecins humains.
Plusieurs études ont montré que les grands modèles de langage (LLM) sont remarquablement aptes à une gamme de tâches de diagnostic médical, mais leur susceptibilité aux déficiences humaines telles que le déclin cognitif n’a pas encore été examinée.
Pour combler ce manque de connaissances, les chercheurs ont évalué les capacités cognitives des principaux LLM accessibles au public – ChatGPT versions 4 et 4o (développées par OpenAI), Claude 3.5 « Sonnet » (développé par Anthropic) et Gemini versions 1 et 1.5 (développées par Alphabet). ) – à l’aide du test Montreal Cognitive Assessment (MoCA).
Le test MoCA est largement utilisé pour détecter les troubles cognitifs et les premiers signes de démence, généralement chez les personnes âgées. À travers un certain nombre de tâches et de courtes questions, il évalue les capacités notamment l’attention, la mémoire, le langage, les compétences visuospatiales et les fonctions exécutives. Le score maximum est de 30 points, un score de 26 ou plus étant généralement considéré comme normal.
Les instructions données aux LLM pour chaque tâche étaient les mêmes que celles données aux patients humains. La notation suivait les directives officielles et était évaluée par un neurologue en exercice.
ChatGPT 4o a obtenu le score le plus élevé au test MoCA (26 sur 30), suivi de ChatGPT 4 et Claude (25 sur 30), Gemini 1.0 ayant le score le plus bas (16 sur 30).
Tous les chatbots ont montré de mauvaises performances dans les compétences visuospatiales et les tâches exécutives, telles que la tâche de création de sentiers (relier les chiffres et les lettres encerclés par ordre croissant) et le test de dessin d’horloge (dessiner un cadran d’horloge). horloge indiquant une heure précise). Les modèles Gémeaux ont échoué à la tâche de rappel retardé (se souvenir d’une séquence de cinq mots).
La plupart des autres tâches, notamment la dénomination, l’attention, le langage et l’abstraction, ont été bien exécutées par tous les chatbots.
Mais dans d’autres tests visuospatiaux, les chatbots ont été incapables de faire preuve d’empathie ou d’interpréter avec précision des scènes visuelles complexes. Seul ChatGPT 4o a réussi l’étape incongrue du test Stroop, qui utilise des combinaisons de noms de couleurs et de couleurs de police pour mesurer l’impact des interférences sur le - de réaction.
Ce sont des résultats d’observation et les auteurs reconnaissent les différences essentielles entre le cerveau humain et les grands modèles de langage.
Cependant, ils soulignent que l’échec uniforme de tous les principaux modèles de langage dans des tâches nécessitant une abstraction visuelle et une fonction exécutive met en évidence un point de faiblesse important qui pourrait entraver leur utilisation en milieu clinique.
Ainsi, ils concluent : « Non seulement il est peu probable que les neurologues soient remplacés de si tôt par de grands modèles de langage, mais nos résultats suggèrent qu’ils pourraient bientôt se retrouver à traiter de nouveaux patients virtuels – des modèles d’intelligence artificielle présentant des troubles cognitifs. »