Une étude publiée dans une célèbre revue médicale révèle les résultats d’un test médical effectué par des chatbots comme ChatGPT, Gemini et Claude. Les premiers tests révèlent des troubles fréquemment observés chez les patients atteints de démence.
Les chatbots ont-ils besoin de consulter un psychiatre ? Une étude, publiée dans l’édition de Noël de BMJ (Journal médical britannique) le 18 décembre 2024, révèle que les outils d’intelligence artificielle présentent des signes comparables à de légers troubles cognitifs. Ces troubles sont similaires à ceux observés chez les patients présentant des stades précoces de démence. Ces résultats proviennent d’un test standard parmi les chercheurs, le MoCA (Montreal Cognitive Assessment), couramment utilisé pour détecter les problèmes de mémoire, d’attention et de raisonnement chez les personnes âgées.
Lors de cet exercice, les chatbots ont montré des performances variables. Par exemple, la version ChatGPT 4o a obtenu 26 points sur 30. À peine plus que la dernière version de Claude, avec 25 sur 30, une note considérée comme normale. D’autres, comme Gemini, ont plafonné à 16 points, un résultat révélant d’importantes lacunes.
Ce qui frappe, c’est leur difficulté à répondre dans certaines catégories spécifiques : les chatbots ne parviennent pas à réaliser des tâches visuospatiales (comme dessiner une horloge indiquant une heure donnée) ou des exercices exécutifs (comme relier des chiffres et des lettres dans l’ordre). . Les chercheurs constatent que ces échecs sont comparables aux déficiences observées chez les personnes souffrant de troubles cognitifs. Ils décrivent ces comportements comme « démence numérique », peut-on lire dans l’étude.
ChatGPT et Gemini ne remplaceront pas votre psychologue ou votre médecin
La comparaison avec la démence humaine repose sur la manière dont ces modèles traitent l’information. Tout comme un cerveau défaillant, les chatbots peuvent sembler compétents pour des tâches simples, comme nommer des objets ou répondre à des questions directes.
Cependant, lorsqu’il s’agit d’abstraction ou de planification, ils présentent des faiblesses flagrantes. Par exemple, seul ChatGPT 4o a réussi un test impliquant des interférences complexes, où le mot écrit et sa couleur ne correspondent pas. Ces résultats révèlent une incapacité à gérer des informations contradictoires ou visuellement complexes, deux compétences essentielles pour l’humain.
Malgré leurs limites, les chatbots restent impressionnants dans des domaines précis. Ils excellent dans les diagnostics textuels ou les réponses rapides. Néanmoins, les chercheurs soulignent que leur incapacité à assumer certaines tâches fondamentales montre qu’ils sont loin de remplacer les médecins, notamment dans des domaines comme la neurologie ou la psychologie. En d’autres termes, bien que ces modèles imitent bien le langage humain, ils n’ont pas la compréhension approfondie nécessaire pour accomplir des tâches plus abstraites ou complexes.
Cette étude met également en lumière un point inattendu : ces modèles pourraient eux-mêmes être considérés comme des « patients virtuels », les médecins étant suivis en fonction de leurs améliorations.