L’IA peut-elle améliorer la précision des diagnostics médicaux ? Des chercheurs d’UVA Health, un réseau de soins de santé affilié à l’Université de Virginie, ont tenté de répondre à cette question. Le résultat de leur étude est surprenant : si l’IA peut effectivement surpasser les médecins dans certaines tâches de diagnostic, son intégration dans leur flux de travail n’a pas amélioré de manière significative leurs performances globales.
Les grands modèles linguistiques (LLM) ont montré des résultats prometteurs dans la réussite des examens de raisonnement médical, qu’il s’agisse de questions à choix multiples ou de questions ouvertes. Cependant, leur impact sur l’amélioration du raisonnement diagnostique des médecins en situation réelle reste à déterminer.
Andrew S. Parsons, qui supervise l’enseignement des compétences cliniques aux étudiants en médecine de la faculté de médecine de l’Université de Virginie et codirige le Clinical Reasoning Research Collaborative, et ses collègues d’UVA Health voulaient amener ChatGPT Plus (GPT-4) à l’épreuve. Leur étude a été publiée dans la revue scientifique JAMA Network Open et acceptée ce mois-ci par le symposium 2024 de l’American Medical Informatics Association.
Méthodologie d’étude
Les chercheurs ont recruté 50 médecins exerçant en médecine familiale, en médecine interne et en médecine d’urgence pour lancer un essai clinique randomisé et contrôlé dans trois hôpitaux de premier plan : UVA Health, Stanford et le Beth Israel Deaconess Medical Center de Harvard. La moitié d’entre eux ont été assignés au hasard à utiliser ChatGPT en plus des méthodes conventionnelles telles que Google ou des sites de référence médicale comme UpToDate, tandis que l’autre moitié s’est appuyée uniquement sur ces méthodes conventionnelles.
Les participants ont eu 60 minutes pour examiner jusqu’à 6 vignettes cliniques, des outils pédagogiques utilisés dans le domaine médical pour évaluer et améliorer les compétences cliniques des professionnels de la santé. Ces vignettes, basées sur des cas réels, comprenaient des détails sur les antécédents des patients, des examens physiques et des résultats de tests de laboratoire.
Résultats
L’étude a révélé que les médecins utilisant ChatGPT Plus ont atteint une précision diagnostique médiane de 76,3 %, légèrement supérieure aux 73,7 % des médecins s’appuyant uniquement sur des outils traditionnels. Si la différence reste modeste, en revanche, Chat GPT Plus, utilisé de manière indépendante, atteint une précision impressionnante de 92 %.
Alors que les participants à l’essai utilisant ChatGPT Plus ont atteint un diagnostic globalement légèrement plus rapidement (519 secondes contre 565 secondes par cas), ils ont paradoxalement réduit la précision du diagnostic de l’IA.
Pour les chercheurs, cette baisse de précision pourrait être due aux invites utilisées. Ils soulignent la nécessité de former les cliniciens à l’utilisation optimale de l’IA, notamment en utilisant plus efficacement les invites. Les organismes de santé pourraient également acheter des invites prédéfinies à mettre en œuvre dans le flux de travail et la documentation clinique.
Ils affirment que ChatGPT Plus fonctionnerait probablement moins bien dans la vie réelle, où de nombreux autres aspects du raisonnement clinique entrent en jeu, notamment pour déterminer les effets en aval des diagnostics et des décisions de traitement. Ils réclament des études supplémentaires pour évaluer les capacités des grands modèles de langage dans ces domaines et mènent une étude similaire sur la prise de décision en matière de gestion.
Conclusions
Les résultats révèlent une nuance clé : bien que les LLM soient capables de performances autonomes impressionnantes, leur utilisation en complément des méthodes traditionnelles n’a pas amélioré de manière significative la précision du diagnostic des médecins.
Les chercheurs préviennent que « Les résultats de cette étude ne doivent pas être interprétés comme indiquant que les LLM doivent être utilisés pour le diagnostic de manière autonome sans la supervision d’un médecin. » en ajoutant que “Des développements supplémentaires dans les interactions homme-machine sont nécessaires pour réaliser le potentiel de l’IA dans les systèmes d’aide à la décision clinique”.
Ils ont également lancé un réseau bicôtier d’évaluation de l’IA appelé ARiSE (AI Research and Science Evaluation) pour évaluer davantage les résultats de GenAI dans le domaine des soins de santé.
Références d’articles
« Influence d’un grand modèle de langage sur le raisonnement diagnostique. Un essai clinique randomisé » est ce que je :10.1001/jamanetworkopen.2024.40969
Équipe de recherche : Ethan Goh, Robert Gallo, Jason Hom, Eric Strong, Yingjie Weng, Hannah Kerman, Joséphine A. Cool, Zahir Kanjee, Andrew S. Parsons, Neera Ahuja, Eric Horvitz, Daniel Yang, Arnold Milstein, Andrew PJ Olson , Adam Rodman et Jonathan H. Chen.
Related News :