Les outils d’intelligence artificielle tels que ChatGPT ont été vantés pour leur promesse d’alléger la charge de travail des cliniciens en triant les patients, en prenant leurs antécédents médicaux et même en fournissant des diagnostics préliminaires.
Ces outils, appelés modèles généraux, sont déjà utilisés par les patients pour donner un sens à leurs symptômes et aux résultats de leurs tests médicaux.
Mais si ces modèles d’IA fonctionnent de manière impressionnante lors de tests médicaux standardisés, dans quelle mesure s’en sortent-ils dans des situations qui imitent plus fidèlement le monde réel ?
Pas si génial, selon les conclusions d’une nouvelle étude menée par des chercheurs de la Harvard Medical School et de l’Université de Stanford.
Pour leur analyse, publiée le 2 janvier dans Médecine naturelleles chercheurs ont conçu un cadre d’évaluation – ; ou un test – ; appelé CRAFT-MD (Conversational Reasoning Assessment Framework for Testing in Medicine) et l’a déployé sur quatre grands modèles de langage pour voir dans quelle mesure ils ont fonctionné dans des contextes qui imitent fidèlement les interactions réelles des patients.
Les quatre modèles linguistiques généraux ont donné de bons résultats aux questions de type examen médical, mais leurs performances se sont détériorées lors de conversations imitant davantage les interactions du monde réel.
Selon les chercheurs, cette lacune met en évidence un double besoin : d’une part, créer des évaluations plus réalistes qui mesurent mieux l’adéquation des modèles cliniques d’IA à une utilisation dans le monde réel et, d’autre part, améliorer la capacité de ces outils à établir des diagnostics. basés sur des interactions plus réalistes avant leur déploiement en clinique.
Selon l’équipe de recherche, les outils d’évaluation tels que CRAFT-MD peuvent non seulement évaluer plus précisément les modèles d’IA en fonction de la condition physique réelle, mais pourraient également contribuer à optimiser leurs performances en clinique.
Nos travaux révèlent un paradoxe saisissant : alors que ces modèles d’IA excellent lors des examens médicaux, ils ont du mal à gérer les allers-retours de base d’une visite chez le médecin. La nature dynamique des conversations médicales – la nécessité de poser les bonnes questions au bon moment, de rassembler des informations éparses et de raisonner à travers les symptômes – pose des défis uniques qui vont bien au-delà de répondre à des questions à choix multiples. Lorsque nous passons des tests standardisés à ces conversations naturelles, même les modèles d’IA les plus sophistiqués montrent des baisses significatives de la précision du diagnostic. »
Pranav Rajpurkar, auteur principal de l’étude, professeur adjoint d’informatique biomédicale à la Harvard Medical School
Un meilleur test pour vérifier les performances réelles de l’IA
Actuellement, les développeurs testent les performances des modèles d’IA en leur demandant de répondre à des questions médicales à choix multiples, généralement dérivées de l’examen national des étudiants diplômés en médecine ou de tests administrés aux résidents en médecine dans le cadre de leur certification.
-« Cette approche suppose que toutes les informations pertinentes soient présentées de manière claire et concise, souvent avec une terminologie médicale ou des mots à la mode qui simplifient le processus de diagnostic, mais dans le monde réel, ce processus est beaucoup plus compliqué », a-t-il déclaré. a déclaré Shreya Johri, co-auteur de l’étude et doctorante. dans le laboratoire Rajpurkar de la Harvard Medical School. « Nous avons besoin d’un cadre de test qui reflète mieux la réalité et qui soit donc mieux à même de prédire les performances d’un modèle. »
CRAFT-MD a été conçu pour être l’une de ces jauges les plus réalistes.
Pour simuler des interactions réelles, CRAFT-MD évalue dans quelle mesure des modèles de langage larges peuvent collecter des informations sur les symptômes, les médicaments et les antécédents familiaux, puis établir un diagnostic. Un agent IA est utilisé pour se faire passer pour un patient, répondant aux questions dans un style conversationnel et naturel. Un autre agent d’IA évalue l’exactitude du diagnostic final rendu par le grand modèle de langage. Les experts humains évaluent ensuite les résultats de chaque rencontre pour déterminer leur capacité à recueillir des informations pertinentes sur les patients, la précision du diagnostic lorsqu’ils sont présentés avec des informations dispersées et le respect des invites.
Les chercheurs ont utilisé CRAFT-MD pour tester quatre modèles d’IA – ; à la fois propriétaire ou commercial et open source – ; pour sa performance dans 2 000 vignettes cliniques présentant des affections courantes dans les soins primaires et dans 12 spécialités médicales.
Tous les modèles d’IA présentaient des limites, notamment leur capacité à mener des conversations cliniques et à raisonner sur la base des informations fournies par les patients. Ceci, à son tour, a compromis leur capacité à recueillir leurs antécédents médicaux et à poser un diagnostic approprié. Par exemple, les modèles avaient souvent du mal à poser les bonnes questions pour recueillir les antécédents pertinents du patient, manquaient des informations critiques lors de l’anamnèse et éprouvaient des difficultés à synthétiser des informations éparses. La précision de ces modèles diminuait lorsqu’on leur présentait des informations ouvertes plutôt que des réponses à choix multiples. Ces modèles ont également obtenu de moins bons résultats lorsqu’ils étaient engagés dans des échanges aller-retour – ; comme le sont la plupart des conversations du monde réel – ; plutôt que lorsque vous êtes engagé dans des conversations résumées.
Recommandations pour optimiser les performances de l’IA dans le monde réel
Sur la base de ces résultats, l’équipe propose un ensemble de recommandations à la fois aux développeurs d’IA qui conçoivent des modèles d’IA et aux régulateurs chargés d’évaluer et d’approuver ces outils.
Ceux-ci incluent :
- Utiliser des questions conversationnelles ouvertes qui reflètent plus précisément les interactions non structurées médecin-patient dans la conception, la formation et les tests d’outils d’IA
- Évaluer les modèles pour leur capacité à poser les bonnes questions et à extraire les informations les plus essentielles
- Concevoir des modèles capables de suivre plusieurs conversations et d’en intégrer les informations
- Concevoir des modèles d’IA capables d’intégrer des données textuelles (notes de conversation) et non textuelles (images, ECG)
- Concevoir des agents d’IA plus sophistiqués, capables d’interpréter des signaux non verbaux tels que les expressions faciales, le ton et le langage corporel.
De plus, l’évaluation devrait inclure à la fois des agents d’IA et des experts humains, recommandent les chercheurs, car s’appuyer uniquement sur des experts humains demande beaucoup de travail et coûte cher. Par exemple, CRAFT-MD a surpassé les évaluateurs humains, traitant 10 000 conversations en 48 à 72 heures, plus 15 à 16 heures d’évaluation par des experts. En revanche, les approches basées sur l’humain nécessiteraient un recrutement approfondi et environ 500 heures pour les simulations de patients (près de 3 minutes par conversation) et environ 650 heures pour les évaluations d’experts (près de 4 minutes par conversation). Le recours à des évaluateurs d’IA de première ligne présente l’avantage supplémentaire d’éliminer le risque d’exposer de vrais patients à des outils d’IA non vérifiés.
Les chercheurs ont déclaré qu’ils s’attendent à ce que CRAFT-MD lui-même soit également mis à jour et optimisé périodiquement pour intégrer des modèles patient-IA améliorés.
“En tant que médecin scientifique, je m’intéresse aux modèles d’IA qui peuvent augmenter la pratique clinique de manière efficace et éthique”, a déclaré Roxana Daneshjou, co-auteure principale de l’étude, professeure adjointe de science des données biomédicales. et dermatologie à l’Université de Stanford. « CRAFT-MD crée un cadre qui reflète plus fidèlement les interactions du monde réel et contribue ainsi à faire progresser le domaine lorsqu’il s’agit de tester les performances des modèles d’IA dans le domaine de la santé. » »