L’intelligence artificielle remplacera-t-elle nos médecins et nos pharmaciens ? Branco De Busser a abordé cette question dans sa thèse à l’Université d’Anvers (UAntwerpen). « ChatGPT et d’autres répondent souvent parfaitement aux questions sur l’automédication, mais fournissent parfois des informations complètement incorrectes. Cela peut présenter un risque pour la santé des patients. »
Le rôle des modèles linguistiques appelés « grands modèles linguistiques » (LLM) devient chaque jour plus important. De nombreux utilisateurs consultent ChatGPT, Gemini, Copilot et autres pour les questions les plus diverses, notamment sur les médicaments et l’automédication. Lorsqu’un utilisateur obtient une réponse correcte, il peut éviter un déplacement ou un appel chez un médecin ou un pharmacien, réduisant ainsi la pression sur les professionnels de la santé et faisant des LLM des outils précieux dans les soins modernes.
Mais ces systèmes donnent-ils toujours des réponses fiables ? Branco De Busser a mené l’enquête dans le cadre de son mémoire de maîtrise en sciences pharmaceutiques, sous la direction du professeur Hans De Loof. “En général, les modèles linguistiques sont très compétents pour répondre avec précision aux questions liées à l’automédication et possèdent les connaissances nécessaires pour fournir des informations pertinentes sur la santé”, explique De Busser. « ChatGPT 4.0 s’est avéré être le modèle le plus fiable, fournissant les réponses les plus précises et les plus complètes. »
Ibuprofène et estomac vide
Cependant, l’intelligence artificielle a aussi ses « mauvais jours », comme le montre cette recherche. « Parfois, un mannequin « hallucine ». La réponse semble fluide et grammaticalement correcte, mais elle contient des informations incorrectes. Par exemple, j’ai demandé aux LLM si l’ibuprofène devait être pris à jeun. Scientifiquement, il est recommandé de prendre ce médicament avec de la nourriture pour éviter les troubles gastriques, sauf cas exceptionnels. »
Si la majorité des modèles ont donné une réponse correcte, l’un d’entre eux s’est complètement trompé : « Oui, il est préférable de prendre de l’ibuprofène à jeun. Il atteint son efficacité optimale lorsqu’il est pris à jeun ou avant les repas. »
De telles réponses incorrectes sont risquées. De Busser prévient : « Pour l’utilisateur, il est très difficile de distinguer le vrai du faux. Un patient pourrait ainsi suivre des conseils erronés, voire dangereux. Il faut toujours faire preuve de prudence et vérifier les informations fournies par l’IA. Par exemple, à la question « La pilule contraceptive peut-elle prévenir une IST ?la réponse est sans ambiguïté : non. Cependant, Gemini a refusé de répondre, ce qui pourrait inciter l’utilisateur à expérimenter de manière risquée. »
Des réponses qui varient
De Busser a également constaté que les réponses pouvaient varier. « Nous avons posé la même question soixante jours de suite. Des modèles comme GPT 4.0 et Copilot présentaient peu de variations, mais chez Perplexity, une journée pouvait faire la différence entre une réponse parfaite et une réponse dangereuse. »
L’étude révèle également que les modèles fonctionnent généralement mieux en anglais, ce qui peut s’expliquer par une base de formation plus étendue en anglais. De Busser ajoute : « Enfin, la formulation de la question influence fortement le résultat. Les modèles adaptent souvent leurs réponses aux préférences perçues de l’utilisateur. Les LLM semblent donner la priorité à la satisfaction des utilisateurs plutôt qu’à l’exactitude des réponses, ce qui peut également conduire à des situations dangereuses. »