(San Francisco) Une nouvelle vague de systèmes d’IA, connue sous le nom de «raisonnement automatisé», produit de plus en plus des informations erronées. Même les entreprises d’IA ne savent pas pourquoi.
Publié à 9h00

Cade l’a rencontré Karen Wolf Le New York Times
Le mois dernier, un robot d’intelligence artificielle en support technique pour le curseur – un outil pour les programmeurs informatiques – a alerté ses clients pour changer dans la politique commerciale: ils n’étaient plus autorisés à utiliser Cursor sur plus d’un ordinateur.
Les messages furieux ont tourné dans les forums Internet. Certains ont mis fin à leur compte de curseur. Certains étaient encore plus en colère lorsque les excuses sont arrivées: le robot IA avait inventé le changement de politique à partir de zéro.
“La politique est inchangée. Vous êtes bien sûr libre d’utiliser le curseur sur plusieurs machines”, a écrit Michael Truell, PDG et co-fondateur de la société sur Reddit. «Malheureusement, il s’agit d’une réponse incorrecte d’un robot d’assistance en IA.» »
Deux ans après l’arrivée de Chatgpt, les entreprises technologiques, les employés de bureau et les particuliers utilisent des robots d’IA pour des tâches de plus en plus variées. Mais il n’y a toujours aucune garantie de l’exactitude des informations obtenues.
«Systèmes de raisonnement»
Les technologies les plus récentes et les plus puissantes, appelées «systèmes de raisonnement» – d’Openai, Google et Deepseek, entre autres – génèrent plus d’erreurs. Ils sont bien meilleurs en mathématiques, mais leur maîtrise des faits est moindre. Nous ne savons pas exactement pourquoi.
Ces robots d’IA sont basés sur des systèmes mathématiques qui apprennent en analysant une pléthore de données numériques. Ils n’ont pas la capacité de distinguer le vrai du faux. Parfois, ils inventent: un phénomène d’IA appelé «Hallucinations». Au cours d’un test, le taux d’hallucinations des nouveaux systèmes d’IA a atteint 79%.
La meilleure réponse est de deviner grâce aux probabilités mathématiques, et non par un ensemble strict de règles définies par les humains. Ensuite, l’IA commet des erreurs.
“Malgré tous nos efforts, il y aura toujours des hallucinations, cela ne disparaîtra jamais”, a déclaré Amr Awadallah, un ancien cadre de Google, qui a fondé Vectara, un jeune tournage qui développe des outils d’IA pour les entreprises.
Cette réalité a longtemps soulevé des préoccupations concernant la fiabilité de ces systèmes. Ils sont utiles pour écrire des travaux académiques, synthétiser des documents administratifs ou générer du code informatique, mais leurs erreurs sont problématiques.

Photo Cayce Clifford, The New York Times
AMR Awadallah, PDG de Vectara, pense que les robots IA feront toujours des hallucinations, en particulier avec les nouveaux «systèmes de raisonnement».
Les robots d’IA liés à Google, Bing et d’autres moteurs de recherche génèrent parfois des résultats ridiculement inexacts. Cherchez-vous un bon marathon sur la côte ouest? «Il y en a un bon à Philadelphie.» La meilleure source de glucides? «Viande, produits laitiers et œufs. Combien de maisons y a-t-il dans l’Illinois? Ils pourraient citer une source qui ne contient pas ces informations.
Ces hallucinations ne sont pas un problème majeur pour tout le monde, mais celle-ci si nous utilisons cette technologie en droit, en médecine ou avec des données commerciales importantes.
Okahu, au cas où
«Nous passons beaucoup de temps à trier le vrai de The False», explique Pratik Verma, co-fondatrice et PDG d’Okahu, une entreprise qui aide les entreprises à gérer le problème des hallucinations. «Ne pas gérer ces erreurs revient à éliminer la valeur des systèmes d’IA, qui sont censés automatiser ces tâches pour vous.» »
Sovités pour cet article, le curseur et M. Truell n’ont pas répondu.
Depuis 2023, OpenAI, Google et leurs pairs ont amélioré leur IA et réduit la fréquence de ces erreurs. Mais avec l’arrivée des systèmes de raisonnement, les erreurs augmentent. Selon les tests OpenAI, ses derniers systèmes sont plus d’hallucinations que son système précédent.
De plus en plus fréquent
Son système le plus puissant, O3, Hallucine 33% du temps au cours du test de référence PersonQA à OpenAI (une série de questions sur les personnages publics). Il est deux fois plus que O1, le système de raisonnement OpenAI précédent. Le nouveau système O4-Mini a un taux d’hallucination encore plus élevé: 48%.
Sous réserve d’un autre test, SimpleQA (questions plus générales), O3 et O4-MinI ont des taux d’hallucination de 51% et 79%; La version O1 faisait moins, 44%.
Dans une étude détaillant les tests, OpenAI conclut qu’il faut plus de recherches pour expliquer ce problème. Comme les systèmes d’IA traitent de plus grandes quantités de données que l’esprit humain peuvent comprendre, les ingénieurs ont du mal à comprendre leur comportement défectueux.
Selon des tests indépendants, les taux d’hallucination augmentent également dans les modèles de raisonnement de Google, Deepseek et d’autres sociétés IA.
Depuis la fin de 2023, la société de M. Awadallah, Vectara, a suivi le taux d’erreur des robots conversationnels de l’IA. Elle leur demande d’effectuer une tâche simple et facilement vérifiable: résumer des articles sur les actualités. Même dans ce cas, les robots inventent: selon les premières estimations de Vectara, la fréquence des informations inventées oscillait entre 3% et 27%.
«Apprentissage du renforcement»
Au cours des 18 mois suivants, OpenAI et Google ont abaissé ces chiffres à 1% ou 2%. D’autres, comme anthropic, de San Francisco, environ 4%. Mais avec les systèmes de raisonnement, le même test révèle une augmentation. Celui de Deepseek, R1, hallumineux 14,3% du temps et O3, d’Openai, est de 6,8%.
Pendant des années, les entreprises d’IA ont utilisé une méthode simple: plus les données Internet dans les systèmes d’IA, plus elles étaient efficaces. Mais une fois avalé presque tous les textes en anglais sur Internet, nous avons dû trouver une nouvelle façon d’améliorer l’IA.
Ces entreprises sont donc davantage basées sur le «renforcement de l’apprentissage». Grâce à cette technique, un système peut apprendre le comportement par essais et erreurs. Il fonctionne bien dans certains domaines, tels que les mathématiques et la programmation informatique. Mais il est insuffisant dans d’autres domaines.
“La façon dont ces systèmes sont formés les amène à se concentrer sur une tâche et à en oublier les autres”, a déclaré Laura Perez-Beltrachini, chercheuse de l’Université d’Édimbourg, qui fait partie d’une équipe étudiante, étroitement le problème des hallucinations.
Cet article a été publié dans le New York Times.Lisez l’article dans sa version originale (en anglais; abonnement requis)