L’encyclopédie collaborative en ligne est confrontée à une multiplication d’articles créés artificiellement par des robots conversationnels. Face à cette menace sur la fiabilité des informations, les équipes de modération de Wikipédia développent de nouvelles stratégies de détection et de vérification des contenus suspects.
C’est une bataille silencieuse qui se déroule dans les coulisses de la plus grande encyclopédie collaborative en ligne. L’essor des lieux d’intelligence artificielle générative (GAI) Wikipédia confronté à un défi majeur. Désormais, le site doit faire face à une multiplication d’articles entièrement créés ou partiellement modifiés par des robots conversationnels comme ChatGPT. En jeu, la fiabilité de l’information.
Sur la seule version anglaise de Wikipédia, le rythme est vertigineux : une nouvelle page est créée toutes les minutes. Dans ce flux continu de contributions, les équipes de l’encyclopédie détectent chaque jour des dizaines de textes et de photos générés artificiellement. Une situation qui a poussé les contributeurs à créer des brigades spécialisées, comme le « WikiProject AI Cleanup », chargées de traquer ces contenus suspects.
L’affaire Amberlisihar : quand l’IA invente une forteresse fantôme
L’affaire de la forteresse d’Amberlisihar illustre parfaitement l’ampleur du problème. Pendant près d’un an, les lecteurs de Wikipédia ont pu découvrir l’histoire détaillée de cette forteresse ottomane vieille de 600 ans. L’article, rédigé sur plus de 2000 mots, décrivait avec précision ses batailles historiques et ses multiples rénovations, le tout appuyé par des références apparemment solides.
L’intelligence artificielle invente régulièrement des références qui n’existent pas, rendant la vérification particulièrement complexe
Documentation impressionnante, à un détail près : la forteresse n’a jamais existé. Le tout avait été généré par une intelligence artificielle, qui avait habilement mélangé fiction et personnages historiques réels pour donner à son histoire une apparence de vérité.
“Le vrai problème de ChatGPT réside dans son rapport aux sources”, analyse Ilyas Lebleu, l’un des fondateurs du projet de nettoyage. Nettoyage de l’IA du projet Wiki. « L’intelligence artificielle invente régulièrement des références qui n’existent pas, rendant la vérification particulièrement complexe. Comment différencier une œuvre ancienne authentique mais rare d’une Source entièrement fabriquée ? Une question d’autant plus cruciale que les contributions problématiques ne se limitent pas à la création d’articles fictifs.
L’expertise des bénévoles face aux marqueurs de l’IA
Les équipes de modération ont ainsi découvert de nombreux cas d’enrichissement approximatif d’articles existants. Ilyas Lebleu cite l’exemple révélateur d’un village iranien : « ChatGPT avait ajouté une description bucolique d’un village agricole pittoresque. Cependant, la réalité géographique était bien différente : la localité est située au cœur d’une zone montagneuse et désertique. « Cette tendance de l’IA à générer des descriptions standardisées, sans tenir compte du contexte réel, pose un défi majeur à l’encyclopédie.
Face à cette menace, les équipes bénévoles de Wikipédia ont développé une expertise linguistique avancée. Ils ont notamment identifié des marqueurs stylistiques caractéristiques des textes générés par l’IA. « Certaines expressions, comme « riche patrimoine culturel », trop subjectives pour une encyclopédie, reviennent de manière récurrente dans les productions artificielles », explique Ilyas Lebleu.
Il existe bien sûr des créateurs volontaires de désinformation, mais aussi des utilisateurs de bonne foi. « Ce sont souvent des gens qui ne sont pas très informés sur le fonctionnement de Wikipédia et qui, voyant quelque chose qui génère du contenu, se disent que c’est parfait pour élargir l’encyclopédie », explique Ilyas Lebleu, tout en soulignant le revers de la médaille. “Avec ChatGPT, on peut générer dix articles en dix minutes, mais dans ces articles, il y aura probablement des dizaines, des centaines d’erreurs, d’approximations, de fausses citations qu’il faudra nettoyer.”
Une communauté divisée sur l’usage de l’AGI
Sur Wikipédia, le débat fait rage autour de l’intelligence artificielle. La communauté des encyclopédies en ligne est divisée sur l’utilisation de textes créés par des robots. Trois postes s’affrontent. D’un côté, les puristes réclament une interdiction pure et simple. D’un autre côté, les modérés suggèrent simplement de signaler le contenu généré par l’IA. Entre les deux, certains contributeurs doutent que l’on puisse réellement contrôler ces textes artificiels.
L’intelligence artificielle ne fait qu’amplifier un problème préexistant : la circulation massive et incontrôlée d’informations non vérifiées sur Internet
En attendant de parvenir à un accord, Wikipédia rejette la grande majorité des textes créés par l’IA. La raison est simple : ces contenus ne permettent pas de vérifier leurs sources, règle d’or de l’encyclopédie.
La question cruciale de la vérification des sources
Ce phénomène révèle un problème plus vaste. L’absence de réglementation efficace de l’information en ligne. « L’intelligence artificielle ne fait qu’amplifier un problème préexistant : la circulation massive et incontrôlée d’informations non vérifiées sur Internet », souligne Thomas Huchon, journaliste spécialisé dans l’étude de la désinformation.
En attendant une régulation de l’IA générative, les experts recommandent aux lecteurs d’être plus vigilants. Cela implique de vérifier systématiquement les sources citées en bas de page. Un grand nombre de sources vérifiées indique généralement des informations plus fiables.
Pascal Wassmer