Un algorithme efficace pour repérer les articles scientifiques générés par l'IA – Mon Blog

Un algorithme efficace pour repérer les articles scientifiques générés par l'IA – Mon Blog
Un
      algorithme
      efficace
      pour
      repérer
      les
      articles
      scientifiques
      générés
      par
      l'IA
      –
      Mon
      Blog
-

Développé pour repérer les articles scientifiques générés par ChatGPT, cet outil s'appuie sur la manière dont les articles faux et réels utilisent certaines expressions typiques. Selon la discipline, l'efficacité varie de 80 à 94 %.

Il n'a pas fallu longtemps pour que ChatGPT soit utilisé pour produire de faux articles scientifiques. Certains chercheurs ont même montré, par des tests, que l'outil pouvait inventer les données pour prouver un résultat faux.

Corollaire : d'autres travaillent à développer des techniques pour détecter ces turpitudes. Un duo de spécialistes en informatique et en données de l'Université d'État de New York à Binghamton (États-Unis) et de l'Université de technologie de Hefei (Chine) en présente une dans la revue Rapports scientifiquesElle est basée sur l’analyse de ce qu’on appelle les « bigrammes ».

Les bigrammes font référence aux expressions typiques de deux mots que l'on trouve dans le vocabulaire scientifique : santé mentale, changement climatique, dépression nerveuse, essais cliniques, littérature scientifique, état de santé (cet ouvrage se concentre sur les termes anglais), etc.

Trois domaines biomédicaux

Les chercheurs ont travaillé sur trois domaines biomédicaux – la dépression nerveuse, le cancer et la maladie d’Alzheimer – et ont créé deux corpus d’articles. L’un constitué de véritables articles scientifiques trouvés dans la base de données PubMed à partir de mots-clés, l’autre regroupant des textes générés par ChatGPT (version 3.5).

Ceux-ci ont été obtenus à partir de messages d'invite utilisant les mêmes mots-clés que les articles réels, portant sur les mêmes sujets, de même longueur moyenne (200 à 250 mots) et construits de la même manière qu'un article légitime (titre, auteurs, résumé, etc.), afin de produire des textes comparables à ceux du premier corpus. L'opération était programmée pour produire 20 articles à la fois.

Lire aussiIdentifier les textes artificiels, un impératif

Les deux chercheurs ont conçu un algorithme, appelé xFakeSci, qui identifie deux choses : d'une part le nombre de bigrammes, d'autre part les connexions entre les bigrammes, à savoir les termes communs. Or, il s'avère que les textes produits par ChatGPT utilisent nettement moins de bigrammes que[…]

- sciencesetavenir.fr

A lire aussi

 
For Latest Updates Follow us on Google News
 

PREV Le producteur emprisonné Harvey Weinstein subit une opération chirurgicale d'urgence à New York – Mon blog
NEXT Tory Burch recherche l'esprit du sport, pas les vêtements de sport – Mon blog