Découverte d’une fraude scientifique pour booster artificiellement l’impact de la recherche

Cet article est publié en collaboration avec Binaire, le blog pour comprendre les enjeux du numérique.

L’image du chercheur qui travaille seul en ignorant la communauté scientifique n’est qu’un mythe. La recherche repose sur un échange permanent, d’abord pour comprendre le travail des autres et ensuite pour faire connaître ses propres résultats. La lecture et la rédaction d’articles publiés dans des revues ou conférences scientifiques sont donc au cœur de l’activité des chercheurs. Lors de la rédaction d’un article, il est fondamental de citer le travail de ses pairs, que ce soit pour décrire un contexte, détailler ses propres sources d’inspiration ou encore expliquer les différences d’approches et de résultats. Être cité par d’autres chercheurs, quand c’est pour de « bonnes raisons », est donc une des mesures de l’importance de ses propres résultats. Mais que se passe-t-il lorsque ce système de citation est manipulé ? Notre étude récente révèle une méthode insidieuse pour gonfler artificiellement le nombre de citations : les « références furtives ».

Les dessous de la manipulation

Le monde de la publication scientifique et son fonctionnement ainsi que ses potentielles lacunes et leurs causes sont des sujets récurrents de vulgarisation scientifique. Cependant, concentrons-nous particulièrement sur un nouveau type de dérive affectant les citations entre articles scientifiques, censées refléter les apports intellectuels et les influences d’un article cité sur l’article citant.

Les citations d’ouvrages scientifiques reposent sur un système de référencement standardisé : les auteurs mentionnent explicitement dans le texte de leur article, au minimum le titre de l’article cité, le nom de ses auteurs, l’année de publication, le nom de la revue ou de la conférence. , numéros de pages, etc. Ces informations apparaissent dans la bibliographie de l’article (une liste de références) et sont enregistrées sous forme de données complémentaires (non visibles dans le texte de l’article) qualifiées de métadonnées, notamment lors de l’attribution du DOI ( Digital Object Identifier), un identifiant unique pour chaque publication scientifique.

Les références d’une publication scientifique permettent, de manière simplifiée, aux auteurs de justifier des choix méthodologiques ou de rappeler les résultats d’études antérieures. Les références répertoriées dans chaque article scientifique sont en fait la manifestation évidente de l’aspect itératif et collaboratif de la science. Cependant, certains acteurs peu scrupuleux ont évidemment ajouté des références supplémentaires, invisibles dans le texte, mais présentes dans les métadonnées de l’article lors de son enregistrement par les maisons d’édition. Résultat ? Le nombre de citations de certains chercheurs ou revues explose sans raison valable car ces références ne sont pas présentes dans les articles censés les citer.

Un nouveau type de fraude et une découverte opportuniste

Tout a commencé grâce à Guillaume Cabanac qui a publié un rapport d’évaluation post-publication sur PubPeer, un site où les scientifiques discutent et analysent les publications. Il constate une incohérence : un article, probablement frauduleux car présentant des « expressions torturées », issu d’une revue scientifique publiée par l’éditeur de la revue scientifique Hindawi a obtenu bien plus de citations que de téléchargements, ce qui est très inhabituel. Ce message a attiré l’attention de plusieurs « détectives scientifiques » ; une équipe réactive se forme avec Lonni Besançon, Guillaume Cabanac, Cyril Labbé et Alexander Magazinov.

Nous essayons de retrouver, via un moteur de recherche scientifique, les articles citant l’article initial, mais le moteur de recherche Google Scholar ne fournit aucun résultat alors que d’autres (Crossref, Dimensions) en trouvent. Il s’avère en réalité que Google Scholar et Crossref ou Dimensions n’utilisent pas le même procédé pour récupérer les citations : Google Scholar utilise le texte même de l’article scientifique tandis que Crossref ou Dimensions utilisent les métadonnées de l’article fournies par les maisons d’édition.

Pour comprendre l’ampleur de la manipulation, nous avons ensuite examiné trois revues scientifiques qui semblaient largement citer l’article de Hindawi. Voici notre approche en trois étapes.

Nous listons d’abord les références explicitement présentes dans les versions HTML ou PDF des articles ;
Nous comparons ensuite ces listes avec les métadonnées enregistrées par Crossref, une agence qui attribue les DOI et leurs métadonnées. On découvre que quelques références supplémentaires ont été ajoutées ici, mais n’apparaissent pas dans les articles ;
Enfin, nous vérifions une troisième source, Dimensions, une plateforme bibliométrique qui utilise les métadonnées Crossref pour calculer les citations. Là encore, nous constatons des incohérences.

Le résultat ? Dans ces trois revues, au moins 9 % des références enregistrées étaient des « références furtives ». Ces références supplémentaires n’apparaissent pas dans les articles, mais uniquement dans les métadonnées, faussant ainsi le décompte des citations et donnant un avantage injuste à certains auteurs. Certaines références effectivement présentes dans les articles sont également « perdues » dans les métadonnées.

Implications et solutions potentielles

Pourquoi cette découverte est-elle importante ? Le nombre de citations influence considérablement le financement de la recherche, les promotions universitaires et les classements institutionnels. Ils sont utilisés différemment selon les institutions et les pays, mais jouent toujours un rôle dans ce type de décisions.

La manipulation des citations peut donc conduire à des injustices et à des décisions basées sur de fausses données. Plus inquiétant encore, cette découverte soulève des questions sur l’intégrité des systèmes de mesure de l’impact scientifique qui se posent depuis plusieurs années. En effet, de nombreux chercheurs ont déjà, par le passé, souligné que ces mesures pouvaient être manipulées, mais surtout qu’elles généraient une concurrence malsaine entre chercheurs qui seraient, par conséquent, tentés de prendre des raccourcis pour publier plus rapidement ou avoir de meilleurs résultats qui donc être davantage cité. Une conséquence potentiellement plus dramatique de ces mesures de productivité des chercheurs réside avant tout dans le gaspillage d’efforts et de ressources scientifiques dû à la concurrence créée par ces mesures.

Pour lutter contre cette pratique, le « Collège Invisible », collectif informel de détectives scientifiques auquel notre équipe contribue, préconise plusieurs mesures :

Vérification rigoureuse des métadonnées par des éditeurs et des agences comme Crossref.
Audits indépendants pour garantir la fiabilité des données.
Transparence accrue dans la gestion des références et des citations.

Cette étude souligne l’importance de l’exactitude et de l’intégrité des métadonnées, car elles sont également sujettes à manipulation. Il est également important de noter que Crossref et Dimensions ont confirmé les résultats de l’étude et qu’il semble que certaines corrections aient été apportées par la maison d’édition qui a manipulé les métadonnées confiées à Crossref et, par effet de bord, à des plateformes bibliométriques comme Dimensions. En attendant des mesures correctives, parfois très longues, voire inexistantes, cette découverte rappelle la nécessité d’une vigilance constante dans le monde académique.

For Latest Updates Follow us on Google News

Les dessous de la manipulation

Un nouveau type de fraude et une découverte opportuniste

Implications et solutions potentielles

Related posts