Cet article est publié en collaboration avec Binaire, le blog pour comprendre les enjeux du numérique.

L’image du chercheur qui travaille seul en ignorant la communauté scientifique n’est qu’un mythe. La recherche est fondée sur un échange permanent, tout d’abord et avant tout pour comprendre les travaux des autres et ensuite, pour faire connaître ses propres résultats. La lecture et l’écriture d’articles publiés dans des revues ou des conférences scientifiques sont donc au cœur de l’activité des chercheurs. Quand on écrit un article, il est fondamental de citer les travaux de ses pairs que ce soit pour décrire un contexte, détailler ses propres sources d’inspiration ou encore expliquer les différences d’approches et de résultats. Être cité par d’autres chercheurs, quand c’est pour de « bonnes raisons », est donc une des mesures de l’importance de ses propres résultats. Mais que se passe-t-il lorsque ce système de citations est manipulé ? Notre récente étude révèle une méthode insidieuse pour gonfler artificiellement les comptes de citations : les « références furtives ».

Les dessous de la manipulation

Le monde de la publication scientifique et son fonctionnement ainsi que ses potentiels travers et leurs causes sont des sujets récurrents de la vulgarisation scientifique. Cependant, penchons nous tout particulièrement sur un nouveau type de dérive affectant les citations entre articles scientifiques, censées refléter les apports et influences intellectuelles d’un article cité sur l’article citant.

Les citations de travaux scientifiques reposent sur un système de référencement standardisé : les auteurs mentionnent explicitement dans le texte de leur article, a minima le titre de l’article cité, le nom de ses auteurs, l’année de publication, le nom de la revue ou de la conférence, les numéros de page… Ces informations apparaissent dans la bibliographe de l’article (une liste de références) et sont enregistrées sous forme de données annexes (non visibles dans le texte de l’article) qualifiées de métadonnées, notamment lors de l’attribution du DOI (Digital Object Identifier), un identifiant unique pour chaque publication scientifique.

Les références d’une publication scientifique permettent, de façon simplifiée, aux auteurs de justifier des choix méthodologiques ou de rappeler les résultats d’études passées. Les références listées dans chaque article scientifique sont en fait la manifestation évidente de l’aspect itératif et collaboratif de la science. Cependant, certains acteurs peu scrupuleux ont visiblement ajouté des références supplémentaires, invisibles dans le texte, mais présentes dans les métadonnées de l’article pendant son enregistrement par les maisons d’édition. Résultat ? Les comptes de citations de certains chercheurs ou journaux explosent sans raison valable, car ces références ne sont pas présentes dans les articles qui sont censés les citer.

Un nouveau type de fraude et une découverte opportuniste

Tout commence grâce à Guillaume Cabanac qui publie un rapport d’évaluation post-publication sur PubPeer, un site où les scientifiques discutent et analysent les publications. Il remarque une incohérence : un article, probablement frauduleux, car présentant des « expressions torturées », d’une revue scientifique publiée par l’éditeur de revues scientifiques Hindawi a obtenu beaucoup plus de citations que de téléchargements, ce qui est très inhabituel. Ce post attire l’attention de plusieurs « détectives scientifiques » ; une équipe réactive se forme avec Lonni Besançon, Guillaume Cabanac, Cyril Labbé et Alexander Magazinov.

Nous essayons de retrouver, via un moteur de recherche scientifique, les articles citant l’article initial, mais le moteur de recherche Google Scholar ne fournit aucun résultat alors que d’autres (Crossref, Dimensions) en trouvent. Il s’avère, en réalité, que Google Scholar et Crossref ou Dimensions n’utilisent pas le même procédé pour récupérer les citations : Google Scholar utilise le texte même de l’article scientifique alors que Crossref ou Dimensions utilisent les métadonnées de l’article que fournissent les maisons d’édition.

Pour comprendre l’étendue de la manipulation, nous avons examiné alors trois revues scientifiques qui semblaient citer massivement l’article d’Hindawi. Voici notre démarche en trois étapes.

Nous listons d’abord les références présentes explicitement dans les versions HTML ou PDF des articles ;

Ensuite, nous comparons ces listes avec les métadonnées enregistrées par Crossref, une agence qui attribue les DOIs et leurs métadonnées. Nous découvrons que certaines références supplémentaires ont été ajoutées ici, mais n’apparaissaient pas dans les articles ;

Enfin, nous vérifions une troisième source, Dimensions, une plate-forme bibliométrique qui utilise les métadonnées de Crossref pour calculer les citations. Là encore, nous constatons des incohérences.

Le résultat ? Dans ces trois revues, au moins 9 % des références enregistrées étaient des « références furtives ». Ces références supplémentaires ne figurent pas dans les articles, mais uniquement dans les métadonnées, faussant ainsi les comptes de citations et donnant un avantage injuste à certains auteurs. Certaines références réellement présentes dans les articles sont par ailleurs « perdues » dans les métadonnées.

Les implications et potentielles solutions

Pourquoi cette découverte est-elle importante ? Les comptes de citations influencent de façon significative les financements de recherche, les promotions académiques et les classements des institutions. Elles sont utilisées de façon différente suivant les institutions et les pays, mais jouent toujours un rôle dans ce genre de décisions.

Une manipulation des citations peut par conséquent conduire à des injustices et à des décisions basées sur des données fausses. Plus inquiétant encore, cette découverte soulève des questions sur l’intégrité des systèmes de mesure de l’impact scientifique qui sont mises en avant depuis plusieurs années déjà. En effet, beaucoup de chercheurs ont déjà, par le passé, souligné que ces mesures pouvaient être manipulées, mais surtout qu’elles engendraient une compétition malsaine entre chercheurs qui allaient, par conséquent, être tentés de prendre des raccourcis pour publier plus rapidement ou avoir de meilleurs résultats qui seraient donc plus cités. Une conséquence, potentiellement plus dramatique de ces mesures de productivité des chercheurs réside surtout dans le gâchis d’efforts et de ressources scientifiques dû à la compétition mise en place par ces mesures.

Pour lutter contre cette pratique, le « Collège Invisible », un collectif informel de détectives scientifiques auquel notre équipe contribue, recommande plusieurs mesures :

Une vérification rigoureuse des métadonnées par les éditeurs et les agences comme Crossref.

Des audits indépendants pour s’assurer de la fiabilité des données.

Une transparence accrue dans la gestion des références et des citations.

Cette étude met en lumière l’importance de la précision et de l’intégrité des métadonnées, car elles sont, elles aussi, sujettes à des manipulations. Il est également important de noter que Crossref et Dimensions ont confirmé les résultats de l’étude et qu’il semblerait que certaines corrections aient été apportées par la maison d’édition qui a manipulé les métadonnées confiées à Crossref et, par effet de bord, aux plates-formes bibliométriques comme Dimensions. En attendant des mesures correctives, qui sont parfois très longues, voire inexistantes, cette découverte rappelle la nécessité d’une vigilance constante dans le monde académique.