Une crise de reproductibilité de la science ? Non, c’est bien pire !

Les résultats des recherches de cette chercheuse pourront-ils être reproduits par une autre équipe ? J. Barande/Flickr, CC BY-SA

La science serait en crise, une « crise de reproductibilité ». Ses fondations statistiques seraient gravement fragilisées, et c’est tout l’édifice qui serait menacé. Mais cette inquiétude repose sur une confusion entre ce qui est statistiquement valide et ce qui est scientifiquement valide. Et cette confusion est beaucoup plus grave.

Reproductibilité et statistiques : petits rappels

La reproductibilité est un aspect essentiel du travail scientifique. Un résultat isolé ne signifie pas grand-chose tant que d’autres scientifiques ne parviennent pas à reproduire ce résultat de leur côté. Cela vaut évidemment pour les pratiques expérimentales (il faut alors que l’expérience puisse être reproduite), mais cela vaut plus généralement pour les pratiques scientifiques qui produisent des résultats statistiques (c’est notamment le cas dans les sciences humaines). De manière schématique, les calculs statistiques servent à montrer que ce que l’on a observé n’est pas l’effet du hasard. Ce sont ces calculs qui doivent pouvoir être reproduits.

L’instrument statistique le plus communément employé par les scientifiques est la « p-value ». Cette p-value est la probabilité que, sous certaines conditions (cruciales pour faire une analyse statistique sérieuse, mais qu’il est inutile de discuter ici), l’intérêt de ce que l’on observe, le fait que cela s’écarte de ce à quoi on s’attendait, pourraient être le fait du hasard.

Lorsque la p-value est trop grande, les scientifiques considèrent que le risque que leurs observations soient dues au hasard est trop grand pour qu’elles puissent être prises au sérieux. Ce que veut dire « trop grand » est défini par un seuil que choisissent les scientifiques. En dessous de ce seuil, on considère que le risque d’être trompé par le hasard est acceptable.

On parle alors de résultat « statistiquement significatif ». Ce seuil varie selon les domaines. Dans le domaine des sciences humaines et sociales, il est souvent de 5 %.

Un problème avec la « p-value »

Récemment, des chercheurs ont tiré la sonnette d’alarme, dans un article publié dans Nature Human Behaviour. L’utilisation de cette méthode serait gravement défectueuse. Les résultats statistiques réalisés d’après elle seraient beaucoup trop peu reproductibles. Autrement dit, lorsque les scientifiques refont les travaux de leurs collègues (en reproduisant une expérience, ou en refaisant une enquête), et qu’ils refont également les calculs statistiques, ils se retrouvent trop souvent avec des p-value qui ne sont plus sous le seuil de significativité, alors qu’elles l’étaient dans les travaux originaux. C’est suspect.

À entendre ces chercheurs inquiets, et de nombreux autres auteurs, cette crise de reproductibilité des résultats statistiques serait une crise de la science. Dans la course actuelle à la publication pour la publication (ce qui est déjà en soi une perversion complète de la publication scientifique, mais c’est une autre histoire), les scientifiques auraient tendance à ne plus être trop regardants sur la rigueur de leurs calculs statistiques, et la solidité de leurs découvertes s’en ressentirait.

Ils auraient tendance à trop relâcher les exigences statistiques pour prouver la réalité de ces découvertes. Avec un seuil de 5 %, ils s’exposeraient à trop de problèmes de reproductibilité. La réponse serait alors d’augmenter ces exigences statistiques, en abaissant le seuil de significativité. C’est le sens de l’article publié dans Nature Human Behaviour, qui suggère d’adopter un seuil sensiblement plus faible (0,5 %) dans les disciplines employant généralement un seuil de 5 %.

Confusion entre résultats « scientifiques » et « statistiques »

Mais s’inquiéter d’une crise de reproductibilité de la science n’a de sens que si l’on parle de résultat « scientifique » au premier résultat statistiquement significatif venu, que si l’on considère qu’un résultat statistique significatif est toujours un résultat « scientifique ». Ce n’est pas faire le procès de la statistique de dire à quel point une telle association est douteuse. C’est au contraire rappeler que l’analyse statistique n’est pas un travail mécanique.

« Significatif » ne veut pas dire « démontré ». Un résultat scientifique, une découverte, ou la simple validation d’une hypothèse n’est pas déterminée par la significativité d’un résultat statistique. C’est l’Association Américaine de Statistique qui rappelle elle-même que « les conclusions scientifiques ne devraient pas être basées seulement sur le fait qu’une p-value soit plus petite ou plus grande qu’un certain seuil ». Un résultat « statistiquement significatif » ne vaut donc pas démonstration pour autant, il ne s’agit que de l’indice (certes stimulant) d’une possible trouvaille.

Les physiciens des particules, qui ont des exigences statistiques autrement plus importantes qu’un seuil de p-value à 0,5 %, ne crient pas à la découverte dès que ces exigences sont satisfaites. Ils savent d’expérience qu’ils s’exposeraient à de lourdes déconvenues, avec parfois des retombées médiatiques embarrassantes.

« Significatif », désolé pour le truisme, veut simplement dire qu’une observation « signifie » quelque chose, qu’il y a probablement quelque chose à en dire. Mais ce que signifie ce quelque chose, c’est tout le problème. C’est en fait ici que le travail scientifique commence vraiment, quand il s’agit de discuter le résultat statistique, et de l’interpréter.

Est-on vraiment tombé sur une trouvaille ? Est-ce un artefact ? Que révèle le résultat statistique du monde naturel (ou social, ou de l’esprit humain) ? C’est en oubliant toute cette dimension interprétative des résultats statistiques que l’on fait apparaître une « crise de reproductibilité de la science ». Cet oubli conduit à confondre résultats statistiques et résultats scientifiques, et donc à s’inquiéter de la reproductibilité de résultats abusivement présentés comme « scientifiques », alors qu’ils ne sont que des résultats statistiques, certes significatifs mais encore bien fragiles. C’est de ce problème qu’il faudrait se préoccuper.

Le problème n’est pas technique

C’est peut-être un problème éthique : un manque d’honnêteté intellectuelle, notamment dans l’usage cavalier de certains verbes comme « prouver » ou « démontrer », suscité par une excessive pression à la publication. Ou une sorte de paresse rassurante conduisant à penser qu’il suffit d’avoir un résultat statistiquement significatif pour prétendre avoir fait œuvre de scientifique.

C’est peut-être un problème conceptuel : la réduction du travail scientifique à la réalisation d’un calcul (voire à l’emploi quasi automatisé de logiciels spécialisés), peut-être sous l’effet d’une bureaucratisation croissante conduisant à formaliser toujours plus ce travail scientifique. Sous cette conception « intellectualiste » de la science, le savoir-faire scientifique ne consisterait plus qu’à savoir appliquer des règles méthodologiques du genre : p-value < seuil = « démontré », p-value > seuil = « non démontré ».

Quoi qu’il en soit, que le problème soit éthique, conceptuel, ou une combinaison des deux, la solution suggérée par les auteurs de l’article de Nature Human Behaviour est vaine. C’est une réponse technique à un problème qui ne l’est pas. On pourra baisser autant qu’on veut le seuil de significativité, cela ne réglera pas ce problème. Si les chercheurs continuent à considérer qu’il suffit d’obtenir un résultat statistique significatif pour avoir un résultat scientifique (et donc pour avoir une publication), ils ne partiront plus à la chasse à la p-value de 5 %, mais à celle de 0,5 %. Et ce ne sera pas trop difficile d’en trouver, qui ne seront pas moins douteuses (au mieux, ça compliquera un peu la chasse).

Tant que l’on continuera à considérer (ou à faire semblant de croire) qu’un résultat statistiquement significatif est un résultat scientifique (et donc la justification d’une publication), on s’exposera à des déconvenues.

Ce qu’il faudrait, c’est plutôt revenir à une conception de la science qui ne soit plus intellectualiste, plus mécaniste, et qui remette au goût du jour les vertus intellectuelles qui devraient être au cœur de la science. Mais il ne servirait strictement à rien de faire la morale. Comme tout le monde, les chercheurs répondent à des incitations. La solution à ce problème se situe fondamentalement à un autre niveau : au niveau des politiques de la recherche, et de la manière dont la société entend organiser la science. Aujourd’hui, il y a de bonnes raisons de penser que cette manière d’organiser la science encourage une conception viciée du travail scientifique. Et c’est beaucoup plus grave qu’un problème de p-value.

Help combat alt-facts and fake news and donate to independent journalism. Tax deductible.