Les ordinateurs nuisent gravement à la science, mais il est possible d’y remédier (1)

Le superordinateur Cray XT5 livré au Lawrence Berkeley National Laboratory. Berkeley Lab/Flickr, CC BY-NC-ND

Ce que l’on appelle la reproductibilité des résultats est l’un des fondements de la science. Popularisée par le scientifique britannique Robert Boyle dans les années 1660, elle se fonde sur l’idée qu’une découverte doit pouvoir être reproduite avant d’être acceptée comme une connaissance scientifique.

En principe, vous devez être capable de produire le même résultat que moi si vous suivez la méthode que j’ai décrite en annonçant ma découverte dans une publication relue par les pairs. Par exemple, si les chercheurs peuvent reproduire une donnée montrant l’efficacité d’un nouveau médicament pour traiter une maladie, c’est un signal positif indiquant que ce produit pourrait soigner tous ceux qui souffrent de la pathologie. Si ce n’est pas le cas, on pourrait se demander quel accident, ou quelle erreur, a abouti au résultat favorable original. On en viendrait ainsi à douter de l’utilité de ce médicament.

Tout au long de la longue histoire de la science et jusqu’à récemment, les chercheurs ont exposé leurs méthodes d’une manière qui permettait la reproduction indépendante de leurs résultats. Mais, depuis l’introduction des ordinateurs personnels et des logiciels qui ont évolué pour être toujours plus faciles à utiliser, la reproductibilité de beaucoup de travaux est remise en question, sinon devenue impossible. Dans le processus de recherche, trop d’étapes sont désormais brouillées en raison de l’opacité qui prévaut dans l’utilisation des ordinateurs, outils dont de nombreux chercheurs sont devenus dépendants. Cela rend presque impossible la reproduction des résultats par un scientifique d’un autre laboratoire.

Récemment, plusieurs groupes ont proposé des solutions, similaires, à ce problème. Ensemble, ils souhaitent sortir les données scientifiques de cette sorte de boîte noire des manipulations informatiques non visibles. Les chercheurs, le public et la science elle-même en tireraient bénéfice.

Processus obscur

La statisticienne Victoria Stodden a décrit le statut particulier de l’ordinateur personnel dans l’histoire de la science. Les PC ne sont pas simplement des instruments – comme un télescope ou un microscope – qui permettent de nouvelles recherches. L’ordinateur est révolutionnaire d’une façon différente ; c’est une petite usine à fabriquer toutes sortes de « possibilités » pour discerner de nouveaux éléments ordonnés dans les données scientifiques.

Il est difficile de trouver un chercheur d’aujourd’hui qui travaille sans ordinateur, même dans des disciplines qui ne reposent pas fortement sur des données quantitatives. Les écologues utilisent des ordinateurs pour simuler les effets des catastrophes sur les populations animales ; les biologistes les font tourner pour fouiller d’énormes quantités de données ADN ; les astronomes les font fonctionner pour contrôler de vastes lignées de télescopes, puis pour analyser les données collectées ; les océanographes les utilisent dans le but de combiner les informations provenant des satellites, des bateaux et des bouées pour prédire les climats ; les sciences sociales ont recours à eux pour découvrir et prédire les effets d’une politique ou pour analyser les entretiens. Les ordinateurs sont utiles aux chercheurs dans presque toutes les disciplines pour identifier ce qui est intéressant dans la masse de données recueillie.

Les PC sont aussi des outils personnels. Nous avons, globalement, usage exclusif de notre propre ordinateur et les fichiers et dossiers qu’il contient sont généralement considérés comme étant personnels, cachés à la vue des autres. Préparer les données, les analyser, visualiser les résultats, autant de tâches accomplies sur l’ordinateur, en privé. Ce n’est qu’à la toute fin du processus que sort, dans un journal vendu au public, un article résumant toutes ces actions privées.

Le problème, c’est que la science moderne est si complexe, et la plupart des articles de journaux si courts, qu’il est impossible d’inclure dans la publication les détails de beaucoup d’éléments importants, relatifs aux méthodes et aux décisions prises par le chercheur tandis qu’il analysait ses données sur son ordinateur. Comment, dans ces conditions, un autre scientifique pourrait-il juger de la validité de ces résultats ou reproduire l’analyse ?

Reproduire des données sans savoir quel a été le chemin parcouru. US Army

Transparence

Les statisticiens de Stanford Jonathan Buckheit and David Donoho ont abordé ces questions dès 1995, une époque où l’utilisation généralisée de l’ordinateur personnel était encore une pratique relativement récente.

Un article à propos de science informatique dans une publication ne relève pas d’un savoir, il est simplement une publicité pour ce savoir. La connaissance réelle est, elle, constituée de l’environnement complet de développement du logiciel et de l’ensemble complet d’instructions qui a généré les données chiffrées.

Ils ont ainsi fait une proposition radicale. Cela veut dire que tous les fichiers privés sur nos ordinateurs personnels et le travail d’analyse que nous avons réalisé pour préparer l’article à la publication devraient être rendues publiques en même temps que l’article du journal.

Ce serait là un changement considérable dans la façon de travailler des scientifiques. Nous devrions nous y préparer à partir du moment où nous commençons n’importe quel travail sur l’ordinateur pour pouvoir au final le rendre visible à tous. Pour beaucoup de chercheurs, il s’agit là d’une idée accablante. Victoria Stodden a énoncé l’objection la plus importante à ce partage des fichiers : le temps consacré à préparer les fichiers en produisant de la documentation, et à les nettoyer. La seconde inquiétude réside dans le risque de ne pas être crédité si quelqu’un d’autre utilise le travail.

Pourtant, la réflexion avance sur la manière de faire progresser la question, avec des propositions de nouveaux outils à la disposition des chercheurs. C’est ce que nous verrons dans un second article.

This article was originally published in English