De nouveaux outils informatiques pour une activité scientifique ouverte (2)

geralt/Pixabay

Dans un premier article, nous avons vu comment le traitement informatique des données de recherche, s’il reste privé, nuisait à la reproductibilité des résultats scientifiques. Mais des solutions existent.

Quels secrets s’y cachent ? US Army

Récemment, plusieurs groupes de scientifiques, tous différents, se sont accordés pour recommander des outils et des méthodes pour rendre plus facile le suivi des fichiers et des analyses réalisées sur ordinateur. Ces groupes intègrent des biologistes, des écologues, des ingénieurs nucléaires, des neuroscientifiques, des économistes et des chercheurs en sciences politiques. Des articles écrits sous la forme de manifestes détaillent leurs recommandations. Quand des chercheurs d’horizons aussi différents convergent dans une action commune, c’est le signe qu’un tournant majeur dans la façon de faire de la science pourrait être en cours.

Une recommandation majeure : minimiser et remplacer les procédures du type « pointer-cliquer » pendant l’analyse des données, autant que possible en utilisant des scripts qui contiennent des instructions pour l’ordinateur afin qu’il mène à bien sa tâche. Cela résout le problème de l’enregistrement de mouvements éphémères qui laissent peu de traces, sont difficiles à communiquer à d’autres personnes et compliqués à automatiser.

Ils sont courants durant le nettoyage des données et les tâches d’organisation quand on utilise un logiciel comme Microsoft Excel. Un script, lui, contient des instructions non ambiguës qui peuvent être lues par l’auteur et par d’autres chercheurs, bien après leur mise en place (lorsque les détails spécifiques ont été oubliés). Il peut également être intégré à un article de journal car il ne s’agit pas de fichiers volumineux. Et les scripts peuvent être facilement adaptés à des tâches de recherche automatisées, faisant gagner du temps et réduisant le risque d’erreur humaine.

Écrire les scripts

Nous en avons des exemples en microbiologie, écologie, sciences politiques et archéologie. Au lieu de cliquer sur les menus et les boutons, éditer manuellement des cellules dans une feuille de calcul et copier-coller des fichiers dans différents logiciels pour obtenir des résultats, ces scientifiques écrivent des scripts. Ces derniers automatisent le parcours des fichiers, le nettoyage des données, l’analyse statistique et la création de graphiques, figures et tableaux. Cela économise beaucoup de temps au moment de vérifier l’analyse et de la refaire pour explorer différentes options. Et en examinant le code du script, qui fait partie de la publication, chacun peut voir les étapes précises qui ont abouti aux résultats publiés.

D’autres recommandations de ces auteurs : l’utilisation de formats non-propriétaires pour classer des fichiers (comme celui dénommé CSV, où les variables sont séparées par des virgules pour les tableaux de données) et des rubricages simples pour l’organisation systématique de fichiers dans des dossiers pour que d’autres comprennent facilement comment l’information est structurée. Ils préconisent l’utilisation de logiciels libres disponibles pour tous les systèmes informatiques (Windows, Mac et Linux) pour analyser et visualiser les données (comme R et Python). Pour collaborer, ils recommandent un programme gratuit appelé Git, qui permet de repérer les changements quand un grand nombre de personnes éditent le même document.

Actuellement, tous ces programmes sont des outils et des méthodes d’avant-garde et beaucoup de chercheurs en milieu ou en fin de carrière ont seulement une vague idée de ce qu’ils recouvrent. Mais beaucoup d’étudiants sont en train de les apprendre. Beaucoup de thésards, voyant l’avantage d’être organisé, d’utiliser des formats et des logiciels ouverts, de collaborer en temps réel cherchent à se former et utilisent les outils d’organismes à but non lucratif comme Software Carpentry, Data Carpentry et rOpenSci pour pallier aux manques de leur formation initiale. Récemment, mon université a créé un [eScience Institute](http://escience.washington.edu), où nous aidons les chercheurs à adopter ces recommandations. Notre institut est partie intégrante d’un mouvement plus large qui regroupes d’autres institutions similaires à Berkeley et à New York University.

Exemple d’un script utilisé pour analyser des données. Author provided

Quand les étudiants qui sont en train d’apprendre ces compétences deviendront diplômés et progresseront dans des postes d’influence, nous verrons ces standards devenir la nouvelle norme en science. Les revues savantes demanderont les codes et les fichiers de données pour accompagner les publications. Les organismes de financement réclameront qu’ils soient placés dans des référentiels en ligne accessibles au public.

Formats et logiciels libres bénéficient à tous

Ce changement dans la façon dont les chercheurs utilisent les ordinateurs bénéficiera à l’image de la science. Tandis que les scientifiques deviendront plus à l’aise pour partager leurs dossiers et leurs méthodes, le public aura un bien meilleur accès à la recherche scientifique. Par exemple, un enseignant de lycée pourra montrer à ses élèves les données brutes d’une découverte récemment publiée et les amener à examiner la partie principale des travaux puisque tous les fichiers seront disponibles avec la publication.

De même, tandis que les chercheurs utiliseront de plus en plus de logiciels libres, le public pourra lui aussi les utiliser pour retravailler et étendre les résultats publiés dans les revues. Actuellement, beaucoup de chercheurs utilisent d’onéreux logiciels commerciaux, d’un coût tel que cela les rend inaccessibles hors des universités ou des grandes entreprises.

Évidemment, l’ordinateur personnel n’est pas le seul responsable de l’ensemble des problèmes relatifs à la reproductibilité en science. Médiocre conception expérimentale, méthodes statistiques inappropriées, environnement professionnel hypercompétitif, valeur importante accordée à la nouveauté et publication dans des journaux à fort impact, autant de facteurs à blâmer.

Ce qui est particulier au sujet du rôle des ordinateurs en science est que nous avons une solution au problème. Nous avons des recommandations claires pour utiliser des outils évolués et des méthodes bien testées qui nous viennent de la recherche en informatique pour améliorer la reproductibilité de la recherche faite par toutes sortes de scientifiques sur un ordinateur. Avec un investissement modeste en temps, afin d’apprendre à se servir de ses outils, nous pouvons aider à restaurer un fondement de l’activité scientifique.