Le big data n’est pas forcément l’eldorado annoncé

Big data et analytics sur le cloud dans le domaine de la santé. NEC Corporation/Flickr, CC BY

À l’agenda de la plupart des entreprises, les big data focalisent l’attention à l’heure de la révolution numérique. Elles étaient au cœur des discussions de la première Convention d’Affaires les 24 et 25 novembre 2015 qui a réuni académiques et industriels à HEC Paris. L’occasion de repenser les enjeux de ce nouveau mouvement et de pointer les risques de désillusions… En effet, les big data, tout le monde en parle et tout le monde veut en faire, mais pour en faire quoi ?

Or, il y a beaucoup de choses à dire sur le « big » des big data. Quand on regarde après application de quelques filtres ce qui est pertinent dans une série de données massives, ce n’est généralement plus du big ! Les entreprises se préoccupent souvent des grands volumes de données parce qu’elles les collectent sous une forme brute, ce qui soulève des questions matérielles de stockage et de réseau, mais la plupart du temps, les usages sont méconnus et les « petites » bases de données sont peu exploitées.

Nos travaux de recherche sur les applications du machine learning dans les domaines de la santé, des sciences de l’ingénieur et des technologies numériques, s’inscrivent plutôt à contre-courant de la doxa actuelle. Pas par principe. Si nous ne remettons pas en cause l’intérêt et l’importance des big data, nous considérons plus pertinent de commencer par travailler le « small », c’est-à-dire les données propres, contextualisées.

Bulle technologique

L’engouement pour les big data trouve ses racines dans une limite. Confrontées à une moindre innovation sur le matériel, les entreprises misent sur l’intelligence pour trouver de nouveaux leviers de croissance. Mais, elles s’emparent de la problématique des big data sans avoir une idée toujours claire des usages qu’elles pourraient en attendre. Elles l’abordent surtout sans vraiment se préoccuper de remettre en question leur organisation interne, ni leur modèle économique. Ce seraient pourtant les premiers impactés si leurs projets big data devaient réussir.

L’engouement actuel ne pourrait être qu’une bulle, voire avoir un effet bulldozer et conduire à bien des désillusions en particulier sociétales. L’industrialisation des services s’accompagne d’une robotisation croissante. Des activités à haute valeur ajoutée qui emploient aujourd’hui des personnes très qualifiées pourraient reposer demain sur des robots et voir leurs effectifs fondre de 100 à 1 employé. Celui qui s’occupe du robot ! Dans le domaine de la finance, le trading haute fréquence s’appuie sur des robots programmés pour prendre des décisions à la milliseconde. Dans le marketing aussi et les secteurs où la numérisation des données fluidifie l’échange d’information. Et ça marche. Pourtant, si tous les secteurs d’activités s’y mettent que vont devenir ces savoirs face à de puissants algorithmes ? L’impact sur la société sera majeur y compris dans la structure même du marché du travail. Après l’emploi ouvrier, c’est l’emploi très qualifié qui risque d’être touché.

Des développements prometteurs

Les big data ne sont peut-être pas l’eldorado annoncé, toutefois il existe des domaines où leur exploitation est particulièrement pertinente. C’est le cas de la santé. Le corps est un système complexe, mais certaines facettes de la physiologie humaine pourraient être largement prédictibles. De fait, la posture ou le mouvement n’ont jamais fait, à ma connaissance, l’objet d’études scientifiques sur de très grandes cohortes. Bien que différents les uns des autres, nous sommes extrêmement réguliers dans le temps. Il y a dans cette régularité temporelle une ouverture pour établir des statistiques.

Un projet de recherche lancé en 2012 par Pierre-Paul Vidal (directeur de recherche au CNRS) autour d’une équipe de chercheurs neurophysiologistes et de cliniciens associés au laboratoire Cognac G (CNRS et Université Paris-Descartes) en partenariat avec les mathématiciens du CMLA a débouché sur les premiers essais cliniques dans le service de neurologie de l’hôpital du Val-de-Grâce. Objectif ? Valider le pouvoir prédictif d’un bilan de l’équilibre statique d’un sujet quant au risque de chute à six mois.

En pratique, c’est l’œil exercé du médecin qui permet une évaluation qualitative de l’équilibre. Nous ne faisons que digitaliser cet examen. Équipé d’une Wii balance board, d’une tablette et d’un logiciel Android muni d’une interface, le médecin peut identifier les marqueurs grâce à une synthèse quantitative et qualitative de l’examen. Si les essais cliniques sont concluants, les médecins généralistes pourront utiliser le dispositif à titre préventif pour repérer des signes précoces de perte de l’équilibre et orienter leurs patients vers des spécialistes. Une expérimentation est programmée en 2016 par la Sécurité sociale de La Réunion dans le cadre d’un parcours « mobilité » destiné aux seniors.

Des formations pour quelles perspectives ?

La forte demande des entreprises en « data scientists » soutient une offre foisonnante de nouvelles formations purement orientées big data. Or, il faut arrêter de mentir aux étudiants. Ce métier n’existe pas. On ne peut pas être simultanément mathématicien, statisticien, programmeur de haut niveau, expert en traitement du signal, en calcul hautes performances, en modélisation des graphes, en capteurs, etc., tout en maîtrisant les ficelles « métier » d’un secteur d’applications.

Pour répondre au mieux aux besoins complexes des entreprises, rien de nouveau : il faut décloisonner les disciplines et au-delà les redéfinir en ouvrant leurs services. En France, cette ouverture exige un réel changement culturel. Ainsi, notre master MVA (mathématiques-vision-apprentissage) de l’Université Paris-Saclay à l’ENS Cachan s’appuie sur un noyau de connaissances mathématiques de haut niveau, mais notre cheval de bataille depuis sa création en 1996 est d’ancrer les savoirs théoriques dans des applications réelles. Le master MASH (mathématiques-apprentissage-sciences humaines) de l’université Paris-Dauphine s’articule autour du même noyau dur pour s’ouvrir aux sciences humaines.

Le secret est là : écouter les besoins du monde réel pour mettre en place les formations les plus efficientes et colorier les formations par domaine applicatif. C’est exactement le même processus que celui de notre démarche scientifique.