L’économie numérique est une industrie lourde (2) : reprendre c’est toujours des données

Cablage d'usine de données. Photo Blog 0001/Flickr, CC BY-NC-ND

Abordons à présent cette matérialité sous l’angle du cycle de vie des données pour souligner combien cette économie numérique présentée comme désincarnée repose, à chaque étape de la vie des données – et du processus de transformation organisationnelle qui l’accompagne bien souvent – sur des activités, des écosystèmes et des réseaux qui, eux, sont concrètement matérialisés.

Comment naissent les données ?

Elles sont produites ex nihilo par la captation des signaux bruts émanant de toutes sortes de phénomènes qu’ils soient naturels (de l’astronomie à l’entomologie) ou humains (des transports au sport en passant par la vidéo surveillance, la santé et les transactions financières à haute fréquence).

Elles peuvent être produites ex post par le déclenchement de calculs et de traitements additionnels à partir de données déjà existantes mais insuffisamment structurées (expérimentations, simulations…) ou non agrégées, donc difficilement exploitables en terme d’aide à la décision (progiciels de gestion intégrés, finance, tableaux de bord, étude de marché, profilage).

Dans les deux cas, la production de données atteint des volumes gigantesques – et donc des enjeux économiques majeurs – dont la croissance est mécanique car d’une part les dispositifs de captation/production sont de plus en plus nombreux, de plus en plus variés et de plus en plus précis et d’autre part, les demandes de calculs additionnels et de structuration des données sont de plus en plus systématiques. Cette production de mégadonnées est souvent liée au maintien de l’existant (sécurité, sauvegarde et réplication, maintenance) mais plus largement à l’amélioration de la performance et à l’optimisation de l’activité (réseaux sociaux, réseaux professionnels, humanoïdes à vocation servicielle, modèles d’affaires, intelligence économique…).

Carte mère d’un serveur web. Abdallahh/Flickr, CC BY

Les données numériques naissent par et pour les matériels, les terminaux et les algorithmes qui sont à l’origine de leur captation et (re)production. Ce paradoxe est tout à fait essentiel à souligner…. bien avant leur pertinence ou leur utilité, les données n’ont d’intérêt – et donc de marché – que parce qu’elles existent et qu’elles s’auto-reproduisent mécaniquement. La grande majorité des données ne parlent finalement qu’à d’autres données pour justifier de nouveaux calculs basés sur de plus ou moins brillants algorithmes produisant de nouvelles données qui seront structurées et agrégées en mégadonnées. Elles n’ont de légitimité que virtuelle. Peu à peu l’utilisateur consommateur de données 1.0 est remplacé par l’internaute producteur de métadonnées 2.0, lui-même remplacé par l’objet connecté contributeur de mégadonnées 3.0 forcément essentielles, incontournables et stratégiques.

Il n’est pas question ici de dématérialisation mais bien de sur-matérialisation au regard de la vitesse de rotation des technologies, de l’offre des constructeurs, de la performance des réseaux et des opérateurs de l’Internet et bien sûr de l’appétence des utilisateurs-consommateurs. Par exemple, la durée de vie opérationnelle du milliard de terminaux intelligents des « quatre gros » (Samsung, Apple, Lenovo, Huawei) vendus annuellement est en moyenne d’une année et demie. Ces objets sont de plus en plus connectés ; donc ils consomment de l’énergie – indispensable à ces échanges au travers des fréquences « espaces blancs » ou « super Wifi » ou de nos ondes radios du roi danois Harald « à la dent bleue » – et ils produisent de nouvelles données.

Il faudra bien aborder sérieusement la question de « l’infobésité » et de la naissance et croissance mécanique de ces encombrants zettaoctets (dix puissance 21) précédant les yottaoctets (dix puissance 24). Il faudra bien se poser la question de leur stockage, sauvegarde et traitement ad vitam eternam car, en cohérence avec de nombreuses questions juridiques et opérationnelles, la question de leur durée de vie reste totalement ouverte !

Facebook Data Center, Prineville, grand comme cinq terrains de football américain. Intel Free Press/Flickr, CC BY

Comment et où sont stockées les données ?

Les données sont généralement stockées sur des disques durs, externes ou internes, c’est-à-dire des empilements cylindriques, verticaux ou horizontaux, de plateaux en aluminium, en verre ou en céramique, qui sont recouverts d’une fine couche magnétique et qui demeure en rotation constante afin qu’une tête de lecture/écriture puisse lire/écrire à la surface du plateau soit un 1 soit un 0 selon l’intensité du courant électrique qu’elle transporte. Ce dispositif est une reproduction extrêmement simplifiée de celui de la transmission synaptique qui laisse passer (1) – ou pas (0) – un influx électrique d’un neurone à un autre avec des neurotransmetteurs jouant le rôle de tête de lecture/écriture.

Les données peuvent être également stockées, pour des volumétries plus modestes, sur des « disques souples » c’est-à-dire des supports de stockage amovibles sans élément mécanique, tels que des puces ou cartes mémoires, qui sont donc relativement moins fragiles lors d’éventuels transports. A ce stade, soulignons que les lois (suppositions, conjectures) attribuées à Gordon E. Moore ne sont plus valides depuis 2015 et que l’informatique quantique ou les ordinateurs à ADN ne sont pas d’actualité …

Disque dur ouvert. Frédéric Bisson/Flickr, CC BY

Les données sont localisées soit au plus près de la source de production c’est à dire dans le disque dur même de la machine qui est à l’origine de la captation ou de la production du signal et qui peut être un serveur, un ordinateur personnel, un téléphone portable, une tablette ou tout autre périphérique (montre connectée, caméra, réfrigérateur ou télévision…) soit beaucoup plus loin de la source de production… dans les nuages !

Nous abordons là littéralement un phénomène joliment assimilé par certains auteurs à un l’envol vers les nuages qui paraît en totale cohérence avec l’externalisation partielle ou totale, mais quasiment inéluctable, des systèmes d’information (SI). Ces SI font en effet face à la volumétrie grandissante des données, à la pression compétitive des environnements et des usagers, ce qui les poussent vers l’informatique en nuage. Derrière ces nuages, et par delà la fibre optique, les réseaux filaires et non filaires et bien sûr les satellites, il reste la réalité des usines à données, regroupant un grand nombre de serveurs, qui se chargent ensuite de sauvegarder et de dupliquer, voire d’info-gérer les données.

Du point de vue de l’hébergeur, dont la tête tutoie les nuages mais dont les pieds sont solidement arrimés à la terre, la question devient vite celle de la valorisation de ce qui n’est qu’un simple stockage de données – telle une location de disque dur virtuel – ce qui est possible en faisant fructifier ces données en générant de nouvelles données à stocker, à sécuriser et à diffuser via un réseau Internet qui à son tour se voit obligé d’augmenter la taille de ses tuyaux mais aussi sa fluidité, sa fiabilité et son accessibilité.

Les dispositifs de stockage des données, petits ou grands, et les terminaux intelligents au sens large n’ont bien évidemment rien à voir avec la dématérialisation de notre économie dite numérique, bien au contraire. Le plastique, le silicium, l’aluminium, le magnésium, le verre, l’or, l’argent, le brome, le fer, les terres rares (néodyme, praséodyme, dysprosium…), le cuivre, le tantale, le platine, le palladium et le lithium pour les batteries sans oublier, concernant les six mille usines à données disséminées sur la planète, le béton, les métaux et alliages, le verre et le foncier pour les construire, l’énergie électrique pour les faire fonctionner en continuité, les matériels et personnels pour les protéger et bien sur l’eau pour les climatiser. Les usines à données sont devenues des monstres énergivores…

Canalisations d’eau froide pour la réfrigération du Frosinone data center en Italie. Seeweb/Flickr, CC BY-SA

La question centrale est bien souvent de pouvoir les refroidir et les climatiser. Le petit millier d’usines à données situé en Californie consomme par année l’équivalent de plus de cent cinquante mille piscines olympiques pour rester sous les quarante degrés recommandés. Il apparaît depuis peu qu’il serait possible de tolérer jusqu’à une petite trentaine de degrés sans points chauds ni dysfonctionnements majeurs. De façon anecdotique, le dernier opus de la franchise Mission Impossible aborde d’ailleurs cette question en creux en faisant d’une usine à données, sous-marine, impénétrable, non connectée et située virtuellement au large du Maroc, un véritable et spectaculaire personnage de la saga.

La question du stockage des données numériques ne se pose vraiment qu’à court et moyen terme c’est-à-dire quelques dizaines d’années tout au plus ! En effet, pendant combien de temps aurons-nous accès d’une part puis pourrons-nous lire et comprendre d’autre part, les données qui sont stockées sur nos actuels supports magnétiques ou siliciums ? Pour illustrer cette question de la pérennité des données numériques – qui renvoie donc de facto à leur matérialité – nous pouvons poser la question suivante : qui peut encore accéder à ses fichiers stockés sur des disquettes qui n’ont même pas une dizaine d’années d’ancienneté ? Dans le même temps, nous avons encore accès en Égypte à des manuscrits sur cuir vieux de quatre mille ans.

Comment les données sont-elles organisées ?

Les mégadonnées, qui ne sont pas « grosses » mais massives et polystructurées, sont à la fois le carburant et les déchets ultimes de l’économie numérique.

Elles sont organisées et hiérarchisées de façon relativement simple, statistique et quantitative, ce qui ne veut pas dire intelligente ni pertinente. Cette organisation, qui repose sur la quantification de leur circulation et de leur mise à contribution, est en train de donner lieu à une marchandisation notamment pour ce qui concerne les données d’affaires.

Fondamentalement, il existe trois catégories de mégadonnées que nous pouvons classer schématiquement selon le code couleur classique – vert, orange et rouge – et nommer selon le vocabulaire pragmatique du rapport Databerg2015 du cabinet Véritas – propres, obscures, inutiles – selon le critère assez usuel de leur contribution potentiel à la prise de décision pertinente.

La première catégorie de données est propre et donc peut donner lieu à une exploitation utile en terme de prise de décision. Dès lors, il convient de la protéger, de la sécuriser et d’y avoir accès en temps réel, c’est à dire finalement que l’entreprise accepte de payer pour bénéficier de ce type de service. La seconde catégorie est obscure et donc peut – ou pas – donner lieu à une exploitation pertinente à terme mais, même s’il convient de ne pas la détruire à court terme, il reste délicat d’évaluer le coût de son accessibilité et de tarifer un tel service. La dernière catégorie est inutile – au regard des critères en vigueur – c’est-à-dire que les données sont soit redondantes, soit obsolètes, soit tautologiques, soit triviales, voire compromises, inexploitables, souillées …et qu’il est envisageable de les supprimer sans dommage. Le rapport cité plus haut souligne que moins d’un quart des données stockées par les entreprises actuellement seraient utiles et qu’elles dépensent beaucoup d’argent pour stocker et gérer des données obscures voire inutiles.

Ainsi, pour qu’une gestion vertueuse des données s’installe peu à peu dans le monde numérique – et que nous puissions ainsi aborder la question du stockage massif, systématique et déraisonnable des mégadonnées – il s’agira tout d’abord pour les entreprises d’organiser, de trier et de caractériser elles-mêmes leurs données afin d’accepter 1) de payer pour protéger celles qu’elles définissent comme propres (code vert), 2) de détruire immédiatement celles qu’elles définissent comme inutiles (code rouge) et 3) de détruire à terme – mais quand ? à quel prix ? – celles qu’elles définissent comme obscures (code orange) ?

Les directions des systèmes d’information pourraient (et devraient) contribuer à concevoir et à mettre en oeuvre ce processus d’identification, de caractérisation et de catégorisation des données afin de faciliter le tri et le recyclage des données en évitant aussi un éventuel coûteux enfouissement.

Comment les données sont-elles diffusées ?

La diffusion des données sous l’égide de l’informatique en nuage – celles de nos messageries, de nos réseaux sociaux et professionnels, de nos sites Internet favoris, de nos montres connectées autant que celles des progiciels de gestion intégrés ou celles des jeux massivement multijoueurs récemment explorés et contextualisés dans le cadre d’une thèse montpelliéraine – est le point clé de la matérialisation croissante de nos économies numériques. En effet, plus les données sont stockées à distance, plus elles devront voyager pour atteindre les utilisateurs et satisfaire à leur requêtes (recherche, calcul, visionnage, jeux…) et, comme le montre une thèse lyonnaise, plus leurs impacts énergétiques seront élevés.

Inauguration d’un réseau de fibre optique dans la campagne canadienne. Province of British Columbia/Flickr, CC BY-NC-ND

À titre d’exemple, la lecture dans des conditions acceptables d’un flux vidéo (ou audio) impose la mise en oeuvre d’infrastructures et de matériels – réseau par fibre optique, usines à données, écran… – qui rendent le visionnage d’un film standard pratiquement plus coûteux que la fabrication et l’acheminement du film sur support physique jusqu’à son spectateur final. Il en est de même pour la diffusion et la mise à disposition depuis/vers les filiales dispersées de par le monde des données de gestion – tableaux de bords par exemple – basées sur les calculs et simulations initiés la veille au soir depuis la maison mère en utilisant la puissance de feu d’un progiciel intégré à vaste couverture fonctionnelle.

Ces données localisées à distance imposent aux opérateurs de proposer des réseaux de plus en plus performants pour les transporter et aux consommateurs des contrats de plus en plus coûteux pour les sécuriser pendant leur non-utilisation et pour les consommer pendant leur traitement et mise à disposition .

Comment les données meurent elles ?

Pour faire simple et par pure provocation, nous dirions que les données ne meurent jamais….seule leur image peut éventuellement disparaître. C’est le cas lorsque nous supprimons nos comptes Facebook, Twitter ou Google par exemple, certes leurs images quittent les écrans mais leurs traces numériques resteront longtemps gravées dans le silicium des galettes empilées quelque part dans les usines à données de Prineville (Oregon), Forest City (Caroline du Nord), Altoona (Iowa), Luleå (Suède) ou de Fort Worth (Texas).

Ces données ne seront pas pour autant lisibles et intelligibles dans un siècle comme nous l’avons évoqué plus haut. Mais plus prosaïquement, nous n’avons pas de recul suffisant pour aborder la question de la mort des données – dupliquées, sauvegardées, éparpillées …- alors que nous savons que les matériels et supports nécessaires à leur conservation vont eux disparaître un jour. Dans la même logique, la majorité des internautes concernés par leur consommation (lecture, visionnage, écoute…) et par leur production (photo, video, son, texte…) vont également disparaître bien avant elles et laisseront ouvert le vaste chantier de leurs données post mortem

Que faire de toutes ces données mortes, obsolètes, inutilisables, inaccessibles, souillées ? Que faire de nos déchets numériques ? Où donc pourrions-nous bien les enfouir ? Avec quelle réversibilité éventuelle ? Ces questions seront à aborder sérieusement – en cohérence avec notre réflexion sur le triptyque développement soutenable, citoyenneté et responsabilité – même si l’éternité virtuelle qui nous est proposée semble bien pouvoir nous en dispenser.