Menu Close
Illustration de stockage de données binaire dans des brins d'ADN. ymgerman / shutterstock

Comment stocker des données à (très) long terme ?

Dès la préhistoire, l’être humain a commencé à stocker des informations, par exemple grâce aux hiéroglyphes et pétroglyphes. L’apparition des premiers ordinateurs dans les années 1940 a marqué les débuts du stockage numérique. De la carte perforée des premiers temps aux solutions de stockage sur des clouds à l’heure actuelle, de nombreux supports se succèdent, évoluant en taille et en robustesse. Ceux-ci doivent permettre de stocker des quantités de données toujours plus importantes, tout en garantissant un accès à ces données sur le long terme. L’obsolescence de certains supports est un risque considérable pour notre mémoire collective.

Depuis le milieu des années 1990, le terme big data désigne l’augmentation exponentielle des volumes de données créées. Ainsi, le volume cumulé était de 33 zetaoctets en 2018 et devrait atteindre 175 zetaoctets en 2025 (1 zetaoctet correspond à un trilliard d’octets). Le big data représente un potentiel de création de valeur important, que ce soit à travers des données saisies dans les systèmes d’information des entreprises, des données collectées sur Internet (en particulier sur les réseaux sociaux), ou encore des données capturées par les objets connectés. Au-delà de cet usage commercial des données, les besoins des individus augmentent aussi, que ce soit pour le stockage de documents, de photos ou de vidéos.

Les solutions matérielles de stockage existantes

Plusieurs technologies de stockage de données existent : les disques durs, les disques optiques, les disques à mémoire flash et le cloud. Dans les technologies actuelles, les données sont représentées en utilisant un code binaire, c’est-à-dire uniquement des 0 et des 1. Des creux ou des bosses sont créés sur la surface de stockage, soit en la gravant, soit en utilisant un champ magnétique pour déplacer des particules de fer. Chaque caractère est représenté par un octet, succession de huit chiffres binaires.

Les disques durs sont composés de plateaux rigides qui tournent autour d’un axe. Ces plateaux sont recouverts de particules d’oxyde de fer et vont passer devant une tête d’enregistrement magnétique destinée à aimanter ces particules pour inscrire des 0 ou des 1 sur la surface du plateau. Désormais peu onéreux, avec de gros volumes de stockage (jusqu’à 16 Teraoctets pour les plus performants), leur durée de vie reste relativement faible – de 2 à 8 ans en moyenne et leur vitesse est relativement peu faible. Les disques durs sont sensibles en raison de la vitesse de rotation des plateaux qui entraîne une usure de différents composants.

Les disques optiques, constitués de matière plastique rigide recouverte d’une couche métallique sur une des faces, existent depuis des décennies. Le code binaire est gravé sur la face métallique à l’aide d’un laser. Chaque passage d’un creux à une surface plane est inscrit un 1. Tous les autres emplacements du disque se voient affectés un 0. Par rapport aux disques durs, les risques de pertes de données sont moins importants et la durée de stockage peut être beaucoup plus importante (jusqu’à 100 ans selon les fabricants). Mais la pérennité du stockage repose sur la possibilité de lire ces disques – sur la continuité de fabrication des lecteurs – et sur de bonnes conditions de stockage, en raison des risques de rayure. La capacité de stockage reste relativement faible : 700 MB pour les CD-R, 4,7 GB pour les DVD et 25 GB pour les Blu-Ray.

Si vous comptiez sur les disques Zip ou Jaz pour stocker toutes vos archives, bonne chance pour trouver un lecteur qui puisse les lire aujourd'hui. Leighton Kille/The Conversation France, CC BY

Depuis la fin des années 2000, les disques SSD (solid state drive) reposent sur la « mémoire flash » : les données sont stockées dans des puces électroniques où le code binaire est représenté par des charges électriques, chaque transistor de la puce permettant de stocker un 0 ou un 1. Les principaux avantages de cette technologie sont que les composants ne se déplacent plus, limitant les risques de casse, et elle offre une solution de stockage sécurisée pour un encombrement réduit. Pour l’instant, les disques SSD sont plus onéreux que les disques durs ou les disques optiques. Les fabricants indiquent une durée de vie de 10 ans, mais cette technologie existe depuis trop peu de temps pour connaître les durées de vie réelles, d’autant que celle-ci dépend plus de l’usage qui en est fait que du temps écoulé.

Plutôt que d’investir dans une solution technique, le recours à une solution de cloud computing peut permettre de garantir l’intégrité des données à long terme : il consiste à utiliser des ressources informatiques (serveurs, espaces de stockages et/ou logiciels) qui n’appartiennent pas à l’utilisateur. Ces solutions sont onéreuses mais l’offre de service intègre la réplication des données pour garantir leur intégrité.

Les solutions de réplication

Quel que soit le type de support utilisé, la réplication des données est indispensable pour garantir l’intégrité des données stockées : il s’agit de copier les données sur un autre support, et, idéalement, de stocker la copie dans un autre lieu pour éviter les risques de destruction simultanée des données sources et de la réplication.

Les solutions cloud intègrent des systèmes de stockage distribués garantissant la disponibilité des données et leur durabilité. Pour les systèmes de stockage physiques, il est nécessaire d’effectuer des réplications régulières, en prenant en considération les évolutions matérielles et logicielles, car certains lecteurs ou supports de stockage peuvent être amenés à disparaître. C’est ce qui s’est produit par exemple pour les disquettes, les disques Zip – et la plupart des ordinateurs actuels sont maintenant dénués de lecteurs de disques optiques.

La même problématique se retrouve pour les formats de fichiers. Mieux vaut privilégier des formats ouverts (PDF pour le texte, JPEG pour les images ou encore MPEG-2 pour l’audio) au détriment des formats fermés (formats Microsoft Office ou formats Adobe, par exemple). Ces derniers appartiennent à un éditeur déterminé et celui-ci peut cesser de les utiliser à tout moment. Certains formats développés par des éditeurs sont ouverts. C’est le cas par exemple du format PDF, développé par l’entreprise Adobe, et devenu un standard défini dans une norme ISO.

Vers un stockage de très longue durée

Comme nous venons de le voir, les systèmes de stockage existants sous soumis à des contraintes de taille et de durée de vie. Les chercheurs tentent de développer de nouvelles solutions qui permettraient de réduire ces contraintes et de faire face au volume croissant de données.

Des solutions existent déjà pour permettre du stockage sur le très long terme. Les disques Milleniata (M-DISC) existent depuis 2009. Ces disques optiques permettent de conserver des données sur de très longues durées (au moins 100 ans et jusqu’à 1000 ans selon les concepteurs) en raison de l’utilisation d’un matériau spécifique pour créer la couche de stockage des données. La solidité de ces disques a été testée avec succès par le Ministère américain de la Défense. Ces supports nécessitent de posséder un graveur spécifique, mais peuvent être lus sur un simple lecteur DVD. L’accès aux données reste soumis à l’existence de tels lecteurs sur le long terme. D’autres initiatives existent pour rechercher des matériaux résistants, tels les cristaux de quartz ou les diamants, qui pourraient permettre des stockages de longue durée.

Depuis plus d’une dizaine d’années, la possibilité de stocker des données dans de l’ADN est envisagée. Le codage de l’ADN repose sur quatre bases (A, C, G et T), et la première étape consiste à convertir les 1 et les 0 du système binaire vers ces quatre lettres. La création d’une molécule d’ADN synthétisée permet de stocker ces données. Les recherches progressent sur le sujet. Plusieurs entreprises parviennent déjà à fabriquer de l’ADN synthétique. Microsoft a développé le premier système de stockage ADN automatisé : le mot « hello » a été encodé dans des molécules d’ADN et a pu être converti à nouveau en format binaire. L’entreprise Catalog a pu, quant à elle, stocker le contenu du site Wikipedia en anglais dans des molécules d’ADN à l’aide d’un appareil dont le fonctionnement est proche de celui d’une imprimante. Recourir à ce nouveau système de codage permettrait d’augmenter considérablement les volumes stockés. Ainsi, il serait possible de stocker 700 000 GB dans un seul gramme d’ADN. Par ailleurs, ce support possède une longévité incomparable. Dans des conditions de stockage optimales, celle-ci pourrait atteindre des millions d’années.

Want to write?

Write an article and join a growing community of more than 182,300 academics and researchers from 4,942 institutions.

Register now