Menu Close
Centre d'accueil et de recherche des Archives nationales. Salle de consultation. Wikipédia

Archiver le Web, un défi historique

Cet article est publié dans le cadre du Festival du Jeu de l’oie organisé par l’Université Aix Marseille, qui s’est tenu du 9 mai et au 22 juin 2019, et dont The Conversation France est partenaire. Retrouvez le programme complet sur le site de l’événement.


Qui n’a jamais été confronté à une erreur 404 indiquant qu’une page Web ne se trouve plus à l’adresse URL indiquée ? Comment, dans 50 ans, les chercheurs qui souhaiteront écrire l’histoire de la contestation des « gilets jaunes » à Marseille ou ailleurs auront-ils accès aux pages Facebook, aux tweets, aux blogs, aux articles de presse en ligne alors diffusés sur la Toile ou via les applications sur smartphone ?

La généralisation du Web dans les années 2000 ouvre pour les chercheurs en Sciences humaines et sociales des perspectives d’étude inédites grâce à des traces d’activité humaine en ligne considérées comme des nouveaux observables (autoportrait, conversations, etc.). Dès lors, la sociologie, les sciences de l’information et de la communication, les Science and Technology Studies, se sont attelées à décrypter les transformations induites par l’émergence de ce nouvel espace médiatique, tant dans les modes d’accès à l’information que dans les interactions entre les sociétés et les dispositifs techniques.

Du côté des historien·ne·s, des réflexions pionnières ont interpellé la profession dès la fin des années 1990 à l’image de Rolando Minuti qui, face à l’accessibilité croissante de ressources en ligne, invitait les historien·ne·s à « assumer une responsabilité forte et une fonction de guide culturel par rapport aux nouvelles technologies ».

Ces dernières années, de nombreux travaux se sont déployés autour de l’histoire au sein des Humanités numériques, mais les études historiographiques ayant pour objet d’étude l’évolution des pratiques ou des modes de représentation en ligne demeurent relativement rares par rapport aux autres sciences sociales, à l’exception de l’histoire des techniques et de l’innovation, courant précurseur en la matière.

Les contemporanéistes sont bien sûr les premiers concerné·e·s – la majorité des historien·ne·s travaillant souvent sur des périodes bien antérieures au Web – et notamment les spécialistes des périodes très contemporaines (depuis les années 1990) dans le cadre d’une histoire du temps présent. Pour qui s’intéresse à l’analyse du phénomène mémoriel, il s’agit de comprendre quelle relation les sociétés entretiennent avec leur passé, à l’image du travail emblématique d’Henri Rousso dans le Syndrome de Vichy. Dans le sillon de Pierre Nora, ces « historiens de la mémoire » mobilisent un large éventail de sources : textes, films, discours présidentiels, télévisions, dispositifs commémoratifs et patrimoniaux, ou encore reconstitutions historiques.

Cette grande diversité de matériaux est liée au fait que pour l’historien·ne toute trace du passé peut constituer une source soumise à l’analyse, « De Goya à Chantal Goya » selon l’heureuse formule de Pascal Ory. Les contenus publiés sur le Web ou sur les médias sociaux constituent donc une étape supplémentaire dans le long processus d’ouverture documentaire qui a marqué la discipline. Or, si pour les historiens des années 2000, les sources Web sont devenues incontournables, leur analyse constitue néanmoins un défi méthodologique du fait notamment des spécificités du « document numérique » et de la dimension computationnelle du Web.

Instabilité des contenus

Dans une perspective d’histoire de la mémoire et avec la volonté d’étudier les représentations du passé en ligne, j’ai commencé en 2011 un travail de doctorat sur les mémoires de l’immigration maghrébine sur le Web qui fut soutenu en 2015. Il s’agissait d’étudier les récits publics portant sur l’histoire des populations venues en France depuis l’Algérie, la Tunisie et le Maroc, mémoires largement perçues comme stigmatisées et clivantes du fait de l’intrication avec les mémoires coloniales et en particulier celles de la Guerre d’Indépendance algérienne (1954-1962).

L’objectif était de comprendre ce que changeait l’essor du Web depuis les années 1990 dans la façon dont ces mémoires étaient racontées et dans les interprétations qui en étaient faites, avec l’hypothèse de trouver des visions plus radicales et alternatives en ligne par rapport aux médias et aux productions culturelles de la période pré-Web. L’un des desseins de ce travail était aussi de s’interroger plus largement sur les conditions d’élaboration et de circulation de la connaissance historique à l’ère numérique. Le Web regorge en effet de productions historiques émanant de non-spécialistes à l’image des vidéastes qui réinventent les formes de mise en récit et peuvent éventuellement atteindre de nouveaux publics. Lors du festival Jeu de l’oie, j’ai par exemple proposé une analyse de deux vidéos réalisées par les YouTubeuses Chroniques de Prof et Virago concernant la Révolution française. Ces pratiques, tout en ouvrant des perspectives stimulantes, interrogent aussi le rôle de l’historien professionnel dans la société numérique.

Pour effectuer des recherches sur les mémoires de l’immigration maghrébine en ligne depuis le début des années 2000, il était nécessaire de disposer d’un corpus de sites Web, de blogs, de pages de médias sociaux, de vidéos stables tout en ayant la possibilité d’accéder aux anciennes versions de sites Web plus récents qui pouvaient avoir disparu de la Toile. S’il est bien sûr possible d’effectuer des captures d’écran, voire de collecter soi-même des données issues du Web, comment s’assurer de l’accessibilité du corpus à l’attention du lecteur – de surcroît lorsqu’il s’agit d’abord des membres du jury ?

À ce titre, l’instabilité des contenus diffusés en ligne qui sont des sources nativement numériques soulève de multiples difficultés d’analyse et d’exploitation. Depuis la fin du XIXe siècle, l’Histoire s’est affirmée comme une science sociale centrée sur l’analyse méthodique des documents (critique interne et externe). L’administration de la preuve se fonde depuis sur l’analyse des traces du passé, en lien avec une problématique de recherche, à laquelle l’historien apporte une réponse à travers l’écriture.

Dans le récit historique selon les termes de Marc Bloch dans Apologie pour l’histoire et le métier d’historien (1949) :

« Une affirmation n’a le droit de se produire qu’à la condition de pouvoir être vérifiée ; et pour un historien, s’il emploie un document, en indiquer le plus brièvement possible la provenance, c’est‑à‑dire le moyen de le retrouver, équivaut sans plus à se soumettre à une règle universelle de probité ».

La difficile citabilité des sources nativement numériques met donc également en jeu le contrat de vérité qui lie l’historien à son lecteur. Afin de s’en prémunir, nous avons pour habitude d’indiquer la dernière date de consultation du document mais, dans le cas où ces sources sont au cœur de l’analyse et ne sont plus en ligne au moment où le lecteur prend connaissance du travail de recherche, c’est l’ensemble de l’argumentation qui est fragilisé, questionnant ainsi plus largement la légitimité même des faits historiques avancés. Face à l’instabilité des contenus en ligne, une communauté de recherche a émergé ces dernières années autour de l’archivage du Web à l’image de l’infrastructure internationale RESAW qui regroupe des archivistes, des informaticien·ne·s et des chercheur·e·s en SHS.

L’historien·ne face aux archives du Web

En 1996, alors que le Net se démocratise États-Unis, l’informaticien Brewtser Kahle créé Internet Archive. Au moyen du logiciel Heritrix, la fondation collecte puis stocke des pages Web. La Wayback Machine, outil de consultation de ces archives, donnant ainsi accès, en ligne, aux anciennes versions des sites archivés avec parfois la possibilité de naviguer depuis un clique à partir la page d’accueil.

À partir de ce projet colossal suivent les initiatives pionnières en Europe comme au Danemark, puis en 2001, la Commission européenne demande aux États membres, à travers la circulaire DADVSI, de prendre les mesures nécessaires pour sauvegarder les traces numériques. En 2003, l’Unesco reconnaît le caractère patrimonial des contenus en ligne avec la Charte pour le patrimoine numérique (born digital heritage).

Au même moment en France, la BnF (Bibliothèque nationale de France) et l’Ina (Institut national de l’audiovisuel) expérimentent des modes de conservation dans la continuité de leurs collections : l’Ina, qui a depuis 1975 à en charge la préservation du patrimoine audiovisuel, commence à collecter les sites Web des chaînes de télévision tandis que la la BnF travaille sur les élections.

En 2006, la loi DADVSI est à l’origine du dépôt légal du Web français : les contenus en ligne du Web national sont archivés par l’Ina et la BnF selon les conditions fixées par la loi et aucun éditeur ne peut s’y opposer ; en retour, ces archives du Web français ne sont pas en ligne, elles ne sont accessibles que dans les espaces dédiés à la consultation. Les deux institutions sont membres de l’International Internet Preservation Consortium (IIPC) qui constitue un espace d’échanges de pratiques et de protocoles techniques dynamique, d’émulation entre chercheurs et archivistes.

Malgré ces initiatives ambitieuses et salutaires, non seulement le fait de parvenir à archiver l’exhaustivité des « Web nationaux » est impossible, mais en plus, le recours à ces versions archivées des sites Web n’est pas sans difficulté. Une page Web étant déjà le résultat d’une médiation de différents éléments ayant fait l’objet de traitements informatiques avant d’être publiés en ligne, la collecte, la sauvegarde et la consultation des archives du Web relève plus d’un processus de re-médiation, de re-création, que de la simple copie ou captation d’un flux.

Le processus peut entraîner des erreurs et il n’est pas aisé de savoir si la page Web telle qu’elle est archivées a bel et bien était réellement présente en ligne de façon identique à la même date. L’historien·ne doit donc redoubler de vigilance face à ce patrimoine numérique « re-créé » (re-born digital heritage). Malgré ces biais, le recours aux archives du Web ouvre un champ passionnant de réflexion à part entière, aussi bien concernant l’étude des usages en ligne dans les années 2000 que du côté des méthodes et de l’épistémologie de l’histoire, en lien avec le mouvement des Humanités numériques.

Want to write?

Write an article and join a growing community of more than 181,000 academics and researchers from 4,921 institutions.

Register now