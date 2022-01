Depuis les années 1990 et la création d’un dépôt légal du web, l’INA et la BNF collectent, conservent et rendent accessible l’Internet français. Issue d’une thèse, cette étude propose une analyse des enjeux mémoriels et historiques de l’archivage des sites Internet. Dans ces bonnes feuilles extraits de son dernier ouvrage, « Website story », Sophie Gebeil revient sur les défis que rencontrent les historien·ne·s face aux sources en ligne.

La généralisation d’Internet offre un vaste territoire d’exploration, mais prendre le Web comme source primaire induit une complexification des méthodes historiques. Du fait de leurs spécificités, les sources en ligne remettent en question les notions de matérialité et surtout de stabilité du document historique, aspect déterminant dans l’administration de la preuve et dans l’ontologie de la discipline.

Le premier obstacle est d’ordre méthodologique. Fondée sur la diplomatique, la critique documentaire constitue, depuis la fin du XIXe siècle, un fondement de la démarche historienne déclinée en quatre dimensions : la critique externe (la forme du document, en lien avec les sciences auxiliaires de l’histoire), la critique interne (le discours ou la représentation), la critique de provenance (point de vue et authenticité) et la critique de portée (destinataire).

« L’âge des fichiers » transforme les modalités de l’enquête et les termes mêmes de l’étude. Par exemple, la critique externe implique de cerner le dispositif de médiation, et donc nécessite une culture numérique minimale, tout comme l’analyse d’une archive télévisuelle nécessite une culture en matière de production audiovisuelle. De plus, la critique interne sur un corpus de données massives peut nécessiter le recours à des outils numériques (outils d’analyse lexicologique comme Iramuteq par exemple) au profit d’une « histoire par les données ». L’absence d’outil d’analyse adapté aux spécificités disciplinaires ne facilite pas l’appréhension d’Internet comme source. Outre ces freins, le Web brouille les critères d’identification du fait d’une forme d’opacité et de la démultiplication des sources disponibles en ligne. Ces défis, auxquels toutes les SHS sont confrontées, prennent une dimension particulière en histoire.

En effet, une deuxième difficulté est d’ordre ontologique et renvoie à la place du document dans la méthodologie historique. Le caractère « volatile », « fluide » des sources en ligne est unanimement rappelé par les cyber-historien·ne·s au début des années 2000, principalement à l’aune du modèle des sources manuscrites ou imprimées.

La dissociation entre l’information et son support permet la circulation des contenus qui sont par définition instables, bouleversant ainsi la conception de la source historique à laquelle est traditionnellement associée l’idée de matérialité du document. Selon les termes de Michel Foucault :

« [La formulation des actes] fait apparaître, sur un matériau quelconque et selon une forme déterminée, ce groupe de signes : la formulation est un événement qui, en droit au moins, est toujours repérable selon des coordonnées spatio-temporelles, qui peut toujours être rapporté à un auteur, et qui éventuellement peut constituer par elle-même un acte spécifique… »

La matérialité des traces laissées par l’activité humaine est aussi associée à l’élaboration des faits historiques chez Marc Bloch évoquant les « matériaux fournis par les générations passées » sur lesquels les historien·ne·s s’appuient. L’analyse des sources inclut d’ailleurs l’étude du support matériel en relation avec les sciences auxiliaires de l’histoire, comme l’épigraphie par exemple, permettant de cerner les modalités d’élaboration du document. Or, comme l’expliquent Frédéric Clavert et Serge Noiret :

« Les sources primaires ne sont souvent plus reliées au contexte matériel qui leur faisait “prendre sens” et les validait dans leurs contextes : dans le monde numérique, un des grands problèmes est certainement celui de l’individuation des contextes signifiants, ce que les philologues appellent l’histoire de la construction des textes et des documents. »

La dissociation entre l’information et son support invite donc à repenser la notion de traces en y intégrant la dimension numérique et interconnectée. Cependant les historien·ne·s des médias savent bien que le caractère « immatériel » des sources ne concerne pas seulement les documents issus du Web. Bruno Bachimont a en effet montré comment les « médium technologiques » (sources audiovisuelles) avaient déjà, dans leur format analogique, entraîné une dissociation entre le support d’enregistrement (par exemple la bobine d’un film) et la forme de restitution (écran de la salle de cinéma).

À cette première étape de « déconstruction du document », s’est ajoutée la numérisation des sources audiovisuelles, à l’image de la télévision qui est aujourd’hui un média de flux digital. La dématérialisation des sources n’est donc pas inédite, en particulier pour les historien·ne·s des médias, mais le numérique induit un changement de paradigme documentaire caractérisé par la « re-construction ».

Par rapport aux sources audiovisuelles, les sources en ligne sont l’objet d’une instabilité plus importante car elles s’inscrivent dans un environnement en mouvement qui évolue au gré des interactions émanant des acteur·rice·s de la Toile : en consultant une page Web, l’usager traite une actualisation du document à un instant donné, dans un processus de modification constant et de reconstruction à partir de ressources multiples.

De surcroît, ce phénomène de « mutation vers des textes fluides, soumis à des changements continus 3 », s’effectue dans une temporalité de plus en plus brève qui s’accorde mal avec les impératifs de la recherche historique fondée sur un corpus documentaire stable.

À la modularité des contenus en ligne s’ajoute leur mobilité sur le réseau. En 2011, Brewster Kahle (fondateur d’Internet Archive) estimait que la durée de vie, en moyenne, d’une page web avant qu’elle ne soit supprimée ou modifiée était de 100 jours. S’il est en réalité difficile de mesurer statistiquement le phénomène, la volatilité des contenus demeure un frein fondamental à la constitution d’un corpus nativement numérique dans une perspective historique car elle remet en cause la stabilité et la pérennisation des sources.

Cette instabilité contraste avec le sentiment d’accessibilité qui prévaut dans l’usage, y compris lorsqu’il s’agit de citer des pages Web dans un travail de recherche. En effet, contrairement à la télévision numérique diffusée en direct pour laquelle l’usager sait qu’il ne disposera que d’un temps limité pour capter l’émission via un enregistrement, ou un accès différé en streaming, les sources en ligne sont encore trop souvent mobilisées au prisme du mirage de l’accessibilité.

D’ailleurs, l’un des réflexes après avoir raté une émission diffusée à la télévision est d’éventuellement la retrouver en ligne. L’indication, en note infrapaginale, de l’adresse URL exacte du document utilisé ne garantit pas la possibilité de consulter l’information citée pour la lectrice ou le lecteur. C’est d’ailleurs pour cette raison qu’il est de coutume de se prémunir en indiquant la date de dernière consultation.

Au-delà de la désagréable sensation générée par l’affichage d’une « erreur 404 » indiquant que la demande ne peut aboutir, cela brise le « contrat de vérité » qui lie l’historien·ne et son destinataire. En effet, l’historien·ne, dans son travail « d’objectivation documentaire » est tenu « de répondre à la confiance que lui accorde son lecteur ». Comme le soulignait March Bloch, la citation des sources utilisées en notes infrapaginales s’inscrit dès lors dans l’établissement de la preuve et offre la possibilité au lecteur·rice de pouvoir consulter le matériau de l’historien·ne. Le lien « brisé », à cause d’une adresse URL qui n’est plus valable rend caducs les faits établis à partir des documents cités.

La possibilité de vérifier les sources énoncées est un point fondamental de l’administration de la preuve au sein de la discipline.

Une première parade réside dans les dispositifs personnels de sauvegarde (captures d’écran, collecte personnelle via API, etc.). Cependant, ces procédés n’en garantissent pas la pérennisation et ne permettent pas au futur lecteur de consulter la totalité des sources convoquées. Le caractère volatil des sources n’est pas une nouveauté en soi, une bobine filmique peut par exemple brûler ou se dégrader.

En régime numérique, la malléabilité des sources est non seulement généralisée, mais en plus, leur caractère hyperlié en limite la possibilité d’identification dans le temps malgré une apparente traçabilité. L’instabilité des contenus constitue donc un frein majeur à leur historicisation, comme le résume ici Serge Noiret :

« Le digital turn a rendu précaire un certain nombre de concepts chers aux historiens comme celui de la pérennité des sources et de la capacité de reproduire dans le temps une analyse qui s’y réfère […]. La permanence et la conservation des informations dans la Toile est ainsi un problème central de son utilisation scientifique. »

En l’absence de « mise en archive » du Web, les sources nativement numériques agissent comme un mirage : elles sont facilement accessibles, consultables en ligne, il semble aisé d’en sauvegarder une trace, mais leur instabilité a pour conséquence une « citabilité » fragile et problématique qui rend leur appréhension comme source historique complexe.

Face à ces défis, les archives du Web sont indispensables pour les historien·ne·s du très contemporain car elles permettent de stabiliser des corpus et de retrouver des traces qui ne sont plus accessibles sur le Web aujourd’hui. Néanmoins leur exploitation impose de multiples précautions et instaure un nouveau rapport à l’archive.

Quand l’historien·ne rencontre les archives du Web

« Pour que toute la procédure historiographique garde la possibilité de vérifier, de contester, et qu’elle maintienne en dernier lieu, son fondement scientifique propre au savoir historique, il faut que les documents et les témoignages qui constituent la base de ce travail demeurent identifiables, stables et inaltérables, et comme tels, susceptibles d’être analysés, critiqués et interprétés […]. Comment donc faire en sorte qu’un matériel documentaire qui par nature tend à la variabilité et au mouvement, devienne stable ? »

L’interrogation ici exprimée par Rolando Minuti rend compte des obstacles à l’analyse des sources en ligne du fait de leur instabilité. Opération essentielle de la démarche historienne, l’accès aux archives conditionne la recherche.

La démocratisation du Web s’est accompagnée de l’émergence d’initiatives visant à préserver les contenus en ligne, à l’image de la fondation d’Internet Archive (IA)aux États-Unis en 1996.

Depuis, les archives du Web constituent un objet de recherche interdisciplinaire particulièrement dynamique. Après un rapide historique de l’essor de l’archivage du Web depuis les années1990, il s’agira de s’immiscer dans la « boîte noire » de l’archivage du Web pour mieux en comprendre le cadre juridique et le fonctionnement, en particulier celles d’IA, de la BnF et de l’INA.

À ces éléments d’ordre général succédera un retour d’expérience de la consultation de ces trois archives du Web qui permet d’en cerner les limites. Cette pratique impose enfin une réflexion épistémologique sur le nouveau rapport qui s’instaure entre l’historien·ne et l’archive.

A lire : « Website story. Histoire, mémoires et archives du web », Sophie Gebeil, INA, étude et controverses, 2021.