Édition GAFAM et édition savante : une bataille en cours ?

Je suis né à la toute fin des années 1970. Je fais donc partie d’une génération qui a passé son enfance sans le web et qui l’a découvert petit à petit, en s’étonnant devant les possibilités qu’il offrait. Mon enfance, comme celle de toute ma génération ainsi que d’innombrables générations auparavant, a été marquée par la place presque unique du livre pour l’apprentissage. En une phrase : si tu veux savoir quelque chose, cherche-le dans un livre.

Cette espèce de tautologie était devenue une blague que l’on faisait souvent dans ma famille pour se moquer de mon père. Un jour, plein d’enthousiasme pour le jardin de notre nouvelle maison qui me donnait envie de construire quelque chose, je lui avais demandé : « Papa, sais-tu comment on construit une palissade ? » Mon père avait répondu : « Bien sûr ! » et ma mère, pour le provoquer : « ah oui ? Et comment ? » ; « On achète un livre ! » avait conclu mon père.

Cherche-le sur Google

Le réflexe qui consiste à chercher toute sorte de savoir dans les livres ne pourrait sembler plus lointain aujourd’hui. Si ma fille me demandait désormais comment construire une palissade, je lui répondrais évidemment : « Cherchons-le sur Google ». Et les chances qu’elle me pose un jour cette question sont assez minces : elle pourra tranquillement trouver la réponse toute seule, avant de me la poser.

« Just Google it ! » Ce changement entraîne une série d’implications très importantes : notre curiosité – à la fois notre façon de nous poser des questions et d’y répondre – n’est plus la même, les dispositifs d’autorité sont reconfigurés (papa en saura toujours moins que Google), de même que notre relation vis-à-vis de la valeur de l’information et du pouvoir de ceux qui la possèdent. Mais ce n’est pas de ces sujets que je veux m’occuper ici. Je voudrais plutôt me concentrer sur les types de connaissance qui circulent sur le web, pour essayer de les distinguer en deux macro-catégories.

Les deux voies de la diffusion de contenus

On peut identifier deux tendances contradictoires dans les manières de produire et de faire circuler des contenus sur le web : celle qui est typique des grandes multinationales du numérique – on pourrait l’appeler « édition GAFAM » en utilisant l’acronyme qui renvoie aux cinq géants Google, Amazon, Facebook, Apple et Microsoft, mais qui signifie par extension l’ensemble des grandes entreprises dominant le marché numérique – et celle des spécialistes, des professionnels de l’édition et des chercheurs – qu’on nommera ici « édition savante ».

Cette distinction est sûrement comparable à celle qui existait déjà avant le web entre différents types d’édition papier. Il y a toujours eu une différence, par exemple entre les livres savants, réservés à un nombre très limité de personnes, complexes et tirés en peu d’exemplaires, et l’édition généraliste, conçue pour s’adresser à un grand marché de non-spécialistes. Mais la polarité entre deux formes d’édition dans la circulation numérique a ses caractéristiques spécifiques, et il me semble important de les identifier et de les souligner, car elles impliquent une série d’enjeux politiques, sociaux et culturels dont nous ne sommes pas encore assez conscients.

Nous étions habitués à distinguer différentes formes de publication papier, à reconnaître leurs systèmes de distribution, leur apparence – même graphique – leurs lieux de consultation… Nous le sommes beaucoup moins dans le cas de l’édition numérique, dont les frontières sont moins familières et moins facilement traçables.

L’édition GAFAM

Ce que j’appelle « édition GAFAM » est la forme de circulation de contenus qui occupe la plus large partie de nos expériences numériques. Justement, si je veux savoir comment on construit une palissade, ou comment on rôtit un gigot d’agneau, ou qui était le président des États-Unis en 1945, ou quels acteurs jouaient dans le dernier film de Woody Allen ou encore où se trouve exactement Paris dans le Texas… je le cherche d’abord sur Google – comme environ 80 % des usagers – pour ensuite tomber sur une plateforme qui me donne la réponse (un blogue wordpress, le site de IMDB, Wikipédia – qui fait en partie exception –, Google Maps…). C’est la philosophie de structuration des contenus de ces plateformes que je considère de façon unitaire – en faisant pour le moment abstraction des différences – et que j’appelle « édition GAFAM ».

On peut identifier un certain nombre de principes communs à cette philosophie :

1. L’édition GAFAM d’abord est caractérisée par le fait d’être basée sur les données davantage que sur les documents : ce qui intéresse les entreprises commerciales est de récupérer des informations, peu importe leur structure et leur sens. Des informations, même très fragmentées, peuvent avoir un intérêt et une valeur de marché. Le contexte de l’information n’est donc pas une priorité : d’où le fait qu’au lieu que rechercher des ensembles structurés d’informations, avec un contexte clair – un document – on privilégie des morceaux d’information décontextualisés – des données.

Par exemple : ce texte contient l’information selon laquelle il y a deux types d’édition sur le web. On peut isoler et décontextualiser cette information pour la considérer comme une donnée. Ce faisant on a l’avantage de pouvoir utiliser une affirmation qui dit quelque chose (« il y a deux types d’édition »). Mais cela présente l’inconvénient de ne pas dire que cette affirmation a, par exemple, été exprimée par un certain auteur, dans le contexte d’un billet de blogue et dans le cadre d’un discours particulier. L’ensemble du texte, avec sa date, son auteur, son lieu de publication, son style etc. est le document. L’idée est de pouvoir répondre à une question avec une réponse : qui était le président des États-Unis en 1945 ? Franklin D. Roosevelt. C’est une donnée.

2. De la centralité de la donnée dérive une certaine aspiration à l’unité : pour une question, il doit y avoir une seule réponse. La tendance de l’édition GAFAM à l’unicité apparaît bien dans l’idée du « meilleur » restaurant sur Tripadvisor ou du résultat le plus pertinent sur Google. Elle s’accompagne d’une idéologie de l’objectivité de la donnée qui, associée à la force de calcul, garantirait l’objectivité et l’unicité de la réponse.

3. Les informations qui intéressent l’édition GAFAM ne doivent en outre pas nécessairement être validées, car c’est leur masse qui est précieuse d’un point de vue économique. Plus l’on peut récupérer des informations, mieux cela répond aux besoins du modèle économique. Dans ce sens, il est fondamental d’attirer un nombre très élevé d’utilisateurs. Par exemple : pour faire une recherche sur Google, il ne faut taper que quelques mots dans le seul champ présent sur la page ; ces mots peuvent même contenir des erreurs, Google devinera ce que vous voulez dire.

Pour envoyer un commentaire sur Amazon, il suffira de quelques clics, peu importe s’il y a des erreurs. Quand on oblige l’usager à donner des informations complètes et correctes, on réduit les utilisations, car certains usagers seront découragés par le travail demandé. Le principe inhérent à l’édition GAFAM consiste à exploiter la moindre trace, même celle qui sera laissée de façon involontaire, comme une information potentiellement utile.

4. L’édition GAFAM doit donc être simple (friendly) quitte à être superficielle. Pour attirer des usagers et obtenir le plus de contenus possibles, il ne faut demander à l’internaute peu voire pas d’efforts ni de compétences : un seul champ à remplir, une ou deux cases à cocher, un ou deux clics, une interface simple et avec peu de fonctionnalités apparentes, aucun apprentissage ou littéracie préalables.

5. Son fonctionnement doit être opaque, car l’utilisateur ne doit pas se poser de trop de questions sur la technique qu’il utilise – l’exemple le plus évident étant celui des interfaces Apple. Avoir accès aux mécanismes risque de rendre l’usage plus compliqué, mais aussi de mettre l’utilisateur dans la position de « faire des dégâts » qui lui empêcheront par la suite de continuer son activité. L’usager doit donc comprendre le moins possible le fonctionnement du dispositif, il doit être le plus loin possible des mécanismes de la machine. Aucune configuration poussée ne doit être disponible.

6. Elle doit être efficace et répondre aux pratiques les plus communes. Elle évolue donc rapidement pour rencontrer les besoins et les désirs d’un large public. L’efficacité est le premier impératif et tous les autres besoins y sont soumis. Répondre aux pratiques signifie aussi limiter les investissements dans des systèmes ou des fonctionnalités qui seraient exploités seulement par une minorité.

L’édition savante

À l’opposé, on trouve l’édition savante qui compte sur un bassin d’usagers évidemment incomparablement plus limité et qui est destiné à un public très restreint en comparaison de public généraliste ciblé par l’édition GAFAM. Voici certaines de ses caractéristiques :

1. Elle produit des documents – et non seulement des données – qui déclarent de façon transparente leur structure et leur fonctionnement. Une des idées de base de l’édition savante est de considérer qu’il n’y a pas d’information objective et que la compréhension de chaque information n’est possible qu’à partir de son contexte.

2. L’édition savante est donc par définition plurielle. Il n’y a pas la réponse à une question, il y en a plusieurs selon le contexte. L’exemple de la question : « qui était le président des États-Unis en 1945 ? » est significatif. Franklin D. Roosevelt l’a été en effet jusqu’à avril. Truman lui a ensuite succédé. Même dans des situations où l’objectivité paraît évidente (Roosvelt était ou n’était pas président en 1945), la réalité est plus complexe et ne peut être réduite à des données.

3. Le premier objectif de l’édition savante est d’être structurée et validée par des dispositifs de légitimation clairs et bien fondés. C’est l’idée, notamment, du format XML – dont je reparlerai plus tard. Un document n’est compréhensible que s’il est basé sur une structure connue et si l’on est capable de vérifier sa cohérence par rapport à cette structure. L’édition savante est donc régie par les impératifs de la validation.

On ne peut pas publier n’importe quel fragment d’information, il y a des informations qui sont nécessaires et sans lesquelles il n’y a pas de document. Un formulaire ne peut pas, par exemple, être laissé à moitié vide – ce qui demande donc aux usagers un effort plus important et qui détermine le risque de décourager le grand public –, mais aussi, parfois les chercheurs eux-mêmes.

4. L’édition savante est donc riche, très complexe. Elle est faite de plusieurs informations mises en relation entre elles. Cela implique que les dispositifs de production ne sont pas toujours simples – et très rarement friendly. Par ailleurs, le fait qu’il y ait moins de possibilités financières – car il y a un public plus restreint – implique que les investissements sur les plateformes sont moins importants que dans le cas de l’édition GAFAM. Baliser un texte en XML n’est pas simple, par exemple. Mais aussi, comprendre tous les champs à remplir dans un formulaire de dépôt de textes en ligne – comme HAL – demande des compétences assez poussées.

5. La conséquence est que l’édition savante demande une forte conscience technique de l’utilisateur – qui se transforme facilement en conscience des enjeux politiques liés à la circulation des contenus. Le dispositif de publication ne doit pas être opaque, car la compréhension de sa structure est nécessaire à la correcte production des contenus.

6. Cela rend l’édition savante plus compliquée pour l’utilisateur, ce qui l’expose au risque d’être moins efficace et plus lourde. Cela implique aussi qu’elle demande forcement plus de temps et qu’elle ne réponde pas forcement aux exigences qui émergent des pratiques communes.

Désaffection, vieillissement et batailles de formats

Le grand problème de cette forme d’édition est donc qu’elle s’éloigne souvent des pratiques réelles – et non seulement des pratiques du grand public, mais aussi des pratiques des chercheurs, qui préfèrent – comme plusieurs études le démontrent – utiliser aussi pour leur recherche des outils grand public – par exemple Google search comme moteur de recherche plutôt que des moteurs sémantiques destinés spécifiquement aux besoins de la recherche.

Le manque de pratiques engendre un effet de désaffectation des plateformes qui pousse les producteurs à ne plus en les maintenir. Pourquoi, par exemple, continuer à produire des contenus bien balisés en XML, si ensuite aucun chercheur n’utilise la richesse de ces données et se contente des recherches qu’il peut mener avec Google ?

La bataille entre le format JSON et le format XML est une bonne exemplification de cette opposition entre ces deux types d’édition : d’une part un format de balisage plat, simple, léger, mais très peu structuré et non validé, et de l’autre un format très riche, plus complexe, validé, mais qui produit parfois des informations très peu exploitées par les utilisateurs. Le JSON est un format de balisage développé dans les environnements Javascript qui ne demande pas une structure prédéfinie ni un schéma de validation. Il est significatif que la plupart des informaticiens considèrent que l’XML et désormais « démodé » et « ringard ». Le JSON a tendance à le remplacer. Mais le JSON ne permet pas la complexité et la richesse typiques d’XML.

Or, le problème dans cette opposition est que les pratiques savantes ont tendance à s’uniformiser par rapport aux pratiques GAFAM : d’une part parce que les chercheurs n’ont pas les compétences techniques suffisantes et de l’autre parce que les informaticiens qui développent les outils n’ont pas une sensibilité suffisante aux enjeux qui devraient intéresser les chercheurs.

Chercheurs, prenez votre édition en main

Le fait de penser que les questions techniques peuvent être laissées aux informaticiens – surtout en sciences humaines – commence donc à avoir des effets néfastes.

Le problème ne vient pas, à mon avis, des géants de l’édition GAFAM, mais du manque de conscience des chercheurs qui devraient être intéressés par l’édition savante.

Il est urgent d’agir dans ce domaine, si nous voulons préserver la possibilité d’une alternative à la circulation de contenus proposée par les grandes multinationales du web. Pour ce faire, il est nécessaire d’intégrer l’idée que les enjeux techniques sont inséparables des enjeux intellectuels.

La production de la plupart des contenus avec des logiciels comme Word, ainsi que la progressive disparition des pratiques de recherche savantes – et le fait que la plupart des chercheurs uniformisent leurs pratiques de recherche sur le modèle de l’édition GAFAM, notamment en utilisant Google comme moteur de recherche – sont deux des grands problèmes à résoudre avec urgence.

Il faut donc…

1. En premier lieu, mener d’importantes opérations de sensibilisation à ces enjeux auprès des chercheurs. C’est ce que fait, par exemple, en France la TGIR Huma-Num, qui est chargée de faire le pont entre les chercheurs en sciences humaines et les possibilités informatiques pour garantir de bonnes pratiques. Une structure de ce type manque au Canada, ce qui produit une rupture préoccupante entre des chercheurs compétents techniquement – notamment les chercheurs en humanités numériques – et les chercheurs en sciences humaines qui continuent pour la plupart à ignorer ce type d’enjeux.

2. En second lieu, penser et produire des outils qui rendent plus accessibles pour les chercheurs les technologies de l’édition savante. Dans le cadre de la Chaire de recherche sur les écritures numériques dont je suis le titulaire, par exemple, nous sommes en train de développer, en collaboration avec Érudit, un éditeur de texte – Stylo – qui permet un balisage sémantique poussé des contenus, sans demander aucune compétence technique particulière de la part des chercheurs.

Nous sommes à un moment clé pour le futur de la production, de la circulation et de la validation des contenus : notre responsabilité est très importante. Il faut dédier nos énergies à la formation des jeunes chercheurs et à la sensibilisation des chercheurs affirmés. Négliger cette urgence impliquerait un risque de disparition des formes savantes et un futur où il n’y aurait plus qu’un seul modèle de publication, régi par des exigences qui sont très lointaines des préoccupations qui ont caractérisé depuis des siècles le monde de la recherche.

Culture numérique

Édition GAFAM et édition savante : une bataille en cours ?

Author

Disclosure statement

Partners