mégadonnées – The Conversation

« L’envers des mots » : Intelligence artificielle générative

2024-01-21T14:40:05Z

L’Intelligence artificielle (IA) générative est une spécialisation récente de l’Intelligence artificielle. On définit l’intelligence artificielle comme la conception de programmes informatiques capables d’accomplir des tâches impliquant normalement l’intelligence humaine (tout ce qui se rapporte à la parole, à l’analyse d’images, à l’élaboration de stratégie dans des jeux, etc.).

Des progrès récents ont été faits dans la production de textes, d’images, de vidéos ou de musique. On parle alors d’intelligence artificielle générative (AIG) car les programmes informatiques liés (et les algorithmes, c’est-à-dire les suites d’instructions derrière les programmes) « génèrent » du texte, des images ou du son.

Il n’y a pas d’opposition stricte entre intelligence artificielle (IA) et intelligence artificielle générative (IAG) car il a existé des systèmes capables de produire du texte ou des images presque depuis les débuts de l’IA (ou, à tout le moins, des recherches sur ces thèmes). La nouveauté principale est la qualité, la diversité et plus globalement le réalisme des résultats obtenus avec les systèmes récents (textes pertinents et cohérents, images plus vraies que nature, etc.).

Cette brusque amélioration est due à plusieurs éléments. Le premier point, essentiel, est l’accès à des ensembles de données gigantesques (des milliards de textes ou d’images, par exemple) qui permettent aux systèmes d’avoir des montagnes d’exemples pour produire de nouveaux textes ou images réalistes, sans être simplement des copies de données existantes.

Pour le reste, on dispose aujourd’hui, d’une part, de l’augmentation astronomique de la puissance de calcul des ordinateurs (grâce aux puces de type GPU, qui permettent de faire extrêmement rapidement les calculs à la base des techniques utilisées pour ce type de système), de l’autre de nouveaux algorithmes (dits d’apprentissage profond), qui permettent une analyse très fine des données observées, de les comparer et de les combiner pour produire des contenus nouveaux.

Ces systèmes peuvent ensuite être spécialisés par rapport à des tâches précises. Par exemple, un outil comme ChatGPT peut répondre de façon précise à des questions tout-venant : il s’agit donc toujours de générer du texte, mais de le faire de façon pertinente en fonction d’une question posée (ce qu’on appelle parfois le prompt). Le générateur de texte brut est le modèle GPT, et celui-ci est encapsulé dans un autre modèle gérant le dialogue, pour former l’application ChatGPT.

Le réalisme des résultats a impressionné ces dernières années. C’est aussi un des problèmes majeurs que posent ces techniques : à partir du moment où les textes, les images et les vidéos peuvent être confondus avec la réalité, l’intelligence artificielle générative (AGI) pose d’importantes questions pratiques et éthiques. Elle peut être une source majeure de désinformation (de production de fake news) par exemple.

Une solution parfois proposée est de marquer automatiquement (en anglais « watermark ») les textes ou les images produites par des IA, mais il y aura toujours des systèmes pouvant produire des sorties non estampillées. La régulation de ce type de systèmes est une question ouverte à l’heure actuelle.

Enfin, on entend aussi parler de beaucoup de types d’IA, qui peuvent se recouper ou non, comme l’IA prédictive ou l’IA créative. Le terme IA créative (qui recouvre, en gros, l’IAG) est à éviter car les IA ne font que modifier et recombiner des fragments (de texte ou d’image) existants. L’IA prédictive est une IA plus classique, visant à évaluer la probabilité qu’un événement se produise (un crime à tel endroit par exemple). S’il peut y avoir des similarités avec l’intelligence artificielle générative (AIG) au niveau des méthodes employées, la finalité des deux types de systèmes n’est généralement pas la même.

Cet article s’intègre dans la série « L’envers des mots », consacrée à la façon dont notre vocabulaire s’étoffe, s’adapte à mesure que des questions de société émergent et que de nouveaux défis s’imposent aux sciences et technologies. Des termes qu’on croyait déjà bien connaître s’enrichissent de significations inédites, des mots récemment créés entrent dans le dictionnaire. D’où viennent-ils ? En quoi nous permettent-ils de bien saisir les nuances d’un monde qui se transforme ?

De « validisme » à « silencier », de « bifurquer » à « dégenrer », nos chercheurs s’arrêtent sur ces néologismes pour nous aider à mieux les comprendre, et donc mieux participer au débat public. À découvrir aussi dans cette série :

Thierry Poibeau est membre de l'Institut 3IA Prairie (Paris AI Research Institute) et a reçu des financements à ce titre.

Analyser les données en temps réel : l'exemple de Gemini, le nouveau système d'IA de Google

2023-12-15T13:16:09Z

Rafapress / Shutterstock

Google a lancé Gemini, un nouveau système d’intelligence artificielle (IA), qui peut apparemment comprendre différents types de sollicitations (prompt) et en parler intelligemment : images, texte, parole, musique, code informatique, entre autres.

Ce type de système d’IA est connu sous le nom de « modèle multimodal ». C’est une avancée notable par rapport aux systèmes d’IA précédents, qui se contentaient de traiter du texte ou des images.

On entrevoit ici une des probables prochaines étapes pour les technologies d’intelligence artificielle : être capable d’analyser et de répondre en temps réel à des informations provenant du monde extérieur.

Bien que les capacités de Gemini ne soient peut-être pas aussi avancées qu’elles le semblent dans la vidéo virale qui a été éditée à partir d’un texte soigneusement sélectionné et d’images fixes, il est clair que les systèmes d’IA progressent rapidement. Ils se dirigent vers une capacité à gérer des entrées et des sorties de plus en plus complexes.

De fait, pour développer de nouvelles capacités, les systèmes d’IA dépendent fortement du type de « données d’entraînement » auxquelles ils ont accès. Les données d’entraînement sont précisément ce qui leur permet d’améliorer la façon dont ils réalisent des tâches, et notamment d’inférer des informations – ce qui sert à reconnaître un visage et à rédiger des dissertations.

À l’heure actuelle, les données sur lesquelles des entreprises telles que Google, OpenAI, Meta et d’autres entraînent leurs modèles proviennent encore principalement d’informations numérisées sur Internet.

Toutefois, des efforts sont déployés pour élargir radicalement le champ des données sur lesquelles l’IA peut travailler. Par exemple, en utilisant des caméras, des micros et d’autres capteurs et détecteurs allumés en permanence, il serait possible de permettre à une IA de savoir ce qui se passe dans le monde, au moment où cela se produit.

Utiliser des données acquises en temps réel

Le nouveau système Gemini de Google peut interpréter et utiliser des contenus « en temps réel » – vidéos en direct ou discours proférés par des humains par exemple. Avec ce nouveau type de données acquises en permanence par des capteurs, l’IA devrait être en mesure d’observer, de discuter, et d’agir sur les événements du monde réel.

L’exemple le plus simple est celui des voitures autonomes, qui collectent déjà d’énormes quantités de données lorsqu’elles roulent sur les routes. Les données qu’elles collectent aboutissent sur les serveurs des fabricants automobiles. Là, elles sont utilisées pour la conduite du véhicule sur le moment, mais aussi, sur le long terme, pour construire des modèles informatiques de situations de conduite, qui pourraient contribuer à améliorer la fluidité du trafic ou à identifier les comportements suspects ou criminels.

Pour les voitures autonomes, les données en temps réel sont primordiales. Tada Images/Shutterstock

À la maison, les détecteurs de mouvement (pour les lumières par exemple), les assistants vocaux (Alexa, Siri…) et les caméras de surveillance sont déjà utilisés pour détecter notre activité… et analyser nos habitudes. D’autres appareils « intelligents » apparaissent constamment sur le marché. Certaines utilisations peuvent déjà sembler familières, comme l’optimisation du chauffage pour une meilleure utilisation de l’énergie, mais l’analyse des habitudes de vie ne fait que commencer.

Cela signifie qu’une IA disposerait des données pour à la fois déduire ce qui se passe dans la maison, et pour prédire ce qui s’y passera à l’avenir. Ces données pourraient alors être utilisées, par exemple, par des médecins pour détecter les premiers signes de pathologies, comme le diabète ou la démence. Mais aussi pour recommander des changements de mode de vie et en assurer le suivi.

Pour l’IA, ces données constituent une fenêtre sur le monde réel – plus elle accumulera de connaissances sur celui-ci, plus elle pourra nous accompagner au quotidien. À l’épicerie, je pourrai discuter des meilleurs ingrédients, ou des plus économiques, pour le repas du soir. Au travail, l’IA pourra me rappeler les noms de mes clients lors d’une réunion, leurs centres d’intérêt, et me suggérer la meilleure façon de décrocher un contrat. Lors d’un voyage dans un pays étranger, elle pourra discuter des attraits touristiques locaux tout en gardant un œil sur des dangers potentiels.

Implications en matière de protection de la vie privée

On le voit, il y a de nombreuses opportunités qui viennent avec ces futurs progrès, mais il existe également des risques de débordement et d’intrusion dans la vie privée des citoyens. Jusqu’à présent, les utilisateurs ont accepté massivement les technologies permettant d’échanger une quantité stupéfiante d’informations personnelles en échange de l’accès à des produits gratuits, réseaux sociaux et moteurs de recherche en tête.

À l’avenir, ce compromis sera de plus en plus important et potentiellement plus dangereux, car l’IA apprendra à nous connaître et à nous aider dans tous les aspects de la vie quotidienne.

Sans garde-fous, l’industrie du numérique continuera à étendre sa collecte de données à tous les aspects de la vie, même hors ligne. Les décideurs politiques doivent comprendre ce nouveau paysage et s’assurer que les avantages compensent les risques. Ils devront surveiller non seulement la puissance et l’omniprésence des nouveaux modèles d’IA, mais aussi les données qui sont collectées et utilisées.

Lars Erik Holmquist a reçu des financements du Wolfson Research Merit Award de la Royal Society.

Jumeaux numériques : comment ces avatars modifient la gestion des territoires

2023-10-11T17:22:54Z

Les villes et les régions utilisent de plus en plus de données numériques pour améliorer la gestion de leur territoire. Par exemple, la ville de Gothenburg, en Suède, a créé son jumeau numérique pour gérer les transports, l’eau et l’énergie. Le jumeau numérique est utilisé pour simuler différents scénarios et améliorer les infrastructures urbaines.

Les jumeaux numériques sont des représentations numériques de territoires donnés, créées à partir de données collectées en temps réel et traitées par des algorithmes. Ils participent à la transformation des modes de gestion des territoires en participant à accélérer la compréhension d’une situation et la prise de décision. Il s’agit de « copies » virtuelles et interactives d’espaces géographiques réels qui intègrent des informations sur l’urbanisme, l’environnement, la gestion des services publics notamment – d’où le terme de « jumeaux ».

Cette pratique numérique s’étend aujourd’hui à des territoires plus petits qui se distinguent des villes par des approches plus participatives dès la conception. Le village de Cozzano en Corse, entouré de montagnes et de forêts, accueille 300 habitants et vise à devenir une zone à énergie positive grâce à l’utilisation de sources d’énergie renouvelables telles que la biomasse, l’hydroélectricité et le solaire. Un projet qui repose sur la création du smart village de Cozzano, « jumeau numérique » collectant les données sur l’environnement et les activités du village (agriculture, élevage, risques, etc.), permettant de les stocker, les analyser et surtout de prédire l’état des ressources (énergie, eau, déchets) afin d’en assurer une gestion efficace. Cet outil, lancé en 2017 et développé grâce à l’implication des habitants, qui agissent et visualisent des informations du village au travers d’interfaces sur un navigateur web et des réseaux sociaux, est devenu essentiel pour la transition énergétique du village et les interactions sociales.

Mieux gérer les territoires sur le long terme

Les jumeaux numériques sont très souvent mis à profit pour expérimenter divers scénarios et anticiper des situations.

En particulier, la gestion de la logistique urbaine est touchée par l’apport du numérique, à l’instar de la métropole de Rennes qui a conçu en collaboration avec Dassault Systèmes son jumeau numérique dans le but de mieux comprendre les flux de circulation urbaine, d’optimiser les infrastructures de transport et d’anticiper les répercussions des projets de construction.

Dans le domaine du ramassage des déchets par tournée, un jumeau numérique permet de visualiser de manière détaillée les différentes zones de ramassage, leurs horaires, ainsi que les types de déchets collectés afin d’optimiser les itinéraires des camions de collecte, comme à Chatou par exemple.

Enfin, le réseau de distribution d’eau de la métropole de Valence, en Espagne, est désormais géré grâce à un des rares jumeaux numériques de cette envergure au monde.

Anticiper la gestion de crises

Le jumeau numérique du territoire offre également la possibilité de réaliser des simulations en matière de gestion de crise et d’alerte, afin de préparer et planifier des réponses appropriées. Ainsi, les acteurs humains d’un territoire (citoyens, décideurs, élus, milieux associatifs, professionnels et pouvoirs publics) peuvent obtenir des informations rapidement pour prendre leurs décisions.

[Plus de 85 000 lecteurs font confiance aux newsletters de The Conversation pour mieux comprendre les grands enjeux du monde. Abonnez-vous aujourd’hui]

Ainsi, des capteurs de la qualité de l’air peuvent nourrir de données un jumeau numérique, ce qui permet de prendre des mesures préventives, comme dans la Vallée des Gaves dans les Pyrénées.

La ville de Grenoble utilise un jumeau numérique pour gérer les risques d’inondation dans la plaine du Drac et de l’Isère. Celui-ci peut simuler différents scénarios quant à l’étendue et la gravité de l’événement en fonction des conditions météorologiques, du relief, de la répartition du bâti, ce qui permet aux autorités locales de préparer des plans d’évacuation, de mettre en place des mesures de protection et d’informer les citoyens en temps réel des consignes de sécurité à suivre.

Des jumeaux numériques à différentes échelles

Les jumeaux numériques adoptent de plus en plus une approche intégrative à plusieurs échelles pour agréger les données territoriales, englobant ainsi tout le spectre, des foyers aux départements, en passant par les quartiers, les régions et jusqu’à l’échelon national.

Ainsi, le jumeau numérique de la région Auvergne-Rhône-Alpes est développé pour optimiser la gestion des secteurs agricole, touristique et énergétique tout en fournissant un outil d’évaluation politique. Il permet d’effectuer des simulations de divers scénarios, tels que le changement climatique ou les catastrophes naturelles, afin de renforcer la résilience des régions concernées en identifiant des actions prioritaires en termes de politiques publiques.

Cependant, un défi subsiste quant à l’intégration et à l’interopérabilité des données. Celles-ci nécessitent une approche à la fois globale et modulaire. En effet, certaines ressources sont propres aux communes (entretien des routes et des bâtiments publics, gestion des déchets, approvisionnement en eau potable), tandis que d’autres ressources sont partagées au niveau intercommunal (équipements culturels et sportifs, services de transport en commun), voire plus agrégées encore.

Imaginez que chaque ville ou village ait une version numérique d’elle-même, comme un avatar dans un jeu vidéo. Maintenant, imaginez que tous ces avatars puissent partager des informations. Au lieu d’avoir juste un avatar pour une ville, nous pourrions avoir un grand avatar pour une région entière ou même un pays. C’est comme assembler un puzzle où chaque pièce est un village, une ville ou une région.

Partager les données tout en assurant le bon niveau de confidentialité

Les données provenant du réel ou dérivées des simulations ont la capacité d’être partagées parmi les divers intervenants, incluant les citoyens, les municipalités et les entités intercommunales. Le jumeau numérique joue également un rôle crucial dans la coordination d’un partage transparent et efficace des données.

Cependant, certaines données utilisées par les jumeaux numériques sont potentiellement confidentielles (secret industriel, données sensibles en termes de sécurité d’approvisionnement en eau ou électricité) et doivent faire l’objet de protections particulières des hébergeurs.

Imaginez les jumeaux numériques comme des poupées russes, où chaque poupée, ou niveau, représente une dimension différente : un individu, une maison, un quartier, une ville, et ainsi de suite. Chaque poupée a ses propres informations, et lorsqu’elle s’intègre dans une poupée plus grande, elle ne partage que ce qui est nécessaire pour cette dimension plus large. Chaque élément est à la fois un tout et une partie d’un tout plus grand. Cette structure garantit que les informations sont partagées au bon niveau, protégeant ainsi la vie privée. Cependant, il est essentiel de maîtriser les échanges d’informations entre les différents niveaux.

Une approche globale de transformation des services

Le jumeau numérique d’un territoire, au-delà d’être un simple outil, propose en synthèse une approche globale de transformation des services à la population, qui nécessite l’engagement des parties prenantes et une gouvernance renouvelée. En effet, le succès du jumeau numérique dépend donc en premier lieu de la profondeur de la réflexion initiale sur les usages attendus.

Son efficacité repose de plus sur une collecte et une intégration minutieuses des données, et sur la garantie de leur confidentialité et de leur sécurité. Il est également crucial d’intégrer, lors du développement informatique du jumeau numérique, une capacité d’adaptation pour faire face à l’évolution et à la complexité croissante des systèmes simulés.

Si ces contraintes deviennent bien maîtrisées, il devient envisageable d’établir des jumeaux numériques interconnectés à l’échelle nationale, agrégeant les informations depuis les niveaux les plus détaillés, et répondant ainsi à l’ensemble des besoins en informations des diverses collectivités, qu’elles soient urbaines ou rurales. Un projet à l’échelle nationale est déjà en cours au Luxembourg, qui considère l’intégralité de son territoire comme un banc d’essai numérique.

Les auteurs ne travaillent pas, ne conseillent pas, ne possèdent pas de parts, ne reçoivent pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'ont déclaré aucune autre affiliation que leur organisme de recherche.

Sports : quand les données permettent de tout savoir sur son adversaire

2023-10-10T21:14:57Z

Grâce à de nouveaux outils analytiques, une simple caméra permet d'obtenir énormément de données. John Komar, Fourni par l'auteur

Lorsque l’on s’intéresse à l’analyse de la performance sportive, peu importe le sport auquel nous nous attachons, il s’agit de répondre à deux questions fondamentales :

Pour quelles raisons un joueur ou une équipe a perdu son précédent match ?
Comment faire pour gagner le match à venir ?

Un analyste de la performance sportive va donc s’intéresser à ces deux problèmes, collecter des données sur le jeu et les analyser pour trouver des réponses. Après avoir été analyste de données et consultant dans le football anglais, je m’occupe depuis quelques années de la formation d’étudiants et doctorants à l’utilisation de données pour l’analyse de la performance sportive. Entre les sciences du sport et les statistiques, ces compétences sont en effet de plus en plus recherchées par les clubs professionnels afin de répondre à l’inflation de la donnée sportive qui est de plus en plus accessible y compris pour le grand public.

Utiliser les données pour analyser la performance sportive

Pour prendre un exemple spécifique en badminton, il s’agit donc d’un côté d’analyser sa propre performance passée, et d’y déceler ses propres points faibles mais également ses points forts. Dans ce cas, l’analyste de la performance sportive va analyser l’activité du joueur pendant ce dernier match, pour en tirer des conclusions.

Par exemple il a été montré depuis peu que les joueurs d’origine chinoise ou japonaise ont tendance à utiliser la fatigue de l’adversaire avant de leur mettre la pression, à savoir qu’ils ont tendance à faire durer les échanges et ne cherchent pas à mener au score dans la première moitié du match. Les joueurs d’origine indienne ou taiwanaise ont eux plus souvent des stratégies opposées. Il existe donc de multiples profils de joueurs et connaître précisément le profil d’un futur adversaire permet d’éviter de tomber dans le piège.

Or le problème majeur qui apparaît ici réside dans la comparaison, quelle est donc la valeur « normale » ? Imaginez que vous devez faire une prise de sang, et lorsque vous recevez les résultats il n’y a que les valeurs brutes mais pas les barèmes, il est impossible de savoir si ces analyses sont classiques, normales, ou bien si elles sortent de l’ordinaire. Pour pallier ce problème, l’analyste sportif va avoir besoin d’une grande base de données qui servira de référence, de barème pour qualifier le style de jeu d’un joueur spécifique par rapport à une norme, à un profil standard.

D’un autre côté, il s’agit d’analyser l’adversaire à venir et en quelque sorte de chercher à prédire ce qu’il va faire, la manière dont il va jouer ce match à venir. À ce jeu-là, nous avons récemment mis en avant la nécessité d’utiliser des données les plus récentes possibles afin d’avoir une prédiction la plus proche de ce qu’il va se passer. En fait, pour prédire l’activité de l’adversaire sur le prochain match, utiliser moins de données du passé (trois ou quatre matchs) mais des données très récentes (vraiment les derniers matchs) est la combinaison qui apporte la meilleure qualité de prédiction. Ceci s’explique par le caractère très dynamique de la performance sportive qui dépend de nombreux facteurs : état de forme du joueur, fatigue, blessure légère, motivation, etc., qui tous peuvent modifier la performance très rapidement. Ici, le problème pour l’analyste n’est pas tant la quantité de données, mais l’actualisation de ces données qui doivent constamment être mises à jour.

Analyser la performance sportive nécessite donc d’avoir une grande base de données, qui sert de référence ou de norme, mais également de données continuellement actualisées. Même si dans certains sports (principalement en football et basketball) des données sont accessibles pour certains matchs professionnels, dans 99 % des cas il faut collecter les données pour pouvoir les analyser, et c’est là que l’intelligence artificielle devient le plus grand atout de l’analyste.

L’intelligence artificielle dans la collecte et l’analyse des données sportives

Depuis bien longtemps les sciences du sport peuvent collecter des données sur les sportifs pour analyser leur performance. Or très souvent cela nécessite de rencontrer les sportifs, de les faire venir dans un laboratoire d’analyse du mouvement et le plus souvent de les équiper avec du matériel de mesure.

Analyse scientifique des mouvements d’un tennisman.

Ces dernières années, les avancées dans le domaine de l’analyse vidéo par ordinateur a rendu ces processus de collecte de données bien plus simple, facile à organiser, et surtout ne nécessite plus de matériel très avancé ni de faire venir les joueurs dans un endroit dédié à l’analyse de la performance. Par exemple, à partir d’une simple vidéo (d’une caméra, d’un smartphone) il est aujourd’hui possible d’analyser toute la biomécanique d’un joueur.

À partir d’une simple vidéo d’un match de badminton amateur, l’IA peut reconnaître les joueurs, le court, les déplacements des joueurs sur ce court ainsi que les mouvements et la technique des joueurs. L’avantage indéniable de ces nouvelles techniques réside dans la possible exploitation de toutes les vidéos existantes afin de créer une base de données quasi infinie.

Vidéo d’un match de badminton où l’IA reconnaît les joueurs et le court de badminton (droite), afin de collecter les déplacements des deux joueurs (gauche) ainsi que leurs mouvements/techniques (centre)

Les données pour analyser la performance peuvent maintenant être collectées n’importe où avec une simple caméra, à l’entraînement ou dans un tournoi amateur. Également, tout match diffusé à la télévision peut maintenant être analysé et il n’est plus nécessaire de connaître personnellement Roger Federer ou le champion du monde de badminton pour collecter des données sur leurs performances. Dans tous les cas, si votre prochain adversaire est Roger Federer, pourquoi accepterait-il de venir collecter des données pour que vous puissiez analyser ses points faibles ? Aucun joueur ou équipe ne ferait ça. Ainsi, pouvoir simplement utiliser des vidéos existantes pour collecter les données ouvre des opportunités d’analyse de n’importe quel joueur au monde.

L’application de ces nouvelles techniques, en cours de développement voire déjà bien développées dans le football, la natation ou encore le tennis de table permet de régler les problèmes de collecte de données en grandes quantités (c’est un ordinateur qui travaille), sur des données toujours actualisées (pendant n’importe quelle compétition ou entrainement) mais également cela permet de collecter des données dans l’environnement réel de compétition. En effet, une des limites les plus importantes de l’analyse de la performance sportive en laboratoire est le manque de validité écologique de la mesure.

Autrement dit, les sportifs, parce qu’ils savent qu’ils sont observés, ou tout simplement par le matériel qu’ils doivent porter et qui n’est pas naturel, n’agissent pas exactement de la même manière qu’ils le feraient en compétition. L’intelligence artificielle permet donc une avancée sans précédent dans la collecte de « big data » dans le sport, mais plus il y a de données, plus il y a de « bruit » et plus il est difficile de trouver les informations réellement pertinentes dans cette immense masse de données.

Que faire de toutes ces données ?

Le champ d’application de l’IA dans le sport où il reste énormément à développer reste probablement l’analyse des données des données collectées, avec pour objectif de trouver la (petite) information qui fera la différence lors d’un match ou d’une compétition importante.

Dans toutes les données qui peuvent être collectées aujourd’hui pendant le jeu, une grande majorité est en fait inutile ou du moins ne permet pas de réellement impacter la performance. Est-ce qu’un plus grand nombre de passes effectuées dans un match de foot permet de gagner ce match ? Pas vraiment. Est-ce qu’une plus importante possession du ballon permet de gagner un match de football ? Pas vraiment. Est-ce que courir de plus longue distance par match permettent de gagner ce match ? Est-ce que des échanges plus longs en tennis permettent de gagner un match ? Peut-être pour certains joueurs. Une infinité de questions similaires peuvent ainsi être posées et la réponse se trouve dans les données collectées, encore faut-il pouvoir trouver cette réponse.

L’application de diverses techniques d’apprentissage par ordinateur ; réseaux de neurones, arbres décisionnels, clustering, etc., permettent de trouver ces informations « cachées » dans la masse de données sous forme de règles. Par exemple au tennis, le joueur X multiplie par quatre ses chances de gagner son échange du moment où son adversaire Y a couru plus de 90 mètres durant l’échange et qu’il joue sur son revers. En football, si une contre-attaque implique à minima un attaquant de plus que le nombre de défenseurs présents, fait progresser le ballon vers l’avant à une vitesse supérieure à 24 km/h, et atteint la surface de réparation en moins de 17 secondes après la récupération du ballon, elle aura 75 % de chance d’aboutir à un tir cadré.

Ce type d’informations, qui est « repéré » par l’IA au sein de grandes masses de données permet ainsi de connaître les points forts d’une équipe ou d’un joueur, reconnaître des schémas de mouvements qui sont souvent observés et mènent à marquer des points. Il est également possible de reconnaître des points faibles, donc lorsqu’un point est perdu par un joueur, que s’est-il passé avant et peut-on y trouver des récurrences ? Exploitées efficacement, ces informations peuvent alors permettre d’adapter une stratégie face à un adversaire bien spécifique, d’adapter un style de jeu, voire d’adapter des programmes d’entraînement pour par exemple réaliser une contre-attaque d’une manière où elle sera la plus efficace.

Cet article est publié dans le cadre de la Fête de la science (qui a lieu du 6 au 16 octobre 2023 en métropole et du 10 au 27 novembre 2023 en outre-mer et à l’international), et dont The Conversation France est partenaire. Cette nouvelle édition porte sur la thématique « sport et science ». Retrouvez tous les événements de votre région sur le site Fetedelascience.fr.

John Komar ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'a déclaré aucune autre affiliation que son organisme de recherche.

Au-delà des cryptomonnaies, à quoi peuvent servir les blockchains ?

2022-05-26T18:57:14Z

L'enregistrement des naissances est crucial pour éviter le trafic et l'exploitation des enfants; et pourrait être facilité par les registres informatiques sécurisés utilisant les blockchains. UNICEF Ethiopia, Flickr, CC BY-NC-ND

Les blockchains (ou chaînes de blocs) sont désormais célèbres grâce aux cryptomonnaies, en particulier le fameux Bitcoin, et la « finance décentralisée » (ou « DeFi » en anglais). Mais elles peuvent avoir d’autres applications que financières.

En effet, les blockchains permettent simplement d’échanger de l’information entre partenaires sans nécessairement se faire confiance, car cette technologie permet de construire un registre (comme un livre de comptes) partagé, infalsifiable, pour la parfaite traçabilité des échanges d’information. On sous-estime généralement l’importance des registres, qui sont pourtant essentiels dans notre existence sociale et juridique : état civil, sécurité sociale, cadastre, registres bancaires par exemple. On ne peut jamais y enlever d’information, seulement en ajouter à la fin, et tous les ajouts sont signés par leur auteur.

Par exemple, la FIFA et la blockchain Algorand ont récemment annoncé leur partenariat, qui fait de la blockchain Algorand la blockchain officielle de la prochaine coupe du monde de football… Alors que les applications d’une blockchain pour les coupes du monde de football 2022 et 2023 n’ont pas encore été dévoilées, on peut imaginer qu’il y aura des NFT à collectionner au nom des joueurs et des équipes engagées, une sorte d’album Panini virtuel.

Les technologies blockchains peuvent également être utiles au secteur public, notamment autour des questions d’identité numérique, de certification de documents et de traçabilité, comme nous le montrons dans notre livre blanc publié dans le cadre du partenariat européen pour la blockchain.

Comment les blockchains garantissent-elles la confiance entre partenaires ?

Les technologies blockchains, dans le sens large de « registres décentralisés », sont des technologies permettant d’assurer de la confiance dans des échanges d’informations. Elles n’ont donc d’intérêt que dans un cadre multi-partenaires, pour assurer la sécurité et la traçabilité des échanges d’information. Leur champ est donc bien plus spécifique qu’une base de données distribuée (c’est-à-dire un système de stockage d’information structurée, qui repose sur plusieurs machines mais est opéré de manière centralisée par une entité unique), et les applications combinent bien souvent blockchains et bases de données.

Cette confiance apportée aux échanges repose sur deux piliers.

D’une part, la technologie blockchain elle-même assure l’infalsifiabilité des données par l’utilisation notamment de cryptographie. En effet, le chaînage cryptographique des blocs d’information rend la chaîne des blocs de données très résistante car toute modification d’un bloc casse la chaîne et il est très (trop) coûteux de la reconstruire.

Qui décide des modifications d’une blockchain ?

D’autre part, la gouvernance de chaque blockchain précise qui sont les « opérateurs des nœuds » (les entités qui opèrent les ordinateurs et les logiciels qui assurent le bon fonctionnement et la sécurité de la chaîne de blocs) et comment ils déploient et font évoluer le code de cette blockchain.

Ces « opérateurs de nœuds » sont en fait assez variés. Ça peut être n’importe qui dans le cas des blockchains publiques (Bitcoin, Ethereum, Algorand, Hive, Tezos, etc.), les membres d’un consortium plus ou moins ouvert, comme dans le cas d’Alastria (une association espagnole promouvant les technologies blockchain en construisant des infrastructures utilisables par ses membres), les acteurs d’une filière économique pour la traçabilité au sein de la filière (comme Tradelens pour le fret maritime), ou encore des opérateurs publics dans le cas de l’infrastructure de services blockchain européenne EBSI (construite dans le cadre du partenariat européen pour la blockchain, pour supporter les services publics transfrontaliers).

La grande différence entre blockchain et « base de données distribuée » est ce portage et cette gouvernance collective, par différents acteurs, d’une infrastructure partagée. On a donc le remplacement de la confiance apportée par un tiers dit « de confiance », à la confiance apportée par la preuve, c’est-à-dire que l’accès aux données inscrites de manière durable, transparente et infalsifiable dans la blockchain.

Des applications de la blockchain pour le secteur public

Nous listons dans notre livre blanc « Les technologies blockchains au service du secteur public » plusieurs cas d’usage liés en particulier à l’identité numérique, à la certification de documents et à la traçabilité.

En particulier, nous expérimentons à l’Université de Lille l’émission de certificats de réussite numériques aux diplômes sur une blockchain dans le but de lutter contre la fraude au diplôme et d’offrir à nos diplômés un service à valeur ajoutée : une attestation disponible plus rapidement, traduite en anglais, plus facile à partager que la version papier.

Ces attestations sont émises dans une blockchain publique pour le moment, mais l’objectif est d’utiliser l’infrastructure publique européenne EBSI dès que possible.

Ici, la technologie blockchain permet de gérer de manière décentralisée (c’est-à-dire sans avoir besoin d’une unique autorité centrale, qui n’existe d’ailleurs pas au niveau européen pour l’identité) l’identité numérique des établissements émetteurs qui doivent être accrédités par leur État, celle des étudiants (avec l’identifiant européen de l’étudiant), ainsi que la durabilité et l’infalsifiabilité des données enregistrées. Outre la valeur ajoutée pour les diplômés, cette technologie a aussi un intérêt pour l’établissement émetteur : économique car l’attestation numérique est moins chère à produire que le diplôme papier, de gain de temps par la diminution des demandes de vérification des diplômes de la part des recruteurs, et d’amélioration de qualité des données de scolarité par la transformation du processus de diplomation.

Doter les enfants sans existence juridique dans leur pays d’une preuve d’existence légale

Outre l’EBSI et ses autres cas d’usage (identité numérique, numéro de sécurité sociale européen), nous citons d’autres cas dans notre livre blanc comme DID4ALL, projet porté par l’UNICEF et IN Group pour doter les enfants sans existence juridique dans leur pays d’une preuve d’existence légale. Il y aurait en effet plus de 166 millions d’enfants dans le monde qui ne pourraient pas justifier d’une reconnaissance ou d’une identité légale. L’objectif de DID4ALL est d’expérimenter, dans des pays en voie de développement, une solution numérique simple et efficace qui utilise trois technologies combinées – la reconnaissance vocale, la blockchain et les systèmes de télécommunication – afin de proposer à chaque enfant une preuve d’existence cryptographique, dématérialisée et légale tout au long de son enfance.

Des applications pour les réseaux sociaux

Un autre domaine en pleine expansion est celui des applications sociales : les NFT, utilisés pour marquer la propriété d’œuvres d’art numérique, mais aussi les jeux play-to-earn où les joueurs sont récompensés en actifs numériques qu’ils peuvent échanger sur des places de marché et ainsi être rémunérés, et les réseaux sociaux où le contenu créé par les utilisateurs leur appartient réellement, contrairement aux réseaux sociaux classiques où le contenu est cédé ou pour le moins accessible à la plate-forme pour le monétiser, sans compter les problèmes de censure ou de modération arbitraire.

Par exemple, la blockchain Hive est construite spécialement pour les applications sociales décentralisées et les auteurs y sont réellement propriétaires de leur contenu et rémunérés en HIVE, la cryptomonnaie native de la blockchain Hive, en fonction de leur activité et de leur audience. Cette blockchain est le soubassement d’applications variées qui tirent parti de sa sécurité et où chacun reste propriétaire de ses données : plates-formes de blogs, diffusion de vidéos, microblogging, jeux, etc.

À la Faculté des Sciences et technologies de l’Université de Lille, nous utilisons cette plate-forme comme un outil d’enseignement des technologies blockchain. Les étudiants déposent leurs travaux sur cette plate-forme et sont récompensés en HIVE selon la visibilité que leurs articles ont obtenue. C’est l’occasion pour les enseignants de détailler avec eux les mécanismes techniques et économiques d’un écosystème blockchain public comme les algorithmes de consensus (preuve de travail, preuve d’enjeu, etc.) et les actifs cryptographiques (cryptomonnaies, NFT et autres jetons cryptographiques).

Cet article a été co-écrit avec Perrine de Coëtlogon, experte blockchain et open education, coordinatrice du livre blanc « Les technologies blockchains au service du secteur public ».

Pierre Boulet est membre du groupe technique EBSI du partenariat européen pour la blockchain comme représentant de l'État français.

Cyber World Cleanup Day : faisons la chasse à ces « données zombies » qui polluent

2022-03-16T21:02:50Z

L’accord de Paris nous incite – si l’on veut rester sous les 2 degrés d’augmentation de température – à diminuer par deux nos émissions de gaz à effet de serre avant 2030, et par cinq avant 2050. Comment le numérique peut-il participer à relever ce défi ? Et comment supprimer des données devenues « zombies » peut-il partiellement y contribuer ?

C’est l’objectif du Cyber World Cleanup Day qui aura lieu ce samedi 19 mars 2022.

Cette initiative cherche à créer les conditions d’une prise de conscience globale de l’impact environnemental du numérique. Elle sensibilise au numérique responsable de façon très concrète, en partant d’une action simple : « nettoyer » ses propres données.

L’impact environnemental du numérique

De plus en plus d’utilisateurs du numérique, cela signifie à la fois de plus en plus d’appareils fabriqués, mais aussi de plus en plus de données produites.

Dans le domaine du numérique, la fabrication constitue de loin le poste le plus impactant en termes de réchauffement climatique ; viennent ensuite l’utilisation puis le recyclage.

Les nombreuses données disponibles (Ademe, Shift Project, Greenspector, economie.gouv.fr, etc.) convergent pour nous montrer que :

L’impact environnemental du numérique dépasse désormais celui de l’aviation civile. Certains travaux classent par exemple l’Internet comme troisième pays consommateur d’électricité au monde, après les États-Unis et la Chine. Environ 10 % de l’électricité mondiale serait ainsi consommée pour son seul usage. Et 4 % des émissions de gaz à effet de serre y seraient associées selon des chiffres de 2020.
L’impact environnemental du numérique est avant tout lié à la fabrication des matériels ; elle est coûteuse en eau douce, sable, terres rares, énergies primaires, ressources non renouvelables et engendre de multiples pollutions (des sols notamment). On compte aujourd’hui environ 5 équipements par personne en moyenne, soit 34 milliards de smartphones, ordinateurs, consoles de jeux, tablettes et autres téléviseurs. De plus, la fabrication d’un seul gramme de smartphone dépense 80 fois plus d’énergie que celle d’un gramme de voiture.
L’impact de l’utilisation des matériels s’avère plus faible, mais il croît rapidement au fur et à mesure de la production – souvent mécanique – et du traitement des données au sein d’écosystèmes de plus en plus interconnectés et énergivores. L’essentiel de l’usage se fait désormais en mobilité : en France, un smartphone est par exemple utilisé plus de 50 heures par mois… essentiellement pour Internet.
La piste du recyclage reste décevante, avec moins de 1 % des métaux qui seraient recyclés et moins de 20 % des déchets d’équipements électriques et électroniques dont on peut documenter effectivement le recyclage. Le numérique constitue ainsi l’un des mauvais élèves et du recyclage et du réemploi.
L’impact du stockage de données reste le moins perceptible, mais il est considérable. La capacité de stockage mondiale a atteint 6,7 zettaoctets en 2020. De plus, elle va continuer de croître en moyenne de près de 20 % par an jusqu’à 2025, notamment pour accueillir le volume de données des objets connectés et de la 5G.

Données zombies et serveurs comateux

La durée de vie de nos appareils ainsi que leur consommation électrique pourrait être aisément améliorée en supprimant les données qui ne sont plus utilisées. Car ces données inutilisées – parfois même inutilisables – continuent à prendre de la place sur les terminaux personnels, sur des serveurs dédiés ; elles sont également dupliquées dans les data centers.

Dormantes, latentes, cachées… Ces données massives constituent un gaspillage insidieux.

Nous les nommerons « données zombies » : il s’agit de données codées et placées dans des gabarits de tout format (son, vidéo, image, page, texte, etc.) dont le volume est d’au moins 10,00 Ko et dont la durée d’inactivité est d’au moins 3 années.

Photos ratées, brouillons, applications obsolètes, factures de 2012, trajets de 2014, vidéos de 2018 tombées dans les oubliettes : autant de « données zombies » qui alourdissent notre pollution numérique.

Si le coût du stockage des données est faible – ce qui n’incite nullement les entreprises et les particuliers à faire le ménage –, la chasse à ces données zombies représente une action aussi facile qu’efficace dont il ne faut pas se priver.

Ces données sont à la fois volumineuses, dangereuses et coûteuses. Volumineuses : même s’il est difficile de les évaluer, elles représenteraient, selon les études, entre 20 % à 30 % de la volumétrie totale des données du système d’information (SI).

Dangereuses : elles constituent clairement une faille de sécurité (une porte d’entrée, une information dormante, une version ancienne d’un fichier pas forcément obsolète, des fichiers d’anciens mots de passe toujours actifs, des anciens comptes professionnels avec « log in », mais sans « log off », etc.) souvent mal prise en compte notamment au sein des PME dont le stockage des données n’est pas sécurisé.

Enfin, elles sont coûteuses en matière de stockage.

Il faut également ici mentionner les serveurs zombies ou encore les « serveurs comateux ». Ces serveurs physiques hébergent données et applications, mais ne communiquent plus, et consomment donc de l’électricité pour rien. Une étude de 2017 évalue à environ 3,6 millions le nombre de serveurs zombies aux États-Unis et à 10 millions sur la planète. Plus nous stockons de données, plus nous maintenons d’applications, plus nous générons de serveurs comateux.

Des données à supprimer… et à ne pas produire

Que l’on soit un particulier ou une entreprise, pour participer au Cyber World Cleanup Day, voici la marche à suivre.

Il s’agit d’une part d’identifier les zombies – en utilisant le tri par « modifié le » ou par « taille » – puis de les traiter. Cela s’avère relativement aisé en utilisant certaines applications qui proposent un archivage non énergivore ou carrément une destruction ; sachant que ce processus reste le fruit d’une démarche volontaire et explicite et non d’un paramétrage par défaut.

Nous abordons ici l’une des dérives de nos écosystèmes data centrés : ces derniers postulent que toutes les données sont à conserver, car, un peu comme les malles et bibelots qui encombrent nos caves et greniers, elles « peuvent » se révéler utiles une « prochaine fois »…

La réalité montre qu’il n’en est rien. Pour les directions SI des entreprises, disposant en général de moyens, d’informations et de compétences, le travail de nettoyage et de chasse aux données zombies est paradoxalement plus facile que pour les utilisateurs particuliers pouvant se satisfaire d’un illusoire statu quo. Le RGPD a également largement aidé les entreprises à monter en compétences sur les questions liées à leurs données stockées.

En effet, pour les professionnels des SI et de leur management, il existe depuis quelques années des applications, des ESN et des plates-formes (komprise.com, greenspector.com, easyvirt.com).

Ces solutions peuvent par exemple identifier les données non sollicitées depuis X années, les données issues de comptes Y qui ne feraient plus partie de l’organisation, puis ces solutions Z vont « dénicher » ces données et proposer de les supprimer. Des solutions – mais aussi des ateliers – peuvent ainsi proposer de les identifier, de les détruire ou de les déplacer vers le cloud ou la corbeille… qu’il faudra bien penser à vider !

De la responsabilité à la sobriété numérique

L’idéal serait bien sûr de ne pas produire de tels volumes de données et d’aller vers une plus grande sobriété numérique.

Il est en effet regrettable que la dématérialisation annoncée des contenus s’accompagne d’une matérialisation toujours plus massive des contenants. Les modèles d’affaires data centrés des géants de l’Internet ont ici une grande part de responsabilité. Il faut bien que l’utilisateur produise des données – gratuitement ou pas – pour qu’un opérateur les collecte, les stocke, les traite et les revende. La maîtrise du cycle de vie des données constitue le cœur de leur position dominante.

Le volume produit n’est donc pas une contrainte, mais une aubaine pour ces acteurs. C’est bien là l’écueil du Cyber World Cleanup Day qui ne doit pas cacher la forêt des données produites derrière l’arbre des données nettoyées.

Marc Bidan est directeur du laboratoire d’Économie et de Management de Nantes Atlantique (LEMNA).

Christophe Benavent ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'a déclaré aucune autre affiliation que son organisme de recherche.

Médecine, police, justice : l’intelligence artificielle a de réelles limites

2021-12-01T18:55:03Z

Les systèmes d’IA (intelligence artificielle), qui envahissent nos quotidiens, sont des algorithmes d’apprentissage automatique consommant de grandes masses de données pour leur entraînement. De nombreux exemples montrent que ceux-ci ne sont pas aussi performants que nous pourrions l’espérer (ou le craindre). La compréhension de leurs limites éclaire le choix de leur déploiement et préalablement celui de l’accès à des données personnelles.

Les médias ont largement communiqué sur les performances d’AlphaZero pour jouer aux échecs ou au go, sur celles, parfois discutables, des algorithmes de détection de tumeurs, la médecine 4p (personnalisée, prédictive et participative, préventive), sur les craintes suscitées par les projets de police prédictive (PredPol).

On communique moins sur les succès réels de la détection de défaillances sur une chaîne de production industrielle, l’abandon de PredPol par la police de Los Angeles, la faible performance des recommandations publicitaires et déjà la difficulté de l’évaluer. Trois points éclairent ces questions de performance de prévision et donc d’aide, bénéfique ou non, à la décision : prévision personnalisée vs de population, complexité et dimension du domaine d’application, représentativité du test d’évaluation des performances.

IA empirique et apprentissage automatique

La prévision d’une valeur ou de la probabilité d’occurrence d’un événement (ruine, défaillance, pathologie, récidive, acte violent, acte d’achat, embauche…) est basée sur l’observation de données historiques personnelles issues de l’observation de p caractéristiques ou variables (biologiques, génomiques, comptables, socio-économiques, comportementales, CV…) de n situations ou individus ainsi que celles de la réponse recherchée : valeur ou occurrence de l’événement. L’entraînement de l’algorithme consiste à quantifier les relations selon le type d’algorithme utilisé entre les variables et la réponse.

Cette étape réalisée et ayant observé les variables pour une nouvelle situation ou individu, une aide à la décision est la conséquence de la prévision de sa réponse. Cette prévision est construite en combinant, à l’aide des paramètres, les réponses prises par les individus les plus proches du nouvel individu au sens du type d’algorithme utilisé. Rappelons qu’un tel algorithme ne crée rien, il fournit une prévision la plus conforme à l’historique observé à condition que le nouvel individu, la nouvelle situation, soit bien issue du domaine concerné.

Schématiquement, la conception d’un système d’IA passe par des étapes essentielles

les définitions de l’objectif et du domaine d’application,
le dimensionnement et choix du modèle ou type d’algorithme,
l’acquisition des données d’entraînement, leur évaluation,
l’entraînement avec optimisation d’hyper paramètres,
le test afin d’en évaluer rigoureusement les performances.

Les points 1 et 3 soulèvent la question fondamentale mais classique en statistique : les données d’entraînement sont-elles représentatives de l’objectif et du domaine visés ? Le point 4 technique est quasiment automatisé. Nous allons illustrer les points 1, 2 et 5 en prenant pour exemple d’actualité la médecine 4_p_ en montrant en quoi, personnalisée et prédictive peuvent être antinomiques pour un système d’IA empirique.

Prévision individuelle et moyenne

Plus la taille n d’un échantillon est importante, meilleure est la prévision d’une moyenne (médecine de population, santé publique). Plus précisément, l’erreur décroît avec la racine carrée de n. En revanche, une prévision individuelle (médecine personnalisée) reste entachée d’une erreur, quelle que soit la taille n considérée. Cette erreur incompressible est une conséquence des erreurs aléatoires, bruits, de mesure et des effets inconnus de facteurs non pris en compte. Ceci explique en partie les très mauvaises performances de la prévision d’un comportement humain en justice (30 à 40 % d’erreur) ou police prédictive.

En médecine de population, des modèles statistiques élémentaires (régression logistique), permettent de prouver (significativité statistique), quantifier, expliquer l’influence de facteurs (tabac, alcool, pesticides…) sur la santé publique. C’est un objectif de la cohorte Constances rassemblant n=200 000 personnes afin d’atteindre la puissance statistique nécessaire pour mettre en évidence des impacts inconnus de facteurs ou de leurs interactions.

En médecine personnalisée, réduire l’erreur de prévision d’une pathologie multifactorielle complexe incite à associer de nombreux facteurs génétiques et environnementaux. C’est un objectif du plan France Génomique 2025 qui finance le séquençage annuel massif de milliers de génomes. Les avancées des biotechnologies permettent de détecter, pour chaque individu, des occurrences de millions de SNPs (single-nucleotide polymorphism) ou mutations, de mesurer les expressions (ARN) de dizaines de milliers de gènes, de quantifier des centaines de milliers de protéines… Autant de facteurs omiques et leurs interactions susceptibles d’influencer, comprendre, prévoir, une pathologie complexe et que les technologies numériques permettent de stocker, analyser.

Le fléau de la très grande dimension

Comme en reconnaissance d’images composées de millions de pixels, le concepteur d’un système d’IA est alors confronté à un problème de très grande dimension où p le nombre de variables peut être beaucoup plus grand que la taille n de l’échantillon ; p très grand signifie plus d’informations mais aussi plus d’indéterminations pour estimer les paramètres d’un algorithme.

En effet, en très grande dimension, les individus se trouvent explosés dans un espace essentiellement vide, tous uniques, isolés et finalement tous aussi éloignés les uns des autres, mettant en défaut la stratégie d’apprentissage.

En reconnaissance d’images, des empilements de couches spécifiques (convolutionnelles) de neurones contournent le problème en exploitant les proximités géométriques des pixels. Les données omiques n’offrent pas ces capacités. Même s’il est techniquement possible de manipuler de très gros ensembles de données, le fléau de la dimension égare tout algorithme ; les GWAS (genomic wide association studies) appliquées à la prédictibilité de maladies multifactorielles sont mises en échec.

Seule une sélection drastique des variables lors de procédures indépendantes permet une réduction pertinente de la dimension. En effet, un piège consiste à présélectionner des variables (gènes, protéines…) puis entraîner un algorithme sur le même jeu de données. Ceci est la cause de résultats trop optimistes déjà dénoncés en 2002 mais toujours d’actualité. La prévision d’une pathologie multifactorielle ou même la seule mise en évidence de combinaisons de facteurs de risques de cette pathologie n’est alors qu’un artefact non reproductible sur un autre jeu de données indépendant.

En résumé, il est nécessaire de discerner entre domaines d’opération d’un système d’IA : milieu clos (jeu, process industriel sous contrôle, véhicule en site propre) de dimension déterminée ou milieu ouvert complexe de dimension très grande ou indéterminée (comportement humain).

Estimation de performance et test représentatif

Une estimation fiable des performances d’un système d’IA est basée sur la construction rigoureuse d’un échantillon test, indépendant de celui qui a servi à l’apprentissage et représentatif du domaine d’exploitation : anticiper les différentes technologies ou modes d’acquisition, leurs usures ou dégradations…

Surfant sur la mode de l’apprentissage profond (deep learning) appliqué à la reconnaissance d’images et soumis à la pression académique de publication, beaucoup trop d’articles annoncent des résultats étonnants mais non reproductibles pour la détection de tumeurs ou celle précoce du Covid. Avant commercialisation aux USA, la FDA contrôle la rigueur de ces tests en vue de la certification de systèmes d’IA d’aide au diagnostic. En France c’est le rôle du GMED anticipant le projet de réglementation européenne sur l’IA (AI Act).

En résumé, ouvrir l’accès à des données personnelles (e.g. Health Data Hub, DataJust) comporte un risque de confidentialité qui est atténué par une procédure d’anonymisation par floutage des données : classe d’âge, région de résidence… pour éviter une réidentification. Ce risque est d’autant plus important en santé que des données génomiques ne sont pas anonymisables et permettent même une identification comme une empreinte génétique.

En contrepartie, le bénéfice attendu (intérêt public), légitime pour un objectif prédictif de population (modèles épidémiologiques) doit être attentivement estimé pour des objectifs de prévision personnalisée. En santé c’est le rôle en France du comité d’expertise sur l’intérêt public de l’INDS. En très grande dimension, médecine personnalisée et médecine prédictive par système d’IA ne font pas bon ménage. Le consensus de recherches indépendantes ou la prise en compte d’autres informations sous forme de contraintes : régularité (problèmes inverses dits mal posés), réseaux de régulation biologique, permet de contrôler la dimension d’un domaine, le nombre de facteurs influents, pour garantir les performances suite à une évaluation rigoureuse et donc l’intérêt public.

Philippe Besse ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'a déclaré aucune autre affiliation que son organisme de recherche.

Le stockage des données à distance, gage de sécurité ou pari risqué ?

2021-06-01T19:19:33Z

Quel degré de sécurité pour les données dans les data centers? Jason Dent, Unsplash , CC BY

En mars dernier, un incendie dans un entrepôt de données de la société OVH a provoqué des problèmes d’accessibilité pour de nombreux sites Internet. OVH est le sixième hébergeur mondial de sites Internet, et les différents entrepôts de données de l’entreprise hébergent 3,1 % de l’Internet mondial. Suite à cet incendie, 3,6 millions de sites web ont été indisponibles pour des durées plus ou moins importantes.

Le stockage de données à distance

De plus en plus d’entreprises utilisent des services de stockage de données à distance. Ces services peuvent concerner des sites Internet, mais également les bases de données des entreprises ou encore leurs serveurs de messagerie électronique. Ces serveurs de stockage à distance sont communément appelés data centers ou centres de données. Il s’agit d’emplacements dédiés regroupant de très nombreux serveurs et proposant une infrastructure réseau et des dispositifs de sécurité.

Certaines entreprises possèdent leurs propres data centers, mais il s’agit principalement de très grandes structures, comme celles du CAC40 en France, Facebook ou Google. Le recours à des centres de données en location présente de nombreux avantages pour les entreprises de taille plus réduite. Cette solution leur permet de ne pas investir en interne, que ce soit au niveau du matériel ou des compétences humaines nécessaires. Les solutions proposées apportent des garanties de sécurité souvent plus importantes que celles qui pourraient être mises en place en utilisant leurs propres ressources.

Où se situent les data centers ?

Les emplacements de ces serveurs restent souvent confidentiels, et l’entreprise cliente n’a pas toujours cette information. Google et Amazon, les deux principaux fournisseurs du secteur, présentent sur leurs sites des cartes indiquant les emplacements de leurs serveurs. Les États-Unis et l’Europe du Nord sont les deux emplacements les plus prisés par ces fournisseurs. Les États-Unis à eux seuls comptent plus du tiers des centres de données existants.

De multiples facteurs expliquent le positionnement des serveurs. Afin d’optimiser la vitesse de connexion, les serveurs doivent se situer au plus près des clients. C’est la raison pour laquelle, en France, la région parisienne est très prisée. Des motivations fiscales peuvent aussi influer sur la décision d’implantation. C’est pourquoi l’Irlande accueille de nombreux data centers. Enfin, le climat est un facteur important à prendre en considération, une bonne partie de l’énergie utilisée étant dédiée au procédé de refroidissement. Les pays du nord de l’Europe présentent un avantage sur ce point.

Bien que peu affichée par les fournisseurs, la localisation des serveurs est très importante pour des raisons juridiques. En effet, sauf indication contraire dans le contrat, les règles de confidentialité qui s’appliquent sont celles du pays dans lequel les données sont stockées ! Au-delà d’une éventuelle perte de contrôle de l’usage fait des données, une telle situation peut amener l’entreprise cliente à ne plus être en conformité avec la loi RGPD (Règlement général sur la protection des données). Cette loi a pour objectif de garantir l’usage fait des données personnelles et s’applique pour l’ensemble de l’Union européenne. Les propriétaires des données personnelles doivent être informés de l’usage fait de leurs données et doivent pouvoir s’y opposer le cas échéant. Le respect de cette loi est rendu difficile par le Patriot Act américain, qui permet aux autorités américaines d’accéder aux données européennes hébergées sur des infrastructures de stockage américaines, quel que soit leur emplacement géographique.

Comment assurer la sécurité des données stockées ?

Suite à l’incendie survenu chez OVH, de nombreux clients ont accusé l’entreprise de ne pas avoir suffisamment protégé leurs données. Quelles sont les précautions à mettre en place pour éviter toute perte de données ? Et quelle est la responsabilité du fournisseur ?

La sécurisation des données stockées comporte deux facettes : tout d’abord, les données doivent être protégées en cas d’incident physique sur les serveurs. Les protections mises en place doivent permettre d’éviter les risques d’intrusion, ou encore les conséquences d’un incendie ou d’une catastrophe naturelle. La conception du bâtiment représente déjà un premier niveau de protection : matériaux utilisés, absence de fenêtres, absence de poignées de portes à l’extérieur, épaisseur des murs, installation d’un paratonnerre, présence d’un système de refroidissement ou encore dispositifs anti-incendie sont des éléments clés de ce dispositif. Le fournisseur de service a, dans ce domaine, une obligation de moyen, et non de résultat. En complément, une surveillance stricte et un contrôle des accès sont mis en place, garantissant une réactivité forte en cas d’incident.

À lire aussi : La réalité physique du monde numérique

La protection des données repose également sur un contrôle des accès à distance. Seules les personnes autorisées doivent pouvoir accéder aux données et une politique stricte de gestion des mots de passe doit être élaborée (règles strictes sur les mots de passe acceptés, changement de mot de passe à intervalles réguliers). Les serveurs sont équipés d’antivirus et de pare-feu (outil qui permet de filtrer le trafic entrant dans un serveur ou un ordinateur) pour éviter les piratages. Les systèmes mis en place proposent par ailleurs des solutions pour lutter contre les attaques par déni de service (DDos) : il s’agit d’une hyper sollicitation des serveurs pour nuire à leur bon fonctionnement. Ces solutions ne sont malheureusement pas proposées par tous les prestataires. Enfin, la gestion du centre de données repose sur des mises à jour très régulières du matériel pour éviter toute faille de sécurité.

Un incident peut survenir en dépit de toutes ces précautions. Comme la mésaventure de l’entreprise OVH le démontre, les clients victimes de pertes de données se retournent facilement vers leur fournisseur de service. Mais quelle est la responsabilité du fournisseur dans une telle situation ?

La responsabilité de la conception d’un Plan de Reprise d’Activité incombe aux entreprises clientes, et non au fournisseur de service cloud ou à l’hébergeur. Ce dernier n’est engagé que dans les limites fixées par le contrat, et avec une obligation de moyen et non de résultat. Le Plan de Reprise d’Activité permet d’anticiper les actions à effectuer en cas de rupture d’un service, et d’optimiser la durée nécessaire pour remettre en service les équipements et logiciels informatiques essentiels pour l’entreprise. Un tel plan envisage la reconstruction de l’infrastructure informatique ainsi que les besoins humains, matériels et financiers pour y parvenir.

Au-delà de ce plan, il est primordial pour l’entreprise utilisatrice de s’assurer que les données sont dupliquées, et sur des sites géographiques différents. Les fournisseurs de cloud proposent de nombreuses offres, et il convient pour l’entreprise de bien lire les différentes caractéristiques des contrats pour s’assurer de choisir la solution la plus adaptée à leurs besoins.

Delphine Billouard-Fuentes ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'a déclaré aucune autre affiliation que son organisme de recherche.

L’ADN sera-t-il l’avenir du stockage de données ?

2021-05-23T22:09:15Z

À l’heure où nous produisons de plus en plus de données et où se pose la question de leur stockage, les biologistes s’intéressant à ce problème se sont tournés vers l’un des « disques durs » les plus compacts qui soient : l’ADN.

En effet, cette macromolécule présente dans toutes les cellules contient toute l’information nécessaire au bon fonctionnement et à la reproduction de celles-ci, encodées dans ses quatre bases A, C, G et T. Sur ce principe, ne pourrait-il pas contenir des données créées par l’être humain, encodées dans les bases de l’ADN comme elles le sont sous forme de 0 et de 1 dans un ordinateur ?

Depuis quelques années, de nombreuses recherches se penchent sur la possibilité de stocker des données dans l’ADN, que celui-ci soit conservé in vivo (au sein de cellules) ou in vitro. Cette solution technologique serait, selon ses promoteurs, une piste pour répondre aux difficultés de stockage de données qui se poseront dans quelques années.

La quantité mondiale de données numériques était estimée en 2018 à 33 zettaoctets (mille milliards de milliards d’octets), et elle double tous les deux à trois ans. Le stockage de données sur des disques durs ou des bandes magnétiques nécessite ainsi de plus en plus de place. Il requiert ainsi des ressources toujours plus importantes en infrastructures et en énergie. Enfin, le stockage classique est peu durable, de sorte que des données archivées sur CD ou bandes magnétiques doivent être transférées tous les 10 ans environ.

À lire aussi : La réalité physique du monde numérique

La première démonstration de stockage de données dans l’ADN date des années 1980 avec l’œuvre de Joe Davis, qui avait alors encodé la représentation d’une rune germanique dans le génome d’une bactérie. Mais les développements de techniques autour de cette idée n’ont connu leur essor que depuis le début des années 2010.

Vos données dans des tubes à essai

Le stockage de données dans l’ADN in vitro fonctionne le plus souvent de la manière suivante : les données à conserver – textes, images – sont converties en séquence de 0 et de 1, elles-mêmes transposées en séquences de nucléotides A, C, G et T. La molécule d’ADN est ensuite synthétisée par des appareils dédiés, qui ajoutent les nucléotides souhaités les uns à à la suite des autres pour former des brins d’ADN, le plus souvent longs de quelques dizaines à deux cents paires de bases – à titre de comparaison, les bactéries ont généralement un génome de quelques millions de paires de base, et les humains 3,2 milliards de bases par cellule. Une information assez volumineuse sera ainsi répartie sur plusieurs brins d’ADN, mais elle sera reconstituée à la lecture. Les molécules peuvent ensuite être stockées, souvent dans une solution aqueuse. L’accès à l’information se fait par séquençage et interprétation des séquences obtenues.

L’information génétique est stockée dans l’ADN grâce à des bases chimiques notées A, C, G et T. Le stockage de données dans l’ADN in vitro propose notamment d’utiliser ces bases comme unités de stockage de l’information, à la manière des 0 et des 1 en informatique. ktsdesign/Shutterstock

Le coût est l’une des limites principales du stockage in vitro : la synthèse de l’ADN, donc l’écriture des données, est chère. Pour contourner les coûts liés à cette synthèse, des méthodes alternatives sont explorées. Par exemple, il est envisagé d’utiliser un encodage fondé sur des structures physiques de l’ADN : ici, le repliement ou non de l’ADN correspond alors à un 0 ou à un 1. Autre option, l’encodage via des modifications épigénétiques : dans ce cas, les bits sont encodés grâce à la présence ou l’absence de modifications chimiques le long de la molécule l’ADN, et non via les bases.

Autre limitation à l’heure actuelle, l’étape de synthèse peut être longue et générer des erreurs, tout comme l’étape de séquençage nécessaire à la lecture des données. Pour pallier aux éventuelles erreurs, l’encodage des données doit inclure une redondance de l’information, et des codes correcteurs sont utilisés : ce sont des séquences ajoutées à la suite des données d’intérêt, permettant de reconstituer l’information en cas d’erreur ou d’effacement lors de l’écriture ou de la lecture. Ces codes de correction d’erreurs sont issus des travaux sur le codage de l’information. Des informations redondantes, c’est-à-dire déjà présentes dans le message, sont ajoutées autour de l’information à transmettre. Cela permet au système qui la décode de détecter et de remanier les erreurs. Un des codes de correction d’erreurs les plus utilisés, le code de Reed-Solomon, est d’ailleurs présent dans les CD et les QR codes pour y éviter les pertes d’informations.

Vos données dans des bactéries

Il est également possible de stocker des données in vivo, dans le génome d’organismes vivants. En 2017, un gif animé fut encodé dans le génome d’une bactérie, les bases constituant le code étant intégrées dans un endroit précis du génome. Un triplet de nucléotides codait alors pour une couleur de pixel, permettant une reconstitution en 21 niveaux de gris.

Séquence d’animation montrant un cheval de course au galop. Photos prises par Eadweard Muybridge (mort en 1904), publiées en 1887 à Philadelphia sous le titre d’« Animal Locomotion ». Ce petit film fut encodé dans le génome d’_E. coli_ en 2017. Source : Wikimedia

Plus récemment, en 2021, des chercheurs de l’université de Columbia ont mis en place un système permettant de transférer les données directement d’un format numérique à un stockage biologique.

Dans ce nouveau système, dit « enregistrement moléculaire électrobiologique », le format numérique, composé de 0 et de 1, est exprimé en signal électrique. Ainsi, pour coder un 0, il n’y a pas de signal électrique et une séquence issue du génome originel de la bactérie est intégrée dans le génome. En revanche, pour coder un 1, donc en présence d’un signal électrique, une séquence exogène – étrangère au génome de la bactérie – est intégrée dans le génome. Les chercheurs ont ainsi encodé le message « hello world » dans le génome de la bactérie. Si la quantité de données encodées est encore faible, c’est la première démonstration d’une écriture de données directement de l’ordinateur vers un organisme vivant – une sorte de magnétoscope cellulaire, capable d’enregistrer les données sur l’équivalent biologique de la bande magnétique : l’ADN.

Colonies de bactéries E. coli dans une boîte de Pétri. Nathan Reading/Flickr, CC BY-NC-ND

Il est plus difficile de manipuler l’ADN in vivo qu’in vitro, et, pour les méthodes d’« enregistrement moléculaire », la densité d’espace de stockage (ici, la quantité d’information par nucléotide) y est plus faible, l’encodage d’un 0 ou d’un 1 nécessitant pour l’instant environ 50 nucléotides. Cependant, les données enregistrées in vivo ont pour avantage d’être faciles à copier, grâce à la division cellulaire, contrairement aux données stockées in vitro qui doivent être répliquées par des PCR, Polymerase Chain Reaction – une technique qui permet de dupliquer en grand nombre l’ADN ou l’ARN à partir de faibles quantités de matériau génétique et d’amorces spécifiques), désormais fameuse grâce à son rôle dans le dépistage du SARS-Cov-2, mais plus coûteuse que les cultures pendant lesquelles les cellules se divisent.

La réplication de l’ADN est souvent mentionnée comme problème du stockage in vivo, car elle est susceptible de générer des mutations qui pourraient endommager les données en introduisant des erreurs de codage ; néanmoins les erreurs de réplication de l’ADN sont plus rares in vivo que pendant une PCR.

Un stockage « froid », mais pas que

Le stockage de données dans l’ADN semble plutôt être indiqué pour l’archivage de données dites « froides », c’est-à-dire des données auxquelles l’accès est peu fréquent. Mais d’autres applications sont envisagées.

Ce type de stockage pourrait également être utilisé en stéganographie, c’est-à-dire pour dissimuler un message dans un autre message. Par exemple, les cellules stockant l’ADN porteur d’informations pourraient être mélangées à des bactéries issues d’un environnement naturel pour aider à la dissimulation d’une information.

L’authentification d’objets grâce à des codes-barres nucléotidiques est également examinée, par exemple dans cette étude, qui propose d’utiliser de l’ADN encapsulé dans de la silice et mélangé à des huiles d’olive pour qu’il soit possible de vérifier leur authenticité.

Image de bactéries en microscopie confocale (Bacillus subtilis). Fernan Federici, Flickr, CC BY-NC-SA

Même si le stockage de données dans l’ADN n’appartient plus tout à fait à la science-fiction, il lui reste un long chemin à faire avant de devenir grand public. L’ADN se conserve bien et est très compact, des millions de nucléotides n’occupant que quelques micromètres – il aurait ainsi une densité de stockage un million de fois plus importante que celle des disques durs. Ce sont ses avantages par rapport aux méthodes de stockage classiques, comme le stockage magnétique (utilisé dans les disques durs) ou optique (les CDs et DVDs).

Néanmoins les différents coûts impliqués, notamment pour écrire les données, sont encore de plusieurs ordres de grandeur plus élevés que ceux du stockage classique. La vitesse de lecture des données – souvent, la vitesse de séquençage de l’ADN – est également un obstacle à lever, même si des progrès considérables ont été réalisés dans ce domaine ces dernières années, et que de nouvelles améliorations restent à venir, comme des méthodes de séquençage ne nécessitant qu’une seule molécule d’ADN, là où les méthodes classiques en exigent plusieurs.

Même s’il n’est pas impossible d’imaginer, d’ici quelques décennies, un rayon des archives remplies de tubes à essai contenant des livres sous forme d’ADN, il est néanmoins peu probable que vous puissiez bientôt regarder votre film préféré en glissant un échantillon dans un lecteur DVD génétique.

Ira Tanneur ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'a déclaré aucune autre affiliation que son organisme de recherche.

La réalité physique du monde numérique

2021-04-21T19:53:15Z

Le Magasin Vauban, un vieil entrepôt au port de Strasbourg, réaménagé en centre de données. Michael Kauffmann, Wikipédia, CC BY

Umberto Eco décrit dans son roman Le nom de la rose l’organisation, la conservation des données et l’accès au savoir, il y a sept siècles dans la bibliothèque d’une abbaye, qui finira par brûler, détruisant ainsi le travail des moines copistes, premiers artisans de la redondance avant l’invention de l’imprimerie puis de l’informatique.

Ce type d’événement s’est reproduit au travers des époques avec à chaque fois des pertes de connaissances. L’épisode le plus récent dans notre époque de dématérialisation, est l’incendie spectaculaire à Strasbourg le 10 mars 2021 d’un « data center » – c’est-à-dire d’un centre de stockage et de traitement de données – qui a eu des conséquences importantes pour les utilisateurs. Cet incident est révélateur de la fragilité des infrastructures numériques (ordinateurs, serveurs, racks de stockage, réseaux de communications, alimentations électriques, climatisation…), qui amène à des pertes de données parfois irréversibles, et des services interrompus (systèmes d’information, applications informatiques, messageries, sites Web…).

Un tel accident industriel nous interpelle en fait sur la réalité physique du monde numérique. Celui-ci s’est construit depuis une quarantaine d’années autour de machines informatiques concentrées dans des réseaux de data centers qui constituent le nuage numérique ou « cloud ». Ce « nuage », d’apparence immatérielle, repose en fait sur des infrastructures distribuées et interconnectées à l’échelle de la planète. On recense à ce jour près de 5 000 data centers dédiés ou mutualisés répartis dans 127 pays dans le monde, certains pouvant héberger des dizaines de milliers de serveurs.

L’histoire de l’informatique est faite d’alternances du local au global entre des infrastructures centralisées et distribuées : centralisées au siècle dernier autour d’un ordinateur unique, puis distribuées avec l’avènement de l’informatique nomade (PC, tablettes, smartphones, objets connectés…), puis mixte de nos jours avec des services de plus en plus externalisés vers des sociétés spécialisées (GAFAM par exemple) pour sauvegarder et traiter des données, ou communiquer au travers des réseaux sociaux, ou dans le télétravail par visioconférences et documents partagés.

Comment stocke-t-on des données de manière sécurisée aujourd’hui ?

Si on regarde l’usage individuel, il y a 30 ans les données étaient stockées sur des disquettes de capacité de 1 méga-octet (10⁶ octets) puis des CD, des clés USB… Aujourd’hui un disque dur magnétique personnel de 1 téra-octet (10¹² octets, soit mille milliards) – qui a la taille d’un smartphone – représente l’équivalent d’un million de disquettes pour un coût de quelques dizaines d’euros. La sauvegarde des données de manière pérenne est une évidence depuis les débuts de l’informatique, avec au départ des matériels et des logiciels peu fiables.

Aujourd’hui, l’heure est à l’explosion des données liées à nos usages, par exemple la sauvegarde instantanée dans le cloud de photos et vidéos saisies sur un smartphone. L’heure est aussi à toutes les formes actuelles connues de piratage, et de cybercriminalité. Sauvegarder ses données nécessite des précautions, par exemple dans des lieux de stockage sûrs.

Au niveau professionnel, beaucoup d’usagers et de sociétés n’ont pas les moyens de disposer d’une infrastructure informatique autonome et robuste, compte tenu des coûts d’acquisition, de maintenance, de sécurisation, de mise à jour, et des ressources humaines associées. Ils font donc appel à des sociétés spécialisées qui vendent leur maîtrise de la sécurisation des données, que ce soit en termes de confidentialité, de protection de savoir-faire ou de vie privée. Notons aussi que les enjeux de souveraineté des États dans l’accès aux données sont cruciaux. La distribution des données et de leurs traitements à l’échelle de la planète – et un jour de l’espace avec des grappes de satellites établissant les communications entre serveurs – offre de nombreux avantages sous réserve d’une bonne compréhension des limites physiques des infrastructures utilisées, notamment en cas d’accident.

Un regard critique sur les offres actuelles est donc indispensable : où sont stockées mes données ? Comment sont-elles protégées, sécurisées et sauvegardées ? Quelle empreinte carbone pour mes usages numériques ?

Quels coûts pour cette virtualisation de nos systèmes informatiques ?

Certains opérateurs offrent des services clés en main répondant à ces exigences. D’autres offrent à des coûts moindres des possibilités d’accès à des machines, en laissant aux clients la responsabilité de leurs choix, par exemple dans la gestion des sauvegardes – les contrats entre les parties régissent les détails de ces usages. La notion de qualité de service est donc essentielle.

Une bonne communication sur les technologies utilisées et leurs limites parfois insaisissables pour les usagers est indispensable : quels sont les niveaux de protection de mes données dans le contrat souscrit ? À quelle fréquence se font les sauvegardes, et comment ? La CNIL rappelle en particulier les obligations en matière de notification, en cas d’indisponibilité ou dans le pire cas de destruction de données personnelles déposées dans un data center.

Le data center de l’agence Reuteurs, à Londres, en 2005. Adrian Pingstone/Wikipedia

La réalité physique du monde numérique pose aussi la question des ressources énergétiques nécessaires à ces infrastructures et à nos usages les plus voraces en énergie (vidéos en streaming, gestion de la monnaie virtuelle, les bitcoins). L’empreinte environnementale de nos périphériques numériques connectés et des infrastructures de communications, calcul et stockage ne peut être ignorée : la part globale du « numérique » dans les émissions de gaz à effet de serre augmente chaque année et dépassera bientôt les 5 %, avec une consommation en énergie de 2000 térawatts-heures soit 10 % de la demande mondiale d’électricité.

Des solutions techniques

Des solutions scientifiques et technologiques émergent pour fiabiliser et accompagner les transitions numériques et énergétiques qui sont indissociables.

Cela pourrait par exemple conduire à des « circuits courts numériques » de fiabilisation et de sauvegarde, associés à chaque data center et valorisant des générations de machines informatiques plus anciennes fonctionnant exclusivement avec des énergies vertes. Ces machines pourraient être distribuées à l’échelle d’une région, ce qui limiterait l’impact d’un accident industriel sur un site donné, en jouant sur la redondance des machines pour assurer des sauvegardes.

En effet, un service basé sur une redondance de ressources informatiques est en cas d’accident toujours bien meilleur qu’une perte irréversible de données numériques, que ce soit pour des usages privés ou professionnels. Pour beaucoup d’applications ne nécessitant pas de calculs hautes performances, ou pour la gestion locale des données et des services offerts aux usagers à l’échelle d’un territoire ou d’une ville intelligente, il est envisageable de coupler en « circuit court numérique » la production et le stockage des données avec les énergies vertes, que ce soit en termes de récupération de chaleur ou de production d’électricité d’origine renouvelable.

Michel Robert ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'a déclaré aucune autre affiliation que son organisme de recherche.

Les objets connectés modifient-ils nos rapports à la santé ?

2021-02-07T17:24:31Z

Les objets ne sont pas uniquement des biens matériels, ils ont aussi des dimensions identitaires, affectives, patrimoniales… Apichit / Pixabay

L’anthropologie étudie de longue date le rôle constitutif des objets dans la fabrique de nos mondes sociaux et de nos cultures matérielles. Investis de sens, ils prennent part à l’élaboration de nos connaissances sur le monde comme sur nous-mêmes. Or depuis quelques décennies, nos environnements s’organisent, de manière prégnante, avec des objets qui se parent d’une dimension inédite par l’amplitude de son déploiement dans nos activités quotidiennes : ils sont « connectés ».

Cette caractéristique fait écho à la place qu’occupe le numérique dans nos sociétés dites hyperconnectées. Nos contextes de vie se renouvellent, informés par les technologies de l’information et de la communication (TCI), les réseaux sociaux, les applications et bien sûr les objets qui supportent et matérialisent ces dimensions connectées de nos existences et de nos relations sociales. De sorte que nos environnements sont aujourd’hui en partie construits par ces objets qui les médiatisent et dans un même mouvement, encadrent et façonnent nos perceptions de ce qui nous entoure.

On comprend alors l’intérêt que lui portent les sciences sociales, en s’attachant à rendre compte de leur part dans les transformations de nos manières d’habiter ce nouveau monde, pleinement tendu vers la « culture numérique ». La santé n’échappe pas à cette dynamique, nous invitant à interroger les changements qui y sont potentiellement associés.

Objets connectés et santé

Le domaine de la santé est aujourd’hui traversé par le numérique sous de multiples formes, de la gestion numérisée des dossiers de patients à la consultation à distance en passant par l’usage d’applications et d’objets connectés. On parle d’ailleurs d’« e-santé » (ou santé numérique), un mot-valise pour signifier cette réalité qui englobe une hétérogénéité de situations, d’acteurs et de pratiques tout en échappant à une véritable forme d’organisation centralisatrice.

L’une des caractéristiques de cette santé numérique tient à la production d’une multitude de données qui circulent et s’échangent, en se transformant en informations au service d’activités de prévention ou de soins. Ces données reposent notamment sur des applications et des objets : téléphones, montres, appareils individuels de mesure tels que les glucomètres, tensiomètres. Des objets connectés et mobiles dont l’idée communément admise est qu’ils offrent de nouvelles possibilités – mais les données manquent pour apprécier pleinement leur efficacité – en termes de prévention, de surveillance de variables physiques, de dysfonctionnements physiologiques et de prise en charge de problèmes de santé pour les soignants comme pour les personnes souffrant de maladies, en particulier chroniques.

Parce qu’ils prennent part à la production et à la circulation d’informations autour de variables biologiques et comportementales, ces objets sont ainsi crédités de bénéfices tels qu’une meilleure observance thérapeutique, ou une autonomie accrue des patients face à leurs problèmes de santé. Derrière leur conception, puis leur mise en circulation, il y a l’idée de permettre à chacun de se comporter de manière plus responsable, en acteur de sa santé et de son bien-être – voire en « patient expert » sous l’effet de réactions quasi instantanées à des quantifications que médiatisent ces objets censés objectiver des risques. Proposer par exemple un inhalateur qui, par géolocalisation des prises de médicaments croisées à des données météorologiques, ou de pollution, indiquerait des zones allergènes à risque aux personnes atteintes d’asthme illustre ce type de projet.

Des recherches anthropologiques sont en cours pour analyser le rôle de ces objets dans les expériences corporelles et de santé qui se dessinent avec ce XXI^e siècle. Par exemple, dans la prise en charge de crises chroniques liées à l’asthme, en rendant compte de manières dont se prennent des « habitudes », dont se ritualisent de nouveaux usages tout en questionnant, dans un même mouvement, ces attentes éminemment culturelles et sociales qui normalisent la nécessité de contrôle de soi au quotidien à partir de données techniques et chiffrées.

Ce que les objets « font » avec et aux personnes

Les objets ne sont jamais seulement de la matière entre nos mains. Porteurs de significations, de désirs, d’attentes, de fonctions par les personnes qui les fabriquent puis par celles qui les utilisent, ils recouvrent diverses dimensions (patrimoniales, identitaires, affectives, médiatrices, etc.) au cours de leur « vie sociale ».

De fétiches en biens culturels, d’éléments décoratifs en ustensiles, les objets permettent des manipulations complexes et ce faisant, occupent des statuts distincts, de manière successive ou simultanée au regard des trajectoires qu’ils suivent, des interactions et des significations qu’ils médiatisent. Ils sont en ce sens des éléments actifs dans les relations entre les individus et leur environnement.

L’anthropologie et la sociologie, en particulier des techniques, ont de longue date souligné l’intérêt de penser les objets non seulement à partir de leur création, mais aussi au prisme de ce qu’ils « font » avec les personnes et aux personnes. Car l’objet n’est pas inerte dans l’action : il opère sur la relation et les interactions, ce qui conduit le philosophe et anthropologue Bruno Latour à parler d’une rupture épistémologique entre une approche intersubjective et une approche interobjective des mondes sociaux.

Les objets connectés de santé n’échappent pas à ces dynamiques. Si chacun de nous n’est pas qu’utilisateur·trice d’objets aux fonctions pensées pour nous, il faut alors rendre compte des manières dont ces objets prennent part à nos expériences quotidiennes de santé : dans quelle mesure peuvent-ils faire de nous des individus différents ?

Des rapports renouvelés au corps ? À la santé ?

Nous manquons de recherches qualitatives qui se distinguent de retours d’expériences et de procédures d’évaluation quantitative d’usages de ces objets connectés de santé, pour appréhender les processus par lesquels ils deviennent constitutifs de nos savoirs (sur le corps, les risques et maladies qui le fragilisent), notamment par les expériences intimes et empiriques que nous faisons de ces corps mesurés, traduits en chiffres et courbes.

Malgré des programmes de recherches interdisciplinaires en cours, nous manquons aussi de matériaux qualitatifs pour saisir dans toute leur complexité comment les usages routiniers de ces objets connectés prennent part à des changements plus paradigmatiques concernant nos représentations de nos corps dans leur interrelation avec nos comportements et in fine, comment ces objets interfèrent dans la relation de soin avec les professionnels de santé. Car, utilisés au quotidien, ils délivrent des informations parfois en dehors de la temporalité de l’interaction avec le soignant. En ce sens, l’objet peut renforcer le rôle des individus dans la gestion de leur corps objectivé au-delà – voire en dehors ? – de la relation médecin-patient.

Soulignons aussi que nombre d’objets et d’applications n’ont pas de finalité médicale déclarée. Ils ne font pas partie des dispositifs médicaux pour lesquels les autorités sanitaires définissent de « bonnes pratiques » qui garantissent leur sécurité et leur qualité, en cadrant leur utilisation. Pourtant, ils peuvent avoir des effets sur la santé, ne serait-ce que par les significations qui leur sont attribuées en la matière, lesquelles induiront ces effets. Comment ces objets sont-ils concrètement mis en résonance avec des questions de prévention, d’exposition à des risques ? Les réponses à ces interrogations gagneront à reposer sur des recherches pluridisciplinaires en sciences sociales et en santé publique.

Jason KOMAN a reçu un financement CIFRE dans le cadre de sa thèse par la société Kap-Code, fabriquant d'objets connectés en santé.

Isabelle Gobatto ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'a déclaré aucune autre affiliation que son organisme de recherche.

Pourquoi la 5G gonflera notre consommation d’énergie

2020-11-03T19:45:59Z

Les nouveaux usages de la 5G vont nécessiter de traiter beaucoup de données -- en plus de les transmettre. Sashkin / Shutterstock

Les débats autour de l’attribution des fréquences de la cinquième génération de téléphonie mobile (5G) inondent les pages de nos journaux, mais les conséquences de son introduction sur la consommation d’énergie ne sont pratiquement pas discutées. Les nouveaux usages permis par la 5G, comme les communications de masse entre machines, par exemple la « maison intelligente » ou la « ville intelligente », vont de facto augmenter les flux de données transmis.

L’analyse de la consommation énergétique ne doit donc pas être restreinte à celle de la 5G elle-même qui ne concerne que la partie transmission des informations : elle doit prendre en compte le traitement des données qui sont transmises.

La 5G : transmission et traitement des informations

La 5G est un standard de communication qui permet la transmission d’informations entre un émetteur et un récepteur, qui peuvent être mobiles, grâce à des ondes électromagnétiques radiofréquences. Un standard définit à la fois les aspects matériels (antennes, terminaux) et logiciels (modulation, mode d’accès au réseau) qui permettent ce transfert. À ce standard sont associés un certain nombre de critères de performances, comme le débit des informations qu’il est possible d’échanger, ou la vitesse à laquelle un terminal se connecte au réseau. Ces critères sont sensiblement améliorés lorsque l’on passe de la technologie 4G à la 5G avec, par exemple, des débits attendus d’information de plusieurs gigabits par seconde.

Mais la transmission des données est toujours associée, dans l’appareil émetteur et dans l’appareil récepteur, à leur traitement. Quand nous prenons une photo ou une vidéo avec un téléphone, les images sont codées et transmises par le téléphone, via différents modes de communication (radio, fibre optique…), vers un récepteur. Le récepteur, par exemple le serveur d’un réseau social, va lui-même traiter les images pour les insérer dans une page web, ou les mémoriser, ou encore les renvoyer vers d’autres utilisateurs. L’augmentation des débits possibles permis par de nouveaux canaux de communication va donc inévitablement s’accompagner d’une augmentation du nombre des données qui devront être traitées.

Alors que la question de la consommation d’énergie des terminaux fixes (ordinateurs, serveurs…) ou mobiles (téléphones, tablettes) qui effectuent ce traitement n’est que peu abordée, elle représente bien plus de 50 % de la consommation d’énergie.

Le traitement électronique de l’information

Alan Turing vers 1938. Wikipedia

Quel que soit l’appareil utilisé, c’est un (micro)processeur qui effectue la fonction de traitement. Tous ont la même architecture et tous fonctionnent selon le même principe, proposé par le génial mathématicien Alan Turing en 1936 (c’est-à-dire bien avant l’invention des ordinateurs) et adapté aux dispositifs électroniques par John Von Neumann en 1945.

Les premiers processeurs sont apparus au début des années 70, et pendant près de 40 ans, la progression de leurs performances a été extraordinaire, avec un doublement tous les 18 mois environ. Cette progression exponentielle, quelquefois appelée loi de Moore, a permis l’« électronisation » de la société et l’avènement de l’internet. Cependant, pour des raisons physiques assez fondamentales, cette progression est aujourd’hui terminée et la fin de la « loi de Moore » est aujourd’hui bien admise. Les performances des processeurs ont donc atteint leurs limites et nous ne pouvons pas nous attendre à une amélioration sensible dans les années futures de la rapidité de calcul ou de la consommation d’énergie. Cette limitation des performances s’applique à tous les processeurs, que ce soient ceux de nos ordinateurs, de nos téléphones portables ou des serveurs des géants de l’internet.

L’inefficacité énergétique des processeurs

Le problème est que l’efficacité énergétique actuelle de nos processeurs est très mauvaise, et ceci pour deux raisons fondamentales.

La première est que les bits, c’est-à-dire les 0 et les 1 qui codent les informations, sont représentés dans le processeur par des charges électriques. Or ces charges se déplacent sans cesse pour produire des courants électriques entre les différentes parties du circuit. Or ce mouvement ne peut se faire sans dissipation de chaleur : c’est la fameuse loi de Joule.

Un microprocesseur Athlon de la compagnie AMD. David W. Smith/Wikimedia, CC BY

La seconde résulte d’une caractéristique des machines de Turing, et donc de nos ordinateurs, qui est le traitement en « série » des informations. Comme le processeur ne traite qu’une opération à la fois, la vitesse du traitement doit être très rapide. Or, les dispositifs électroniques constituant le processeur ne peuvent à la fois travailler vite et consommer peu. Ce dilemme rapidité-puissance est similaire à la vidange d’un réservoir : pour le vider très vite, il faut un grand débit. C’est la même chose dans un circuit électronique : il faut un courant important et la chaleur générée par effet Joule augmente. Les processeurs consomment donc une puissance électrique variant de quelques dizaines à plus d’une centaine de watts. Cette puissance se transforme essentiellement en chaleur : un processeur est avant tout un radiateur électrique.

Pour illustrer la mauvaise efficacité énergétique de nos processeurs, prenons deux exemples emblématiques.

En 2016, le programme AlphaGo a battu le champion du monde du jeu de Go, Lee Sedol. De façon assez remarquable, AlphaGo ne contient au départ aucune connaissance spécifique sur le Go, son algorithme repose sur des réseaux de neurones et ses coups résultent essentiellement d’un apprentissage. Cette victoire impressionnante d’AlphaGo repose sur une formidable puissance de calcul constituée de près de 1400 processeurs, nécessitant une puissance électrique de plusieurs centaines de kilowatts. À l’inverse, Lee Sedol n’a utilisé qu’environ 20 ou 30 watts pour réfléchir et jouer, soit 10 000 moins qu’AlphaGo. D’un point de vue énergétique, la compétition était donc assez, injuste, un peu comme celle d’une course de vitesse entre un humain et une voiture de Formule 1.

Un autre exemple est celui du véhicule autonome, technologie qui, selon certains, serait « boostée » par la 5G. Rendre autonome un véhicule nécessite une puissance de calcul considérable, constituée de plusieurs dizaines de processeurs qui nécessitent pour leur fonctionnement, une puissance électrique de plusieurs kilowatts (de 3 à 5 kilowatts). Ainsi, un véhicule électrique autonome utilise une part significative de l’énergie de ses batteries pour traiter de l’information alors que ce traitement est « gratuit » lorsque le véhicule est conduit par un humain. Par exemple, pour faire avancer une voiture sur 100 km, il faut environ 12-15kWh. Si le véhicule parcourt cette distance en deux heures, la puissance nécessaire au calcul sera de 6 à 10 kWh. Plus la vitesse de la voiture est basse, plus la puissance de calcul prend de l’importance, proportionnellement. C’est assez paradoxal !

Favoriser une technologie énergivore comme celle des véhicules autonomes à grande échelle constitue donc un non-sens écologique et va à l’encontre des engagements de sobriété énergétique et d’émission de CO₂ prévus dans l’accord de Paris.

« Intelligence » et énergie

Nous voyons donc bien que toutes les applications gourmandes en calculs et en particulier toutes celles se réclamant « intelligentes » (intelligence artificielle, ville intelligente, capteurs intelligents, etc.) sont en fait des gouffres énergétiques, car le caractère « intelligent » de ces applications ne résulte en fait que d’une grande puissance de calcul. Il y a aujourd’hui une profonde confusion entre « intelligence » et « puissance de calcul » comme l’ont montré Jeff Hawkins et Sandra Blakeslee dans « Intelligence : comment une compréhension nouvelle du cerveau conduira à la création de machines véritablement intelligentes ». La communauté scientifique commence d’ailleurs à s’intéresser à la question de la consommation énergétique de l’intelligence artificielle, en particulier dans le cas des nombreuses applications utilisant l’apprentissage profond ou deep learning.

Ainsi, la multiplication des usages et des données à traiter, permise avec une nouvelle technologie de communication comme la 5G, ne peut donc qu’augmenter la consommation électrique globale de la chaîne « transmission + traitement » en raison de l’inefficacité énergétique de la partie traitement.

Que faire ? Face à la mauvaise efficacité énergétique actuelle de nos systèmes de traitement, nous pouvons agir dans deux directions : à court terme, encourager l’innovation frugale ou parcimonieuse, c’est-à-dire ajouter la contrainte d’une utilisation limitée de ressources matérielle et énergétique lors de tout processus d’innovation, ce qui de facto limite les applications qui génèrent le traitement de grandes quantités de données, et, à plus long terme proposer de nouveaux paradigmes du traitement de l’information, plus efficaces en énergie, par exemple ceux s’inspirant du fonctionnement du cerveau.

Alain Cappy ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'a déclaré aucune autre affiliation que son organisme de recherche.

Quelles limites pour le traçage numérique ? StopCovid et au-delà

2020-09-08T18:47:31Z

Le traçage numérique est limité par des facteurs technologiques et humains, dans sa conception et son utilisation. Piqsels

Le traçage des contacts des personnes atteintes de la Covid-19 est un des moyens les plus efficaces pour casser les chaînes de transmission et ainsi freiner la diffusion du virus. Cela a amené l’État à favoriser le développement d’une application, StopCovid, et à mettre en place des équipes chargées de prévenir aussi rapidement que possible les contacts identifiés des personnes contagieuses.

Le but de l’opération est donc évident et positif, accepté par tous. Cependant, on remarque une situation paradoxale. D’une part, StopCovid est relativement inefficace, avec très peu d’alertes émises. D’autre autre part, StopCovid est faiblement adopté, avec 2,3 millions de téléchargements et de nombreuses désinstallations. Enfin, lors des enquêtes des brigades sanitaires, il y a eu des refus de communiquer sa liste de contacts aux enquêteurs.

Au-delà des positions extrêmes en matière de traçage, du refus systématique à l’acceptation béate, fondée sur des arguments de type « pourquoi refuser si on n’a rien à cacher ? », l’expérience en cours devrait pousser à s’interroger sur les technologies déployées. Le traçage est-il seulement un problème technique ? Pourquoi y a-t-il des réticences, si le suivi permet de stopper la maladie, comme on l’a parfois entendu ? Est-ce juste un manque d’« éthique de responsabilité » de la part des Français ?

Le traçage, une technique encore très approximative

Le point de départ est StopCovid, une application de traçage fondée sur le Bluetooth et non sur la géolocalisation de l’utilisateur. Le Bluetooth permet seulement d’avoir accès aux contacts proches, tandis que la géolocalisation est une technologie plus intrusive, permettant de localiser le propriétaire du téléphone en temps réel. Le Bluetooth est moins intrusif, mais aussi relativement peu efficace, n’étant pas conçu pour estimer les distances, surtout quand le téléphone est dans un sac ou au fond d’une poche.

Et surtout, l’accès au Bluetooth est fortement limité par Google (Android) et surtout Apple (iOS), suite à des abus à répétition de la part de développeurs d’applications.

Le gouvernement français s’est en fait engagé dans une bataille perdue d’avance pour obtenir l’accès aux données du Bluetooth « en arrière-plan », c’est-à-dire quand l’application StopCovid n’est pas active au premier plan. En effet, alors que l’État français souhaitait pouvoir centraliser les informations récoltées sur un seul serveur, afin de pouvoir mieux suivre l’évolution de l’épidémie, Apple et Google ont bien fourni une API – une interface permettant l’accès à certaines informations de traçage – mais cette API était limitée, décentralisée, et non conforme aux demandes de l’État.

Cet épisode a souligné à quel point l’accès à ces données est soumis au bon vouloir et aux conditions des GAFA, en l’occurrence Google et Apple. Les États qui ont refusé d’utiliser l’API proposée ont alors dû développer des applications moins efficaces, du fait des limites imposées sur le Bluetooth – c’est le cas de la France – voire pour certains de changer leur fusil d’épaule et finir par se plier à la solution proposée par Google et Apple – c’est le cas du Royaume-Uni qui a ainsi mis une première application à la poubelle du fait de son inefficacité liée au bridage du Bluetooth.

Le traçage est utile, mais pas suffisant, pour éliminer le virus

Au-delà de la dépendance aux GAFA, le discours sur le traçage, et plus généralement la reconstitution des contacts et des chaînes de transmission, lui-même a été peu étudié. Le traçage permet de rompre les chaînes de transmission, mais seule une partie de la réalité est visible. En effet, il n’y a pas de bouton magique permettant d’identifier tous les malades à un instant t. On sait par ailleurs qu’il y a des malades asymptomatiques, d’autres qui ne se font pas connaître, etc. Enfin, les modes de transmission de la maladie, de même que la durée de la contagiosité, restent encore aujourd’hui assez mal connus.

Ainsi, lorsque la France était en phase 2 en février 2020, le traçage des premiers malades connus, dans l’Oise notamment, visait à remonter au fameux « patient 0 » : il s’agit effectivement d’une pratique connue du monde médical, afin de comprendre comment une maladie s’est diffusée. Les reportages en forme d’enquête policière, en particulier les reportages télévisés de février 2020, pouvaient laisser penser que l’identification du fameux patient 0 permettrait d’éradiquer complètement le virus, comme l’identification du coupable permet de refermer une enquête policière.

On sait depuis que la maladie circulait en fait déjà à bas bruit depuis la fin 2019 en France. Or, il est assez évident que si tracer les contacts est utile, c’est loin d’être suffisant pour éliminer un virus invisible, dont les modes de transmission restent très imparfaitement connus. Par ailleurs, et on le voit davantage chaque jour, tracer implique d’agir rapidement, d’avoir des équipes disponibles, nombreuses et réactives, d’isoler les malades, etc. Choses simples en apparence, mais difficiles à mettre en place en pratique quand surviennent des milliers de nouveaux cas chaque jour et qu’on peine à joindre les contacts des personnes infectées.

L’adoption du traçage dépend de manière fondamentale de facteurs humains

Pourquoi seule une très faible minorité de Français a-t-elle installé l’application StopCovid ? Pourquoi ne pas installer une application ouverte, utile et gratuite dans un contexte d’angoisse quant à la situation sanitaire ? Pourquoi avoir peur du traçage alors qu’on sait que nos portables nous « tracent » en permanence dans tous nos déplacements ?

Peut-être, tout simplement, parce que l’application est, paradoxalement et à rebours de son but premier, anxiogène. En effet, elle contribue à faire sentir à celui qui l’a installée qu’il court un risque à tout moment – risque de croiser un porteur de la Covid-19, de recevoir une notification, de se sentir traqué et toujours en sursis. Ne pas installer l’application peut être vu comme égoïste, dans la mesure où il s’agit, comme avec le masque, que « tout le monde protège tout le monde » en adoptant de nouvelles pratiques. En fait, au-delà des doutes sur l’efficacité de l’application et sur son caractère intrusif – même si les données personnelles sont soigneusement protégées, c’est probablement son caractère anxiogène qui est son principal frein. Sans omettre la peur d’être désigné comme celui qui a contaminé les autres : les garanties d’anonymat ne peuvent empêcher ce type de crainte, qu’elle soit rationnelle ou non.

Évidemment, tout le monde souhaite que cette pandémie se termine, qu’il n’y ait plus ni malade ni mort et, même si on peut rêver à un « monde d’après » meilleur, le monde d’avant, où on pouvait se rencontrer et faire la fête, n’était pas si mal. Il ne s’agit donc pas ici de critiquer le traçage et l’idée de briser les chaînes de transmission du virus, mais de comprendre pourquoi le traçage n’est pas plus efficace et pourquoi il suscite parfois des réticences.

Le traçage au-delà de la Covid-19

La crise actuelle est une nouvelle occasion de nous interroger sur notre dépendance aux GAFA d’une part, et de souhaiter une meilleure prise en compte des facteurs humains dans les dispositifs techniques et les modèles scientifiques d’autre part.

Le traçage pose enfin d’autres problèmes, encore plus fondamentaux, en matière de souveraineté, et de libertés individuelles et collectives notamment : quelle information doit être partagée ? Avec qui ? À quelle fin ? Ces questions sont toujours d’une actualité brûlante, même si on a l’impression qu’en la matière, l’éthique court souvent après la technologie.

Thierry Poibeau est membre de l'institut 3IA PRAIRIE (PaRis Artificial Intelligence Research InstitutE, http://prairie-institute.fr/).

Comment stocker des données à (très) long terme ?

2020-06-09T17:57:55Z

Illustration de stockage de données binaire dans des brins d'ADN. ymgerman / shutterstock

Dès la préhistoire, l’être humain a commencé à stocker des informations, par exemple grâce aux hiéroglyphes et pétroglyphes. L’apparition des premiers ordinateurs dans les années 1940 a marqué les débuts du stockage numérique. De la carte perforée des premiers temps aux solutions de stockage sur des clouds à l’heure actuelle, de nombreux supports se succèdent, évoluant en taille et en robustesse. Ceux-ci doivent permettre de stocker des quantités de données toujours plus importantes, tout en garantissant un accès à ces données sur le long terme. L’obsolescence de certains supports est un risque considérable pour notre mémoire collective.

Depuis le milieu des années 1990, le terme big data désigne l’augmentation exponentielle des volumes de données créées. Ainsi, le volume cumulé était de 33 zetaoctets en 2018 et devrait atteindre 175 zetaoctets en 2025 (1 zetaoctet correspond à un trilliard d’octets). Le big data représente un potentiel de création de valeur important, que ce soit à travers des données saisies dans les systèmes d’information des entreprises, des données collectées sur Internet (en particulier sur les réseaux sociaux), ou encore des données capturées par les objets connectés. Au-delà de cet usage commercial des données, les besoins des individus augmentent aussi, que ce soit pour le stockage de documents, de photos ou de vidéos.

Les solutions matérielles de stockage existantes

Plusieurs technologies de stockage de données existent : les disques durs, les disques optiques, les disques à mémoire flash et le cloud. Dans les technologies actuelles, les données sont représentées en utilisant un code binaire, c’est-à-dire uniquement des 0 et des 1. Des creux ou des bosses sont créés sur la surface de stockage, soit en la gravant, soit en utilisant un champ magnétique pour déplacer des particules de fer. Chaque caractère est représenté par un octet, succession de huit chiffres binaires.

Les disques durs sont composés de plateaux rigides qui tournent autour d’un axe. Ces plateaux sont recouverts de particules d’oxyde de fer et vont passer devant une tête d’enregistrement magnétique destinée à aimanter ces particules pour inscrire des 0 ou des 1 sur la surface du plateau. Désormais peu onéreux, avec de gros volumes de stockage (jusqu’à 16 Teraoctets pour les plus performants), leur durée de vie reste relativement faible – de 2 à 8 ans en moyenne et leur vitesse est relativement peu faible. Les disques durs sont sensibles en raison de la vitesse de rotation des plateaux qui entraîne une usure de différents composants.

Les disques optiques, constitués de matière plastique rigide recouverte d’une couche métallique sur une des faces, existent depuis des décennies. Le code binaire est gravé sur la face métallique à l’aide d’un laser. Chaque passage d’un creux à une surface plane est inscrit un 1. Tous les autres emplacements du disque se voient affectés un 0. Par rapport aux disques durs, les risques de pertes de données sont moins importants et la durée de stockage peut être beaucoup plus importante (jusqu’à 100 ans selon les fabricants). Mais la pérennité du stockage repose sur la possibilité de lire ces disques – sur la continuité de fabrication des lecteurs – et sur de bonnes conditions de stockage, en raison des risques de rayure. La capacité de stockage reste relativement faible : 700 MB pour les CD-R, 4,7 GB pour les DVD et 25 GB pour les Blu-Ray.

Si vous comptiez sur les disques Zip ou Jaz pour stocker toutes vos archives, bonne chance pour trouver un lecteur qui puisse les lire aujourd'hui. Leighton Kille/The Conversation France, CC BY

Depuis la fin des années 2000, les disques SSD (solid state drive) reposent sur la « mémoire flash » : les données sont stockées dans des puces électroniques où le code binaire est représenté par des charges électriques, chaque transistor de la puce permettant de stocker un 0 ou un 1. Les principaux avantages de cette technologie sont que les composants ne se déplacent plus, limitant les risques de casse, et elle offre une solution de stockage sécurisée pour un encombrement réduit. Pour l’instant, les disques SSD sont plus onéreux que les disques durs ou les disques optiques. Les fabricants indiquent une durée de vie de 10 ans, mais cette technologie existe depuis trop peu de temps pour connaître les durées de vie réelles, d’autant que celle-ci dépend plus de l’usage qui en est fait que du temps écoulé.

Plutôt que d’investir dans une solution technique, le recours à une solution de cloud computing peut permettre de garantir l’intégrité des données à long terme : il consiste à utiliser des ressources informatiques (serveurs, espaces de stockages et/ou logiciels) qui n’appartiennent pas à l’utilisateur. Ces solutions sont onéreuses mais l’offre de service intègre la réplication des données pour garantir leur intégrité.

Les solutions de réplication

Quel que soit le type de support utilisé, la réplication des données est indispensable pour garantir l’intégrité des données stockées : il s’agit de copier les données sur un autre support, et, idéalement, de stocker la copie dans un autre lieu pour éviter les risques de destruction simultanée des données sources et de la réplication.

Les solutions cloud intègrent des systèmes de stockage distribués garantissant la disponibilité des données et leur durabilité. Pour les systèmes de stockage physiques, il est nécessaire d’effectuer des réplications régulières, en prenant en considération les évolutions matérielles et logicielles, car certains lecteurs ou supports de stockage peuvent être amenés à disparaître. C’est ce qui s’est produit par exemple pour les disquettes, les disques Zip – et la plupart des ordinateurs actuels sont maintenant dénués de lecteurs de disques optiques.

La même problématique se retrouve pour les formats de fichiers. Mieux vaut privilégier des formats ouverts (PDF pour le texte, JPEG pour les images ou encore MPEG-2 pour l’audio) au détriment des formats fermés (formats Microsoft Office ou formats Adobe, par exemple). Ces derniers appartiennent à un éditeur déterminé et celui-ci peut cesser de les utiliser à tout moment. Certains formats développés par des éditeurs sont ouverts. C’est le cas par exemple du format PDF, développé par l’entreprise Adobe, et devenu un standard défini dans une norme ISO.

Vers un stockage de très longue durée

Comme nous venons de le voir, les systèmes de stockage existants sous soumis à des contraintes de taille et de durée de vie. Les chercheurs tentent de développer de nouvelles solutions qui permettraient de réduire ces contraintes et de faire face au volume croissant de données.

Des solutions existent déjà pour permettre du stockage sur le très long terme. Les disques Milleniata (M-DISC) existent depuis 2009. Ces disques optiques permettent de conserver des données sur de très longues durées (au moins 100 ans et jusqu’à 1000 ans selon les concepteurs) en raison de l’utilisation d’un matériau spécifique pour créer la couche de stockage des données. La solidité de ces disques a été testée avec succès par le Ministère américain de la Défense. Ces supports nécessitent de posséder un graveur spécifique, mais peuvent être lus sur un simple lecteur DVD. L’accès aux données reste soumis à l’existence de tels lecteurs sur le long terme. D’autres initiatives existent pour rechercher des matériaux résistants, tels les cristaux de quartz ou les diamants, qui pourraient permettre des stockages de longue durée.

Depuis plus d’une dizaine d’années, la possibilité de stocker des données dans de l’ADN est envisagée. Le codage de l’ADN repose sur quatre bases (A, C, G et T), et la première étape consiste à convertir les 1 et les 0 du système binaire vers ces quatre lettres. La création d’une molécule d’ADN synthétisée permet de stocker ces données. Les recherches progressent sur le sujet. Plusieurs entreprises parviennent déjà à fabriquer de l’ADN synthétique. Microsoft a développé le premier système de stockage ADN automatisé : le mot « hello » a été encodé dans des molécules d’ADN et a pu être converti à nouveau en format binaire. L’entreprise Catalog a pu, quant à elle, stocker le contenu du site Wikipedia en anglais dans des molécules d’ADN à l’aide d’un appareil dont le fonctionnement est proche de celui d’une imprimante. Recourir à ce nouveau système de codage permettrait d’augmenter considérablement les volumes stockés. Ainsi, il serait possible de stocker 700 000 GB dans un seul gramme d’ADN. Par ailleurs, ce support possède une longévité incomparable. Dans des conditions de stockage optimales, celle-ci pourrait atteindre des millions d’années.

Données de santé : l’arbre StopCovid qui cache la forêt Health Data Hub

2020-05-25T18:12:17Z

Le projet de traçage socialement « acceptable » à l’aide des smartphones dit StopCovid, dont le lancement était initialement prévu pour le 2 juin, a focalisé l’intérêt de tous. Apple et Google se réjouissaient déjà de la mise en place d’un protocole API (interface de programmation d’application) qui serait commun pour de nombreux pays et qui confirmerait ainsi leur monopole.

Mais la forte controverse qu’a suscitée le projet en France, cumulée au fait que l’Allemagne s’en est retirée et à l’échec constaté de l’application à Singapour, où seulement 20 % des utilisateurs s’en servent, annoncent l’abandon prochain de StopCovid.

« Ce n’est pas prêt et ce sera sûrement doucement enterré. À la française », estimait un député LREM le 27 avril auprès de l’AFP.

Pendant ce temps-là, un projet bien plus large continue à marche forcée : celui de la plate-forme des données de santé Health Data Hub (HDHub).

Health Data Hub, la forêt qui se cache derrière l’arbre

Dès la remise du rapport Villani sur l’intelligence artificielle (IA) en mars 2018, le président de la République annonce le projet HDHub. En octobre de cette même année, une mission de préfiguration définit les traits d’un système national centralisé regroupant l’ensemble des données de santé publique, un guichet unique à partir duquel l’IA pourrait optimiser des services de reconnaissance artificielle et de prédiction personnalisée.

Mais l’écosystème de l’IA s’apprête aussi à franchir une nouvelle marche en obtenant l’accès à des données massives provenant des hôpitaux, de la recherche, de la médecine de ville, des objets connectés, etc., et à un marché massif de la santé (prestigieux et à valeur potentielle énorme dans la mesure où il pèse plus de 12 % du PIB). La France, avec son assurance maladie, et le Royaume-Uni, avec son National Health Service (NHS), font ici figure de test, puisque des données cohérentes et fiables y sont maintenues depuis des décennies : Amazon a déjà accès à l’API du NHS pour alimenter son assistant vocal, et Microsoft a déjà signé l’hébergement de toutes les données de santé françaises (stockage, gestion des logs et des annuaires, puissance de calcul et conservation des clés de chiffrement).

Author provided

Le projet HDHub mené « au pas de charge »

En novembre 2018, Stéphanie Combes est nommée cheffe de projet. Fin 2018, le choix de Microsoft est déjà acté (en « dispense de marché public »), alors même que la définition des principes de HDHub attendront juillet 2019 (dans la Loi Santé) et que ses missions ne seront définies qu’en avril 2020, par arrêté ministériel. La CNIL, malgré ses échanges avec Stéphanie Combes, continue à se poser de nombreuses questions.

D’autres voix se sont inquiétées de la gestion si hâtive du projet (comme le Conseil national des barreaux, l’Ordre national des médecins ou encore un député LREM) ; des collectifs ont lancé des alertes argumentées, comme les professionnels de InterHop ou les entreprises du logiciel libre ; et certains médecins ont mis en ligne des vidéos exprimant leur révolte.

Health Data Hub, un cas d’école sur toutes les problématiques du numérique

Contourner l’arbre qui cache la forêt, c’est découvrir toute l’étendue des questions posées par la « transformation numérique » dans la société, et ici dans la santé.

Les questions politiques se cristallisent ici autour du choix de Microsoft, que Stéphanie Combes justifie très classiquement par l’urgence, sans publication des délibérations : « Microsoft était le seul capable de répondre à nos demandes. On a préféré aller vite, pour ne pas prendre de retard et pénaliser la France. »

C’est une question de politique nationale, déjà soulevée dans The Conversation France, puisqu’il s’agit de faire gérer un bien public par un acteur privé, et sans espoir de réversibilité. Mais aussi une question politique de souveraineté numérique européenne puisque cet acteur étasunien se trouve soumis au Cloud Act, loi de 2018 qui permet aux juges américains de demander l’accès aux données sur des serveurs situés en dehors des États-Unis.

Health data Hub, plate-forme de la discorde ou de la concorde ? Extrait du débat « Les Contrepoints de la santé » du 18 décembre 2019 sur le thème des données de santé : « Volontarisme ou vigilance » avec Stéphanie Combes, Directrice du Health Data Hub, Pr Laure Fournier, Service de Radiologie, Hôpital Européen Georges Pompidou, Pierre-Alain Raphan, député de l’Essonne, David Gruson, comité pilote d’éthique du numérique, fondateur du think tank Éthik-IA.

Les questions techniques se révèlent ici dans un vif débat entre centralisation ou interopérabilité des bases de données. La centralisation définit des architectures de « défense en profondeur » avec des barrières successives par exemple dans le nucléaire ; dans le projet HDHub, cette défense est sous-traitée chez Microsoft.

Stéphanie Combes observe que « si l’on veut faire du traitement de données à cette échelle, on doit centraliser, c’est la seule solution ». À l’opposé, la vision technique des architectures de l’interopérabilité vise à « ne pas mettre tous ses œufs dans le même panier » : d’une part, la majorité des attaques ne viennent pas de l’extérieur mais de l’intérieur, avec un risque plus élevé en cas de centralisation, et d’autre part l’anonymat ne résiste pas à la ré-identification d’une personne par croisement de données.

Cette architecture décentralisée consiste alors à gérer les échanges en réseau entre des bases de données qui restent hétérogènes et entre des traitements distribués sur plusieurs serveurs, mais en intégrant ces échanges par des couches d’interfaces qui sont aujourd’hui standardisées et en Open source. À titre d’exemple, c’est une option qui a été choisie dans le projet eHop pour un groupe d’hôpitaux. Elle présente l’avantage de maintenir localement les compétences des ingénieurs et des soignants, nécessaires à la qualification des données de santé.

Les questions juridiques concernent ici le consentement et le secret médical. Les principes européens du RGPD organisent le consentement dès la conception des systèmes d’information (privacy by design) et par une culture de transparence interne dans les organisations (via le délégué à la protection des données). Les données des patients touchent bien sûr à leur intimité, mais la durée, le droit de retrait et surtout la finalité claire d’une utilisation de ces données, sont des principes intangibles fixés par la CNIL.

Stéphanie Combes a donné des perspectives sur ce point :

« Les données ne sont censées être stockées que durant la période de l’état d’urgence sanitaire. À sa fin, elles devront être détruites, SAUF SI un autre texte prévoit cette conservation lors de la mise en place finale du Health Data Hub. »

Dans la pratique, et sans compter les problèmes futurs de responsabilité individuelle du médecin, les patients pourraient être soumis à une rupture du secret médical, un principe juridique mais aussi une règle éthique qui fonde la confiance basée sur le serment d’Hippocrate. Une rupture de cette confiance présenterait bien sûr des risques en termes de santé publique.

Les questions économiques se cristallisent autour des enjeux de la transformation numérique. Les tenants du néo-libéralisme voient surtout dans le numérique une force de destruction créatrice : la dérégulation et le désengagement des États favorisent l’innovation disruptive et la croissance par des start-up. Au-delà du seul intérêt scientifique, un développement rapide de l’IA grâce aux GAFAMI, les six géants américains qui dominent le marché du numérique, peut donc être considéré comme relevant de « l’intérêt général », une finalité introduite en 2019 dans la Loi santé.

À l’opposé, les tenants d’une politique économique alternative voient surtout dans le numérique une possibilité de gestion des communs numériques, en suivant les analyses de Elinor Ostrom : des ressources immatérielles non rivales, dont les règles d’accès et d’usage sont gérées par des communautés auto-organisées très diverses (par exemple, depuis Internet, en passant par Wikipedia et jusqu’à l’Open data, le logiciel libre ou les énormes bases scientifiques de type Protein Data Bank). Ceux qui partagent cette vision dénoncent l’idée de la séparation entre d’une part la qualification des données médicales, qui se fait grâce à un long travail de collecte et de tri financé par le secteur public et soumis aux traités de libre circulation des données, et d’autre part la valorisation de ces données, avec une marchandisation de la santé par le secteur privé que protègent les traités sur les brevets.

Le contrôle des « data santé » vu par les penseurs d’hier et d’aujourd’hui

La question sociale du contrôle sanitaire de nos comportements ne peut pas être analysée sans les concepts forgés par les sociologues. Michel Foucault a décrit le passage progressif à la société disciplinaire en utilisant les concepts de « biopolitique » (qui porte sur les formes d’exercice du pouvoir sur les corps) et de « gouvernementalité » (qui associe gouvernement et rationalité, dans des technologies du gouvernement des individus et de soi, pour assurer l’autodiscipline : hier déjà, le confinement, l’école, l’hôpital, les statistiques et maintenant les panoptiques du drone et du bracelet).

Gilles Deleuze a décrit un nouveau passage vers la société de contrôle par le collier électronique, avec les concepts de « langage numérique » d’accès à la réalité. Alors que Kafka a forgé la notion d’« atermoiement illimité » : il ne s’agit plus de discipliner et d’ordonner, mais de contrôler en gérant tout désordre.

Antoinette Rouvroy, docteure en sciences juridiques et chercheuse qualifiée du FNRS, s’exprime sur le sujet de la gouvernementalité algorithmique et l’idéologie des big data, le 6 mars 2018. À la minute 10, elle s’exprime notamment sur les données médicales.

Aujourd’hui, des sociologues comme A. Rouvroy ou D. Quessada montrent un prochain passage à la société des traces avec les concepts de gouvernementalité algorithmique (qui va au-delà d’une maîtrise du probable ; il s’agit d’une maîtrise du potentiel lui-même, pour « ajuster » nos comportements) et de sousveillance, qui n’est plus une sur-veillance, mais une sous-veillance par un quadrillage discret, immatériel et omniprésent de tous les types de traces que nous laissons, comme nos signaux, nos productions, nos empreintes, nos passages et nos liens…

Bernard Fallery ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'a déclaré aucune autre affiliation que son organisme de recherche.

L’« Internet souverain » russe face au Covid-19

2020-04-29T17:30:49Z

Malgré l’évolution de la pandémie de Covid-19 en Russie, l’état d’urgence n’a pas été déclaré dans le pays : seul un « état d’alerte élevée » est en vigueur à Moscou et dans certaines régions depuis début avril. Les « congés obligatoires » ne sont que partiellement respectés par une population plongée dans un flou sanitaire, juridique et économique grandissant. Dans ce contexte, la Russie est en train de déployer et de mettre à jour sa stratégie et ses infrastructures numériques, qui font couler beaucoup d’encre depuis des années à cause de leurs (toujours plus) fortes dimensions centralisatrices et autoritaires. Que dit la crise du Covid-19 sur le pouvoir numérique de l’État russe et les défis qu’il pose aux libertés publiques ?

L’État russe face au Covid-19 : des ambitions numériques contrariées

Les autorités russes ont très tôt préconisé le recours massif aux outils numériques pour contrôler les déplacements des citoyens et limiter la circulation du virus. Ces usages sécuritaires s’inspirent des exemples étrangers (Chine, Corée, Singapour), tout en s’inscrivant dans une logique de « souverainisation » de l’Internet russe (runet) déjà engagée avant le début de l’épidémie et en consolidant des dispositifs de surveillance en place depuis longtemps (caméras de vidéo-surveillance, agrégation des données de géolocalisation fournies aux autorités par les opérateurs mobiles).

Dès février, Sergueï Sobianine, le maire de Moscou, propose le recours à la reconnaissance faciale pour surveiller les personnes revenant de l’étranger, en utilisant les caméras de surveillance du programme « Une ville sûre », en vigueur depuis 2018. Entre février et mars, 200 personnes ayant enfreint leur quarantaine auraient ainsi été identifiées, dont un homme qui sortait ses poubelles. Mais comme le montre une étude menée par l’équipe du projet IT et SORM (un blog sur Telegram consacré aux problèmes de surveillance et régulation de l’Internet russe, avec plus de 73 000 abonnés), ce dispositif est un catalyseur d’inégalités : ces caméras de surveillance sont majoritairement installées dans les quartiers modestes de Moscou car ceux qui décident de leur emplacement, qui résident eux-mêmes dans les quartiers huppés, ne souhaitent pas que leurs activités puissent être surveillées.

Le 20 mars 2020, face à l’augmentation des contaminations, le premier ministre Mikhaïl Michoustine préconise un suivi des citoyens se trouvant ou s’étant trouvés au contact de personnes infectées en récoltant les données de géolocalisation auprès des opérateurs, et en les transmettant aux administrations locales. Une application de surveillance des malades, « Monitoring social », est rendue disponible le 1w-^er avril sur GooglePlay. Elle est rapidement controversée car la surveillance va bien au-delà des déplacements des malades et protège peu les données personnelles ; l’application est finalement retirée.

Le traçage numérique des citoyens n’est pas abandonné pour autant. Depuis le 13 avril, toute sortie à Moscou impliquant un déplacement en transports s’effectue, sous peine d’amendes, avec un laissez-passer numérique, à générer sur un site officiel. En réponse aux critiques visant l’application « Monitoring social », la mairie de Moscou assure qu’avec ce nouveau dispositif, les données personnelles seront stockées sur le territoire russe (conformément à la loi de 2014 visant en particulier les GAFAM) et seront supprimées à la sortie de « l’état d’alerte élevée ». Le même système fonctionne au Tatarstan et dans la région de Primorié ; des laissez-passer QR-Code sont aussi disponibles et recommandés mais non obligatoires à Nijni-Novgorod, alors que d’autres régions russes se contentent de mesures plus légères.

Résistances et mobilisations de l’Internet libre

L’utilisation des données numériques pour renforcer la surveillance de la population face à la maladie suscite l’inquiétude des défenseurs des libertés en ligne. Les ingénieurs et développeurs débattent des projets mis en œuvre par le gouvernement et mènent des investigations indépendantes pour dévoiler les failles de sécurité, les problèmes techniques et d’autres aspects controversés des technologies déployées par l’État russe.

Plusieurs associations et médias indépendants alertent les internautes sur les atteintes croissantes à la protection des données personnelles et du développement de la surveillance en ligne. L’ONG Roskomsvoboda publie, le 27 mars, un vademecum sur les droits numériques en période de pandémie, soulignant que l’utilisation des données personnelles, notamment biométriques, nécessite légalement l’accord des personnes. Mais « l’utilisation de la reconnaissance faciale se trouve dans une zone grise », affirme Sarkis Darbinian, le juriste du groupe. L’association lance aussi, avec d’autres associations de l’espace postsoviétique, un recensement des restrictions aux libertés numériques dans le monde, alors que l’association Agora ouvre une permanence d’aide juridique liée à la pandémie. Ses avocats s’inquiètent également du recours à la reconnaissance faciale pour faire respecter la quarantaine. Les militants proches de l’opposant Alexeï Navalny (Société pour la Protection d’Internet) dénoncent, plus hardiment encore, la mise en place d’un « goulag numérique », et appellent les citoyens à ne pas transmettre leurs données personnelles aux applications de contrôle des déplacements.

Parallèlement, des initiatives solidaires se développent sur Internet visant à soutenir les personnes les plus démunies et les soignants. Le collectif « Makers contre Covid » utilise les techniques d’impression 3D pour offrir aux médecins le matériel de protection qui leur manque. Un hackathon en ligne, « Covidhack », développe un bot pour Telegram qui aide à produire une base de données citoyenne permettant aux personnes atteintes de coronavirus de s’exprimer anonymement et de cartographier leurs symptômes et demandes.

Les infrastructures Internet se voient aussi affaiblies par la pandémie, du fait de la croissance du trafic liée au confinement. Les réseaux russes sont fréquemment en panne, mais le déplacement des techniciens et câbleurs des trois mille et plus fournisseurs d’accès Internet (FAIs) qui les gèrent se fait au risque de poursuites juridiques. La firme de consulting pour FAIs OrderKom, leur propose un soutien juridique qui inclut la préparation des autorisations de déplacement, et la défense en justice en cas d’amende.

Failles et paradoxes de la surveillance numérique

Au fil des jours, des failles se dessinent entre les ambitions sécuritaires des autorités et les réalités de leur mise en œuvre. La surveillance numérique et les solutions sanitaires sont déléguées à de nombreux acteurs publics et privés, fédéraux et régionaux, qui prennent des décisions souvent contradictoires. Les paradoxes et les dysfonctionnements documentés par les militants des libertés en ligne montrent les limites du design sécuritaire annoncé. L’échec le plus patent est peut-être celui des laissez-passer numériques à Moscou. Le site Nedoma.mos.ru, développé pour les générer, utilise des serveurs d’hébergement étrangers ; le gouvernement a donc été accusé de mettre en cause son propre projet de Runet souverain.

Certains militants des libertés numériques, comme Mikhaïl Klimarev (Société pour la Protection d’Internet), pointent l’inefficacité des solutions technologiques ; la responsabilité civique doit primer face au Covid, alors que la surveillance numérique infantilise les citoyens et est susceptible d’être contournée. Cette crise fait ressortir avec force le manque de confiance réciproque entre les citoyens et l’État. En effet, les informations sur l’épidémie diffusées par l’État sont perçues avec méfiance, oscillant entre « on nous cache la véritable étendue de la catastrophe » et « c’est un complot pour nous museler encore plus ». Si les autorités rouvrent la chasse aux « fake news », de leur côté, des Youtubeurs et journalistes indépendants dénoncent les informations incomplètes ou douteuses diffusées par les représentants du pouvoir et leur comportement en public (comme celui du porte-parole de Vladimir Poutine, qui s’est présenté à une conférence de presse avec un badge « bloqueur » de virus très contesté). Parfois, l’ironie est au rendez-vous, comme lorsque le ministère des Affaires étrangères ouvre un fil d’information pour ses ressortissants à l’étranger sur l’application Telegram… officiellement interdite en Russie.

Ainsi, une partie de la société civile, sans remettre en cause la nécessité du confinement, se mobilise contre les velléités menaçantes du Big Brother russe, et dénonce l’incompétence des autorités à gérer l’implémentation des dispositifs techniques ainsi que la violation par le pouvoir de ses propres lois (comme celle sur le stockage des données des Russes sur le territoire russe), ainsi que la non-protection des données personnelles qui les expose à des fuites vers le marché noir des bases de données.

Si le grand projet de surveillance et de souverainisation de l’Internet russe se renforce bien à l’occasion de la crise du coronavirus, sa mise en œuvre est incertaine et souvent contradictoire. La pandémie démontre les limites du projet de centralisation des infrastructures d’Internet, et le gouvernement se sent obligé d’assouplir certaines mesures régulatrices, comme la loi Yarovaya (qui impose aux FAIs de conserver l’historique et les métadonnées des utilisateurs aux fins d’interception légale et lutte anti-terroriste). Cependant, cette complexité apparente n’est pas nécessairement synonyme d’inefficacité. Elle s’inscrit dans des reconfigurations plastiques de la contrainte numérique en Russie, s’ajustant tant bien que mal aux défis qui surgissent, et suscite à juste titre les inquiétudes des défenseurs des libertés numériques.

Francesca Musiani a reçu des financements de l'Agence Nationale de la Recherche (ANR) via le projet ResisTIC (www.resistic.org).

Anna Zaytseva a reçu des financements de l'Agence Nationale de la Recherche (ANR) via le projet ResisTIC (resistic.org)

Bella Ostromooukhova a reçu des financements de l'Agence nationale de la recherche, dans le cadre du projet ResisTic (resistic.org).

Françoise Daucé a reçu des financements de l'Agence nationale de la recherche (ANR) via le projet ResisTIC (resistic.org).

Ksenia Ermoshina a reçu des financements de l'Agence Nationale de la Recherche (ANR) via le projet ResisTIC (resistic.org).

Olga Bronnikova a reçu des financements de l'Agence Nationale de la Recherche (ANR) via le projet ResisTIC (resistic.org)

Face à la pandémie, à quoi sert le numérique ?

2020-04-27T17:52:22Z

Devra-t-on montrer "téléphone blanc" pour prouver qu'on n'est pas malade ? Indivar Kaushik / Unsplash, CC BY-SA

Un débat suivi d’un vote est organisé à l’Assemblée nationale sur le déconfinement progressif et l’épineuse question du traçage numérique. L’occasion de s’interroger sur l’intérêt du numérique, peut-il être mis au service d’une cause aussi importante que de protéger les personnes les plus vulnérables d’une épidémie virulente, et d’assurer la résilience d’une société confinée pour s’en protéger ?

Car, précisément les technologies numériques peuvent radicalement changer la donne. Elles permettent d’une part de révéler le réel et d’autre part d’interagir avec lui en continu et avec discernement. En cas de crise sanitaire, l’information obtenue des personnes, comme leur état de santé, leurs besoins particuliers ou leurs interactions sociales, permet avec l’aide de modèles mathématiques d’extraire des connaissances. Ces derniers peuvent au niveau global guider l’action publique, et au niveau particulier orienter le comportement de chacun et apporter une aide appropriée à chacun, dans le double objectif de protéger au mieux les individus et de servir l’intérêt collectif.

Pour autant l’idée même de développer les outils numériques qui permettent cette résilience suscite les pires craintes pour les libertés publiques, voire pour la vie privée. Les associations de défense des libertés comme la Quadrature du Net en France appellent à la vigilance. En Europe, c’est également le cas des institutions politiques comme le parlement européen et certains gouvernements. Le ministre de l’intérieur, Christophe Castaner, déclarait le 26 mars que la détection des interactions sociales « n’est pas dans la culture française ». Les atermoiements des autorités publiques révèlent l’extrême embarras de la société devant ce qui apparaît comme une curieuse et sombre alternative, choisir entre le risque politique, la protection de la santé et le maintien des fonctions vitales de la société.

Le protocole ROBERT : une solution française

Il convient dans l’urgence de mettre en œuvre des solutions qui n’engageraient pas nos sociétés dans des choix regrettables. De nombreuses alternatives sont à l’étude, dont celle portée par INRIA (Institut national de recherche en sciences et technologies du numérique), à la demande du gouvernement français, et qui vient d’être rendue publique avec le protocole ROBERT (robust and privacy-preserving proximity tracing). Ce protocole permet aux utilisateurs de savoir qu’ils ont pu être à proximité d’une personne infectée, sans qu’aucune information personnelle ne soit transmise ni à une autorité de santé ni aux autres utilisateurs. Elle repose sur la technologie Bluetooth, plus précise même si imparfaite (elle n’a pas été conçue pour le traçage), que les autres techniques de positionnement. Le principe est très simple. Les smartphones échangent des crypto-identifiants éphémères avec les smartphones qui se sont trouvés à proximité. Quand une personne est positive, elle fait remonter sur un serveur central, cette liste de crypto-identifiants. Ils sont alors considérés comme à risque. Chacun peut alors vérifier régulièrement sur le serveur si son identifiant figure dans cette liste, et en tirer les conséquences.

Cette proposition de protocole suppose un accès à la technologie Bluetooth qui n’est pas permis par les systèmes d’exploitation des smartphones, en particulier iOS, précisément pour des raisons de protection de données personnelles. La France est donc contrainte de demander à Apple de modifier son système d’exploitation pour satisfaire la demande nationale, ce qu’Apple a tout intérêt à refuser, conduisant inéluctablement à un échec diplomatique pour la France.

Il est nécessaire pour préparer l’avenir de s’interroger sur les termes de ce débat. Pourquoi nos sociétés font-elles face à cet étrange et sordide dilemme ? Quelles leçons peut-on en tirer ? Et, finalement, comment peut-on construire l’avenir pour pouvoir satisfaire l’ensemble de ces objectifs sans devoir les opposer ?

La présente situation est fondamentalement paradoxale. L’exigence éthique que les communautés scientifiques et politiques appellent de leurs vœux pour une application numérique vitale contraste avec le contexte global dont le moins qu’on puisse dire c’est qu’il est peu satisfaisant non seulement pour la protection des données personnelles, mais plus généralement pour la gouvernance du numérique. Les controverses, pour ne pas dire les scandales, se sont succédé ces dernières années sans que le régulateur, malgré des efforts croissants, soit en capacité de répondre. C’est que le numérique introduit une révolution radicale dans l’art de gouverner. Il autorise une interaction continue avec la population, qui permet de faire émerger un service public au plus près des besoins, comme l’Estonie en fait la démonstration, mais également une surveillance illimitée.

La crise déclenchée par la pandémie va contribuer inexorablement à une avancée d’un contrôle numérique toujours plus invasif. Elle va aussi conduire à un nouvel équilibre entre les plates-formes numériques internationales, les gouvernements, les administrations de la santé ou les assurances. C’est un sujet important car il va bien au-delà d’une application temporaire de gestion de crise sanitaire. La gouvernance de la santé est un domaine qui passera progressivement dans la sphère numérique avec des potentialités immenses tant pour la santé publique et le bien commun que pour l’émergence de nouveaux acteurs dominants. Chaque pays devra procéder à des arbitrages en fonction de ses capacités et de ses valeurs.

Que se passe-t-il ailleurs dans le monde ?

On ne peut que constater la diversité des approches au niveau mondial. Il serait simpliste de se contenter de distinguer les pays démocratiques respectueux de la vie privée et les pays autoritaires prompts à la surveillance. Le paysage est bien plus subtil et contrasté. Des différences régionales apparaissent qui doivent probablement plus à la volonté politique qu’à une prétendue différence culturelle. Les pays d’Asie orientale sont ceux qui à ce stade ont raisonnablement maîtrisé la pandémie et recouru à des techniques numériques pour mettre en œuvre un confinement sélectif. On ne peut s’en étonner. Ces pays ont assez généralement élaboré des politiques publiques ambitieuses du numérique, qui ont permis le développement de grandes plates-formes nationales, et la mise en œuvre de services qui associent administrations publiques et plates-formes dans l’intérêt national, la santé ou l’adaptation au changement climatique. Le programme de « social scoring » chinois, comme celui de Société 50 japonais, intègrent des contraintes environnementales pour orienter de manière incitative ou coercitive le comportement des personnes et le fonctionnement de la société,

Les États-Unis ont une politique ambitieuse de développement de plates-formes globales qui permet la maîtrise de leur territoire national et une présence internationale incomparable. Mais au-delà de certains services au premier rang desquels la sécurité nationale, il y a peu de coopérations entre l’État et les plates-formes pour le développement de services essentiels. Souvent d’ailleurs les plates-formes prennent des initiatives indépendantes comme c’est le cas de Apple et Google qui développent une infrastructure interopérable sur iOS et Android pour permettre un traçage basé sur Bluetooth, incompatible avec le protocole ROBERT. Mais l’administration de la santé est moins uniforme que dans de nombreux pays.

Pour l’Europe la situation est différente, les politiques de santé, conduites au niveau national, reposent sur une tradition très ambitieuse, même si leur évolution récente suscite la critique, mais à l’inverse, l’incapacité persistante à développer des plates-formes numériques contraint les Européens à une dépendance à peu près totale des acteurs américains. Il est donc compliqué pour nos nations de mettre en œuvre autre chose qu’une solution à court terme, jetable après la crise. Or ce qu’il conviendrait de construire dès aujourd’hui, c’est une politique de résilience pour les années à venir, qui sache tirer les leçons des crises. Cela nécessitera la mise en œuvre d’une vraie politique numérique, ambitieuse, souveraine, au service de la population et de l’intérêt de la collectivité.

Stéphane Grumbach ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'a déclaré aucune autre affiliation que son organisme de recherche.

L’application StopCovid : évidence européenne ou paradoxe à la française ?

2020-04-23T17:27:44Z

« Nous voulons être dépistés mais pas pistés », entend-on sur les ondes, formule qui illustre le débat passionné qui anime la presse et les réseaux sociaux.

Le projet d’application mobile de contact tracing (traçage numérique) StopCovid, visant à permettre à ses détenteurs d’être informés en cas de contact « caractérisé » avec une personne infectée, donne lieu à des propos souvent clivants, opposant sans nuance l’absolue protection de nos libertés à la nécessité de tout mettre en œuvre pour tenter de sortir de la crise sanitaire.

Face à cette crise globale, la réponse doit être globale

La pandémie touche pour la première fois tous les pays du monde et tous les secteurs de la vie économique et sociale. Les moyens comme l’approche politique pour lutter contre la prolifération du coronavirus ne peuvent donc pas raisonnablement se limiter à l’échelle nationale. La Commission européenne n’a d’ailleurs pas manqué de soutenir les États membres dans leurs réflexions en publiant une boîte à outils commune ainsi que des Orientations relatives aux applications soutenant la lutte contre la pandémie. Le réseau E-health, qui assure la coopération entre les diverses autorités nationales de santé, a également contribué à cette réflexion globale.

Outre des outils communs de conception d’une application numérique, largement repris par le projet français, l’UE pose une contrainte technique, celle de l’interopérabilité des systèmes conçus dans chaque État membre, contraignant ces derniers à ne pas faire cavalier seul pour choisir et développer une technologie de contact tracing. Cette interopérabilité doit aussi être RGPD-compatible (conformément au Règlement européen relatif à la protection des données du 27 avril 2016), ce qui assure en principe un niveau de protection des droits individuels sans égal à ce jour dans le monde. Ce patrimoine juridique commun doit servir de base de réflexion pour chaque débat national.

Sans verser dans le « solutionnisme technologique », il ne fait nul doute que l’innovation numérique a toute sa place dans nos démocraties. En revanche, l’adoption d’une application de contact tracing devrait être conditionnée à l’existence d’un cadre juridique précis et surtout à une efficacité attendue au regard de finalités préalablement et précisément définies.

Le débat nous semble fondamental pour fixer les garde-fous juridiques et éviter que cette application ne devienne un prétexte ou un passeport sanitaire qui briderait trop fortement nos libertés.

La faisabilité juridique d’une application numérique de contact tracing

Le RGPD ainsi que la Directive e-Privacy du 12 juillet 2002 (en cours de réforme au niveau européen) définissent le cadre juridique applicable à la collecte de données personnelles, y compris de santé pour le premier et de géolocalisation pour la seconde. Toute application doit donc d’abord et avant tout être conçue à partir de ces textes, pour protéger le droit des personnes à maîtriser leurs données.

Le gouvernement français ainsi que l’INRIA (Institut national de recherche en sciences et technologies du numérique), chargé du développement de l’application, ont d’emblée affirmé vouloir retenir un niveau élevé de protection, garantie par une approche privacy by design, la contrainte du respect de la protection des données étant intégrée, nativement, dans la conception même de l’application.

Dans la logique européenne, l’utilisation de l’application serait fondée sur le consentement des individus, elle ne permettrait pas de connaître l’identité de la personne infectée croisée, pas plus que le tracking ou la géolocalisation des individus. Enfin, l’application serait supprimée à l’issue de la crise sanitaire. L’application numérique garantirait ainsi les principes européens de protection des données personnelles.

Pour être licite, tout traitement de données doit par ailleurs répondre à des principes bien déterminés à ce jour. Tout d’abord, il doit respecter le principe de transparence. L’INRIA a déjà communiqué sur la démarche paneuropéenne adoptée et sur les contours du protocole de communication « ROBERT » pour ROBust and privacy-presERving proximity Tracing. L’institut a ensuite annoncé que l’application serait disponible en open source afin, notamment, de garantir son interopérabilité entre les différents pays européens. Les applications déployées seront en effet nationales mais disposeront de « briques » communes afin de pouvoir communiquer entre elles et permettre le contact tracing par-delà la frontière nationale.

StopCovid doit aussi assurer l’information des futurs utilisateurs au moment où elle sera téléchargée sur leur smartphone. La finalité poursuivie et les fonctionnalités de l’application devront être clairement énoncées. Dans l’hypothèse où l’application pourrait intégrer différentes fonctionnalités (information, recherche de contacts, envoi d’avertissements, etc.), la Commission européenne a indiqué qu’un consentement spécifique pour chaque finalité serait nécessaire afin de permettre aux individus de conserver le contrôle de leurs données.

Le principe de minimisation implique que seules les données strictement nécessaires à la réalisation de la finalité fixée devront être traitées. Par exemple, les données de proximité ne devront être traitées que s’il existe un risque réel de contamination, lequel dépend de l’étroitesse et de la durée du contact. Par ailleurs, la Commission européenne ainsi que la CNIL en France ont indiqué que seules les autorités sanitaires nationales détermineront les finalités et les moyens du traitement des données et que l’éventuelle divulgation et/ou accessibilité des données devra être strictement limitée.

La Commission européenne insiste sur la nécessité de définir, au niveau de chaque État, une base juridique spécifique pour préciser la mise en œuvre nationale de ces principes. La loi devra ainsi définir la finalité de l’application, l’identité du responsable de traitement et des éventuels destinataires ainsi que les garanties juridiques offertes aux personnes concernées.

En outre, des mesures devront être prises pour minimiser la durée de conservation des données traitées via l’application. Le critère de « fin d’épidémie » invoqué lors des débats devant la commission parlementaire française semble peu satisfaisant et, en tout état de cause, une suppression automatique des données devra être envisagée.

Enfin, les mesures de sécurité font également débat, la technologie Bluetooth soulevant notamment des problématiques techniques car elle ne fonctionne, en principe, que lorsque l’application est ouverte. Débloquer ce paramétrage pourrait engendrer des failles de sécurité plus larges sur les smartphones des utilisateurs.

Le droit actuel peut donc être mis au service de la sécurité de l’utilisation de l’application numérique StopCovid par les citoyens. L’enjeu véritable se situe à d’autres niveaux : celui de son acceptation sociale et, peut-être plus encore, celui de son efficacité.

Une application numérique comme outil de désescalade des mesures sanitaires ?

Les institutions européennes et les autorités nationales considèrent que l’application numérique sera un outil de gestion du « déconfinement » et, plus largement, de la réouverture des frontières intérieures de l’UE.

Les institutions européennes emploient la formule de « désescalade des mesures de confinement » et pas de « déconfinement ». Cette différence sémantique est centrale pour les politiques qui vont être déployées par la France à partir du 11 mai 2020. Si les États ont en majorité appuyé sur le bouton « off » pour stopper les chaînes de contamination, il ne suffit pas de trouver un bouton « on » pour revenir à la situation pré-Covid. La désescalade sera progressive dans le temps et dans l’espace. L’application de contact tracing peut être utile pour déterminer des décisions de confinement localisé et pour savoir quand reprendre la libre circulation des personnes.

Mais le strict respect des libertés individuelles et la mise en place de garde-fous juridiques sont-ils conciliables avec l’efficacité de cet outil numérique ?

Il est évident que l’application ne suffira pas à endiguer l’épidémie mais pourrait être un instrument de mise en œuvre d’une responsabilité collective, sous réserve de l’adhésion du plus grand nombre. L’efficacité de l’outil de traçage sera en effet fonction du nombre d’utilisateurs et de leur adhésion au principe – et donc au passage à l’échelle collective.

Si chacun a le droit de prendre le risque de mourir de ce qu’il veut, cela ne l’autorise pas à mettre en danger les personnes qu’il croise dans sa vie sociale. C’est finalement toute la difficulté de ce minuscule virus, qui au fond met en évidence les limites d’une conception exclusivement individuelle des droits humains.

Par ailleurs, comme l’a rappelé le professeur Delfraissy, Président du CARE (Comité d’Analyse Recherche et Expertise, rattaché à l’Élysée pour conseiller le gouvernement sur la gestion de l’épidémie, y compris sur l’opportunité de la mise en place d’une stratégie numérique de contact tracing), une telle application numérique ne peut fonctionner que s’il y a « de l’humain derrière le numérique ». L’identification de contacts positifs, pour être efficace, devra donc être associée à un arsenal de mesures préventives et/ou curatives, incluant des solutions de dépistage et de confinement individuel (notamment à l’hôtel). L’efficacité recherchée sous-tend ainsi l’alliance de la technologie et de l’humain comme prérequis nécessaires permettant de développer l’exercice effectif d’une responsabilité collective.

Ces questions sont fondamentales et doivent être débattues pour garantir la souveraineté numérique de l’Europe (et des États), l’acceptabilité sociale de l’application, gage de son efficacité en tant qu’instrument de lutte contre la propagation du Covid-19 et ce, dans le respect des droits des personnes.

Dans ce contexte extraordinaire de confinement général, où la liberté d’aller et venir, de commerce et d’autres encore sont largement limitées pour assurer la sauvegarde de notre santé publique, n’est-il pas paradoxal d’opposer l’efficacité d’une application numérique à la défense de notre vie privée ?

De la mesure avant toute chose… un arbitrage sera nécessaire. Les concessions individuelles et collectives devront s’accompagner de l’assurance d’une maîtrise juridique, technique et démocratique. Voilà ce qu’il faut attendre du débat public qui devrait avoir lieu à la fin du mois d’avril 2020.

StopCovid : une application prometteuse mais qui questionne

2020-04-23T17:27:38Z

Alexander London / Unsplash

Cet article est publié en collaboration avec Binaire.

On trouve profusion d’articles sur l’utilisation du contact tracing pour combattre le virus. Le sujet passionne : les informaticiens qui aimeraient participer plus à la lutte contre le virus, les médecins souvent sceptiques, les défenseurs des libertés qui ne veulent pas que ce soit l’occasion de rogner sur la protection de la vie privée. Certains mélangent tout, géolocalisation et Bluetooth, avoir attrapé un jour le virus et être contagieux, etc. Et puis, l’utilité n’est encore pas très claire.

L’idée est simple. À partir d’applications sur les téléphones mobiles, on peut savoir que deux personnes ont peut-être été en contact et si l’une développe le virus, on peut prévenir l’autre qu’elle a été peut-être contaminée. Il y a deux grandes techniques possibles : la géolocalisation qui est intrusive et « flique » en permanence son utilisateur, et le Bluetooth discuté en France en ce moment.

Bluetooth est une norme de communication qui utilise des ondes radio pour échanger des données entre un téléphone (intelligent) et un ordinateur, ses écouteurs, ou un autre téléphone… Le Bluetooth fonctionne sans géolocalisation.

On peut être a priori réticent mais les choix du gouvernement comme évoqués par Cédric O iraient dans le bon sens pour protéger la confidentialité des données personnelles.

Comment marche une telle application ?

Il y a de nombreuses possibilités techniques plus ou moins intrusives. En voici une.

Quand deux téléphones sont proches physiquement (quelques mètres ?) pendant un certain temps (par exemple, cinq minutes ou plus), ils utilisent leur connexion Bluetooth pour se dire « coucou » ; chacun envoie à l’autre un nombre aléatoire utilisé juste pour cette rencontre (ou pour un laps de temps très court). Si une personne se découvre le virus, elle le déclare volontairement dans l’application et son téléphone transmet alors à un site centralisateur les nombres aléatoires qu’elle a utilisés avec les dates associées. Chaque téléphone consulte régulièrement la base de données de ces nombres et s’il trouve dans un des nombres un de ceux qu’il a reçus d’un téléphone au cours d’un de ces « coucous », il prévient son utilisateur qu’il a peut-être été contaminé. Il suffira ensuite de suivre les recommandations des autorités de santé, comme se faire tester et se confiner chez soi.

Des pays ont déjà utilisé des applications pour contrôler la propagation du virus notamment Singapour, Taïwan et la Corée du Sud. La France, l’Allemagne, des centres de recherche, des entreprises… travaillent aussi là-dessus. Pour la France et un consortium de chercheurs piloté par Inria, une application StopCovid est considérée en lien avec l’Europe et le projet Peppt-PT dont une App est déjà testée en Allemagne. Dans le cadre de cette collaboration, Inria et Fraunhofer AISEC ont publié le protocole ROBERT, pour robust and privacy-preserving proximity tracing. Google et Apple préparent les briques de bases communes qui permettraient à ces App de fonctionner aussi bien sur Android que sur iOS. L’aide des entreprises est importante, mais il reste préférable que l’application elle-même soit développée par des scientifiques, en toute transparence.

Des difficultés techniques

Le Bluetooth apprécie mal les distances surtout si le téléphone est dans une poche ou un sac ; on cherche à améliorer cela. Une autre difficulté, s’il y a trop de personnes contaminantes en circulation, on risque assez vite d’être inondés de notifications et tous être considérés potentiellement comme contaminés. Ça ne marche plus.

Et puis, cette technique n’est utile que si une proportion importante de la population joue le jeu, on parle de 60 %. Il faut déjà exclure une petite, mais non négligeable, partie de cette population qui n’a pas de téléphone intelligent ou qui aurait des difficultés à se servir d’une App même simple. (Des solutions sont à l’étude pour inclure également ces personnes.) Et parmi les connectés, qui aura assez confiance dans l’application pour l’installer, pour se déclarer infecté ?

La protection de la vie privée

On est en plein dans le domaine de la CNIL. Marie-Laure Denis, sa Présidente, a pris des positions claires, ainsi que le Comité national pilote d’éthique du numérique.

On semble se diriger en France vers de bons choix :

l’utilisation du Bluetooth
la décision d’installer l’appli est laissée totalement à l’utilisateur, sans atteinte aux libertés
le code de l’application est open-source, comme cela des spécialistes pourront vérifier qu’il n’y a pas de trou de sécurité
l’utilisation est limitée dans le temps.

Est-ce que cela pourrait présenter des risques pour la protection de la vie privée ? Plus ou moins selon les Apps utilisées. L’équipe Privatics d’Inria, par exemple, travaille sur le sujet, comme d’autres équipes scientifiques.

Dernier point : qui sera en charge de la centralisation des données ? Pour l’instant, en France, Inria pilote le projet. Mais, qui sera l’opérateur à l’heure de l’exploitation ? Qui aura accès aux données ? Si les nombres aléatoires anonymes protègent quelque peu les utilisateurs, on n’est jamais à l’abri d’analyses de données qui permettraient de désanonymiser. Les choix des contenus des messages échangés entre les téléphones conduisent à des solutions plus ou moins sûres.

Les difficultés médicales

Une question pour les épidémiologistes sera de choisir les paramètres de l’appli suivant leurs connaissances du virus et de sa propagation (combien de temps faut-il être proche pour contaminer ? Comment définir proche ? Une autre : que faire si l’App détecte qu’on a peut-être été contaminé ?

Est-ce que qu’une telle App serait utile ? Les avis sont partagés. Par exemple, une page très claire (en anglais) explique qu’avec le Covid-19, il faut environ trois jours avant de devenir contagieux, et deux de plus environ avant de savoir qu’on est infecté. Si on a été contaminé par quelqu’un qui utilise l’App, on est prévenu et on peut se mettre en quarantaine avant d’avoir contaminé quelqu’un. Donc avec une telle application, on casse la chaîne de contamination.

Des médecins contestent ces chiffres. Évidemment, tout dépend du virus dont on ignore encore beaucoup de choses, même si les connaissances progressent rapidement. C’est aux épidémiologistes, aux médecins, suivant la situation sanitaire, d’évaluer l’utilité ou pas d’une telle app. C’est à l’État de décider. Ce qui semble certain, c’est qu’elle ne sera pas un remède miracle pour enrayer l’épidémie, mais qu’elle pourrait peut-être permettre de casser certaines chaînes de contamination, être un des outils au service des médecins.

Des craintes à long terme

On peut s’interroger sur le fait qu’il y ait tant de débats sur une utilisation de données médicales totalement anonymisées alors que les Google, Apple et les FAI utilisent depuis longtemps de telles données sur nous, par exemple avec la géolocalisation pour détecter des ralentissements de circulation. Il ne faudrait pas que cela nous encourage à livrer au gouvernement ces données. Cela devrait plutôt nous interroger sur le fait que des entreprises les possèdent… À poser la vraie question : à quoi servent-elles ?

Pour ce qui est de leur utilisation en période de crise sanitaire, on peut craindre que cela habitue les gens à ce genre d’outils. C’est aujourd’hui une urgence sanitaire, une utilisation d’exception. Mais on a vu par le passé des lois d’exception devenir des lois de toujours. C’est en cela que finalement ces techniques même réalisées correctement posent question, et qu’il faut être tout particulièrement vigilant.

Serge Abiteboul est membre du Collège de l’Arcep mais ne parle pas ici en son nom. Il est également chercheur émérite à Inria qui est très engagée dans la lutte contre le Covid 19 et communique sur le sujet.

L’intelligence artificielle à la rescousse du journalisme

2020-04-16T16:12:56Z

Il faut profiter des avantages que peut procurer l'Intelligence artificielle (IA) dans une salle de rédaction et penser à un nouveau modèle d'affaires. shutterstock

Nous sommes à un carrefour. Un carrefour qui va déterminer grandement l’avenir du journalisme. La pandémie de Covid-19 a entraîné une crise sans précédent qui pourrait décimer certains médias, ici au Québec, mais aussi ailleurs au Canada, aux États-Unis et dans le monde.

Une piste de solution est proposée : celle de l’Intelligence artificielle (IA). L’IA fait référence « aux machines intelligentes qui apprennent d’expérience et effectuent des tâches comme les humains », selon Francesco Marconi, professeur de journalisme à l’Université Columbia, à New York, et qui vient de lancer un ouvrage de référence sur le sujet : Newsmakers, Artificial Intelligence and the Future of Journalism.

Francesco Marconi n’est pas le dernier venu. Il a dirigé les « Media Lab » du Wall Street Journal et de l’Associated Press (AP), une des plus grandes agences de presse au monde.

Sa thèse est limpide et sans appel : le monde journalistique évolue moins vite que les nouvelles technologies. Il faut ainsi profiter des avantages que peut procurer l’IA dans une salle de rédaction et penser à un nouveau modèle d’affaires.

Pour Marconi, nous sommes train de manquer le bateau et l’IA doit être au cœur de ce futur modèle d’affaires. En tant que professeur de journalisme à l’UQAM, qui suit de très près l’évolution de la profession depuis 1990 (CTV News, Reuters, Presse Canadienne, Journal de Québec, Canoe.ca et Huffington Post), je suis assez d’accord avec lui. Au Québec, La Presse canadienne (PC) est, par exemple, un des rares médias à utiliser l’IA pour faciliter la traduction de dépêches.

Le monde journalistique évolue moins vite que les nouvelles technologies, estime Francesco Marconi, auteur du livre Newsmakers, Artificial Intelligence and the Future of Journalism..

L’IA ne remplace pas les journalistes

Et l’intelligence artificielle n’est pas là pour remplacer les journalistes ou supprimer des emplois. Marconi estime que 8 à 12 % des tâches actuelles des reporters seront assumés par des machines, ce qui au contraire va recentrer le travail des éditeurs et journalistes vers le contenu à valeur ajoutée : longs formats, grandes entrevues, analyses, journalisme de données, journalisme d’enquête.

En ce moment, les robots issus de l’IA effectuent des tâches de base comme écrire des textes de deux à six paragraphes sur les résultats sportifs, les résultats trimestriels d’entreprises, résultats électoraux ou olympiques. Le résultat est convaincant mais montre bien aussi les limites de l’IA. On aura toujours besoin d’un journaliste pour bonifier un article de quatre paragraphes sur les résultats financiers de Bombardier, par exemple.

L’analyse de grandes bases de données par les robots de l’IA permet aussi aux journalistes de l’agence de presse Bloomberg de recevoir une alerte dès qu’une tendance ou une anomalie émergent des mégadonnées.

Pour Marconi, l’IA peut permettre également aux journalistes d’épargner beaucoup de temps grâce à la transcription d’entrevues audio et vidéo. Même chose pour les grands reportages sur la pollution ou la violence, qui s’appuient sur de vastes bases de données. Les machines peuvent faire l’analyse des données complexes en un rien de temps.

Par la suite, le journaliste fait son travail essentiel de vérification des faits, d’analyse, de mise en contexte et de collecte d’informations. L’IA peut difficilement remplacer cela. En ce sens, l’être humain doit demeurer central à l’ensemble du processus journalistique.

Modèle d’affaires brisé

Marconi a bien raison lorsqu’il explique que les médias doivent développer un modèle d’abonnement payant, se rapprocher de leur communauté avec du contenu encore plus pertinent, développer de nouveaux produits (infolettres, événements, balados, vidéos) et de nouveaux contenus que l’IA peut faciliter : personnalisation des nouvelles, recommandations aux lecteurs, par exemple.

Certains exemples dans le livre de Marconi sont assez simples comme des listes ou articles automatisés sur les nouveaux restos ou commerces du coin, qui sont très populaires aux États-Unis.

L’IA en ce sens fait partie d’un nouveau modèle d’affaires basé sur la fin des silos au sein des médias. Il doit y avoir une symbiose dans le sens d’« union étroite » entre la rédaction et les autres équipes des médias comme les ingénieurs, les informaticiens, statisticiens, vendeurs ou équipe du marketing.

Le modèle d’affaires des médias est brisé. La publicité a quasi disparu depuis le début de la pandémie de la Covid-19. Dans la foulée de cette crise, la Coopérative nationale de l’information indépendante (CN2i), anciennement Groupe Capitales Médias, a annoncé la suspension de la publication de ses journaux papier. ARCHIVES LA PRESSE CANADIENNE/Paul Chiasson

Il faut donc dans une salle de nouvelles utiliser plus que jamais les bases de données pour trouver des sujets de reportage pertinents pour les lecteurs, auditeurs, téléspectateurs et internautes.

Et il existe déjà divers outils d’IA pour déceler les tendances ou sujets de l’heure sur Internet et dans les médias sociaux comme Dataminr, Newswhip, Parsely, Crowdtangle ou Croma. Ces outils peuvent aider aussi les rédactions à mieux distribuer les contenus.

Attention aux biais

Évidemment, il faut tenir compte de la grosseur des salles de nouvelles dans toute cette analyse. Un petit hebdo ou un média hyper local n’a peut-être pas les moyens d’agir rapidement. Mais pour les autres, il faut commencer tout de suite à s’activer. Il faut mieux former les journalistes à l’interne ; collaborer avec de jeunes pousses (start-up) et avec les universités pour tirer son épingle du jeu.

Prenons l’exemple de la Covid-19 en ce moment. Voilà l’occasion d’analyser les données de la santé publique pour faire des liens, des analyses et creuser les données quartier par quartier et rue par rue. L’IA peut aider en ce sens. Mais ça prend des journalistes bien formés aux données pour faire ce travail.

Un des dangers de l’IA, par contre, est le biais des algorithmes. Comme les algorithmes sont conçus par des humains, il y a toujours nécessairement des biais qui peuvent altérer les analyses de données et mener à de graves conséquences, selon Marconi. Et la vérification humaine des contenus avant publication demeurera toujours le rempart contre les erreurs.

Une enquête du média américain ProPublica, financé par la philanthropie a montré en 2016 que les algorithmes utilisés par l’État pour statuer sur les cas de libération conditionnelle ont amené un biais clair en faveur des détenus blancs au dépens des détenus noirs. Quand on y pense, cet usage d’un algorithme a entraîné des injustices criantes.

L’IA, enfin, a développé des systèmes de détection des fausses vidéos (Deepfakes) et des fausses nouvelles, qui sont bien évidemment appuyés par des journalistes d’expérience de Reuters et de l’AFP, par exemple. Ce sont de bonnes nouvelles.

En ce sens, la transformation des salles de rédaction ne fait que commencer et l’essai de Marconi est incontournable pour identifier des scénarios de survie comme médias et journalistes. Car c’est bien de cela qu’il est question. Il faut mieux équiper nos salles de nouvelles et changer de A à Z le flux de travail pour en arriver à une meilleure collaboration et à de meilleurs contenus qui vont attirer de nouveaux abonnés payants.

Patrick White ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'a déclaré aucune autre affiliation que son organisme de recherche.

La fracture numérique ne doit pas être pensée à l’échelle individuelle mais collective

2019-10-01T18:16:47Z

La réelle fracture numérique serait entre le GAFAM et les autres entreprises. Daniel Eledut / Unsplash, CC BY-SA

Cet article est publié dans le cadre de la Fête de la science (du 5 au 13 octobre 2019 en métropole et du 9 au 17 novembre en outre-mer et à l’international) dont The Conversation France est partenaire. Cette nouvelle édition aura pour thème : « À demain, raconter la science, imaginer l’avenir ». Retrouvez tous les débats et les événements de votre région sur le site Fetedelascience.fr.

Et si, au lieu de penser la « fracture numérique » au niveau des individus, avec un accès ou non à Internet, la réelle cassure se situait entre des entreprises qui maîtrisent parfaitement la gestion et l’utilisation des données (les GAFAM) et les autres organisations, qu’elles soient publiques ou privées.

Partons de trois postulats :

Le vecteur majeur et incontournable de l’évolution et du rayonnement de l’humanité sera l’électricité, en d’autres termes toute action quelle qu’elle soit ne sera rendue possible que par l’électricité : mobilité, technologies de l’information et de la communication par exemple. En effet, n’oublions pas que ce que nous appelons couramment un bit, un octet, 1 « Méga », bref, le singleton constituant l’information ou donnée, n’est ni plus ni moins qu’un petit paquet d’électrons stockés et déplacés. Qui dit déplacement d’électrons dit : électricité. Quid de ce magma de données produites, échangées, stockées et fouillées (cloud, web, data canters, etc.) sans les électrons ? Ainsi, il est essentiel de comprendre que l’enjeu majeur associé sera de produire cette électricité « devenue indispensable » avec une empreinte écologique la plus réduite possible, et ce sur toute l’échelle de la valeur du dispositif de production et de conversion.
Électronique, informatique et robotique sont devenues indispensables à toute avancée scientifique et ce toutes disciplines confondues.
Si le XX^e siècle a été le siècle des sauts technologiques (nous sommes passés de la marche à pieds à l’espace), le XXI^e sera le siècle des sauts d’usages et si l’on parle d’usage, il faut que les sciences humaines et sociales (SHS) soient repositionnées au centre des évolutions scientifiques. Prenons l’exemple du clonage, technologie du XX^e qui trouvera ses pleines applications et usages au XXI^e une fois les aspects éthiques et déontologiques traités par les SHS.

Partant de ces trois postulats, tout est réuni pour une prolifération quasi naturelle des données puisque nous sommes amenés par nécessité à créer des données sur les données afin de pouvoir les gérer tant leur nombre est phénoménal. Nous sommes littéralement submergés par les données.

La déferlante des données pose des problèmes

Devant cette déferlante des octets se posent alors plusieurs problématiques :

La gestion des espaces de stockage des données (notion de pertinence de la donnée stockée, de son maintien « en vie », des considérations énergétiques associées, de la propriété de la donnée et de l’élimination des données redondantes.
Les lieux effectifs de conservation des données devenus « quasi-uniques » devenant ainsi hautement stratégiques.
Les agrégations de données entre elles leur donnant ainsi des valeurs économiques et stratégiques.
Les choix des outils informatiques (machines et logiciels) sur lesquels s’appuyer pour extraire la bonne « décision » résultant d’une synthèse basée sur une analyse d’une somme de données de plus en plus « monstrueuses ».

C’est sur cette dernière problématique qu’il est à mon sens important de s’attarder.

La réelle fracture numérique

Il est impossible de passer à côté de la formidable mutation sociétale qu’ont apportée indirectement les structures de type GAFAM (Google, Amazon, Facebook, Apple, Microsoft) de par la mise en valeur et surtout la facilité d’accès aux données qu’elles ont permis et ce de façon quasi universelle (quel que soit le niveau social, le lieu planétaire du « demandeur »).

Très vite, les GAFAM ont été amenés pour répondre aux demandes devenues exponentielles des utilisateurs de plus en plus nombreux et « friands » de données, à développer des outils informatiques (machines et logiciels) dont les performances dépassent sans communes mesures celles des outils détenus par d’autres entités (industriels, états ou collectivités territoriales).

In fine là n’est pas le point clef de cette problématique : en effet, pour faire face à cette demande « exponentielle », les GAFAM ont dû « cataloguer » chaque utilisateur de manière à accélérer et anticiper, selon son profil, l’accès à l’information recherchée : quel confort !

Ainsi l’existence même de ces « catalogues utilisateurs », absolument nécessaires au demeurant, représente non seulement une valeur économique inestimable, mais, plus embarrassant, un poids politico-stratégique d’une ampleur colossale et difficilement estimable.

Yuval Noah Harari dans l’un de ses derniers ouvrages « 21 leçons pour le XXIᵉ siècle » pointe d’une façon remarquable l’urgence de la situation au travers de cette phrase

« Dans un monde inondé d’informations sans pertinence, le pouvoir appartient à la clarté ».

En effet comme je l’ai explicité plus haut, seules les structures de type GAFAM, par nécessité dans un premier temps puis par stratégie par la suite, ont été et sont en capacité d’extraire la synthèse « juste » de l’analyse de masses de données colossales dont la plupart sont sans pertinence.

C’est dans ce contexte que l’on nous présente la notion de « fracture numérique » comme se situant au niveau des utilisateurs ayant ou n’ayant pas accès aux données parce que ne disposant pas d’ordinateurs ou smartphones, ce qui bien évidemment est partiellement faux : dans les contrées les plus reculées, et au sein des couches sociales les plus défavorisées… le smartphone est là.

Par contre, que dire des « entités » (industriels, états, collectivités, etc.) qui, par facilité, rapidité de mise en œuvre et coûts au prime abord attractifs, ont confié leurs données et leurs gestions associées à des structures de type GAFAM, devenant ainsi, à leur insu, totalement tributaires de ces dernières non seulement sur le plan économique, mais aussi, beaucoup plus ennuyeux, sur le plan stratégique et politique. C’est à ce niveau, à mon sens, que se situe la véritable et préoccupante « fracture numérique » entre les entités n’ayant pas la capacité d’investir et celles qui l’auront afin de se doter d’outils informatiques (machines et logiciels) leurs garantissant les moyens d’analyser, de trier, dans ce « monde inondé d’informations sans pertinence » et de conserver un pouvoir décisionnel parce qu’elles auront la possibilité d’afficher de la clarté.

Alain Foucaran ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'a déclaré aucune autre affiliation que son organisme de recherche.

Edward Snowden et la France : les ressorts d’une demande d’asile

2019-09-23T18:26:21Z

Tag d'Edouard Snowden. Author provided

Alors qu’il publie Mémoires vives, Edward Snowden, le lanceur d’alerte, vient de demander l’asile politique en France. Le résultat de cette requête est porteur de conséquences lourdes pour les libertés et la démocratie. Et c’est bien cette démocratie que Snowden a décidé de défendre au péril de sa vie depuis maintenant six longues années.

De multiples refus

Après ses révélations mettant en lumière l’ampleur des renseignements collectés par les services secrets américains et britanniques, Edward Snowden a essuyé de multiples refus suite à ses demandes d’asile politique en 2013 (en France notamment celui d’Emmanuel Valls). Finalement accueilli en Russie, où il bénéficie d’un droit de résidence limité qui expire en 2020, il a récemment réitéré son souhait de rejoindre la France. Or, cette demande doit se faire à l’ambassade de France en Russie, dont le personnel consultera ensuite le ministère de l’Intérieur.

Mais une fois sur place sur le territoire national, Edward Snowden pourrait être extradé vers les États-Unis au titre des infractions poursuivies. Le droit français pourrait donc ne pas aider l’informaticien.

La France incommodée par la demande de Snowden

Inutile de faire une étude approfondie des conséquences de l’action de Snowden, son retentissement se fait ressentir quotidiennement pour des milliards de personnes.

À la question « la société a-t-elle changé grâce à Snowden ? » chacun est en position de répondre par l’affirmative : n’avez-vous pas obturé la caméra de votre ordinateur ?

C’est donc l’incompréhension qui règne face à l’inertie des autorités nationales et au sein de l’Union européenne qui ont été les premiers bénéficiaires de ces révélations.

Tous en ont tiré les leçons à la fois pour leur sécurité intérieure et du point de vue des libertés fondamentales en renforçant la protection des données à caractère personnel. L’annulation du Safe Harbor, l’adoption du RGPD, les multiples poursuites contre les géants du net pour violation du droit de la concurrence jusqu’à la taxe sur les GAFAM ; les retombées de l’action de Snowden se font aussi sentir à l’échelle mondiale, y compris aux États-Unis.

Même si le Congrès américain a limité cette collecte automatique, massive, et indiscriminée avec le Freedom Act en 2015, les États poursuivent l’espionnage des conversations, qui se trouve normalisé avec l’adoption par exemple en France de la Loi renseignement.

Quant aux entreprises, les plus grandes d’entre elles font encore l’objet d’enquêtes pour violation de la vie privée. Les déséquilibres s’exacerbent sur le plan des cadres juridiques, des acteurs qui monopolisent la collecte des données et maintenant sur le rôle des machines (IA, super-calculateurs).

Les données sont plus que jamais au cœur de la bataille.

Décision politique d’intérêt général

Inculpé aux États-Unis pour espionnage et vol de secrets d’État, l’ancien agent de la CIA s’était caché treize jours parmi des réfugiés sri-lankais de Hong Kong. En effet, aucun statut juridique uniforme et suffisamment solide n’existe pour préserver un lanceur d’alerte de cette envergure, véritable fugitif international.

Edward Snowden n’est pas un lanceur d’alerte comme les autres. Citizenfour (son premier pseudonyme) a été menacé de peine de mort par le secrétaire d’État américain Michael Pompeo.

Droit de séjour

Parmi les options possibles, la demande d’Edward Snowden pourrait être entendue par le président Emmanuel Macron au titre du droit de séjour, pouvoir régalien.

En effet, seule une décision politique, telle que celle prise par le François Mitterrand en faveur des Brigades rouges italiennes ou plus récemment par Nicolas Sarkozy pour laisser entrer des membres des Farc, les rebelles colombiens, pourrait servir de fondement juridique à son entrée sur le territoire. Or, ce statut est révocable à tout moment en cas d’une alternance politique.

Sans user de ce pouvoir, la France pourrait accorder une protection à Snowden, en tant que défenseur des droits de l’homme au titre de la déclaration des Nations unies éponyme, car le lanceur d’alerte a rendu service à l’humanité et œuvre à la promotion ou à la protection des droits de l’Homme partout et pour tous. L’homme le plus dangereux selon les États-Unis est-il aussi le plus héroïque ?

Pour finir, quelques réminiscences de l’Internet qui fut un temps espace de liberté, rêvé par quelques geeks de la Silicon Valley. C’était avant…

Devenir qui tu es, échouer et recommencer, grâce à Internet ? Oui, c’était possible à une époque pas si lointaine.

Aujourd’hui, vous n’avez plus le droit à l’erreur : tout est archivé, référencé, et retweeté. A ce propos, lisez ce qu’en dit Chris Wetherell, inventeur du bouton « retweeter ». Il nous explique comment cette fonction a ruiné Internet. Initialement prévue pour relayer la voix de communautés sous-représentées, elle a été détournée par les attaquants du Gamergate, jusqu’aux scandales de désinformation durant la campagne de 2016.

Données anonymes… bien trop faciles à identifier

2019-09-17T19:01:39Z

Dans le métro. Photo by Martin Adams on Unsplash

Téléphones, ordinateurs, cartes de crédit, dossiers médicaux, montres connectées, ou encore assistants virtuels : chaque instant de nos vies – en ligne et hors ligne – produit des données personnelles, collectées et partagées à grande échelle. Nos comportements, nos modes de vie, s’y lisent facilement. Mais faut-il s’en inquiéter ? Après tout, ces données qui nous révèlent sont souvent anonymisées par les organismes qui les collectent. C’est du moins ce que l’on peut lire sur leurs sites. Leur travail est-il efficace ? Et les données anonymes le sont-elles vraiment ? Dans notre dernier article publié dans la revue Nature Communications, nous développons une méthode mathématique qui montre que c’est loin d’être acquis. Elle a pu nous amener à réidentifier des individus parmi des bases de données anonymes et fortement échantillonnées, remettant en question les outils utilisés actuellement pour partager les données personnelles à travers le monde.

Traitement d’échantillons viraux. Les données personnelles de santé sont parmi les plus sensibles. James Gathany/CDC

Matière première

D’abord, quelques ordres de grandeur. Ces dix dernières années, nos données personnelles ont été collectées à une vitesse inégalée : 90 % de celles circulant sur Internet ont été créées il y a moins de deux ans ! Objets connectés, informations médicales ou financières, réseaux sociaux, ces données sont la matière première de l’économie numérique comme de la recherche scientifique moderne. Mais, très vite, on a vu apparaître certaines dérives. Notamment les atteintes à la vie privée qui se sont multipliées. Témoin, parmi de nombreuses affaires, le scandale Cambridge Analytica… Depuis, 80 % des Européen·ne·s estiment avoir perdu le contrôle sur leurs données.

En réponse, les compagnies et organismes qui les collectent affirment souvent qu’elles le sont de manière « anonyme ». Par exemple, la société Transport for London (TfL), en charge du métro londonien, a entrepris de surveiller les déplacements des passagers sur le réseau via les signaux wifi « anonymes » de leurs téléphones portables. En Belgique, plus de 15 hôpitaux revendent les données confidentielles de leurs patients à une multinationale, Quintiles IMS, sous couvert d’anonymat. Enfin, en France, Orange et SFR ont revendu des données de géolocalisation en temps réel ou en différé, données là encore « anonymisées ».

Point intéressant, une donnée anonyme n’est plus considérée comme donnée personnelle. Elle échappe donc aux régimes de protection comme le RGPD en Europe. Partager des données personnelles anonymisées ne nécessite donc plus le consentement des participant·e·s… Puisqu’ils et elles sont anonymes !

Ré-identification

Or, des chercheur·e·s et journalistes ont depuis longtemps montré que certaines données anonymes peuvent être ré-identifiées. Dans les années 1990, Latanya Sweeney avait pu ré-identifier les données médicales de William Weld (alors gouverneur du Massachusetts), sur base de son code postal, sa date de naissance et son genre. Deux journalistes allemands ont récemment ré-identifié l’historique de navigation d’un juge et d’un député, retrouvant leurs préférences sexuelles et leurs traitements médicaux dans des données anonymes obtenues en se faisant passer pour des acheteurs potentiels. Et, aux États-Unis, les dossiers fiscaux du président américain Trump ont pu lui être ré-attribués par le New York Times en utilisant des données anonymes publiées par le fisc américain, l’IRS.

Compagnies et gouvernements minimisent souvent ces ré-identifications. Leur ligne de défense : parmi des petites bases de données, toujours incomplètes, personne ne saura jamais si une ré-identification est correcte ou non et si des chercheur·e·s ou journalistes ont vraiment réidentifié la bonne personne.

Un guide pour protéger les données en Australie. Australian Government, CC BY

Cela implique que l’organisme collecteur fasse un travail dit d’échantillonage sur la base de données. Ainsi, l’autorité de protection des données australienne [OAIC], suggère dans son guide de dés-identification que l’échantillonnage augmente « l’incertitude qu’une personne particulière fasse réellement partie d’une base de données anonyme ». Prenons un exemple pour expliquer cela. Admettons que votre employeur retrouve des données vous correspondant dans un échantillon de 10 000 patients, soit 1 % d’une large base de données médicales. Ces données – comprenant par exemple votre lieu et date de naissance, genre, statut marital, etc. – pourraient bien appartenir à une autre personne qui partage ces caractéristiques. Car cette base de données de 10 000 personnes ne représente que 0,015 % de la population française. Et ces données réidentifiées pourraient correspondre à n’importe quelle autre personne parmi les 99,985 % autres Français·e·s.

Échantillonner (partager par exemple 1 % d’une base de données) est ainsi une technique largement utilisée. Réduire la taille des données partagées permet de justifier que ces données sont anonymes, car personne ne pourra jamais prouver qu’une ré-identification est correcte.

Un algorithme qui remet en question l’anonymat

Le problème ? Nos travaux démontrent au contraire qu’un algorithme peut apprendre à estimer, avec grande précision, si des données réidentifiées appartiennent bien à la bonne personne ou non.

Il y a bien entendu, si c’est en France, de nombreux hommes trentenaires, habitant à Paris. Si je retrouve un seul homme de 30 ans parmi les données anonymes de 1 000 personnes, collectées et revendues par un cabinet d’assurance parisien, il y a peu de chance qu’elles correspondent à mon voisin Émeric. Les données correspondant à ces trois attributs (homme, 30 ans, habitant à Paris) seront sans doute celles d’un autre Français.

Mais au fur et à mesure que ces données s’enrichissent, qu’on apprend davantage de caractéristiques, il devient illusoire qu’une seconde personne ait les mêmes caractéristiques. Il y a ainsi sans doute un seul homme à Paris, né le 5 janvier 1989, roulant en vélo électrique et habitant avec ses deux enfants (deux filles) et un berger allemand : mon voisin Émeric.

Après avoir « appris » quelles caractéristiques rendent les individus uniques, notre algorithme génère des populations synthétiques pour estimer si un individu peut se démarquer parmi des milliards de personnes. Le modèle développé permettrait par exemple aux journalistes du New York Times de savoir à coup sûr si les dossiers identifiés appartenaient vraiment à Donald Trump.

Nos résultats montrent que 99,98 % des Américains seraient correctement ré-identifiés dans n’importe quelle base de données en utilisant 15 attributs démographiques. Les chiffres sont similaires à travers le monde (16 attributs en ajoutant la nationalité). Une quinzaine de caractéristiques qui suffisent à identifier un individu, ce n’est hélas pas beaucoup. Le « data broker » Acxiom, un courtier de données qui achète et qui revend nos données personnelles dans 60 pays, possède par exemple jusqu’à 5,000 attributs par personne.

Nos travaux remettent ainsi en question les pratiques actuelles utilisées pour dés-identifier des données personnelles. Cela interroge sur les limites de l’anonymisation : utiliser ainsi ces données protège-t-il toujours notre vie privée ? Alors que les standards d’anonymisation sont en passe d’être redéfinis par les pouvoirs publics, au niveau national et au sein de l’Union européenne, il est crucial pour ces standards d’être rigoureux, de promouvoir de meilleures méthodes de partage des données, et de prendre en compte tout risque futur. C’est à la fois important pour nos vies privées, pour la croissance de l’économie numérique et pour le dynamisme de la recherche scientifique.

Luc Rocher a reçu des financements du Fonds de la Recherche Scientifique (FNRS-FRS) en Belgique.

Pourquoi les appareils à commande vocale nous enregistrent-ils ? Quels en sont les risques ?

2019-09-08T18:38:06Z

Assistant à commande vocale. Photo by Niclas Illg on Unsplash

Alors que le déploiement sécurisé des réseaux 5G vient d’être adopté par la France (loi « anti-Huawei »), les polémiques fleurissent autour des assistants vocaux (sans oublier votre Xbox) convertis en véritables « mouchards ». A la suite de lanceurs d’alerte, plusieurs médias ont ainsi révélé l’étendue des enregistrements accidentels (non déclenchés par l’utilisateur) et surtout l’envoi de tous les enregistrements à des sous-traitants dont les salariés écoutent vos moments les plus intimes.

Google Home, Apple Siri, Amazon Echo et Xbox, fabricants de ces dispositifs reposant sur l’intelligence artificielle ont en effet recours à des sociétés extérieures pour analyser les requêtes. C’est acceptable, mais là où cela devient glissant, c’est que les salariés peuvent écouter les enregistrements des voix des membres du foyer et des personnes qui les visitent et sont à portée de voix.

La commande vocale est en réalité profondément infiltrée dans votre vie privée. Au-delà des assistants vocaux ce sont bien sûr le téléphone, un casque audio, les équipements ménagers, jusqu’à votre chambre d’hôtel, et demain les véhicules autonomes qui fonctionnent grâce à cette technologie. Il est donc temps de découvrir ce que les fabricants enregistrent, pourquoi, et quels sont les risques pour les utilisateurs.

Espion du quotidien

Contrôler des objets connectés, utiliser des services de divertissement tels sont les fonctions des assistants personnels à commande vocale : répondre à une question, jouer un morceau de musique, donner la météo, descendre les stores, diminuer la température… un vrai valet à votre service !

Tous les appareils connectés se trouvent dans le foyer ou sont portés par leurs utilisateurs. Le volume des données qu’ils génèrent est donc très important et reflète parfaitement le mode de vie de la famille depuis l’heure du lever. Réglage du chauffage, goûts culturels, achats passés, centres d’intérêt… rien de leur échappe. Le profil commercial de chaque membre de la famille est affiné en toute discrétion puisque la voix qui commande l’appareil ne laisse aucune « trace ». En effet, vous souvenez-vous des requêtes formulées hier ? La semaine dernière ? Ou depuis l’achat de cet assistant ? Et qu’en est-il des interactions de vos enfants ou de leurs amis avec cette machine ? L’appareil lui, ne perd pas une miette du moindre mot et s’empresse de l’analyser pour peaufiner la technologie de reconnaissance vocale et, au passage, la publicité ciblée.

Le fonctionnement est tellement simple que l’appareil se déclenche au bruit d’une simple fermeture éclair ! Siri s’est aussi déclenché en plein discours du Secrétaire à la Défense Gavin Williamson qui s’adressait aux députés au sujet de la Syrie. Le même assistant s’active aussi en concordance avec l’Apple Watch. Or, le taux de déclenchement accidentel de cette montre connectée est très élevé et il peut enregistrer jusqu’à 30 secondes de son. Des négociations d’affaires aux rapports sexuels, en passant par des transactions illicites et des consultations médicales, l’objet des enregistrements est identifiable en un rien de temps.

Le motif invoqué par les fabricants pour justifier ces enregistrements est l’amélioration de la technologie de reconnaissance vocale : « améliorer la qualité langagière » selon Amazon et Google. Les sociétés précisent qu’elles permettent à l’utilisateur de s’opposer à certaines utilisations de ces enregistrements par une option d’« opt-out » (pour ce faire, il faudra vous immerger dans les paramètres de votre appareil…). Apple a pour sa part expliqué que l’analyse porte sur moins de 1 % des requêtes et qu’elle se fait moyennant des garanties : les données sont anonymisées (elles ne peuvent pas être rattachées à l’identifiant d’un client) et les personnes chargées de l’analyse ont signé un engagement de confidentialité. Devant le tollé provoqué par ces révélations, la firme a décidé d’introduire une option de consentement pour les utilisateurs.

Données personnelles

Si ces enregistrements « accidentels » et leur envoi pour analyse et écoute à des sous-traitants alimentent la polémique, c’est parce que les utilisateurs n’en étaient pas informés par les fabricants. Leur manque de loyauté et de transparence vis-à-vis de leurs clients est donc condamnable, sans compter l’absence de sécurité et de confidentialité s’agissant des enregistrements communiqués aux médias. Ces enregistrements comprennent l’historique des requêtes audio et la transcription des requêtes. Ils sont accompagnés de données de localisation, données de contacts et détails des applications qui servent à vérifier si la réponse à une requête a été donnée, plus les méta-données (date, heure, utilisateur…).

De surcroît, d’innombrables cas d’enregistrements portent sur des discussions privées entre médecins et patients, des négociations commerciales, des transactions apparemment criminelles, ou encore de rencontres sexuelles, etc.

Or, les données contenues par ces enregistrements sont des données à caractère personnel puisqu’il s’agit d’informations se rapportant à une personne physique identifiée ou identifiable. Rappelons que la personne physique peut être identifiée indirectement par référence à un identifiant (nom, numéro d’identification, données de localisation) ou à un ou plusieurs éléments spécifiques propres à son identité qu’elle soit physique, économique, culturelle ou sociale.

Nombre de ces données sont qualifiées de sensibles : celles révélant l’origine raciale ou ethnique, les opinions politiques, les convictions religieuses, l’appartenance syndicale, les données de santé ou celles concernant la vie sexuelle ou l’orientation sexuelle d’une personne. Le RGPD interdit le traitement de ces données sauf consentement explicite de la personne et dans certaines hypothèses strictement définies (art. 9). Or, dans de tels cas, les équipes qui analysent les enregistrements ont pour toute consigne de rapporter un « incident technique », sans plus. Aucune procédure n’est mise en place pour ces données très sensibles !

Au-delà de la publicité ciblée, les risques sont le partage ou la commercialisation des données, le piratage et l’utilisation par des tiers non autorisés (usurpation d’identité, arnaques, ransomware, etc.). Ces risques sont bien réels car la détection de la voix humaine n’est pas infaillible. Lors du Super Bowl 2017, une publicité TV sur Google Home avait déclenché les appareils des téléspectateurs car les personnages lançaient le fameux « OK Google ». De nombreux utilisateurs d’Amazon Echo ont reçu à leur domicile une maison de poupée qu’ils n’avaient pas commandée ! La commande vocale est donc la grande vulnérabilité de ces nouvelles technologies.

Paroles… paroles… paroles…

L’utilisation des assistants à commande vocale se révèle donc à haut risque pour la vie privée de ses utilisateurs. Leurs propriétaires sont en premier lieu affectés ainsi que toute personne se trouvant à portée de voix de l’appareil, même s’il n’en a pas forcément conscience. Plusieurs principes du RGDP ne sont sans doute pas observés. Celui de licéité, loyauté et transparence tout d’abord, puisque ces enregistrements et leur envoi à des sous-traitants ont eu lieu en dehors de toute information des personnes aisément accessible, facile à comprendre et formulée en termes clairs et simples. La minimisation de l’usage des données est aussi mise à mal car ces sociétés traitent des données qui ne sont ni adéquates, ni pertinentes au regard des requêtes des usagers.

Ensuite, rappelons qu’en vertu du principe de limitation des finalités, la ou les finalités doivent répondre à trois qualités. Être « déterminées » préalablement ce qui signifie qu’il est interdit de collecter des données à des fins préventives. Ces finalités doivent être « explicites », c’est-à-dire communiquées à la personne concernée (droit à l’information) et enfin, être légitimes par rapport à l’activité du responsable de traitement.

Quant à la limitation de la conservation, aucune durée n’est spécifiée par les CGU de Google si ce n’est que les enregistrements sont conservés jusqu’à ce que les utilisateurs les suppriment. Comment faire ? Ici encore, tout repose sur la vigilance de la personne et sa persévérance, à défaut de protection par défaut et dès la conception de la part de Google (accédez ici à votre activité sur la page de Google pour tenter de supprimer vos enregistrements).

Sur certains produits, il est possible de paramétrer plusieurs profils d’utilisateurs, dans ce cas les enregistrements permettent l’identification de la personne (biométrie vocale) et les données sont rattachées à chaque profil. S’agissant de données biométriques, elles sont qualifiées de sensibles au sens du RGPD et ne peuvent être traitées que sur la base d’un consentement explicite.

Détournements

En cas d’utilisation des données pour une finalité autre que celles spécifiées dans les conditions d’utilisation de ces services, les sociétés peuvent voir leur responsabilité engagée pour détournement de finalité. La CNIL a récemment mis en demeure des sociétés des groupes Humanis et Malakoff-Médéric de cesser d’utiliser pour de la prospection commerciale des données personnelles collectées exclusivement afin de payer les allocations retraite.

Avec l’entrée en application du RGPD, les amendes administratives pour violation des principes de base d’un traitement, y compris les conditions applicables au consentement, peuvent atteindre vingt millions d’euros ou jusqu’à 4 % du chiffre d’affaires annuel mondial total de l’exercice précédent (le montant le plus élevé étant retenu).

L’autorité de protection des données allemande a justement ouvert une procédure d’enquête en août dernier enjoignant Google de cesser ses analyses des enregistrements pour une durée de 3 mois dans l’Union européenne.

Que faire ?

Les détenteurs de ces assistants peuvent tout d’abord exercer leurs droits d’accès à leurs données à caractère personnel pour savoir quelles écoutes ont été faites, et ensuite en demander la suppression. En attendant que des sanctions soient prises, les conseils de la CNIL sont les suivants :

Privilégier l’utilisation d’enceintes équipées d’un bouton de désactivation du microphone.
Couper le micro/éteindre/débrancher l’appareil lorsque vous ne souhaitez pas être écouté. Certains dispositifs n’ont pas de bouton on/off et doivent être débranchés.
Avertir les tiers/invités de l’enregistrement potentiel des conversations (ou couper le micro lorsqu’il y a des invités).
Encadrer les interactions des enfants avec ce type d’appareils (rester dans la pièce, éteindre le dispositif lorsqu’on n’est pas avec eux).
Vérifier qu’il est bien réglé par défaut pour filtrer les informations à destination des enfants.

Enfin, si vous possédez l’appareil Alexa d’Amazon, il est possible de désactiver l’option d’enregistrement dans : Paramètres > Alexa et vos informations personnelles > Gérer comment vos données contribuent à améliorer Alexa > Contribuer à améliorer les services Amazon et à développer de nouvelles fonctionnalités.

Publicité en ligne : reprenons la main !

2019-06-03T10:30:36Z

Facebook sur un mur. george pagan/ unsplash

Vous avez peut-être été stupéfaits par des pubs que vous recevez sur des plates-formes du web, peut-être vous êtes-vous inquiétés. Vous avez sûrement entendu parler de Cambridge Analytica et d’autres manipulations de la foule des internautes. Tout cela est mystérieux, opaque. Les recherches de deux informaticiens grenoblois, Oana Goga et Patrick Loiseau, les ont amenés à étudier le sujet. Ils racontent ce qu’ils ont appris. Cet article est publié en collaboration avec Le Blog Binaire.

La plate-forme de publicité de Facebook est fréquemment source de controverses en raison de potentielles violations de vie privée, de son opacité, et des possibilités de son utilisation par des acteurs malhonnêtes pour du ciblage discriminatoire ou même de la propagande destinée à influencer des élections.

Pour répondre à ces problèmes, de nombreux gouvernements et activistes prônent une augmentation de la transparence et de la responsabilité de Facebook au sujet des publicités qui circulent sur la plate-forme. Par exemple, le Règlement général sur la protection des données (RGPD) européen introduit un « droit à l’explication ». Toutefois, comment apporter de la transparence à un tel système reste une question largement ouverte sur le plan technique. En collaboration avec des chercheurs de l’institut Max Planck (Allemagne) pour les systèmes logiciels, de l’université de Northeastern (États-Unis), et de l’université fédérale du Minas Gerais (Brésil), nous explorons les différentes sources de risques dans les plates-formes de publicités des médias sociaux telles que celle de Facebook et des solutions pour les atténuer via des mécanismes de transparence.

Les abus sont facilités par certaines caractéristiques des plates‑formes

Pour bien comprendre pourquoi le problème est à la fois répandu et complexe à résoudre, commençons par regarder comment ces plates-formes fonctionnent. On peut distinguer principalement trois caractéristiques, inhérentes à leur fonctionnement, qui rendent la transparence à la fois plus importante et plus difficile :

La plate-forme offre aux publicitaires un canal de communication privé avec chacun de ses utilisateurs : son « mur ». Il est donc impossible de savoir quelles publicités un utilisateur particulier reçoit, qui sont les publicitaires qui le ciblent et pourquoi ; ce qui rend les abus extrêmement difficiles à détecter.
N’importe quel utilisateur possédant un compte Facebook peut devenir un publicitaire en quelques minutes sans vérification d’identité. Il n’y a donc aucune barrière pour des acteurs mal intentionnés souhaitant exploiter le système.
La plate-forme met à disposition des publicitaires une quantité énorme de données sur les utilisateurs pour cibler très précisément certains segments de la population avec des messages susceptible de résonner en eux. Les publicitaires peuvent cibler les individus satisfaisant une combinaison précise d’attributs, avec plus de 1 000 attributs prédéfinis choisis dans une liste et plus de 240 000 attributs libres suggérés par la plate-forme lorsque le publicitaire tape des mots clés. On peut cibler par exemple les utilisateurs « intéressés par les enfants, mais pas par The Economist, ayant récemment déménagé et habitant au code postal 38 000 ». Les publicitaires peuvent également cibler des individus en particulier s’ils ont des informations appelées informations d’identification personnelle telles que l’email ou le numéro de téléphone.

Si on combine ces trois caractéristiques, on voit qu’un publicitaire peut cibler de façon très précise (ouvrant la voie à une manipulation potentielle) sans qu’il y ait de contrôle sur l’identité des publicitaires et sans qu’il n’y ait de possibilité pour un acteur extérieur (comme un régulateur) de vérifier l’absence d’abus.

Vous avez dit protection des données personnelles ? lamauvaiseherbe.net, CC BY

Un premier audit externe de l’utilisation de la plate-forme

Puisque les publicités ciblées sont vues seulement par les utilisateurs ciblés en question, la seule façon d’auditer la plate-forme est de collecter directement les publicités montrées aux utilisateurs sur leur mur. Pour permettre un tel audit externe, nous avons développé une extension de navigateur, AdAnalyst que les utilisateurs peuvent installer et qui collecte (de façon anonyme) des données sur les différentes publicités reçues. En utilisant les données de plus de 600 utilisateurs, nous avons pu réunir des éléments de réponses à quelques questions importantes pour bien comprendre comment la plate-forme est utilisée et quelles sont les sources de risques potentiels :

Qui sont les publicitaires ? Notre analyse révèle que 16 % des publicitaires sont peu populaires (ils ont moins de 1 000 likes sur leur page Facebook) et que seuls 36 % sont « vérifiés » (par un processus de vérification volontaire proposé par Facebook) et peuvent donc être tenus responsables de leurs publicités. Nous constatons aussi que plus de 10 % de publicitaires visent des catégories de sujets potentiellement sensibles (c’est-à-dire information/politique, éducation, finance, médecine, droit, religion) ; il est donc crucial et urgent de pouvoir les « monitorer » !
Quelles stratégies de ciblage utilisent les publicitaires ? Une fraction importante des publicitaires (20 %) utilisent des stratégies de ciblage qui, soit potentiellement envahissent votre vie privée (c’est-à-dire basées sur les informations d’identification personnelle ou sur des attributs de tierces parties collectés en dehors de la plate-forme par des compagnies appelées data brokers qui les vendent ensuite à Facebook), soit sont opaques (c’est-à-dire utilisant la fonction « lookalike audience » de Facebook qui laisse le réseau social sélectionner les utilisateurs ciblés sur la base d’un algorithme de « similarité » privé). Cela représente une transition par rapport au mode de ciblage plus classique (et mieux compris) basé sur la localisation, sur les attributs démographiques ou de comportement, ou sur le re-ciblage (pratique qui consiste à montrer des publicités pour des produits que vous avez précédemment cherchés par vous-même).
Quels attributs les publicitaires utilisent-ils ? Même lorsque ce mode plus classique de ciblage sur les attributs est utilisé, il peut être source d’inquiétude. En effet, les attributs « voyage » ou « nourriture et boisson » restent les plus utilisés, mais une fraction surprenante de publicités (39 %) utilisent des attributs libres qui sont beaucoup plus spécifiques et peuvent être beaucoup plus sensibles : on trouve par exemple des attributs tels que « connaissance du diabète de type 1 », ou un intérêt pour diverses organisations ou actions telles que « Adult Children of Alcoholics » (adulte dont les parents sont alcooliques) ou « Defeat Depression » (vaincre la dépression).
Les publicitaires adaptent-ils leurs publicités aux sujets ciblés ? Nous avons découvert que 65 % des publicitaires adaptent effectivement le contenu de leurs publicités en fonction des attributs ciblés. Par exemple, Vice News (un site américain d’information généraliste) envoyait aux utilisateurs intéressés par PC Magazine (un magazine spécialisé dans la technologie) une publicité pour un article « A self-driving, flying taxi could soon be a reality » (un taxi volant autonome sera bientôt une réalité) et aux utilisateurs intéressés par le Parti démocrate une publicité pour un article « Mr. Trump and Mr. Cohen have a lot of explaining to do » (M. Trump et M. Cohen ont beaucoup à expliquer). Si ces pratiques ne sont pas malveillantes en elles-mêmes et existent d’ailleurs aussi dans le monde déconnecté, elles requièrent une attention particulière dans le cas de la publicité en ligne car elles ouvrent la porte à une manipulation fine par l’intermédiaire du micro-ciblage. Dans un autre contexte, nous avons mis en évidence par exemple que cette pratique a été utilisée par la Russian Intelligence Agency pour envoyer des publicités clivantes de façon ciblée aux utilisateurs vulnérables pendant l’élection présidentielle américaine de 2016.

Malgré des réponses intéressantes, cette étude du cas de Facebook ne révèle qu’une petite partie émergée de l’iceberg que représente l’écosystème de la publicité dans les médias sociaux et met surtout en lumière le besoin de travaux supplémentaires pour comprendre l’écosystème et son impact sur les utilisateurs.

Don’t Be Evil. Oscar Berg/Flickr, CC BY-NC-SA

Quid des mécanismes de transparence ?

Pour répondre aux inquiétudes des utilisateurs, les plates-formes ont récemment commencé à offrir des mécanismes de transparence. Facebook (en premier) a introduit un bouton « Pourquoi je vois cette pub ? » qui fournit aux utilisateurs une explication pour chaque publicité du type : « Une des raisons pour lesquelles vous voyez cette publicité est que Würth France souhaite atteindre les personnes intéressées par Industrie automobile, en fonction d’activités comme les Pages aimées ou les clics sur les pubs. D’autres raisons peuvent expliquer que vous voyiez cette publicité, notamment que Würth France souhaite atteindre les hommes de 24 à 58 ans qui habitent en France. Cette information est basée sur votre profil Facebook et les lieux où vous vous connectez à Internet. »

Même si ces explications ne fournissent d’information que sur une petite partie du processus de délivrance des publicités (le choix de l’audience par le publicitaire), elle constitue a priori un bon début ; mais il est toutefois indispensable de les auditer afin de s’assurer de la qualité de l’information fournie aux utilisateurs ! Pour ce faire, nous avons créé des campagnes de publicité contrôlées ciblant les utilisateurs volontaires d’AdAnalyst et collecté les explications reçues que nous avons alors comparées aux paramètres effectifs des campagnes. Nos résultats montrent que les explications fournies par Facebook sont loin d’être parfaites.

Nos expériences montrent d’abord que les explications de Facebook sont incomplètes d’une façon potentiellement inquiétante. Dans le détail, on observe que l’explication montre au plus un attribut même si plusieurs ont été utilisés pour le ciblage. Plus inquiétant, l’attribut montré est choisi de façon surprenante. Il est d’abord choisi en fonction du type d’attribut, en donnant la priorité aux attributs démographiques par rapport aux attributs d’intérêt et de comportement. Ensuite, l’attribut montré est celui qui a la plus grande prévalence (c’est-à-dire, qui est partagé par le plus grand nombre d’utilisateurs de Facebook). Ne révéler que l’attribut le plus commun ne semble pas être en mesure de fournir des explications utiles pour les utilisateurs. Imaginez par exemple un publicitaire qui ciblerait des utilisateurs intéressés par le fascisme et ayant un téléphone portable, l’explication ne mentionnerait que l’attribut téléphone portable. En plus de donner une information très partielle, une telle explication apparaît facilement manipulable par un publicitaire mal intentionné qui pourra par exemple masquer un attribut rare et discriminatoire ou sensible en y ajoutant un attribut très commun.

Nos expériences ont aussi montré que les explications de Facebook suggèrent parfois des attributs qui n’ont en fait pas été utilisés par le publicitaire ; ce qui au minimum induit en erreur et risque de briser la confiance de l’utilisateur dans les mécanismes de transparence offerts.

Dans l’ensemble, cette étude nous met en garde sur le fait qu’il ne suffit pas de donner n’importe quelle explication pour apporter de la transparence ; et même si notre étude a été menée sur la plate-forme de Facebook, cette conclusion s’applique à l’ensemble des plates-formes. Des explications mal conçues peuvent être dangereuses car elles offrent seulement une partie de l’information, peuvent être facilement manipulées par des acteurs mal intentionnés et donnent un faux sentiment de confiance. Il est donc crucial d’avancer sur des bases scientifiques rigoureuses pour définir des standards pour les explications si nous voulons que de tels mécanismes de transparence soient un succès.

Comment avancer vers plus de transparence ?

Il n’existe malheureusement pas de réponse définitive à cette question pour l’instant. Toutefois nous pensons qu’il est fondamental que la transparence soit apportée par des tierces parties et ne vienne pas directement des plates-formes sans possibilité d’audit. C’est aussi pour aller dans cette direction que nous avons conçu l’outil AdAnalyst qui fournit aux utilisateurs des statistiques agrégées sur les publicités reçues, les publicitaires les ayant ciblés et les méthodes de ciblage utilisées mais aussi les autres attributs utilisés par un publicitaire pour d’autres utilisateurs. Nous espérons que cela donnera aux utilisateurs une vision plus complète de la façon dont ils sont affectés par la publicité sur Facebook pour qu’ils puissent en prendre conscience et se protéger contre les pratiques malhonnêtes – en attendant que la transparence soit mieux réglementée.

AdAnalyst peut être téléchargé ici.