Je tremble donc je tweete : quand les citoyens aident à mesurer les catastrophes naturelles

Dans la commune du Teil, près de Montélimar le 11 novembre 2019, où un séisme d’une magnitude de 5,4 a été ressenti. JEFF PACHOUD/AFP

Percevoir rapidement l’étendue d’une catastrophe naturelle n’est pas chose facile, les informations en provenance du terrain arrivant au compte-gouttes. C’est pourtant sur la base de ce diagnostic que doit s’organiser la gestion de la catastrophe – en commençant par celle des secours, puis de l’assistance aux sinistrés.

Mais depuis une dizaine d’années, ces accidents s’accompagnent de la diffusion rapide et massive de messages sur les réseaux sociaux – et tout particulièrement sur Twitter, dont le principe de messages courts permet de témoigner « sur le vif ».

Prenez l’ouragan Sandy, par exemple : il totalisa à lui seul plus d’une vingtaine de millions de tweets. Plus proche de nous, ce sont près de 150 000 tweets qui ont été échangés en Italie en 2016 dans les 48 premières heures après le séisme d’Amatrice, alors que plus de 110 000 messages ont été envoyés sur Twitter lors des inondations du printemps 2016 dans la région parisienne et dans le val de Loire. Il y a tout juste une semaine, plus de 6 000 tweets étaient envoyés par les témoins du séisme du Teil, près de Montélimar.

Une plate-forme informatique (appelée SURICATE-Nat) et ses algorithmes tentent d’exploiter cette formidable mine d’informations.

Fort séisme près de Montélimar : « Ça bougeait comme dans un manège ». (Le Parisien/YouTube, novembre 2019).

Twitter, un formidable outil

En France, les deux tiers des communes sont aujourd’hui considérées comme exposées aux risques naturels. Une situation appelée à s’accentuer avec les changements climatiques et certaines dynamiques démographiques qui tendent à concentrer les populations dans les zones à risque, notamment le long du littoral.

D’ici 2050, la France devrait faire face à une augmentation significative des pertes consécutives aux catastrophes naturelles, de près de 40 % pour les inondations et de plus de 80 % pour les submersions marines, estime la Caisse centrale de réassurance (CCR).

Quel que soit le phénomène considéré, le point commun entre tous les risques naturels demeure l’impossibilité d’instrumenter densément l’ensemble d’un territoire exposé, et de disposer d’observations en nombre suffisant pour comprendre rapidement et précisément l’intensité de ces événements et leurs effets. D’où l’intérêt d’associer aux données issues de capteurs technologiques « traditionnels » celles récoltées par les capteurs « humains » que représentent notamment les utilisateurs de Twitter.

Début 2019, 58 % de la population française déclarait avoir une utilisation active des réseaux sociaux, parmi lesquels Twitter arrivait en 6e position derrière Facebook, YouTube, Instagram, WhatsApp et Snapchat.

Bien qu’il ne constitue pas le média social le plus utilisé, Twitter demeure riche de quelque 10,3 millions d’utilisateurs actifs dans l’Hexagone ; il présente des fonctionnalités particulièrement utiles aux signalements et à la surveillance en cas de catastrophe naturelle : publication en temps réel de messages courts, possibilité de joindre à ses messages des images et une géolocalisation GPS, mais aussi une interface de programmation (« API ») gratuite permettant d’automatiser les tâches de veille et d’analyse.

Twitter constitue donc un formidable instrument pour prendre en direct le pouls du terrain, et est de fait devenu l’un des médias sociaux les plus utilisés par les gestionnaires de crise un peu partout dans le monde.

Ses utilisateurs ne se répartissent cependant pas de manière homogène sur le territoire, révélant une sociologie d’utilisateurs plutôt jeune et citadine. Bien qu’ils représentent dans les faits souvent moins de 1 % du nombre total de messages échangés, l’on peut considérer en première approximation que les tweets géolocalisés (c’est-à-dire disposant des attributs GPS latitude/longitude dans leurs métadonnées) sont représentatifs de la localisation des utilisateurs de Twitter.

Ce faisant, l’on peut visualiser sur une carte (voir ci-dessous) cette inhomogénéité territoriale : les zones les plus actives correspondent clairement aux zones les plus densément peuplées, avec une nette domination de la région parisienne.

Comparaison entre l’étendue des zones sismiques de métropole et l’usage de Twitter approché par une normalisation du nombre de tweets géolocalisés captés entre le 1ᵉʳ septembre et le 31 décembre 2017. BRGM, CC BY-NC-ND

L’exemple des séismes

Que nous disent les tweets ? Tout commence par l’interrogation des serveurs de Twitter pour récupérer les messages d’intérêt – en spécifiant des critères de recherche précis, souvent définis par une liste de mots-clés. Si l’on s’intéresse aux séismes, l’on déclinera ainsi le champ lexical associé (« séisme », « tremblement de terre », « magnitude », « secousses », etc.), en veillant à demeurer suffisamment générique pour capter un maximum de messages d’intérêt, et suffisamment spécifique pour minimiser le nombre de messages hors sujet.

Les messages bruts ainsi collectés demeurent toutefois difficilement exploitables. De manière analogue à la manipulation des enregistrements réalisés à partir d’instruments de mesure (de vibrations, de concentrations chimiques ou encore de températures) qui doivent subir des traitements informatiques afin d’en extraire une information utile, les données issues de Twitter doivent tout d’abord être filtrées. Ce filtrage doit notamment permettre d’identifier et de supprimer les tweets envoyés depuis des automates, dont le seul objectif est d’amplifier artificiellement la portée d’un message, et qui ne contiennent aucune information de première main.

À l’instar d’autres phénomènes rapides non prévisibles, tels que les crues éclairs ou les chutes de météorites, les séismes donnent lieu à des pics d’activité très marqués sur Twitter, avec une explosion du nombre de tweets échangés après quelques dizaines de secondes seulement. Cette particularité permet le calage de modèles de détection capables de repérer automatiquement tout séisme suffisamment ressenti par la population.

Évolution du nombre de tweets captés chaque minute lors du séisme survenu à proximité de Montélimar le 11 novembre 2019. BRGM, CC BY-NC-ND

Il s’agit ensuite de procéder à un enrichissement individuel de chaque tweet pour en extraire de l’information de manière structurée. Des algorithmes de traitement automatique du langage (ou « TAL ») couplés à des approches d’intelligence artificielle peuvent ainsi permettre d’associer une localisation aux messages n’en disposant pas, ou de classifier les tweets selon l’information qu’ils contiennent.

Ainsi, l’analyse du message « Je viens de ressentir un séisme à Nice ! » permettra de reconnaître que des secousses sismiques ont été ressenties au point GPS N 43.70 – E 7.27 (géolocalisation indiquée par la base de données geonames.org pour Nice). La représentation d’à peine quelques centaines de ces messages donne ainsi une première idée de l’impact du séisme et de l’emprise de la zone affecté, avec cependant un « bruit de fond » représenté par des points qui apparaissent un peu partout en France.

Du fait que les séismes ne constituent pas un sujet d’intérêt usuel des Français, l’on peut facilement faire l’hypothèse que le fait que de nombreuses personnes en parlent au même moment et au même endroit, est caractéristique d’un séisme largement ressenti.

Fort de cette hypothèse, le BRGM a élaboré un algorithme qui regroupe les tweets selon leur double proximité spatiale et temporelle. Comme le montre la figure ci-dessous pour le séisme survenu le 21 juin 2019 vers Cholet, le contour des tweets ainsi regroupés délimite assez précisément la zone de perception du séisme qui couvre une grande partie de l’ouest de la France : et ce sans l’utilisation d’aucun capteur ni d’une quelconque connaissance sur les caractéristiques du séisme !

Affichage « brut » de la densité de tweets captés suite au séisme de Cholet du 21 juin 2019 (à gauche), et regroupement automatique comparé à la zone de perception du séisme. BRGM, CC BY-NC-ND

La plate-forme SURICATE-Nat

Si la collecte et l’analyse a posteriori de tweets pour l’analyse des catastrophes naturelles se révèle prometteuse, l’automatisation en temps réel de la procédure demeure autrement plus ardue.

C’est pourquoi le BRGM a développé, en partenariat avec l’Université de technologie de Troyes, la plate-forme SURICATE-Nat (contraction de « suricate », petit animal souvent désigné comme la « sentinelle du désert », et du terme « CATNAT » qui désigne les catastrophes naturelles). Celle-ci assure en continu la collecte et l’analyse des tweets liés aux phénomènes de séisme et d’inondation, ainsi que la restitution d’indicateurs accessibles au grand public sur un site Internet dédié.

Pour SURICATE-Nat, chaque individu constitue un capteur capable de signaler des informations utiles en cas de catastrophe naturelle. Outre l’analyse automatique de tweets, la plate-forme propose également deux fonctionnalités participatives originales visant à impliquer les citoyens.

Captures d’écran de la plate-forme SURICATE-Nat concernant le séisme de Montélimar du 11 novembre 2019. BRGM, CC BY-NC-ND

La première consiste, dès qu’un message détecté sur Twitter est reconnu par les algorithmes comme ayant manifestement été envoyé par un témoin direct du séisme ou de l’inondation, à adresser un tweet directement à son auteur pour lui donner des conseils de protection et l’inviter à fournir davantage d’informations en répondant à un court questionnaire en ligne. Lieu exact de l’observation et description des dégâts éventuels peuvent ainsi être décrits de manière plus précise qu’avec la seule analyse des tweets.

La seconde fonction participative est offerte à tous les internautes, qu’ils soient ou non utilisateurs de Twitter et consiste, via le site suricatenat.fr, à pendre part à la classification manuelle de tweets. Cet exercice ludique est de constituer des données de référence utilisables pour améliorer le calage d’algorithmes prédictifs.

Développer une culture du risque

Dans sa forme actuelle, la plate-forme SURICATE-Nat s’adresse d’abord aux citoyens. Elle ambitionne de participer à leur information rapide ainsi qu’au développement d’une culture du risque, en abordant les risques naturels sous l’angle des nouvelles technologies et des sciences participatives.

Avec le temps, il est également attendu que les utilisateurs de la plate-forme constituent une communauté mobilisable en cas de catastrophe naturelle pour prendre part à l’analyse des messages postés sur Twitter.

Au-delà de l’outil grand public, la plate-forme est née de la volonté d’outiller les acteurs de la gestion de crise (collectivités, services de secours et de sécurité), qui ont pour impératif de prendre conscience au plus vite de l’impact global des catastrophes naturelles, mais qui manquent d’outils efficaces pour exploiter efficacement les réseaux sociaux. Aussi, toutes les données collectées et analysées par SURICATE-Nat leur sont au final destinées.

En plus des séismes et des inondations, le programme devrait être étendu à l’avenir à d’autres risques naturels, tels que les tempêtes et les cyclones.


Samuel Auclair vient de faire paraître, aux Éditions l’Harmattan, un livre de vulgarisation scientifique sur les séismes : « Le séisme sous toutes ses coutures ».