Comment tenter de prévoir l’évolution des cours boursiers grâce à Twitter

Affiche Twitter à Wall Street lors de l'introduction en bourse de la firme en novembre 2013. Anthony Quintano/Flickr, CC BY

Chaque jour, plusieurs centaines de millions de messages sont publiés sur le réseau social Twitter. Cette avalanche de données est souvent présentée comme une mine d’or pour le monde de la recherche, permettant aux chercheurs de se mettre dans la peau de « Big Brother » en ayant accès à de nouvelles données pour mesurer en temps réel l’attention, l’opinion et le sentiment d’un échantillon de la population. De nombreuses études ont d’ailleurs récemment montré l’utilité des données Twitter pour anticiper les résultats des élections présidentielles, les épidémies de grippe, ou encore les entrées au box-office. Mais peut-on aussi prévoir l’évolution des cours boursiers grâce à Twitter ?

Il existe deux théories pouvant expliquer pourquoi Twitter pourrait permettre d’expliquer l’évolution des marchés financiers :

  • Une théorie « informationnelle » : l’information publiée sur Twitter est nouvelle, au sens non intégré dans les prix, et modifie donc la valeur anticipée rationnellement des cash-flows futurs d’un actif.

  • Une théorie « sentimentale » : le prix d’un actif dévie de sa valeur fondamentale temporairement en fonction des vagues d’optimisme ou de pessimisme (modèle théorique de DeLong & al., 1990), et Twitter permet de mesurer le sentiment des investisseurs.

De manière anecdotique, il est possible d’identifier quelques situations où des messages publiés sur le réseau social Twitter ont effectivement fait « bouger les marchés ». Le 30 mars 2015 par exemple, un tweet d’Elon Musk a entraîné une hausse de la capitalisation de Tesla d’environ 1 milliard de dollars en seulement quelques minutes. Histoire un peu similaire suite à un tweet de Carl Icahn en 2013, ayant entraîné une hausse de la capitalisation d’Apple de plus de 10 milliards.

Mais il existe une très forte différence entre l’analyse ex post de quelques évènements anecdotiques et la mise en place en temps réel d’une stratégie de trading rémunératrice fondée sur Twitter. En fonction principalement du nombre de fausses alertes générées par une « stratégie Twitter » et de la vitesse d’intégration de l’information dans les prix (efficience des marchés), la corrélation entre Twitter et les marchés financiers peut très rapidement se révéler inexploitable.

Une affaire de « sentiment »

La recherche académique s’est pour le moment principalement concentrée sur la seconde piste de recherche, en utilisant Twitter comme un proxy du sentiment des investisseurs. La méthodologie standard utilisée dans la littérature consiste à extraire l’ensemble des tweets contenant le nom d’une entreprise cotée et/ou le ticker (symbole financier) d’une entreprise, puis à attribuer automatiquement à chaque message un « sentiment » (positif, neutre ou négatif) grâce à un algorithme de classification supervisée. Une variable agrégée de sentiment est alors créée à partir de la moyenne des sentiments individuels, et l’étape suivante consiste à étudier le lien de causalité entre le « sentiment social » et l’évolution du prix de différents actifs financiers, en corrigeant du niveau de risque (rendement anormal).

Des résultats mitigés

Pour le moment, et d’ailleurs comme pour l’ensemble de la recherche concernant la prévision de l’évolution du cours des actifs financiers en utilisant des données en provenance d’Internet et des réseaux sociaux, les résultats sont assez mitigés (voir Nardo, et al. (2014) pour une revue de la littérature très complète). Dans deux articles publiés récemment, Sprenger, et al. (2014, « Tweets and Trades : The Information Content of Stock Microblogs ») et Ranco, et al. (2015, « The Effects of Twitter Sentiment on Stock Price Returns ») arrivent à cette même conclusion : il existe une corrélation entre le « sentiment social » et l’évolution des marchés financiers, mais pas de causalité. Pour le dire autrement, Twitter n’est pas une boule de cristal permettant de prévoir l’évolution des cours, mais plutôt un miroir reflétant la situation actuelle.

La recherche à ce sujet n’est en cependant qu’à ses balbutiements, en partie à cause de l’absence de données historiques gratuites et des compétences techniques requises pour extraire et analyser ce type de données non structurées. De nombreuses questions méthodologiques et théoriques restent ouvertes ; questions auxquelles j’essaye d’ailleurs de répondre dans le cadre de ma thèse de doctorat. Comment améliorer la précision de l’analyse de sentiment ? Est-il préférable de pondérer les messages en fonction de l’émetteur du tweet ? Comment tester la théorie informationnelle avec des données haute fréquence ? Faut-il combiner les signaux Twitter avec d’autres sources de données utilisées dans la littérature (médias traditionnels, volume de recherche sur Google…) pour diminuer le nombre de « fausses alertes » ?

Mais pour le moment, et comme résumé par Sprenger, et al. (2014), « identifier les bons tweets demeure aussi difficile que de choisir les bons investissements » (« Until then, picking the right tweets remains just as difficult as making the right trades »).