Image 20160602 23298 13mqh8t.jpg?ixlib=rb 1.1

Quand la « data » joue au football

L'équipe nationale du Brésil. Wikimedia , CC BY-SA

Quand la « data » joue au football

Comment quantifier le foot ? Toute tentative de définition, de production et d’organisation des données dans ce domaine suppose de répondre à quelques questions, par exemple :

Qu’est-ce qu’une passe, en football ? On peut facilement imaginer qu’il y a une façon consensuelle de considérer qu’une passe est tentée, qu’une passe est réussie. Il est moins évident à définir qu’une passe est décisive (c’est-à-dire qu’elle entraîne un but). Jusqu’à ce que les ligues de football essayent d’harmoniser leurs définitions, les passes comptées comme « décisives » ici ne l’étaient pas forcément là.

En France, vous pouviez dribbler toute l’équipe adverse et faire une passe lumineuse qui ne laisse plus à l’attaquant qu’à pousser mollement le ballon aux fonds des filets : si jamais l’attaquant la contrôlait avant de marquer, alors votre passe n’était pas décisive. Alors qu’en Angleterre, vous pouviez passer dans votre propre surface un ballon approximatif de deux mètres à un partenaire qui s’en allait dribbler toute l’équipe adverse avant de marquer : vous étiez l’avant-dernière personne à avoir touché le ballon, votre passe était décisive.

Deuxième question : Qu’est ce qu’un centre ? On imagine bien qu’il faut, pour qu’une passe soit considérée comme un centre, qu’elle parte d’une certaine zone sur les côtés du terrain, et arrive dans une autre. Mais quelle zone exactement ?

Paramètres observables

Troisième question : qu’est-ce qu’un dribble ? Tous ces concepts sont propres au football, ils sont aisément compris, discutés, évalués par des centaines de millions de gens qui s’intéressent au football dans le monde entier. Mais comment les transformer en paramètres observables, en « données » qui seront ensuite exploitées par des armées d’analystes ou de statisticiens ? Comment définir « objectivement » (ou plutôt, pour ne pas employer de gros mots épistémiques, « de manière consensuelle ») ce qu’est un dribble, et ce qu’est un dribble réussi, de manière à ce que cette définition produise un paramètre qui soit précis, mesurable, reproductible, et standardisé ?

Ce n’est pas impossible, mais c’est loin d’être évident, d’autant plus que de nombreux analystes produisent des statistiques sur les joueurs ou les équipes qui dribblent le plus ou le mieux, sans pouvoir répondre à ces questions.

Certains disent que la « donnée brute » est un oxymore, d’autres que la « donnée » est bien mal nommée et devrait s’appeler « obtenue ». Ils veulent tous signifier qu’il est spécieux de faire des analyses quantitatives sans s’interroger d’où viennent les « données », en football comme ailleurs.

Choix de définitions

La « donnée » est d’abord pensée : imaginer un paramètre (la passe, le tir, l’expected goal, le ball movement point »), c’est avoir une certaine idée de comment représenter le match (ou la saison), et le concept de ce paramètre est déjà une certaine vision du football, qui va être traduite et va performer.

Définir la « donnée » n’est pas neutre non plus : définit-on le dribble topologiquement par un espace gagné balle au pied ? Par des adversaires « éliminés » ? Ces choix de définitions ne donneront pas la même valeur aux joueurs rapides et aux joueurs provocateurs.

Ecran récapitulatif durant la Coupe du monde. Mint Digital/Flickr, CC BY-NC-SA

Mesurer la donnée n’est pas non plus facile. Qui s’en charge ? Des entreprises dont le business model est lié à une divulgation partielle de leurs méthodes (pour créer un produit d’appel) et un secret global (en situation concurrentielle). Avec quels choix techniques ? La multiplicité de témoins humains enregistreurs ? Ou bien fait-on appel à de la détection vidéo informatisée ? Comment la reproductibilité est-elle gérée ? Enfin, comment standardiser ? Comment arriver à un consensus scientifique si la production de données provient d’entreprises concurrentes ? Et comment ensuite les rendre intelligibles, accessibles, donc performatives ?

Toutes ces questions ne signifient pas que ces méthodes sont illusoires et sans intérêt. Elles sont au contraire d’autant plus intéressantes ! Au-delà d’une opposition naïve entre technophilie béate et technophobie grincheuse, toutes ces questions sont importantes à déconstruire dans toute tentative d’analyse de production scientifique, mais elles sont passionnantes dans le cas du football.

La donnée du foot au cœur de plusieurs industries

En effet, le football est au cœur d’enjeux économiques et culturels uniques. Le football, un peu comme la publicité, est une version caricaturale de notre société. Par exemple, observer ce qui se passe dans les tribunes des matches du Beitar Jérusalem en dit long sur l’agressivité de la société israélienne, mais comprendre les Ultras de l’Hapoël Tel-Aviv permet de le nuancer. Plus près de nous, les politiques de répression des ultras du foot en France sont, de l’aveu même des politiques, un laboratoire de la répression en général.

Pour rester dans notre sujet, la « donnée » dans le football est au cœur de plusieurs industries. Le marché du football lui-même (les transferts de joueurs, le marché des spectateurs…) n’en représente qu’une partie : d’un côté, l’industrie audiovisuelle est au cœur de ces enjeux par sa façon même de définir le spectacle qu’est le match de football télévisé. De l’autre, (et non sans lien), l’industrie du pari sportif est structurellement liée à la quantification des probabilités et donc à l’utilisation industrielle de la donnée.

Big business. YouTube

Le discours du besoin d’objectivité et de rationalité est typique d’un « régime de promesse technoscientifique ». Comme pour les nanotechnologies par exemple, il s’agit de rendre inéluctable des choix techniques scientifiques et industriels. Mais la gouvernementalité de la donnée n’est pas le monopole d’un pouvoir unique, mais le lieu d’affrontements et d’intérêts divers et toutes ces questions scientifiques sont aussi des questions économiques, et politiques.

Or le football, contrairement au baseball ou au basketball, par la nature même du jeu, se prête plus difficilement à la quantification. Il résiste à la donnée par sa complexité physique, tactique, stratégique et psychologique. Le domaine des football analytics est aujourd’hui dans un régime d’« adolescence » par rapport aux sports qui sont les « success stories » de la donnée, comme le baseball.

Quand un milliardaire américain achète le Liverpool FC, un des plus gros clubs de la planète, parce qu’il a été séduit par la _success story _hollywoodienne de Moneyball, il veut reproduire naïvement une belle histoire de baseball dans le football et son échec provoque les moqueries. Quand un entrepreneur dans l’industrie du pari sportif achète le Brentford FC, modeste club de Championship loin de l’actualité sportive internationale, les entremêlements entre le pari sportif, l’analyse de performance, le marché des joueurs sont à prendre au sérieux… pour comprendre comment se mettent en place les relations complexes entre « données » et football. Il s’agit de science, il s’agit d’économie, il s’agit de politique, il s’agit de culture.