Menu Close

Faut-il croire les statistiques ?

Dés, et des statistiques. Photo by Jonathan Petersson on Unsplash

Cet article est publié dans le cadre de la Fête de la Science 2018 dont The Conversation France est partenaire. Retrouvez tous les débats et les événements de votre région sur le site Fetedelascience.fr.


Ce matin, j’allume la télévision et je tombe sur un chroniqueur politique qui commente des pourcentages de confiance en tel ou tel parti politique. Le ton est assuré, les valeurs bien affichées sur le petit écran, la thèse implacable. Au fur et à mesure qu’il déroule son discours, l’esprit peut-être en alerte car je savais que je consacrerais une partie de ma journée à écrire un article sur les statistiques, je me dis qu’avec exactement les mêmes chiffres, je pourrais tout à fait étayer la thèse opposée de celle que le chroniqueur développe.

Nous sommes assaillis de statistiques diverses et variées, résultats de sondage, indicateurs… Mais les conclusions que nous en tirons sont-elles justes ? Et que comprenons-nous vraiment de ces chiffres ? Très souvent, on nous présente un résultat statistique, un pourcentage, une moyenne, mais sans le contexte, sans la définition de la grandeur qui a été mesurée. La valeur donnée, souvent juste bien que mal remise dans son contexte, ne peut pas être mise en cause. Mais son interprétation, qui, elle, est parfois erronée, est également acceptée comme vérité par l’auditeur.

Cette année encore, à la fête de la science à Grenoble, des chercheurs en mathématiques vont initier collégiens et lycéens aux pièges des statistiques. Par des expériences répétées, ils toucheront du doigt le fait que parfois les chiffres contredisent le sens commun.

Jeux de dés non transitifs

Je vous propose un premier exemple avec un jeu de dés où les dés sont un peu atypiques. Sur les six faces du dé que nous appellerons A, il y a les nombres 1, 1, 3, 3, 8 et 8. Sur le dé B, il y a 0, 0, 5, 5, 7 et 7. Et sur le dé C, 2, 2, 4, 4, 6 et 6. À chaque fois, la somme des faces fait 24. Quel dé choisissez-vous pour gagner des duels ?

On peut faire le calcul, ou, ce que feront les élèves de collège et lycée, faire suffisamment de tirages pour se forger une idée. Le dé A bat le dé B avec une probabilité de 5/9 soit à peu près 56 %. Le dé B bat le dé C avec aussi une probabilité de 5/9. « Bon, c’est facile, je prends le dé A, il bat les deux autres ». Et bien non, faites le calcul, le dé C bat le dé A avec une probabilité de 5/9 aussi ! C’est une sorte de jeu pierre-feuille-ciseaux. C’est ce que l’on appelle des dés non transitifs.

Présentons le même problème, mais sous forme statistique. Nous n’avons plus un jeu de dés, mais quelque chose de sérieux, des médicaments. Reprenons le chiffre de 56 %. Nous savons que le médicament A obtient de meilleurs résultats que le médicament B sur 56 % des patients, et que le médicament B obtient de meilleurs résultats que le médicament C sur 56 % des patients. Peut-on en déduire que le médicament A est meilleur que le médicament C ? Et bien, pas forcément.

Paradoxe de Simpson

Les collégiens seront certainement intéressés par les résultats de réussite au brevet que nous allons leur présenter. Dans un collège (fictif), le pourcentage de réussite au brevet est plus bas en 2018 qu’en 2017. Le principal du collège se désespère, il veut comprendre. Il regarde de plus près les chiffres et se rend compte que les filles ont mieux réussi en 2018. Ah, elles sont plus sérieuses les filles, ce sont donc les garçons qui plomberaient le résultat ? Il fait le calcul pour les garçons et là, à son grand étonnement, les garçons ont aussi mieux réussi en 2018.

Comment cela est-il possible ? C’est ce que l’on appelle le paradoxe de Simpson. Un effet statistique qui intervient uniquement si les effectifs des deux populations concernées, ici les filles et les garçons, varient fortement d’une année sur l’autre. Que va donc faire le principal ? Communiquer sur des résultats en baisse ? Ou sur des résultats en hausse ? Les deux sont vrais finalement, cela dépend du point de vue que l’on prend.

Illustration du paradoxe de Simpson pour un échantillon de données : alors que des tendances positives apparaissent dans les échantillons rouge et bleu, l’union des deux échantillons présente une tendance négative (représentée par la droite pointillée noire). Schutz/Wikipedia

Devant des résultats de sondage, ou comme ici pour des indicateurs, les résultats sont parfois sans appel, mais pas toujours, lorsque vient le moment d’en faire la synthèse au grand public ou à des décideurs. De manière consciente ou non, on peut avoir une interprétation biaisée des résultats. Si on est persuadé dans son for intérieur que les résultats du brevet baissent, on présente le résultat global, en baisse, assorti du commentaire « nouvelle baisse des résultats au brevet ». Si notre leitmotiv est que les filles sont meilleures en classe, on va se concentrer sur le meilleur résultat des filles, laissant presque penser que ce n’est pas le cas pour les garçons. Et ce, parfois de bonne foi. Les personnes qui prennent connaissance de ces statistiques n’ont pas accès aux chiffres de départ mais uniquement à quelques pourcentages. En outre, elles ne connaissent pas le plus souvent ces biais d’interprétation, Et comme on l’a vu plus haut avec les trois médicaments, il est facile de déduire des choses fausses à partir des pourcentages.

Double anniversaire

Deux anniversaires le même jour dans la classe ? AdinaVoicu/Pixabay

Un autre travers est de déduire de résultats statistiques une conclusion pour soi-même. Nous présentons à ce même stand le fameux paradoxe des anniversaires, qui comme tout bon paradoxe va à l’encontre de l’intuition, mais qu’un calcul de dénombrement assez simple permet de justifier rigoureusement : « Dans une population de plus de 23 personnes, typiquement une classe de collège ou de lycée, il y a au moins une chance sur deux que deux personnes aient le même jour anniversaire. » Parfois cette statistique se vérifie exactement. En juin 2014, un journaliste annonce que « la moitié des équipes du Mondial ont deux joueurs nés le même jour ». Outre le fait qu’il peut paraître totalement incongru de s’intéresser à une telle statistique qui n’a rien d’un résultat sportif, elle illustre parfaitement le paradoxe des anniversaires, puisqu’il y a exactement 23 sélectionnés dans chaque équipe. Mais parfois, les statistiques nous jouent des tours. L’an dernier sur le même stand de la fête de la science, tous les élèves étaient incités à cocher leur date anniversaire : il a fallu attendre le milieu de l’après-midi, après le passage de bien plus de cent élèves, pour en trouver deux avec le même jour anniversaire.

Cette année, nous présenterons le dilemme de Monty Hall, une sombre histoire de chèvres et de voiture de luxe cachées derrière trois portes, pour lequel si on adopte la bonne stratégie, on a une chance sur deux de tomber sur la voiture. Mais nos visiteurs auront peut-être beaucoup de malchance et partiront après de nombreux essais avec un beau troupeau de chèvres et pas la moindre voiture…

Présenter cela aux élèves n’a évidemment pas pour objectif de les détourner des statistiques. Mais de leur apprendre qu’un mauvais usage, volontaire ou non, des outils statistiques comme les pourcentages, mais aussi les représentations graphiques, les moyennes… peut mener à des conclusions erronées. La prévalence des conditions favorables à des paradoxes comme le paradoxe de Simpson est très forte dans des domaines comme la médecine ou les sciences sociales, des sujets qui intéressent le grand public, pour lesquels les producteurs de statistiques influencés par leurs préjugés ou par l’action de lobbies peuvent facilement déraper.

Want to write?

Write an article and join a growing community of more than 182,100 academics and researchers from 4,941 institutions.

Register now