28/11/2017

On peut faire dire ce qu'on veut aux statistiques

En fait, je suis un fervent supporter du domaine des statistiques que j’ai souvent utilisées dans le cadre de mon travail, mais pour avoir souvent eu l’expérience d’un mauvais emploi de ces méthodes, je sais à quel point il faut être prudent quand on analyse les résultats d’une telle étude. En effet, rien n’est plus facile que de manipuler une statistique et ceux qui ne sont pas attentifs et acceptent simplement l’argument d’autorité (selon un sondage SOFRES, selon une étude britannique, etc…) se font manipuler et on les amène à penser exactement ce qu’on souhaite.

Les méthodes sont diverses, on peut les classifier en deux catégories principales : non prise en compte de certains facteurs et mise en corrélation d’éléments sans rapport ou dépendant d’une cause commune. Donc si la première méthode est une manipulation, la seconde est carrément mensongère. Comme illustration de cette seconde méthode, je vous propose par exemple une étude désignant la teinture de cheveux comme cancérogène.


 

Sachant que la teinture de cheveux est utilisée majoritairement par les femmes, il suffit ainsi de se concentrer sur certains cancers typiquement féminins. Prenons donc le cancer de l’utérus et le cancer du sein. Vous réalisez donc une statistique prenant en compte les malades de ces deux types de cancer et vous les rapportez à l’ensemble de la population saine. (donc féminine et masculine) Vous demandez à vos deux échantillons s’ils utilisent régulièrement des teintures, s’ils en ont déjà utilisées ou s’ils n’en ont jamais utilisées du tout. Immanquablement, vous trouverez que la part de personnes atteintes de cancer du sein ou de cancer de l’utérus augmente chez les personnes ayant déjà utilisé des teintures et augmente encore chez celles utilisant régulièrement ces teintures. Il devrait même être pas loin de deux fois plus grand !

Ne vous reste plus qu’à présenter les choses d’une manière dramatique, doublée d’un argument d’autorité, du genre : « Une étude suisse démontre que le risque de contracter certains cancers double avec l’utilisation d’une teinture de cheveux. » et à préconiser l’interdiction de cette substance. Manière dramatique, mais clairement mensongère. Mais qui va vérifier ?

En fait le gros problème de la méthode, c’est qu’on tente de créer une cause à effet entre deux phénomènes non corrélés, alors que les deux mesures sont en fait uniquement reliées par une cause commune : elles touchent exclusivement dans un cas et majoritairement dans l’autre, des femmes.

C’est un simple problème de logique pure. Comparons la méthode à un petit exercice de logique à travers deux affirmations :

« La majorité des hommes possède le permis de conduire. »
« Beaucoup d’hommes aiment le bricolage. »

Ces deux affirmations sont-elles exactes ? Oui je le pense. Peut-on en déduire que le fait de posséder le permis a quelque chose à voir avec le fait d’aimer le bricolage ? Non cela n’a aucun rapport. Toutefois, je suis certain que si on fait une statistique mettant en rapport le fait de posséder le permis et le goût du bricolage chez les hommes, on parviendra à en faire la démonstration.

Dans la pratique, je citerai la statistique qui détermine le nombre de morts dus à la pollution dans cette catégorie de manipulation. Ou du moins j’ai de gros soupçons de manipulation la concernant. Les chiffres cités, quand on y réfléchit, paraissent totalement incroyables. La pollution causerait près de 9 millions de morts chaque année, ce qui en ferait la première cause de mortalité ! Or connaissez-vous personnellement une personne dont on peut clairement dire qu’elle ne serait pas décédée sans la pollution ? Il est très probable que non.

Je ne nie pas qu’il existe des personnes à risques, soit qu’elles soient gravement malades, en particulier des gros asthmatiques chroniques, ou des personnes âgées, déjà en fin de vie. Je ne nie pas non plus que la pollution représente un danger pour la santé. Mais une étude qui ne met en corrélation que la pollution avec l’espérance de vie est très suspecte, car on oublie que cette espérance de vie peut être influencée par d’autres facteurs ! Par exemple, au niveau mondial, les zones les plus polluées sont souvent aussi celles dont les conditions sanitaires sont les plus mauvaises. Dans nos régions, l’espérance de vie est sans doute aussi plus grande dans les campagnes que dans les villes, mais la pollution en est-elle la seule cause ? On peut aussi citer le stress, le mode de vie plus sédentaire ou l’alimentation moins équilibrée. Au final, il s’agit donc bien de créer un lien de cause à effet entre deux phénomènes reliés à une cause commune. En gros, en ville on vit moins sainement…

Bref méfiance. Mais qu’on se comprenne bien : loin de moi l’idée de dire que la pollution c’est du pipeau. Le fait que des gens meurent du fait de la pollution est déjà bien suffisant pour qu’on s’en occupe sérieusement. Par contre, je ne supporte pas qu’on manipule la population avec des statistiques créées de toutes pièces pour faire accepter n’importe quelle loi qui serait autrement très impopulaire…

L’autre méthode est bien plus courante. Il s’agit de ne corréler un phénomène qu’à une seule cause alors qu’il en existe plusieurs et à taire les autres explications. Je prendrai un seul exemple pour l’illustrer. Il s’agit de la statistique concernant les causes d’accidents de la route. Celle-ci place toujours l’alcool et la vitesse en tête des causes d’accident. Je ne cherche bien sûr pas à démontrer que rouler bourré à tombeaux ouverts, c’est bien. Mais il s’agit surtout de montrer qu’on oublie en général un facteur, et cela sans doute volontairement.

Ce facteur, c’est que ces deux infractions sont considérées comme des fautes graves et que si elles sont présentes dans la situation, on les désigne invariablement comme cause unique de l’accident. Cela même si, par exemple, l’autre conducteur impliqué a fait un refus de priorité au désigné coupable. Je n’ai rien contre le principe, puisqu’il est évident que sans la vitesse excessive ou la diminution des réflexes provoquée par l’alcool, beaucoup d’accidents provoqués par une autre cause pourraient être évités. Mais c’est la prise en compte statistique de ces données faussées sans autre précaution qui me dérange. Car si on sait que certains accidents auraient pu être évités sans l’alcool ou la vitesse, il y en a aussi qui auraient de toute manière eu lieu. Donc, dans ces cas, ils ne devraient pas être considérés comme cause principale. Pire : il est tout simplement impossible de savoir quels accidents auraient pu être évités ou non.

Au final, il n’y a donc aucune donnée, mais il est très possible qu’en réalité, l’alcool et la vitesse ne soient pas les causes principales d’accidents de la route. S’attaquer majoritairement à d’autres causes serait dans ce cas plus efficace, mais sans doute moins facile à mettre en œuvre, c’est pourquoi on s’attacherait tout de même principalement à celles-ci.

Donc on le voit : rien n’est plus facile à manipuler que les statistiques. Dans ces conditions, je conseille à tous de se méfier des études d’autorité qui démontrent quelque chose. Généralement, elles ne démontrent pas grand-chose et servent plutôt à manipuler l’opinion.

Écrire un commentaire