Corrélation et causalité

publicité
CORRÉLATION ET
CAUSALITÉ
INTRODUCTION


Pour argumenter, il est très souvent utile de
s’appuyer sur l’existence de liens statistiques
entre deux phénomènes, soit pour confirmer
une théorie, soit pour la contredire ou la nuancer.
Mais comment rendre compte de l’existence (ou
non) d’un lien statistique ? Tout lien
statistique est-il synonyme de causalité ? A
l’inverse, lorsqu’il existe une causalité, y a-t-il
toujours corrélation ?
3 TYPES DE SITUATION
Une corrélation positive : les deux variables
varient dans le même sens (lorsqu’une variable
augmente, l’autre augmente également ; ou
lorsqu’une variable diminue, l’autre diminue
également)
 Ex : Relation entre taille et poids d’un individu

Taille
1m70
1m75
1m80
1m85
Poids
74 kg
79 kg
83 kg
88 kg
3 TYPES DE SITUATION
Une corrélation négative : les deux variables
varient en sens inverse (lorsqu’une variable
augmente, l’autre diminue)
 Ex : Consommation de cigarettes et espérance de
vie

Nombre de
0
10
20
30
Cigarettes / jour
Espérance de vie 90 ans 80 ans 70 ans 60 ans
3 TYPES DE SITUATION
Une absence de corrélation : lorsqu’une variable
varie, l’autre ne varie pas, ou alors varie sans
lien avec la première.
 Ex : Relation entre la vitesse maximale du vent à
Brest et le nombre d’éléphants tués au Kénya

Vitesse du vent
90
(km/H)
Nombre d’éléphants 150
tués au Kénya
100
110
120
130
80
170
90
120
LA REPRÉSENTATION GRAPHIQUE : LE NUAGE
DE POINTS


Il y a corrélation si les points sont relativement bien alignés sur
une droite (dont la pente donne alors le sens de la corrélation)
Il y a absence de corrélation si les points sont particulièrement
dispersés
NUAGE DE POINTS ET AJUSTEMENTS
 Mais
la forme du nuage peut suggérer d’autres
types de courbes.
DE LA CORRÉLATION À LA CAUSALITÉ

La mise en évidence
d’une corrélation ne
signifie pas qu’un lien
de causalité existe entre
les 2 variables.
1. UN LIEN STATISTIQUE N’EST PAS TOUJOURS
LE SIGNE D’UNE CAUSALITÉ
A. Le lien statistique
peut être l’effet du
hasard
Exemple :
La taille moyenne des
japonais a augmenté de 15
cm depuis la fin de la 2ème
guerre mondiale alors que
la distance entre le Japon et
les Etats-Unis augmente de
2 ou 3 cm par an à cause de
la dérive des continents. Il y
a corrélation, mais il n’y a
bien
évidemment
pas
causalité.
1. UN LIEN STATISTIQUE N’EST PAS TOUJOURS
LE SIGNE D’UNE CAUSALITÉ
B. Le lien statistique peut-être dû à
une variable explicative cachée
(dite variable de confusion),
influençant simultanément les deux
autres variables
EX : FAUTES D’ORTHOGRAPHE ET POINTURE
Diagramme
de
dispersion
du
nombre
d'orthographe en fonction de la pointure


Les élèves ayant les plus
grands pieds font moins de
fautes.
de
fautes
Nombre de fautes d’orthographe
Ces
deux
grandeurs
apparemment indépendantes
s'avèrent
en
fait
liées
négativement
Pointure
Source : Nicolas Gauvrit, Statistiques : méfiezvous, Ellipses, 2007.
EX : FAUTES D’ORTHOGRAPHE ET POINTURE
Diagramme causal entre la pointure, le nombre de fautes, et la variable de
confusion âge
Source : Nicolas Gauvrit,
Statistiques : méfiez-vous,
Ellipses, 2007.


L'exemple des fautes d'orthographe et de la taille des pieds est un cas
où une telle variable de confusion intervient : il s’agit de l'âge.
Dans une école, les plus grands pieds correspondent, en moyenne et
globalement, aux élèves les plus vieux, donc à ceux de CM2, meilleurs
que les CE1 ou les CP en orthographe...
1. UN LIEN STATISTIQUE N’EST PAS TOUJOURS
LE SIGNE D’UNE CAUSALITÉ
C. On peut observer un lien statistique
contraire au lien de causalité
EX : ESPÉRANCE DE VIE ET
CONSOMMATION D’ALCOOL
Diagramme de dispersion de l'espérance de vie à la naissance en fonction
de la consommation d'alcool par pays
Espérance de vie


Le diagramme ci-contre montre
une liaison positive entre les 2
variables.
Cela voudrait donc dire que
lorsque l’on boit plus d’alcool, on
vit plus vieux.
Consommation d’alcool
Source : Joseph Klatzman, Attention statistiques !, La Découverte 1996.
EX : ESPÉRANCE DE VIE ET CONSOMMATION
D’ALCOOL
Diagramme de dispersion de l'espérance de vie à la naissance en fonction
de la consommation d'alcool par pays
Espérance de vie


La figure ci-contre nous permet
de mieux analyser la relation
entre ces 2 variables.
On y découvre que :
 Les pays les plus riches sont
ceux où l’on boit le plus
 Les pays les plus riches sont
aussi ceux où l’on vit le plus
longtemps.
Consommation d’alcool
Source : Joseph Klatzman, Attention statistiques !, La Découverte 1996.
EX : ESPÉRANCE DE VIE ET CONSOMMATION
D’ALCOOL
En fait, il faut considérer la variable de confusion "richesse du pays". Cette
variable agit sur l'espérance de vie de manière inverse de la consommation
d'alcool.
Autrement dit, si l'on considère un pays
comme la France, on peut dire que dans ce
pays :

les gens boivent beaucoup parce qu'ils
sont assez riches pour se le permettre.
Cela a pour effet de réduire l'espérance
de vie.

Mais d'un autre côté, la richesse du pays
permet aussi de meilleurs soins, une
meilleure alimentation globale. Cela
augmente considérablement l'espérance
de vie. Cette augmentation fait plus que
compenser la réduction d'espérance de
vie due à la consommation d'alcool.

Le diagramme causal de la figure ci
dessous donne une représentation de
la situation.
2. UN LIEN STATISTIQUE PEUT ÊTRE LE SIGNE
D'UNE CAUSALITÉ
Exemple :
A. Quelle est la
cause, quel est
l’effet ?
Imaginons que l’on observe un
lien statistique entre la quantité
de pluie au printemps et la
hauteur des herbes sauvages. SI
l’on envisage l’existence d’une
causalité, il faut se demander
quelle est la cause et quel est
l’effet. Ici, la cause est plus
vraisemblablement la quantité de
pluie (sauf à penser que des
herbes
hautes
puissent
transpercer des nuages et faire
tomber la pluie…)
2. UN LIEN STATISTIQUE PEUT ÊTRE LE SIGNE
D'UNE CAUSALITÉ
B. Causalité
réciproque
Exemple :
Imaginons que l’on observe un lien
statistique entre le niveau d’éducation
d’une population d’un pays et la richesse
de ce propre pays. Si l’on envisage
l’existence d’une causalité, quelle est la
cause et quel est l’effet ? On peut penser
que plus un pays possède une population
éduquée, plus les salariés seront qualifiés
et efficaces, et plus le pays sera riche. Mais
la réciproque est également envisageable :
plus un pays est riche, et plus il peut
consacrer de ressources à l’éducation de sa
population. Il y a alors une double
causalité.
3. IL PEUT Y AVOIR CAUSALITÉ SANS QUE
L’ON REPÈRE DE LIEN STATISTIQUE
Par exemple, le niveau d’éducation d’un pays
influence sa richesse, mais si, dans le même
temps ce pays connaît une guerre, son niveau de
richesse va diminuer, malgré le niveau élevé
d’éducation.
 De manière plus générale, lorsqu’un effet (B) a
plusieurs causes (A1, A2, A3…), il est possible
que l’on n’observe pas de lien statistique entre
l’effet et une de ses causes prise isolément.

EXERCICES D’APPLICATION
Les déboires d'un jeune accoucheur
 II avait décidé, pour sa thèse de médecine, de comparer le
taux de complications à la naissance selon que la femme ait
fait ou non appel à l'accoucheur. Le résultat le surprit : les
complications étaient plus fréquentes quand l'accoucheur
était présent. Alors seulement, il réfléchit, et comprit : les
femmes appelaient davantage l'accoucheur dans les cas
graves !
70 % des gens meurent au lit... Donc, ne vous couchez
pas !
 Dans cet aphorisme célèbre de Pierre Dac, la cause et la
conséquence sont inversées ! Si je compare, aujourd'hui à
midi, les gens couchés et debout, les deux séries ne
diffèrent pas seulement par la position horizontale ou
verticale : la première comporte davantage de malades.
Les enfants et les cigognes
 Pour l’ensemble des communes d’Alsace, il a été observé
une étonnante corrélation entre le nombre de naissances et
celui des cigognes recensées sur les cheminées. Est-ce à
dire que les enfants alsaciens ont été apportés par les
cigognes ?
Coca Cola is good for you.
Coca Cola makes you
free…

Ce graphique met en relation,
pour les différents pays du
monde, la consommation de Coca
par hab. avec l’indice des libertés
publiques de Freedom House.
The Economist, Dec. 18th 1997
Les services de santé ont observé une corrélation positive
entre le taux d’utilisation de crème solaire et le risque de
cancer de la peau. Qu’est-ce à dire ? Les crèmes solaires
seraient-elles cancérigènes ?
Le mécanisme de « la prophétie créatrice »

Apparemment, les faits semblent « durs et froids ». Les Noirs arrivés
récemment d’un Sud non encore industrialisé, ignorent la discipline
traditionnelle des syndicats. Le Noir est un « briseur de grève ». Le
Noir, « avec son niveau de vie inférieur », accepte sans discussions de
très bas salaires. En un mot, le Noir est un « traître à la classe
ouvrière » et l’on doit donc l’exclure des syndicats.
Voilà comment notre syndicaliste tolérant mais entêté voit les faits. Il
ne se rend évidemment pas compte que lui et les siens ont créé les
« faits » qu’il observe. Car définissant la situation (les Noirs en
opposition irréductible au principe du syndicalisme) et excluant les
Noirs des syndicats, il provoque une série de conséquences rendant
difficile, sinon impossible, à nombre de Noirs de n’être pas des
« jaunes ». Sans travail après la 1ère Guerre mondiale et rejetés des
syndicats, des milliers de Noirs n’ont pu résister aux patrons, qui,
gênés par la grève, insistaient pour leur ouvrir la porte de l’usine. (...)
Les faits ont montré que les Noirs étaient des briseurs de grève parce
qu’ils étaient exclus des syndicats (et de toute une série de travaux), et
non le contraire.
D’après Robert K. Merton : Eléments de théorie et de méthode sociologique. 1956.
 En quoi le préjugé ségrégationniste des travailleurs blancs américains tient-il en bonne
part à leur mauvaise interprétation d’une corrélation ?
Rq : Dans les grandes entreprises et dans de nombreux secteurs et corps de métier,
l’embauche était contrôlée par le syndicat (système dit du closed-shop).
Les chercheurs du Ministère de l’Education nationale viennent de faire une
découverte: les élèves redoublants sont moins bons que les autres ! Plus
précisément, les élèves qui ont redoublé réussissent moins bien que ceux
n’ayant jamais redoublé ; et c’est d’autant plus vrai que le redoublement est
plus précoce. Ainsi, moins de 10 % des élèves qui ont redoublé leur CP
obtiennent le Bac ; c’est le cas de 75 % des redoublants de seconde, et de 8384 % des redoublants de Première ou Terminale… Un constat similaire est
fait à partir des résultats de l’évaluation en 6ème (cf. tableau). Et Le Monde
de titrer : « Le redoublement accroît le risque d’échec scolaire » !
Résultats à l’évaluation en 6ème (notes sur 100) selon le niveau redoublé à l’école
Non redoublants
Redoublants CP
Redoublants CE1
Redoublants CE2
Redoublants CM1
Redoublants CM2
Français
70.9
48.6
52.9
55.2
57.1
59.2
Maths
68.3
44.7
48.6
51.6
54.9
57.4
Education et formation,
n° 66, juillet-décembre
2003, Dix-huit
questions sur le
système éducatif, DEP
 En quoi ces données justifient-elles le titre du Monde ? Que pensez-vous d’une telle
corrélation ?
ÉVOLUTION DE LA CONSOMMATION FINALE DES MÉNAGES ET DU PIB EN
VOLUME (EN %) (PRIX DE L'ANNÉE PRÉCÉDENTE, CHAÎNÉS, BASE 2005
SOURCES




sesame.apses.org
www.ac-nice.fr/ses/stage/outilsstatistiques/correlationetcausalite.ppt
www.cafepedagogique.net/lemensuel/lenseignant/schumaines/ses
www.la-revanche-des-ses.fr/MICROECONOMIE-ECE1Introduction.html
Téléchargement