CORRÉLATION ET CAUSALITÉ INTRODUCTION Pour argumenter, il est très souvent utile de s’appuyer sur l’existence de liens statistiques entre deux phénomènes, soit pour confirmer une théorie, soit pour la contredire ou la nuancer. Mais comment rendre compte de l’existence (ou non) d’un lien statistique ? Tout lien statistique est-il synonyme de causalité ? A l’inverse, lorsqu’il existe une causalité, y a-t-il toujours corrélation ? 3 TYPES DE SITUATION Une corrélation positive : les deux variables varient dans le même sens (lorsqu’une variable augmente, l’autre augmente également ; ou lorsqu’une variable diminue, l’autre diminue également) Ex : Relation entre taille et poids d’un individu Taille 1m70 1m75 1m80 1m85 Poids 74 kg 79 kg 83 kg 88 kg 3 TYPES DE SITUATION Une corrélation négative : les deux variables varient en sens inverse (lorsqu’une variable augmente, l’autre diminue) Ex : Consommation de cigarettes et espérance de vie Nombre de 0 10 20 30 Cigarettes / jour Espérance de vie 90 ans 80 ans 70 ans 60 ans 3 TYPES DE SITUATION Une absence de corrélation : lorsqu’une variable varie, l’autre ne varie pas, ou alors varie sans lien avec la première. Ex : Relation entre la vitesse maximale du vent à Brest et le nombre d’éléphants tués au Kénya Vitesse du vent 90 (km/H) Nombre d’éléphants 150 tués au Kénya 100 110 120 130 80 170 90 120 LA REPRÉSENTATION GRAPHIQUE : LE NUAGE DE POINTS Il y a corrélation si les points sont relativement bien alignés sur une droite (dont la pente donne alors le sens de la corrélation) Il y a absence de corrélation si les points sont particulièrement dispersés NUAGE DE POINTS ET AJUSTEMENTS Mais la forme du nuage peut suggérer d’autres types de courbes. DE LA CORRÉLATION À LA CAUSALITÉ La mise en évidence d’une corrélation ne signifie pas qu’un lien de causalité existe entre les 2 variables. 1. UN LIEN STATISTIQUE N’EST PAS TOUJOURS LE SIGNE D’UNE CAUSALITÉ A. Le lien statistique peut être l’effet du hasard Exemple : La taille moyenne des japonais a augmenté de 15 cm depuis la fin de la 2ème guerre mondiale alors que la distance entre le Japon et les Etats-Unis augmente de 2 ou 3 cm par an à cause de la dérive des continents. Il y a corrélation, mais il n’y a bien évidemment pas causalité. 1. UN LIEN STATISTIQUE N’EST PAS TOUJOURS LE SIGNE D’UNE CAUSALITÉ B. Le lien statistique peut-être dû à une variable explicative cachée (dite variable de confusion), influençant simultanément les deux autres variables EX : FAUTES D’ORTHOGRAPHE ET POINTURE Diagramme de dispersion du nombre d'orthographe en fonction de la pointure Les élèves ayant les plus grands pieds font moins de fautes. de fautes Nombre de fautes d’orthographe Ces deux grandeurs apparemment indépendantes s'avèrent en fait liées négativement Pointure Source : Nicolas Gauvrit, Statistiques : méfiezvous, Ellipses, 2007. EX : FAUTES D’ORTHOGRAPHE ET POINTURE Diagramme causal entre la pointure, le nombre de fautes, et la variable de confusion âge Source : Nicolas Gauvrit, Statistiques : méfiez-vous, Ellipses, 2007. L'exemple des fautes d'orthographe et de la taille des pieds est un cas où une telle variable de confusion intervient : il s’agit de l'âge. Dans une école, les plus grands pieds correspondent, en moyenne et globalement, aux élèves les plus vieux, donc à ceux de CM2, meilleurs que les CE1 ou les CP en orthographe... 1. UN LIEN STATISTIQUE N’EST PAS TOUJOURS LE SIGNE D’UNE CAUSALITÉ C. On peut observer un lien statistique contraire au lien de causalité EX : ESPÉRANCE DE VIE ET CONSOMMATION D’ALCOOL Diagramme de dispersion de l'espérance de vie à la naissance en fonction de la consommation d'alcool par pays Espérance de vie Le diagramme ci-contre montre une liaison positive entre les 2 variables. Cela voudrait donc dire que lorsque l’on boit plus d’alcool, on vit plus vieux. Consommation d’alcool Source : Joseph Klatzman, Attention statistiques !, La Découverte 1996. EX : ESPÉRANCE DE VIE ET CONSOMMATION D’ALCOOL Diagramme de dispersion de l'espérance de vie à la naissance en fonction de la consommation d'alcool par pays Espérance de vie La figure ci-contre nous permet de mieux analyser la relation entre ces 2 variables. On y découvre que : Les pays les plus riches sont ceux où l’on boit le plus Les pays les plus riches sont aussi ceux où l’on vit le plus longtemps. Consommation d’alcool Source : Joseph Klatzman, Attention statistiques !, La Découverte 1996. EX : ESPÉRANCE DE VIE ET CONSOMMATION D’ALCOOL En fait, il faut considérer la variable de confusion "richesse du pays". Cette variable agit sur l'espérance de vie de manière inverse de la consommation d'alcool. Autrement dit, si l'on considère un pays comme la France, on peut dire que dans ce pays : les gens boivent beaucoup parce qu'ils sont assez riches pour se le permettre. Cela a pour effet de réduire l'espérance de vie. Mais d'un autre côté, la richesse du pays permet aussi de meilleurs soins, une meilleure alimentation globale. Cela augmente considérablement l'espérance de vie. Cette augmentation fait plus que compenser la réduction d'espérance de vie due à la consommation d'alcool. Le diagramme causal de la figure ci dessous donne une représentation de la situation. 2. UN LIEN STATISTIQUE PEUT ÊTRE LE SIGNE D'UNE CAUSALITÉ Exemple : A. Quelle est la cause, quel est l’effet ? Imaginons que l’on observe un lien statistique entre la quantité de pluie au printemps et la hauteur des herbes sauvages. SI l’on envisage l’existence d’une causalité, il faut se demander quelle est la cause et quel est l’effet. Ici, la cause est plus vraisemblablement la quantité de pluie (sauf à penser que des herbes hautes puissent transpercer des nuages et faire tomber la pluie…) 2. UN LIEN STATISTIQUE PEUT ÊTRE LE SIGNE D'UNE CAUSALITÉ B. Causalité réciproque Exemple : Imaginons que l’on observe un lien statistique entre le niveau d’éducation d’une population d’un pays et la richesse de ce propre pays. Si l’on envisage l’existence d’une causalité, quelle est la cause et quel est l’effet ? On peut penser que plus un pays possède une population éduquée, plus les salariés seront qualifiés et efficaces, et plus le pays sera riche. Mais la réciproque est également envisageable : plus un pays est riche, et plus il peut consacrer de ressources à l’éducation de sa population. Il y a alors une double causalité. 3. IL PEUT Y AVOIR CAUSALITÉ SANS QUE L’ON REPÈRE DE LIEN STATISTIQUE Par exemple, le niveau d’éducation d’un pays influence sa richesse, mais si, dans le même temps ce pays connaît une guerre, son niveau de richesse va diminuer, malgré le niveau élevé d’éducation. De manière plus générale, lorsqu’un effet (B) a plusieurs causes (A1, A2, A3…), il est possible que l’on n’observe pas de lien statistique entre l’effet et une de ses causes prise isolément. EXERCICES D’APPLICATION Les déboires d'un jeune accoucheur II avait décidé, pour sa thèse de médecine, de comparer le taux de complications à la naissance selon que la femme ait fait ou non appel à l'accoucheur. Le résultat le surprit : les complications étaient plus fréquentes quand l'accoucheur était présent. Alors seulement, il réfléchit, et comprit : les femmes appelaient davantage l'accoucheur dans les cas graves ! 70 % des gens meurent au lit... Donc, ne vous couchez pas ! Dans cet aphorisme célèbre de Pierre Dac, la cause et la conséquence sont inversées ! Si je compare, aujourd'hui à midi, les gens couchés et debout, les deux séries ne diffèrent pas seulement par la position horizontale ou verticale : la première comporte davantage de malades. Les enfants et les cigognes Pour l’ensemble des communes d’Alsace, il a été observé une étonnante corrélation entre le nombre de naissances et celui des cigognes recensées sur les cheminées. Est-ce à dire que les enfants alsaciens ont été apportés par les cigognes ? Coca Cola is good for you. Coca Cola makes you free… Ce graphique met en relation, pour les différents pays du monde, la consommation de Coca par hab. avec l’indice des libertés publiques de Freedom House. The Economist, Dec. 18th 1997 Les services de santé ont observé une corrélation positive entre le taux d’utilisation de crème solaire et le risque de cancer de la peau. Qu’est-ce à dire ? Les crèmes solaires seraient-elles cancérigènes ? Le mécanisme de « la prophétie créatrice » Apparemment, les faits semblent « durs et froids ». Les Noirs arrivés récemment d’un Sud non encore industrialisé, ignorent la discipline traditionnelle des syndicats. Le Noir est un « briseur de grève ». Le Noir, « avec son niveau de vie inférieur », accepte sans discussions de très bas salaires. En un mot, le Noir est un « traître à la classe ouvrière » et l’on doit donc l’exclure des syndicats. Voilà comment notre syndicaliste tolérant mais entêté voit les faits. Il ne se rend évidemment pas compte que lui et les siens ont créé les « faits » qu’il observe. Car définissant la situation (les Noirs en opposition irréductible au principe du syndicalisme) et excluant les Noirs des syndicats, il provoque une série de conséquences rendant difficile, sinon impossible, à nombre de Noirs de n’être pas des « jaunes ». Sans travail après la 1ère Guerre mondiale et rejetés des syndicats, des milliers de Noirs n’ont pu résister aux patrons, qui, gênés par la grève, insistaient pour leur ouvrir la porte de l’usine. (...) Les faits ont montré que les Noirs étaient des briseurs de grève parce qu’ils étaient exclus des syndicats (et de toute une série de travaux), et non le contraire. D’après Robert K. Merton : Eléments de théorie et de méthode sociologique. 1956. En quoi le préjugé ségrégationniste des travailleurs blancs américains tient-il en bonne part à leur mauvaise interprétation d’une corrélation ? Rq : Dans les grandes entreprises et dans de nombreux secteurs et corps de métier, l’embauche était contrôlée par le syndicat (système dit du closed-shop). Les chercheurs du Ministère de l’Education nationale viennent de faire une découverte: les élèves redoublants sont moins bons que les autres ! Plus précisément, les élèves qui ont redoublé réussissent moins bien que ceux n’ayant jamais redoublé ; et c’est d’autant plus vrai que le redoublement est plus précoce. Ainsi, moins de 10 % des élèves qui ont redoublé leur CP obtiennent le Bac ; c’est le cas de 75 % des redoublants de seconde, et de 8384 % des redoublants de Première ou Terminale… Un constat similaire est fait à partir des résultats de l’évaluation en 6ème (cf. tableau). Et Le Monde de titrer : « Le redoublement accroît le risque d’échec scolaire » ! Résultats à l’évaluation en 6ème (notes sur 100) selon le niveau redoublé à l’école Non redoublants Redoublants CP Redoublants CE1 Redoublants CE2 Redoublants CM1 Redoublants CM2 Français 70.9 48.6 52.9 55.2 57.1 59.2 Maths 68.3 44.7 48.6 51.6 54.9 57.4 Education et formation, n° 66, juillet-décembre 2003, Dix-huit questions sur le système éducatif, DEP En quoi ces données justifient-elles le titre du Monde ? Que pensez-vous d’une telle corrélation ? ÉVOLUTION DE LA CONSOMMATION FINALE DES MÉNAGES ET DU PIB EN VOLUME (EN %) (PRIX DE L'ANNÉE PRÉCÉDENTE, CHAÎNÉS, BASE 2005 SOURCES sesame.apses.org www.ac-nice.fr/ses/stage/outilsstatistiques/correlationetcausalite.ppt www.cafepedagogique.net/lemensuel/lenseignant/schumaines/ses www.la-revanche-des-ses.fr/MICROECONOMIE-ECE1Introduction.html