Statistiques pour la psychologie II LP (UM3) S TATISTIQUES POUR LA PSYCHOLOGIE II 2012/2013 1 / 42 CHAP 4 : Le χ2 d’indépendance Exemple : niveau scolaire et absentéisme On mesure sur des élèves le niveau scolaire (X) et l’absentéisme en classe (Y). X/Y A B Total Y Rare 7 40 47 Moyen 4 10 14 Fréquent 4 10 14 Total X 15 60 75 Distribution théorique sous hypothèse d’indépendance X/Y A B Total Y LP (UM3) Rare 9,4 37,6 47 Moyen 2,8 11,2 14 Fréquent 2,8 11,2 14 S TATISTIQUES POUR LA PSYCHOLOGIE II Total X 15 60 75 2012/2013 2 / 42 CHAP 4 : Le χ2 d’indépendance Exemple : niveau scolaire et absentéisme Différence entre effectifs observés et effectifs théoriques : nij − ñij X/Y A B Rare -2,4 2,4 Moyen 1,2 -1,2 Fréquent 1,2 -1,2 nij −ñij Différence normalisée entre eff. observés et eff. théoriques : √ ñij pour obtenir des quantités relatives à l’ordre de grandeur des effectifs X/Y A B LP (UM3) Rare -0,78 0,39 Moyen 0,72 -0,36 Fréquent 0,72 -0,36 S TATISTIQUES POUR LA PSYCHOLOGIE II 2012/2013 3 / 42 CHAP 4 : Le χ2 d’indépendance Mesure locale de liaison Le taux de liaison d’une modalité conjointe (mi , mj0 ) est la différence normalise entre l’effectif observé et l’effectif théorique sous hypothèse (nij −n˜ij ) d’indépendance : tij = √ n˜ij tij = 0: indépendance locale; tout se passe pour la modalité comme si X et Y étaient indépendantes. tij > 0: attraction locale; la modalité est plus fréquente dans l’échantillon que si X et Y étaient indépendantes. tij < 0: répulsion locale; la modalité est moins fréquente dans l’échantillon que si X et Y étaient indépendantes. LP (UM3) S TATISTIQUES POUR LA PSYCHOLOGIE II 2012/2013 4 / 42 CHAP 4 : Le χ2 d’indépendance Exemple : niveau scolaire et absentéisme X/Y A B Total Y Rare 7 40 47 Moyen 4 10 14 Fréquent 4 10 14 Total X 15 60 75 Taux de liaison X/Y A B LP (UM3) Rare -0,78 0,39 Moyen 0,72 -0,36 Fréquent 0,72 -0,36 S TATISTIQUES POUR LA PSYCHOLOGIE II 2012/2013 5 / 42 CHAP 4 : Le χ2 d’indépendance Mesure globale de liaison La distance du χ2 mesure l’écart entre la distribution observée et la distribution théorique. Définition : La contribution au χ2 d’une modalité conjointe (mi , mj0 ) de la distribution est le carré du taux de liaison : tij2 = (nij −n˜ij )2 n˜ij Définition : Le χ2 d’une distribution conjointe est la somme des contributions : χ2 = X i=1,k et j=1,p LP (UM3) (nij − n˜ij )2 n˜ij S TATISTIQUES POUR LA PSYCHOLOGIE II 2012/2013 6 / 42 CHAP 4 : Le χ2 d’indépendance Exemple : niveau scolaire et absentéisme Taux de liaison X/Y A B Rare -0,78 0,39 Moyen 0,72 -0,36 Fréquent 0,72 -0,36 Contributions LP (UM3) S TATISTIQUES POUR LA PSYCHOLOGIE II 2012/2013 7 / 42 CHAP 4 : Le χ2 d’indépendance Remarques : Le χ2 d’une distribution est égal à 0 si et seulement si Les variables sont indépendantes. On observe "jamais" un χ2 nul (cf. fluctuations d’échantillonnage). Plus il y a de modalités conjointes plus le χ2 est naturellement grand. Comment savoir si le χ2 calculé est proche de 0 ou non ? LP (UM3) S TATISTIQUES POUR LA PSYCHOLOGIE II 2012/2013 8 / 42 CHAP 4 : Le χ2 d’indépendance Fluctuations d’échantillonnage On lance une pièce 10 fois de suite. LP (UM3) S TATISTIQUES POUR LA PSYCHOLOGIE II 2012/2013 9 / 42 CHAP 4 : Le χ2 d’indépendance Fluctuations d’échantillonnage On répète 10 000 fois l’expérience qui consiste à lancer 10 fois une pièce et à dénombrer le nombre de "Face" LP (UM3) S TATISTIQUES POUR LA PSYCHOLOGIE II 2012/2013 10 / 42 CHAP 4 : Le χ2 d’indépendance Prise de décision On prends un pièce et on cherche à savoir si elle est truquée ou non. On lance 10 fois cette pièce, on compte le nombre de "Face" On compare avec la distribution du nombre de "Face" d’une pièce non truquée LP (UM3) S TATISTIQUES POUR LA PSYCHOLOGIE II 2012/2013 11 / 42 CHAP 4 : Le χ2 d’indépendance Prise de décision On peut alors quantifier le risque d’erreur. Ici, il y a près de 90% des valeurs comprises entre 3 et 7. LP (UM3) S TATISTIQUES POUR LA PSYCHOLOGIE II 2012/2013 12 / 42 CHAP 4 : Le χ2 d’indépendance Prise de décision Si le nombre de "Face" de notre pièce est 4 : il est probable qu’elle ne soit pas truquée. Si le nombre de "Face" de notre pièce est 9 : il est probable qu’elle soit truquée. Mais cette valeur peut aussi être due à la fluctuation d’échantillonnage. On peut considérer que la pièce est truquée avec un risque de se tromper de l’ordre de 5%. LP (UM3) S TATISTIQUES POUR LA PSYCHOLOGIE II 2012/2013 13 / 42 CHAP 4 : Le χ2 d’indépendance Indépendance statistique L’indépendance n’est pas une propriété vérifiable sur un échantillon : même si deux variables sont indépendantes les effectifs théoriques et observés ne sont pas égaux le χ2 n’est donc pas nul Explication : la fluctuation d’échantillonnage On cherche à prendre en compte cette fluctuation d’échantillonnage. Idée : si l’échantillon observé "peut être considéré comme" un échantillon sous hypothèse d’indépendance, on parlera de variables statistiquement indépendantes LP (UM3) S TATISTIQUES POUR LA PSYCHOLOGIE II 2012/2013 14 / 42 CHAP 4 : Le χ2 d’indépendance Indépendance statistique Autrement dit : les variables sont statistiquement indépendantes si : les effectifs théoriques et observés sont suffisamment proches pour que l’écart soit uniquement attribué aux fluctuations d’échantillonnage le χ2 calculé est suffisamment proche de 0 pour que la différence soit uniquement attribuée aux fluctuations d’échantillonnage nous verrons plus tard comment caractériser les termes suffisamment proches LP (UM3) S TATISTIQUES POUR LA PSYCHOLOGIE II 2012/2013 15 / 42 CHAP 4 : Le χ2 d’indépendance χ2 observé et valeurs théoriques du χ2 Ex χ2 le χ2 observé est la valeur que l’on calcule à partir de l’échantillon (voir exemple : Niveau scolaire et absentéisme) les valeurs théoriques du χ2 sont les valeurs que l’on observerait sur des échantillons en supposant les variables indépendantes. LP (UM3) S TATISTIQUES POUR LA PSYCHOLOGIE II 2012/2013 16 / 42 CHAP 4 : Le χ2 d’indépendance Distribution des valeurs théoriques du χ2 par simulation on simule à l’aide d’un ordinateur des séries d’observations conjointes pour les variables X et Y sous hypothèse d’indépendance on calcule alors pour chaque série la valeur du χ2 on obtient ainsi une série de valeurs théoriques du χ2 (données brutes) LP (UM3) S TATISTIQUES POUR LA PSYCHOLOGIE II 2012/2013 17 / 42 CHAP 4 : Le χ2 d’indépendance Distribution des valeurs théoriques du χ2 par simulation Le χ2 est une variable quantitative continue. On peut alors après regroupement en classes donner la distribution du χ2 (par simulation) Par exemple, une simulation a donné : χ2 ni [0; 2] 623 [2; 4] 232 [4; 6] 90 [6; 8] 35 [8; 10] 11 [10; 12] 7 [12; 14] 2 [14; 16] 0 Total 1000 et ainsi tracer l’histogramme LP (UM3) S TATISTIQUES POUR LA PSYCHOLOGIE II 2012/2013 18 / 42 CHAP 4 : Le χ2 d’indépendance Exemple : Niveau scolaire et absentéisme Dans notre exemple, si on avait observé : χ2 = 1, 02. Que peut-on en conclure ? LP (UM3) S TATISTIQUES POUR LA PSYCHOLOGIE II 2012/2013 19 / 42 CHAP 4 : Le χ2 d’indépendance Exemple : Niveau scolaire et absentéisme Dans notre exemple, si on avait observé : χ2 = 11, 92. Que peut-on en conclure ? LP (UM3) S TATISTIQUES POUR LA PSYCHOLOGIE II 2012/2013 20 / 42 CHAP 4 : Le χ2 d’indépendance Quelques distributions des valeurs théoriques du χ2 obtenues par simulation Ce qui différentie ces distributions est le nombre de modalités conjointes de la variable conjointe de X et Y . LP (UM3) S TATISTIQUES POUR LA PSYCHOLOGIE II 2012/2013 21 / 42 CHAP 4 : Le χ2 d’indépendance On fait varier la taille de l’échantillon LP (UM3) S TATISTIQUES POUR LA PSYCHOLOGIE II 2012/2013 22 / 42 CHAP 4 : Le χ2 d’indépendance Distribution des valeurs théoriques du χ2 : La loi du chi 2 quand la taille devient suffisamment grande, on voit alors apparaitre une fonction appelée densité du χ2 ou plus simplement loi du χ2 qui représente la distribution des valeurs théoriques du χ2 . LP (UM3) S TATISTIQUES POUR LA PSYCHOLOGIE II 2012/2013 23 / 42 CHAP 4 : Le χ2 d’indépendance Influence du nombre de modalités La loi du χ2 dépend uniquement du produit (k − 1) × (p − 1) où k et p sont les nombres de modalités des variables X et Y . Ce nombre est appelé degré de liberté, ddl en abrégé. Identifier les courbes qui correspondent à un petit ddl. Comment se comporte la courbe en fonction du ddl ? LP (UM3) S TATISTIQUES POUR LA PSYCHOLOGIE II 2012/2013 24 / 42 CHAP 4 : Le χ2 d’indépendance Quantiles En L1 : LP (UM3) S TATISTIQUES POUR LA PSYCHOLOGIE II 2012/2013 25 / 42 CHAP 4 : Le χ2 d’indépendance Quantiles et loi du χ2 Certains quantiles sont données dans une table Exemple : Pour un χ2 de ddl 4 et une proportion 0, 975, on lit q0,975 = 11, 1433. LP (UM3) S TATISTIQUES POUR LA PSYCHOLOGIE II 2012/2013 26 / 42 CHAP 5 : Le test du χ2 d’indépendance Ce test d’aide à la décision est une procédure pour rejeter ou non l’hypothèse d’indépendance statistique de deux variables X et Y dans une population, à partir de leur mesure conjointe D sur un échantillon supposé représentatif. Idée : Comparer la valeur observée et calculée du χ2 à un quantile de la loi du χ2 LP (UM3) S TATISTIQUES POUR LA PSYCHOLOGIE II 2012/2013 27 / 42 CHAP 5 : Le test du χ2 d’indépendance Exemple : On mesure sur des élèves le niveau scolaire (X) et l’absentéisme en classe (Y). X/Y A B Total Rare 7 40 47 Moyen 4 10 14 Fréquent 4 10 14 Total 15 60 75 Sous hypothèse d’indépendance, le ddl de la loi du χ2 est ddl= (3 − 1) × (2 − 1) = 2 Par lecture de la table, q0,95 = 5, 9915 donc 5% des échantillons donnent un χ2 supérieur à 5, 9915 (du aux fluctuations d’échantillonnage) LP (UM3) S TATISTIQUES POUR LA PSYCHOLOGIE II 2012/2013 28 / 42 CHAP 5 : Le test du χ2 d’indépendance Exemple (suite): on compare maintenant la valeur du χ2 observée avec ce quantile. On avait calculé χ2 = 2, 04. 2, 04 < 5, 9915 donc rien ne permet de rejeter l’idée que les variables sont indépendantes On dira que l’on ne rejette pas l’hypothèse d’indépendance. Si on avait obtenu χ2 = 6, 4. 6, 4 > 5, 9915 donc : on peut rejeter l’idée que les variables sont indépendantes avec un risque de se tromper inférieur à 5% puisque seuls 5% des échantillons sous hypothèse d’indépendance donnent un χ2 supérieur à 5, 9915 On dira que l’on rejette l’hypothèse d’indépendance au risque 5%. LP (UM3) S TATISTIQUES POUR LA PSYCHOLOGIE II 2012/2013 29 / 42 CHAP 5 : Le test du χ2 d’indépendance Mise en place du test 1 On travaille sous l’hypothèse H0 que les variables sont indépendantes 2 On choisit un risque α d’erreur. En général α = 5% ou α = 1% 3 On calcule le ddl= (k − 1) × (p − 1) suivant le nombre de modalités 4 5 6 On lit le seuil s dans la table des quantiles de la loi du χ2 Après avoir calculé les effectifs théoriques sous H0 , on calcule la valeur du χ2 prise de décision : Soit χ2 > s : on rejette H0 (on rejette l’hypothèse d’indépendance des variables) avec un risque d’erreur égale à α Soit χ2 < s : on ne rejette pas H0 ! Lorsque la valeur du χ2 calculée est très proche de 0 relativement à s, on pourra considérer l’hypothèse d’indépendance très probable. LP (UM3) S TATISTIQUES POUR LA PSYCHOLOGIE II 2012/2013 30 / 42 CHAP 5 : Le test du χ2 d’indépendance Exemple 1 On interroge des personnes en leur demandant leur âge et si ils regardent ou non des séries TV. TV / Age oui non Total < 55 60 540 600 > 55 42 358 400 Total 102 898 1000 Effectuer un test du χ2 pour savoir si le fait de regarder ou non des séries est indépendant de l’âge. LP (UM3) S TATISTIQUES POUR LA PSYCHOLOGIE II 2012/2013 31 / 42 CHAP 5 : Le test du χ2 d’indépendance Exemple 2 On interroge des personnes en leur demandant leur âge et si ils regardent ou non des séries TV. TV / Age oui non Total < 55 600 5400 6000 > 55 420 3580 4000 Total 1020 8980 10000 Effectuer un test du χ2 pour savoir si le fait de regarder ou non des séries est indépendant de l’âge. LP (UM3) S TATISTIQUES POUR LA PSYCHOLOGIE II 2012/2013 32 / 42 CHAP 5 : Le test du χ2 d’indépendance Exemple 3 On interroge des personnes en leur demandant leur âge et si ils regardent ou non des séries TV. TV / Age oui non Total < 55 6000 54000 60000 > 55 4200 35800 40000 Total 10200 89800 100000 Effectuer un test du χ2 pour savoir si le fait de regarder ou non des séries est indépendant de l’âge. LP (UM3) S TATISTIQUES POUR LA PSYCHOLOGIE II 2012/2013 33 / 42 CHAP 5 : Le test du χ2 d’indépendance Le test du χ2 dépend des effectifs Conclusion : 1. Le test du χ2 dépend des effectifs Un χ2 non significatif peut donc signifier soit qu’on ne peut pas rejeter l’hypothèse d’indépendance, soit qu’il n’y a pas indépendance mais que les effectifs dont je dispose ne me permettent pas d’en être sûr statistiquement 2. Le test du χ2 ne mesure pas l’intensité de la dépendance. Dans les exemples 1, 2 et 3 les distributions conditionnelles de la variable TV sachant une tranche d’âge donnée sont identiques (par ex. pour les moins de 55 ans, oui 10% et non 90%). La force du lien de dépendance est la même alors que les χ2 observées sont très différentes. Remarque : Le test du χ2 dépend du découpage en modalités LP (UM3) S TATISTIQUES POUR LA PSYCHOLOGIE II 2012/2013 34 / 42 CHAP 5 : Le test du χ2 d’indépendance Le test du χ2 dépend du découpage en modalités On obtient ici χ2 = 667, 76 qui conduit à rejeter l’hypothèse d’indépendance avec un risque inférieur à 0,05%. Alors que les mêmes données regroupées en moins de classes (Exemple 2) conduisaient à ne pas rejeter l’hypothèse d’indépendance. Remarque : Pour autant, il n’y a pas de contradiction. On voit bien la nuance entre ne pas rejeter et accepter une hypothèse. LP (UM3) S TATISTIQUES POUR LA PSYCHOLOGIE II 2012/2013 35 / 42 CHAP 5 : Le test du χ2 d’indépendance Le test du χ2 dépend du découpage en modalités Conclusion : De manière générale, il est donc préférable de partir avec des découpages en classes les plus détaillés possibles, pour pouvoir éventuellement ensuite pouvoir regrouper entre elles des modalités ayant des profils semblables. On aurait pu regrouper les tranches d’âge de 36 à 65 ans pour mieux faire ressortir l’opposition entre les âges intermédiaires et les âges "extrêmes". LP (UM3) S TATISTIQUES POUR LA PSYCHOLOGIE II 2012/2013 36 / 42 CHAP 5 : Le test du χ2 d’indépendance Le Φ2 Remarque : Nous avons vu que le χ2 ne mesure pas la force de la liaison. Voir Exemples 1 et 3 précédents TV / Age oui non Total < 55 60 540 600 > 55 42 358 400 Total 102 898 1000 TV / Age oui non Total < 55 6000 54000 60000 > 55 4200 35800 40000 χ2 = 0, 0655 TV / Age oui non Total < 55 0,1 0,9 1 LP (UM3) Total 10200 89800 100000 χ2 = 6, 55 > 55 0,105 0,895 1 TV / Age oui non Total S TATISTIQUES POUR LA PSYCHOLOGIE II < 55 0,1 0,9 1 > 55 0,105 0,895 1 2012/2013 37 / 42 CHAP 5 : Le test du χ2 d’indépendance Le Φ2 Définition : Φ2 = Propriétés : χ2 où n est la taille de l’échantillon. n Le Φ2 un indice d’écart entre la distribution observée et la distribution théorique. 0 ≤ Φ2 ≤ L où L est le nombre de modalités. moins 1 de la variable qui comporte le moins de modalités Φ2 est la variance des taux de liaison. Plus Φ2 est élevé plus la liaison entre les variables est forte. LP (UM3) S TATISTIQUES POUR LA PSYCHOLOGIE II 2012/2013 38 / 42 CHAP 5 : Le test du χ2 d’indépendance Le Φ2 Cf. Exemples 1 et 3 précédents TV / Age oui non Total < 55 60 540 600 > 55 42 358 400 Total 102 898 1000 TV / Age oui non Total χ2 = 0, 0655 < 55 6000 54000 60000 > 55 4200 35800 40000 Total 10200 89800 100000 χ2 = 6, 55 0 ≤ Φ2 ≤ 1 Le Φ2 de chaque cas est égal 0, 000 065 5. 0,0655 6,55 1000 et 100000 Si on considère que l’on rejette l’indépendance, la force de la liaison est donc la même et extrêmement faible. LP (UM3) S TATISTIQUES POUR LA PSYCHOLOGIE II 2012/2013 39 / 42 CHAP 5 : Le test du χ2 d’indépendance Attention aux variables cachées ! On obtient χ2 = 50, 2 On obtient χ2 = 0, 01 LP (UM3) et S TATISTIQUES POUR LA PSYCHOLOGIE II χ2 = 2, 53 2012/2013 40 / 42 CHAP 5 : Le test du χ2 d’indépendance Attention aux effectifs théoriques trop faibles ! Exemple : On s’intéresse au fait de gagner ou non au Loto selon qu’on possède un trèfle à quatre feuilles, un fer à cheval ou aucun des deux. On obtient χ2 = 6, 9. LP (UM3) S TATISTIQUES POUR LA PSYCHOLOGIE II 2012/2013 41 / 42 CHAP 5 : Le test du χ2 d’indépendance Attention aux effectifs théoriques trop faibles ! Avec les taux de liaison, on a relativisé l’écart entre effectifs observés et effectifs théoriques de manière à ce qu’un écart de 15 dans une case où on attendait 6 ne soit pas considéré de la même manière qu’un écart de 15 dans une case où on en attendait 6 000. Une conséquence de cette standardisation est qu’un poids important est accordé aux petites cases, même si en effectifs les écarts correspondants sont relativement faibles. Ici, le taux de liaison de 2,1 s’explique par l’écart entre 7 et 3,2 mais cela ne constitue pas forcément une variation très sensible. LP (UM3) S TATISTIQUES POUR LA PSYCHOLOGIE II 2012/2013 42 / 42