Statistiques pour la psychologie II

publicité
Statistiques pour la psychologie II
LP (UM3)
S TATISTIQUES POUR LA PSYCHOLOGIE II
2012/2013
1 / 42
CHAP 4 : Le χ2 d’indépendance
Exemple : niveau scolaire et absentéisme
On mesure sur des élèves le niveau scolaire (X) et l’absentéisme en
classe (Y).
X/Y
A
B
Total Y
Rare
7
40
47
Moyen
4
10
14
Fréquent
4
10
14
Total X
15
60
75
Distribution théorique sous hypothèse d’indépendance
X/Y
A
B
Total Y
LP (UM3)
Rare
9,4
37,6
47
Moyen
2,8
11,2
14
Fréquent
2,8
11,2
14
S TATISTIQUES POUR LA PSYCHOLOGIE II
Total X
15
60
75
2012/2013
2 / 42
CHAP 4 : Le χ2 d’indépendance
Exemple : niveau scolaire et absentéisme
Différence entre effectifs observés et effectifs théoriques : nij − ñij
X/Y
A
B
Rare
-2,4
2,4
Moyen
1,2
-1,2
Fréquent
1,2
-1,2
nij −ñij
Différence normalisée entre eff. observés et eff. théoriques : √
ñij
pour obtenir des quantités relatives à l’ordre de grandeur des effectifs
X/Y
A
B
LP (UM3)
Rare
-0,78
0,39
Moyen
0,72
-0,36
Fréquent
0,72
-0,36
S TATISTIQUES POUR LA PSYCHOLOGIE II
2012/2013
3 / 42
CHAP 4 : Le χ2 d’indépendance
Mesure locale de liaison
Le taux de liaison d’une modalité conjointe (mi , mj0 ) est la différence
normalise entre l’effectif observé et l’effectif théorique sous hypothèse
(nij −n˜ij )
d’indépendance : tij = √
n˜ij
tij = 0: indépendance locale; tout se passe pour la modalité
comme si X et Y étaient indépendantes.
tij > 0: attraction locale; la modalité est plus fréquente dans
l’échantillon que si X et Y étaient indépendantes.
tij < 0: répulsion locale; la modalité est moins fréquente dans
l’échantillon que si X et Y étaient indépendantes.
LP (UM3)
S TATISTIQUES POUR LA PSYCHOLOGIE II
2012/2013
4 / 42
CHAP 4 : Le χ2 d’indépendance
Exemple : niveau scolaire et absentéisme
X/Y
A
B
Total Y
Rare
7
40
47
Moyen
4
10
14
Fréquent
4
10
14
Total X
15
60
75
Taux de liaison
X/Y
A
B
LP (UM3)
Rare
-0,78
0,39
Moyen
0,72
-0,36
Fréquent
0,72
-0,36
S TATISTIQUES POUR LA PSYCHOLOGIE II
2012/2013
5 / 42
CHAP 4 : Le χ2 d’indépendance
Mesure globale de liaison
La distance du χ2 mesure l’écart entre la distribution observée et la
distribution théorique.
Définition :
La contribution au χ2 d’une modalité conjointe (mi , mj0 ) de la
distribution est le carré du taux de liaison : tij2 =
(nij −n˜ij )2
n˜ij
Définition :
Le χ2 d’une distribution conjointe est la somme des contributions :
χ2 =
X
i=1,k et j=1,p
LP (UM3)
(nij − n˜ij )2
n˜ij
S TATISTIQUES POUR LA PSYCHOLOGIE II
2012/2013
6 / 42
CHAP 4 : Le χ2 d’indépendance
Exemple : niveau scolaire et absentéisme
Taux de liaison
X/Y
A
B
Rare
-0,78
0,39
Moyen
0,72
-0,36
Fréquent
0,72
-0,36
Contributions
LP (UM3)
S TATISTIQUES POUR LA PSYCHOLOGIE II
2012/2013
7 / 42
CHAP 4 : Le χ2 d’indépendance
Remarques :
Le χ2 d’une distribution est égal à 0 si et seulement si Les
variables sont indépendantes.
On observe "jamais" un χ2 nul (cf. fluctuations d’échantillonnage).
Plus il y a de modalités conjointes plus le χ2 est naturellement
grand.
Comment savoir si le χ2 calculé est proche de 0 ou non ?
LP (UM3)
S TATISTIQUES POUR LA PSYCHOLOGIE II
2012/2013
8 / 42
CHAP 4 : Le χ2 d’indépendance
Fluctuations d’échantillonnage
On lance une pièce 10 fois de suite.
LP (UM3)
S TATISTIQUES POUR LA PSYCHOLOGIE II
2012/2013
9 / 42
CHAP 4 : Le χ2 d’indépendance
Fluctuations d’échantillonnage
On répète 10 000 fois l’expérience qui consiste à lancer 10 fois une
pièce et à dénombrer le nombre de "Face"
LP (UM3)
S TATISTIQUES POUR LA PSYCHOLOGIE II
2012/2013
10 / 42
CHAP 4 : Le χ2 d’indépendance
Prise de décision
On prends un pièce et on cherche à savoir si elle est truquée ou non.
On lance 10 fois cette pièce, on compte le nombre de "Face"
On compare avec la distribution du nombre de "Face" d’une pièce
non truquée
LP (UM3)
S TATISTIQUES POUR LA PSYCHOLOGIE II
2012/2013
11 / 42
CHAP 4 : Le χ2 d’indépendance
Prise de décision
On peut alors quantifier le risque d’erreur.
Ici, il y a près de 90% des valeurs comprises entre 3 et 7.
LP (UM3)
S TATISTIQUES POUR LA PSYCHOLOGIE II
2012/2013
12 / 42
CHAP 4 : Le χ2 d’indépendance
Prise de décision
Si le nombre de "Face" de notre pièce est 4 : il est probable
qu’elle ne soit pas truquée.
Si le nombre de "Face" de notre pièce est 9 : il est probable
qu’elle soit truquée.
Mais cette valeur peut aussi être due à la fluctuation
d’échantillonnage.
On peut considérer que la pièce est truquée avec un risque de se
tromper de l’ordre de 5%.
LP (UM3)
S TATISTIQUES POUR LA PSYCHOLOGIE II
2012/2013
13 / 42
CHAP 4 : Le χ2 d’indépendance
Indépendance statistique
L’indépendance n’est pas une propriété vérifiable sur un échantillon :
même si deux variables sont indépendantes
les effectifs théoriques et observés ne sont pas égaux
le χ2 n’est donc pas nul
Explication : la fluctuation d’échantillonnage
On cherche à prendre en compte cette fluctuation d’échantillonnage.
Idée : si l’échantillon observé "peut être considéré comme" un
échantillon sous hypothèse d’indépendance, on parlera de variables
statistiquement indépendantes
LP (UM3)
S TATISTIQUES POUR LA PSYCHOLOGIE II
2012/2013
14 / 42
CHAP 4 : Le χ2 d’indépendance
Indépendance statistique
Autrement dit :
les variables sont statistiquement indépendantes si :
les effectifs théoriques et observés sont suffisamment proches
pour que l’écart soit uniquement attribué aux fluctuations
d’échantillonnage
le χ2 calculé est suffisamment proche de 0 pour que la différence
soit uniquement attribuée aux fluctuations d’échantillonnage
nous verrons plus tard comment caractériser les termes suffisamment proches
LP (UM3)
S TATISTIQUES POUR LA PSYCHOLOGIE II
2012/2013
15 / 42
CHAP 4 : Le χ2 d’indépendance
χ2 observé et valeurs théoriques du χ2
Ex χ2
le χ2 observé est la valeur que l’on calcule à partir de l’échantillon
(voir exemple : Niveau scolaire et absentéisme)
les valeurs théoriques du χ2 sont les valeurs que l’on observerait
sur des échantillons en supposant les variables indépendantes.
LP (UM3)
S TATISTIQUES POUR LA PSYCHOLOGIE II
2012/2013
16 / 42
CHAP 4 : Le χ2 d’indépendance
Distribution des valeurs théoriques du χ2 par
simulation
on simule à l’aide d’un ordinateur des séries d’observations
conjointes pour les variables X et Y sous hypothèse
d’indépendance
on calcule alors pour chaque série la valeur du χ2
on obtient ainsi une série de valeurs théoriques du χ2
(données brutes)
LP (UM3)
S TATISTIQUES POUR LA PSYCHOLOGIE II
2012/2013
17 / 42
CHAP 4 : Le χ2 d’indépendance
Distribution des valeurs théoriques du χ2 par simulation
Le χ2 est une variable quantitative continue.
On peut alors après regroupement en classes donner la
distribution du χ2 (par simulation)
Par exemple, une simulation a donné :
χ2
ni
[0; 2]
623
[2; 4]
232
[4; 6]
90
[6; 8]
35
[8; 10]
11
[10; 12]
7
[12; 14]
2
[14; 16]
0
Total
1000
et ainsi tracer l’histogramme
LP (UM3)
S TATISTIQUES POUR LA PSYCHOLOGIE II
2012/2013
18 / 42
CHAP 4 : Le χ2 d’indépendance
Exemple : Niveau scolaire et absentéisme
Dans notre exemple, si on avait observé : χ2 = 1, 02.
Que peut-on en conclure ?
LP (UM3)
S TATISTIQUES POUR LA PSYCHOLOGIE II
2012/2013
19 / 42
CHAP 4 : Le χ2 d’indépendance
Exemple : Niveau scolaire et absentéisme
Dans notre exemple, si on avait observé : χ2 = 11, 92.
Que peut-on en conclure ?
LP (UM3)
S TATISTIQUES POUR LA PSYCHOLOGIE II
2012/2013
20 / 42
CHAP 4 : Le χ2 d’indépendance
Quelques distributions des valeurs théoriques du χ2 obtenues par simulation
Ce qui différentie ces distributions est le nombre de modalités
conjointes de la variable conjointe de X et Y .
LP (UM3)
S TATISTIQUES POUR LA PSYCHOLOGIE II
2012/2013
21 / 42
CHAP 4 : Le χ2 d’indépendance
On fait varier la taille de l’échantillon
LP (UM3)
S TATISTIQUES POUR LA PSYCHOLOGIE II
2012/2013
22 / 42
CHAP 4 : Le χ2 d’indépendance
Distribution des valeurs théoriques du χ2 :
La loi du chi 2
quand la taille devient suffisamment grande, on voit alors apparaitre
une fonction appelée densité du χ2 ou plus simplement loi du χ2 qui
représente la distribution des valeurs théoriques du χ2 .
LP (UM3)
S TATISTIQUES POUR LA PSYCHOLOGIE II
2012/2013
23 / 42
CHAP 4 : Le χ2 d’indépendance
Influence du nombre de modalités
La loi du χ2 dépend uniquement du produit (k − 1) × (p − 1) où k et p
sont les nombres de modalités des variables X et Y .
Ce nombre est appelé degré de liberté, ddl en abrégé.
Identifier les courbes qui correspondent à un petit ddl.
Comment se comporte la courbe en fonction du ddl ?
LP (UM3)
S TATISTIQUES POUR LA PSYCHOLOGIE II
2012/2013
24 / 42
CHAP 4 : Le χ2 d’indépendance
Quantiles
En L1 :
LP (UM3)
S TATISTIQUES POUR LA PSYCHOLOGIE II
2012/2013
25 / 42
CHAP 4 : Le χ2 d’indépendance
Quantiles et loi du χ2
Certains quantiles sont données dans une table
Exemple : Pour un χ2 de ddl 4 et une proportion 0, 975, on lit
q0,975 = 11, 1433.
LP (UM3)
S TATISTIQUES POUR LA PSYCHOLOGIE II
2012/2013
26 / 42
CHAP 5 : Le test du χ2 d’indépendance
Ce test d’aide à la décision est une procédure pour rejeter ou non
l’hypothèse d’indépendance statistique de deux variables X et Y dans
une population, à partir de leur mesure conjointe D sur un échantillon
supposé représentatif.
Idée : Comparer la valeur observée et calculée du χ2 à un quantile de
la loi du χ2
LP (UM3)
S TATISTIQUES POUR LA PSYCHOLOGIE II
2012/2013
27 / 42
CHAP 5 : Le test du χ2 d’indépendance
Exemple : On mesure sur des élèves le niveau scolaire (X) et
l’absentéisme en classe (Y).
X/Y
A
B
Total
Rare
7
40
47
Moyen
4
10
14
Fréquent
4
10
14
Total
15
60
75
Sous hypothèse d’indépendance,
le ddl de la loi du χ2 est ddl= (3 − 1) × (2 − 1) = 2
Par lecture de la table, q0,95 = 5, 9915
donc 5% des échantillons donnent un χ2 supérieur à 5, 9915 (du
aux fluctuations d’échantillonnage)
LP (UM3)
S TATISTIQUES POUR LA PSYCHOLOGIE II
2012/2013
28 / 42
CHAP 5 : Le test du χ2 d’indépendance
Exemple (suite): on compare maintenant la valeur du χ2 observée
avec ce quantile.
On avait calculé χ2 = 2, 04.
2, 04 < 5, 9915 donc rien ne permet de rejeter l’idée que les
variables sont indépendantes
On dira que l’on ne rejette pas l’hypothèse d’indépendance.
Si on avait obtenu χ2 = 6, 4.
6, 4 > 5, 9915 donc : on peut rejeter l’idée que les variables sont
indépendantes avec un risque de se tromper inférieur à 5% puisque
seuls 5% des échantillons sous hypothèse d’indépendance donnent
un χ2 supérieur à 5, 9915
On dira que l’on rejette l’hypothèse d’indépendance au risque 5%.
LP (UM3)
S TATISTIQUES POUR LA PSYCHOLOGIE II
2012/2013
29 / 42
CHAP 5 : Le test du χ2 d’indépendance
Mise en place du test
1
On travaille sous l’hypothèse H0 que les variables sont
indépendantes
2
On choisit un risque α d’erreur. En général α = 5% ou α = 1%
3
On calcule le ddl= (k − 1) × (p − 1) suivant le nombre de
modalités
4
5
6
On lit le seuil s dans la table des quantiles de la loi du χ2
Après avoir calculé les effectifs théoriques sous H0 , on calcule la
valeur du χ2
prise de décision :
Soit χ2 > s : on rejette H0 (on rejette l’hypothèse d’indépendance
des variables) avec un risque d’erreur égale à α
Soit χ2 < s : on ne rejette pas H0 ! Lorsque la valeur du χ2 calculée
est très proche de 0 relativement à s, on pourra considérer
l’hypothèse d’indépendance très probable.
LP (UM3)
S TATISTIQUES POUR LA PSYCHOLOGIE II
2012/2013
30 / 42
CHAP 5 : Le test du χ2 d’indépendance
Exemple 1
On interroge des personnes en leur demandant leur âge et si ils
regardent ou non des séries TV.
TV / Age
oui
non
Total
< 55
60
540
600
> 55
42
358
400
Total
102
898
1000
Effectuer un test du χ2 pour savoir si le fait de regarder ou non des
séries est indépendant de l’âge.
LP (UM3)
S TATISTIQUES POUR LA PSYCHOLOGIE II
2012/2013
31 / 42
CHAP 5 : Le test du χ2 d’indépendance
Exemple 2
On interroge des personnes en leur demandant leur âge et si ils
regardent ou non des séries TV.
TV / Age
oui
non
Total
< 55
600
5400
6000
> 55
420
3580
4000
Total
1020
8980
10000
Effectuer un test du χ2 pour savoir si le fait de regarder ou non des
séries est indépendant de l’âge.
LP (UM3)
S TATISTIQUES POUR LA PSYCHOLOGIE II
2012/2013
32 / 42
CHAP 5 : Le test du χ2 d’indépendance
Exemple 3
On interroge des personnes en leur demandant leur âge et si ils
regardent ou non des séries TV.
TV / Age
oui
non
Total
< 55
6000
54000
60000
> 55
4200
35800
40000
Total
10200
89800
100000
Effectuer un test du χ2 pour savoir si le fait de regarder ou non des
séries est indépendant de l’âge.
LP (UM3)
S TATISTIQUES POUR LA PSYCHOLOGIE II
2012/2013
33 / 42
CHAP 5 : Le test du χ2 d’indépendance
Le test du χ2 dépend des effectifs
Conclusion :
1. Le test du χ2 dépend des effectifs
Un χ2 non significatif peut donc signifier
soit qu’on ne peut pas rejeter l’hypothèse d’indépendance,
soit qu’il n’y a pas indépendance mais que les effectifs dont je
dispose ne me permettent pas d’en être sûr statistiquement
2. Le test du χ2 ne mesure pas l’intensité de la dépendance.
Dans les exemples 1, 2 et 3 les distributions conditionnelles de la
variable TV sachant une tranche d’âge donnée sont identiques (par ex.
pour les moins de 55 ans, oui 10% et non 90%). La force du lien de
dépendance est la même alors que les χ2 observées sont très
différentes.
Remarque :
Le test du χ2 dépend du découpage en modalités
LP (UM3)
S TATISTIQUES POUR LA PSYCHOLOGIE II
2012/2013
34 / 42
CHAP 5 : Le test du χ2 d’indépendance
Le test du χ2 dépend du découpage en modalités
On obtient ici χ2 = 667, 76 qui conduit à rejeter l’hypothèse
d’indépendance avec un risque inférieur à 0,05%.
Alors que les mêmes données regroupées en moins de classes
(Exemple 2) conduisaient à ne pas rejeter l’hypothèse d’indépendance.
Remarque : Pour autant, il n’y a pas de contradiction. On voit bien la
nuance entre ne pas rejeter et accepter une hypothèse.
LP (UM3)
S TATISTIQUES POUR LA PSYCHOLOGIE II
2012/2013
35 / 42
CHAP 5 : Le test du χ2 d’indépendance
Le test du χ2 dépend du découpage en modalités
Conclusion :
De manière générale, il est donc préférable de partir avec des
découpages en classes les plus détaillés possibles, pour pouvoir
éventuellement ensuite pouvoir regrouper entre elles des modalités
ayant des profils semblables.
On aurait pu regrouper les tranches d’âge de 36 à 65 ans pour mieux
faire ressortir l’opposition entre les âges intermédiaires et les âges
"extrêmes".
LP (UM3)
S TATISTIQUES POUR LA PSYCHOLOGIE II
2012/2013
36 / 42
CHAP 5 : Le test du χ2 d’indépendance
Le Φ2
Remarque : Nous avons vu que le χ2 ne mesure pas la force de la
liaison.
Voir Exemples 1 et 3 précédents
TV / Age
oui
non
Total
< 55
60
540
600
> 55
42
358
400
Total
102
898
1000
TV / Age
oui
non
Total
< 55
6000
54000
60000
> 55
4200
35800
40000
χ2 = 0, 0655
TV / Age
oui
non
Total
< 55
0,1
0,9
1
LP (UM3)
Total
10200
89800
100000
χ2 = 6, 55
> 55
0,105
0,895
1
TV / Age
oui
non
Total
S TATISTIQUES POUR LA PSYCHOLOGIE II
< 55
0,1
0,9
1
> 55
0,105
0,895
1
2012/2013
37 / 42
CHAP 5 : Le test du χ2 d’indépendance
Le Φ2
Définition : Φ2 =
Propriétés :
χ2
où n est la taille de l’échantillon.
n
Le Φ2 un indice d’écart entre la distribution observée et la
distribution théorique.
0 ≤ Φ2 ≤ L où L est le nombre de modalités. moins 1 de la
variable qui comporte le moins de modalités
Φ2 est la variance des taux de liaison.
Plus Φ2 est élevé plus la liaison entre les variables est forte.
LP (UM3)
S TATISTIQUES POUR LA PSYCHOLOGIE II
2012/2013
38 / 42
CHAP 5 : Le test du χ2 d’indépendance
Le Φ2
Cf. Exemples 1 et 3 précédents
TV / Age
oui
non
Total
< 55
60
540
600
> 55
42
358
400
Total
102
898
1000
TV / Age
oui
non
Total
χ2 = 0, 0655
< 55
6000
54000
60000
> 55
4200
35800
40000
Total
10200
89800
100000
χ2 = 6, 55
0 ≤ Φ2 ≤ 1
Le Φ2 de chaque cas est égal 0, 000 065 5.
0,0655
6,55
1000 et 100000
Si on considère que l’on rejette l’indépendance, la force de la
liaison est donc la même et extrêmement faible.
LP (UM3)
S TATISTIQUES POUR LA PSYCHOLOGIE II
2012/2013
39 / 42
CHAP 5 : Le test du χ2 d’indépendance
Attention aux variables cachées !
On obtient χ2 = 50, 2
On obtient χ2 = 0, 01
LP (UM3)
et
S TATISTIQUES POUR LA PSYCHOLOGIE II
χ2 = 2, 53
2012/2013
40 / 42
CHAP 5 : Le test du χ2 d’indépendance
Attention aux effectifs théoriques trop faibles !
Exemple : On s’intéresse au fait de gagner ou non au Loto selon qu’on
possède un trèfle à quatre feuilles, un fer à cheval ou aucun des deux.
On obtient χ2 = 6, 9.
LP (UM3)
S TATISTIQUES POUR LA PSYCHOLOGIE II
2012/2013
41 / 42
CHAP 5 : Le test du χ2 d’indépendance
Attention aux effectifs théoriques trop faibles !
Avec les taux de liaison, on a relativisé l’écart entre effectifs observés
et effectifs théoriques de manière à ce qu’un écart de 15 dans une
case où on attendait 6 ne soit pas considéré de la même manière
qu’un écart de 15 dans une case où on en attendait 6 000.
Une conséquence de cette standardisation est qu’un poids important
est accordé aux petites cases, même si en effectifs les écarts
correspondants sont relativement faibles.
Ici, le taux de liaison de 2,1 s’explique par l’écart entre 7 et 3,2 mais
cela ne constitue pas forcément une variation très sensible.
LP (UM3)
S TATISTIQUES POUR LA PSYCHOLOGIE II
2012/2013
42 / 42
Téléchargement