Ajustement et comparaison de lois

publicité
Chapitre
Ajustement et comparaison de lois
4.1
Ajustement d’une distribution statistique — principe et choix du test
Dans cette section on se pose le problème de tester si une distribution statistique observée sur un
échantillon est conforme ou non à un modèle théorique donné. Par exemple il s’agit de vérifier si une
distribution suit une loi normale, ou une loi de Poisson, ou une loi uniforme, ou un autre modèle prévu
par la théorie. Les tests d’ajustement à une loi théorique sont très variés et l’utilisation de l’un ou l’autre
demande beaucoup d’attention et de vérification des conditions d’applications. Dans un premier temps
on va étudier un exemple d’ajustement à une loi normale, condition qui est le plus souvent exigée dans les
utilisations des tests paramétriques de comparaison de moyennes dans des applications en psychologie.
Considérons un exemple concret. Le tableau suivant représente la distribution statistique (sur un
échantillon de 180 enfants de 3 ans) de la variable statistique X qui associe, à chaque enfant, le nombre
de mots constituant son langage de base.
On se demande si le nombre de mots constituant le langage de base d’un enfant est distribué comme
une loi normale avec une moyenne 150 mots et un écart type de 25 mots.
Dans les tests effectués jusqu’à présent, les hypothèses portaient sur des paramètres statistiques tels
des moyennes ou des proportions. Il faut noter que d’une manière générale, l’hypothèse nulle d’un test
d’ajustement est une hypothèse de non différence, que ce soit avec un paramètre théorique ou un modèle
probabiliste. En fait c’est toujours une hypothèse qui fournit une statistique bien déterminée.
Dans le cas d’un test d’ajustement à une loi théorique, les hypothèses sont alors


H0 : La distribution de X est conforme au modèle théorique proposé,

H1 : la distribution de X n’est pas conforme au modèle théorique
proposé.
Dans le cas de l’exemple étudié on a

H0 : le nombre de mots utilisés par un enfant de trois ans varie
suivant un modèle gaussien de moyenne 150 et d’écart type 25

H1 : non H0
ou en résumé :

H0 : X ,→ N (150, 25)
H :
Non H0 .
1
Remarque 4.1.1 La variable « nombre de mots » est quantitative discrète. Comme elle peut prendre un
grand nombre de valeurs, on la regarde comme une variable continue et on range les données par classes.
Classes :
Effectifs :
70 − 90
3
90 − 110
8
110 − 130
19
130 − 150
58
150 − 170
55
170 − 190
22
190 − 210
15
Σ
180
On veut comparer cette distribution à la distribution normale N (150, 25). On peut avoir (entre autres)
deux idées, reliées à deux représentations graphiques des données. On trace d’abord l’histogramme des
données, et le graphe des fréquences cumulées.
23
4
4. Ajustement et comparaison de lois
60
1
0.8
40
0.6
0.4
20
0.2
70
190 – 210
170 – 190
150 – 170
130 – 150
110 – 130
90 – 110
0
70 – 90
0
90
110 130 150 170 190 210
Ensuite, par une méthode détaillée plus loin, on construit les objets « théoriques » correspondants, ceux
que l’on obtiendrait (en moyenne) si la variable suivait exactement la loi N (150, 25). On les représente
ici sur le même graphique :
60
1
0.8
40
0.6
0.4
20
0.2
190 – 210
170 – 190
150 – 170
130 – 150
110 – 130
90 – 110
0
70 – 90
0
70
90
110 130 150 170 190 210
On voit alors qu’on a deux possibilités pour réaliser le test, soit comparer les deux histogrammes
observé et théorique, soit comparer les deux courbes cumulatives.
— avec la première idée on effectue un test d’ajustement du χ2 ,
— dans le deuxième cas on effectue un test d’ajustement de Kolmogorov-Smirnov.
Remarque 4.1.2 Cumuler les fréquences cumulées n’a de sens que si la variable est quantitative (ou
au moins ordonnée. . .) : la deuxième idée ne peut donc pas fonctionner pour des variables qualitatives.
Techniquement, on ne peut pas trouver une statistique intéressante si on ne suppose pas la variable
quantitative continue. On n’appliquera donc le deuxième test que pour des variables de ce type.
4.2
Test du χ2
Si le modèle théorique admet un nombre fini de modalités, ce qui est la cas quand on range les données
d’une variable continue en classes, on doit calculer la probabilité de chaque modalité en se plaçant sous
l’hypothèse H0 . Ces probalités seront appelées les fréquences théoriques. Pour une modalité Mi de la
variable, on doit calculer sa probabilité.
Dans notre exemple ceci revient à calculer la probabilité de chaque classe en supposant que la variable
est normale de moyenne 150 et d’écart type 25.
24
4.2. Test du χ2
Remarque 4.2.1 Pour les classes limites (la première et la dernière), on doit tenir compte des effets
de bord. Dans l’exemple étudié on doit calculer
P[X < 90];
P[X ≥ 190]
et
On a sous H0 la variable X ,→ N (150; 25) donc Z =
X−150
25
P[X < 90] = P[Z ≤ −2, 4] = 0, 0082;
,→ N (0, 1).
P[90 < X < 110] = P[−2, 4 < Z < −1, 6] = 0, 0466
P[110 < X < 130] = P[−1, 6 < Z < −0, 8] = 0, 1571;
P[130 < X < 150] = P[−0, 8 < Z < 0] = 0, 2881
P[150 < X < 170] = P[0 < Z < 0, 8] = 0, 2881;
P[170 < X < 190] = P[0, 8 < Z < 1, 6] = 0, 2881
P[X > 190] = P[Z > 1, 6] = 0, 0548.
On obtient alors les résultats résumés sur le tableau suivant :
classes
70 − 90 90 − 110 110 − 130 130 − 150 150 − 170
effectifs ni
3
8
19
58
55
th
fi
0.0082
0, 0466
0, 1571
0, 2881
0, 2881
170 − 190
22
0, 1571
190 − 210
15
0, 0548
Σ
180
1
Si on suppose H0 vraie, alors la probabilité pour qu’un individu choisi au hasard soit dans la modalité
Mi est égale à la fréquence théorique fith .
Pour un échantillon de taille n choisi au hasard, on désigne par Ni le nombre d’individus dont la valeur
X est dans la modalité Mi . Sous l’hypothèse H0 cette variable suit une loi binomiale de paramètres n et
fith .
Ni ,→ B n, fith
L’espérance de cette variable est
E(Ni ) = nfith = nth
i
nth
i
et on appellera
l’effectif théorique (ou attendu) si le modèle théorique est vrai.
th
La loi binomiale suivie par Ni peut être approchée par une loi normale si nfith = nth
i > 5 et n(1−fi ) >
5 et n > 30.
Si ces conditions ne sont pas satisfaites et si n > 30 on regroupe les modalités adjacentes (pour
une variable quantitative) autant de fois que nécessaire, jusqu’à ce qu’elles soient remplies.
Remarque 4.2.2 (Degrés de liberté) Si l’on note r le nombre de modalités finales après regroupements éventuels, on a alors
N1 + N2 + · · · + Nr = n
Il y a alors une relation entre les r variables Ni .
Dans l’exemple étudié, les fréquences théoriques ont été calculées en utilisant les paramètres théoriques
µ = 150 et σ = 25 qui ne dépendent pas de l’échantillon observés. Si un ou deux de ces paramètres ne
sont pas connus, on doit alors les remplacer par les estimations ponctuelles données par l’échantillon.
On désigne alors par ` le nombre de paramètres estimés par l’échantillon. Ceci impose ` contraintes
supplémentaires.
Finalement les r variables Ni sont liées par ` + 1 contraintes, le nombre de degrés de liberté est donc
r − ` − 1.
On démontre alors que la variable
Y =
X (Ni − nth )2
i
nth
i
suit une loi du χ2 à r − ` − 1 ddl.
classes
70 − 90
ni
3
fith
0.0082
nth
i
1,48
2
(ni −nth
i )
nth
i
90 − 110
8 11
0, 0466
8,39
9.86
0, 13
110 − 130
130 − 150
150 − 170
170 − 190
190 − 210
Σ
19
58
55
22
15
180
0, 1571
0, 2881
0, 2881
0, 1571
0, 0548
1
28, 27
51, 87
51, 87
28, 27
9, 86
180
3, 04
0, 73
0, 19
1, 39
2, 67
8, 15
25
4. Ajustement et comparaison de lois
Dans l’exemple on a r = 6 et ` = 0 ce qui donne 5 ddl. Pour un risque d’erreur de 0, 05 la valeur
critique donnée par la table du χ2 est 11, 07. Comme la valeur expérimentale est de 8,15, on ne peut pas
rejeter la normalité de la variable.
4.3
Test de Kolmogorov Smirnov
On reprend maintenant la deuxième idée (comparer des fréquences cumulées).
On calcule des fréquences cumulées théoriques en. . .cumulant les fréquences théoriques (ou par un
calcul direct sur la loi théorique).
Statistique du test La statistique du test est la plus grande différence entre valeurs théoriques et
expérimentales :
D = max F (t) − F th (t) .
Région de rejet Pour les petits échantillons les valeurs critiques sont données directement par la table
de Kolmogorov Smirnov. Pour les grands échantillons, elles sont données par la formule :
Cα
dα = √
n
où la valeur de Cα dépend du risque fixé et est donné par une table. Pour α = 0.05, on a Cα = 1.3581.
Dans le cas de notre exemple, on obtient
1.3581
d0.05 = √
= 0, 1012;
180
K0.05 (D) = [D ≥ 0.1012]
Décision On calcule les fréquences cumulées théoriques et expérimentales.
classes
70 − 90
90 − 110
110 − 130
130 − 150
150 − 170
170 − 190
190 − 210
Σ
effectifs ni
3
8
19
58
55
22
15
180
fith
Fith
Fiexp
|Fith − Fiexp |
0, 0082
0, 0466
0, 1571
0, 2881
0, 2881
0, 1571
0, 0548
1
0, 0082
0, 0548
0, 2119
0, 5000
0, 7881
0, 9452
1, 0000
0, 0167
0, 0611
0, 1667
0, 4889
0, 7944
0, 9167
1, 0000
0, 0085
0, 0063
0, 0452
0, 0111
0, 0063
0, 0285
0, 0000
On a Dexp = 0.0452 < 0.1012, donc on accepte H0 . La distribution ne diffère pas significativement
d’une Gaussienne.
4.4
Ajustement d’une variable catégorielle
Pour une variable catégorielle, le test de Kolmogorov-Smirnov n’est pas valable puisque les modalités
ne sont pas ordonnées et la notion de fonctions de répartition n’a pas de sens. On peut toutefois l’adapter
dans des cas où les modalités de la variable sont hiérarchisés et peuvent être ordonnées. Dans le cas où la
variable a deux modalités il marche parfaitement. On peut vérifier que dans le cas de deux modalités, la
variable D = max|F th − F exp | ne dépend pas de l’ordre dans lequel sont présentées les deux modalités,
ce qui n’est pas le cas en général.
Dans le cas des grands échantillons, on peut alors utiliser le test asymptotique du χ2 en procédant
de la même manière que dans le ces des variables quantitatives. Mais lorsque plusieurs modalités ont
des effectifs théoriques inférieurs à 5, on peut regrouper certaines modalités qu’on juge voisines selon la
nature du problème posé. On ne peut pas par exemple regrouper Paysans et Cadres supérieurs si les
modalités sont des classes socioprofessionnelles.
Dans ces situations, il faut se garder de faire le test du χ2 , mais plutôt effectuer des procédures exactes
basées sur la combinatoire, telles que la loi multinomiale pour des ajustements ou hypergéométrique pour
des comparaisons. On parle alors dans ces cas de tests exacts. Ces procédures sont relativement complexes
et sortent du cadre de ce cours.
Donnons un exemple. On a choisi au hasard un corpus de 400 mots dans un lexique de la langue
française et réparti les mots selon le nombre de syllabes. On a obtenu la répartition suivante
26
4.5.
nombre de syllabes
nombre de mots
1
47
2
128
3
153
4
67
Comparaison de deux distributions
≥5
5
400
Des études linguistiques prétendent qu’en général on a la répartition théorique suivante :
nombre de syllabes
fréquences supposées
1
0,1
2
0,33
3
0,4
4
0,15
≥5
0,02
On va alors effectuer un test du χ2 pour vérifier cette hypothèse. On présente dans le tableau suivant
les calculs relatifs au test.
nombre de syllabes
nombre de mots
fréquences supposées
effectifs théoriques
χ2
1
47
0,1
40
1,225
2
128
0,33
132
0,121
3
153
0,4
160
0,306
4
67
0,15
60
0,817
≥5
5
0,02
8
1,125
400
3,594
Comme le nombre de modalités finales est r = 5, donc 4 ddl. Avec un risque d’erreur de 5% la valer
critique est de Y0,05 = 9, 488. Comme la valeur expérimentale est de Y exp = 3, 594, on peut conclure qu’il
n’y a pas de différence significative avec la répartitions supposée.
4.5
Comparaison de deux distributions
Dans le cas des variables quantitatives, on peut utiliser deux tests pour comparer deux distributions :
le test du χ2 et le test de Kolmogorov-Smirnov à deux échantillons. Le principe est soit de comparer les
deux histogrammes empiriques (test du χ2 ), soit de comparer les deux fonctions de répartition (test de
K.-S.).
Dans le cas des variables catégorielles seul le test du χ2 est valable.
a.
Test du χ2 .
Reprenons l’exemple du nombre de mots utilisés par des enfants de trois ans. Supposons que l’on
cherche à déterminer si la maîtrise du vocabulaire dépend du sexe de l’enfant. Pour 95 filles et 85 garçons,
on obtient la répartition suivante :
classes
Filles : nF
i
Garçons : nG
i
70 − 90
2
1
90 − 110
3
5
110 − 130
6
13
130 − 150
37
21
150 − 170
27
28
170 − 190
14
8
190 − 210
6
9
Σ
95
85
Hypothèses.

H0 : La distribution du nombre de mots utilisés par les filles
est identique à celle des garçons,

H1 : Non H0
Autrement dit l’hypothèse H0 signifie que la distribution du nombre de mots utilisés ne dépend pas
du sexe de l’enfant.
Modèle statistique. Sous l’hypothèse H0 on doit calculer une estimation de la probabilité de chaque
modalité en divisant la somme des effectifs de chaque modalité et en divisant par l’effectif total des
deux échantillons.
nF + nG
i
pi = iF
n + nG
Ensuite on calcule pour chaque échantillon les effectifs théorique en utilisant
nGth
= p × nG ;
i
th
nF
= p × nF
i
On regroupe les classes si des effectifs théoriques sont inférieurs à 5.
Remarque 4.5.1 Le nombre de modalités finales doit être le même pour les deux échantillons. Si
on procède à un regroupement en se basant sur l’effectif théorique (≤ 5) de l’un des deux échantillons
on effectue aussi le même regroupement pour l’autre, même si l’effectif est supérieur à 5.
27
4. Ajustement et comparaison de lois
Si on désigne par r le nombre de modalités finales alors la statistique du test est
Y =
X (N G − nGth )2
i
i
nGth
i
+
X (N F − nF th )2
i
i
th
nF
i
qui est distribuée selon une loi du χ2 à r − 1 ddl.
Dans l’exemple on a r = 6 donc 5 ddl.
Calculs expérimentaux.
classes :
70 − 90
90 − 110
110 − 130
130 − 150
150 − 170
170 − 190
190 − 210
Σ
filles : nF
i
2
3 5
6
37
27
14
6
95
Garçons : nG
i
1
5 6
13
21
28
8
9
85
pi
0, 017
0, 044
0, 106
0, 322
0, 306
0, 122
0, 083
nF,th
i
1,583
4,222
5, 605 10, 028
30, 611
29, 028
11, 611
7, 917
nG,th
i
1,417
3,778
5, 195
8, 972
27, 389
25, 972
10, 389
7, 083
χ2F
0, 007
1, 618
1, 333
0, 142
0, 491
0, 464
χ2G
0, 008
1, 808
1, 490
0, 158
0, 549
0, 519
Région de rejet et décision La région de rejet de H0 pour un risque d’erreur de 0, 05 est
K(Y ) = [Y ≥ 11, 07.]
La valeur expérimentale est
Y exp = 4, 055 + 4, 532 = 8, 587 6∈ K(Y ).
Les deux distributions ne diffèrent donc pas significativement.
b.
Test de Kolmogorov-Smirnov
On calcule les fréquences cumulées expérimentales.
filles :nF
i
Garçons :nG
i
FFexp
FGexp
D
2
1
0, 021
0, 012
0, 009
3
5
0, 053
0, 071
0, 018
6
13
0, 116
0, 224
0, 108
37
21
0, 505
0, 471
0, 035
27
28
0, 789
0, 800
0, 011
14
8
0, 937
0, 894
0, 043
6
9
1
1
0
La statistique du test est la plus grande différence entre les deux fonctions de répartitions observées.
D = max F F exp − F Gexp Pour des échantillons de petite tailles on cherche la valeur critique sur la table directement. Pour des
grands échantillons la valeur critique est donnée par
r
n1 + n2
dα = Cα
n1 n2
Pour α = 0, 05 et pour des échantillons de tailles 95 et 85, on obtient
r
95 + 85
= 0, 2028
dα = 1, 3581
95 × 85
On a Dexp = 0, 108 < 0, 2028.
Conclusion : il n’y a pas de différence significative entre les deux distributions.
28
Téléchargement