Chapitre 4
Ajustement et comparaison de lois
4.1 Ajustement d’une distribution statistique — principe et choix du test
Dans cette section on se pose le problème de tester si une distribution statistique observée sur un
échantillon est conforme ou non à un modèle théorique donné. Par exemple il s’agit de vérifier si une
distribution suit une loi normale, ou une loi de Poisson, ou une loi uniforme, ou un autre modèle prévu
par la théorie. Les tests d’ajustement à une loi théorique sont très variés et l’utilisation de l’un ou l’autre
demande beaucoup d’attention et de vérification des conditions d’applications. Dans un premier temps
on va étudier un exemple d’ajustement à une loi normale, condition qui est le plus souvent exigée dans les
utilisations des tests paramétriques de comparaison de moyennes dans des applications en psychologie.
Considérons un exemple concret. Le tableau suivant représente la distribution statistique (sur un
échantillon de 180 enfants de 3 ans) de la variable statistique Xqui associe, à chaque enfant, le nombre
de mots constituant son langage de base.
On se demande si le nombre de mots constituant le langage de base d’un enfant est distribué comme
une loi normale avec une moyenne 150 mots et un écart type de 25 mots.
Dans les tests effectués jusqu’à présent, les hypothèses portaient sur des paramètres statistiques tels
des moyennes ou des proportions. Il faut noter que d’une manière générale, l’hypothèse nulle d’un test
d’ajustement est une hypothèse de non différence, que ce soit avec un paramètre théorique ou un modèle
probabiliste. En fait c’est toujours une hypothèse qui fournit une statistique bien déterminée.
Dans le cas d’un test d’ajustement à une loi théorique, les hypothèses sont alors
H0:La distribution de Xest conforme au modèle théorique proposé,
H1:la distribution de Xn’est pas conforme au modèle théorique
proposé.
Dans le cas de l’exemple étudié on a
H0:le nombre de mots utilisés par un enfant de trois ans varie
suivant un modèle gaussien de moyenne 150 et d’écart type 25
H1:non H0
ou en résumé :
H0:X → N (150,25)
H1:Non H0.
Remarque 4.1.1 La variable « nombre de mots » est quantitative discrète. Comme elle peut prendre un
grand nombre de valeurs, on la regarde comme une variable continue et on range les données par classes.
Classes : 70 90 90 110 110 130 130 150 150 170 170 190 190 210 Σ
Effectifs : 3 8 19 58 55 22 15 180
On veut comparer cette distribution à la distribution normale N(150,25). On peut avoir (entre autres)
deux idées, reliées à deux représentations graphiques des données. On trace d’abord l’histogramme des
données, et le graphe des fréquences cumulées.
23
4. Ajustement et comparaison de lois
70 90
90 110
110 130
130 150
150 170
170 190
190 210
0
20
40
60
70 90 110 130 150 170 190 210
0
0.2
0.4
0.6
0.8
1
Ensuite, par une méthode détaillée plus loin, on construit les objets « théoriques » correspondants, ceux
que l’on obtiendrait (en moyenne) si la variable suivait exactement la loi N(150,25). On les représente
ici sur le même graphique :
70 90
90 110
110 130
130 150
150 170
170 190
190 210
0
20
40
60
70 90 110 130 150 170 190 210
0
0.2
0.4
0.6
0.8
1
On voit alors qu’on a deux possibilités pour réaliser le test, soit comparer les deux histogrammes
observé et théorique, soit comparer les deux courbes cumulatives.
avec la première idée on effectue un test d’ajustement du χ2,
dans le deuxième cas on effectue un test d’ajustement de Kolmogorov-Smirnov.
Remarque 4.1.2 Cumuler les fréquences cumulées n’a de sens que si la variable est quantitative (ou
au moins ordonnée. . .) : la deuxième idée ne peut donc pas fonctionner pour des variables qualitatives.
Techniquement, on ne peut pas trouver une statistique intéressante si on ne suppose pas la variable
quantitative continue. On n’appliquera donc le deuxième test que pour des variables de ce type.
4.2 Test du χ2
Si le modèle théorique admet un nombre fini de modalités, ce qui est la cas quand on range les données
d’une variable continue en classes, on doit calculer la probabilité de chaque modalité en se plaçant sous
l’hypothèse H0. Ces probalités seront appelées les fréquences théoriques. Pour une modalité Mide la
variable, on doit calculer sa probabilité.
Dans notre exemple ceci revient à calculer la probabilité de chaque classe en supposant que la variable
est normale de moyenne 150 et d’écart type 25.
24
4.2. Test du χ2
Remarque 4.2.1 Pour les classes limites (la première et la dernière), on doit tenir compte des effets
de bord. Dans l’exemple étudié on doit calculer
P[X < 90]; et P[X190]
On a sous H0la variable X → N (150; 25) donc Z=X150
25 → N (0,1).
P[X < 90] = P[Z≤ −2,4] = 0,0082; P[90 < X < 110] = P[2,4< Z < 1,6] = 0,0466
P[110 < X < 130] = P[1,6< Z < 0,8] = 0,1571; P[130 < X < 150] = P[0,8< Z < 0] = 0,2881
P[150 < X < 170] = P[0 < Z < 0,8] = 0,2881; P[170 < X < 190] = P[0,8< Z < 1,6] = 0,2881
P[X > 190] = P[Z > 1,6] = 0,0548.
On obtient alors les résultats résumés sur le tableau suivant :
classes 70 90 90 110 110 130 130 150 150 170 170 190 190 210 Σ
effectifs ni3 8 19 58 55 22 15 180
fth
i0.0082 0,0466 0,1571 0,2881 0,2881 0,1571 0,0548 1
Si on suppose H0vraie, alors la probabilité pour qu’un individu choisi au hasard soit dans la modalité
Miest égale à la fréquence théorique fth
i.
Pour un échantillon de taille nchoisi au hasard, on désigne par Nile nombre d’individus dont la valeur
Xest dans la modalité Mi.Sous l’hypothèse H0cette variable suit une loi binomiale de paramètres net
fth
i.
Ni→ Bn, f th
i
L’espérance de cette variable est
E(Ni) = nfth
i=nth
i
et on appellera nth
il’effectif théorique (ou attendu) si le modèle théorique est vrai.
La loi binomiale suivie par Nipeut être approchée par une loi normale si nfth
i=nth
i>5et n(1fth
i)>
5et n > 30.
Si ces conditions ne sont pas satisfaites et si n > 30 on regroupe les modalités adjacentes (pour
une variable quantitative) autant de fois que nécessaire, jusqu’à ce qu’elles soient remplies.
Remarque 4.2.2 (Degrés de liberté) Si l’on note rle nombre de modalités finales après regroupe-
ments éventuels, on a alors
N1+N2+··· +Nr=n
Il y a alors une relation entre les rvariables Ni.
Dans l’exemple étudié, les fréquences théoriques ont été calculées en utilisant les paramètres théoriques
µ= 150 et σ= 25 qui ne dépendent pas de l’échantillon observés. Si un ou deux de ces paramètres ne
sont pas connus, on doit alors les remplacer par les estimations ponctuelles données par l’échantillon.
On désigne alors par le nombre de paramètres estimés par l’échantillon. Ceci impose contraintes
supplémentaires.
Finalement les rvariables Nisont liées par + 1 contraintes, le nombre de degrés de liberté est donc
r1.
On démontre alors que la variable
Y=X(Ninth
i)2
nth
i
suit une loi du χ2àr1ddl.
classes 70 90 90 110 110 130 130 150 150 170 170 190 190 210 Σ
ni3 8 19 58 55 22 15 180
fth
i0.0082 0,0466 0,1571 0,2881 0,2881 0,1571 0,0548 1
nth
i
1,48 8,39 28,27 51,87 51,87 28,27 9,86 180
(ninth
i)2
nth
i
0,13 3,04 0,73 0,19 1,39 2,67 8,15
11
9.86
25
4. Ajustement et comparaison de lois
Dans l’exemple on a r= 6 et = 0 ce qui donne 5ddl. Pour un risque d’erreur de 0,05 la valeur
critique donnée par la table du χ2est 11,07. Comme la valeur expérimentale est de 8,15, on ne peut pas
rejeter la normalité de la variable.
4.3 Test de Kolmogorov Smirnov
On reprend maintenant la deuxième idée (comparer des fréquences cumulées).
On calcule des fréquences cumulées théoriques en. . .cumulant les fréquences théoriques (ou par un
calcul direct sur la loi théorique).
Statistique du test La statistique du test est la plus grande différence entre valeurs théoriques et
expérimentales :
D= max F(t)Fth(t).
Région de rejet Pour les petits échantillons les valeurs critiques sont données directement par la table
de Kolmogorov Smirnov. Pour les grands échantillons, elles sont données par la formule :
dα=Cα
n
où la valeur de Cαdépend du risque fixé et est donné par une table. Pour α= 0.05, on a Cα= 1.3581.
Dans le cas de notre exemple, on obtient
d0.05 =1.3581
180 = 0,1012; K0.05(D)=[D0.1012]
Décision On calcule les fréquences cumulées théoriques et expérimentales.
classes 70 90 90 110 110 130 130 150 150 170 170 190 190 210 Σ
effectifs ni3 8 19 58 55 22 15 180
fth
i0,0082 0,0466 0,1571 0,2881 0,2881 0,1571 0,0548 1
Fth
i0,0082 0,0548 0,2119 0,5000 0,7881 0,9452 1,0000
Fexp
i0,0167 0,0611 0,1667 0,4889 0,7944 0,9167 1,0000
|Fth
iFexp
i|0,0085 0,0063 0,0452 0,0111 0,0063 0,0285 0,0000
On a Dexp = 0.0452 <0.1012, donc on accepte H0. La distribution ne diffère pas significativement
d’une Gaussienne.
4.4 Ajustement d’une variable catégorielle
Pour une variable catégorielle, le test de Kolmogorov-Smirnov n’est pas valable puisque les modalités
ne sont pas ordonnées et la notion de fonctions de répartition n’a pas de sens. On peut toutefois l’adapter
dans des cas où les modalités de la variable sont hiérarchisés et peuvent être ordonnées. Dans le cas où la
variable a deux modalités il marche parfaitement. On peut vérifier que dans le cas de deux modalités, la
variable D=max|Fth Fexp|ne dépend pas de l’ordre dans lequel sont présentées les deux modalités,
ce qui n’est pas le cas en général.
Dans le cas des grands échantillons, on peut alors utiliser le test asymptotique du χ2en procédant
de la même manière que dans le ces des variables quantitatives. Mais lorsque plusieurs modalités ont
des effectifs théoriques inférieurs à 5, on peut regrouper certaines modalités qu’on juge voisines selon la
nature du problème posé. On ne peut pas par exemple regrouper Paysans et Cadres supérieurs si les
modalités sont des classes socioprofessionnelles.
Dans ces situations, il faut se garder de faire le test du χ2, mais plutôt effectuer des procédures exactes
basées sur la combinatoire, telles que la loi multinomiale pour des ajustements ou hypergéométrique pour
des comparaisons. On parle alors dans ces cas de tests exacts. Ces procédures sont relativement complexes
et sortent du cadre de ce cours.
Donnons un exemple. On a choisi au hasard un corpus de 400 mots dans un lexique de la langue
française et réparti les mots selon le nombre de syllabes. On a obtenu la répartition suivante
26
4.5. Comparaison de deux distributions
nombre de syllabes 1 2 3 4 5
nombre de mots 47 128 153 67 5 400
Des études linguistiques prétendent qu’en général on a la répartition théorique suivante :
nombre de syllabes 1 2 3 4 5
fréquences supposées 0,1 0,33 0,4 0,15 0,02
On va alors effectuer un test du χ2pour vérifier cette hypothèse. On présente dans le tableau suivant
les calculs relatifs au test.
nombre de syllabes 1 2 3 4 5
nombre de mots 47 128 153 67 5 400
fréquences supposées 0,1 0,33 0,4 0,15 0,02
effectifs théoriques 40 132 160 60 8
χ21,225 0,121 0,306 0,817 1,125 3,594
Comme le nombre de modalités finales est r= 5, donc 4ddl. Avec un risque d’erreur de 5% la valer
critique est de Y0,05 = 9,488. Comme la valeur expérimentale est de Yexp = 3,594, on peut conclure qu’il
n’y a pas de différence significative avec la répartitions supposée.
4.5 Comparaison de deux distributions
Dans le cas des variables quantitatives, on peut utiliser deux tests pour comparer deux distributions :
le test du χ2et le test de Kolmogorov-Smirnov à deux échantillons. Le principe est soit de comparer les
deux histogrammes empiriques (test du χ2), soit de comparer les deux fonctions de répartition (test de
K.-S.).
Dans le cas des variables catégorielles seul le test du χ2est valable.
a. Test du χ2.
Reprenons l’exemple du nombre de mots utilisés par des enfants de trois ans. Supposons que l’on
cherche à déterminer si la maîtrise du vocabulaire dépend du sexe de l’enfant. Pour 95 filles et 85 garçons,
on obtient la répartition suivante :
classes 70 90 90 110 110 130 130 150 150 170 170 190 190 210 Σ
Filles : nF
i2 3 6 37 27 14 6 95
Garçons : nG
i1 5 13 21 28 8 9 85
Hypothèses.
H0:La distribution du nombre de mots utilisés par les filles
est identique à celle des garçons,
H1:Non H0
Autrement dit l’hypothèse H0signifie que la distribution du nombre de mots utilisés ne dépend pas
du sexe de l’enfant.
Modèle statistique. Sous l’hypothèse H0on doit calculer une estimation de la probabilité de chaque
modalité en divisant la somme des effectifs de chaque modalité et en divisant par l’effectif total des
deux échantillons.
pi=nF
i+nG
i
nF+nG
Ensuite on calcule pour chaque échantillon les effectifs théorique en utilisant
nGth
i=p×nG;nF th
i=p×nF
On regroupe les classes si des effectifs théoriques sont inférieurs à 5.
Remarque 4.5.1 Le nombre de modalités finales doit être le même pour les deux échantillons. Si
on procède à un regroupement en se basant sur l’effectif théorique (5) de l’un des deux échantillons
on effectue aussi le même regroupement pour l’autre, même si l’effectif est supérieur à 5.
27
1 / 6 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !