4. Ajustement et comparaison de lois
Dans l’exemple on a r= 6 et = 0 ce qui donne 5ddl. Pour un risque d’erreur de 0,05 la valeur
critique donnée par la table du χ2est 11,07. Comme la valeur expérimentale est de 8,15, on ne peut pas
rejeter la normalité de la variable.
4.3 Test de Kolmogorov Smirnov
On reprend maintenant la deuxième idée (comparer des fréquences cumulées).
On calcule des fréquences cumulées théoriques en. . .cumulant les fréquences théoriques (ou par un
calcul direct sur la loi théorique).
Statistique du test La statistique du test est la plus grande différence entre valeurs théoriques et
expérimentales :
D= max F(t)−Fth(t).
Région de rejet Pour les petits échantillons les valeurs critiques sont données directement par la table
de Kolmogorov Smirnov. Pour les grands échantillons, elles sont données par la formule :
dα=Cα
√n
où la valeur de Cαdépend du risque fixé et est donné par une table. Pour α= 0.05, on a Cα= 1.3581.
Dans le cas de notre exemple, on obtient
d0.05 =1.3581
√180 = 0,1012; K0.05(D)=[D≥0.1012]
Décision On calcule les fréquences cumulées théoriques et expérimentales.
classes 70 −90 90 −110 110 −130 130 −150 150 −170 170 −190 190 −210 Σ
effectifs ni3 8 19 58 55 22 15 180
fth
i0,0082 0,0466 0,1571 0,2881 0,2881 0,1571 0,0548 1
Fth
i0,0082 0,0548 0,2119 0,5000 0,7881 0,9452 1,0000
Fexp
i0,0167 0,0611 0,1667 0,4889 0,7944 0,9167 1,0000
|Fth
i−Fexp
i|0,0085 0,0063 0,0452 0,0111 0,0063 0,0285 0,0000
On a Dexp = 0.0452 <0.1012, donc on accepte H0. La distribution ne diffère pas significativement
d’une Gaussienne.
4.4 Ajustement d’une variable catégorielle
Pour une variable catégorielle, le test de Kolmogorov-Smirnov n’est pas valable puisque les modalités
ne sont pas ordonnées et la notion de fonctions de répartition n’a pas de sens. On peut toutefois l’adapter
dans des cas où les modalités de la variable sont hiérarchisés et peuvent être ordonnées. Dans le cas où la
variable a deux modalités il marche parfaitement. On peut vérifier que dans le cas de deux modalités, la
variable D=max|Fth −Fexp|ne dépend pas de l’ordre dans lequel sont présentées les deux modalités,
ce qui n’est pas le cas en général.
Dans le cas des grands échantillons, on peut alors utiliser le test asymptotique du χ2en procédant
de la même manière que dans le ces des variables quantitatives. Mais lorsque plusieurs modalités ont
des effectifs théoriques inférieurs à 5, on peut regrouper certaines modalités qu’on juge voisines selon la
nature du problème posé. On ne peut pas par exemple regrouper Paysans et Cadres supérieurs si les
modalités sont des classes socioprofessionnelles.
Dans ces situations, il faut se garder de faire le test du χ2, mais plutôt effectuer des procédures exactes
basées sur la combinatoire, telles que la loi multinomiale pour des ajustements ou hypergéométrique pour
des comparaisons. On parle alors dans ces cas de tests exacts. Ces procédures sont relativement complexes
et sortent du cadre de ce cours.
Donnons un exemple. On a choisi au hasard un corpus de 400 mots dans un lexique de la langue
française et réparti les mots selon le nombre de syllabes. On a obtenu la répartition suivante
26