Ajustement et comparaison de lois

Téléchargement

Chapitre 4

4.1 Ajustement d’une distribution statistique — principe et choix du test

Dans cette section on se pose le problème de tester si une distribution statistique observée sur un

échantillon est conforme ou non à un modèle théorique donné. Par exemple il s’agit de vériﬁer si une

distribution suit une loi normale, ou une loi de Poisson, ou une loi uniforme, ou un autre modèle prévu

par la théorie. Les tests d’ajustement à une loi théorique sont très variés et l’utilisation de l’un ou l’autre

demande beaucoup d’attention et de vériﬁcation des conditions d’applications. Dans un premier temps

on va étudier un exemple d’ajustement à une loi normale, condition qui est le plus souvent exigée dans les

utilisations des tests paramétriques de comparaison de moyennes dans des applications en psychologie.

Considérons un exemple concret. Le tableau suivant représente la distribution statistique (sur un

échantillon de 180 enfants de 3 ans) de la variable statistique Xqui associe, à chaque enfant, le nombre

de mots constituant son langage de base.

On se demande si le nombre de mots constituant le langage de base d’un enfant est distribué comme

une loi normale avec une moyenne 150 mots et un écart type de 25 mots.

Dans les tests eﬀectués jusqu’à présent, les hypothèses portaient sur des paramètres statistiques tels

des moyennes ou des proportions. Il faut noter que d’une manière générale, l’hypothèse nulle d’un test

d’ajustement est une hypothèse de non diﬀérence, que ce soit avec un paramètre théorique ou un modèle

probabiliste. En fait c’est toujours une hypothèse qui fournit une statistique bien déterminée.

Dans le cas d’un test d’ajustement à une loi théorique, les hypothèses sont alors











H0:La distribution de Xest conforme au modèle théorique proposé,

H1:la distribution de Xn’est pas conforme au modèle théorique

proposé.

Dans le cas de l’exemple étudié on a







H0:le nombre de mots utilisés par un enfant de trois ans varie

suivant un modèle gaussien de moyenne 150 et d’écart type 25

H1:non H0

ou en résumé :







H0:X → N (150,25)

H1:Non H0.

Remarque 4.1.1 La variable « nombre de mots » est quantitative discrète. Comme elle peut prendre un

grand nombre de valeurs, on la regarde comme une variable continue et on range les données par classes.

Classes : 70 −90 90 −110 110 −130 130 −150 150 −170 170 −190 190 −210 Σ

Eﬀectifs : 3 8 19 58 55 22 15 180

On veut comparer cette distribution à la distribution normale N(150,25). On peut avoir (entre autres)

deux idées, reliées à deux représentations graphiques des données. On trace d’abord l’histogramme des

données, et le graphe des fréquences cumulées.

4. Ajustement et comparaison de lois

70 –90

90 –110

110 –130

130 –150

150 –170

170 –190

190 –210

70 90 110 130 150 170 190 210

0.2

0.4

0.6

0.8

Ensuite, par une méthode détaillée plus loin, on construit les objets « théoriques » correspondants, ceux

que l’on obtiendrait (en moyenne) si la variable suivait exactement la loi N(150,25). On les représente

ici sur le même graphique :

70 –90

90 –110

110 –130

130 –150

150 –170

170 –190

190 –210

70 90 110 130 150 170 190 210

0.2

0.4

0.6

0.8

On voit alors qu’on a deux possibilités pour réaliser le test, soit comparer les deux histogrammes

observé et théorique, soit comparer les deux courbes cumulatives.

— avec la première idée on eﬀectue un test d’ajustement du χ2,

— dans le deuxième cas on eﬀectue un test d’ajustement de Kolmogorov-Smirnov.

Remarque 4.1.2 Cumuler les fréquences cumulées n’a de sens que si la variable est quantitative (ou

au moins ordonnée. . .) : la deuxième idée ne peut donc pas fonctionner pour des variables qualitatives.

Techniquement, on ne peut pas trouver une statistique intéressante si on ne suppose pas la variable

quantitative continue. On n’appliquera donc le deuxième test que pour des variables de ce type.

4.2 Test du χ2

Si le modèle théorique admet un nombre ﬁni de modalités, ce qui est la cas quand on range les données

d’une variable continue en classes, on doit calculer la probabilité de chaque modalité en se plaçant sous

l’hypothèse H0. Ces probalités seront appelées les fréquences théoriques. Pour une modalité Mide la

variable, on doit calculer sa probabilité.

Dans notre exemple ceci revient à calculer la probabilité de chaque classe en supposant que la variable

est normale de moyenne 150 et d’écart type 25.

4.2. Test du χ2

Remarque 4.2.1 Pour les classes limites (la première et la dernière), on doit tenir compte des eﬀets

de bord. Dans l’exemple étudié on doit calculer

P[X < 90]; et P[X≥190]

On a sous H0la variable X → N (150; 25) donc Z=X−150

25 → N (0,1).

P[X < 90] = P[Z≤ −2,4] = 0,0082; P[90 < X < 110] = P[−2,4< Z < −1,6] = 0,0466

P[110 < X < 130] = P[−1,6< Z < −0,8] = 0,1571; P[130 < X < 150] = P[−0,8< Z < 0] = 0,2881

P[150 < X < 170] = P[0 < Z < 0,8] = 0,2881; P[170 < X < 190] = P[0,8< Z < 1,6] = 0,2881

P[X > 190] = P[Z > 1,6] = 0,0548.

On obtient alors les résultats résumés sur le tableau suivant :

classes 70 −90 90 −110 110 −130 130 −150 150 −170 170 −190 190 −210 Σ

eﬀectifs ni3 8 19 58 55 22 15 180

fth

i0.0082 0,0466 0,1571 0,2881 0,2881 0,1571 0,0548 1

Si on suppose H0vraie, alors la probabilité pour qu’un individu choisi au hasard soit dans la modalité

Miest égale à la fréquence théorique fth

Pour un échantillon de taille nchoisi au hasard, on désigne par Nile nombre d’individus dont la valeur

Xest dans la modalité Mi.Sous l’hypothèse H0cette variable suit une loi binomiale de paramètres net

fth

Ni→ Bn, f th

i

L’espérance de cette variable est

E(Ni) = nfth

i=nth

et on appellera nth

il’eﬀectif théorique (ou attendu) si le modèle théorique est vrai.

La loi binomiale suivie par Nipeut être approchée par une loi normale si nfth

i=nth

i>5et n(1−fth

i)>

5et n > 30.

Si ces conditions ne sont pas satisfaites et si n > 30 on regroupe les modalités adjacentes (pour

une variable quantitative) autant de fois que nécessaire, jusqu’à ce qu’elles soient remplies.

Remarque 4.2.2 (Degrés de liberté) Si l’on note rle nombre de modalités ﬁnales après regroupe-

ments éventuels, on a alors

N1+N2+··· +Nr=n

Il y a alors une relation entre les rvariables Ni.

Dans l’exemple étudié, les fréquences théoriques ont été calculées en utilisant les paramètres théoriques

µ= 150 et σ= 25 qui ne dépendent pas de l’échantillon observés. Si un ou deux de ces paramètres ne

sont pas connus, on doit alors les remplacer par les estimations ponctuelles données par l’échantillon.

On désigne alors par le nombre de paramètres estimés par l’échantillon. Ceci impose contraintes

supplémentaires.

Finalement les rvariables Nisont liées par + 1 contraintes, le nombre de degrés de liberté est donc

r−−1.

On démontre alors que la variable

Y=X(Ni−nth

i)2

nth

suit une loi du χ2àr−−1ddl.

classes 70 −90 90 −110 110 −130 130 −150 150 −170 170 −190 190 −210 Σ

ni3 8 19 58 55 22 15 180

fth

i0.0082 0,0466 0,1571 0,2881 0,2881 0,1571 0,0548 1

nth

1,48 8,39 28,27 51,87 51,87 28,27 9,86 180

(ni−nth

i)2

nth

0,13 3,04 0,73 0,19 1,39 2,67 8,15

9.86

4. Ajustement et comparaison de lois

Dans l’exemple on a r= 6 et = 0 ce qui donne 5ddl. Pour un risque d’erreur de 0,05 la valeur

critique donnée par la table du χ2est 11,07. Comme la valeur expérimentale est de 8,15, on ne peut pas

rejeter la normalité de la variable.

4.3 Test de Kolmogorov Smirnov

On reprend maintenant la deuxième idée (comparer des fréquences cumulées).

On calcule des fréquences cumulées théoriques en. . .cumulant les fréquences théoriques (ou par un

calcul direct sur la loi théorique).

Statistique du test La statistique du test est la plus grande diﬀérence entre valeurs théoriques et

expérimentales :

D= max F(t)−Fth(t).

Région de rejet Pour les petits échantillons les valeurs critiques sont données directement par la table

de Kolmogorov Smirnov. Pour les grands échantillons, elles sont données par la formule :

dα=Cα

√n

où la valeur de Cαdépend du risque ﬁxé et est donné par une table. Pour α= 0.05, on a Cα= 1.3581.

Dans le cas de notre exemple, on obtient

d0.05 =1.3581

√180 = 0,1012; K0.05(D)=[D≥0.1012]

Décision On calcule les fréquences cumulées théoriques et expérimentales.

classes 70 −90 90 −110 110 −130 130 −150 150 −170 170 −190 190 −210 Σ

eﬀectifs ni3 8 19 58 55 22 15 180

fth

i0,0082 0,0466 0,1571 0,2881 0,2881 0,1571 0,0548 1

Fth

i0,0082 0,0548 0,2119 0,5000 0,7881 0,9452 1,0000

Fexp

i0,0167 0,0611 0,1667 0,4889 0,7944 0,9167 1,0000

|Fth

i−Fexp

i|0,0085 0,0063 0,0452 0,0111 0,0063 0,0285 0,0000

On a Dexp = 0.0452 <0.1012, donc on accepte H0. La distribution ne diﬀère pas signiﬁcativement

d’une Gaussienne.

4.4 Ajustement d’une variable catégorielle

Pour une variable catégorielle, le test de Kolmogorov-Smirnov n’est pas valable puisque les modalités

ne sont pas ordonnées et la notion de fonctions de répartition n’a pas de sens. On peut toutefois l’adapter

dans des cas où les modalités de la variable sont hiérarchisés et peuvent être ordonnées. Dans le cas où la

variable a deux modalités il marche parfaitement. On peut vériﬁer que dans le cas de deux modalités, la

variable D=max|Fth −Fexp|ne dépend pas de l’ordre dans lequel sont présentées les deux modalités,

ce qui n’est pas le cas en général.

Dans le cas des grands échantillons, on peut alors utiliser le test asymptotique du χ2en procédant

de la même manière que dans le ces des variables quantitatives. Mais lorsque plusieurs modalités ont

des eﬀectifs théoriques inférieurs à 5, on peut regrouper certaines modalités qu’on juge voisines selon la

nature du problème posé. On ne peut pas par exemple regrouper Paysans et Cadres supérieurs si les

modalités sont des classes socioprofessionnelles.

Dans ces situations, il faut se garder de faire le test du χ2, mais plutôt eﬀectuer des procédures exactes

basées sur la combinatoire, telles que la loi multinomiale pour des ajustements ou hypergéométrique pour

des comparaisons. On parle alors dans ces cas de tests exacts. Ces procédures sont relativement complexes

et sortent du cadre de ce cours.

Donnons un exemple. On a choisi au hasard un corpus de 400 mots dans un lexique de la langue

française et réparti les mots selon le nombre de syllabes. On a obtenu la répartition suivante

4.5. Comparaison de deux distributions

nombre de syllabes 1 2 3 4 ≥5

nombre de mots 47 128 153 67 5 400

Des études linguistiques prétendent qu’en général on a la répartition théorique suivante :

nombre de syllabes 1 2 3 4 ≥5

fréquences supposées 0,1 0,33 0,4 0,15 0,02

On va alors eﬀectuer un test du χ2pour vériﬁer cette hypothèse. On présente dans le tableau suivant

les calculs relatifs au test.

nombre de syllabes 1 2 3 4 ≥5

nombre de mots 47 128 153 67 5 400

fréquences supposées 0,1 0,33 0,4 0,15 0,02

eﬀectifs théoriques 40 132 160 60 8

χ21,225 0,121 0,306 0,817 1,125 3,594

Comme le nombre de modalités ﬁnales est r= 5, donc 4ddl. Avec un risque d’erreur de 5% la valer

critique est de Y0,05 = 9,488. Comme la valeur expérimentale est de Yexp = 3,594, on peut conclure qu’il

n’y a pas de diﬀérence signiﬁcative avec la répartitions supposée.

4.5 Comparaison de deux distributions

Dans le cas des variables quantitatives, on peut utiliser deux tests pour comparer deux distributions :

le test du χ2et le test de Kolmogorov-Smirnov à deux échantillons. Le principe est soit de comparer les

deux histogrammes empiriques (test du χ2), soit de comparer les deux fonctions de répartition (test de

K.-S.).

Dans le cas des variables catégorielles seul le test du χ2est valable.

a. Test du χ2.

Reprenons l’exemple du nombre de mots utilisés par des enfants de trois ans. Supposons que l’on

cherche à déterminer si la maîtrise du vocabulaire dépend du sexe de l’enfant. Pour 95 ﬁlles et 85 garçons,

on obtient la répartition suivante :

classes 70 −90 90 −110 110 −130 130 −150 150 −170 170 −190 190 −210 Σ

Filles : nF

i2 3 6 37 27 14 6 95

Garçons : nG

i1 5 13 21 28 8 9 85

Hypothèses.







H0:La distribution du nombre de mots utilisés par les ﬁlles

est identique à celle des garçons,

H1:Non H0

Autrement dit l’hypothèse H0signiﬁe que la distribution du nombre de mots utilisés ne dépend pas

du sexe de l’enfant.

Modèle statistique. Sous l’hypothèse H0on doit calculer une estimation de la probabilité de chaque

modalité en divisant la somme des eﬀectifs de chaque modalité et en divisant par l’eﬀectif total des

deux échantillons.

pi=nF

i+nG

nF+nG

Ensuite on calcule pour chaque échantillon les eﬀectifs théorique en utilisant

nGth

i=p×nG;nF th

i=p×nF

On regroupe les classes si des eﬀectifs théoriques sont inférieurs à 5.

Remarque 4.5.1 Le nombre de modalités ﬁnales doit être le même pour les deux échantillons. Si

on procède à un regroupement en se basant sur l’eﬀectif théorique (≤5) de l’un des deux échantillons

on eﬀectue aussi le même regroupement pour l’autre, même si l’eﬀectif est supérieur à 5.

1 / 6 100%

Documents connexes

Activité 2 avec travaux d`élèves

Travail à faire

word

Troubles spécifiques du Langage Oral. Formatrice : Contenu

Seconde 4 simulations – échantillonnage 2010-2011

RESUME Dans ce travail, nous proposons une méthode

Derrière la recherche de nouveaux indicateurs de

Les prélèvements sanguins L`importance de la phase pré

Les causes micro économiques de la rigidité nominale des

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Ajustement et comparaison de lois

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Ajustement et comparaison de lois

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib