Autour du test du Chi2

publicité
Autour du test du χ2
Table des matières
2 mai 2010
1 Une distribution dérivant du modèle
1.1 Forme de la distribution . . . . . . .
1.2 Paramètres descriptifs . . . . . . . .
1.3 Somme de deux variables qui suivent
1.4 Approximation par une loi normale .
1.5 Utilisation de la table de Pearson . .
du
. .
. .
. .
. .
. .
χ2
. .
. .
. .
. .
. .
.
.
.
.
.
1
1
2
2
2
2
2 Test d’ajustement de deux distributions : “test du χ2 ”
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Le test d’ajustement de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
2
3
3 Table de Pearson
5
4
gaussien : La distribution
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
une loi du χ2 . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
de
. .
. .
. .
. .
. .
Pearson
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
Énoncé du TD8
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6
Une distribution dérivant du modèle gaussien : La distribution du χ2 de
Pearson
Elle a été découverte en 1905 par le mathématicien britannique Karl Pearson (1857-1936) qui travailla également sur les
problèmes de régression avec le généticien Sir Francis Galton. Cette distribution (qui se prononce khi-deux) est très importante
pour tester l’ajustement d’une loi théorique à une distribution expérimentale (test du χ2 ) et pour déterminer la loi de la variance
d’un échantillon.
Définition 1 Si X1 , X2 , . . . , Xn sont n variables aléatoires indépendantes qui suivent toute la loi normale centrée réduite,
alors la quantité X = X12 + X22 + · · · + Xn2 est une variable aléatoire distribuée selon la loi du χ2 à n degrés de liberté. On
note X * χ2n .
La notion de « degrés de liberté » n’est pas précisée pour l’instant. Pour le moment, il importe simplement de connaı̂tre
la définition et de savoir lire la table correspondante.
1.1
Forme de la distribution
L’expression de la densité de probabilité étant très compliquée et d’aucun intérêt pour nous, nous ne la donnons pas ici.
La distribution du χ2 est continue à valeurs positives et présente un étalement sur le côté supérieur. Elle ne dépend que
du nombre de degrés de liberté n.
Ci-dessous, densité de χ2n pour n = 1, . . . , 6.
y
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0
1
2
3
4
5
6
7
8
9
10
11
12
x
stats::chisquarePDF(1)(x)
stats::chisquarePDF(2)(x)
stats::chisquarePDF(3)(x)
stats::chisquarePDF(4)(x)
stats::chisquarePDF(5)(x)
stats::chisquarePDF(6)(x)
1
MA401 : Probabilités
1.2
Paramètres descriptifs
E(X) = n , V(X) = 2n.
1.3
Somme de deux variables qui suivent une loi du χ2
Si X1 * χ2n1 et X2 * χ2n2 sont indépendantes, alors X1 + X2 * χ2n1 +n2 .
1.4
Approximation par une loi normale
A mesure que n augmente, la loi du χ2 tend vers la loi normale, comme on peut le constater sur le graphique ci-dessous.
y
0.20
0.15
0.10
0.05
0.00
0
10
20
30
40
50
x
stats::chisquarePDF(4)(x)
stats::chisquarePDF(5)(x)
stats::chisquarePDF(8)(x)
stats::chisquarePDF(12)(x)
stats::chisquarePDF(18)(x)
stats::chisquarePDF(30)(x)
Densité de χ2n pour n = 4, 5, 8, 12, 18, 30.
En√pratique, on peut considérer que pour n ≥ 30, on peut remplacer la loi du χ2 à n degrés de liberté par la loi normale
N (n, 2n).
1.5
Utilisation de la table de Pearson
Pour des raisons de commodité, au lieu de donner la table des fonctions de répartition des variables aléatoires χ2n pour
les différentes valeurs de n, on donne, en fonction de n (nombre de degrés de liberté) et d’une probabilité α que l’on peut
choisir, la valeur χ2α,n définie par P (χ2 > χ2α,n ) = α. α est un seuil et a en fait une signification particulière dans les problèmes
d’estimation et de tests. Il sera défini ultérieurement.
2
2.1
Test d’ajustement de deux distributions : “test du χ2 ”
Introduction
Un outil statistique qui permet de vérifier la concordance entre une distribution expérimentale et une distribution théorique
est le test de Pearson, appelé aussi le test du khi-deux.
On cherche donc à déterminer si un modèle théorique est susceptible de représenter adéquatement le comportement
probabiliste de la variable observée, comportement fondé sur les fréquences des résultats obtenus sur l’échantillon.
Comment procéder ?
Répartitions expérimentales
On répartit les observations suivant k classes (si le caractère est continu) ou k valeurs (si le caractère est discret). On
dispose alors des effectifs des k classes : n1 , n2 , . . . , nk . On a bien sûr la relation
k
X
ni = N,
i=1
où N est le nombre total d’observations effectuées.
Remarque 2 Dans la pratique, on se placera dans le cas où N ≥ 50 et où chaque ni est supérieur ou égal à 5. Si cette condition
n’est pas satisfaite, il y a lieu de regrouper deux ou plusieurs classes adjacentes. Il arrive fréquemment que ce regroupement
s’effectue sur les classes aux extrémités de la distribution. k représente donc le nombre de classes après regroupement.
L2 Mathématiques et Informatique 2009-2010
2
FST - Université Paul Cézanne
MA401 : Probabilités
Répartitions théoriques
En admettant comme plausible une distribution théorique particulière, on peut construire une répartition idéale des observations de l’échantillon de taille N en ayant recours aux probabilités tabulées (ou calculées) du modèle théorique : p1 ,
p2 , . . . , pk . On obtient alors les effectifs théoriques nt,i en écrivant nt,i = N pi . On dispose automatiquement de la relation
k
X
nt,i = N .
i=1
Définition de l’écart entre les deux distributions
Pour évaluer l’écart entre les effectifs observés ni et les effectifs théoriques nt,i , on utilise la somme des écarts normalisés
entre les deux distributions, à savoir
χ2 =
(n2 − nt,2 )2
(nk − nt,k )2
(n1 − nt,1 )2
+
+ ··· +
.
nt,1
nt,2
nt,k
Plus le nombre χ2 ainsi calculé est grand, plus la distribution étudiée différer de la distribution théorique.
Quelques considérations théoriques à propos de cet écart
Le nombre d’observations ni parmi l’échantillon de taille N susceptible d’appartenir à la classe i est la réalisation d’une
variable binomiale Ni de paramètres N et pi (chacune des N observations appartient ou n’appartient pas à la classe i avec une
probabilité pi ). Si N est suffisamment grand (on se place dans le cas d’échantillons de taille 50 minimum) et pi pas trop petit
(on a effectué des regroupementspde classes pour qu’il en soit ainsi), on peut approcher la loi binomiale par la loi normale,
pi
suit la loi
c’est-à-dire B(N, pi ) par N (N pi , N pi (1 − pi )). Pour simplifier, on approxime N pi (1 − pi ) par N pi . Donc NiN−N
pi
N (0, 1). Lorsqu’on élève au carré toutes ces quantités et qu’on en fait la somme, on obtient une somme de k lois normales
centrées réduites (presque) indépendantes.
Mais quel est le nombre de degrés de liberté de cette variable du khi-deux ?
Il y a k carrés, donc à priori k degrés de liberté. Mais on perd toujours un degré de liberté car on a fixé l’effectif total de
l’échantillon,
k
X
Ni = N.
i=1
On peut perdre d’autres degrés de liberté si certains paramètres de la loi théorique doivent être estimés à partir de
l’échantillon.
1. Si la distribution théorique est entièrement spécifiée, c’est-à-dire si on cherche à déterminer si la distribution observée
suit une loi dont les paramètres sont connus avant même de choisir l’échantillon, on a k − 1 degrés de liberté (k carrés
indépendants moins une relation entre les variables).
2. S’il faut d’abord estimer r paramètres de la loi à partir des observations de l’échantillon (par exemple on cherche si la
distribution est normale mais on ne connaı̂t d’avance ni sa moyenne ni son écart-type), il n’y a plus que k − 1 − r degrés
de liberté.
Dans le cas général, on dira que la loi du khi-deux suivie par l’écart entre les deux distributions a k − 1 − r degrés de liberté
lorsqu’on a estimé r paramètres de la loi théorique à partir des observations de l’échantillon (avec la possibilité pour r de
valoir 0).
2.2
Le test d’ajustement de Pearson
Il nous faut maintenant décider, à l’aide de cet indicateur qu’est le χ2 , si les écarts entre les effectifs théoriques et ceux qui
résultent des observations sont significatifs d’une différence de distribution ou si ils sont dus aux fluctuations d’échantillonnage.
Nous procéderons comme d’habitude en quatre étapes.
1ère étape : Formulation des hypothèses.
On va donc tester l’hypothèse H0 (appelée hypothèse nulle) contre l’hypothèse H1 (hypothèse alternative) :
(
H0 Les observations suivent la distribution théorique spécifiée,
H1 Les observations ne suivent pas la distribution théorique spécifiée.
2ème étape : Détermination de la fonction discriminante du test et de sa distribution de probabilité.
On utilise la variable aléatoire
χ2 =
(N1 − nt,1 )2
(N2 − nt,2 )2
(Nk − nt,k )2
+
+ ··· +
.
nt,1
nt,2
nt,k
3ème étape : Détermination des valeurs critiques de χ2 délimitant les zones d’acceptation et de rejet.
On impose à la zone d’acceptation de H0 concernant la valeur du χ2 d’être un intervalle dont 0 est la borne inférieure (car
un χ2 est toujours positif).
L2 Mathématiques et Informatique 2009-2010
3
FST - Université Paul Cézanne
MA401 : Probabilités
P(# 2 > # 2!,")= !
1!!
# 2!,"
Il nous faut donc déterminer dans la table la valeur maximale χ2α,ν de l’écart entre les deux distributions imputable aux
variations d’échantillonnage au seuil de signification α, c’est-à-dire vérifiant P (χ2 > χ2α,ν ) = α. χ2α,ν représente donc la valeur
critique pour un test sur la concordance entre deux distributions et le test sera toujours unilatéral à droite.
4ème étape : Calcul de la valeur de χ2 prise dans l’échantillon et conclusion du test.
On calcule la valeur χ20 prise par χ2 dans l’échantillon.
– Si la valeur χ20 se trouve dans la zone de rejet, on dira que l’écart observé entre les deux distributions est statistiquement
significatif au seuil α. Cet écart est anormalement élevé et ne permet pas d’accepter H0 . On rejette H0 .
– Si la valeur χ20 se trouve dans la zone d’acceptation, on dira que l’écart-réduit observé n’est pas significatif au seuil α.
Cet écart est imputable aux fluctuations d’échantillonnage. On accepte H0 .
L2 Mathématiques et Informatique 2009-2010
4
FST - Université Paul Cézanne
MA401 : Probabilités
3
Table de Pearson
LOI DE PEARSON
P(# 2 > # 2!,")= !
1!!
# 2!,"
La table donne
ν\α
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
0.99
0.000
0.020
0.115
0.297
0.554
0.872
1.239
1.646
2.088
2.558
3.053
3.571
4.107
4.660
5.229
5.812
6.408
7.015
7.633
8.260
8.897
9.542
10.196
10.856
11.524
12.198
12.879
13.565
14.256
14.953
0.98
0.001
0.040
0.185
0.429
0.752
1.134
1.564
2.032
2.532
3.059
3.609
4.178
4.765
5.368
5.985
6.614
7.255
7.906
8.567
9.237
9.915
10.600
11.293
11.992
12.697
13.409
14.125
14.847
15.574
16.306
0.95
0.004
0.103
0.352
0.711
1.145
1.635
2.167
2.733
3.325
3.940
4.575
5.226
5.892
6.571
7.261
7.962
8.672
9.390
10.117
10.851
11.591
12.338
13.091
13.848
14.611
15.379
16.151
16.928
17.708
18.493
0.9
0.016
0.211
0.584
1.064
1.610
2.204
2.833
3.490
4.168
4.865
5.578
6.304
7.042
7.790
8.547
9.312
10.085
10.865
11.651
12.443
13.240
14.041
14.848
15.659
16.473
17.292
18.114
18.939
19.768
20.599
L2 Mathématiques et Informatique 2009-2010
χ2α,ν
0.8
0.064
0.446
1.005
1.649
2.343
3.070
3.822
4.594
5.380
6.179
6.989
7.807
8.634
9.467
10.307
11.152
12.002
12.857
13.716
14.578
15.445
16.314
17.187
18.062
18.940
19.820
20.703
21.588
22.475
23.364
tel que P (|χ2α,ν | > tα ) = α.
0.2
1.642
3.219
4.642
5.989
7.289
8.558
9.803
11.030
12.242
13.442
14.631
15.812
16.985
18.151
19.311
20.465
21.615
22.760
23.900
25.038
26.171
27.301
28.429
29.553
30.675
31.795
32.912
34.027
35.139
36.250
5
0.1
2.706
4.605
6.251
7.779
9.236
10.645
12.017
13.362
14.684
15.987
17.275
18.549
19.812
21.064
22.307
23.542
24.769
25.989
27.204
28.412
29.615
30.813
32.007
33.196
34.382
35.563
36.741
37.916
39.087
40.256
0.05
3.841
5.991
7.815
9.488
11.070
12.592
14.067
15.507
16.919
18.307
19.675
21.026
22.362
23.685
24.996
26.296
27.587
28.869
30.144
31.410
32.671
33.924
35.172
36.415
37.652
38.885
40.113
41.337
42.557
43.773
0.02
5.412
7.824
9.837
11.668
13.388
15.033
16.622
18.168
19.679
21.161
22.618
24.054
25.472
26.873
28.259
29.633
30.995
32.346
33.687
35.020
36.343
37.659
38.968
40.270
41.566
42.856
44.140
45.419
46.693
47.962
0.01
6.635
9.210
11.345
13.277
15.086
16.812
18.475
20.090
21.666
23.209
24.725
26.217
27.688
29.141
30.578
32.000
33.409
34.805
36.191
37.566
38.932
40.289
41.638
42.980
44.314
45.642
46.963
48.278
49.588
50.892
FST - Université Paul Cézanne
MA401 : Probabilités
4
Énoncé du TD8
Exercice 1 : En 2000, la répartition des PME (en pourcentage) des PME d’une région suivant six secteurs industriels
était la suivante :
Secteur
Pourcentage
A
33
B
22
C
17
D
14
E
10
F
4
On considère en 2009, un échantillon, de taille 200, de PME de la même région. On obtient la répartition suivante :
Secteur
Pourcentage
A
70
B
52
C
30
D
24
E
14
F
10
Peut-on considérer que, dans cette région, l’environnement industriel n’a pas changé depuis 2000 (au risque 0,05) ?
Exercice 2 : On a constaté sur les téléviseurs de type A que
– 30 % des pannes provenaient des tubes cathodiques,
– 55 % des pannes provenaient des composants électroniques,
– 15 % des pannes étaient dues à des problèmes divers.
Sur un échantillon de 200 téléviseurs de type B en panne, on a constaté 42 pannes dues au tube cathodique, 132 pannes dues
aux composantts éléctroniques et 26 pannes diverses.
Les pannes des deux types de téléviseurs diffèrent-elles significativement (au risque 0,05) ?
Exercice 3 : Dans une PME, durant les 60 derniers jours ouvrables, on a relevé chaque jour le nombre de salariés en
arrêt de travail, et consigné les résultats dans le tableau suivant :
xi
ni
0
9
1
9
2
8
3
11
4
8
5
6
6
5
7
3
8
0
9
,
1
où ni est le nombre de jours où l’on a observé xi arrêts de travail.
Tester l’hypothèse nulle H0 : ”le nombre d’arrêts de travail par jour suit une loi de Poisson” contre l’hypothèse alternative
H1 : ”le nombre d’arrêts de travail par jour ne suit pas une loi de Poisson”, au risque 0,05.
LOI DE POISSON
P (2 ≤ λ ≤ 6)
La table donne, pour k entier et λ réel, pk = P (X = k) et
pk = P (X ≤ k).
k
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
λ=2
pk
P
0.1353
0.2707
0.2707
0.1804
0.0902
0.0361
0.0120
0.0034
0.0009
0.0002
0
0
0
0
0
0
0
0
0
0.1353
0.4060
0.6767
0.8571
0.9473
0.9834
0.9955
0.9989
0.9998
1
1
1
1
0
0
0
0
0
0
pk
λ=3
pk
P
0.0498
0.1494
0.2240
0.2240
0.1680
0.1008
0.0504
0.0216
0.0081
0.0027
0.0008
0.0002
0.0001
0
0
0
0
0
0
0.0498
0.1991
0.4232
0.6472
0.8153
0.9161
0.9665
0.9881
0.9962
0.9989
0.9997
0.9999
1
1
1
0
0
0
0
L2 Mathématiques et Informatique 2009-2010
pk
λ=4
pk
P
0.0183
0.0733
0.1465
0.1954
0.1954
0.1563
0.1042
0.0595
0.0298
0.0132
0.0053
0.0019
0.0006
0.0002
0.0001
0
0
0
0
0.0183
0.0916
0.2381
0.4335
0.6288
0.7851
0.8893
0.9489
0.9786
0.9919
0.9972
0.9991
0.9997
0.9999
1
1
1
1
0
6
pk
λ=5
pk
P
0.0067
0.0337
0.0842
0.1404
0.1755
0.1755
0.1462
0.1044
0.0653
0.0363
0.0181
0.0082
0.0034
0.0013
0.0005
0.0002
0
0
0
0.0067
0.0404
0.1247
0.2650
0.4405
0.6160
0.7622
0.8666
0.9319
0.9682
0.9863
0.9945
0.9980
0.9993
0.9998
0.9999
1
1
1
pk
λ=6
pk
P
0.0025
0.0149
0.0446
0.0892
0.1339
0.1606
0.1606
0.1377
0.1033
0.0688
0.0413
0.0225
0.0113
0.0052
0.0022
0.0009
0.0003
0.0001
0
0.0025
0.0174
0.0620
0.1512
0.2851
0.4457
0.6063
0.7440
0.8472
0.9161
0.9574
0.9799
0.9912
0.9964
0.9986
0.9995
0.9998
0.9999
1
pk
FST - Université Paul Cézanne
MA401 : Probabilités
Correction exercice 1
On teste l’hypothèse nulle H0 : ”la répartition des PME n’a pas changé” contre l’hypothèse alternative H1 : ”la répartition
des PME a changé” au risque α = 0.05.
Secteur
A
B
C
D
E
F
Σ
On a χ2 =
pi
0.33
0.22
0.17
0.14
0.10
0.04
1.00
ni
70
52
30
24
14
10
200
nt,i = N pi
66
44
34
28
20
8
200
6
X
(ni − nt,i )2
nt,i
i=1
(ni − nt,i )2
16
64
16
16
36
4
(ni −nt,i )2
nt,i
0.242
1.454
0.471
0.571
1.80
0.50
5.03
≈ 5.03. Le nombre de degrés de liberté est ν = k − 1 − r. Ici, il y a k = 6 classes et r = 0
paramètre à estimer, donc ν = 5. À l’aide de la table de Pearson, on obtient χ20.05;5 = 11.070. On ne rejette donc pas l’hypothèse
H0 au risque 0.05.
Correction exercice 2
On teste l’hypothèse nulle H0 : ”la répartition des pannes des téléviseurs de type A est la même que celle des téléviseurs
TV de type B” contre l’hypothèse alternative H1 : ”la répartition des pannes des téléviseurs de type A est différente de celle
des téléviseurs TV de type B” au risque α = 0.05.
Tubes
Composants
Tubes
Σ
On a χ2 =
ni
42
132
26
200
pi
0.30
0.55
0.15
1.00
3
X
(ni − nt,i )2
nt,i
i=1
nt,i = N pi
60
110
30
200
(ni − nt,i )2
324
484
16
(ni −nt,i )2
nt,i
5.4
4.4
0.53
10.33
≈ 10.33. Le nombre de degrés de liberté est ν = k − 1 − r. Ici, il y a k = 3 classes et r = 0
paramètre à estimer, donc ν = 2. On travaille au risque α = 0.05. À l’aide de la table de Pearson, on obtient χ20.05;2 = 5.991.
On rejette donc l’hypothèse H0 au risque 0.05.
Correction exercice 3
Si le nombre d’arrêts de travail par jour suit une loi de Poisson, la moyenne arithmétique est une estimation ponctuelle
du paramètre
de la loi. Il faut calculer le nombre moyen d’arrêts de travail par jour. La moyenne arithmétique est égale à
P9
180
i=0 ni xi
x=
=
= 3.
N
60
Les pi associés à la loi de Poisson P(3) de paramètre λ = 3 sont consignés dans le tableau suivant :
xi ni xi ni
0
9
0
1
9
9
2
8
16
3 11
33
4
8
32
5
6
30
6
5
30
7
3
21
8
0
0
9
1
9
Remarques :
pi
0.0498
0.1494
0.2240
0.2240
0.1680
0.1008
0.0504
0.0216
0.0081
0.0039
nt,i = N pi
2.988
8.964
13.44
13.44
10.08
6.048
3.024
1.296
0.486
0.234
1. On assimile
P la dernière
P modalitré ”9” à la modalité ”9 et plus” donc la valeur pi calculée est P (X ≥ 9). Cela permet
d’avoir
pi = 1 et
N pi = 60.
2. Certains nt,i étant inférieurs à 5, on regroupe ces nt,i avec les classes voisines de façon à obtenir des valeurs nt,i supérieures
à 5. On regroupe également les ni correspondants. Le tableau ci-dessous ne contient plus que 6 lignes.
L2 Mathématiques et Informatique 2009-2010
7
FST - Université Paul Cézanne
MA401 : Probabilités
xi
0 ≤ x1 ≤ 1
2
3
4
5
6 ≤ x6 ≤ 9
On a χ2 =
ni
18
8
11
8
6
9
nt,i = N pi
11.952
13.44
13.44
10.08
6.06
5.04
6
X
(ni − nt,i )2
i=1
nt,i
(ni − nt,i )2
36.578
29.594
5.954
4.326
0.004
15.682
(ni −nt,i )2
nt,i
3.060
2.202
0.443
0.429
20.001
3.112
≈ 9.247. Le nombre de degrés de liberté est ν = k − 1 − r. Ici, il y a k = 6 classes et r = 1
paramètre à estimer, donc ν = 4. On travaille au risque α = 0.05. À l’aide de la table de Pearson, on obtient χ20.05;4 = 9.488.
On ne rejette donc pas l’hypothèse H0 au risque 0.05.
L2 Mathématiques et Informatique 2009-2010
8
FST - Université Paul Cézanne
Téléchargement