Autour du test du χ2
2 mai 2010
Table des mati`eres
1 Une distribution d´erivant du mod`ele gaussien : La distribution du χ2de Pearson 1
1.1 Formedeladistribution................................................. 1
1.2 Param`etresdescriptifs .................................................. 2
1.3 Somme de deux variables qui suivent une loi du χ2.................................. 2
1.4 Approximation par une loi normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.5 Utilisation de la table de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2 Test d’ajustement de deux distributions : “test du χ2” 2
2.1 Introduction........................................................ 2
2.2 Le test d’ajustement de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
3 Table de Pearson 5
4´
Enonc´e du TD8 6
1 Une distribution d´erivant du mod`ele gaussien : La distribution du χ2de
Pearson
Elle a ´et´e d´ecouverte en 1905 par le math´ematicien britannique Karl Pearson (1857-1936) qui travailla ´egalement sur les
probl`emes de r´egression avec le g´en´eticien Sir Francis Galton. Cette distribution (qui se prononce khi-deux) est tr`es importante
pour tester l’ajustement d’une loi th´eorique `a une distribution exp´erimentale (test du χ2) et pour d´eterminer la loi de la variance
d’un ´echantillon.
efinition 1 Si X1, X2, . . . , Xnsont nvariables al´eatoires ind´ependantes qui suivent toute la loi normale centr´ee r´eduite,
alors la quantit´e X=X2
1+X2
2+··· +X2
nest une variable al´eatoire distribu´ee selon la loi du χ2`a ndegr´es de libert´e. On
note X * χ2
n.
La notion de «degr´es de libert´e »n’est pas pr´ecis´ee pour l’instant. Pour le moment, il importe simplement de connaˆıtre
la d´efinition et de savoir lire la table correspondante.
1.1 Forme de la distribution
L’expression de la densit´e de probabilit´e ´etant tr`es compliqu´ee et d’aucun int´erˆet pour nous, nous ne la donnons pas ici.
La distribution du χ2est continue `a valeurs positives et pr´esente un ´etalement sur le cˆot´e sup´erieur. Elle ne d´epend que
du nombre de degr´es de libert´e n.
Ci-dessous, densit´e de χ2
npour n= 1,...,6.
stats::chisquarePDF(1)(x)
stats::chisquarePDF(2)(x)
stats::chisquarePDF(3)(x)
stats::chisquarePDF(4)(x)
stats::chisquarePDF(5)(x)
stats::chisquarePDF(6)(x)
0 1 2 3 4 5 6 7 8 9 10 11 12
0.0
0.1
0.2
0.3
0.4
0.5
0.6
x
y
1
MA401 : Probabilit´es
1.2 Param`etres descriptifs
E(X) = n , V(X) = 2n.
1.3 Somme de deux variables qui suivent une loi du χ2
Si X1* χ2
n1et X2* χ2
n2sont ind´ependantes, alors X1+X2* χ2
n1+n2.
1.4 Approximation par une loi normale
A mesure que naugmente, la loi du χ2tend vers la loi normale, comme on peut le constater sur le graphique ci-dessous.
stats::chisquarePDF(4)(x)
stats::chisquarePDF(5)(x)
stats::chisquarePDF(8)(x)
stats::chisquarePDF(12)(x)
stats::chisquarePDF(18)(x)
stats::chisquarePDF(30)(x)
0 10 20 30 40 50
0.00
0.05
0.10
0.15
0.20
x
y
Densit´e de χ2
npour n= 4, 5, 8, 12, 18, 30.
En pratique, on peut consid´erer que pour n30, on peut remplacer la loi du χ2`a ndegr´es de libert´e par la loi normale
N(n, 2n).
1.5 Utilisation de la table de Pearson
Pour des raisons de commodit´e, au lieu de donner la table des fonctions de r´epartition des variables al´eatoires χ2
npour
les diff´erentes valeurs de n, on donne, en fonction de n(nombre de degr´es de libert´e) et d’une probabilit´e αque l’on peut
choisir, la valeur χ2
α,n d´efinie par P(χ2> χ2
α,n) = α.αest un seuil et a en fait une signification particuli`ere dans les probl`emes
d’estimation et de tests. Il sera d´efini ult´erieurement.
2 Test d’ajustement de deux distributions : “test du χ2
2.1 Introduction
Un outil statistique qui permet de v´erifier la concordance entre une distribution exp´erimentale et une distribution th´eorique
est le test de Pearson, appel´e aussi le test du khi-deux.
On cherche donc `a d´eterminer si un mod`ele th´eorique est susceptible de repr´esenter ad´equatement le comportement
probabiliste de la variable observ´ee, comportement fond´e sur les fr´equences des r´esultats obtenus sur l’´echantillon.
Comment proc´eder ?
epartitions exp´erimentales
On r´epartit les observations suivant kclasses (si le caract`ere est continu) ou kvaleurs (si le caract`ere est discret). On
dispose alors des effectifs des kclasses : n1,n2, . . . , nk. On a bien sˆur la relation
k
X
i=1
ni=N,
o`u Nest le nombre total d’observations effectu´ees.
Remarque 2 Dans la pratique, on se placera dans le cas o`u N50 et o`u chaque niest sup´erieur ou ´egal `a 5. Si cette condition
n’est pas satisfaite, il y a lieu de regrouper deux ou plusieurs classes adjacentes. Il arrive fr´equemment que ce regroupement
s’effectue sur les classes aux extr´emit´es de la distribution. krepr´esente donc le nombre de classes apr`es regroupement.
L2 Math´ematiques et Informatique 2009-2010 2 FST - Universit´e Paul C´ezanne
MA401 : Probabilit´es
epartitions th´eoriques
En admettant comme plausible une distribution th´eorique particuli`ere, on peut construire une r´epartition id´eale des ob-
servations de l’´echantillon de taille Nen ayant recours aux probabilit´es tabul´ees (ou calcul´ees) du mod`ele th´eorique : p1,
p2, . . . , pk. On obtient alors les effectifs th´eoriques nt,i en ´ecrivant nt,i =N pi. On dispose automatiquement de la relation
k
X
i=1
nt,i =N.
efinition de l’´ecart entre les deux distributions
Pour ´evaluer l’´ecart entre les effectifs observ´es niet les effectifs th´eoriques nt,i, on utilise la somme des ´ecarts normalis´es
entre les deux distributions, `a savoir
χ2=(n1nt,1)2
nt,1
+(n2nt,2)2
nt,2
+··· +(nknt,k)2
nt,k
.
Plus le nombre χ2ainsi calcul´e est grand, plus la distribution ´etudi´ee diff´erer de la distribution th´eorique.
Quelques consid´erations th´eoriques `a propos de cet ´ecart
Le nombre d’observations niparmi l’´echantillon de taille Nsusceptible d’appartenir `a la classe iest la r´ealisation d’une
variable binomiale Nide param`etres Net pi(chacune des Nobservations appartient ou n’appartient pas `a la classe iavec une
probabilit´e pi). Si Nest suffisamment grand (on se place dans le cas d’´echantillons de taille 50 minimum) et pipas trop petit
(on a effectu´e des regroupements de classes pour qu’il en soit ainsi), on peut approcher la loi binomiale par la loi normale,
c’est-`a-dire B(N, pi) par N(Npi,pNpi(1 pi)). Pour simplifier, on approxime Npi(1 pi) par Npi. Donc NiN pi
Npisuit la loi
N(0,1). Lorsqu’on ´el`eve au carr´e toutes ces quantit´es et qu’on en fait la somme, on obtient une somme de klois normales
centr´ees r´eduites (presque) ind´ependantes.
Mais quel est le nombre de degr´es de libert´e de cette variable du khi-deux ?
Il y a kcarr´es, donc `a priori kdegr´es de libert´e. Mais on perd toujours un degr´e de libert´e car on a fix´e l’effectif total de
l’´echantillon,
k
X
i=1
Ni=N.
On peut perdre d’autres degr´es de libert´e si certains param`etres de la loi th´eorique doivent ˆetre estim´es `a partir de
l’´echantillon.
1. Si la distribution th´eorique est enti`erement sp´ecifi´ee, c’est-`a-dire si on cherche `a d´eterminer si la distribution observ´ee
suit une loi dont les param`etres sont connus avant mˆeme de choisir l’´echantillon, on a k1 degr´es de libert´e (kcarr´es
ind´ependants moins une relation entre les variables).
2. S’il faut d’abord estimer rparam`etres de la loi `a partir des observations de l’´echantillon (par exemple on cherche si la
distribution est normale mais on ne connaˆıt d’avance ni sa moyenne ni son ´ecart-type), il n’y a plus que k1rdegr´es
de libert´e.
Dans le cas g´en´eral, on dira que la loi du khi-deux suivie par l’´ecart entre les deux distributions a k1rdegr´es de libert´e
lorsqu’on a estim´e rparam`etres de la loi th´eorique `a partir des observations de l’´echantillon (avec la possibilit´e pour rde
valoir 0).
2.2 Le test d’ajustement de Pearson
Il nous faut maintenant d´ecider, `a l’aide de cet indicateur qu’est le χ2, si les ´ecarts entre les effectifs th´eoriques et ceux qui
r´esultent des observations sont significatifs d’une diff´erence de distribution ou si ils sont dus aux fluctuations d’´echantillonnage.
Nous proc´ederons comme d’habitude en quatre ´etapes.
1`ere ´etape : Formulation des hypoth`eses.
On va donc tester l’hypoth`ese H0(appel´ee hypoth`ese nulle) contre l’hypoth`ese H1(hypoth`ese alternative) :
(H0Les observations suivent la distribution th´eorique sp´ecifi´ee,
H1Les observations ne suivent pas la distribution th´eorique sp´ecifi´ee.
2`eme ´etape : etermination de la fonction discriminante du test et de sa distribution de probabilit´e.
On utilise la variable al´eatoire
χ2=(N1nt,1)2
nt,1
+(N2nt,2)2
nt,2
+··· +(Nknt,k)2
nt,k
.
3`eme ´etape : etermination des valeurs critiques de χ2elimitant les zones d’acceptation et de rejet.
On impose `a la zone d’acceptation de H0concernant la valeur du χ2d’ˆetre un intervalle dont 0 est la borne inf´erieure (car
un χ2est toujours positif).
L2 Math´ematiques et Informatique 2009-2010 3 FST - Universit´e Paul C´ezanne
MA401 : Probabilit´es
!
2
!,"
#2
!,"
#2
P( > )= !
1!
#
Il nous faut donc d´eterminer dans la table la valeur maximale χ2
α,ν de l’´ecart entre les deux distributions imputable aux
variations d’´echantillonnage au seuil de signification α, c’est-`a-dire v´erifiant P(χ2> χ2
α,ν ) = α.χ2
α,ν repr´esente donc la valeur
critique pour un test sur la concordance entre deux distributions et le test sera toujours unilat´eral `a droite.
4`eme ´etape : Calcul de la valeur de χ2prise dans l’´echantillon et conclusion du test.
On calcule la valeur χ2
0prise par χ2dans l’´echantillon.
Si la valeur χ2
0se trouve dans la zone de rejet, on dira que l’´ecart observ´e entre les deux distributions est statistiquement
significatif au seuil α. Cet ´ecart est anormalement ´elev´e et ne permet pas d’accepter H0. On rejette H0.
Si la valeur χ2
0se trouve dans la zone d’acceptation, on dira que l’´ecart-r´eduit observ´e n’est pas significatif au seuil α.
Cet ´ecart est imputable aux fluctuations d’´echantillonnage. On accepte H0.
L2 Math´ematiques et Informatique 2009-2010 4 FST - Universit´e Paul C´ezanne
MA401 : Probabilit´es
3 Table de Pearson
LOI DE PEARSON
!
2
!,"
#2
!,"
#2
P( > )= !
1!
#
La table donne χ2
α,ν tel que P(|χ2
α,ν |> tα) = α.
ν\α0.99 0.98 0.95 0.9 0.8 0.2 0.1 0.05 0.02 0.01
1 0.000 0.001 0.004 0.016 0.064 1.642 2.706 3.841 5.412 6.635
2 0.020 0.040 0.103 0.211 0.446 3.219 4.605 5.991 7.824 9.210
3 0.115 0.185 0.352 0.584 1.005 4.642 6.251 7.815 9.837 11.345
4 0.297 0.429 0.711 1.064 1.649 5.989 7.779 9.488 11.668 13.277
5 0.554 0.752 1.145 1.610 2.343 7.289 9.236 11.070 13.388 15.086
6 0.872 1.134 1.635 2.204 3.070 8.558 10.645 12.592 15.033 16.812
7 1.239 1.564 2.167 2.833 3.822 9.803 12.017 14.067 16.622 18.475
8 1.646 2.032 2.733 3.490 4.594 11.030 13.362 15.507 18.168 20.090
9 2.088 2.532 3.325 4.168 5.380 12.242 14.684 16.919 19.679 21.666
10 2.558 3.059 3.940 4.865 6.179 13.442 15.987 18.307 21.161 23.209
11 3.053 3.609 4.575 5.578 6.989 14.631 17.275 19.675 22.618 24.725
12 3.571 4.178 5.226 6.304 7.807 15.812 18.549 21.026 24.054 26.217
13 4.107 4.765 5.892 7.042 8.634 16.985 19.812 22.362 25.472 27.688
14 4.660 5.368 6.571 7.790 9.467 18.151 21.064 23.685 26.873 29.141
15 5.229 5.985 7.261 8.547 10.307 19.311 22.307 24.996 28.259 30.578
16 5.812 6.614 7.962 9.312 11.152 20.465 23.542 26.296 29.633 32.000
17 6.408 7.255 8.672 10.085 12.002 21.615 24.769 27.587 30.995 33.409
18 7.015 7.906 9.390 10.865 12.857 22.760 25.989 28.869 32.346 34.805
19 7.633 8.567 10.117 11.651 13.716 23.900 27.204 30.144 33.687 36.191
20 8.260 9.237 10.851 12.443 14.578 25.038 28.412 31.410 35.020 37.566
21 8.897 9.915 11.591 13.240 15.445 26.171 29.615 32.671 36.343 38.932
22 9.542 10.600 12.338 14.041 16.314 27.301 30.813 33.924 37.659 40.289
23 10.196 11.293 13.091 14.848 17.187 28.429 32.007 35.172 38.968 41.638
24 10.856 11.992 13.848 15.659 18.062 29.553 33.196 36.415 40.270 42.980
25 11.524 12.697 14.611 16.473 18.940 30.675 34.382 37.652 41.566 44.314
26 12.198 13.409 15.379 17.292 19.820 31.795 35.563 38.885 42.856 45.642
27 12.879 14.125 16.151 18.114 20.703 32.912 36.741 40.113 44.140 46.963
28 13.565 14.847 16.928 18.939 21.588 34.027 37.916 41.337 45.419 48.278
29 14.256 15.574 17.708 19.768 22.475 35.139 39.087 42.557 46.693 49.588
30 14.953 16.306 18.493 20.599 23.364 36.250 40.256 43.773 47.962 50.892
L2 Math´ematiques et Informatique 2009-2010 5 FST - Universit´e Paul C´ezanne
1 / 8 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !