Tests du khi-deux - UHA

publicité
Tests du khi-deux
Table des matières
A La loi multinomiale
1
B Le test du khi-deux d’ajustement
4
C Le test du khi-deux d’indépendance
7
D Test du khi-deux d’homogénéité
9
E Adéquation de donnée à une loi équirépartie
A
10
La loi multinomiale
Rappel 1 (Formule du multinôme)
Soient k ∈ N∗ , a1 , ..., ak des éléments de C et n ∈ N∗ . Si l’on pose
Dnk
k
= {(n1 , ..., nk ) ∈ N :
k
X
ni = n},
i=1
on a l’égalité
(a1 + ... + ak )n =
X
(n1 ,...,nk )∈Dnk
n!
an1 1 an2 2 ...ank k .
n1 !n2 !...nk !
Définition 2
P
Soient k, n ∈ N∗ et p1 , ..., pk des éléments de l’intervalle ]0, 1[ vérifiant ki=1 pi = 1.
La loi multinomiale M = M(n, p1 , ..., pk ) sur Dnk , de densité associée m, est définie par
∀(n1 , ..., nk ) ∈ Dnk
m(n1 , ..., nk ) =
n!
pn1 1 pn2 2 ...pnk k .
n1 !n2 !...nk !
Propriété 3
a) E(M) = (np1 , ..., npk )
n
b) Γn = Γ(M) = (γi,j
) désigne la matrice de covariance de M, on a les égalités :
n
γi,i
= npi (1 − pi ) et si i 6= j
1
n
γi,j
= −npi pj
c) Si πi désigne l’application de Dnk dans [0..n] définie par πi (n1 , ..., nk ) = ni , la mesure
image de M(n, p1 , ..., pk ) par πi est la loi binomiale B(n, pi ). En effet avec l’interprétation
ci-dessous cette mesure image est la loi de la variable Nin .
Modèle probabiliste
Soit (Xn )n≥1 une suite indépendante de variables aléatoires définies sur un espace
probabilisé (Ω, F, P ) et à valeurs dans un ensemble E = {a1 , a2 , ..., ak } de cardinal k. On
suppose que les variables ont toutes la même loi donnée par :
∀i ∈ [1..k]
P (X1 = ai ) = pi .
Si l’on définit des variables aléatoires N1n , ..., Nkn par
∀i ∈ [1..k] ∀ω ∈ Ω
Nin (ω)
= card{j ∈ [1..n] : Xj (ω) = ai } =
n
X
1{ai } ◦ Xj (ω),
j=1
alors la variable N n = (N1n , ..., Nkn ) est à valeurs dans Dnk et sa loi est M(n, p1 , ..., pk ).
Rappel 4 (Loi du khi-deux)
Pour tout entier k ≥ 1 la loi du khi-deux à k degrés de liberté, notée χ2k , est la loi d’une
somme X12 + ... + Xk2 , où les variable X1 , ..., Xk sont indépendantes et de loi N (0, 1).
Théorème 5P
n [N n − np ]2
i
i
La suite
converge en loi vers une loi du khi-deux à k − 1 degrés de liberté.
npi
i=1
Preuve
Posons pour tout entier n ≥ 1 Yn = (1{a1 } ◦ Xn , ..., 1{ak } ◦ Xn )t . La suite (Yn )n≥1 est
indépendante, les variables Yn ayant toutes la même loi et étant de carré intégrable. Posons
Π = EY1 = (p1 , ..., pk )t ∈ Mk,1 (R)
et
Γ = Γ(Y1 ) = (γij ) ∈ Mk,k (R),
où γi,i = pi (1 − pi ) et si i 6= j γi,j = −pi pj .
√
Le théorème limite central implique que la suite Zn = (Yi − nΠ)/ n converge en loi vers
une loi normale N (0, Γ).
n
P
Soit f l’application de Mk,1 (R) dans [0, +∞[ qui à (x1 , ..., xk )t associe
x2i /pi . Comme
i=1
Yi − EYi = (1{a1 } ◦ Xi − p1 , ..., 1{a} ◦ Xi − pk )t ,
2
on a
n
X
Yi − nΠ =
i=1
n
X
(Yi − EYi )
i=1
n
X
=(
=
i=1
(N1n
[1{a1 } ◦ Xi − p1 ], ...,
n
X
[1{ak } ◦ Xi − pk ])t
i=1
−
np1 , ..., Nkn
− npk ),
n [N n − np ]2
P
i
i
.
si bien que f (Zn ) =
npi
i=1
L’application f étant continue, la suite f (Zn ) converge en loi vers la loi d’une d’une variable
de la forme f (U ), où U = (U1 , ..., Uk )t a pour loi N (0, Γ).
√
Soit V = (Vi , ..., Vk )t , où Vi = Ui / pi . Avec ces notations
f (U ) =
n
X
Ui2 /pi
i=1
=
n
X
Vi2 .
i=1
Posons ∆ = diag(p1 , ..., pk ) ; on vérifie que Γ(U ) = Γ = ∆ − ΠΠt = (γij ). Comme
cov(Vi , Vj ) = √
1
1
cov(Ui , Uj ) = √
γij ,
pi p j
pi pj
on voit que Γ(V ) = Ik − M M t , où Ik désigne la matrice unité d’ordre k et M le vecteur
√
√
√
Π = ( p1 , ..., pk )t .
k
P
Puisque kM k = p1 = 1, il existe une matrice orthogonale A telle que
i=1
AM = (0, ..., 0, 1)t = u ∈ Mk,1 (R).
On remarque que uut = diag(0, ..., 0, 1).
La loi du vecteur AV est une loi normale centrée de covariance
Γ(AV ) = AΓ(V )At
= A(Ik − M M t )At
= AAt − AM M t At
= Ik − (AM )(AM )t
= Ik − uut
= Ik − diag(0, ..., 0, 1)
= diag(1, 1, ..., 1, 0).
On constate que la loi de AV est celle d’un vecteur W = (W1 , ..., Wk−1 , 0)t , où (W1 , ..., Wk−1 )
est un échantillon de taille k − 1 de la loi N (0, 1).
3
Finalement les égalités
k
X
Vj2 = kV k2 = kAV k2 = (AV )t (AV ),
j=1
jointes au fait que AV a même loi que W , montrent que f (U ) =
k
P
Vi2 possède la même loi
j=1
que W t W =
k−1
P
Wj2 , cette loi étant la loi du khi-deux à k − 1 degrés de liberté.
j=1
B
Le test du khi-deux d’ajustement
Un certain phénomène peut prendre N valeurs a1 , ..., aN selon une loi inconnue. La
probabilité d’apparition de ai vaut πi , i ∈ [1..N ]. On pose E = {a1 , a2 , ..., aN }, et on appelle
P la probabilité définie sur E par P ({ai }) = πi .
On cherche à savoir si cette probabilité inconnue P est égale ou différente d’une probabilité P0 connue, P0 étant définie sur E par P0 ({ai }) = pi , i ∈ [1..N ] ; on supposera que
pour tout i dans [1..N ] pi 6= 0.
Cela revient à tester l’hypothèse H0 : P = P0 contre l’hypothèse H1 : P 6= P0 .
Définissons des applications Ni de E n dans [0..n], i ∈ [1..N ], par
∀(e1 , ...en ) ∈ E
n
Ni (e1 , ..., en ) =
n
X
1{ai } (ek ) = card{k ∈ [1..n] : ek = ai }.
k=1
On réalise n mesures indépendantes x1 , ..., xn , puis on pose pour tout i ∈ [1..N ]
ni = Ni (x1 , ..., xn ) =
n
X
1{ai } (xk ) = nombre de fois où l’on a observé ai .
k=1
Si l’hypothèse H0 est vérifiée, on a pour tout i ∈ [1..N ] πi = pi ; les fréquences observées
fi = nni sont alors proches des pi , donc les effectifs observés ni sont proches des npi .
Modèle probabiliste
Les mesures x1 , ..., xn sont modélisées par un échantillon de taille n de variables aléatoires (X1 , ..., Xn ) définies sur un espace probabilisé (Ω, F, P ) et à valeurs dans l’ensemble
E = {a1 , a2 , ..., aN }, ayant sous H0 la loi P0 , définie par ∀i ∈ [1..N ]
P (X1 = ai ) = pi .
Statistique de test
La partie A suggère de prendre pour statistique de test l’application
n
d : E → R+ ,
(e1 , ..., en ) → d(e1 , ..., en ) =
N
X
[Ni (e1 , ..., en ) − npi ]2
i=1
4
npi
.
Définition 6
Les produits npi , i ∈ [1..N ], sont appelés les effectifs attendus sous l’hypothèse H0 .
Définition 7
On appelle distance (du khi-deux) entre effectifs observés et effectifs attendus le réel
d(x1 , ..., xn ) =
N
X
(ni − npi )2
i=1
npi
,
avec ni = Ni (x1 , ..., xn ). Si l’hypothèse H0 est vérifiée d(x1 , ..., xn ) tend à être petite ; on aura
donc tendance à rejeter H0 quand d(x1 , ..., xn ) est grande. Autrement dit la région de rejet a
priori pour la statistique d est de la forme [c, +∞[.
Mise en œuvre du test
1. Calculer d(x1 , ..., xn ).
2. La région de rejet a posteriori est [d(x1 , ..., xn ), +∞[.
3. La p-valeur vaut
PH0 (d(X, ..., Xn ) ∈ [d(x1 , ..., xn ), +∞[) = PH0 (d(X1 , ..., Xn ) ≥ d(x1 , ..., xn ))
4. Pour n assez grand, du fait de la convergence en probabilité de la variable
d(X1 , ..., Xn ) =
N
X
[Ni (X1 , ..., Xn ) − npi ]2
i=1
npi
vers une loi de khi-deux à N − 1 degrés de liberté, on a approximativement
PH0 (d(X1 , ..., Xn ) ≥ d(x1 , ..., xn )) ' χ2N −1 ([d(x1 , ..., xn ), +∞[).
La p-valeur sera en conséquence prise égale à γ = χ2N −1 ([d(x1 , ..., xn ), +∞[).
Remarque 8
Si l’on s’est fixé a priori un niveau α ∈]0, 1[, on rejette H0 au niveau α si α > γ, on ne
rejette pas H0 au niveau α si α ≤ γ.
Condition d’applicabilité
Le test ne s’applique que si n ≥ 30 et si pour tout i ∈ [1..N ] npi ≥ 5. Si ce n’est pas
le cas, il faut regrouper des classes.
Remarque 9
Si le calcul des effectifs attendus nécessite de déterminer k paramètres de la population,
on utilise un loi du khi-deux à N − 1 − k degrés de liberté.
5
Remarque 10
Si l’on note nai le iime effectif attendu npi , la distance d(x1 , ..., xn ) peut s’écrire
d(x1 , ..., xn ) =
N
X
n2
i
a
n
i=1 i
− N.
Réalisation avec R
Si p0 = (p1 , ..., pN ) désigne la probabilité correspondant à H0 , a = np0 = (na1 , ..., naN ) le
vecteur des effectifs attendus et o = (n1 , ..., nN ) celui des effectifs observés, chisq.test(o, p = ρ)
ou chisq.test(o, p = a, rescale.p = T RU E) renvoie la distance de khi-deux, le nombre de
degré de liberté et la p-valeur.
Exemple 11
On a effectué 200 mesures indépendantes d’un phénomène prenant les valeurs 0, 1 ,2 ,3
et 4. Les résultats sont consignés dans la deuxième ligne du tableau ci-dessous.
Effectifs observés
Loi B(a ; 0, 55)
0
1
2
3
4
5
40
65
80
10
0, 041 0, 200 0, 367 0, 299 0, 091
Effectifs attendus sous B(a ; 0, 55)
8, 20
Loi B(a ; 0, 5625)
40, 09 73, 51 59, 89 18, 30
0, 037 0, 188 0, 363 0, 311 0, 100
Effectifs attendus sous B(a ; 0, 5625)
7, 33
37, 68 72, 67 62, 29 20, 02
Première question : le phénomène obéit-il à la loi B(a ; 0, 55) ?
La distance calculée à partir des effectifs observés et des effectifs attendus sous B(a ; 0, 55)
vaut
2
(40−40,09)2
(65−73,51)2
(80−59,89)2
(10−18,30)2
da = (5−8,20)
+
+
+
+
' 12, 75.
8,20
8,20
73,51
59,85
18,30
On s’assure que les conditions d’applicabilité sont vérifiées.
Puisque N = 5, on détermine la p-valeur à l’aide de la loi du khi-deux à 5 − 1 = 4 degrés
de liberté. La p-valeur est proche de χ24 ([12.75, +∞[) ' 0.0126 = γ. Comme 0, 01 < γ on
ne rejetterait pas H0 au niveau 0, 01 ; par contre on rejetterait H0 au niveau 0, 025 puisque
γ < 0, 025.
Deuxième question : le phénomène obéit-il à un loi binomiale ?
Cette loi binomiale est nécessairement de la forme B(4, p), où p est un réel de [0, 1] à
déterminer. Pour estimer p on remarque que la moyenne d’une loi B(4, p) est 4p. La moyenne
1
450
calculée à partir des 200 mesures vaut 200
(5×0+40×1+65×2+80×3+10×4 = 200
= 2, 25.
On estime p en égalant ces deux moyennes : 4p = 2, 25, ce qui donne p = 0, 5625.
6
La distance calculée à partir des effectifs observés et des effectifs attendus sous B(a ; 0, 5625)
vaut 11, 74.
Comme on estimé un paramètre, la p-valeur se détermine à l’aide da la loi du khi-deux à
5 − 1 − 1 = 3 degrés de liberté. La p-valeur est proche de χ23 ([11, 74, +∞[) ' 0.0083 = γ.
Puisque γ < 0, 01 on rejette H0 au niveau 0,01, et a fortiori au niveau 0, 025.
C
Le test du khi-deux d’indépendance
Introduction 12
Le tableau ci dessous croise deux caractères A et B, possédant chacun trois modalités,
respectivement A1 , A2 , A3 et B1 , B2 , B3 .
B
B1
B2
B3 n1•
A
A1
n11 n12 n13 n1•
A2
n21 n22 n23 n2•
A3
n31 n32 n33 n3•
n•j
n•1 n•2 n•3
N
n11
La fréquence de la modalité A1 dans la population est f1• =
et la fréquence de la
N
modalité A1 dans la modalité B1 est
n11
n11 N
f11
=
=
.
n•1
N n•1
f•1
En conséquence la modalité A1 est sous-représenté (resp. sur-représenté) dans la modalité B1
si
f11
< f1• ⇐⇒ f11 < f1• × f•1
f•1
(resp. si f11 > f1• × f•1 ).
Définition 13
Soit T un tableau de contingence de dimension n × p, croisant deux caractères A et B,
n
d’effectifs nij et de fréquence nij = Nij , N désignant l’effectif total.
1. On dit que les caractères A et B sont indépendants si
∀i ∈ [1..n] ∀j ∈ [1..p] fij = fi• × f•j .
7
2. On appelle tableau de contingence théorique associé au tableau T le tableau T de dimension n × p de fréquences fi• × f•j , donc de fréquences marginales fi• et f•j .
3. Si A1 , ..., An désignent les modalités de A et B1 , ..., Bp celles de B, on dit que la modalité
Ai est sous-représenté (resp. sur-représenté) dans la modalité Bj si fij < fi• × f•j (resp.
si f11 > f1• × f•1 ).
Par symétrie la modalité Ai est sous-représenté (resp. sur-représenté) dans la modalité Bj
si et seulement si la modalité Bj est sur-représenté (resp. sous-représenté) dans la modalité
Ai .
Test d’indépendance
On a observé dans un échantillon de taille n d’une population deux caractères X et
Y , quantitatifs ou qualitatifs. Les p modalités du caractère X sont notées x1 , ..., xp et les q
modalités du caractère Y sont notées y1 , ..., yq . Les données sont consignées dans un tableau
de contingence des effectifs.
Y
y1
yj
yq
x1
o11
o1j
o1q o1•
xi
oi1
oij
oiq
xp
op1
opj
opq op•
o•1
o•j
o•q
X
On désire tester
contre
oi•
n
H0 : les caractères X et Y sont indépendants
H1 : les caractères X et Y ne sont pas indépendants.
Si les caractères X et Y sont indépendants dans l’échantillon, on a pour tout couple
(i, j)
oij
oi• o•j
oi• o•j
=
×
⇐⇒ oij =
.
n
n
n
n
Définition 14
oi• o•j
On appelle effectifs attendus (sous entendu : sous H0 ) les réels aij=
, 1 ≤ i ≤ p et
n
1 ≤ j ≤ q.
8
Définition 15
On appelle distance du khi-deux entre effectifs observés (oij ) et effectifs attendus (aij ) le
réel
p X
q
X
(oij − aij )2
di =
.
a
ij
i=1 j=1
Si les caractères X et Y sont indépendants dans la population, ils le sont approximativement dans l’échantillon ; la distance di est alors petite. Par conséquent plus di sera grande,
plus on aura tendance à rejeter H0 .
Définition 16
Le degré de liberté associé au tableau de contingence est l’entier ν = (p − 1)(q − 1).
Mise en œuvre du test
On procède comme pour le test du khi-deux d’ajustement en calculant la p-valeur
γ = χ2ν ([di , +∞[) ; on rejette alors H0 au niveau α si α ≥ γ, et dans le cas contraire on ne
rejette pas H0 .
Réalisation avec R
Si M désigne la matrice (oij ), chisq.test(M ) donne la distance di , le degré de liberté
ν et la p-valeur.
D
Test du khi-deux d’homogénéité
Dans une population donnée on observe un caractère à q modalités b1 , ..., bq , chaque
individu possédant une et une seule de ces q modalités. On prélève dans cette populaton p
échantillons, dont on répartit les individus selon les q modalités. Les résultats sont résumés
dans un tableau de contingence.
b1
bj
bq
Echantillon 1 o11
o1j
o1q o1•
Echantillon i oi1
oij
oiq
Echantillon p op1
opj
opq op•
o•1
o•j
o•q
Modalités
9
oi•
n
On désire tester H0 : les échantillons sont homogènes
contre
H1 : les échantillons sont significativement différents.
Mise en œuvre du test
Elle est formellement identique à celle du test du khi-deux d’indépendance.
E
Adéquation de donnée à une loi équirépartie
Dans les manuels de terminale le test du khi-deux d’ajustement à une loi équirépartie
prend le nom d’ajustement à une loi équirépartie. En voici un exemple tiré du manuel de
terminale de la collection Indice de l’éditeur Bordas.
On dispose d’une pièce de monnaie, et on désire tester H0 : la pièce est équilibrée contre
H1 : la pièce n’est pas équilibrée, au niveau α = 0, 1.
On réalise pour cela l’expérience qui consiste à jeter 200 fois une pièce de monnaie ; on a
obtenu les résultats suivants, où ni désigne le nombre d’apparition de la face i.
i
1
2
3
4
5
6
ni 31 38 40 32 28 31
On calcule
6
X
ni
1
31
1
38
1
31
1
d =
(
− )2 = (
− )2 + (
− )2 + ... + (
− )2 ' 0, 00268.
200 6
200 6
200 6
200 6
i=1
2
On répète 1000 fois cette expérience ; on obtient ainsi 1000 réels d21 , ..., d21000 , et on suppose
que le neuvième décile de cette suite est 0, 00789. Comme d2 < 0, 00789 on ne rejette pas H0
au niveau α = 0, 1.
Explications
Soient X1 , ..., X200 des variables aléatoires modélisant les lancers sous l’hypothèse H0 .
Ces variables sont indépendantes et ont
sur E = {1, 2, 3, 4, 5, 6}.
P6pourNiloi l’équirépartition
1 2
2
2
La variable associée à d est D = i=1 ( 200 − 6 ) , où
Ni =
200
X
1{i} (Xk ) = card{k ∈ [1..200] : xk = i}.
k=1
La statistique utilisée est donc l’application t de E 200 dans [0, +∞[ qui à (x1 , ..., x200 ) associe
200
P
P
ni
t(x1 , ..., x200 ) = 6i=1 ( 200
− 61 )2 , où ni =
1{i} (xk ) = card{k ∈ [1..200] : xk = i}.
k=1
La région de rejet associée à t est de la forme [g, +∞[.
10
Pour obtenir un risque de première espèce égal à 0, 1 il faudrait pouvoir déterminer g de
façon que P (D2 ≥ g) = 0, 1, ce qui n’est pas possible en général puisque la variable D2 est
discrète. Il existe par contre un plus petit réel g pour lequel P (D2 > g) ≤ 0, 1 ou de façon
équivalente tel que P (D2 ≤ g) ≥ 0, 9, à savoir le plus petit neuvième décile de D2 que l’on
notera γ0,9 .
Comme γ0,9 est (sans doute) proche du neuvième décile empirique 0, 00789, on a
0, 1 ≥ P (D2 > γ0,9 ) ' P (D2 > 0, 00789).
11
Téléchargement