Tests du khi-deux
Table des matières
A La loi multinomiale 1
B Le test du khi-deux d’ajustement 4
C Le test du khi-deux d’indépendance 7
D Test du khi-deux d’homogénéité 9
E Adéquation de donnée à une loi équirépartie 10
A La loi multinomiale
Rappel 1 (Formule du multinôme)
Soient kN, a1, ..., akdes éléments de Cet nN. Si l’on pose
Dk
n={(n1, ..., nk)Nk:
k
X
i=1
ni=n},
on a l’égalité
(a1+... +ak)n=X
(n1,...,nk)Dk
n
n!
n1!n2!...nk!an1
1an2
2...ank
k.
Définition 2
Soient k, n Net p1, ..., pkdes éléments de l’intervalle ]0,1[ vérifiant Pk
i=1 pi= 1.
La loi multinomiale M=M(n, p1, ..., pk)sur Dk
n, de densité associée m, est définie par
(n1, ..., nk)Dk
nm(n1, ..., nk) = n!
n1!n2!...nk!pn1
1pn2
2...pnk
k.
Propriété 3
a) E(M)=(np1, ..., npk)
b) Γn= Γ(M)=(γn
i,j)désigne la matrice de covariance de M, on a les égalités :
γn
i,i =npi(1 pi)et si i6=j γn
i,j =npipj
1
c) Si πidésigne l’application de Dk
ndans [0..n]définie par πi(n1, ..., nk) = ni, la mesure
image de M(n, p1, ..., pk)par πiest la loi binomiale B(n, pi). En effet avec l’interprétation
ci-dessous cette mesure image est la loi de la variable Nn
i.
Modèle probabiliste
Soit (Xn)n1une suite indépendante de variables aléatoires définies sur un espace
probabilisé (Ω,F, P )et à valeurs dans un ensemble E={a1, a2, ..., ak}de cardinal k. On
suppose que les variables ont toutes la même loi donnée par :
i[1..k]P(X1=ai) = pi.
Si l’on définit des variables aléatoires Nn
1, ..., Nn
kpar
i[1..k]ωNn
i(ω) = card{j[1..n] : Xj(ω) = ai}=
n
X
j=1
1{ai}Xj(ω),
alors la variable Nn= (Nn
1, ..., Nn
k)est à valeurs dans Dk
net sa loi est M(n, p1, ..., pk).
Rappel 4 (Loi du khi-deux)
Pour tout entier k1la loi du khi-deux à kdegrés de liberté, notée χ2
k, est la loi d’une
somme X2
1+... +X2
k, où les variable X1, ..., Xksont indépendantes et de loi N(0,1).
Théorème 5
La suite
n
P
i=1
[Nn
inpi]2
npi
converge en loi vers une loi du khi-deux à k1degrés de liberté.
Preuve
Posons pour tout entier n1Yn= (1{a1}Xn, ..., 1{ak}Xn)t. La suite (Yn)n1est
indépendante, les variables Ynayant toutes la même loi et étant de carré intégrable. Posons
Π = EY1= (p1, ..., pk)t∈ Mk,1(R)
et
Γ = Γ(Y1) = (γij)∈ Mk,k(R),
γi,i =pi(1 pi)et si i6=j γi,j =pipj.
Le théorème limite central implique que la suite Zn= (YinΠ)/nconverge en loi vers
une loi normale N(0,Γ).
Soit fl’application de Mk,1(R)dans [0,+[qui à (x1, ..., xk)tassocie
n
P
i=1
x2
i/pi. Comme
YiEYi= (1{a1}Xip1, ..., 1{a}Xipk)t,
2
on a
n
X
i=1
YinΠ =
n
X
i=1
(YiEYi)
= (
n
X
i=1
[1{a1}Xip1], ...,
n
X
i=1
[1{ak}Xipk])t
= (Nn
1np1, ..., Nn
knpk),
si bien que f(Zn) =
n
P
i=1
[Nn
inpi]2
npi
.
L’application fétant continue, la suite f(Zn)converge en loi vers la loi d’une d’une variable
de la forme f(U), où U= (U1, ..., Uk)ta pour loi N(0,Γ).
Soit V= (Vi, ..., Vk)t, où Vi=Ui/pi. Avec ces notations
f(U) =
n
X
i=1
U2
i/pi=
n
X
i=1
V2
i.
Posons ∆ = diag(p1, ..., pk); on vérifie que Γ(U)=Γ=∆ΠΠt= (γij). Comme
cov(Vi, Vj) = 1
pipj
cov(Ui, Uj) = 1
pipj
γij,
on voit que Γ(V) = IkMMt, où Ikdésigne la matrice unité d’ordre ket Mle vecteur
Π=(p1, ..., pk)t.
Puisque kMk=
k
P
i=1
p1= 1, il existe une matrice orthogonale Atelle que
AM = (0, ..., 0,1)t=u∈ Mk,1(R).
On remarque que uut=diag(0, ..., 0,1).
La loi du vecteur AV est une loi normale centrée de covariance
Γ(AV ) = AΓ(V)At
=A(IkMMt)At
=AAtAMMtAt
=Ik(AM)(AM)t
=Ikuut
=Ikdiag(0, ..., 0,1)
=diag(1,1, ..., 1,0).
On constate que la loi de AV est celle d’un vecteur W= (W1, ..., Wk1,0)t, où (W1, ..., Wk1)
est un échantillon de taille k1de la loi N(0,1).
3
Finalement les égalités
k
X
j=1
V2
j=kVk2=kAV k2= (AV )t(AV ),
jointes au fait que AV a même loi que W, montrent que f(U) =
k
P
j=1
V2
ipossède la même loi
que WtW=
k1
P
j=1
W2
j, cette loi étant la loi du khi-deux à k1degrés de liberté.
B Le test du khi-deux d’ajustement
Un certain phénomène peut prendre Nvaleurs a1, ..., aNselon une loi inconnue. La
probabilité d’apparition de aivaut πi,i[1..N]. On pose E={a1, a2, ..., aN}, et on appelle
Pla probabilité définie sur Epar P({ai}) = πi.
On cherche à savoir si cette probabilité inconnue Pest égale ou différente d’une pro-
babilité P0connue, P0étant définie sur Epar P0({ai}) = pi,i[1..N]; on supposera que
pour tout idans [1..N]pi6= 0.
Cela revient à tester l’hypothèse H0:P=P0contre l’hypothèse H1:P6=P0.
Définissons des applications Nide Endans [0..n],i[1..N], par
(e1, ...en)EnNi(e1, ..., en) =
n
X
k=1
1{ai}(ek) = card{k[1..n] : ek=ai}.
On réalise nmesures indépendantes x1, ..., xn, puis on pose pour tout i[1..N]
ni=Ni(x1, ..., xn) =
n
X
k=1
1{ai}(xk) = nombre de fois où l’on a observé ai.
Si l’hypothèse H0est vérifiée, on a pour tout i[1..N]πi=pi; les fréquences observées
fi=ni
nsont alors proches des pi, donc les effectifs observés nisont proches des npi.
Modèle probabiliste
Les mesures x1, ..., xnsont modélisées par un échantillon de taille nde variables aléa-
toires (X1, ..., Xn)définies sur un espace probabilisé (Ω,F, P )et à valeurs dans l’ensemble
E={a1, a2, ..., aN}, ayant sous H0la loi P0, définie par i[1..N]P(X1=ai) = pi.
Statistique de test
La partie A suggère de prendre pour statistique de test l’application
d:EnR+,(e1, ..., en)d(e1, ..., en) =
N
X
i=1
[Ni(e1, ..., en)npi]2
npi
.
4
Définition 6
Les produits npi,i[1..N], sont appelés les effectifs attendus sous l’hypothèse H0.
Définition 7
On appelle distance (du khi-deux) entre effectifs observés et effectifs attendus le réel
d(x1, ..., xn) =
N
X
i=1
(ninpi)2
npi
,
avec ni=Ni(x1, ..., xn). Si l’hypothèse H0est vérifiée d(x1, ..., xn)tend à être petite ; on aura
donc tendance à rejeter H0quand d(x1, ..., xn)est grande. Autrement dit la région de rejet a
priori pour la statistique dest de la forme [c, +[.
Mise en œuvre du test
1. Calculer d(x1, ..., xn).
2. La région de rejet a posteriori est [d(x1, ..., xn),+[.
3. La p-valeur vaut
PH0(d(X, ..., Xn)[d(x1, ..., xn),+[) = PH0(d(X1, ..., Xn)d(x1, ..., xn))
4. Pour nassez grand, du fait de la convergence en probabilité de la variable
d(X1, ..., Xn) =
N
X
i=1
[Ni(X1, ..., Xn)npi]2
npi
vers une loi de khi-deux à N1degrés de liberté, on a approximativement
PH0(d(X1, ..., Xn)d(x1, ..., xn)) 'χ2
N1([d(x1, ..., xn),+[).
La p-valeur sera en conséquence prise égale à γ=χ2
N1([d(x1, ..., xn),+[).
Remarque 8
Si l’on s’est fixé a priori un niveau α]0,1[, on rejette H0au niveau αsi α > γ, on ne
rejette pas H0au niveau αsi αγ.
Condition d’applicabilité
Le test ne s’applique que si n30 et si pour tout i[1..N]npi5. Si ce n’est pas
le cas, il faut regrouper des classes.
Remarque 9
Si le calcul des effectifs attendus nécessite de déterminer kparamètres de la population,
on utilise un loi du khi-deux à N1kdegrés de liberté.
5
1 / 11 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !