Chapitre 2: Tests d`ajustement d`un échantillon à une loi théorique

Chapitre 2: Tests d’ajustement d’un échantillon à une
loi théorique
1 Introduction
Le problème que nous allons examiner dans ce chapitre est d’une grande importance
pratique : Etant donné un échantillon observé x1, x2, . . . , xnconstitué d’une suite numérique
de mesures indépendantes d’un phénomène aléatoire dont la loi de probabilité n’est pas
connue précisément, on veut tester si cet échantillon provient d’une loi Fdonnée par exemple
de la loi N(0,1). Les méthodes qu’on va utiliser s’appellent méthodes d’ajustement de
l’échantillon observé à la loi théorique F.Le principe de ces méthodes est le suivant :
On fait l’hypothèse H0que l’échantillon observé est issu de la loi F. La méthode consiste à
transformer les valeurs observé d’une certaine façon (soit en un nombre pour l’ajustement
du χ2, soit en une fonction pour l’ajustement de Kolmogorov-Smirnov) de sorte que suivant
le résultat obtenu, on puisse décider avec un niveau de confiance 1α]0,1[ donné, :
soit de rejeter l’hypothèse H0, soit de l’accepter
Le nombre αgénéralement petit (0,05 ou 0,01) est la probabilité d’accepter l’hypothèse
alors qu’elle est fausse ; c’est le risque d’erreur (de première espèce) dont nous reparlerons
plus en détail ci-dessous mais il est important de comprendre que c’est l’expérimentateur qui
fixe le risque αqu’il accepte de prendre, la méthode tient compte de ce risque et donne un
résultat qui se traduit par la décision d’accepter ou de rejetter l’hypothèse.
2 Le test du Chi2
2.1 La loi du χ2
Définition 2.1 : Soient X1, . . . , Xndes variables aléatoires indépendantes de même loi nor-
male N(0,1). On appelle loi du χ2àndegrés de liberté, la loi de la variable aléatoire
χ2
n=
n
X
i=1
X2
i.
Remarque : Si on considère (X1, . . . , Xn)comme un vecteur aléatoire de Rn,χ2
nest le carré
du module de ce vecteur.
cours de Statistiques de M. Léonard Gallardo, Master 1, Université de Tours, année 2007-2008, Labora-
toire de Mathématiques et Physique Théorique-UMR 6083 du CNRS, Parc de Grandmont, 37200 TOURS,
FRANCE. email : [email protected]
1
Proposition 2.2 : La loi du χ2
na une densité de probabilité de la forme
fn(x) = 1
2n/2Γ(n/2)x(n/2)1ex/21[0,+[(x),
et une espérance et une variance égales à :
E(χ2
n) = n, V ar(χ2
n) = 2n.
démonstration : C’est un exercice de calcul vu en TD de probabilités.
Remarque : Dans le cours de probabilités on a étudié la loi Γ(α, b)de paramètres α > 0et
b > 0qui est la loi d’une variable aléatoire de densité
fα,b(x) = bα
Γ(α)xα1ebx1[0,+[(x).
La loi χ2
nest donc une loi Γ(n/2,1/2).
2.2 La loi multinomiale
Notation : Toute mesure de probabilité concentrée sur l’ensemble {1,2, . . . , k}des entiers
entre 1et k, s’écrit Pk
i=1 piδiδiest la mesure de Dirac en i,pi0et Pk
i=1 pi= 1. Une
telle loi sera représentée par un vecteur ligne
(1) p= (p1, . . . , pk).
Soit n1un entier fixé et (X1, . . . , Xn)un n-échantillon d’une loi p= (p1, . . . , pk)portée
par {1,2, . . . , k}. Pour chaque 1ik, on considère la variable aléatoire
(2) Ni=
n
X
j=1
1[Xj=i],
qui représente le nombre de variables de l’échantillon qui prennent la valeur i.
Définition 2.3 : La loi du vecteur aléatoire N= (N1, . . . , Nk)s’appelle loi multinomiale de
paramètres (n;p1, . . . , pk)et notée M(n, p). Elle est telle que
(3) P(N1=n1, . . . , Nk=nk) = n!
n1!. . . nk!pn1
1. . . pnk
k,
n1, . . . , nksont des entiers tels que n1+··· +nk=n.
L’importance de cette loi est due au fait que le vecteur aléatoire
(4) ¯pn=N
n= (N1
n,...,Nk
n)
est tel que
(5) E(Ni
n) = pi(i= 1, . . . , k)
et
(6) lim
n→∞ ¯pn=ppresque surement.
2
En effet, pour tout i= 1, . . . , k (fixé), les variables aléatoires (1[Xj=i])1jnsont i.i.d. et
d’après la loi forte des grands nombres, on a
Ni
n=1
n
n
X
j=1
1[Xj=i]
p.s.
E(1[Xj=i]) = P(Xj=i) = pi.
On traduit la propriété (6) en disant que ¯pest l’estimateur empirique de la loi p=
(p1, . . . , pk). La propriété (5) dit que l’estimateur ¯pest non biaisé (ou sans biais).
Considérons maintenant le vecteur centré et quasi-réduit associé au vecteur multinomial :
(7) N1np1
np1
,...,Nknpk
npk
Pour la somme des carrés de ses composantes, on a le résultat fondamental suivant
Théorème 2.4 :
(8)
k
X
i=1
(npiNi)2
npi
L
χ2
k1(n→ ∞).
La démonstration de ce résultat sera vue ultérieurement. Notons que nous avons utilisé
le terme quasi-réduit pour le vecteur aléatoire (7) car la véritable variable centrée réduite
associée à Niest f
Ni=Ninpi
npi(1pi). Notons aussi que le théorème limite central implique que
la i-ième composante du vecteur centré et quasi-réduit, converge en loi vers une variable
aléatoire normale N(0,1pi)quand n+. Le fait qu’on trouve une loi du χ2
k1comme
limite dans le théorème, est lié à ce fait et à la non-indépendance des composantes (car
N1+··· +Nn=n).
2.3 Le test du χ2d’ajustement
Soit p= (p1, . . . , pk)suivant la notation (1) une loi de probabilité de référence sur l’en-
semble {1, . . . , k}. Si q= (q1, . . . , qk)est une autre loi de probabilité, on définit la distance
du χ2de qàppar :
(9) χ2(p, q) =
k
X
i=1
(piqi)2
pi
.
On prendra garde à la terminologie1car χ2(p, q)n’est pas le carré d’une vraie distance2et
que les termes (piqi)2ont plus d’importance dans la somme (9) lorsque la valeur de piest
faible. Si l’on prend pour qla répartition empirique ¯pndéfinie en (4) d’un n-échantillon de
la loi p, on mesure plutôt l’écart entre pet ¯pnde la manière suivante :
Définition 2.5 : Le χ2d’ajustement entre la loi pet la loi empirique ¯pnest la variable
aléatoire
(10) χ2
n(p, ¯pn) = 2(p, ¯pn) =
k
X
i=1
(npiNi)2
npi
,
1on verra que le terme χ2est utilisé en statistiques pour désigner des quantités diverses ayant un lien
avec la loi du χ2.
2noter que χ2(p, q)6=χ2(q, p)
3
qu’on écrit plus traditionellement sous la forme
(11) χ2
n(p, ¯pn) =
k
X
i=1
(Niei)2
ei
,
ei=npi=E(Ni)est la valeur "espérée" de Ni.
Remarque : La loi exacte de χ2
n(p, ¯pn)n’est pas connue mais d’après le résultat du Théo-
rème 2.4, si n est grand, on peut considérer que χ2
n(p, ¯pn)suit la loi χ2(k1).
Observation fondamentale : La convergence en loi de χ2
n(p, ¯pn)vers χ2(k1) est très
sensible au fait que ¯pnest la loi empirique de p. En effet supposons qu’on se soit trompé et
que ¯pnsoit en réalité la loi empirique d’une loi q6=p. Alors d’après la loi forte des grands
nombres, Ni
nqip.s. et donc
(12) 1
nχ2
n(p, ¯pn) = χ2(p, ¯pn) =
k
X
i=1
(piNi/n)2
piχ2(p, q)>0p.s.
Il en résulte que χ2
n(p, ¯pn)+p.s. Ainsi si nest grand, les valeurs observées de
χ2
n(p, ¯pn)seront très grandes. Cette observation est à la base du test suivant :
LA PROCÉDURE DU TEST DU CHI-2 : A partir d’un n-échantillon d’une loi discrète
sur l’ensemble {1, . . . , k}, on veut tester l’hypothèse
H0="la loi de l’échantillon est égale à p"
contre l’hypothèse alternative H1="la loi de l’échantillon est différente de p". Compte tenu
de ce qui précède, on forme la quantité χ2
n(p, ¯pn)(11) à partir des valeurs observées Niet
des valeurs espérées eirésultant de l’hypothèse H0. Suivant l’idée expliquée ci-dessus (c’est
à dire que si la valeur observée de χ2
n(p, ¯pn)est trop grande, l’hypothèse H0est peu
crédible mais il faut préciser ce qu’on entend par là. Le plus simple est de pouvoir définir
une borne au delà de laquelle on rejettera H0. Pour cela on procède de la manière suivante :
1) On choisit un risque (de première espèce) α.
2) Avec la table de la loi du χ2(k1), on détermine la borne bα:= χ2
k1de la queue d’ordre
αde la loi de la variable Xdu χ2(k1) (i.e. P(X > bα) = α).
3) on rejette l’hypothèse H0au profit de H1si :
(13) χ2
n(p, ¯pn)> bα.
Justification du test : Sous l’hypothèse H0, et si nest assez grand, on sait d’après le
Théorème 2.4 que la variable aléatoire χ2
n(p, ¯pn)suit la loi χ2(k1), donc
PH0(rejeterH0) = PH0χ2
n(p, ¯pn)> χ2
k1α,
ce qui montre que le test est justifié.
Remarque : Le test du χ2est seulement un test asymptotique et il faut que n soit as-
sez grand. Disons seulement qu’il vaut mieux éviter d’utiliser le test du χ2si la taille de
l’échantillon est inférieure à 50.
4
Exemple : On veut tester si un dé n’est pas truqué au risque α= 0,05. Pour cela on lance
le dé 60 fois et on obtient les résultats suivants
face 1 2 3 4 5 6
Ni15 7 4 11 6 17
ei10 10 10 10 10 10
On a fait figurer dans le tableau la valeur espérée eidu nombre d’apparitions de la face
idans l’l’hypothèse où le dé n’est pas truqué, ceci afin de faciliter le calcul de la quantité
χ2
n(p, ¯pn)qui est donc ici égale à
k
X
i=1
(Niei)2
ei
=(15 10)2
10 +(7 10)2
10 +(4 10)2
10 +(11 10)2
10
+(6 10)2
10 +(17 10)2
10 = 13,6.
Sous l’hypothèse H0:"p1=··· =p6=1
6, la variable aléatoire χ2
n(p, ¯pn)a donc pris la valeur
13,6. Or le seuil de rejet lu dans la table de la loi du χ2(k1) = χ2(5) est χ2
5,0,05 = 11,07.
La valeur observée dépassant cette valeur, on est amené à rejeter l’hypothèse H0au risque
α= 0,05. On notera qu’au risque α= 0,025, on rejette aussi H0. Mais au risque α= 0,01, on
ne peut plus rejeter l’hypothèse H0malgré la mauvaise impression donnée par les résultats.
Si on persiste à vouloir le risque 0,01, il est plus raisonnable de recommencer l’expérience
avec un échantillon de taille beaucoup plus grande.
2.4 Le test du χ2d’indépendance
On considère ici un couple (X, Y )de variables aléatoires. On suppose que X(resp. Y)
prend ses valeurs dans l’ensemble {1, . . . , k}(resp. {1, . . . , l}). Si pij =P(X=i, Y =j), on
représentera la loi du couple (X, Y )par la matrice p= (pij)àklignes et lcolonnes.
Le problème qui nous intéresse dans ce paragraphe est de tester l’indépendance des variables
Xet Y. Rappelons3que si la loi pest connue, les variables Xet Ysont indépendantes si et
seulement si la loi pest le produit (tensoriel) de ses lois marginales i.e.
(14) i= 1, . . . , k, j= 1, . . . , l, pij =pi.p.j,
pi. =Pl
j=1 pij (resp. p.j =Pk
i=1 pij).
Prenons un n-échantillon (X1, Y1),...,(Xn, Yn)de la loi pet pour toute valeur (i, j)consi-
dérons la variable aléatoire
(15) Nij =
n
X
m=1
1[(Xm,Ym)=(i,j)],
qui compte le nombre de fois que la valeur (i, j)apparait dans l’échantillon. La variable
aléatoire
(16) ¯pn(i, j) = Nij
n,
3voir le cours de probabilités
5
1 / 13 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !