Chapitre 4: Notions sur les statistiques d’ordre et les
distributions d’échantillonnage
Léonard Gallardo
1 Statistiques d’ordre d’un échantillon
1.1 Généralités
On a vu dans le chapitre 2 pourquoi la notion d’échantillon est à la base des méthodes
statistiques. En particulier pour définir la fonction de répartion empirique, il convient d’or-
donner l’échantillon par valeurs croissantes. Cet échantillon ordonné permet de déterminer
(plus précisément d’estimer) la plupart des caractéristiques de la loi de probabilité d’où est
issu l’échantillon. Nous allons illustrer cette idée avec quelques exemples. Signalons avant de
commencer qu’on appelle distribution d’échantillonnage (ce nom figure dans le titre) toute
loi de probabilité liée à un échantillon comme par exemple la loi des statistiques d’ordre ou
des quantiles empiriques dont nous allons parler dans la suite ainsi que la loi de Wilcoxon,
Mann et Whitney qui à la base d’un test fameux servant à comparer deux échantillons.
Soit (X1, . . . , Xn)un n-échantillon issu d’une loi de probabilité de fonction de répartition F.
Pour chaque ω, on a une valeur observée
(1) (X1(ω), . . . , Xn(ω))
de ce n-échantillon. Ordonnons cette suite de valeurs par ordre croissant
(2) Xk1(ω)(ω)Xk2(ω)(ω)≤ ··· ≤ Xkn(ω)(ω),
k1(ω)est le numéro de la plus petite valeur, etc..., kn(ω)est le numéro de la plus grande
valeur. On note
(3) X(i)(ω) = Xki(ω)(ω),
la i-ième valeur rangée et le vecteur (X(1), . . . , X(n))s’appelle l’échantillon rangé.
Définition 1.1 : Pour tout i= 1, . . . , n, la variable aléatoire X(i)s’appelle la i-ième statis-
tique d’ordre de l’échantillon.
Exemple :X(1) = min1inXiet X(n)= max1inXisont respectivement la plus petite et
la plus grande valeur de l’échantillon. La fonction de répartition de X(n)est donnée par
F(n)(x) = P(X(n)x) = P(1in[Xix]) = Y
1in
P([Xix]) = (F(x))n.
cours de Statistiques, Master 1, Université de Tours, année 2007-2008, Laboratoire de Mathématiques
et Physique Théorique-UMR 6083, Parc de Grandmont, 37200 TOURS, FRANCE. email : gallardo@univ-
tours.fr
1
Alors que la fonction de répartition de X(1) est de la forme
F(1)(x) = P(X(1) x) = 1 P(X(1) > x) = 1 P(1in[Xi> x]) = 1 Y
1in
P([Xi> x])
= 1 (1 F(x))n.
1.2 Quantiles d’une loi et quantiles empiriques
Définition 1.2 : Soit Fune fonction de répartition continue et strictement croissante. Pour
tout p]0,1[, on appelle quantile d’ordre pet on note qpla racine (unique) de l’équation
F(x) = p, i.e. qp=F1(p). En particulier :
si p=1
2,q1/2est appelée la médiane de la loi F.
si p=1
4,q1/4est appelée le (premier) quartile de la loi F
Remarque : 1) On considère parfois les autres quartiles : le deuxième q1/2(qui est la
médiane) et le troisième quartile q3/4. Ces trois quartiles partagent la distribution en parties
de même «poids» en ce sens qu’étant donné une variable aléatoire Xde loi F, on a
P(X < q1/4) = P(q1/4X < q1/2) = P(q1/2X < q3/4) = P(Xq3/4) = 1
4.
Le quantile q1/10 s’appelle parfois (premier) décile, les autres déciles sont les quantiles qk/10
k= 2,3,...,9; ils partagent la distribution en 10 régions de même probabilité 1/10.
2) On peut définir les quantiles pour une loi discrète ou une loi continue telle que Fne soit
pas strictement croissante mais il y a forcément un certain arbitraire dans la définition. Par
exemple dans le cas où Fest continue, on a recours à l’inverse généralisée de la fonction de
répartition pour définir le quantile d’ordre ppar la formule
qp= inf{x;F(x)p}.
Pour simplifier, nous n’aborderons cette question des quantiles que dans le cas considéré ici
d’une fonction de répartition continue et strictement croissante.
Définition 1.3 : Soit (X1, . . . , Xn)un nchantillon issu d’une loi Fet (X(1), . . . , X(n))
l’échantilon ordonné. Soit p]0,1[. La statistique d’ordre X([np]+1) (où [np]désigne la par-
tie entière de np) s’appelle le quantile empirique d’ordre pde l’échantillon. En particulier
X([n/2]+1) est la médiane empirique de l’échantillon.
Exemple : si (X(1), X(2), X(3), X(4), X(5))est un échantillon rangé de taille n= 5, la médiane
empirique est X(3) ; c’est la valeur qui partage l’effectif de l’échantillon en 2 parties de même
effectif (il y a deux valeurs plus petites et deux valeurs plus grandes). Noter que si on
avait pris X([n/2]) comme définition de la médiane empirique, dans l’exemple précédent la
médiane serait X(2) ce qui n’est pas très logique. Si par contre on a un 4-échantillon rangé
(X(1), X(2), X(3), X(4)), la médiane empirique est X(3) avec notre définition.
Le théorème suivant montre que le quantile empirique est un estimateur du quantile théo-
rique :
Théorème 1.4 : Si Fest continue et strictement croissante, on a
X([np]+1) qpP-presque sûrement si n+.
Autrement dit X([np]+1) est une estimation de qpd’autant meilleure que la taille nde l’échan-
tillon est grande.
2
démonstration : Soit Fω
nla fonction de répartition empirique de l’échantillon (X1, . . . , Xn)
ou de l’échantillon ordonné (X(1), . . . , X(n)). Par définition de la fonction de répartition em-
pirique, on a
(4) Fω
n(X([np]+1)) = 1
n([np] + 1) psi n+.
Mais par le théorème fondamental de la statistique pour P-presque tout ω,
supxR|F(x)Fω
n(x)| → 0si n+. Remplaçant xpar X([np]+1)(ω)on déduit que
|F(X([np]+1)(ω)) Fω
n(X([np]+1)(ω))| → 0d’où compte tenu de (4)
F(X([np]+1)(ω)) p(n+),
et puisque la fonction F1est continue, on a donc
X([np]+1)(ω)) F1(p) = qp(n+).
C’est le résultat annoncé.
On a même un résultat qui précise la loi asymptotique de la variable aléatoire X([np]+1) qp
lorsque la loi Fa une densité de probabilité :
Théorème 1.5 : Si la loi Fa une densité de probabilité fstrictement positive sur R, alors
en posant D:= p(1p)
f(qp), la variable aléatoire nX([np]+1)qp
Dconverge en loi vers la loi
normale N(0,1) quand n+.
démonstration : admis ; pour une preuve détaillée voir le livre de A. Rényi «Calcul des
probabilités» p.460.
Exercice : Du théorème précédent déduire l’expression d’un intervalle de confiance approché
du quantile qpau niveau de confiance 1α(pour α= 0,05 et 0,001).
2 Le test du signe sur la médiane d’une loi
2.1 Tester si 0est la médiane d’une loi
Si une variable aléatoire Xest de loi continue F,0est la médiane de cette loi si
(5) P(X > 0) = P(X < 0) = 1
2
Si maintenant on considère (X1, . . . , Xn)un n-échantillon de la loi F, alors sous l’hypothèse
H0: «0est la médiane de la loi F», les variables aléatoires
(6) S1=
n
X
i=1
1[Xi>0] et S2=
n
X
i=1
1[Xi<0]
«nombres de signes +» (resp. de signes -) dans l’échantillon, sont toutes les deux de loi
binomiale B(n, 1
2).
Si l’hypothèse H0était fausse, l’une des quantités S1ou S2prendrait une valeur supérieure
à ce qu’elle devrait prendre normalement si H0est vraie. Ceci nous conduit à construire un
test de la manière suivante :
3
On se donne un risque de première espèce α(par exemple 0,05 ou 0,01) et on détermine
à l’aide des tables statistiques, la borne sαde la queue d’ordre αde la loi B(n, 1
2), c’est à
dire sα= le plus petit entier tel que
(7) P(S > sα)α(i.e.
n
X
k=sα+1
Ck
n
1
2kα),
Le test «du signe» consiste alors à rejeter H0si on observe
(8) S1> sαou S2> sα.
On notera que la probabilité de rejeter à tort H0est ici égale à 2α. Pour cette raison ce test
s’appelle le test du signe bilatéral.
Remarque : On peut utiliser le test du signe, pour tester si la loi de Xest symétrique, i.e.
si
uR,P(Xu) = P(Xu).
Si le test du signe donne un résultat de rejet, il est clair qu’il faut rejeter l’hypothèse que la
loi est symétrique (car une loi symétrique a une médiane égale à 0).
2.2 Intervalle de confiance pour la médiane d’une loi continue
On a vu dans le paragraphe précédent comment tester si 0est la médiane de la loi
(continue) d’une variable aléatoire X. Si la loi n’est pas centrée, on peut tester si un nombre
ξest la médiane de Xen faisant la transformation Xξ=X0et en appliquant le test du signe
bilatéral aux valeurs X0. On va montrer que cette idée a une application très intéressante
qui via l’utilisation des statistiques d’ordre, permet de déterminer un intervalle de confiance
pour la médiane d’une loi continue uniquement à partir d’un n-échantillon issu de cette loi.
Théorème 2.1 : Soit X= (X1, . . . , Xn)un nchantillon issu d’une loi Fcontinue et
˜
X= (X(1), . . . , X(n))l’échantillon rangé. Soit 0< α < 1
2(fixé) et soit sαle seuil d’ordre α
pour le test du signe défini en (7). Alors l’intervalle
(9) X(nsα), X(sα+1)
est un intervalle de confiance de la médiane de Fau niveau de confiance 12α.
démonstration : Notons tout d’abord que l’hypothèse faite sur αnous assure déjà que sα
est un entier plus grand que n/2, en particulier ceci implique nsα< sα+1 donc l’intervalle
(9) a un sens. Notons ξla médiane de la loi Fet posons
(10) X0
i=Xiξ(i= 1, . . . , n).
On suppose qu’on fait le test du signe sur les les variables X0
iet qu’on travaille sous l’hypo-
thèse H0:="la médiane de Fest ξ".
Examinons les cas suivants qui peuvent se produire :
1) Si on observe
(11) ξ < X(nsα),
i.e. 0< X(nsα)ξ. Alors1on a aussi 0< X(i)ξpour tout insα. Donc parmi les X0
i
définies en (10), il y en a plus de sαqui sont >0. On devrait donc rejeter l’hypothèse H0.
1comme les X(i)forment une suite croissante.
4
Autrement dit en termes d’événements, on a l’inclusion [ξ < X(nsα)][on rejette H0], ce
qui implique qu’on a
(12) PH0ξ < X(nsα)α.
2) De même si
(13) X(sα+1) < ξ,
on voit (en utilisant le test bilatéral) qu’on devrait aussi rejeter H0donc
(14) PH0(X(sα+1) < ξ)α.
On déduit de (12) et (14) qu’on a
(15) PH0(X(sα+1) ξX(nsα))12α,
ce qui prouve le théorème.
2.3 Le test du signe dans le cas des grands échantillons
Le nombre Sde signes +, suit la loi B(n, 1
2)et on a E(S) = n
2et V ar(S) = n
4. D’après le
théorème limite central, si nest grand, la variable aléatoire
(16) N=1
pn/4(Sn
2)
suit approximativement la loi N(0,1). On utilisera alors la variable Npour faire le test du
signe. Précisement, la décision de rejet sera prise si
(17) N>˜sα,
˜sαest la borne de la queue d’ordre αde la loi N(0,1) i.e.
Z+
˜sα
1
2πe1
2x2dx =α.
On considère généralement que dès que n50, l’approximation normale est bonne.
3 La loi et le test de Wilcoxon, Mann et Whitney
Nous allons à titre d’exemple montrer comment on peut comparer deux échantillons à
partir de leurs valeurs rangées par ordre croissant.
3.1 La statistique de Wilcoxon, Mann et Whitney
Soient X= (X1, . . . , Xm)un m-échantillon d’une loi F0et Y= (Y1, . . . , Yn)un n-
échantillon d’une loi F1. On suppose que ces deux échantillons sont indépendants et que
les lois F0et F1sont continues. Le problème est de déterminer si, dans de l’ensemble, les
valeurs de Yont tendance à être supérieures à celles de X. La méthode de Wilcoxon consiste
à réunir les deux échantillons Xet Yen un seul et à ordonner toutes les valeurs obtenues par
ordre croissant mais en gardant en mémoire la nature de chaque valeur (i. e. si elle appartient
àXou Y).
On a donc classé par ordre croissant les deux échantillons Xet Yen un seul échantillon
rangé de N=m+nvaleurs. Soit Y(i)la i-ème statistique d’ordre de Y.
5
1 / 9 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !