Echantillonnage Module 1 – Variables et lois d’échantillonnage
EchM1.doc 1/15
Introduction générale
La notion de base en statistique est celle de population : ensemble d’individus (ou objets ou
unités statistiques) pouvant être crits par un ensemble de variables (ou propriétés ou
caractéristiques) communes. La variabilité d’une population signifie que les variables décrivant
les individus peuvent prendre des valeurs différentes d’un individu à l’autre. L’analyse
statistique est l’étude de cette variabilité.
Souvent, il est matériellement impossible d’étudier tous les individus d’une population. Si l’on se
limite à une partie de la population, on fait un sondage; la partie étudiée s’appelle un
échantillon. Afin d’assurer la représentativité de l’échantillon, celui-ci est la plupart du temps tiré
au hasard dans la population.
La théorie de l’échantillonnage nous permet de passer des caractéristiques de la population aux
caractéristiques d’un échantillon représentatif.
Schéma récapitulatif
Population P
N individus
X : variable aléatoire
recensement exhaustif
loi statistique caractérisée
par:
Moyenne : m
Variance : σ²
Proportion : P
Echantillonnage
estimation
Echantillon E
(représentatif de la
population)
n individus
X : variable aléatoire
iXX
i
sondage
loi statistique caractérisée
par:
Moyenne :
X
Variance : S²
Proportion : F
Intervalles de confiance
On distingue deux cas :
On connaît la population c’est à dire sa loi avec ses caractéristiques (moyenne,
variance) et on cherche des renseignements sur un échantillon de n individus (loi,
moyenne, variance, avec quels intervalles de confiance?).
c’est un problème d échantillonnage : déduction.
On connaît l’échantillon c’est à dire sa loi avec ses caractéristiques (moyenne,
variance) et on veut estimer la population toute entière (loi, moyenne, variance, avec
quels intervalles de confiance?).
c’est un problème d’estimation : induction.
Echantillonnage Module 1 – Variables et lois d’échantillonnage
EchM1.doc 2/15
MODULE 1 : Variables et lois d’échantillonnage
Les lois d’échantillonnage et les variables d’échantillonnage définies dans ce module 1 vont
nous servir dans les modules 3 et 4 pour établir les intervalles de confiance (c’est à dire
encadrer les paramètres inconnus d’une population : moyenne, variance, proportion) et faire
des tests d’hypothèse (c’est à dire tester les paramètres d’une population à partir des données
d’échantillonnage).
M1Unité 1 : Définitions
Soit X, une variable aléatoire qui représente la population. Elle est caractérisée par la
densité de probabilité f(x), dans le cas d’une variable aléatoire continue, ou par sa probabilité
élémentaire p(x), dans le cas d’une variable aléatoire discrète.
On appelle échantillon de taille n issu de X, ou n-échantillon de X, le vecteur aléatoire
(
)
ni21
X,X,...X,X K
iXX
i
(
i
X suit la même loi que X) et
ji
X,X indépendants
ji
. L’échantillon est dit IID c'est-à-dire identiquement indépendamment distribué.
On parle dans ce cas d’
échantillon théorique aléatoire probabili
.
L’ensemble de n valeurs images indépendantes de X est constitué de n images de l’épreuve
associée à X indépendantes
(
)
n21
x,,x,x
K
. Ainsi,
i
x est l’image obtenue à la ième
répétition de l’épreuve. Cet ensemble est l’image de la variable aléatoire
(
)
n21
X,,X,X
K
.
On parle ici d’
échantillon empirique ou observé
.
Convergence de la fonction de répartition d’un échantillon.
Soit
(
)
n21
X,,X,X
K
un échantillon théorique.
(
)
n21
x,,x,x
K
un échantillon empirique.
n21
xxx
<<< L
On va noter F’(x) la fonction de répartition empirique ou fonction des fréquences cumulées.
F(x)=Prob(X
x) est la fonction de répartition théorique ou encore c’est la probabilité de
l’événement “X
x”
F’(x)=
xx i
i
f
F’(x) converge en probabilité vers F(x) : F’(x)
)x(F
P
Définition de la vraisemblance d’un échantillon
Cas discret :
X : variable aléatoire discrète caractérisée par
{
}
)x(p;
χ
(Cf cours Math Stat1)
Soit
(
)
n21
X,,X,X
K
un échantillon théorique
La probabibiconjointe est égale au produit des probabilités élémentaires (VA indépendantes)
[
]
[
]
[
]
nn11nn2211
xXPxXPxX;;xX;xXP
====== LL
[
]
[
]
)x(PxXobPrxXobPr,i
iiii
====
D’où
[
]
[
]
[
]
)x(P)x(PxXPxXPxXP
n1nn2211
LL ====
Cas continu :
X : variable aléatoire continue caractérisée par
{
}
)x(f;
χ
Echantillonnage Module 1 – Variables et lois d’échantillonnage
EchM1.doc 3/15
[
]
[
]
[
]
)x(ddx)x(f)x(f dx)x(fdx)x(f dxxXxPdxxXxPdxxXx;;dxxXxP
n1n1
nn11
nnnn1111nnnn1111
LL
L
LL
=
=
++<=+<<+<<
On appelle
vraisemblance de l’échantillon
et on note
(
)
n1
x,,xL L
le produit des probabilités
élémentaires ou des densités de probabilité :
(
)
)x(p)x(px,,xL
n1n1
LL
=
X : variable aléatoire discrète
(
)
)x(f)x(fx,,xL
n1n1
LL
=
X : variable aléatoire continue
Caractéristiques de l’échantillon théorique :
moyenne empirique notée :
1i
mX
n
1
X
==
variance empirique notée :
'2
2
i
2
)XX(
n
1
Sµ==
moment non centré empirique d’ordre r :
==
=
r
i
i
n
1i
r
i
r
XfX
n
1
m
moment centré empirique d’ordre r:
( )
==
==µ
n
1i
r
ii
n
1i
r
i
'
r
XXf)XX(
n
1
Proportion :
n
X
F=
Caractéristiques théoriques c’est à dire caractéristiques de la population :
moment non centré d’ordre r :
( )
χ
=
=dxxfxXEm
rr
r
dans le cas continu
χ
=
=
x
kr
r
pxxXEm dans le cas discret
moment non centré d’ordre 1
[
]
(
)
χ
== dxxxfXEm
(cas continu)
[
]
χ
==
x
xpxXEm
(cas discret)
La variance :
[
]
(
)
χ
===µ dx)x(fmx)X(EXE]X[V
22
2
(cas continu)
[
]
(
)
χ
===µ
x
22
2
pxmx)X(EXE]X[V
(cas discret)
p : proportion dans la population
Echantillonnage Module 1 – Variables et lois d’échantillonnage
EchM1.doc 4/15
Synthèse : notations :
Caractéristiques
de la population Caractéristiques
correspondantes
dans l’échantillon
théorique
La moyenne : m
X
La variance :
]X[V
2
=σ
2
S
ou
2
S
ˆ
Le moment non centré
d’ordre r
r
m
r
'm
La proportion p F
M1Unité 2 : Variables d’échantillonnage
2.1 Etude de
X
=
=
n
1i i
X
n
1
X
X
est la moyenne de l’échantillon théorique.
Les
i
X sont des variables aléatoires
X
est une variable aléatoire.
Calculons son espérance et sa variance :
[ ]
( )
==
=
=
n
1i i
n
1i i
XE
n
1
X
n
1
EXE
avec
[
]
[
]
mXEXE
i
==
moyenne théorique (puisque
XX
i
)
[ ]
=
=
n
1i
m
n
1
XE
[
]
mXE =
(
)
(
)
[
]
[
]
22
mXEXEXEXV ==
Echantillonnage Module 1 – Variables et lois d’échantillonnage
EchM1.doc 5/15
( )
( )
[ ]
+=
+=
=
=
=
∑ ∑
= = =
= ==
=
=
=
n
1i
n
1i
n
1j ji
2
i
2
n
1i
n
1j ji
n
1i
2
i
2
2
n
1i i
2
n
1i i
2
n
1i i
)mX)(mX(E2mXE
n1
)mX)(mX(2)mX(E
n1
n
)mX(
E
n
mn
X
n
1
E
mX
n
1
EXV
ji
X,X ind
(
)
(
)
[
]
[
]
[
]
0mXEmXEmXmXE
jiji
==
( )
[ ]
n
n
n
mXE
n
1
XV
2
2
2
2
i
2
σ
=
σ
==
( )
n
XV
2
σ
=
(
)
XV
est un indicateur de la dispersion de
X
autour de
[
]
XEm =.
Lorsque n augmente, n
2
σ
diminue.
210
nnn >>
2.2 Etude de S²
( )
=
=
n
1i
2
i
2
XX
n
1
S
2
S
est la variance de l’échantillon théorique.
Les
i
X sont des variables aléatoires, donc
2
S
est une variable aléatoire.
X
0
n
1
n
2
n
(
)
XV
1 / 15 100%