Estimateur de la moyenne

publicité
Estimateur de la moyenne d’une population µ.
L’objectif de l’inférence statistique est d’estimer avec le moins d’erreur possible les
paramètres (la moyenne et l’écart type) d’une population.
Ils utilisent pour cela des échantillons tirés de la population. La moyenne de l’échantillon
constituera une estimation de la moyenne de la population, ce qui paraît logique.
Il est important de garder à l’esprit que la moyenne d’un échantillon ( X ) est une variable
aléatoire, en effet la moyenne varie d’un échantillon à l’autre (par exemple la moyenne au TI
d’un échantillon d’étudiants qui refait l’année sera différente que la moyenne d’un échantillon
d’étudiants qui en en sont à leur première tentative).
X étant une variable aléatoire il faut connaître son écart-type noté : σ X ainsi on pourra
connaître l’erreur que l’on fera, en moyenne, en estimant µ par X (standard error en anglais).
Montrons que X est un estimateur sans biais de µ :
1 n
∑ X i ) avec X i la variable aléatoire correspondant à un tirage d’un
n i =1
E( X )=E(
élément dans la population donc E( X i )=µ et V( X i )= σ pop .
2
1 n
∑ E( X i )
n i =1
1 n
= ∑µ
n i =1
=µ
=
V( X )=V(
1
n2
1
= 2
n
=
=
σ
1 n
∑ X i ) La variance est un opérateur quadratique et les X i sont indépendantes
n i =1
deux à deux donc :
n
∑V ( X )
i
i =1
n
∑σ
i =1
2
pop
2
pop
n
X est un estimateur sans biais de µ. L’erreur d’estimation est en moyenne de
σ 2pop
n
équivaut à dire que la variable aléatoire X suit une loi ayant pour paramètres µ et
Dans ce qui suit, ces formules mathématiques vont être illustrées par un exemple.
. Cela
σ 2pop
n
Imaginons que l’on dispose d’une population d’un million de valeurs qui suivent une loi
3
). Cette suite de
uniforme entre 0 et 3. (La moyenne est donc de 1.5 et l’écart type de
12
nombre est générée à l’aide de minitab. En voici la distribution :
400
Effectif
300
200
100
0
0
1
2
3
C1
Toujours en utilisant minitab on extrait de manière aléatoire 500 échantillons de 50 valeurs
(n=50). Pour chaque échantillon minitab calcule sa moyenne : on les note de X1 à X500.
Une fois ces 500 valeurs obtenues, il est possible d’obtenir la distribution de
X:
50
Effectif
40
30
20
10
0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
moyenne des echantillons
On en calcul la moyenne : 1.5090 et l’écart type : 0.12227
On remarque que la moyenne de la distribution des moyennes des échantillons est très proche
de la moyenne de la population initiale. Quant à l’écart type σ X il est quasi identique à
σ pop
50
=0.12247.
Qu’en est-il pour les exos ?
Dans la pratique on ne fait pas 500 échantillons car cela est trop coûteux, en fait on en fait 1.
A partir de cette échantillon on calcule sa moyenne et son écart-type (σ est inconnu donc on
1 n
utilise l’estimateur de σ qui est le suivant : s =
(xi − x )2 ). Ensuite il suffit d’utiliser
∑
n − 1 i =1
les résultats qui ont été trouvés ci-dessous pour déduire que la variable aléatoire X suit une
s
1 n
loi avec comme paramètres ∑ xi et
.
n i =1
n
Grâce à ces informations on peut calculer les intervalles de confiance et faire différents tests
d’hypothèses.
Dans les exos, soit la moyenne et l’écart type de l’échantillon sont donnés, soit vous les
calculez avec la Ti.
Ensuite il vous faut en général calculer des IC et/ou faire des tests d’hypothèse concernant la
moyenne des échantillons. Comme vous vous intéressez à la moyenne des échantillons il
faut que vous utilisiez les paramètres de la distribution des moyennes des échantillons c'est-à1 n
s
.
dire ∑ xi et
n i =1
n
Calcul de l’IC à 95%
( x ± z0 ×
s
)=(1.5090-1.96*0.12227 ;1.5090+1.96*.12227)
n
=(1.26935 , 1.74865)
Il est nécessaire de bien interpréter cet intervalle de confiance à 95% :
Il ne faut surtout pas écrire que la probabilité que µ appartienne à cet intervalle est de 95%,
car µ est un paramètre donc il est fixe (soit µ appartient soit il n’y appartient pas à l’intervalle
P=0 ou P=1).
L’interprétation correcte est "95% des IC contiennent la vraie valeur, c’est à dire la moyenne
de la population"(d’après Tobias Lehmann).
N’oublier pas que si l’échantillon est petit (n<30), il faut utiliser la loi de Student (c’est un
piège typique à l’exa).
Voici la correction de l’exo 6 de la fois passée, Il s’agissait du calcul d’un IC avec une loi de
Student :
Exercice 6
La société Lambda Consulting SARL désire estimer le nombre moyen d’élèves dans les
classes enfantines vaudoises. Un échantillon de 16 classes choisies au hasard donne les
valeurs suivantes :
19
17
21
23
19
20
22
25
23
21
20
21
22
23
19
21
Calculer un intervalle de confiance à 99% en supposant que le nombre d’élèves suive une loi
normale.
Petit échantillon → loi de student ! car n<30
s2 = 1 / (n-1) ∑ (xi – xbarre) = 60 / 15 = 4
→
s=2
degré de liberté (υ) = n-1 = 15
t α/2=0.005 ; υ=15 = 2.95 → voir distribution de Student sur Annexe
IC à 99% : xbarre ± t α/2 ; υ * s / n1/2 = 21 ± 2.95 * 2 / 161/2 = (19.525 ; 22.475)
Dernière remarque : même si on utilise la loi de student, vous devez, dans la formule de l’IC,
diviser s par n et surtout pas par (n-1)
Téléchargement