Estimation de paramètres

publicité
CHAPITRE 8
Estimation de paramètres
1. Distribution des moyennes des échantillons
Dans ce chapitre, nous étudierons comment est distribué la moyenne de
tous les échantillons de taille n possibles d’une certaine population. Soit une
certaine v.a. X définie sur une population. Celle-ci peut être par exemple
• la proportion de fumeurs
• l’âge moyen de la population
Puisque sonder toute la population peut être pénible, on peut opter pour un
sondage c’est-à-dire de prendre un échantillon (une partie de la population)
afin d’estimer soit une proportion ou une moyenne dans la population. Avant
d’entrer dans les détails, revons sur certaines notations :
Définition
Exemple
N
Taille de la population
Population du Qc = 7 000 000
X
v.a. étudiée
Âge d’un québécois
µ
moyenne de la population
âge moyen des québécois
σX écart type de la population
écart type de l’âge des québécois
n
Taille d’un échantillon
100 québécois
x̄
Moyenne de l’échantillon
âge moyen dans l’échantillon
s
Écart type de l’échantillon écart type de l’âge moyen de l’échantillon
L’idée ici est de se servir de x̄ afin d’estimer µ. Mais, à quel point est-ce
que cette estimation est bonne et dans quelles conditions ? C’est ce que nous
tenterons de découvrir dans ce chapitre.
L’aspect le plus important afin de savoir si notre estimation est bonne
est sans doute la taille de l’échantillon n.
Exemple 8.1. Lors d’un examen sur 10, une classe de 20 personnes a
obtenue les notes suivantes :
145
146
8. Estimation de paramètres
SOLUTION
Exemple fait en classe.
Comme le montre l’exemple précédent, les x̄i sont importants.
Définition 13. Soit une population de taille N . On définit la v.a X̄ :
la distribution des moyennes de tous les échantillons de taille n.
Théorème 8.1 (Théorème centrale limite). Soit une variable aléatoire
X.
Cas 1) Si X ∼ N (µ, σ), alors X̄ ∼ N
‚
Œ
σ2
µ,
.
n
Cas 2) Si X a une espérance µ et de variance σ 2 , X n’est pas normalement
distribué et n > 30, alors
‚ 2Œ
σ
• X̄ ≈ N µ,
si la population est infinie ou si l’échantillon
n
est choisi
‚ avec2 remise.Œ
σ N −n
• X̄ ≈ N µ,
si la population est finie ou si l’échann N −1
tillon est choisi sans remise.
8.2. Estimation de la moyenne d’une population
147
IMPORTANT
On considère qu’une population est infinie si N > 20n.
Exemple 8.2. Le poids d’un rat de laboratoire est distribué normalement
avec une moyenne de 228.6g avec un écart type de 17.8g. On prend au hasard
16 rats. Quelle est la probabilité que la moyenne des poids des 16 rats soit
inférieure à 220g ?
SOLUTION
€
Š
Posons X : le poids d’un rat de laboratoire. Nous avons que X ∼ N 228.6, 17.82 .
‚
Œ
17.82
Nous avons X̄ la moyenne de poids de 16 rats. Alors, X̄ ∼ N 228.6,
.
16
Nous cherchons
„
P (X̄ < 220) = P
Z<

220 − 228.6
Ž
17.8
√
16
‹
−8.6
=P Z <
4.45
= P (Z < −1.93)
= 0.5 − P (0 < Z < 1.93)
= 0.5 − 0.4732
= 0.0268
2. Estimation de la moyenne d’une population
Soit {x1 , x2 , x3 , ..., xn } les n valeurs d’une variable aléatoire X d’un
échantillon choisit aléatoirement. Nous sommes intéressés à estimer la valeur de la moyenne de la population entière, c’est-à-dire µ. Il existe deux
façons d’estimer µ.
Définition 14 (Estimation ponctuelle). Soit {x1 , x2 , x3 , ..., xn } les n valeurs d’une variable aléatoire X d’un échantillon. L’estimation ponctuelle
de la moyenne de la population, notée µ̂, est donnée par µ̂ = x̄.
Ce type d’estimation est le plus simple. Par contre, plus la taille de
l’échantillon est petite, moins l’estimation sera réaliste. C’est pourquoi le
deuxième type d’estimation est plus utilisé.
Définition 15 (Estimation par intervalle de confiance). Soit {x1 , x2 , x3 , ..., xn }
les n valeurs d’une variable aléatoire X d’un échantillon. L’estimation par
intervalle de confiance de la moyenne de la population est donnée par
µ ∈ [x̄ − M E, x̄ + M E] , avec une probabilité 1 − α
Ici, M E est la marge d’erreur et 1 − α est le niveau de confiance.
148
8. Estimation de paramètres
Regardons tout d’abord ce que signifie le niveau de confiance. Il s’agit
de la probabilité que la moyenne de la population µ (qui est inconnue) soit
dans l’intervalle de confiance IC. Mathématiquement, ceci revient à écrire
P (x̄ − M E ≤ µ ≤ x̄ + M E) = 1 − α
Il ne reste plus à déterminer comment calculer la marge d’erreur M E. Il est
clair que la marge d’erreur dépend de la valeur de 1 − α. Plus cette valeur
est proche de 1, plus la marge d’erreur sera grande pour s’assurer que µ soit
dans l’intervalle
€ et
Š vice-versa. Regardons comment calculer M E dans le cas
où X ∼ N µ, σ 2 .
On sait la distribution des moyennes de échantillons de taille n, X̄, est
σ
X̄ ∼ N µ, √
.
n
On est intéressé à déterminer M E tel que
P (µ − M e ≤ X̄ ≤ µ + M E) = 1 − α.
Pour déterminer M E, nous devons utiliser la cote Z. Ainsi,
µ − Me − µ
µ − Me − µ
√
√
≤Z≤
σ/ n
σ/ n
−M E
ME
√ ≤Z≤ √
=P
σ/ n
σ/ n
= 2P (0 ≤ Z ≤ Zα/2 ) = 1 − α,
P (µ − M e ≤ X̄ ≤ µ + M E) = P
où
Zα/2 =
ME
√
σ/ n
Ainsi, en déterminant Zα/2 , on obtient que
σ
M E = Zα/2 √ .
n
Ainsi, la probabilité que
x̄ ∈ [µ − M e, µ + M E]
est de 1 − α. Cependant, nous sommes intéressés à déterminer un intervalle
pour µ. Le fait que x̄ ∈ [µ − M e, µ + M E] signifie que
x̄ ≥ µ − M E
et
x̄ ≤ µ + M E.
En isolant µ dans les deux inéquations, on obtient que
x̄ + M E ≥ µ et x̄ − M E ≤ µ.
D’où µ ∈ [x̄ − M E, x̄ + M E].
8.2. Estimation de la moyenne d’une population
149
Exemple 8.3. Le résultat à un test psychométrique que l’on fait subir aux
enfants d’âge préscolaire est une variable obéissant à une loi normale d’écart
type 6. On prélève un échantillon au hasard de 144 enfant et on obtient un
résultat moyen de 55. Faites une estimation par intervalle de confiance à
94%.
SOLUTION
allo le monde
Malheureusement, il est rare que nous connaissons déjà σ ou que la population suive une loi normale. Le prochain théorème nous permettra de
connaître la distribution de X̄ et ainsi de déterminer M E selon le cas.
Théorème 8.2. Soit un échantillon de taille n.
‚ 2Œ
€ 2Š
σ
σ
et M E = zα/2 √
Cas 1) Si X ∼ N µ, σ , alors X̄ ∼ N µ,
n
n
‚
Cas 2) Si X est quelconque,
σ
M E = zα/2 √
n
σ2
Cas 3) Si X est quelconque,
σ2
s
et M E = zα/2 √
n
connue et n ≥ 30, alors X̄ ≈ N
σ2
µ,
n
‚
inconnue et n ≥ 30, alors X̄ ≈ N
Œ
s2
µ,
n
et
Œ
€
Š
X̄ − µ
√ ≈ Tn−1
Cas 4) Si X ∼ N µ, σ 2 , mais σ 2 inconnue et n < 30, alors
s/ n
s
et M E = tn−1,α/2 √
n
150
8. Estimation de paramètres
X̄ − µ
√ ≈ Tn−1 . Tn−1 est une loi dite de
s/ n
Student de paramètre ν = n − 1. Nous pouvons trouver la valeur de tn−1,α/2
dans la table suivante :
H
HH α
0,005
0,010
0,025
0,050 0,100
H
ν
H
H
1
63,6567 31,8205 12,7062 6,3138 3,0777
2
9,9248 6,9646 4,3027 2,9200 1,8856
3
5,8409 4,5407 3,1824 2,3534 1,6377
4
4,6041 3,7469 2,7764 2,1318 1,5332
5
4,0321 3,3649 2,5706 2,0150 1,4759
6
3,7074 3,1427 2,4469 1,9432 1,4398
7
3,4995 2,9980 2,3646 1,8946 1,4149
8
3,3554 2,8965 2,3060 1,8595 1,3968
9
3,2498 2,8214 2,2622 1,8331 1,3830
10
3,1693 2,7638 2,2281 1,8125 1,3722
11
3,1058 2,7181 2,2010 1,7959 1,3634
12
3,0545 2,6810 2,1788 1,7823 1,3562
13
3,0123 2,6503 2,1604 1,7709 1,3502
14
2,9768 2,6245 2,1448 1,7613 1,3450
15
2,9467 2,6025 2,1314 1,7531 1,3406
16
2,9208 2,5835 2,1199 1,7459 1,3368
17
2,8982 2,5669 2,1098 1,7396 1,3334
18
2,8784 2,5524 2,1009 1,7341 1,3304
19
2,8609 2,5395 2,0930 1,7291 1,3277
20
2,8453 2,5280 2,0860 1,7247 1,3253
21
2,8314 2,5176 2,0796 1,7207 1,3232
22
2,8188 2,5083 2,0739 1,7171 1,3212
23
2,8073 2,4999 2,0687 1,7139 1,3195
24
2,7969 2,4922 2,0639 1,7109 1,3178
25
2,7874 2,4851 2,0595 1,7081 1,3163
26
2,7787 2,4786 2,0555 1,7056 1,3150
27
2,7707 2,4727 2,0518 1,7033 1,3137
28
2,7633 2,4671 2,0484 1,7011 1,3125
29
2,7564 2,4620 2,0452 1,6991 1,3114
30
2,7500 2,4573 2,0423 1,6973 1,3104
40
2,7045 2,4233 2,0211 1,6839 1,3031
50
2,6778 2,4033 2,0086 1,6759 1,2987
60
2,6603 2,3901 2,0003 1,6706 1,2958
100
2,6259 2,3642 1,9840 1,6602 1,2901
500
2,5857 2,3338 1,9647 1,6479 1,2832
∞
2,5763 2,3267 1,9602 1,6450 1,2816
Dans le dernier cas, nous avons
8.2. Estimation de la moyenne d’une population
151
IMPORTANT
Dans la table, α correspond à α/2.
Regardons des exemples.
Exemple 8.4. Trouver un intervalle de confiance à 95% sur le revenu
moyen des femmes sachant que sur un échantillon de 100 femmes la moyenne
est de 19502$ et l’écart-type est de 2000$.
SOLUTION
allo le monde
Exemple 8.5. Virgile s’entraîne en courant 5km par jour et il note le
temps nécessaire. Après 90 jours de course, il constate qu’en moyenne il
prend 22.50 minutes pour parcourir 5km avec un écart-type de 2.40minutes.
a) déterminez la moyenne de son temps de parcours avec une estimation
ponctuelle.
b) déterminez la moyenne de son temps de parcours avec un intervalle de
confiance à 99%.
SOLUTION
allo le monde
152
8. Estimation de paramètres
Réponses
165
Téléchargement