Chapitre 3 Théorie..

publicité
Chapitre 3 : Théorie de l’estimation
U3
Selim Mankaï
EM Normandie
Automne 2013
1
Plan du chapitre
1. Estimation ponctuelle
2. Estimation par intervalle de confiance
2
Objectifs du cours
1. Identifier les caractéristiques des estimateurs.
2. Construire des intervalle de confiance autour des
paramètres à estimer
3. Contrôler l’amplitude de l’intervalle de confiance en
fonction de la taille de l’ échantillon
3
Estimation ponctuelle
Cette technique consiste à estimer un paramètre cible
inconnu θ (thêta) de la population à l’aide d’un seul nombre
obtenu par un estimateur ponctuel de θ.
4
Propriétés des estimateurs ponctuels
5
2.1 Estimateur sans biais
Définition 1 : Soit U un estimateur du paramètre inconnu θ . U
est un estimateur sans biais de θ si et seulement si:
E(U) = θ
Autrement dit, U est sans biais s'il est "en moyenne" (sur
plusieurs échantillons) égal à θ.
Un estimateur V de θ sera dit "biaisé" si E(V)≠θ .
Définition 2 : Le biais de l’estimateur V correspond à la
différence:
Biais (V, θ) = E(V) - θ
6
2.1 Estimateur de l’espérance de la population μ
Exemple 1 : Soit un échantillon aléatoire (X1,…,Xn) i.i.d issu
d’un population d’espérance μ. Vérifier si la moyenne empirique
est un estimateur sans biais de μ.
1 n
La moyenne empirique est définie par : X   X i
1

E  X   E   Xi 
 n i 1 
1  n
 1 n
= E   Xi    E  Xi 
n  i 1  n i 1
n
n
i 1
Comme l’échantillon est composé de variables aléatoires i.i.d
(indépendamment et identiquement distribuées)
1
1
E  X      .....      n   
n
n
X est un estimateur sans biais de μ
7
2.1 Estimateur de l’espérance de la population μ
Exemple 2 : Soit une population des 4 entreprises innovantes
pour lesquelles on dispose des montants en millions d’euros
alloués à la R&D respectivement égaux à 1, 3, 5 et 9.
On cherche à estimer pour cette population le montant moyen μ
alloué à la R&D.
On construit un échantillon aléatoire de 2 entreprises pour
X estimer μ.
lesquelles on calcule la moyenne empirique pour
1/ Déterminer les valeurs de la moyenne empirique obtenues
sur tous les échantillons qu’il est possible de construire (tirage
sans remise).
2/ Vérifier si la moyenne empirique X est un estimateur sans
biais de μ.
8
Estimateur de l’espérance de la population μ
Exemple 2 :
1/ Comme la population est petite, il est possible de calculer
directement μ :
1 3  5  9

 4,5
4
Les différents échantillons qu’il est possible de construire :
Echantillon
(1,3)
(1,5)
(1,9)
(3,5)
(3,9)
(5,9)
X
2
3
5
4
6
7
Prob
1/6
1/6
1/6
1/6
1/6
1/6
2/ L’espérance de la moyenne empirique
EX  
1
1
 2  3  5  4  6  7    27   4,5
6
6
9
Estimateur de la variance de la population σ²
Exemple 3 :Vérifier si la variance empirique S2 est un
estimateur sans biais de la variance de la population inconnue
σ² .
• Par définition :
  E  X  E  X   E  X
2
2
2
 EX 
2
2
1 n
1 n
2
S   Xi  X     Xi   X 2
n i 1
 n i 1

2
10
Estimateur de la variance de la population σ²
1 n

E (S )  E   X i 2  X 2 
 n i 1

1 n
2
2
2
2
 E   Xi      X 
 n i 1

2
1 n

 E   X i 2   2    E  X 2   2  
 n i 1

1 n
2
2
   E  X i       E  X 2   2  
 n i 1





2
1 n
2
2
2
2

     E  Xi      E X  E  X  

 n i 1
 
2

1  n 1 2
2
2
 
  1   

n
n
 n
11
Estimateur de la variance σ²
Cette technique con
S 2 est asymptotiquement sans biais si son biais tend vers 0
quand la taille de l'échantillon augmente
• En revanche, la variance empirique corrigée est un
estimateur sans biais de σ² :
n
Sˆ 2 
 X
i 1
i
X
2
n 1
12
:
Erreur quadratique moyenne (Mean square error)
L’erreur quadratique moyenne (MSE) d’un estimateur W
d’un paramètre inconnu θ
MSE (W )  Variance(W )  biais(W , )
2
13
Convergence d’un estimateur
Formellement, U est un estimateur convergent de θ si la
probabilité que U soit dans un "petit intervalle" du vrai θ
approche 1 quand la taille n de l'échantillon devient "grande":
Pr( |U – θ | < ε ) = 1 quand n > n0
avec ε un réel très petit et n0 un entier très grand
Alternativement, U est un estimateur convergent de θ si la
probabilité que U soit "loin" du vrai θ approche 0 quand la taille
de l'échantillon devient "grande":
Pr( |U – θ | > ε ) = 0 quand n > n0
avec ε un réel très petit et n0 un entier très grand
14
Convergence : condition suffisante
L'estimateur U de θ est convergent si sa variance et son biais
potentiel tendent tous deux vers zéro quand la taille de
l'échantillon devient grande (quand n +→∞).
Exemple
lim E ( X )  
n 
lim V ( X )  lim
n 
n 
2
n
=0
X est un estimateur convergent
15
Exemple d’erreur de mesure
On pèse un poids d’un kilo (15 fois sur les 3 balances
imprécises). On obtient les résultats suivants:
Pesée
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Poids en gr Poids en gr Poids en gr
affiché (B1) affiché (B2) affiché (B3)
1001.75
994.76
1011.84
999.44
991.92
1016.29
1002.38
999.24
1013.77
997.47
1000.05
1018.90
1001.63
988.48
1006.73
998.83
988.84
1006.71
997.88
1016.85
1003.47
1001.66
1005.09
1004.27
997.14
1002.21
1005.62
1004.13
1011.66
1011.27
997.54
1005.33
1015.26
1000.25
1005.30
1007.00
1002.48
997.28
1003.85
997.69
993.82
1003.75
999.73
999.12
1006.25
16
Comportement de l’erreur
Pesée
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Poids en gr Poids en gr
Poids en gr
affiché
affiché
affiché (B1)
(B2)
(B3)
1001.75
994.76
1011.84
999.44
991.92
1016.29
1002.38
999.24
1013.77
997.47
1000.05
1018.90
1001.63
988.48
1006.73
998.83
988.84
1006.71
997.88
1016.85
1003.47
1001.66
1005.09
1004.27
997.14
1002.21
1005.62
1004.13
1011.66
1011.27
997.54
1005.33
1015.26
1000.25
1005.30
1007.00
1002.48
997.28
1003.85
997.69
993.82
1003.75
999.73
999.12
1006.25
Moyenne
Variance
Erreur 1
Erreur 2
Erreur 3
1.75
-0.56
2.38
-2.53
1.63
-1.17
-2.12
1.66
-2.86
4.13
-2.46
0.25
2.48
-2.31
-0.27
0
4.97
-5.24
-8.08
-0.76
0.05
-11.52
-11.16
16.85
5.09
2.21
11.66
5.33
5.30
-2.72
-6.18
-0.88
0
64.58
11.84
16.29
13.77
18.90
6.73
6.71
3.47
4.27
5.62
11.27
15.26
7.00
3.85
3.75
6.25
9
26.20
17
Comportement de l’erreur
1. Contrairement à la balance 3, les balances 1 et 2 sont
centrées.
2. La variance de l’erreur de mesure de la balance 1 est
la plus faible.
3. Par analogie à la théorie d’estimation, la balance 1
serait un estimateur sans biais et à variance minimale.
4. Pour estimer le poids inconnu d’un objet, on se
fiera plutôt au résultat donné par la balance 1.
18
Exemple d’erreur de mesure
On cherche à trouver le poids inconnu d’un « cailloux ». On
obtient les résultats suivants.
Pesée
1
Poids en gr Poids en gr Poids en gr
affiché (B1) affiché (B2) affiché (B3)
223.75
218.16
22984
La valeur 223,75 représente une
estimation ponctuelle du poids inconnu
du cailloux obtenu par B1.
19
2. Estimation par intervalle de confiance
• L’estimation ponctuelle d’un paramètre θ donne une valeur
unique approximative de ce paramètre
• Elle n’apporte aucune information sur la précision des
résultats en ne tenant pas compte des erreurs dues aux
fluctuations d’échantillonnage.
• Pour évaluer la confiance que l’on peut avoir en une
estimation, il est nécessaire de lui associer un intervalle qui
contient, avec une certaine probabilité, la vraie valeur du
paramètre, c’est l’estimation par intervalle de confiance.
20
2. Estimation par intervalle de confiance
• L’estimation par intervalle de confiance d’un paramètre θ
consiste à associer à un échantillon, un intervalle aléatoire
• Cet intervalle est choisi de telle façon que la probabilité pour
qu’il contienne la valeur inconnue du paramètre soit égale à
un nombre fixé à l’avance :
P   I   1  
1    : probabilité associée à l’intervalle d’encadrer la vraie
valeur du paramètre, c’est le seuil de confiance.
  : niveau d’erreur
21
2. Estimation par intervalle de confiance
• Dans le cas idéal, l’intervalle de confiance doit remplir deux
propriétés:
1/ Il doit contenir le paramètre cible θ;
2/ Etre le plus étroit possible.
• D’un pont de vue pratique l’intervalle de confiance identifie
une plage de valeurs qui pour des échantillonnages répétitifs
va contenir le contenir le paramètre cible θ.
22
2. Estimation par intervalle de confiance
• Pour construire un intervalle de probabilité, deux questions
se posent :
– Quel est le seuil d’erreur α susceptible d’être valablement
considéré comme négligeable ?
– Pour une loi de probabilité et pour un seuil α, il existe une
infinité d’intervalles. Comment choisir cet intervalle ?
23
2. Estimation par intervalle de confiance
• Dans la pratique, on donne à a une valeur acceptable, de
l’ordre de 10%, 5 % ou 1% puis, quand cela est possible, on
augmente la taille de l’échantillon.
• On peut construire des intervalle de confiance bilatéral à
risques symétriques ou des intervalles de confiance
unilatéraux.
24
2. Estimation par intervalle de confiance
Exemple :
A partir d’une réalisation (y=0,75) d’une variable aléatoire Y qui
suit une loi normale d’espérance inconnue μ et variance 1.
Trouver :
- Un intervalle de confiance bilatéral à 95% de μ.
- Un intervalle de confiance unilatéral à droite à 95% de μ.
- Un intervalle de confiance unilatéral à gauche à 95% de μ.
25
2. Estimation par intervalle de confiance
1/ On cherche un intervalle de confiance bilatéral à 95% de μ.
P  a    b   1    95%
On sait que
Y 
 N (0,1)
1

Y 
P  u 
 u
1
 2
2

  1    95%

P  1,96  Y    1,96   95%
u : valeur lue à partir de
2
la table de la loi
normale N(0,1)
P Y  1,96    Y  1,96   95%
P  0, 75  1,96    0, 75  1,96   95%
P  1, 21    2, 71  95%
26
2. Estimation par intervalle de confiance
1/ On cherche un intervalle de confiance unilatéral à droite à
95% de μ.
P    b   1    95%
On sait que
Y 
 N (0,1)
1
Y 

P
 u   1    95%
 1

P Y    1, 65   95%
P    Y  1, 65   95%
P    0, 75  1, 65   95%
P    2, 4   95%
27
2. Estimation par intervalle de confiance
1/ On cherche un intervalle de confiance unilatéral à gauche à
95% de μ.
P  a     1    95%
On sait que
Y 
 N (0,1)
1
Y  

P  u 
  1    95%
1 

P 1, 65  Y     95%
P Y  1, 65     95%
P  0, 75  1, 65     95%
P  0,9     95%
28
Distribution d'échantillonnage de X
29
Estimation de l’espérance μ d'une loi N(μ,σ²)
• Dans une population donnée, soit une variable aléatoire X de
loi N(μ,σ²). On cherche à estimer le paramètre inconnu μ par
intervalle de confiance.
•
Dans un échantillon aléatoire simple de taille n tiré de cette
population, on prend pour estimateur de μ la moyenne X
•
Pour encadrer μ, il faut considérer deux cas possibles:
- la variance de la population σ² est connue (ce qui n'est en
général pas le cas)
-
la variance de la population σ² est inconnue (ce qui est le
cas le plus général)
30
Cas où variance σ² est connue (IC bilatéral)
• Étant donné un niveau de confiance 1-α, on construit, pour
la moyenne X de l’échantillon, un intervalle de probabilité :


X 
P  u 
 u   1  
2 
 2  n
la valeur u étant lue sur la table de la loi normale réduite.
2

P  X  u  n    X  u   n   1  

2
2

L’intervalle de confiance bilatéral de μ :

P  x  u 

2
n    x  u 
2

n   1

où x est la moyenne observée de l’échantillon.
31
Cas où σ² est connue (IC unilatéral à droite)
• Étant donné un niveau de confiance 1-α, on construit, pour
la moyenne X de l’échantillon, un intervalle de probabilité :
 X 

P
 u   1  
 n

la valeur u étant lue sur la table de la loi normale réduite.
2

P   X  u 

n  1
L’intervalle de confiance unilatéral à droite de μ :

P   x  u 

n  1 
où x est la moyenne observée de l’échantillon.
32
Cas où σ² est connue (IC unilatéral à gauche)
• Étant donné un niveau de confiance 1-α, on construit, pour
la moyenne X de l’échantillon, un intervalle de probabilité :

X  
P  u 
  1 
 n

la valeur u étant lue sur la table de la loi normale réduite.
2

P X  u 

n    1 
L’intervalle de confiance unilatéral à gauche de μ :

P x  u 

n    1 
où x est la moyenne observée de l’échantillon.
33
Cas où variance σ² est connue (récapitulatif)
• Étant donné un niveau de confiance 1-α :
L’intervalle de confiance bilatéral de μ :

   x  u 

2

n

n , x  u 
2
L’intervalle de confiance unilatéral à droite de μ :
  , x  u 
n 
L’intervalle de confiance unilatéral à gauche de μ :
   x  u 
n ,  
34
Cas où variance σ² est connue (récapitulatif)
• Étant donné un niveau de confiance 1-α :
largeur de l’intervalle de confiance bilatéral de μ :
largeur  2u 
n
2
Pour réduire l’amplitude de l’intervalle de confiance, on
augmente la taille de l’échantillon.
35
Cas où variance σ² est inconnue et n ≥ 30
On utilise l’estimateur sans biais Ŝ 2 de la variance inconnue σ².
Étant donné un niveau de confiance 1-α :
L’intervalle de confiance bilatéral de μ :

   x  u sˆ

2
n , x  u sˆ
2

n

L’intervalle de confiance unilatéral à droite de μ :
  , x  u sˆ
n 
L’intervalle de confiance unilatéral à gauche de μ :
   x  u sˆ
n ,  
36
Cas où variance σ² est inconnue et n < 30
Lorsque la distribution de la population est normale, la
distribution d’échantillonnage de X suit la loi de Student de
degré de liberté (n-1) :
X 
 Std (n  1)
Sˆ n
37
Cas où variance σ² est inconnue et n < 30
On utilise l’estimateur sans biais Ŝ 2 de la variance inconnue σ².
Étant donné un niveau de confiance 1-α :
L’intervalle de confiance bilatéral de μ :

   x  tn1 sˆ

2
n 1
n , x  t sˆ
2

n

L’intervalle de confiance unilatéral à droite de μ :
  , x  tn1 sˆ
n 
L’intervalle de confiance unilatéral à gauche de μ :
   x  tn1 sˆ
tn 1
2
n ,  
valeur lue à partir de la table de la loi de Student (n-1)
38
Exemple
• Afin d’étudier le salaire journalier, en euros, des ouvriers d’un
secteur d’activité, on procède à un tirage aléatoire d’un
échantillon de taille n = 16. On obtient les résultats suivants :
41 40 45 50 41 41 49 43
45 52 40 48 50 49 47 46
On suppose que la loi suivie par la variable aléatoire « salaire
journalier » est normale d’espérance μ et d’écart-type σ inconnus.
1/ Calculer la moyenne, la variance et la variance corrigée de
échantillon.
2/ Trouver un intervalle de confiance bilatéral à 95% de μ.
39
Exemple
1/Estimation de la moyenne arithmétique :
16
x
x
i 1
i
16
 45, 43
• Estimation ponctuelle de la variance empirique (estimateur
biaisé) :
16
s2 
  xi  x 
i 1
16
2
 15,2460= (3,9046)2
• Estimation ponctuelle de la variance empirique corrigée
(estimateur sans biais) :
16
sˆ2 
  xi  x 
i 1
15
2
 16,262= (4,0326)2
40
Exemple
2/ Intervalle de confiance pour la moyenne, seuil de confiance
0,95 (intervalle bilatéral à risques symétriques).
La variable aléatoire X   suit une loi de Student à (n−1) degrés de
Sˆ n
liberté.
• Dans la suite des calculs nous tenons compte des résultats
donnés par l’échantillon :
 n 1 X   n 1 
P  t 
 t   0.95
Sˆ n
2 
 2


X 
P  -2,131 
 2,131   0.95
Sˆ n


41
Exemple

P  X  Sˆ

n 1
n t

n 1
n t
2

P  x  sˆ


   X  Sˆ
2
n t    x  sˆ
n 1
n 1
n t
2

2

  0.95


  0.95




P 5, 43  4,0326 16 2,131    45, 43  4,0326 16 2,131  0.95
P  43,2895    47,5859   0.95
  43,2895 , 47,5859
42
Intervalle de confiance de la proportion (p)
• Un chef d’entreprise veut connaitre la proportion p de
satisfaction parmi les 20000 clients ayant acquis le nouveau
produit de l’entreprise récemment lancé sur le marché.
• Soit X la VA égale à 1 si un client est satisfait et à 0 sinon. On
considère que cette variable suit une loi de Bernoulli B(1, p), où
p est le paramètre à estimer (proportion).
• Le chef de l’entreprise construit au hasard un échantillon de
100 clients. L'estimateur de p utilisé dans cet échantillon est la
fréquence empirique fn des clients satisfaits.
43
Intervalle de confiance de la proportion (p)
• Dans l'échantillon aléatoire simple de 100 clients, on trouve
1 100
1
fn 
xi 
(1  1  0 

100 i 1
100
 0)  0.85
NB: xi est la ième réalisation de X dans l'échantillon, et n = 100
• La valeur 0.85 est-elle une bonne approximation de p, la
proportion inconnue des clients satisfaits dans la population?
• Pour répondre à cette question, Il faut en premier lieu trouver
la loi de fn.
44
Intervalle de confiance de la proportion (p)
X
45
Intervalle de confiance de la proportion (p)
46
Intervalle de confiance de la proportion (p)
• Dans notre exemple, en remplaçant fn par 0.85 et n par 100, on
trouve 0.78 ≤ p ≤ 0.92 au niveau de confiance 0.95.
• Autrement dit, il y a 95% de chances que la proportion de
clients satisfaits dans la population soit comprise entre 0.78 et
0.92.
• On a 5% de chances de se tromper en donnant cette
conclusion.
• On remarque que la proportion trouvée dans l'échantillon
(0.85) est bien comprise entre 0.78 et 0.92. On peut en
conclure que cette valeur est une bonne estimation de p.
47
Intervalle de confiance de la proportion (p)
48
Intervalle de confiance de la variance (σ²)
• Dans notre exemple, en remplaçant fn par 0.85 et n par 100, on
trouve 0.78 ≤ p ≤ 0.92 au niveau de confiance 0.95.
• Autrement dit, il y a 95% de chances que la proportion de
clients satisfaits dans la population soit comprise entre 0.78 et
0.92.
• On a 5% de chances de se tromper en donnant cette
conclusion.
• On remarque que la proportion trouvée dans l'échantillon
(0.85) est bien comprise entre 0.78 et 0.92. On peut en
conclure que cette valeur est une bonne estimation de p.
49
Cas 1: l'espérance μ est connue
50
Illustration
• Le chef d’entreprise de l’exemple précédent veut maintenant
estimer la variance du temps d’utilisation quotidien de son
produit.
• La VA continue représentant du temps d’utilisation (en h) est
notée X, de loi N(μ, σ²) dans la population. Les paramètres μ
et σ² sont inconnus. Le chef d’entreprise veut estimer σ² au
moyen d'un IC.
• L'espérance est inconnue, l'estimateur de σ² utilise donc la
moyenne empirique X . Dans l'échantillon de 100 clients, le chef
d’entreprise trouvent une moyenne de 0.6 h et un écart-type
empirique de 0.3 h (ce qui donne une variance empirique de
0.09).
51
Application numérique
• On se donne un niveau de confiance de 95%. A ce niveau de
confiance et pour n-1 = 99 d.l., on trouve k1 = 128,42 et k2 =
73,37.
• On applique alors la formule de l'IC:
• aux valeurs trouvées dans l'échantillon de 100 fulmars. Il vient:
•
"La variance du temps d’utilisation quotidien est comprise
entre 0,07 et 0,12 avec une probabilité de 95%"
52
Téléchargement