Cours estimation par intervalle de confiance Fichier

publicité
UEVE
Estimation par intervalles de confiance
1
Un exemple introductif
Soient X1 , · · · , Xn n variables aléatoires i.i.d. de loi B(p∗ ) avec p∗ inconnue et soient x1 , · · · , xn les n observations
associées. Nous avons vu qu’une estimation naturelle est x, la proportion observée de 1 parmi les x1 , · · · , xn . Nous
avons également vu que X est un bon estimateur de p∗ puisqu’il est sans biais (E(X) = p∗ ) et qu’il converge en
moyenne quadratique (EQM(X) = Var(X) = p∗ (1 − p∗ )/n −→ 0.). Nous avons donc ainsi une bonne estimation
n→∞
ponctuelle de p. On va maintenant chercher à encadrer p∗ , c’est-à-dire à trouver un intervalle (aléatoire) qui contienne
p∗ avec grande probabilité. Soit α = 5%. On va chercher Iα tel que IP(p∗ ∈ Iα ) = 1 − α = 95%.
Nous allons utiliser trois outils, l’inégalité de Bienaymé-Tchebichev, l’inégalité de Hoedding et le théorème central
limite.
Intervalle de confiance avec l’inégalité de Bienaymé-Tchebichev. On cherche [An ; Bn ] tel que IP(p∗ ∈
[An ; Bn ]) ≥ 1 − α. D’après l’inégalité de Bienaymé-Tchebichev,
IP(|X − p∗ | ≥ λ) ≤
p∗ (1 − p∗ )
.
nλ2
Comme p∗ (1 − p∗ ) ≤ 1/4 pour p∗ ∈ [0, 1], nous avons aussi
IP(|X − p∗ | ≥ λ) ≤
1
.
4nλ2
Autrement dit
IP(X − λ ≤ p∗ ≤ X + λ) ≥ 1 −
1
.
4nλ2
Par conséquent si λ est tel que
1
≤α
4nλ2
alors
IP(X − λ ≤ p∗ ≤ X + λ) ≥ 1 − α.
On choisit donc
√
√
I1 = [An ; Bn ] = [X − 1/ 4nα; X + 1/ 4nα].
Intervalle de confiance avec l’inégalité de Hoeffding. On cherche [An ; Bn ] tel que IP(p∗ ∈ [An ; Bn ]) ≥ 1 − α.
D’après l’inégalité de Hoeffding,
IP(|X − p∗ | ≥ λ) ≤ 2 exp(−2nλ2 ).
Autrement dit
IP(X − λ ≤ p∗ ≤ X + λ) ≥ 1 − 2 exp(−2nλ2 ).
Par conséquent si λ est tel que
2 exp(−2nλ2 ) ≤ α
alors
IP(X − λ ≤ p∗ ≤ X + λ) ≥ 1 − α.
On choisit donc
I2 = [X −
p
− ln(α/2)/(2n); X +
p
− ln(α/2)/(2n)].
Intervalle de confiance avec le théorème central limite. On cherche [An ; Bn ] tel que IP(p ∈ [An ; Bn ]) ≥ 1 − α.
D’après le théorème central limite,
√
n(X − p∗ ) L
p
−→ N (0, 1).
p∗ (1 − p∗ ) n→∞
Ici Var(X1 ) = p∗ (1 − p∗ ) est inconnue et peut être estimée de manière consistante par Tn = X(1 − X)(= Se2 ).
Outil On utilise donc que
√
n(X − p∗ ) L
q
−→ N (0, 1) .
n→∞
X(1 − X)
Ceci implique que pour n assez grand, si Z ∼ N (0, 1), alors pour tous a et b réels, la probabilité


√
∗
n(X
−
p
)
≤ b est proche de la probabilité IP(a ≤ Z ≤ b).
IP a ≤ q
X(1 − X)
Soit uα tel que si Z ∼ N (0, 1), alors IP(−uα ≤ Z ≤ uα ) = 1 − α, ou aussi tel que IP(Z ≥ uα ) = IP(Z ≤ −uα ) = α/2.
Pour ce uα , lu dans la table de la loi N (0, 1), la probabilité


√
∗
n(X
−
p
)
≤ uα  est proche de 1 − α.
IP −uα ≤ q
X(1 − X)
On en déduit que la probabilité

IP X −
uα
q
q

X(1 − X)
uα X(1 − X)
 est proche de 1 − α.
√
√
≤ p∗ ≤ X +
n
n
On choisit donc

I3 = [An ; Bn ] = X −
uα
q
uα
X(1 − X)
√
; X+
n
q

X(1 − X)
,
√
n
avec uα tel que IP(N (0, 1) ≤ uα ) = 1 − α/2. C’est un intervalle de confiance bilatéral symétrique théorique pour p∗
de niveau de confiance 1 − α.
Remarques :
- Parmi les trois intervalles de confiance construits, l’intervalle construit à l’aide du théorème central limite est le
plus précis, c’est-à dire celui d’amplitude la plus petite à niveau de confiance fixé et pour une taille d’échantillon fixée.
- Quand n augmente, l’amplitude de l’intervalle de confiance diminue, à niveau de confiance fixé.
- Quand α augmente, le niveau de confiance diminue, et l’amplitude de l’intervalle de confiance diminue, à taille
d’échantillon fixée.
- Quand α diminue, le niveau de confiance augmente, et l’amplitude de l’intervalle de confiance augmente, à taille
d’échantillon fixée.
2
Le problème statistique général
Soit (X1 , X2 , · · · , Xn ), un n-échantillon de n variables aléatoires de loi Pθ∗ , dépendant d’un paramètre θ∗ inconnu.
Nous avons vu comment, à partir de l’échantillon X1 , · · · , Xn , construire un estimateur Tn de θ∗ et en déduire
une estimation ponctuelle de θ∗ , tn basée sur la réalisation (x1 , x2 , · · · , xn ), tn étant la réalisation de l’estimateur
Tn . Nous avons par ailleurs décrit les propriétés mathématiques demandées à un estimateur (consistance, vitesse de
convergence...). Le problème que l’on se pose maintenant est de savoir quelle confiance on peut accorder à cette unique
valeur observée. On va chercher à encadrer θ∗ pour être sur de n’avoir que, par exemple, α = 5% (ou 1%, · · · ) de chances
de se tromper, ou encore encadrer θ∗ en ayant 95% de chances de ne pas se tromper, ie avec un niveau de confiance
de 1 − α = 95%. On construit ainsi un intervalle de confiance de θ∗ . On va donc chercher un intervalle Iα = [A, B], où
A et B sont deux variables aléatoires (fonctions de X1 , · · · , Xn ) telles que IP(θ∗ ∈ [A; B]) = IP(θ∗ ∈ Iα ) = 1 − α.
2.1
Définition
Soit α ∈]0, 1[. On appelle intervalle de confiance du paramètre θ∗ de niveau de confiance 1 − α (ou de risque α)
un intervalle (aléatoire) Iα tel que IP(θ∗ ∈ Iα ) = 1 − α.
Un tel intervalle va être construit à partir d’un estimateur Tn de θ∗ et de sa loi (éventuellement asymptotique). Pour
simplifier, nous allons distinguer ici deux cas : les échantillons gaussiens et les échantillons de loi quelconque de taille
suffisamment grande (pour pouvoir appliquer le Théorème Central Limite).
Plus le niveau de confiance 1 − α est grand (plus le niveau α est petit), plus l’intervalle de confiance sera de grande
amplitude. Autrement dit, si on ne s’autorise que peu d’erreurs, l’intervalle de confiance sera moins précis.
Par ailleurs, plus la taille de l’échantillon augmente, plus l’observation contient de l’information, plus l’amplitude
de l’intervalle de confiance sera faible (à niveau de confiance égal).
3
Intervalle de confiance de l’espérance et de la variance pour les échantillons gaussiens
Soit (X1 , · · · , Xn ) un n-échantillon de loi N (µ, σ 2 ) pour lequel on dispose des réalisations (observations) (x1 , · · · , xn ).
3.1
Intervalle de confiance pour µ quand σ 2 connue
On cherche un intervalle Iµ,α = [A; B], où A et B sont deux variables aléatoires, fonctions de X1 , · · · , Xn telles
que IP(µ ∈ Iµ,α ) = 1 − α. L’espérance µ est naturellement estimée par l’estimateur sans biais et consistant, X =
Pn
n−1 i=1 Xi . Comme moyenne de n variables aléatoires, indépendantes de loi N (µ, σ 2 ),
X∼N
σ2
µ,
n
√
et donc
n(X − µ)
∼ N (0, 1).
σ
Considérons uα tel que si Z ∼ N (0, 1), alors IP(−uα ≤ Z ≤ uα ) = 1 − α, ou aussi tel que
IP(N (0, 1) ≥ uα ) = IP(N (0, 1) ≤ −uα ) =
α
.
2
Pour ce uα , lu dans la table de la loi N (0, 1), on a
√
n(X − µ)
≤ uα = 1 − α.
IP −uα ≤
σ
On en déduit que
uα σ
uα σ
√
√
IP X −
≤µ≤X+
= 1 − α.
n
n
L’intervalle de confiance bilatéral symétrique théorique pour µ de niveau de confiance 1 − α est donc
Iµ,α
uα σ
uα σ
= X− √ ; X+ √
,
n
n
où uα est tel que IP(N (0, 1) ≤ uα ) = 1 − α/2. Le paramètre µ appartient à l’intervalle aléatoire Iµ,α avec une probabilité fixe de 1 − α, c’est-à-dire que si l’on répétait un grand nombre de fois l’expérience consistant à prendre un
échantillon de taille n et à lui faire correspondre un intervalle de confiance pour µ, dans (1−α)100% des cas, l’intervalle
de confiance couvrirait la vraie valeur de µ. Pour un échantillon
de taille n donné pour
lequel on calcule X, l’intervalle
uα σ
uα σ
de confiance calculé associé de niveau de confiance 1 − α est X − √ ; X + √
(qui contiendra ou non µ).
n
n
Au lieu de construire un intervalle de confiance bilatère symétrique, nous aurions pu en construire un intervalle
bilatère non symétrique en considérant cα et dα tels que IP(cα ≤ Z ≤ dα ) = 1 − α, avec par exemple
IP(Z ≤ cα ) = α/4 et IP(Z ≤ dα ) = 1 − 3α/4.
L’intervalle de confiance bilatère non symétrique théorique aurait été
cα σ
dα σ
Iµ,α = X + √ ; X + √
.
n
n
De la même façon, on peut décider de construire un intervalle de confiance unilatère à droite. On considère cα tel que
IP(Z ≤ cα ) = α. On en déduit alors l’intervalle de confiance unilatère à droite théorique
cα σ
Iµ,α = X + √ ; +∞ .
n
De façon analogue, on peut décider de construire un intervalle de confiance unilatère à gauche. On considère dα tel
que IP(Z ≤ dα ) = 1 − α. On en déduit alors l’intervalle de confiance unilatère à gauche théorique
cα σ
Iµ,α = −∞ ; X + √
.
n
3.2
Intervalle de confiance pour σ 2 quand µ est connue
On cherche Iσ2 ,α = [A; B], fonction de X1 , · · · , Xn tel que IP(σ 2 ∈ Iσ2 ,α ) = 1−α. Lorsque µ est connue, l’estimateur
Pn
(sans biais et consistant) de σ 2 est σ
b2 = n−1 i=1 (Xi − µ)2 .
n
X
Yi2 ∼ X 2 (n) (Loi du chi deux à n degrés de liberté).
Outil : Soient Y1 , · · · , Yn , n v.a. i.i.d. de loi N (0, 1), alors
i=1
Les variables les (Xi − µ)/σ étant indépendantes de loi N (0, 1), on en déduit donc que
n
X (Xi − µ)2
nb
σ2
=
∼ X 2 (n).
2
2
σ
σ
i=1
Soient cα et dα , lus dans la table du X 2 (n), tels que si Xn ∼ X 2 (n), alors IP (cα ≤ Xn ≤ dα ) = 1 − α, par exemple,
tels que
α
α
IP X 2 (n) ≤ cα = et IP X 2 (n) ≥ dα = .
2
2
Pour ce cα et ce dα , on a
Pn
(Xi − µ)2
IP cα ≤ i=1 2
≤ dα = 1 − α.
σ
On déduit que
Pn
i=1 (Xi
IP
dα
− µ)2
2
≤σ ≤
Pn
i=1 (Xi
− µ)2
cα
= 1 − α,
et l’intervalle de confiance de σ 2 théorique de niveau de confiance 1 − α est
Pn
Pn
2
2
2
nb
σ
nb
σ2
i=1 (Xi − µ)
i=1 (Xi − µ)
Iσ2 ,α =
;
=
;
,
dα
cα
dα
cα
où cα et dα sont tels que IP(X 2 (n) ≤ cα ) = α/2 et IP(X (n) ≤ dα ) = 1 − α/2.
3.3
Intervalles de confiance pour µ et σ 2
L’espérance µ est estimée par l’estimateur sans biais et consistant X et la variance σ 2 est estimée par, l’estimateur
Pn
sans biais et consistant S 2 = (n − 1)−1 i=1 (Xi − X)2 .
3.3.1
Théorème
n
n
1X
1 X
Soit (X1 , · · · , Xn ) un n-échantillon de loi N (µ, σ ). Notons X =
Xi et S 2 =
(Xi − X)2 .
n i=1
n − 1 i=1
Alors
√
X −µ
n(X − µ)
(n − 1)S 2
q
=
∼ St(n − 1)
et
∼ X 2 (n − 1),
S
σ2
S2
2
n
où St(n − 1) désigne la loi de Student à (n − 1) degrés de liberté.
Ce théorème découle en partie du résultat suivant.
Résultat : Si Y et Z sont 2 v.a. indépendantes telles que Y ∼ N (0, 1) et Z ∼ X 2 (n), alors
Y
q
∼ St(n) (loi de Student à n degrés de liberté) .
Z
3.3.2
Intervalle de confiance pour µ de niveau de confiance 1 − α
On cherche Iµ,α = [A; B], fonction de X1 , · · · , Xn tel que IP(µ ∈ Iµ,α ) = 1 − α.
√
n(X − µ)
Outil On utilise que
∼ St(n − 1).
S
Soit tα , tel que si Tn−1 ∼ St(n − 1), alors IP(−tα ≤ Tn−1 ≤ tα ) = 1 − α, ou aussi tel que
IP (Tn−1 ≤ −tα ) = IP (Tn−1 ≥ tα ) = α/2.
Pour ce tα on a
IP −tα ≤
√
n(X − µ)
≤ tα
S
= 1 − α.
On en déduit que
tα S
tα S
IP X − √ ≤ µ ≤ X + √
n
n
= 1 − α,
et l’intervalle de confiance bilatère symétrique théorique pour µ de niveau de confiance 1 − α est donc
tα S
tα S
Iα = X − √ ; X + √ , où tα est tel que IP(|St(n − 1)| ≤ tα ) = 1 − α.
n
n
3.3.3
Intervalle de confiance pour σ 2 de niveau de confiance 1 − α
On cherche Iσ2 ,α = [A; B], fonction de X1 , · · · , Xn tel que IP(σ 2 ∈ Iσ2 ,α ) = 1 − α.
(n − 1)S 2
∼ X 2 (n − 1).
Outil On utilise que
σ2
Soient cα et dα , tels que si Xn−1 ∼ X 2 (n − 1) alors IP(cα ≤ Xn−1 ≤ dα ) = 1 − α, par exemple, tels que
α
α
IP X 2 (n − 1) ≤ cα = et IP X 2 (n − 1) ≥ dα = .
2
2
Pour ces cα et dα , on a
(n − 1)S 2
IP cα ≤
≤ dα
σ2
= 1 − α.
On en déduit que
IP
(n − 1)S 2
(n − 1)S 2
≤ σ2 ≤
dα
cα
= 1 − α,
et l’intervalle de confiance bilatère théorique pour σ 2 de niveau de confiance 1 − α est
Pn
Pn
2
2
(n − 1)S 2 (n − 1)S 2
i=1 (Xi − X)
i=1 (Xi − X)
2
;
=
;
,
Iσ ,α =
dα
cα
dα
cα
où cα et dα sont tels que IP(X 2 (n − 1) ≤ cα ) = α/2 et IP(X 2 (n − 1) ≤ dα ) = 1 − α/2.
4
Intervalle de confiance d’une espérance pour les grands échantillons de
loi quelconque
Soit (X1 , · · · , Xn ) un n-échantillon de loi d’espérance µ = IE(X1 ) et de variance σ 2 = Var(X1 ). L’estimateur (sans
Pn
biais et consistant) de µ est X = n−1 i=1 Xi . On suppose que n est grand de sorte que le théorème central limite
s’applique. On a alors
√
√
n(X − IE(X1 )) L
n(X − µ) L
p
−→ N (0, 1) autrement dit
−→ N (0, 1).
n→∞
n→∞
σ
V ar(X1 )
Ceci implique que pour n assez grand, si Z ∼ N (0, 1), alors pour tous a et b réels, la probabilité
√
n(X − µ)
IP a ≤
≤ b est proche de la probabilité IP(a ≤ Z ≤ b).
σ
4.1
4.1.1
Intervalle de confiance pour µ de niveau de confiance 1 − α
Cas Var(X1 ) = σ 2 connue
On cherche un intervalle Iµ,α = [A; B], où A et B sont deux variables aléatoires , fonctions de X1 , · · · , Xn telles
que IP(µ ∈ Iµ,α ) = 1 − α.
Soit uα tel que si Z ∼ N (0, 1), alors IP(−uα ≤ Z ≤ uα ) = 1 − α, ou aussi tel que IP(Z ≥ uα ) = IP(Z ≤ −uα ) = α/2.
Pour ce uα , lu dans la table de la loi N (0, 1), la probabilité
√
n(X − µ)
IP −uα ≤
≤ uα est proche de 1 − α.
σ
On en déduit que la probabilité
uα σ
uα σ
√
√
IP X −
≤µ≤X+
est proche de 1 − α.
n
n
L’intervalle de confiance bilatéral symétrique théorique pour µ de niveau de confiance 1 − α est donc
uα σ
uα σ
Iµ,α = X − √ ; X + √
, où uα est tel que IP(N (0, 1) ≤ uα ) = 1 − α/2.
n
n
4.1.2
Cas Var(X1 ) = σ 2 inconnue
On cherche un intervalle Iµ,α = [A; B], où A et B sont deux variables aléatoires , fonctions de X1 , · · · , Xn telles
que IP(µ ∈ Iµ,α ) = 1 − α.
Soit Tn un estimateur consistant de Var(X1 ) = σ 2 . On peut alors remplacer Var(X1 ) par Tn dans le Théorème Central
Limite , et on obtient
√
n X −µ
L
√
−→ N (0, 1)
n→∞
Tn
Ceci implique que pour n assez grand, si Z ∼ N (0, 1), alors pour tous a et b réels, la probabilité
√
n(X − µ)
√
IP a ≤
≤ b est proche de la probabilité IP(a ≤ Z ≤ b).
Tn
Soit uα tel que si Z ∼ N (0, 1), alors IP(−uα ≤ Z ≤ uα ) = 1 − α, ou aussi tel que IP(Z ≥ uα ) = IP(Z ≤ −uα ) = α/2.
Pour ce uα , lu dans la table de la loi N (0, 1), la probabilité
√
n(X − µ)
√
≤ uα est proche de 1 − α.
IP −uα ≤
Tn
On en déduit que la probabilité
√
√ uα Tn
uα Tn
≤µ≤X+ √
est proche de 1 − α.
IP X − √
n
n
L’intervalle de confiance bilatéral symétrique théorique pour µ de niveau de confiance 1 − α est donc
√
√ uα Tn
uα Tn
Iµ,α = X − √
; X+ √
, où uα est tel que IP(N (0, 1) ≤ uα ) = 1 − α/2.
n
n
En général, on choisit comme estimateur de σ 2 , Tn = S 2 = (n − 1)−1
Tn = Se2 = n−1
n
X
n
X
(Xi − X)2 . Mais on peut aussi choisir
i=1
(Xi − X)2 , ou tout autre estimateur consistant de Var(X1 ) = σ 2 .
i=1
5
Intervalle de confiance pour une probabilité
Soit (X1 , · · · , Xn ) un n-échantillon de loi B(p) où p est inconnue. On cherche un intervalle Ip,α = [A; B], où A et
B sont deux variables aléatoires, fonctions de X1 , · · · , Xn telles que IP(p ∈ Ip,α ) = 1 − α.
Comme IE(X1 ) = p, c’est un cas particulier de l’estimation par intervalle d’une espérance. La probabilité p est estimée
par l’estimateur sans biais et consistant X. D’après le Théoème Central Limite,
√
n(X − p) L
p
−→ N (0, 1).
p(1 − p) n→∞
Ici Var(X1 ) = p(1 − p) est inconnue et peut être estimée de manière consistante par Tn = X(1 − X)(= Se2 ).
Outil On utilise donc que
√
n(X − p) L
q
−→ N (0, 1)
n→∞
X(1 − X)
Soit uα tel que si Z ∼ N (0, 1), alors IP(−uα ≤ Z ≤ uα ) = 1 − α, ou aussi tel que IP(Z ≥ uα ) = IP(Z ≤ −uα ) = α/2.
Pour ce uα , lu dans la table de la loi N (0, 1), la probabilité


√
n(X
−
p)
IP −uα ≤ q
≤ uα  est proche de 1 − α.
X(1 − X)
On en déduit que la probabilité

IP X −
uα
q
q

X(1 − X)
uα X(1 − X)
 est proche de 1 − α.
√
√
≤p≤X+
n
n
L’intervalle de confiance bilatéral symétrique théorique pour p de niveau de confiance 1 − α est donc
q
q


uα X(1 − X)
uα X(1 − X)
 , où uα est tel que IP(N (0, 1) ≤ uα ) = 1 − α/2.
√
√
Ip,α = X −
; X+
n
n
5.1
Un autre exemple
Soient X1 , · · · , Xn un échantillon de loi U[0,θ] , avec θ inconnu. Nous avons 2 estimateurs de θ possibles. Le premier
est l’estimateur obtenu par la méthode des moments et vaut θb(1) = 2X. Il est sans biais et il converge en moyenne
quadratique vers θ. On a de plus
√
3n(θb(1) − θ) L
−→ N (0, 1).
(1)
n→∞
θ
Le deuxième, obtenu par la méthode du maximum de vraisemblance est θb(2) = max1≤i≤n Xi . Il est biaisé, mais il
converge plus rapidement en moyenne quadratique vers θ que θb(1) . On a de plus
n(θ − θb(2) ) L
−→ E(1).
n→∞
θ
Des deux résultats (??) et (??), on peut déduire deux intervalles de confiances pour θ.
Soit α ∈ [0, 1] et soit uα tel que IP(|N (0, 1)| ≤ uα ) = 1 − α. Pour ce uα , si n est grand, d’après (??),
!
√
3n(θb(1) − θ)
IP −uα ≤
≤ uα proche de 1 − α,
θ
soit aussi
IP
√
√ !
−uα + 3n
1
uα + 3n
≤ ≤ √
proche de 1 − α.
√
θ
3nθb(1)
3nθb(1)
On en déduit une premier intervalle de confiance théorique au niveau de confiance 1 − α
" √
#
√
3nθb(1)
3nθb(1)
√ ;
√
I1 (θ) =
, où uα est tel que IP(N (0, 1) ≤ uα ) = 1 − α/2.
uα + 3n −uα + 3n
(2)
Soit α ∈ [0, 1] et soit cα et dα tels que IP(cα ≤ E(1) ≤ dα ) = 1 − α, par exemple IP(E(1) ≤ cα ) = α/2 et IP(E(1) ≤
dα ) = 1 − α/2. Pour ces deux valeurs cα et dα , si n est grand, d’après (??),
!
n(θ − θb(2) )
IP cα ≤
≤ dα proche de 1 − α,
θ
soit aussi
1
−cα + n
−dα + n
≤ ≤
proche de 1 − α.
θ
nθb(2)
nθb(2)
On en déduit une premier intervalle de confiance théorique au niveau de confiance 1 − α
"
#
nθb(2) nθb(2)
I2 (θ) =
;
, où cα et sont tels que IP(E(1) ≤ cα ) = α/2 et IP(E(1) ≤ dα ) = 1 − α/2.
n − cα n − dα
IP
En pratique le calculs de cα et dα se fait en utilisant que IP(E(1) ≥ t) = e−t . Par conséquent cα et dα sont tels que
cα = − ln(1 − α/2) et dα = − ln(α/2).
Téléchargement