Intervalles de confiance 1 Intervalle de confiance pour un sondage 2

publicité
Paul-Antoine Chevalier et Hugo Harari-Kermadec
7 décembre 2009
Statistiques
TD 5 : Intervalles de confiance
L3, ENS-Cachan, 2009-2010
1
Intervalle de confiance pour un sondage
Nous avons des données issues d’une enquête demandant aux Américains s’ils approuvent
la politique menée par le président Bush. Il y a 1500 répondants contactés par un sondage
aléatoire. On obtient que 35% des répondants soutiennent la politique de Bush. Construisez
un intervalle de confiance à 95 % autour de la valeur estimée.
Corrigé:
IC95 = [p̂ − q975 ∗ σ̂, p̂ + q975 ∗ σ̂]
– Comme la taille de l’échantillon (N) est grande, on peut approximer la loi des erreurs
par une loi normale (Théorème central limite) On prend donc le quantile à 97,5 %
de la loi normale q975 = 1.96 (voir table de quantiles).
– On veut estimer l’écart-type de l’estimateur d’une proportion.
– La variance d’une Bernouilli de paramètre p vaut p(1 − p).
– On obtient donc
r
r
p̂(1 − p̂)
.35(1 − .35)
σ̂ =
=
N
1500
– sqrt((.35 * (1 - .35)) / 1 500) = 0.0123153021
– La borne inférieure vaut
.35 - (1.96 * sqrt((.35 * (1 - .35)) / 1 500)) = 0.325862008
– La borne supérieure vaut
.35 + (1.96 * sqrt((.35 * (1 - .35)) / 1 500)) = 0.374137992
2
Combien de parisiens portent des lunettes ?
(d’après P. Ardilly et Y. Tillé, Exercices corrigés de méthodes de sondage)
Quelle taille d’échantillon faut-il retenir pour connaı̂tre à deux points de pourcentage près
(au plus) et avec 95 chances sur 100, la proportion de Parisiens qui portent des lunettes ?
On suppose que chaque Parisien a la même probabilité d’être sondé, et que les individus
sont tirés avec remise.
Corrigé:
L’objectif est de déterminer la taille d’échantillon minimale (notée n0 ) telle que l’intervalle de confiance sur p, proportion de Parisiens portant des lunettes, soit de longueur
inférieure à 0,04. Rappelons qu’un intervalle de confiance à 100(1−α)% est un segment
[U1 , U2 ] tel que
P ([U1 , U2 ] 3 p) = 1 − α
(c’est l’intervalle qui est aléatoire ici, d’où la notation). L’intervalle est souvent asymptotique dans le sens que cette égalité n’est vraie que lorsque n → +∞ (où n est le
nombre d’individus sondés).
Pour construire l’intervalle de confiance, on s’appuie sur les données de l’enquête. Soit
Yi la variable valant 1 si le ième individu sondé porte des lunettes, 0 sinon. On note
également, pour le kième Parisien (qu’il soit interrogé ou non) xk l’indicatrice de port
de lunettes. Enfin le nombre de Parisiens est noté N . On a :
P (Yi = 1) =
N
X
P (k est sondé) xk =
k=1
N
1 X
xk = p
N
k=1
puisque chaque individu a la même probabilité d’être sondé. Donc Yi ∼ B(p). De plus
les (Yi )1≤i≤n sont indépendants puisque le tirage est avec remise.
Le principe de construction d’un intervalle de confiance est proche (quoique légèrement
différent) de celui d’une statistique de test. Puisque les (Yi )1≤i≤n sont i.i.d., on peut
appliquer le théorème central limite :
√
Loi
n(Y − p) −→ N (0, p(1 − p))
Soit encore
√
Y −p
Loi
np
−→ N (0, 1)
p(1 − p)
Maintenant, d’après la loi des grands nombres et puisque x 7→ x(1 − x) est continue,
P roba
Y (1 − Y ) −→ p(1 − p). Par conséquent, d’après le théorème de Slutsky,
√
En d’autres termes :

P qα/2 ≤
√
Y −p
Loi
nq
−→ N (0, 1)
Y (1 − Y )
Y −p

n→+∞
nq
≤ q1−α/2  −→ 1 − α
Y (1 − Y )
où qx est le quantile d’ordre x d’une N (0, 1). Par symétrie, on a qα/2 = −q1−α/2 donc :
s
s
Y (1 − Y )
Y (1 − Y ) n→+∞
probaY − q1−α/2
≤ p ≤ Y + q1−α/2
−→ 1 − α
n
n
q
)
La longueur de l’intervalle vaut donc 2q1−α/2 Y (1−Y
. Donc il s’agit de déterminer n0
n
minimal tel que
s
q1−α/2
Y (1 − Y )
≤ 0, 02
n0
Cependant, nous sommes confrontés à une difficulté : Y n’est pas observable ex ante.
Cependant x 7→ x(1 − x) est une parabole maximale en x = 1/2, de valeur 1/4 en ce
point. Si l’on se place dans la situation la moins avantageuse, on doit donc déterminer
le n0 minimal satisfaisant à :
q1−α/2
≤ 0, 02
√
2 n0
Ce qui s’écrit encore, pour α = 0, 05
"
n0 =
q0.975
0, 04
2 #
+1
où [.] est la partie entière. On obtient finalement n0 = 2401.
3
Les loyers à Paris
Désireux de louer un studio pour vous loger, vous avez collecté des informations sur les
loyers de studios mis en location. Vous cherchez θ0 , l’espérance (ou plutôt la désespérance)
du loyer à Paris. Vous consultez donc les petites annonces et recueillez les 6 loyers suivants :
390, 460, 650, 410, 270 et 780 euros.
Un de vos camarades, plus malin que vous, a collecté 300 annonces sur internet. Il obtient
un loyer moyen de 550 euros et un écart-type de 300 euros.
A partir de deux échantillons supposés constitués d’observations indépendantes vous avez
obtenu deux estimations du loyer moyen, correspondant aux moyennes empiriques des
loyers sur chacun de ces échantillons.
+ Q1
Déterminez l’estimateur du maximum de vraisemblance de θ0 pour chaque échantillon.
Quelle hypothèse supplémentaire devez-vous faire pour obtenir cet estimateur ? Qu’observezvous ?
Qu’en concluez-vous quant aux propriétés à distance finie (i.e. avec un échantillon
de taille finie) et quant aux propriétés asymptotiques de cet estimateur ? Donnez en
particuliers leur espérance, leur variance, leur distribution à distance finie et leur
distribution asymptotique, en prédisant à chaque fois les hypothèses nécessaires.
Corrigé:
On fait l’hypothèse que la distribution des loyers peut être représentée par une loi
Normale d’espérance m et de variance σ 2 , identiques pour les deux échantillons.
Par ailleurs, on suppose les observations des loyers de l’échantillon indépendantes.
La densité d’une observation yi s’écrit donc :
1
1
f (yi ; σ 2 ; m) = √
exp[− 2 (yi − m)2 ]
2σ
2Πσ
La fonction de vraisemblance de l’échantillon est donc :
L(m; σ 2 ; y1 ; y2 ; ...; yn ) =
n
Y
i=1
√
1
1
exp[− 2 (yi − m)2 ]
2σ
2Πσ
Pour des raisons pratiques, on va utiliser la log-vraisemblance :
log[L(.)] =
=
n
X
i=1
n
X
log
1
1
√
exp[− 2 (yi − m)2 ]
2σ
2Πσ
1
log[(2Πσ 2 )− 2 ] +
i=1
n
X
i=1
−
1
(yi − m)2
2σ 2
n
n
n
1 X
= − log(2Π) − log(σ 2 ) − 2
(yi − m)2 .
2
2
2σ
i=1
La condition du second ordre étant vérifiée, on va annuler la dérivée de log[L(.)]
par rapport à m :
n
n
1 X
1X
∂ log[L(.)]
= 0 ⇐⇒ 2
(yi − m) = 0 ⇐⇒ m̂ =
yi .
∂m
σ
n
i=1
i=1
Pour chaque échantillon, l’estimateur de l’espérance est donc la moyenne empirique.
Les estimateurs ont donc les propriétés suivantes :
– Absence de biais (si toutes les observations ont la même espérance).
2
– Variance égale à σn (si toutes les observations sont indépendantes et ont la même
variance σ 2 ).
– Convergence presque sûre, en moyenne quadratique et en probabilité (si les observations sont indépendantes et identiquement distribuées).
– Efficacité (sous l’hypothèse de normalité).
– Distribution asymptotiquement normale (si les observation sont iid).
– Efficacité asymptotique (sous l’hypothèse de normalité).
+ Q2
Votre professeur de Statistique vous dit qu’il y a un moyen d’améliorer encore la
précision de l’estimation de θ0 en combinant votre estimation et celle de votre camarade. Il vous propose de calculer la moyenne arithmétique des deux estimations
en les pondérant donc chacune par 0.5 : θ̂∗ = 0.5θ̂1 + 0.5θ̂2 , où θ̂1 et θ̂1 représentent
respectivement votre estimation de θ0 et celle de votre camarade. Calculer la variance
de cette nouvelle estimation du loyer moyen.
Corrigé:
On a :
θ̂∗ = 0.5θ̂1 + 0.5θ̂2 = 397.
La variance vaut :
V ar(θ̂∗ ) = 0, 25V ar(θ̂1 ) + 0, 25V ar(θ̂2 ) + 0, 252̇Ċov(θ̂1 ; θ̂2 )
Si les échantillons sont indépendants, les estimateurs (qui sont des statistiques,
c’est-à-dire des fonctions des données) sont indépendants, donc Cov(θ̂1 ; θ̂2 ) = 0.
C’est-à-dire que les deux estimations sont indépendantes, ce qui est raisonnable
dès lors que les annonces utilisées sont différentes.
˙
V (θ̂∗ ) = 0, 25(5844
+ 300) = 1 536.
Remarque : cette variance est supérieure à celle de l’échantillon 2 seul (300) ! On
a en fait perdu de l’information en utilisant les deux estimateurs sans prendre en
compte la taille des échantillons.
+ Q3
Votre chargé de TD vous fait remarquer que votre professeur de statistique pourrait
être plus malin et qu’en choisissant mieux la pondération de ces deux estimations, on
peut encore améliorer la précision du résultat. Soient a et 1 − a les pondérations “
optimales ” recherchées : θ̂∗∗ = aθ̂1 + (1 − a)θ̂2 .
Quelle est la variance de ce nouvel estimateur du loyer moyen ? Quelle est la valeur
de a qui minimise cette variance ?
Corrigé:
Soit a∗∗ et (1 − a∗∗ ) les pondérations optimales qui permettent d’améliorer la
précision du résultat : θ̂∗∗ = a∗∗ θ̂1 + (1 − a∗∗ )θ̂2 .
D’après l’indépendance montrée pour la question précédente, il vient :
V ar(θ̂∗∗ ) = a2∗∗ V ar(θ̂1 ) + (1 − a∗∗ )2 V ar(θ̂2 )
Minimisons cette variance par rapport à a en annulant
∂V ar(θ̂∗∗ ) ∂a
a=a
:
∗∗
∂V ar(θ̂∗∗ ) ∂a
= 2a∗∗ ·V ar(θ̂1 )−2(1−a∗∗ )·V ar(θ̂2 ) = 0 ⇐⇒ a∗∗ =
a=a∗∗
Or, V ar(θ̂1 ) =
σ12
n1
et V ar(θ̂2 ) =
σ22
n2 .
V ar(θ̂2 )
V ar(θ̂1 ) + V ar(θ̂2 )
On suppose σ12 = σ22 = σ 2 donc
a∗∗ =
n2
.
n1 + n2
Le poids à accorder à la première estimation est donc a∗∗ = 0, 02 et celui à accorder
à la seconde 1−a∗∗ = 0, 98. Il est logique d’accorder davantage de poids à la seconde
estimation qui est plus précise.
En appliquant ces pondérations, on obtient V ar(θ̂∗∗ ) = 290, 6. La précision est
donc améliorée par rapport à Q3 mais aussi par rapport à l’échantillon 2 seul.
On peut, à titre indicatif, appliquer ces pondérations pour calculer la nouvelle
moyenne empirique des deux échantillons réunis :
θ̂∗∗ = a∗∗ θ̂1 + (1 − a∗∗ )θ̂2 = 0, 02 · 493 + 0, 98 · 550 = 549.
+ Q4
Montrez comment on peut retrouver ce résultat par la méthode du maximum de vraisemblance (idée : calculez l’estimateur à partir de l’échantillon complet qui regroupe
les deux échantillons initiaux et exprimez l’estimateur obtenu en fonction de ceux
calculés à partir de chaque sous-échantillon).
A quelle(s) condition(s) avez-vous le droit de procéder à une telle procédure de “
regroupement ” des observations des deux échantillons ?
.
Corrigé:
En décomposant, on obtient la fonction de log-vraisemblance :
n1
n2
n1
n1
1 X
n2
1 X
2
2 n2
2
log[L(.)] = − log(2Π)− log(σ )− 2
(yi −m) − log(2Π)− log(σ )− 2
(yj −m)2
2
2
2σ
2
2
2σ
i=1
j=1
La condition du premier ordre s’écrit donc :
n1
X
(yi − m) +
i=1
n1
X
yi − n1 m +
i=1
n1
n1
1 X
yi
n1
!
i=1
n2
X
(yj − m) = 0
j=1
n
2
X
yj − n2 m = 0
j=1


nj
X
1
− n1 m + n2 
yj  − n 2 m = 0
n2
j=1
m(n1 + n2 ) = n1 θ̂1 + n2 θ̂2 ⇐⇒ m̂ =
n2
n1
θ̂1 +
θ̂2 .
n1 + n2
n1 + n2
On peut combiner des estimateurs comme nous l’avons fait ici si les deux échantillons
ont la même espérance, la même variance et sont indépendants.
+ Q5
Construisez un intervalle de confiance à 95% pour le loyer moyen à partir des deux
échantillons initiaux (avec n=6 pour l’un et n=300 pour l’autre) ainsi qu’à partir de
l’échantillon complet regroupant les deux. Qu’observez-vous ?
Corrigé:
Méthode générale On choisit ici α = 0, 05
Soit ȳ notre estimateur du loyer moyen m.
1 − α = P [ȳ − a < m < ȳ + a] ⇐⇒ 1 − α = P [−a < ȳ − m < a].
On va maintenant utiliser l’estimation de l’écart type de ȳ pour réduire la variable
aléatoire :
−a
ȳ − m
a
√ < √ ]
⇐⇒ 1 − α = P [ √ <
σ/ n
σ/ n
σ/ n
√
Avec σ/ n l’écart-type de l’estimation du loyer moyen.
Comme on suppose que le loyer moyen suit une loi Normale, on sait que la variable
ȳ−m
√ suit une loi Normale centrée réduite.
σ/ n
Si on connait σ, on introduit alors Φ(.) la fonction de répartition de la loi Normale
centrée réduite et
⇐⇒ 1 − α = Φ(
a
−a
a
√ ) − Φ( √ ) = 2Φ( √ ) − 1
σ/ n
σ/ n
σ/ n
Connaissant α, n et σ (ou au moins un estimateur de σ), on va chercher a qui
satisfasse l’expression précédente.
Échantillon 1 Ici, n1 = 6 est trop petit pour utiliser l’approximation normale, on
utilise donc la loi de Student à n − 1 degrés de liberté. Soit FT (k) (.)la fonction de
répartition de la loi de Student à k degrés de liberté.
√
On a pour le premier échantillon, ȳ = 493 et σȳ = 5 844 ≈ 76.
0, 95 = 2 ∗ FT (5) (
a
a
1, 95
) − 1 ⇐⇒ FT (5) ( ) =
= 0, 975
76
76
2
En cherchant 0,975 dans la table de la loi de Student à 5 degrés de liberté, on en
déduit :
a
= 2, 571 ⇐⇒ a = 2, 571 ∗ 76 = 195, 4
76
D’où l’intervalle suivant obtenu à partir de l’echantillon 1 :
0, 95 = P [297, 6 < m < 688, 4] ,
ce qui signifie que la moyenne des loyers est compris avec 95% de certitude dans
cet intervalle.
√
Échantillon 2 Pour le second échantillon, on a n2 = 300 , ȳ = 550 et σȳ = 300 ≈
a
17. On peut cette fois utiliser l’approximation normale, Φ( 17
) = 0, 975. En lisant
dans la table de la loi Normale centrée réduite, on en déduit :
a
= 1, 96 ⇐⇒ a = 1, 96 ∗ 17 = 33, 32
17
D’où l’intervalle suivant obtenu à partir de l’échantillon 2 :
0, 95 = P [516, 68 < m < 583, 32]
Ce résultat illustre le fait qu’en prenant davantage d’observations on a accru la
précision de l’estimation. Plus le nombre d’obsrevations est important, plus on se
rapproche de la vraie valeur du paramètre à estimer.
+ Q6
Même question en supposant que vous connaissez la vraie valeur de la variance des
loyers et que celle-ci est égale à la valeur estimée de la variance utilisée dans la question
précédente. Qu’observez vous ?
Corrigé:
Si l’on considère que l’on connaı̂t réellement la variance, alors le raisonnement ne
change pas pour le second échantillon, par contre on sait maintenant que l’estimateur du loyer moyen calculé à partir du premier échantillon suit bien une loi
a
Normale. On en déduit : Φ( 76
) = 1,95
2 = 0, 975. D’où :
a
= 1, 96 ⇐⇒ a = 1, 96 ∗ 76 = 148, 96
76
Il vient alors :
0, 95 = P [344, 04 < m < 641, 96]
En supposant qu’on connaisse la variance de l’échantillon, on a réduit l’intervalle de
confiance, la précision est donc plus importante pour un échantillon de petite taille.
En revanche, pour le second échantillon, de taille plus importante, il n’y a aucune
modification. Ceci vient du fait que l’estimation est convergente : pour un grand
échantillon, il est équivalent de disposer de la vraie valeur ou d’une estimation de
cette valeur.
Téléchargement