Intervalles de confiance 1 Intervalle de confiance pour un sondage 2

Paul-Antoine Chevalier et Hugo Harari-Kermadec
7 décembre 2009
Statistiques
TD 5 : Intervalles de confiance
L3, ENS-Cachan, 2009-2010
1
Intervalle de confiance pour un sondage
Nous avons des données issues d’une enquête demandant aux Américains s’ils approuvent
la politique menée par le président Bush. Il y a 1500 répondants contactés par un sondage
aléatoire. On obtient que 35% des répondants soutiennent la politique de Bush. Construisez
un intervalle de confiance à 95 % autour de la valeur estimée.
Corrigé:
IC95 = [p̂ − q975 ∗ σ̂, p̂ + q975 ∗ σ̂]
– Comme la taille de l’échantillon (N) est grande, on peut approximer la loi des erreurs
par une loi normale (Théorème central limite) On prend donc le quantile à 97,5 %
de la loi normale q975 = 1.96 (voir table de quantiles).
– On veut estimer l’écart-type de l’estimateur d’une proportion.
– La variance d’une Bernouilli de paramètre p vaut p(1 − p).
– On obtient donc
r
r
p̂(1 − p̂)
.35(1 − .35)
σ̂ =
=
N
1500
– sqrt((.35 * (1 - .35)) / 1 500) = 0.0123153021
– La borne inférieure vaut
.35 - (1.96 * sqrt((.35 * (1 - .35)) / 1 500)) = 0.325862008
– La borne supérieure vaut
.35 + (1.96 * sqrt((.35 * (1 - .35)) / 1 500)) = 0.374137992
2
Combien de parisiens portent des lunettes ?
(d’après P. Ardilly et Y. Tillé, Exercices corrigés de méthodes de sondage)
Quelle taille d’échantillon faut-il retenir pour connaı̂tre à deux points de pourcentage près
(au plus) et avec 95 chances sur 100, la proportion de Parisiens qui portent des lunettes ?
On suppose que chaque Parisien a la même probabilité d’être sondé, et que les individus
sont tirés avec remise.
Corrigé:
L’objectif est de déterminer la taille d’échantillon minimale (notée n0 ) telle que l’intervalle de confiance sur p, proportion de Parisiens portant des lunettes, soit de longueur
inférieure à 0,04. Rappelons qu’un intervalle de confiance à 100(1−α)% est un segment
[U1 , U2 ] tel que
P ([U1 , U2 ] 3 p) = 1 − α
(c’est l’intervalle qui est aléatoire ici, d’où la notation). L’intervalle est souvent asymptotique dans le sens que cette égalité n’est vraie que lorsque n → +∞ (où n est le
nombre d’individus sondés).
Pour construire l’intervalle de confiance, on s’appuie sur les données de l’enquête. Soit
Yi la variable valant 1 si le ième individu sondé porte des lunettes, 0 sinon. On note
également, pour le kième Parisien (qu’il soit interrogé ou non) xk l’indicatrice de port
de lunettes. Enfin le nombre de Parisiens est noté N . On a :
P (Yi = 1) =
N
X
P (k est sondé) xk =
k=1
N
1 X
xk = p
N
k=1
puisque chaque individu a la même probabilité d’être sondé. Donc Yi ∼ B(p). De plus
les (Yi )1≤i≤n sont indépendants puisque le tirage est avec remise.
Le principe de construction d’un intervalle de confiance est proche (quoique légèrement
différent) de celui d’une statistique de test. Puisque les (Yi )1≤i≤n sont i.i.d., on peut
appliquer le théorème central limite :
√
Loi
n(Y − p) −→ N (0, p(1 − p))
Soit encore
√
Y −p
Loi
np
−→ N (0, 1)
p(1 − p)
Maintenant, d’après la loi des grands nombres et puisque x 7→ x(1 − x) est continue,
P roba
Y (1 − Y ) −→ p(1 − p). Par conséquent, d’après le théorème de Slutsky,
√
En d’autres termes :

P qα/2 ≤
√
Y −p
Loi
nq
−→ N (0, 1)
Y (1 − Y )
Y −p

n→+∞
nq
≤ q1−α/2  −→ 1 − α
Y (1 − Y )
où qx est le quantile d’ordre x d’une N (0, 1). Par symétrie, on a qα/2 = −q1−α/2 donc :
s
s
Y (1 − Y )
Y (1 − Y ) n→+∞
probaY − q1−α/2
≤ p ≤ Y + q1−α/2
−→ 1 − α
n
n
q
)
La longueur de l’intervalle vaut donc 2q1−α/2 Y (1−Y
. Donc il s’agit de déterminer n0
n
minimal tel que
s
q1−α/2
Y (1 − Y )
≤ 0, 02
n0
Cependant, nous sommes confrontés à une difficulté : Y n’est pas observable ex ante.
Cependant x 7→ x(1 − x) est une parabole maximale en x = 1/2, de valeur 1/4 en ce
point. Si l’on se place dans la situation la moins avantageuse, on doit donc déterminer
le n0 minimal satisfaisant à :
q1−α/2
≤ 0, 02
√
2 n0
Ce qui s’écrit encore, pour α = 0, 05
"
n0 =
q0.975
0, 04
2 #
+1
où [.] est la partie entière. On obtient finalement n0 = 2401.
3
Les loyers à Paris
Désireux de louer un studio pour vous loger, vous avez collecté des informations sur les
loyers de studios mis en location. Vous cherchez θ0 , l’espérance (ou plutôt la désespérance)
du loyer à Paris. Vous consultez donc les petites annonces et recueillez les 6 loyers suivants :
390, 460, 650, 410, 270 et 780 euros.
Un de vos camarades, plus malin que vous, a collecté 300 annonces sur internet. Il obtient
un loyer moyen de 550 euros et un écart-type de 300 euros.
A partir de deux échantillons supposés constitués d’observations indépendantes vous avez
obtenu deux estimations du loyer moyen, correspondant aux moyennes empiriques des
loyers sur chacun de ces échantillons.
+ Q1
Déterminez l’estimateur du maximum de vraisemblance de θ0 pour chaque échantillon.
Quelle hypothèse supplémentaire devez-vous faire pour obtenir cet estimateur ? Qu’observezvous ?
Qu’en concluez-vous quant aux propriétés à distance finie (i.e. avec un échantillon
de taille finie) et quant aux propriétés asymptotiques de cet estimateur ? Donnez en
particuliers leur espérance, leur variance, leur distribution à distance finie et leur
distribution asymptotique, en prédisant à chaque fois les hypothèses nécessaires.
Corrigé:
On fait l’hypothèse que la distribution des loyers peut être représentée par une loi
Normale d’espérance m et de variance σ 2 , identiques pour les deux échantillons.
Par ailleurs, on suppose les observations des loyers de l’échantillon indépendantes.
La densité d’une observation yi s’écrit donc :
1
1
f (yi ; σ 2 ; m) = √
exp[− 2 (yi − m)2 ]
2σ
2Πσ
La fonction de vraisemblance de l’échantillon est donc :
L(m; σ 2 ; y1 ; y2 ; ...; yn ) =
n
Y
i=1
√
1
1
exp[− 2 (yi − m)2 ]
2σ
2Πσ
Pour des raisons pratiques, on va utiliser la log-vraisemblance :
log[L(.)] =
=
n
X
i=1
n
X
log
1
1
√
exp[− 2 (yi − m)2 ]
2σ
2Πσ
1
log[(2Πσ 2 )− 2 ] +
i=1
n
X
i=1
−
1
(yi − m)2
2σ 2
n
n
n
1 X
= − log(2Π) − log(σ 2 ) − 2
(yi − m)2 .
2
2
2σ
i=1
La condition du second ordre étant vérifiée, on va annuler la dérivée de log[L(.)]
par rapport à m :
n
n
1 X
1X
∂ log[L(.)]
= 0 ⇐⇒ 2
(yi − m) = 0 ⇐⇒ m̂ =
yi .
∂m
σ
n
i=1
i=1
Pour chaque échantillon, l’estimateur de l’espérance est donc la moyenne empirique.
Les estimateurs ont donc les propriétés suivantes :
– Absence de biais (si toutes les observations ont la même espérance).
2
– Variance égale à σn (si toutes les observations sont indépendantes et ont la même
variance σ 2 ).
– Convergence presque sûre, en moyenne quadratique et en probabilité (si les observations sont indépendantes et identiquement distribuées).
– Efficacité (sous l’hypothèse de normalité).
– Distribution asymptotiquement normale (si les observation sont iid).
– Efficacité asymptotique (sous l’hypothèse de normalité).
+ Q2
Votre professeur de Statistique vous dit qu’il y a un moyen d’améliorer encore la
précision de l’estimation de θ0 en combinant votre estimation et celle de votre camarade. Il vous propose de calculer la moyenne arithmétique des deux estimations
en les pondérant donc chacune par 0.5 : θ̂∗ = 0.5θ̂1 + 0.5θ̂2 , où θ̂1 et θ̂1 représentent
respectivement votre estimation de θ0 et celle de votre camarade. Calculer la variance
de cette nouvelle estimation du loyer moyen.
Corrigé:
On a :
θ̂∗ = 0.5θ̂1 + 0.5θ̂2 = 397.
La variance vaut :
V ar(θ̂∗ ) = 0, 25V ar(θ̂1 ) + 0, 25V ar(θ̂2 ) + 0, 252̇Ċov(θ̂1 ; θ̂2 )
Si les échantillons sont indépendants, les estimateurs (qui sont des statistiques,
c’est-à-dire des fonctions des données) sont indépendants, donc Cov(θ̂1 ; θ̂2 ) = 0.
C’est-à-dire que les deux estimations sont indépendantes, ce qui est raisonnable
dès lors que les annonces utilisées sont différentes.
˙
V (θ̂∗ ) = 0, 25(5844
+ 300) = 1 536.
Remarque : cette variance est supérieure à celle de l’échantillon 2 seul (300) ! On
a en fait perdu de l’information en utilisant les deux estimateurs sans prendre en
compte la taille des échantillons.
+ Q3
Votre chargé de TD vous fait remarquer que votre professeur de statistique pourrait
être plus malin et qu’en choisissant mieux la pondération de ces deux estimations, on
peut encore améliorer la précision du résultat. Soient a et 1 − a les pondérations “
optimales ” recherchées : θ̂∗∗ = aθ̂1 + (1 − a)θ̂2 .
Quelle est la variance de ce nouvel estimateur du loyer moyen ? Quelle est la valeur
de a qui minimise cette variance ?
Corrigé:
Soit a∗∗ et (1 − a∗∗ ) les pondérations optimales qui permettent d’améliorer la
précision du résultat : θ̂∗∗ = a∗∗ θ̂1 + (1 − a∗∗ )θ̂2 .
D’après l’indépendance montrée pour la question précédente, il vient :
V ar(θ̂∗∗ ) = a2∗∗ V ar(θ̂1 ) + (1 − a∗∗ )2 V ar(θ̂2 )
Minimisons cette variance par rapport à a en annulant
∂V ar(θ̂∗∗ ) ∂a
a=a
:
∗∗
∂V ar(θ̂∗∗ ) ∂a
= 2a∗∗ ·V ar(θ̂1 )−2(1−a∗∗ )·V ar(θ̂2 ) = 0 ⇐⇒ a∗∗ =
a=a∗∗
Or, V ar(θ̂1 ) =
σ12
n1
et V ar(θ̂2 ) =
σ22
n2 .
V ar(θ̂2 )
V ar(θ̂1 ) + V ar(θ̂2 )
On suppose σ12 = σ22 = σ 2 donc
a∗∗ =
n2
.
n1 + n2
Le poids à accorder à la première estimation est donc a∗∗ = 0, 02 et celui à accorder
à la seconde 1−a∗∗ = 0, 98. Il est logique d’accorder davantage de poids à la seconde
estimation qui est plus précise.
En appliquant ces pondérations, on obtient V ar(θ̂∗∗ ) = 290, 6. La précision est
donc améliorée par rapport à Q3 mais aussi par rapport à l’échantillon 2 seul.
On peut, à titre indicatif, appliquer ces pondérations pour calculer la nouvelle
moyenne empirique des deux échantillons réunis :
θ̂∗∗ = a∗∗ θ̂1 + (1 − a∗∗ )θ̂2 = 0, 02 · 493 + 0, 98 · 550 = 549.
+ Q4
Montrez comment on peut retrouver ce résultat par la méthode du maximum de vraisemblance (idée : calculez l’estimateur à partir de l’échantillon complet qui regroupe
les deux échantillons initiaux et exprimez l’estimateur obtenu en fonction de ceux
calculés à partir de chaque sous-échantillon).
A quelle(s) condition(s) avez-vous le droit de procéder à une telle procédure de “
regroupement ” des observations des deux échantillons ?
.
Corrigé:
En décomposant, on obtient la fonction de log-vraisemblance :
n1
n2
n1
n1
1 X
n2
1 X
2
2 n2
2
log[L(.)] = − log(2Π)− log(σ )− 2
(yi −m) − log(2Π)− log(σ )− 2
(yj −m)2
2
2
2σ
2
2
2σ
i=1
j=1
La condition du premier ordre s’écrit donc :
n1
X
(yi − m) +
i=1
n1
X
yi − n1 m +
i=1
n1
n1
1 X
yi
n1
!
i=1
n2
X
(yj − m) = 0
j=1
n
2
X
yj − n2 m = 0
j=1


nj
X
1
− n1 m + n2 
yj  − n 2 m = 0
n2
j=1
m(n1 + n2 ) = n1 θ̂1 + n2 θ̂2 ⇐⇒ m̂ =
n2
n1
θ̂1 +
θ̂2 .
n1 + n2
n1 + n2
On peut combiner des estimateurs comme nous l’avons fait ici si les deux échantillons
ont la même espérance, la même variance et sont indépendants.
+ Q5
Construisez un intervalle de confiance à 95% pour le loyer moyen à partir des deux
échantillons initiaux (avec n=6 pour l’un et n=300 pour l’autre) ainsi qu’à partir de
l’échantillon complet regroupant les deux. Qu’observez-vous ?
Corrigé:
Méthode générale On choisit ici α = 0, 05
Soit ȳ notre estimateur du loyer moyen m.
1 − α = P [ȳ − a < m < ȳ + a] ⇐⇒ 1 − α = P [−a < ȳ − m < a].
On va maintenant utiliser l’estimation de l’écart type de ȳ pour réduire la variable
aléatoire :
−a
ȳ − m
a
√ < √ ]
⇐⇒ 1 − α = P [ √ <
σ/ n
σ/ n
σ/ n
√
Avec σ/ n l’écart-type de l’estimation du loyer moyen.
Comme on suppose que le loyer moyen suit une loi Normale, on sait que la variable
ȳ−m
√ suit une loi Normale centrée réduite.
σ/ n
Si on connait σ, on introduit alors Φ(.) la fonction de répartition de la loi Normale
centrée réduite et
⇐⇒ 1 − α = Φ(
a
−a
a
√ ) − Φ( √ ) = 2Φ( √ ) − 1
σ/ n
σ/ n
σ/ n
Connaissant α, n et σ (ou au moins un estimateur de σ), on va chercher a qui
satisfasse l’expression précédente.
Échantillon 1 Ici, n1 = 6 est trop petit pour utiliser l’approximation normale, on
utilise donc la loi de Student à n − 1 degrés de liberté. Soit FT (k) (.)la fonction de
répartition de la loi de Student à k degrés de liberté.
√
On a pour le premier échantillon, ȳ = 493 et σȳ = 5 844 ≈ 76.
0, 95 = 2 ∗ FT (5) (
a
a
1, 95
) − 1 ⇐⇒ FT (5) ( ) =
= 0, 975
76
76
2
En cherchant 0,975 dans la table de la loi de Student à 5 degrés de liberté, on en
déduit :
a
= 2, 571 ⇐⇒ a = 2, 571 ∗ 76 = 195, 4
76
D’où l’intervalle suivant obtenu à partir de l’echantillon 1 :
0, 95 = P [297, 6 < m < 688, 4] ,
ce qui signifie que la moyenne des loyers est compris avec 95% de certitude dans
cet intervalle.
√
Échantillon 2 Pour le second échantillon, on a n2 = 300 , ȳ = 550 et σȳ = 300 ≈
a
17. On peut cette fois utiliser l’approximation normale, Φ( 17
) = 0, 975. En lisant
dans la table de la loi Normale centrée réduite, on en déduit :
a
= 1, 96 ⇐⇒ a = 1, 96 ∗ 17 = 33, 32
17
D’où l’intervalle suivant obtenu à partir de l’échantillon 2 :
0, 95 = P [516, 68 < m < 583, 32]
Ce résultat illustre le fait qu’en prenant davantage d’observations on a accru la
précision de l’estimation. Plus le nombre d’obsrevations est important, plus on se
rapproche de la vraie valeur du paramètre à estimer.
+ Q6
Même question en supposant que vous connaissez la vraie valeur de la variance des
loyers et que celle-ci est égale à la valeur estimée de la variance utilisée dans la question
précédente. Qu’observez vous ?
Corrigé:
Si l’on considère que l’on connaı̂t réellement la variance, alors le raisonnement ne
change pas pour le second échantillon, par contre on sait maintenant que l’estimateur du loyer moyen calculé à partir du premier échantillon suit bien une loi
a
Normale. On en déduit : Φ( 76
) = 1,95
2 = 0, 975. D’où :
a
= 1, 96 ⇐⇒ a = 1, 96 ∗ 76 = 148, 96
76
Il vient alors :
0, 95 = P [344, 04 < m < 641, 96]
En supposant qu’on connaisse la variance de l’échantillon, on a réduit l’intervalle de
confiance, la précision est donc plus importante pour un échantillon de petite taille.
En revanche, pour le second échantillon, de taille plus importante, il n’y a aucune
modification. Ceci vient du fait que l’estimation est convergente : pour un grand
échantillon, il est équivalent de disposer de la vraie valeur ou d’une estimation de
cette valeur.

Intervalles de confiance 1 Intervalle de confiance pour un sondage 2

Documents connexes

Produits

Soutien

Intervalles de confiance 1 Intervalle de confiance pour un sondage 2

Documents connexes

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib