Paul-Antoine Chevalier et Hugo Harari-Kermadec 7 d´ecembre 2009
Statistiques
TD 5 : Intervalles de confiance
L3, ENS-Cachan, 2009-2010
1 Intervalle de confiance pour un sondage
Nous avons des donn´ees issues d’une enquˆete demandant aux Am´ericains s’ils approuvent
la politique men´ee par le pr´esident Bush. Il y a 1500 r´epondants contact´es par un sondage
al´eatoire. On obtient que 35% des r´epondants soutiennent la politique de Bush. Construisez
un intervalle de confiance `a 95 % autour de la valeur estim´ee.
Corrig´e:
IC95 = [ˆpq975 ˆσ, ˆp+q975 ˆσ]
Comme la taille de l’´echantillon (N) est grande, on peut approximer la loi des erreurs
par une loi normale (Th´eor`eme central limite) On prend donc le quantile `a 97,5 %
de la loi normale q975 = 1.96 (voir table de quantiles).
On veut estimer l’´ecart-type de l’estimateur d’une proportion.
La variance d’une Bernouilli de param`etre pvaut p(1 p).
On obtient donc
ˆσ=rˆp(1 ˆp)
N=r.35(1 .35)
1500
sqrt((.35 * (1 - .35)) / 1 500) = 0.0123153021
La borne inf´erieure vaut
.35 - (1.96 * sqrt((.35 * (1 - .35)) / 1 500)) = 0.325862008
La borne sup´erieure vaut
.35 + (1.96 * sqrt((.35 * (1 - .35)) / 1 500)) = 0.374137992
2 Combien de parisiens portent des lunettes ?
(d’apr`es P. Ardilly et Y. Till´e, Exercices corrig´es de m´ethodes de sondage)
Quelle taille d’´echantillon faut-il retenir pour connaˆıtre `a deux points de pourcentage pr`es
(au plus) et avec 95 chances sur 100, la proportion de Parisiens qui portent des lunettes ?
On suppose que chaque Parisien a la mˆeme probabilit´e d’ˆetre sond´e, et que les individus
sont tir´es avec remise.
Corrig´e:
L’objectif est de d´eterminer la taille d’´echantillon minimale (not´ee n0) telle que l’inter-
valle de confiance sur p, proportion de Parisiens portant des lunettes, soit de longueur
inf´erieure `a 0,04. Rappelons qu’un intervalle de confiance `a 100(1α)% est un segment
[U1, U2] tel que
P([U1, U2]3p)=1α
(c’est l’intervalle qui est al´eatoire ici, d’o`u la notation). L’intervalle est souvent asymp-
totique dans le sens que cette ´egalit´e n’est vraie que lorsque n+(o`u nest le
nombre d’individus sond´es).
Pour construire l’intervalle de confiance, on s’appuie sur les donn´ees de l’enquˆete. Soit
Yila variable valant 1 si le i`eme individu sond´e porte des lunettes, 0 sinon. On note
´egalement, pour le ki`eme Parisien (qu’il soit interrog´e ou non) xkl’indicatrice de port
de lunettes. Enfin le nombre de Parisiens est not´e N. On a :
P(Yi= 1) =
N
X
k=1
P(kest sond´e) xk=1
N
N
X
k=1
xk=p
puisque chaque individu a la mˆeme probabilit´e d’ˆetre sond´e. Donc YiB(p). De plus
les (Yi)1insont ind´ependants puisque le tirage est avec remise.
Le principe de construction d’un intervalle de confiance est proche (quoique l´eg`erement
diff´erent) de celui d’une statistique de test. Puisque les (Yi)1insont i.i.d., on peut
appliquer le th´eor`eme central limite :
n(Yp)Loi
→ N(0, p(1 p))
Soit encore nYp
pp(1 p)
Loi
→ N(0,1)
Maintenant, d’apr`es la loi des grands nombres et puisque x7→ x(1 x) est continue,
Y(1 Y)P roba
p(1 p). Par cons´equent, d’apr`es le th´eor`eme de Slutsky,
nYp
qY(1 Y)
Loi
→ N(0,1)
En d’autres termes :
P
qα/2nYp
qY(1 Y)q1α/2
n+
1α
o`u qxest le quantile d’ordre xd’une N(0,1). Par sym´etrie, on a qα/2=q1α/2donc :
probaY q1α/2sY(1 Y)
npY+q1α/2sY(1 Y)
n
n+
1α
La longueur de l’intervalle vaut donc 2q1α/2qY(1Y)
n. Donc il s’agit de d´eterminer n0
minimal tel que
q1α/2sY(1 Y)
n00,02
Cependant, nous sommes confront´es `a une difficult´e : Yn’est pas observable ex ante.
Cependant x7→ x(1 x) est une parabole maximale en x= 1/2, de valeur 1/4 en ce
point. Si l’on se place dans la situation la moins avantageuse, on doit donc d´eterminer
le n0minimal satisfaisant `a : q1α/2
2n00,02
Ce qui s’´ecrit encore, pour α= 0,05
n0="q0.975
0,04 2#+ 1
o`u [.] est la partie enti`ere. On obtient finalement n0= 2401.
3 Les loyers `a Paris
D´esireux de louer un studio pour vous loger, vous avez collect´e des informations sur les
loyers de studios mis en location. Vous cherchez θ0, l’esp´erance (ou plutˆot la d´esesp´erance)
du loyer `a Paris. Vous consultez donc les petites annonces et recueillez les 6 loyers suivants :
390, 460, 650, 410, 270 et 780 euros.
Un de vos camarades, plus malin que vous, a collect´e 300 annonces sur internet. Il obtient
un loyer moyen de 550 euros et un ´ecart-type de 300 euros.
A partir de deux ´echantillons suppos´es constitu´es d’observations ind´ependantes vous avez
obtenu deux estimations du loyer moyen, correspondant aux moyennes empiriques des
loyers sur chacun de ces ´echantillons.
+Q1
D´eterminez l’estimateur du maximum de vraisemblance de θ0pour chaque ´echantillon.
Quelle hypoth`ese suppl´ementaire devez-vous faire pour obtenir cet estimateur ? Qu’observez-
vous ?
Qu’en concluez-vous quant aux propri´et´es `a distance finie (i.e. avec un ´echantillon
de taille finie) et quant aux propri´et´es asymptotiques de cet estimateur ? Donnez en
particuliers leur esp´erance, leur variance, leur distribution `a distance finie et leur
distribution asymptotique, en pr´edisant `a chaque fois les hypoth`eses n´ecessaires.
Corrig´e:
On fait l’hypoth`ese que la distribution des loyers peut ˆetre repr´esent´ee par une loi
Normale d’esp´erance met de variance σ2, identiques pour les deux ´echantillons.
Par ailleurs, on suppose les observations des loyers de l’´echantillon ind´ependantes.
La densit´e d’une observation yis’´ecrit donc :
f(yi;σ2;m) = 1
σexp[1
2σ2(yim)2]
La fonction de vraisemblance de l’´echantillon est donc :
L(m;σ2;y1;y2;...;yn) =
n
Y
i=1
1
σexp[1
2σ2(yim)2]
Pour des raisons pratiques, on va utiliser la log-vraisemblance :
log[L(.)] =
n
X
i=1
log 1
σexp[1
2σ2(yim)2]
=
n
X
i=1
log[(2Πσ2)1
2] +
n
X
i=1 1
2σ2(yim)2
=n
2log(2Π) n
2log(σ2)1
2σ2
n
X
i=1
(yim)2.
La condition du second ordre ´etant v´erifi´ee, on va annuler la d´eriv´ee de log[L(.)]
par rapport `a m:
log[L(.)]
m = 0 1
σ2
n
X
i=1
(yim)=0ˆm=1
n
n
X
i=1
yi.
Pour chaque ´echantillon, l’estimateur de l’esp´erance est donc la moyenne empirique.
Les estimateurs ont donc les propri´et´es suivantes :
Absence de biais (si toutes les observations ont la mˆeme esp´erance).
Variance ´egale `a σ2
n(si toutes les observations sont ind´ependantes et ont la mˆeme
variance σ2).
Convergence presque sˆure, en moyenne quadratique et en probabilit´e (si les ob-
servations sont ind´ependantes et identiquement distribu´ees).
Efficacit´e (sous l’hypoth`ese de normalit´e).
Distribution asymptotiquement normale (si les observation sont iid).
Efficacit´e asymptotique (sous l’hypoth`ese de normalit´e).
+Q2
Votre professeur de Statistique vous dit qu’il y a un moyen d’am´eliorer encore la
pr´ecision de l’estimation de θ0en combinant votre estimation et celle de votre ca-
marade. Il vous propose de calculer la moyenne arithm´etique des deux estimations
en les pond´erant donc chacune par 0.5 : ˆ
θ= 0.5ˆ
θ1+ 0.5ˆ
θ2, o`u ˆ
θ1et ˆ
θ1repr´esentent
respectivement votre estimation de θ0et celle de votre camarade. Calculer la variance
de cette nouvelle estimation du loyer moyen.
Corrig´e:
On a : ˆ
θ= 0.5ˆ
θ1+ 0.5ˆ
θ2= 397.
La variance vaut :
V ar(ˆ
θ) = 0,25V ar(ˆ
θ1)+0,25V ar(ˆ
θ2)+0,25˙
2˙
Cov(ˆ
θ1;ˆ
θ2)
Si les ´echantillons sont ind´ependants, les estimateurs (qui sont des statistiques,
c’est-`a-dire des fonctions des donn´ees) sont ind´ependants, donc Cov(ˆ
θ1;ˆ
θ2) = 0.
C’est-`a-dire que les deux estimations sont ind´ependantes, ce qui est raisonnable
d`es lors que les annonces utilis´ees sont diff´erentes.
V(ˆ
θ) = 0,25˙
(5844 + 300) = 1 536.
Remarque : cette variance est sup´erieure `a celle de l’´echantillon 2 seul (300) ! On
a en fait perdu de l’information en utilisant les deux estimateurs sans prendre en
compte la taille des ´echantillons.
+Q3
Votre charg´e de TD vous fait remarquer que votre professeur de statistique pourrait
ˆetre plus malin et qu’en choisissant mieux la pond´eration de ces deux estimations, on
peut encore am´eliorer la pr´ecision du r´esultat. Soient aet 1 ales pond´erations “
optimales ” recherch´ees : ˆ
θ∗∗ =aˆ
θ1+ (1 a)ˆ
θ2.
Quelle est la variance de ce nouvel estimateur du loyer moyen ? Quelle est la valeur
de aqui minimise cette variance ?
Corrig´e:
Soit a∗∗ et (1 a∗∗) les pond´erations optimales qui permettent d’am´eliorer la
pr´ecision du r´esultat : ˆ
θ∗∗ =a∗∗ˆ
θ1+ (1 a∗∗)ˆ
θ2.
D’apr`es l’ind´ependance montr´ee pour la question pr´ec´edente, il vient :
V ar(ˆ
θ∗∗) = a2
∗∗V ar(ˆ
θ1) + (1 a∗∗)2V ar(ˆ
θ2)
Minimisons cette variance par rapport `a aen annulant V ar(ˆ
θ∗∗ )
a a=a∗∗
:
V ar(ˆ
θ∗∗)
a a=a∗∗
= 2a∗∗·V ar(ˆ
θ1)2(1a∗∗)·V ar(ˆ
θ2)=0a∗∗ =V ar(ˆ
θ2)
V ar(ˆ
θ1) + V ar(ˆ
θ2).
Or, V ar(ˆ
θ1) = σ2
1
n1et V ar(ˆ
θ2) = σ2
2
n2. On suppose σ2
1=σ2
2=σ2donc
a∗∗ =n2
n1+n2
.
Le poids `a accorder `a la premi`ere estimation est donc a∗∗ = 0,02 et celui `a accorder
`a la seconde 1a∗∗ = 0,98. Il est logique d’accorder davantage de poids `a la seconde
estimation qui est plus pr´ecise.
En appliquant ces pond´erations, on obtient V ar(ˆ
θ∗∗) = 290,6. La pr´ecision est
donc am´elior´ee par rapport `a Q3 mais aussi par rapport `a l’´echantillon 2 seul.
On peut, `a titre indicatif, appliquer ces pond´erations pour calculer la nouvelle
moyenne empirique des deux ´echantillons r´eunis :
ˆ
θ∗∗ =a∗∗ˆ
θ1+ (1 a∗∗)ˆ
θ2= 0,02 ·493 + 0,98 ·550 = 549.
+Q4
Montrez comment on peut retrouver ce r´esultat par la m´ethode du maximum de vrai-
semblance (id´ee : calculez l’estimateur `a partir de l’´echantillon complet qui regroupe
les deux ´echantillons initiaux et exprimez l’estimateur obtenu en fonction de ceux
calcul´es `a partir de chaque sous-´echantillon).
A quelle(s) condition(s) avez-vous le droit de proc´eder `a une telle proc´edure de “
regroupement ” des observations des deux ´echantillons ?
1 / 8 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !