Chapitre 3
Intervalles de confiance
Ce chapitre est consacré à la construction d’intervalles contenant le paramètre
inconnu supposé réel, avec un niveau de confiance fixé. Il contient essentiel-
lement des méthodes, sans rentrer dans un formalisme excessif.
Dans la suite, (Hn,{P
θ}θΘ)est un modèle statistique paramétrique avec
HRket ΘRd. Le paramètre d’intérêt est g(θ), avec g:ΘRune
fonction connue.
3.1 Principe général
L’objectif est de construire un intervalle contenant le paramètre inconnu. Celui-
ci est défini formellement de la fac˛on suivante :
Définition. Soit α]0,1[. Un intervalle de confiance pour g(θ)de niveau de
confiance (1α)est une statistique I à valeurs dans les intervalles de Rtelle
que pour chaque θΘ:
P
θg(θ)I=1α.
Dans cette définition, si l’observation (x1,···,xn)est une réalisation de la
loi P
θ0, la P
θ0-probabilité que (x1,···,xn)soit dans l’ensemble
(y1,···,yn)Hn:g(θ0)I(y1,···,yn)
29
30 CHAPITRE 3. INTERVALLES DE CONFIANCE
vaut alors (1α). Noter que les deux critères de qualité d’un intervalle de
confiance, i.e. sa longueur et son niveau de confiance, s’opposent et qu’il
est donc impératif de réaliser un compromis. En pratique, pour un niveau
de confiance raisonnable (souvent 90 ou 95 %), on cherche un intervalle de
confiance de plus petite longueur.
L’un des ingrédients de base pour construire un intervalle de confiance est
le quantile d’une loi sur R.
Définition. Soit F la fonction de répartition d’une loi νsur R. Le quantile
d’ordre r ]0,1[de la loi νest défini par
qr=infxR:F(x)r.
Les premières propriétés des quantiles sont décrites ci-dessous :
Proposition 3.1.1. Soit F la fonction de répartition d’une loi sur Ret qr
son quantile d’ordre r ]0,1[. Si F est continue, F(qr)=r. Si, de plus, F est
strictement croissante, alors qrest l’unique solution de l’équation F(.)=r.
Preuve. Il suffit de remarquer que, comme Fest croissante et continue à
droite, F(q
r)rF(qr), si F(q
r)est la limite à gauche de Fen qr.
Comme en atteste l’exemple qui suit, la recherche d’une variable aléatoire
pivot, i.e. une variable aléatoire dont la loi est indépendante de θpour chaque
θΘ, est essentielle dans la construction d’un intervalle de confiance.
Exemple. L’objectif est de construire un intervalle de confiance de niveau
1α]0,1[pour le paramètre du modèle statistique (Rn,{N(θ,1)n}θR).
Soient (X1,···,Xn)P
θ=N(θ,1)n,Φla fonction de répartition de la loi
N(0,1)et qle quantile d’ordre (1α/2)de la loi N(0,1). Comme n(¯
Xn
θ)est une variable aléatoire pivot de loi N(0,1),
P
θn|¯
Xnθ|q=Φ(q)Φ(q)=2Φ(q)1=1α,
car la densité de la loi N(0,1)est paire. Ainsi,
P
θθ¯
Xnq
n,¯
Xn+q
n=1α,
3.2. INTERVALLE DE CONFIANCE PAR EXCÈS 31
c’est-à-dire que l’intervalle de confiance de niveau (1α)pour le paramètre
θest [¯
Xnq/n,¯
Xn+q/n].
3.2 Intervalle de confiance par excès
La construction d’un intervalle de confiance s’appuie sur une variable aléa-
toire pivot. A défaut d’informations sur la loi de la variable aléatoire, ou bien
si la loi ne permet pas de construire un intervalle de confiance (c’est le cas si
elle est discrète), une option est de se retrancher sur une notion plus faible, en
exigeant seulement une minoration du niveau de confiance.
Définition. Soit α]0,1[. Un intervalle de confiance par excès pour g(θ)de
niveau de confiance (1α)est une statistique I à valeurs dans les intervalles
de Rtelle que pour chaque θΘ:
P
θg(θ)I1α.
Dans cette définition, si l’observation (x1,···,xn)est une réalisation de la
loi P
θ0, la P
θ0-probabilité que (x1,···,xn)soit dans l’ensemble
(y1,···,yn)Hn:g(θ0)I(y1,···,yn)
est alors plus grande que (1α).
Pour toute la suite de cette section, le modèle statistique se présente sous
la forme P
θ=Qn
θθΘ, avec Qθune loi sur HRde support [a,b]
indépendant de θ. Supposons de plus que le paramètre d’intérêt vérifie
g(θ)=EθX1=H
xQ
θ(dx)θΘ.
Utilisons la moyenne empirique pour estimer g(θ)(méthode des moments, cf
section 2.2). En procédant comme dans la section 1.1, on montre avec l’in-
égalité de Bienaymé-Tchebytchev que, si (X1,···,Xn)Qn
θ, alors
I1=¯
Xnba
nα,¯
Xn+ba
nα.
32 CHAPITRE 3. INTERVALLES DE CONFIANCE
est un intervalle de confiance par excès pour g(θ)de niveau (1α). Il peut
être amélioré en basant sa construction sur une inégalité plus précise, par
exemple l’inégalité de Hoeffding qui fait l’objet du prochain théorème.
Théorème 3.2.1. [INÉGALITÉ DE HOEFFDING]Soient Z1,···,Zndes va-
riables aléatoires réelles indépendantes et identiquement distribuées, définies
sur l’espace probabilisé (,A,P). Si il existe a <b tels que a Z1b
P-p.s., alors pour tout t >0:
P
n
i=1
(ZiEZ1)t2exp2t2
n(ba)2.
Utilisons cette inégalité pour construire un intervalle de confiance par ex-
cès de niveau (1α)pour le paramètre g(θ). Soit (X1,···,Xn)P
θ=Qn
θ.
Puisque les variables aléatoires X1,···,Xnsont indépendantes et de même loi
avec Xi[a,b]P
θ-p.s. et EθX1=g(θ), l’inégalité de Hoeffding donne
P
θ|¯
Xng(θ)|t=P
θ1
n
n
i=1
(XiEθXi)t
2exp2nt2
(ba)2,
pour chaque t>0. Avec le choix de
t=(ba)1
2nln 2
α
on trouve P
θ(|¯
Xng(θ)|t)α. Par suite,
I2=¯
Xn(ba)1
2nln 2
α,¯
Xn+(ba)1
2nln 2
α
est un intervalle de confiance par excès pour g(θ)de niveau (1α). Comparé
à l’intervalle I1obtenu avec l’inégalité de Bienaymé-Tchebytchev, les contri-
butions de la taille de l’échantillon, de l’ordre de 1/n, et de la longueur du
support de Qθsont les mêmes. En revanche, l’amélioration est nette en ce qui
concerne l’influence de αet des constantes.
3.2. INTERVALLE DE CONFIANCE PAR EXCÈS 33
Exemple. Reprenons l’étude statistique du jeu de pile ou face de la section
1.1 : 1000 tirages ont été réalisés indépendamment les uns des autres et,
en codant xi=1 si le i-ème tirage donne pile et 0 sinon, on a obtenu une
observation (x1,···,xn){0,1}n, avec n=1000, dont la moyenne ¯xnvaut
0.52. Le modèle statistique est ({0,1}n,{B(θ)n}θ]0,1[), et le paramètre
d’intérêt θest estimé par la moyenne empirique ¯
Xnissue de l’échantillon
(X1,···,Xn)B(θ)n. Pour a=0, b=1, α=0.05 et la réalisation ¯xnde ¯
Xn,
l’intervalle de confiance I2montre que la probabilité θ0que la pièce donne
pile appartient à [0.48,0.56], avec un niveau de confiance au moins égal à
0.95. Cet intervalle est à comparer à l’intervalle [0.44,0.60]au même niveau
de confiance, obtenu en utilisant l’inégalité de Bienaymé-Tchebytchev : la
longueur varie du simple au double.
Preuve du théorème 3.2.1. Supposons pour simplifier que Z1est centrée.
Notons Sn=n
i=1Zi. Pour tout r>0,
P(|Sn|t)=P(Snt)+P(Snt)
=PerSnert +PerSnert .
On en déduit de l’inégalité de Markov que
P|Sn|tert EerSn+EerSnert EerZ1n+EerZ1n,
Edésignant l’espérance sous la probabilité P. Majorons maintenant le terme
EesZ1, pour s=rou s=r. Par convexité de la fonction exponentielle et
comme Z1[a,b]P-p.s.,
esZ1=expZ1a
basb +bZ1
basaZ1a
baesb +bZ1
baesa.
Puisque Z1est centrée, il vient :
EesZ1≤− a
baesb +b
baesa.
Or, en posant p=a/(ba), on trouve la représentation :
a
baesb +b
baesa =expps(ba)+ln1p+pes(ba).
Par suite, si φ(x)=px +ln(1p+pex)pour tout x0:
EesZ1eφ(s(ba)).
1 / 8 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !