368 STATISTIQUE EN ACTION
En fait, puisque l’on dispose alors d’observations indépendantes et identiquement distribuées
selon une loi de Bernoulli de paramètre
µ(A)
, on peut recourir aux techniques du chapitre 3
pour estimer ce paramètre par un intervalle de confiance symétrique autour de
µn(A)
. (On y
propose plusieurs intervalles possibles, asymptotiques ou non.)
De même, si l’objectif est de bien estimer simultanément les probabilités
µ]−∞,x]pour tout x∈R,
alors la mesure empirique
µn
est encore un bon estimateur, comme l’énonce le théorème de
Glivenko–Cantelli (Théorème 8.7).
Cependant, on exige davantage ici : une estimation simultanée et de qualité de la probabilité
de tous les boréliens
A
. Comme on veut une proximité uniforme de tous les estimateurs
bµn(A)
aux
µ(A)
, on considère pour cela le critère dit de la distance en variation totale. Cette dernière
est définie pour deux probabilités boréliennes ν1et ν2par
dvt(ν1, ν2)=sup
A∈B(R)ν1(A)−ν2(A),
où
B(R)
est l’ensemble des boréliens de
R
. On note que d
vt
vérifie bien les trois axiomes de la
définition d’une distance (symétrie, séparation, inégalité triangulaire) et qu’elle est toujours
inférieure ou égale à 1.
Dans notre problème, il s’agit donc de garantir que l’estimateur
bµn
proposé est tel que
d
vtbµn, µ
est petit. Or, il est aisé de calculer la distance en variation totale entre la mesure
empirique
µn
et
µ
: elle vaut
1
. En effet,
A= {X1,...,Xn}
est un borélien tel que
µn(A)=1
mais
µ(A)=0
. La mesure empirique ne convient donc plus au vu de l’objectif plus ambitieux
d’estimation simultanée et il faut recourir à des techniques spécifiques.
Pour rendre les choses plus agréables et éviter tout phénomène de mesures étrangères,
comme ceux rencontrés avec
µn
, on se restreint d’une part au modèle
P
où toutes les probabili-
tés sont dominées par la mesure de Lebesgue et on impose d’autre part que l’estimateur
bµn
est
à valeurs dans
P
. En d’autres termes, on ne considérera que des lois
bµn
admettant une densité
b
fn
par rapport à la mesure de Lebesgue. La donnée d’un élément
µ
de
P
étant équivalente
à sa densité
f
par rapport à la mesure de Lebesgue, on ne parlera plus que de densités (de
probabilité) désormais. En particulier, dans le reste du corrigé, on s’attachera à estimer
f
par
un estimateur
b
fn
. Au passage et à un petit abus de notation près (l’identification d’une loi à sa
densité), on a désormais une description agréable du modèle, en termes d’un sous-ensemble
fermé de L1(λ),
P=f∈L1(λ) :f>0et ZR
fdλ=1.
Une première clé est que la distance en variation totale entre deux éléments
ν1
et
ν2
de
P
s’exprime en fonction de leurs densités
f1
et
f2
. Ce résultat forme le théorème de Scheffé. On
note ci-dessous
x+=max{x,0}
et
x−=max{−x,0}
les parties positive et négative d’un réel
x, comme on l’a déjà fait au chapitre 8.
http://www.dma.ens.fr/statenaction