Chapitre 1
Modélisation statistique
1.1 Un exemple
Une pièce a une probabilité p0]0,1[de tomber sur "pile". Sur les 1000 lan-
cers réalisés indépendamment les uns des autres, on compte 520 "pile" et 480
"face". On est donc tenté de conclure que p00.52. Cependant, de la même ma-
nière qu’il est sans intérêt de donner une valeur approchée d’une intégrale sans
préciser l’erreur d’approximation, ce résultat n’a que peu de valeur, car il ne nous
renseigne pas sur l’erreur commise.
La construction d’un modèle permet de combler cette lacune. On note x1,··· ,xn
les résultats des n=1000 lancers de pièce, avec la convention suivante : xi=1 si
le i-ème lancer a donné "pile", et 0 dans le cas contraire. Le principe de base de
l’estimation statistique consiste à considérer que (x1,··· ,xn)est une réalisation
de la loi B(p0)n, si pour chaque p[0,1],B(p)désigne la loi de Bernouilli de
paramètre p:B(p) = pδ1+ (1p)δ0. En l’absence d’informations sur la valeur
de p0, on ne peut en fait que supposer que (x1,··· ,xn)est une réalisation de l’une
des lois {B(p)n,p]0,1[}.
De cet ensemble de probabilités, appelé modèle statistique, on cherche à dé-
duire la valeur de pqui s’ajuste le mieux aux observations x1,··· ,xn. Une réponse
raisonnable est basée sur l’intuition suivante : compte tenu des informations dont
on dispose, la meilleure approximation de p0que l’on puisse donner est une valeur
3
4CHAPITRE 1. MODÉLISATION STATISTIQUE
qui maximise l’application
p%→ B(p)n({x1,··· ,xn}) =
n
i=1
B(p)({xi}) = pn
i=1xi(1p)nn
i=1xi.
C’est le principe de construction d’une valeur approchée -on parlera d’estimateur-
de p0par maximisation de la vraisemblance. Selon ce principe, la valeur qui
s’ajuste le mieux aux observations est la moyenne empirique des observations :
¯xn=1
n
n
i=1
xi.
On retrouve ainsi la valeur ¯xn=0.52 du début.
L’introduction d’un modèle nous permet en plus de donner une erreur dans
l’approximation. Soit p]0,1[, et X1,··· ,Xndes v.a. i.i.d. sur l’espace probabilisé
(,F,P)de loi commune B(p). On peut calculer le risque quadratique, c’est-
à-dire le carré de la distance L2entre la cible pet l’estimateur ¯
Xn= (1/n)n
i=1Xi
obtenu par le principe de maximisation de la vraisemblance :
E(¯
Xnp)2=1
n
EX1(1EX1) = 1
np(1p).
Comme p(1p)1/4, l’erreur quadratique moyenne commise est donc majo-
rée par 1/(2n)0.016. Cependant, si le résultat donne des informations sur la
qualité de l’approximation, ce n’est qu’une évaluation en moyenne, qui ne dépend
donc pas des observations.
D’autres principes peuvent être envisagés pour préciser la qualité de l’approxi-
mation. Supposons que l’on veuille construire un intervalle dans lequel p0doit
se trouver, avec une probabilité de 0.95 par exemple. Pour chaque p]0,1[, on
cherche dans un premier temps un intervalle de confiance par excès I(X1,··· ,Xn)
construit avec la suite de v.a. X1,··· ,Xntel que
P(pI(X1,··· ,Xn)) 0.95.
On pourra donc conclure, avec les observations x1,··· ,xn, que p0I(x1,··· ,xn),
avec une probabilité de 95% au moins. D’après l’inégalité de Bienaymé-Tchebytchev,
on a pour tout ε>0 :
P(|¯
Xnp|ε)var(¯
Xn)
ε2=var(X1)
nε2=p(1p)
nε21
4nε2.
1.2. PRINCIPE FONDAMENTAL DE LA STATISTIQUE 5
De ce fait, P(|¯
Xnp|ε)0.05 au moins si 1/(4nε2)0.05 soit, tous calculs
faits, si ε0.07. Par suite,
P(p[¯
Xn0.07,¯
Xn+0.07]) 0.95.
En utilisant les observations x1,··· ,xnon a ¯xn=0.52, et donc p0[0.45,0.59]
avec une probabilité 0.95 au moins. Le moins que l’on dire ici est que cette infor-
mation est peu satisfaisante, eu égard au grand nombre d’observations !
Comment améliorer ces résultats ? Si la question posée est "la pièce est-elle
équilibrée ?", l’intervalle ci-dessus ne permet pas de donner une réponse ; dès lors,
quelle stratégie de décision envisager ? L’objet de ce cours est de donner quelques
éléments de réponse à ces questions. Dans un premier temps, il convient de fixer
les objectifs de l’inférence statistique, ainsi que le contexte mathématique.
1.2 Principe fondamental de la statistique
Le phénomène aléatoire fournit nobservations x1,··· ,xnde l’espace topologique
H. Celles-ci sont supposées être les réalisations d’une loi Q0sur l’espace pro-
babilisable (H,B(H)). Le principe de l’inférence statistique est d’utiliser ces n
observations pour en déduire Q0. Cette approche est-elle raisonnable ? En d’autre
termes, est-il possible de reconstruire un approximation de Q0à partir des obser-
vations x1,··· ,xn? Nous allons voir que la réponse est affirmative, au moins dans
le cas où le phénomène aléatoire global consiste en nphénomènes indépendants
et régis par la même loi.
Au préalable, rappelons que la suite de probabilités (νn)nsur Rkconverge
étroitement vers la probabilité νsi, pour chaque fonction f:RkRcontinue
bornée, on a : !Rkfdνn!Rkfdν.
Le critère de convergence de Lévy nous affirme que (νn)nconverge étroitement
vers νsi la suite (ˆ
νn)nconverge simplement vers ˆ
ν, où ˆ
νdésigne la transformée
de Fourier de ν, i.e. la fonction
ˆ
ν:t%→ !Rkexp(itTx)ν(dx),
et idem pour ˆ
νn.
6CHAPITRE 1. MODÉLISATION STATISTIQUE
Dans la suite, δxdésigne la mesure de Dirac en xRk.
Théorème [VARADARAJAN]Soit Z1,Z2,··· des v.a.i.i.d. sur (,F,P)à valeurs
dans Rk, de loi commune ν. On note νnla mesure empirique des n 1ères v.a., i.e.
νn=1
n
n
i=1
δZi.
Alors, P-p.s., la suite de mesures (νn)nconverge étroitement vers ν.
Preuve Pour simplifier la preuve, on suppose que Z1est intégrable. D’après le
critére de Lévy, il suffit de montrer que
P"tRk:ˆ
νn(t)ˆ
ν(t)#=1,
si ˆ
νnet ˆ
νdésignent les transformées de Fourier de νnet ν. Or, la loi forte des
grands nombres nous montre que pour tout tRk, l’événement
(t) = {ˆ
νn(t)ˆ
ν(t)}
est de probabilité 1. Soit TRkun ensemble dénombrable dense, et
0=$
tT
(t)$$%1
n
n
j=1,Zj, −E,Z1,&.
Comme Z1est intégrable et Test dénombrable, on a P(0) = 1 d’après la loi forte
des grands nombres et car P((t)) = 1 pour tout t. Fixons tRket ω0. On
choisit une suite (tp)pde Ttelle que tpt, et on note pour tout sRk,ˆ
νω
n(s)la
réalisation en ωde ˆ
νn(s), i.e.
ˆ
νω
n(s) = 1
n
n
j=1
exp(isTZj(ω)).
Soit pfixé. On a :
|ˆ
νω
n(t)ˆ
ν(t)||ˆ
νω
n(t)ˆ
νω
n(tp)|+|ˆ
νω
n(tp)ˆ
ν(tp)|+|ˆ
ν(tp)ˆ
ν(t)|
≤ ,ttp,'1
n
n
j=1,Zj(ω),+E,Z1,(+|ˆ
νω
n(tp)ˆ
ν(tp)|
1.3. MODÈLE STATISTIQUE 7
Par suite, pour tout p:
limsup
n|ˆ
νω
n(t)ˆ
ν(t)|2,ttp,E,Z1,.
En faisant enfin tendre pvers l’infini, on peut en déduire que pour tout ω0et
tout tRk,ˆ
νω
n(t)ˆ
ν(t). Comme P(0) = 1, le résultat est démontré. !
Reprenons le contexte où les observations x1,··· ,xnHsont issues de n
phénomènes aléatoires indépendants et régis par la même loi Q0sur H. Dans ce
cadre, Q0s’appelle mesure théorique. Le théorème de Varadarajan montre que si
(X1,··· ,Xn)suit la loi Qn
0alors la mesure empirique
1
n
n
i=1
δXi
est proche de la mesure Q0, lorsque nest assez grand. Autrement dit, en multi-
pliant les expériences, la mesure discrète
1
n
n
i=1
δxi
est proche de la mesure Q0. Ce résultat donne un appui théorique à la démarche
statistique consistant à tenter de reconstruire la mesure théorique Q0à l’aide des
observations x1,··· ,xn. Toute démarche en statistique inférentielle asymptotique
est basée sur ce théorème, qui mérite donc son titre de "Théorème fondamental de
la statistique".
Cependant, ce théorème ne nous donne pas d’information sur la proximité
entre la mesure empirique et la mesure théorique. En réalité, un tel objectif est
hors de portée en règle générale, sans plus d’information sur la forme de la loi
théorique. De ce fait, il est donc nécessaire de restreindre l’ensemble des lois de
probabilités censées représenter l’expérience aléatoire ; cette idée va être formali-
sée dans la section suivante.
1.3 Modèle statistique
Formalisons le concept de modèle statistique vu dans la section 1.1. Dans ce cadre,
l’espace des observations était {0,1}n.
1 / 11 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !