Premiers éléments de statistique I Introduction : le modèle statistique

Premiers éléments de statistique
I Introduction : le modèle statistique
Jusqu’à présent, la théorie que nous avons considérée s’intéressait à la construction d’un objet abstrait, la
probabilité, censée servir à quantifier la manière dont le hasard charge des événements liés à une expérience
aléatoire. Mais elle ne nous apprend pas de méthode à suivre pour choisir cette probabilité de la meilleure des
façons dans une situation concrète.
Le problème de la statistique est précisément celui du choix d’une probabilité en se fondant sur l’observation
de résultats de l’expérience aléatoire. Parmi les nombreuses situations possibles, nous nous concentrerons ici
sur l’étude de la statistique paramétrique, qui peut se décrire ainsi : on s’intéresse à une expérience aléatoire
donnée, pour laquelle on suppose que la loi de probabilité la gouvernant appartient à une famille de probabilités
dépendant d’un paramètre θélément d’un ensemble Θ(en général ce sera un sous ensemble de IR ou de IRp).
On ne connaît pas, a priori, la valeur effective du θqui convient et le but de l’opération est de déterminer cette
valeur θ0au vu de résultats de l’expérience, supposés numériques (c’est à dire à valeurs dans IR) pour simplifier.
Quand on réalise l’expérience, on peut considérer que son résultat constitue une variable aléatoire sur IR de
loi Pθ.Pθest donc ici une probabilité sur IR. Systématiquement, l’espérance d’une variable aléatoire Xde
l’espace de probabilités (IR, Pθ)sera notée Eθ(X)et la variance Varθ(X).
On réalise alors nfois l’expérience, de façon indépendante, et on donne la définition suivante
Définition 1 Un n-échantillon du modèle statistique (Pθ)θΘest la donnée de nvariables aléatoires indépen-
dantes X1, . . . , Xnde loi Pθ.
Le but est alors, étant donné un échantillon, de fabriquer une technique pour choisir un θΘqui ait de
bonnes chances d’être la véritable valeur du paramètre inconnu.
II Estimateurs
Commençons par cette définition très générale
Définition 2 Soit (X1, . . . , Xn)un n-échantillon du modèle statistique (Pθ)θΘ, et f: Θ IR. Un estima-
teur de f(θ)est une fonction ϕ:IRnIR.
Formellement, on dit qu’on estime f(θ)par ϕ(X1, . . . , Xn). Naturellement, cette définition d’estimateur est
extrêmement vague. Une précision est donnée comme suit
Définition 3 L’estimateur ϕde f(θ)est dit sans biais si, pour tout θΘ,
Eθ(ϕ(X1, . . . , Xn)) = f(θ).
Dire qu’un estimateur est sans biais (e.s.b.) revient donc à dire que quelle que soit la valeur du paramètre, la
moyenne de l’estimateur est égale à f(θ).
Remarque : Il peut se trouver que la classe des estimateurs sans biais soit très réduite. Par exemple, si on a un
1-échantillon de la loi B(n, θ)(θ[0,1], inconnu), X
nest l’unique e.s.b. de θ.
Pour mesurer la façon dont un estimateur de f(θ)“s’approche” d’être sans biais, on introduit
Définition 4 Soit ϕun estimateur de f(θ). On appelle risque quadratique de ϕle réel
Rθ(ϕ) = Eθ([ϕ(X1, . . . , Xn)f(θ)]2).
1
On a alors évidemment
Proposition 1 Quand ϕest un e.s.b. de f(θ), on a
Rθ(ϕ) = Varθ(ϕ(X1, . . . , Xn)).
On introduit aussi
Définition 5 Un estimateur ϕde f(θ)est dit sans biais de variance minimum (e.s.b.v.m.) s’il est sans biais
et si, pour tout e.s.b. ψde f(θ), on a
Rθ(ϕ) = Varθ(ϕ)Rθ(ψ) = Varθ(ψ).
III Moyenne et variance empirique
Une situation classique est la suivante. Soit µune loi de probabilités sur IR possédant une espérance met une
variance σ2. Si on suppose que met σ2sont inconnues, cela rentre dans le cadre d’un modèle de statistique
paramétrique où la loi appartient formellement à une famille de lois (pm,σ2)(m,σ2)IR×IR+.
Définition 6 Soit (X1, . . . , Xn)un n-échantillon de la loi µ.
(i) La moyenne empirique est l’estimateur de m
X=X1+. . . +Xn
n.
(ii) La variance empirique est l’estimateur de σ2
S2=1
n1
n
X
k=1
(XkX)2.
On a
Proposition 2 Xet S2sont des e.s.b. respectivement de met σ2.
IV Maximum de vraisemblance
Supposons que l’expérience aléatoire à laquelle on s’intéresse soit le fait de lancer une pièce biaisée, mais
qu’on ignore comment elle a été truquée. Plus exactement, on sait que la pièce est déséquilibrée de telle sorte
que l’on soit dans l’une des deux situations (mais on ignore laquelle)
(i) probabilité d’amener face = 0,9
(ii) probabilité d’amener pile = 0,9
On jette la pièce qui amène face. On va “naturellement” privilégier l’hypothèse (i). Ce qu’on a fait, c’est peser
la vraisemblance des deux hypothèses et (i) a semblé plus vraisemblable au vu du résultat.
Systématisons cette méthode dans le cadre où le modèle statistique (Pθ)θΘest donné par des lois Pθsur IN .
Définition 7 La fonction de vraisemblance du modèle est
Lθ(k1, . . . , kn) =
n
Y
j=1
Pθ(ki).
On a donc Lθ(k1, . . . , kn) = Pθ(X1=k1, . . . , Xn=kn)quand (X1, . . . , Xn)est un n-échantillon du modèle.
2
Définition 8 Un estimateur du maximum de vraisemblance de θest ˆ
θ(k1, . . . , kn)tel que pour tout (k1, . . . , kn)
IN n,
Lˆ
θ(k1,...,kn)(k1, . . . , kn) = sup
θΘ
Lθ(k1, . . . , kn).
Pour le trouver, on procède en général comme suit : on pose
`θ(k1, . . . , kn) = ln Lθ(k1, . . . , kn) =
n
X
j=1
ln Pθ(ki).
On cherche alors les ˆ
θtels que
θ `θ(k1, . . . , kn)=0et on vérifie, parmi ces valeurs, lesquelles correspondent
à des maxima. Par exemple, si X1, . . . , Xnest un échantillon de la loi de Poisson P(θ), on montre que Xest
un estimateur du maximum de vraisemblance de θ.
3
1 / 3 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !