Premiers éléments de statistique I Introduction : le modèle statistique

publicité
Premiers éléments de statistique
I
Introduction : le modèle statistique
Jusqu’à présent, la théorie que nous avons considérée s’intéressait à la construction d’un objet abstrait, la
probabilité, censée servir à quantifier la manière dont le hasard charge des événements liés à une expérience
aléatoire. Mais elle ne nous apprend pas de méthode à suivre pour choisir cette probabilité de la meilleure des
façons dans une situation concrète.
Le problème de la statistique est précisément celui du choix d’une probabilité en se fondant sur l’observation
de résultats de l’expérience aléatoire. Parmi les nombreuses situations possibles, nous nous concentrerons ici
sur l’étude de la statistique paramétrique, qui peut se décrire ainsi : on s’intéresse à une expérience aléatoire
donnée, pour laquelle on suppose que la loi de probabilité la gouvernant appartient à une famille de probabilités
dépendant d’un paramètre θ élément d’un ensemble Θ (en général ce sera un sous ensemble de IR ou de IRp ).
On ne connaît pas, a priori, la valeur effective du θ qui convient et le but de l’opération est de déterminer cette
valeur θ0 au vu de résultats de l’expérience, supposés numériques (c’est à dire à valeurs dans IR) pour simplifier.
Quand on réalise l’expérience, on peut considérer que son résultat constitue une variable aléatoire sur IR de
loi Pθ . Pθ est donc ici une probabilité sur IR. Systématiquement, l’espérance d’une variable aléatoire X de
l’espace de probabilités (IR, Pθ ) sera notée Eθ (X) et la variance Varθ (X).
On réalise alors n fois l’expérience, de façon indépendante, et on donne la définition suivante
Définition 1 Un n-échantillon du modèle statistique (Pθ )θ∈Θ est la donnée de n variables aléatoires indépendantes X1 , . . . , Xn de loi Pθ .
Le but est alors, étant donné un échantillon, de fabriquer une technique pour choisir un θ ∈ Θ qui ait de
bonnes chances d’être la véritable valeur du paramètre inconnu.
II
Estimateurs
Commençons par cette définition très générale
Définition 2 Soit (X1 , . . . , Xn ) un n-échantillon du modèle statistique (Pθ )θ∈Θ , et f : Θ → IR. Un estimateur de f (θ) est une fonction ϕ : IRn → IR.
Formellement, on dit qu’on estime f (θ) par ϕ(X1 , . . . , Xn ). Naturellement, cette définition d’estimateur est
extrêmement vague. Une précision est donnée comme suit
Définition 3 L’estimateur ϕ de f (θ) est dit sans biais si, pour tout θ ∈ Θ,
Eθ (ϕ(X1 , . . . , Xn )) = f (θ).
Dire qu’un estimateur est sans biais (e.s.b.) revient donc à dire que quelle que soit la valeur du paramètre, la
moyenne de l’estimateur est égale à f (θ).
Remarque : Il peut se trouver que la classe des estimateurs sans biais soit très réduite. Par exemple, si on a un
1-échantillon de la loi B(n, θ) (θ ∈ [0, 1], inconnu), X
n est l’unique e.s.b. de θ.
Pour mesurer la façon dont un estimateur de f (θ) “s’approche” d’être sans biais, on introduit
Définition 4 Soit ϕ un estimateur de f (θ). On appelle risque quadratique de ϕ le réel
Rθ (ϕ) = Eθ ([ϕ(X1 , . . . , Xn ) − f (θ)]2 ).
1
On a alors évidemment
Proposition 1 Quand ϕ est un e.s.b. de f (θ), on a
Rθ (ϕ) = Varθ (ϕ(X1 , . . . , Xn )).
On introduit aussi
Définition 5 Un estimateur ϕ de f (θ) est dit sans biais de variance minimum (e.s.b.v.m.) s’il est sans biais
et si, pour tout e.s.b. ψ de f (θ), on a
Rθ (ϕ) = Varθ (ϕ) ≤ Rθ (ψ) = Varθ (ψ).
III
Moyenne et variance empirique
Une situation classique est la suivante. Soit µ une loi de probabilités sur IR possédant une espérance m et une
variance σ 2 . Si on suppose que m et σ 2 sont inconnues, cela rentre dans le cadre d’un modèle de statistique
paramétrique où la loi appartient formellement à une famille de lois (pm,σ2 )(m,σ2 )∈IR×IR+ .
Définition 6 Soit (X1 , . . . , Xn ) un n-échantillon de la loi µ.
(i) La moyenne empirique est l’estimateur de m
X=
X1 + . . . + Xn
.
n
(ii) La variance empirique est l’estimateur de σ 2
n
S2 =
1 X
(Xk − X)2 .
n−1
k=1
On a
Proposition 2 X et S 2 sont des e.s.b. respectivement de m et σ 2 .
IV
Maximum de vraisemblance
Supposons que l’expérience aléatoire à laquelle on s’intéresse soit le fait de lancer une pièce biaisée, mais
qu’on ignore comment elle a été truquée. Plus exactement, on sait que la pièce est déséquilibrée de telle sorte
que l’on soit dans l’une des deux situations (mais on ignore laquelle)
(i) probabilité d’amener face = 0,9
(ii) probabilité d’amener pile = 0,9
On jette la pièce qui amène face. On va “naturellement” privilégier l’hypothèse (i). Ce qu’on a fait, c’est peser
la vraisemblance des deux hypothèses et (i) a semblé plus vraisemblable au vu du résultat.
Systématisons cette méthode dans le cadre où le modèle statistique (Pθ )θ∈Θ est donné par des lois Pθ sur IN .
Définition 7 La fonction de vraisemblance du modèle est
Lθ (k1 , . . . , kn ) =
n
Y
Pθ (ki ).
j=1
On a donc Lθ (k1 , . . . , kn ) = Pθ (X1 = k1 , . . . , Xn = kn ) quand (X1 , . . . , Xn ) est un n-échantillon du modèle.
2
Définition 8 Un estimateur du maximum de vraisemblance de θ est θ̂(k1 , . . . , kn ) tel que pour tout (k1 , . . . , kn ) ∈
IN n ,
Lθ̂(k1 ,...,kn ) (k1 , . . . , kn ) = sup Lθ (k1 , . . . , kn ).
θ∈Θ
Pour le trouver, on procède en général comme suit : on pose
`θ (k1 , . . . , kn ) = ln Lθ (k1 , . . . , kn ) =
n
X
ln Pθ (ki ).
j=1
∂
`θ (k1 , . . . , kn ) = 0 et on vérifie, parmi ces valeurs, lesquelles correspondent
On cherche alors les θ̂ tels que ∂θ
à des maxima. Par exemple, si X1 , . . . , Xn est un échantillon de la loi de Poisson P(θ), on montre que X est
un estimateur du maximum de vraisemblance de θ.
3
Téléchargement