Telechargé par prinsetologue

Maximum de Vraisemblance

publicité
Maximum de vraisemblance
Gino Kpogbezan
Ce support de cours est inspiré du livre Statistique et Probabilités en
économie-gestion de Christophe Hurlin et Valérie Mignon
1
Principe du maximum de vraisemblance
La procédure du maximum de vraisemblance est une méthode d'estimation.
Le principe de cette méthode est très simple: on part de l'hypothèse que
la variable d'intérêt suit une certaine distribution paramétrique, i.e. distribution caractérisée par un nombre ni de paramètres. Ces paramètres sont
inconnus et l'on cherche à les estimer. On utilise pour cela un échantillon
pour lequel on dispose d'une réalisation. Si les variables de l'échantillon
sont discrètes, on construit la probabilité jointe d'apparition des données de
l'échantillon. Dans le cas continu, on construit la densité jointe associée à
ces observations. Cette probabilité jointe ou densité jointe correspond à la
vraisemblance de l'échantillon. Le principe du maximum de vraisemblance
consiste à déterminer la valeur des paramètres qui rend l'échantillon observé
le plus vraisemblable.
2
Fonction de vraisemblance
2.1 Dénitions
Soit X une variable aléatoire dénie sur un univers probabilisé (Ω, F, P)
dont la loi de probabilité est caractérisée par une fonction de densité ou une
fonction de masse notée fX (x; θ), pour x ∈ X(Ω) et θ ∈ Θ. Θ désigne
l'ensemble des valeurs possibles du paramètre θ. An d'estimer θ, on dispose
d'un échantillon (X1 , · · · , Xn ) de variables aléatoires i.i.d. de même loi que
X . La réalisation de cet échantillon est notée (x1 , · · · , xn ) ou x en abrégé.
Denition 1 La fonction de vraisemblance de l'échantillon (x1 , · · · , xn ) est
dénie par:
1
Ln : Θ × X(Ω)n
−→ R+
(θ; x1 , · · · , xn ) 7−→ Ln (θ; x1 , · · · , xn ) =
n
Q
fX (xi ; θ)
i=1
Denition 2 La fonction de log-vraisemblance de l'échantillon (x1 , · · · , xn )
est dénie par:
ln : Θ × X(Ω)n
−→ R
(θ; x1 , · · · , xn ) 7−→ ln (θ; x1 , · · · , xn ) =
n
P
ln fX (xi ; θ)
i=1
Exemple: On suppose que la durée de vie d'un équipement peut être mod-
élisée par une variable aléatoire continue et positive D admettant une distribution exponentielle d'intensité 1/θ òu θ est un paramètre réel positif. On
considère un échantillon (D1 , · · · , Dn ) i.i.d. de même loi que D.
La vraisemblance associée à l'échantillon (d1 , · · · , dn ) est dénie par:
Ln (θ; d1 , · · · , dn ) =
n
Y
i=1
fX (di ; θ) =
!
n
X
di
1
exp −
= θ−n exp −
di
θ
θ
θ i=1
n Y
1
i=1
La log-vraisemblance associée à l'échantillon (d1 , · · · , dn ) est dénie par:
ln (θ; d1 , · · · , dn ) =
n
X
i=1
n n
X
di
1X
ln fD (di ; θ) =
− ln(θ) −
= −n ln(θ)−
di
θ
θ
i=1
i=1
Remarque: An de simplier les notations, on note parfois:
Ln (θ; x1 , · · · , xn ) ≡ Ln (θ; x) ≡ Ln (θ) ≡ L(θ)
ln (θ; x1 , · · · , xn ) ≡ ln (θ; x) ≡ ln (θ) ≡ l(θ)
2.2 Modèle de vraisemblance conditionnelle
Il est possible d'utiliser la méthode du maximum de vraisemblance pour estimer les paramètres d'un modèle économétrique. Un modèle économétrique
peut-être déni comme une relation théorique entre une variable Y dite endogène (ou dépendante) et une ou plusieurs variables X dites exogènes (ou
indépendantes)
Y = h(X; θ) + où θ est le ou les paramètres, h une fonction de lien et est un terme d'erreur,
supposé aléatoire. Dans ce cas, il convient de considérer la distribution conditionnelle de Y sachant que les variables X prennent une certaine valeur.
Nous pourrions ainsi à partir de cette distribution conditionnelle déterminer
2
la vraisemblance de l'échantillon (yi , xi ), i = 1, · · · , n. On parle de vraisem-
blance conditionnelle
La fonction de densité (ou fonction de masse) associée à la distribution conditionnelle de Y sachant X = x peut s'écrire:
fY |X (y|x; θ) ≡ fY (y|X = x; θ) ≡ fY (y|x)
Sous ces hypothèses on peut dénir la vraisemblance et la log-vraisemblance
conditionnelle associée à l'échantillon.
Denition 3 La fonction de vraisemblance conditionnelle et la log-vraisemblance
conditionnelle de l'échantillon (yi , xi ), i = 1, · · · , n sont respectivement dénies
par:
Ln (θ; y|x) =
n
Y
fY |X (yi |xi ; θ)
i=1
ln (θ; y|x) =
n
X
ln fY |X (yi |xi ; θ)
i=1
òu fY |X (yi |xi ; θ) désigne la densité conditionnelle de la variable Yi sachant
X i = xi .
Exemple: On considère un modèle de regression linéaire:
Yi = Xi> β + i ,
i = 1, · · · , n
où i ∼ N (0, σ 2 ) i.i.d. Sous ces hypothèses, la distribution conditionnelle de
2
Yi sachant Xi = xi est Yi |xi ∼ N (x>
i β, σ ). La densité conditionnelle de la
variable Yi est donc
2
(yi − x>
1
i β)
fY |X (yi |xi ; θ) = √ exp −
2σ 2
σ 2π
où θ = (β, σ 2 ). Sous l'hypothèse d'indépendance, la vraisemblance conditionnelle de l'échantillon
s'écrit:
n
Ln (θ; y|x) =
=
=
Q
fY |X (yi |xi ; θ)
i=1 n
Q
(y −x> β)2
√1 exp − i i2
2σ
σ 2π
i=1
n
P
−n/2
(σ 2 2π)
exp − 2σ1 2 (yi −
i=1
2
x>
i β)
La log-vraisemblance conditionnelle de l'échantillon est égale à:
n
n
n
1 X
2
2
ln (θ; y|x) = − ln(σ ) − ln(2π) − 2
(yi − x>
i β) .
2
2
2σ i=1
3
3
Estimateur du maximum de vraisemblance
Denition 4 Le paramètre θ est identiable (ou estimable) pour l'échantillon
(x1 , · · · , xn ), si pour toutes valeurs θ et θ∗ telles que θ 6= θ∗ , les lois jointes
des variables (x1 , · · · , xn ) sont diérentes.
Sous l'hypothèse d'identiabilité, on peut dénir l'estimateur du maximum
de vraisemblance comme suit.
Denition 5 L'estimateur du maximum de vraisemblance θ̂ du paramètre
θ ∈ Θ est déni par:
θ̂ := arg maxln (θ; x)
θ∈Θ
Exemple 1: On considère une variable aléatoire discrète X à valeurs dans
N∗ , supposée suivre une loi géométrique de paramètre θ, avec θ ∈]0, 1[. On
rappelle que la fonction de masse de X est dénie par
fX (x; θ) = θ(1 − θ)x−1 ;
∀x ∈ {1, 2, 3, · · · }.
Soit un échantillon (x1 , · · · , xn ) où les variables Xi sont i.i.d. de même loi
que X .
La log-vraisemblance de l'échantillon (x1 , · · · , xn ) est égale à:
ln (θ; x) =
n
X
ln fX (xi ; θ) = n ln θ +
n
X
(xi − 1) ln(1 − θ)
i=1
i=1
L'estimateur du maximum de vraisemblance θ̂ est
θ̂ := arg maxln (θ; x)
θ∈]0,1[
On a:
n
n
1 X
∂ln (θ; x)
= −
(xi − 1)
∂θ
θ 1 − θ i=1
∂ln (θ; x)
∂θ
Il vient que
=
θ̂
n
θ̂
−
1
n
X
1 − θ̂
i=1
(xi − 1) = 0
n
1
θ̂ = P
=
.
n
x̄n
xi
i=1
4
On vérie que cette solution est un maximum
n
X
∂ 2 ln (θ; x)
n
1
(xi − 1)
=− 2 −
∂θ2
θ
(1 − θ)2 i=1
et
n
X
n
1
− 2−
(xi − 1)
θ
(1 − θ)2 i=1
=−
θ̂
n
θ̂2 (1 − θ̂)
<0
Nous avons bien un maximum. Par suite l'estimateur du maximum de
vraisemblance du paramètre θ est:
θ̂ =
1
X̄n
et sa réalisation est θ̂(x) =
1
.
x̄n
Exemple 2: On considère un échantillon (Y1 , · · · , Yn ) i.i.d. où Yi ∼ N (m, σ2 ).
Les paramètres m et σ 2 sont inconnus et on souhaite les estimer par maximum de vraisemblance. On a donc θ = (m, σ 2 )> .
Pour une réalisation de l'échantillon (y1 , · · · , yn ), l'estimateur θ̂ vérie
θ̂ = arg maxln (θ; y)
θ∈R×R+
n
n
1 X
n
2
(yi − m)2 .
ln (θ; y) = − ln(σ ) − ln(2π) − 2
2
2
2σ i=1
On a:
∂ln (θ; y)
=
∂θ
∂ln (θ; y)
∂θ
∂ln (θ; y) ∂ln (θ; y)
,
∂m
∂σ 2
n
n
n
1 X
1 X
(yi − m), − 2 + 4
(yi − m)2
σ 2 i=1
2σ
2σ i=1
>
=
n
n
1 X
1 X
n
+
(y
−
m̂),
−
(yi − m̂)2
i
σ̂ 2 i=1
2σ̂ 2 2σ̂ 4 i=1
=
θ̂
!>
= (0, 0)> .
On en déduit θ̂ = (m̂, σ̂ 2 )> avec
n
1X
m̂ =
yi = ȳn
n i=1
n
1X
et σ̂ =
(yi − ȳn )2 .
n i=1
2
On vérie que cette solution est un maximum. On construit pour cela la
matrice hessienne
2
∂ ln (θ; y)
=
∂θ∂θ>
" ∂2l
n (θ;y)
∂m2
∂ 2 ln (θ;y)
∂(σ 2 )∂m
∂ 2 ln(θ;y)
∂m∂(σ 2 )
∂ 2 ln (θ;y)
∂(σ 2 )2
#


=
− σn2
1
σ4
5
n
P
(yi − m)
i=1
1
σ4
n
2σ 4
−
n
P
(yi − m)
i=1
1
σ6
n
P
(yi − m)2
i=1



!>
On évalue la matrice hessienne au point θ̂

∂ 2 ln(θ; y)
∂θ∂θ>
θ̂

=
1
σ̂ 4
− σ̂n2
1
σ̂ 4
n
P
(yi − m̂)
i=1
n
2σ̂ 4
−
n
P
(yi − m̂)

n
− σ̂2
0

=
n
P
0 − 2σ̂n4
(yi − m̂)2
i=1
1
σ̂ 6
i=1
Cette matrice diagonale est dénie négative car les éléments de sa diagonale sont tous négatifs. Nous avons bien un maximum. Les estimateurs du
maximum de vraisemblance sont:
n
1X
m̂ =
Yi = Ȳn
n i=1
4
n
2
1X
et σ̂ =
Yi − Ȳn .
n i=1
2
Score et quantité d'information de Fisher
An d'étudier les propriétés de l'estimateur du maximum de vraisemblance,
nous devons dénir les concepts de score et de quantité d'information de
Fisher.
Denition 6 Le score de léchantillon (X1 , · · · , Xn ) est une variable aléatoire
dénie par:
s(θ; X) =
∂ln (θ; X)
∂θ
Remarque: Il convient de distinguer le score de l'échantillon
∂ln (θ;X)
∂θ
du
gradient de l'échantillon
. Le gradient de l'échantillon est une quantité
déterministe tandis que le score est une quantité stochastique.
Propriété: Pour toute valeur du paramètre θ ∈ Θ, le score de l'échantillon
vérie:
∂ln (θ;x)
∂θ
Eθ (s(θ; X)) = 0.
Denition 7 La quantité d'information de Fisher associée à léchantillon est
une constante dénie par la variance du score:
In (θ) = Vθ (s(θ; X)) .
Remarque: Le score ayant une esperance nulle, il vient que
In (θ) = Vθ (s(θ; X)) = Eθ s2 (θ; X) .
6
Propriété:
In (θ) = −Eθ
∂ 2 ln (θ; X)
∂θ2
On peut étendre la dénition de la quantité d'information de Fisher au cas
d'une observation particulière xi . Si on note Ii (θ) la quantité d'information
de Fisher associée á la ieme observation de l'échantillon, on a
n
X
In (θ) =
Ii (θ)
i=1
La quantité d'information de Fisher étant identique pour toutes les observations xi , i = 1 · · · , n la quantité Ii (θ) ne dépend pas de l'indice i. On peut
donc écrire
Ii (θ) = I(θ)
Par conséquent
In (θ) = nI(θ).
Denition 8 On appelle quantité moyenne d'information de Fisher, la quantité I(θ) telle que
I(θ) =
1
In (θ)
n
Exemple: Soit un échantillon de variables aléatoires continues et positives
(D1 , · · · , Dn ) i.i.d. admettant une distribution exponentielle d'intensité 1/θ
òu θ est un paramètre réel positif inconnu.
La log-vraisemblance associée à l'échantillon (d1 , · · · , dn ) est dénie par:
ln (θ; d1 , · · · , dn ) =
n
X
i=1
n n
X
di
1X
ln fD (di ; θ) =
− ln(θ) −
= −n ln(θ)−
di
θ
θ
i=1
i=1
Le gradient de l'échantillon (quantité déterministe) est égal à:
n
∂ln (θ; d)
n
1 X
=− + 2
di
∂θ
θ θ i=1
Le score de l'échantillon (variable aléatoire) est
n
n
1 X
∂ln (θ; D)
=− + 2
Di
s(θ; D) =
∂θ
θ θ i=1
7
On vérie que son espérance est nulle
Eθ (s(θ; D)) = Eθ
n
n
1 X
− + 2
Di
θ θ i=1
!
n
1 X
n
n n
=− + 2
Eθ (Di ) = − + = 0.
θ θ i=1
θ θ
La dérivée partielle seconde (hessienne) donne
n
∂ 2 ln (θ; D)
n
2 X
Di
= 2− 3
∂θ2
θ
θ i=1
Il vient donc que
In (θ) = −Eθ
5
2
∂ ln (θ; D)
∂θ2
= Eθ
n
n
2 X
− 2+ 3
Di
θ
θ i=1
!
n
n 2 X
n
= − 2+ 3
Eθ (Di ) = 2
θ θ i=1
θ
Propriétés du maximum de vraisemblance
Dans le but d'étudier les propriétés de l'estimateur du maximum de vraisemblance, nous allons poser des hypothèses sur la distribution de la variable
d'intérêt X . Ces hypothèses qualiées de régularité sont au nombre de trois:
ˆ
Hypothèse 1: la fonction ln fX (θ; xi ) est trois fois diérentiable par
rapport à θ. Ses dérivées sont continues et nies pour toute valeur de
x et de θ.
ˆ
Hypothèse 2: Les espérances des dérivées première et seconde de
ˆ
Hypothèse 3: La vraie valeur de θ appartient à un ensemble compact
ln fX (θ; Xi ) par rapport à θ existent.
Θ.
Sous ces hypothèses de régularité, on peut montrer que l'estimateur du maximum de vraisemblance présente les propriétés suivantes:
1. L'estimateur du maximum de vraisemblance est convergent
2. L'estimateur du maximum de vraisemblance est asymptotiquement ef-
cace
3. L'estimateur du maximum de vraisemblance est asymptotiquement nor-
malement distribué
8
Exercices
Exercice 1
On considère un échantillon aléatoire {X1 , · · · , Xn } de variables réelles, continues et i.i.d. de même loi que X . On suppose que X a une distribution
log-normale de paramètres µ et σ 2 :
X ∼ ln N (µ, σ 2 )
De facon équivalente, la variable ln(X) admet une distribution normale:
ln(X) ∼ N (µ, σ 2 )
La fonction de densité de la variable X est donnée par:
2
fX (x; µ, σ ) =
1
√
xσ 2π
(ln x − µ)2
exp −
2σ 2
∀x ∈ R+
On suppose que le paramètre µ est connu et l'on cherche à estimer le
paramètre σ 2 . Pour simplier les calculs, on pourra poser θ = σ 2 .
Déterminer la log-vraisemblance associée à la réalisation de l'échantillon
{x1 , · · · , xn }.
Déterminer l'estimateur σ̂ 2 du maximum de vraisemblance du paramètre
2
σ .
Montrer que l'estimateur σ̂ 2 est sans biais.
Montrer que l'estimateur σ̂ 2 est convergent (au sens faible).
Déterminer la quantité d'information de Fisher associée à l'échantillon.
Déterminer la loi asymptotique de l'estimateur σ̂ 2 .
Exercice 2
On considère un échantillon {X1 , · · · , Xn } de variables aléatoires continues
i.i.d. de même loi que X où X est dénie sur le support X(Ω) = [0, c] et
admet une fonction de dénsité égale à:
fX (x; θ) =
1−θ
1
x θ
1/θ
θc
∀x ∈ X(Ω)
On suppose que la borne c est connue et que le paramètre θ est un
paramètre positif inconnu que l'on cherche à estimer.
9
1. Écrire la log-vraisemblance associée à la réalisation de l'échantillon
{x1 , · · · , xn }.
2. Montrer que l'estimateur θ̂ du maximum de vraisemblance est déni
par:
n
1X
θ̂ = ln(c) −
ln(Xi )
n i=1
On admet que E(ln(Xi )) = ln(c) − θ. Montrer que l'estimateur θ̂ est
convergent.
3. Déterminer la loi asymptotique de l'estimateur θ̂.
10
Téléchargement