Maximum de vraisemblance Gino Kpogbezan Ce support de cours est inspiré du livre Statistique et Probabilités en économie-gestion de Christophe Hurlin et Valérie Mignon 1 Principe du maximum de vraisemblance La procédure du maximum de vraisemblance est une méthode d'estimation. Le principe de cette méthode est très simple: on part de l'hypothèse que la variable d'intérêt suit une certaine distribution paramétrique, i.e. distribution caractérisée par un nombre ni de paramètres. Ces paramètres sont inconnus et l'on cherche à les estimer. On utilise pour cela un échantillon pour lequel on dispose d'une réalisation. Si les variables de l'échantillon sont discrètes, on construit la probabilité jointe d'apparition des données de l'échantillon. Dans le cas continu, on construit la densité jointe associée à ces observations. Cette probabilité jointe ou densité jointe correspond à la vraisemblance de l'échantillon. Le principe du maximum de vraisemblance consiste à déterminer la valeur des paramètres qui rend l'échantillon observé le plus vraisemblable. 2 Fonction de vraisemblance 2.1 Dénitions Soit X une variable aléatoire dénie sur un univers probabilisé (Ω, F, P) dont la loi de probabilité est caractérisée par une fonction de densité ou une fonction de masse notée fX (x; θ), pour x ∈ X(Ω) et θ ∈ Θ. Θ désigne l'ensemble des valeurs possibles du paramètre θ. An d'estimer θ, on dispose d'un échantillon (X1 , · · · , Xn ) de variables aléatoires i.i.d. de même loi que X . La réalisation de cet échantillon est notée (x1 , · · · , xn ) ou x en abrégé. Denition 1 La fonction de vraisemblance de l'échantillon (x1 , · · · , xn ) est dénie par: 1 Ln : Θ × X(Ω)n −→ R+ (θ; x1 , · · · , xn ) 7−→ Ln (θ; x1 , · · · , xn ) = n Q fX (xi ; θ) i=1 Denition 2 La fonction de log-vraisemblance de l'échantillon (x1 , · · · , xn ) est dénie par: ln : Θ × X(Ω)n −→ R (θ; x1 , · · · , xn ) 7−→ ln (θ; x1 , · · · , xn ) = n P ln fX (xi ; θ) i=1 Exemple: On suppose que la durée de vie d'un équipement peut être mod- élisée par une variable aléatoire continue et positive D admettant une distribution exponentielle d'intensité 1/θ òu θ est un paramètre réel positif. On considère un échantillon (D1 , · · · , Dn ) i.i.d. de même loi que D. La vraisemblance associée à l'échantillon (d1 , · · · , dn ) est dénie par: Ln (θ; d1 , · · · , dn ) = n Y i=1 fX (di ; θ) = ! n X di 1 exp − = θ−n exp − di θ θ θ i=1 n Y 1 i=1 La log-vraisemblance associée à l'échantillon (d1 , · · · , dn ) est dénie par: ln (θ; d1 , · · · , dn ) = n X i=1 n n X di 1X ln fD (di ; θ) = − ln(θ) − = −n ln(θ)− di θ θ i=1 i=1 Remarque: An de simplier les notations, on note parfois: Ln (θ; x1 , · · · , xn ) ≡ Ln (θ; x) ≡ Ln (θ) ≡ L(θ) ln (θ; x1 , · · · , xn ) ≡ ln (θ; x) ≡ ln (θ) ≡ l(θ) 2.2 Modèle de vraisemblance conditionnelle Il est possible d'utiliser la méthode du maximum de vraisemblance pour estimer les paramètres d'un modèle économétrique. Un modèle économétrique peut-être déni comme une relation théorique entre une variable Y dite endogène (ou dépendante) et une ou plusieurs variables X dites exogènes (ou indépendantes) Y = h(X; θ) + où θ est le ou les paramètres, h une fonction de lien et est un terme d'erreur, supposé aléatoire. Dans ce cas, il convient de considérer la distribution conditionnelle de Y sachant que les variables X prennent une certaine valeur. Nous pourrions ainsi à partir de cette distribution conditionnelle déterminer 2 la vraisemblance de l'échantillon (yi , xi ), i = 1, · · · , n. On parle de vraisem- blance conditionnelle La fonction de densité (ou fonction de masse) associée à la distribution conditionnelle de Y sachant X = x peut s'écrire: fY |X (y|x; θ) ≡ fY (y|X = x; θ) ≡ fY (y|x) Sous ces hypothèses on peut dénir la vraisemblance et la log-vraisemblance conditionnelle associée à l'échantillon. Denition 3 La fonction de vraisemblance conditionnelle et la log-vraisemblance conditionnelle de l'échantillon (yi , xi ), i = 1, · · · , n sont respectivement dénies par: Ln (θ; y|x) = n Y fY |X (yi |xi ; θ) i=1 ln (θ; y|x) = n X ln fY |X (yi |xi ; θ) i=1 òu fY |X (yi |xi ; θ) désigne la densité conditionnelle de la variable Yi sachant X i = xi . Exemple: On considère un modèle de regression linéaire: Yi = Xi> β + i , i = 1, · · · , n où i ∼ N (0, σ 2 ) i.i.d. Sous ces hypothèses, la distribution conditionnelle de 2 Yi sachant Xi = xi est Yi |xi ∼ N (x> i β, σ ). La densité conditionnelle de la variable Yi est donc 2 (yi − x> 1 i β) fY |X (yi |xi ; θ) = √ exp − 2σ 2 σ 2π où θ = (β, σ 2 ). Sous l'hypothèse d'indépendance, la vraisemblance conditionnelle de l'échantillon s'écrit: n Ln (θ; y|x) = = = Q fY |X (yi |xi ; θ) i=1 n Q (y −x> β)2 √1 exp − i i2 2σ σ 2π i=1 n P −n/2 (σ 2 2π) exp − 2σ1 2 (yi − i=1 2 x> i β) La log-vraisemblance conditionnelle de l'échantillon est égale à: n n n 1 X 2 2 ln (θ; y|x) = − ln(σ ) − ln(2π) − 2 (yi − x> i β) . 2 2 2σ i=1 3 3 Estimateur du maximum de vraisemblance Denition 4 Le paramètre θ est identiable (ou estimable) pour l'échantillon (x1 , · · · , xn ), si pour toutes valeurs θ et θ∗ telles que θ 6= θ∗ , les lois jointes des variables (x1 , · · · , xn ) sont diérentes. Sous l'hypothèse d'identiabilité, on peut dénir l'estimateur du maximum de vraisemblance comme suit. Denition 5 L'estimateur du maximum de vraisemblance θ̂ du paramètre θ ∈ Θ est déni par: θ̂ := arg maxln (θ; x) θ∈Θ Exemple 1: On considère une variable aléatoire discrète X à valeurs dans N∗ , supposée suivre une loi géométrique de paramètre θ, avec θ ∈]0, 1[. On rappelle que la fonction de masse de X est dénie par fX (x; θ) = θ(1 − θ)x−1 ; ∀x ∈ {1, 2, 3, · · · }. Soit un échantillon (x1 , · · · , xn ) où les variables Xi sont i.i.d. de même loi que X . La log-vraisemblance de l'échantillon (x1 , · · · , xn ) est égale à: ln (θ; x) = n X ln fX (xi ; θ) = n ln θ + n X (xi − 1) ln(1 − θ) i=1 i=1 L'estimateur du maximum de vraisemblance θ̂ est θ̂ := arg maxln (θ; x) θ∈]0,1[ On a: n n 1 X ∂ln (θ; x) = − (xi − 1) ∂θ θ 1 − θ i=1 ∂ln (θ; x) ∂θ Il vient que = θ̂ n θ̂ − 1 n X 1 − θ̂ i=1 (xi − 1) = 0 n 1 θ̂ = P = . n x̄n xi i=1 4 On vérie que cette solution est un maximum n X ∂ 2 ln (θ; x) n 1 (xi − 1) =− 2 − ∂θ2 θ (1 − θ)2 i=1 et n X n 1 − 2− (xi − 1) θ (1 − θ)2 i=1 =− θ̂ n θ̂2 (1 − θ̂) <0 Nous avons bien un maximum. Par suite l'estimateur du maximum de vraisemblance du paramètre θ est: θ̂ = 1 X̄n et sa réalisation est θ̂(x) = 1 . x̄n Exemple 2: On considère un échantillon (Y1 , · · · , Yn ) i.i.d. où Yi ∼ N (m, σ2 ). Les paramètres m et σ 2 sont inconnus et on souhaite les estimer par maximum de vraisemblance. On a donc θ = (m, σ 2 )> . Pour une réalisation de l'échantillon (y1 , · · · , yn ), l'estimateur θ̂ vérie θ̂ = arg maxln (θ; y) θ∈R×R+ n n 1 X n 2 (yi − m)2 . ln (θ; y) = − ln(σ ) − ln(2π) − 2 2 2 2σ i=1 On a: ∂ln (θ; y) = ∂θ ∂ln (θ; y) ∂θ ∂ln (θ; y) ∂ln (θ; y) , ∂m ∂σ 2 n n n 1 X 1 X (yi − m), − 2 + 4 (yi − m)2 σ 2 i=1 2σ 2σ i=1 > = n n 1 X 1 X n + (y − m̂), − (yi − m̂)2 i σ̂ 2 i=1 2σ̂ 2 2σ̂ 4 i=1 = θ̂ !> = (0, 0)> . On en déduit θ̂ = (m̂, σ̂ 2 )> avec n 1X m̂ = yi = ȳn n i=1 n 1X et σ̂ = (yi − ȳn )2 . n i=1 2 On vérie que cette solution est un maximum. On construit pour cela la matrice hessienne 2 ∂ ln (θ; y) = ∂θ∂θ> " ∂2l n (θ;y) ∂m2 ∂ 2 ln (θ;y) ∂(σ 2 )∂m ∂ 2 ln(θ;y) ∂m∂(σ 2 ) ∂ 2 ln (θ;y) ∂(σ 2 )2 # = − σn2 1 σ4 5 n P (yi − m) i=1 1 σ4 n 2σ 4 − n P (yi − m) i=1 1 σ6 n P (yi − m)2 i=1 !> On évalue la matrice hessienne au point θ̂ ∂ 2 ln(θ; y) ∂θ∂θ> θ̂ = 1 σ̂ 4 − σ̂n2 1 σ̂ 4 n P (yi − m̂) i=1 n 2σ̂ 4 − n P (yi − m̂) n − σ̂2 0 = n P 0 − 2σ̂n4 (yi − m̂)2 i=1 1 σ̂ 6 i=1 Cette matrice diagonale est dénie négative car les éléments de sa diagonale sont tous négatifs. Nous avons bien un maximum. Les estimateurs du maximum de vraisemblance sont: n 1X m̂ = Yi = Ȳn n i=1 4 n 2 1X et σ̂ = Yi − Ȳn . n i=1 2 Score et quantité d'information de Fisher An d'étudier les propriétés de l'estimateur du maximum de vraisemblance, nous devons dénir les concepts de score et de quantité d'information de Fisher. Denition 6 Le score de léchantillon (X1 , · · · , Xn ) est une variable aléatoire dénie par: s(θ; X) = ∂ln (θ; X) ∂θ Remarque: Il convient de distinguer le score de l'échantillon ∂ln (θ;X) ∂θ du gradient de l'échantillon . Le gradient de l'échantillon est une quantité déterministe tandis que le score est une quantité stochastique. Propriété: Pour toute valeur du paramètre θ ∈ Θ, le score de l'échantillon vérie: ∂ln (θ;x) ∂θ Eθ (s(θ; X)) = 0. Denition 7 La quantité d'information de Fisher associée à léchantillon est une constante dénie par la variance du score: In (θ) = Vθ (s(θ; X)) . Remarque: Le score ayant une esperance nulle, il vient que In (θ) = Vθ (s(θ; X)) = Eθ s2 (θ; X) . 6 Propriété: In (θ) = −Eθ ∂ 2 ln (θ; X) ∂θ2 On peut étendre la dénition de la quantité d'information de Fisher au cas d'une observation particulière xi . Si on note Ii (θ) la quantité d'information de Fisher associée á la ieme observation de l'échantillon, on a n X In (θ) = Ii (θ) i=1 La quantité d'information de Fisher étant identique pour toutes les observations xi , i = 1 · · · , n la quantité Ii (θ) ne dépend pas de l'indice i. On peut donc écrire Ii (θ) = I(θ) Par conséquent In (θ) = nI(θ). Denition 8 On appelle quantité moyenne d'information de Fisher, la quantité I(θ) telle que I(θ) = 1 In (θ) n Exemple: Soit un échantillon de variables aléatoires continues et positives (D1 , · · · , Dn ) i.i.d. admettant une distribution exponentielle d'intensité 1/θ òu θ est un paramètre réel positif inconnu. La log-vraisemblance associée à l'échantillon (d1 , · · · , dn ) est dénie par: ln (θ; d1 , · · · , dn ) = n X i=1 n n X di 1X ln fD (di ; θ) = − ln(θ) − = −n ln(θ)− di θ θ i=1 i=1 Le gradient de l'échantillon (quantité déterministe) est égal à: n ∂ln (θ; d) n 1 X =− + 2 di ∂θ θ θ i=1 Le score de l'échantillon (variable aléatoire) est n n 1 X ∂ln (θ; D) =− + 2 Di s(θ; D) = ∂θ θ θ i=1 7 On vérie que son espérance est nulle Eθ (s(θ; D)) = Eθ n n 1 X − + 2 Di θ θ i=1 ! n 1 X n n n =− + 2 Eθ (Di ) = − + = 0. θ θ i=1 θ θ La dérivée partielle seconde (hessienne) donne n ∂ 2 ln (θ; D) n 2 X Di = 2− 3 ∂θ2 θ θ i=1 Il vient donc que In (θ) = −Eθ 5 2 ∂ ln (θ; D) ∂θ2 = Eθ n n 2 X − 2+ 3 Di θ θ i=1 ! n n 2 X n = − 2+ 3 Eθ (Di ) = 2 θ θ i=1 θ Propriétés du maximum de vraisemblance Dans le but d'étudier les propriétés de l'estimateur du maximum de vraisemblance, nous allons poser des hypothèses sur la distribution de la variable d'intérêt X . Ces hypothèses qualiées de régularité sont au nombre de trois: Hypothèse 1: la fonction ln fX (θ; xi ) est trois fois diérentiable par rapport à θ. Ses dérivées sont continues et nies pour toute valeur de x et de θ. Hypothèse 2: Les espérances des dérivées première et seconde de Hypothèse 3: La vraie valeur de θ appartient à un ensemble compact ln fX (θ; Xi ) par rapport à θ existent. Θ. Sous ces hypothèses de régularité, on peut montrer que l'estimateur du maximum de vraisemblance présente les propriétés suivantes: 1. L'estimateur du maximum de vraisemblance est convergent 2. L'estimateur du maximum de vraisemblance est asymptotiquement ef- cace 3. L'estimateur du maximum de vraisemblance est asymptotiquement nor- malement distribué 8 Exercices Exercice 1 On considère un échantillon aléatoire {X1 , · · · , Xn } de variables réelles, continues et i.i.d. de même loi que X . On suppose que X a une distribution log-normale de paramètres µ et σ 2 : X ∼ ln N (µ, σ 2 ) De facon équivalente, la variable ln(X) admet une distribution normale: ln(X) ∼ N (µ, σ 2 ) La fonction de densité de la variable X est donnée par: 2 fX (x; µ, σ ) = 1 √ xσ 2π (ln x − µ)2 exp − 2σ 2 ∀x ∈ R+ On suppose que le paramètre µ est connu et l'on cherche à estimer le paramètre σ 2 . Pour simplier les calculs, on pourra poser θ = σ 2 . Déterminer la log-vraisemblance associée à la réalisation de l'échantillon {x1 , · · · , xn }. Déterminer l'estimateur σ̂ 2 du maximum de vraisemblance du paramètre 2 σ . Montrer que l'estimateur σ̂ 2 est sans biais. Montrer que l'estimateur σ̂ 2 est convergent (au sens faible). Déterminer la quantité d'information de Fisher associée à l'échantillon. Déterminer la loi asymptotique de l'estimateur σ̂ 2 . Exercice 2 On considère un échantillon {X1 , · · · , Xn } de variables aléatoires continues i.i.d. de même loi que X où X est dénie sur le support X(Ω) = [0, c] et admet une fonction de dénsité égale à: fX (x; θ) = 1−θ 1 x θ 1/θ θc ∀x ∈ X(Ω) On suppose que la borne c est connue et que le paramètre θ est un paramètre positif inconnu que l'on cherche à estimer. 9 1. Écrire la log-vraisemblance associée à la réalisation de l'échantillon {x1 , · · · , xn }. 2. Montrer que l'estimateur θ̂ du maximum de vraisemblance est déni par: n 1X θ̂ = ln(c) − ln(Xi ) n i=1 On admet que E(ln(Xi )) = ln(c) − θ. Montrer que l'estimateur θ̂ est convergent. 3. Déterminer la loi asymptotique de l'estimateur θ̂. 10