Maximum de vraisemblance

publicité
Maximum de vraisemblance
A. Définition
La vraisemblance est utilisée pour construire des estimateurs de paramètres caractérisant une
loi de probabilité à partir d’un échantillon de mesures.
Considérons un échantillon x = {xi}i=1,…,n de n réalisations d’une variable aléatoire X. Nous
supposons que la loi de probabilité suivie par cette variable aléatoire dépend d’un ensemble
de paramètres que nous notons . Considérons la probabilité d’observer l’échantillon : P(x;).
L’échantillon étant fixé, c’est une fonction des paramètres que nous dénommons
vraisemblance :
L(θ)  P(x; )
Le principe consiste à estimer les paramètres en cherchant les valeurs de  maximisant la
probabilité de l’échantillon donc la vraisemblance. C’est la méthode du maximum de
vraisemblance, proposée par R. Fisher dans les années 1920.
Si les réalisations sont indépendantes et que la densité de probabilité de la variable aléatoire
est p(x;), la vraisemblance s’écrit :
n
L (θ)  P(x; )   p(x i ; )
i 1
Dans la pratique on cherche souvent le maximum du logarithme de la vraisemblance. Le
logarithme étant monotone croissant c’est équivalent. Le produit précédent devient alors une
somme :
ln L (θ) 
n
 ln p(x i ; )
i 1
L’intérêt de cette méthode réside dans le fait que sous des conditions générales peu
restrictives, un estimateur obtenu par maximum de vraisemblance possède les propriétés
suivantes :
- il est approximativement non biaisé ;
- il a approximativement la plus faible variance ;
- il suit approximativement une distribution normale.

D’autre part, si  est l’estimateur de  obtenu par maximum de vraisemblance alors, pour

toute fonction h, la quantité h () est estimateur par maximum de vraisemblance de h().
A titre d’exemple et comme référence nous commençons par appliquer la méthode du
maximum de vraisemblance à l’estimation des deux paramètres d’une loi normale.
S. Tisserant – Eléments de Statistique – 2009
2-1
B. Estimation des paramètres d’une loi normale
B.1. Fonction de vraisemblance
Considérons un échantillon x = {xi}i=1,…,n de n réalisations indépendantes d’une variable
aléatoire suivant une loi normale de valeur moyenne µ et de variance 2 : N(µ, ). La
fonction de vraisemblance a pour expression :
 ( x  µ) 2 
exp  i

2
 2
2




i 1
n
L ( µ, )  
1
Soit :
L ( µ, )  
2 

n
  exp  (x i  µ2 )
2

n
2
i 1


Prenons le logarithme, il vient à une constante additive près :
ln L  ln L ( µ, )  n ln() 
n

i 1
( x i  µ) 2
2 2
B.2. Estimation de la valeur moyenne
Cherchons le maximum de la vraisemblance par rapport au paramètre µ. Dérivons la logvraisemblance par rapport à µ :
 ln L

µ
n

i 1
( x i  µ)
2
n

1 

xi  n µ

 2  i 1


Cela nous permet de déterminer l’optimum de la vraisemblance :
 ln L
1
 0  µ0 
µ
n
n
 xi
i 1
Cet optimum correspond à l’estimateur empirique de la moyenne. Nous avons pour le
maximum :
ln L ( µ 0 , )  n ln() 
n

(x i  µ0 ) 2
i 1
2 2
Nous avons vu que l’erreur sur l’estimateur empirique est :
µ 
S. Tisserant – Eléments de Statistique – 2009

n
2-2
Calculons la valeur de la fonction de vraisemblance pour :
µ  s  µ 0  s µ  µ 0  s

n
C’est-à-dire la valeur de la fonction de vraisemblance à s déviations standards de l’optimum.
ln L ( µ  s , )  n ln() 
n

(x i  µ  s ) 2
i 1
2 2
Considérons la somme du terme de droite :
n
S

n
2
(x i  µ  s ) 
i 1
 

 x i  µ0  s

n

i 1

2
Développons :
n
S

2
(x i  µ0 )  2 s
i 1

n
n

(x i  µ0 )  n s 2
i 1
2
n
Soit :
n
S
 (x i  µ 0 ) 2  s 2  2
i 1
Reportons dans l’expression de la fonction de vraisemblance, il vient :
n
 
(x i  µ0 ) 2 s 2


ln L  µ 0  s
,    n ln() 

2
2
n 
2

 
i 1

Soit :
 

s2

ln L  µ 0  s
,    ln L ( µ 0 , ) 
2
n 
 
En particulier :
 

1

ln L  µ 0 
,    ln L ( µ 0 , ) 
2
n 
 
A un écart standard de l’optimum le logarithme de la fonction de vraisemblance est diminué
de 1/2 par rapport au maximum.
Plaçons nous à l’optimum pour la valeur moyenne et cherchons le maximum par rapport au
second paramètre . Calculons la dérivée :
S. Tisserant – Eléments de Statistique – 2009
2-3
 ln L
n
 


n

(x i  µ0 ) 2
3
i 1
Soit :
n

(x i  µ0 ) 2
 ln L 1 


 n
2




 i 1


Celle-ci s’annule pour :
 ln L
1
 0  0 2 

n
n
 (x i  µ0 ) 2
i 1
Nous retrouvons également l’estimateur empirique dont nous savons qu’il est biaisé.
Cependant lorsque n tend vers l’infini le biais tend vers 0 : l’estimateur est
approximativement non biaisé.
La fonction de vraisemblance a pour maximum :
ln L ( µ 0 ,  0 )  n ln( 0 ) 
n

(x i  µ0 ) 2
i 1
2 0 2
n
 (x i  µ0 ) 2
ln L ( µ 0 ,  0 )  n ln( 0 ) 
i 1
n
2
1
n
 (x i  µ0 ) 2
i 1
Soit :
1

ln L ( µ 0 ,  0 )  n ln( 0 )  
2

Déterminons l’intervalle de confiance sur 0 : cherchons  tel que :
ln L ( µ 0 , )  ln L ( µ 0 ,  0 ) 
1
2
Posons :
   0 (1  )
La fonction de vraisemblance s’écrit :
ln L ( µ 0 , )  n ln[ 0 (1  )] 
S. Tisserant – Eléments de Statistique – 2009
n
(x i  µ0 ) 2
2
2
i 1 2  0 (1  )

2-4
ln L ( µ 0 , )  n ln[ 0 (1  )] 
n

1
(x i  µ0 ) 2
(1  ) 2 i 1
ln L ( µ 0 , )  n ln[ 0 (1  )] 
2 0 2
n
2 (1  ) 2
Nous supposons  petit, ce qui nous permet de faire des développements limités au deuxième
ordre :
ln[ 0 (1  )]  ln( 0 )  ln (1  )]  ln( 0 )   
1
(1  )
2
2
 o(  2 )
2
 1  2   3  2  o ( 2 )
Reportons dans l’expression de la vraisemblance, il vient :

2  n
ln L ( µ 0 , )  n ln( 0 )      (1  2   3  2 )
2  2

1

ln L ( µ 0 , )  n ln( 0 )    n  2
2

Nous reconnaissons le maximum :
ln L ( µ 0 , )  ln L ( µ 0 ,  0 )  n  2
L’intervalle de confiance à un écart standard est donc défini par :
n 2 
1
2
 
1
2n
Ce qui nous donne pour l’erreur sur l’estimation de l’écart-type :
 
0
2n
C. Estimation d’un paramètre par maximum de vraisemblance
C.1. Estimation d’un paramètre
Résumons le principe d’estimation d’un paramètre  par la méthode du maximum de
vraisemblance, que nous avons suivi avec l’exemple de la loi normale. Après construction de
S. Tisserant – Eléments de Statistique – 2009
2-5
la fonction de vraisemblance L() on calcule son logarithme qu’il faut dériver pour
déterminer les extrema :
 ln L ()
0

Il faut ensuite sélectionner le maximum 0 car il peut y avoir plusieurs extrema. L’intervalle
de confiance [-, +] peut être déterminé en résolvant :
ln L (  )  ln L ( 0 ) 
1
2
Effectuons un développement limité au voisinage du maximum. Nous avons :
 ln L ( 0 )
1  2 ln L ( 0 )
ln L ()  ln L ( 0 ) 
(   0 ) 
(   0 ) 2
2

2

ln L ()  ln L ( 0 ) 
1  2 ln L ( 0 )
(   0 ) 2
2
2

La courbe se comporte comme une parabole au voisinage du maximum et un écart standard
est tel que :
1  2 ln L ( 0 )
1
(   0 ) 2  
2
2
 2
Ce qui nous donne pour l’erreur sur l’estimation du paramètre :
  2 ln L ( 0 ) 
   (   0 )   

 2


2
1
2
Fig. 2-1 : Interprétation géométrique du maximum de vraisemblance
S. Tisserant – Eléments de Statistique – 2009
2-6
La figure 2-1 donne une interprétation géométrique de la détermination de l’estimation d’un
paramètre et de son intervalle de confiance.
C.2. Estimation de deux paramètres ou plus
La méthode se généralise à deux paramètres et plus. Pour chaque paramètre l’optimum annule
la dérivée partielle correspondante. La matrice des variances-covariances est donnée par
l’inverse de la matrice Hessienne évaluée au maximum :
  2 ln L 
V   ij   

  i  j 
 
1
Revenons à la loi normale et calculons la matrice Hessienne :
  2 ln L (µ, )


µ 2

H
 2
  ln L (µ, )

µ 

 2 ln L (µ, ) 

µ 


 2 ln L (µ, ) 

 2

Partons des dérivées partielles du premier ordre :

 n

  ln L (µ, )  1 
xi  n µ


µ
 2  i 1



n
  ln L (µ, )
( x i  µ) 2
n
 



3

i 1


Calculons les dérivées du deuxième ordre :
  2 ln L (µ, )
n



µ 2
2

n
 2
( x i  µ)
  ln L (µ, )
 2

µ 
3

i 1

n
  2 ln L (µ, )
( x i  µ) 2
n

3


 2
2
4
i 1


Ce qui nous donne à l’optimum :
S. Tisserant – Eléments de Statistique – 2009
2-7
n

1
µ 0 
xi
n

i 1


 2 1 n
(x i  µ0 ) 2
 0 
n

i 1


  2 ln L (µ 0 ,  0 )
n


2
µ
2


  2 ln L (µ ,  )

0 0
0


µ




  2 ln L (µ ,  )
2n
0 0


2


2
Nous en déduisons la matrice de variances-covariances :
 2
 µ



 µ 

 n
µ    2
 

 
  2   0


0 


2n 

2
 
1
 2

 n


 0



0 



2 
2 n 
Nous retrouvons le résultat sur les erreurs :

 2
µ  n

 2

  
2n


µ   0

De plus nous constatons que les estimateurs µ0 et 0 ne sont pas corrélés.
C.3 Intervalles de confiance
La technique du maximum de vraisemblance permet de définir des estimateurs et d’évaluer
les erreurs sur ces estimations. En termes d’écarts standards nous définissons un domaine de
confiance à s déviations standards par la relation :
s2
ln L (θ)  ln Lmax 
2
La probabilité associée à un domaine de confiance ainsi défini dépend du nombre n de
paramètres estimés. En termes de niveau de confiance nous définissons un domaine de
confiance correspondant à un niveau de confiance  par la relation :
ln L (θ)  ln Lmax 
S. Tisserant – Eléments de Statistique – 2009
Q
2
2-8
où la quantité Q correspond au quantile d’ordre  d’une loi de 2 à n degrés de liberté.
Q    2 (n )
n étant le nombre de paramètres estimés par maximum de vraisemblance.
La table 2-1 donne les valeurs numériques de Q pour quatre niveaux de confiance de 68 à
99 % pour les cinq premières valeurs de n.

68.3 %
90.0 %
95.0 %
99.0 %
n=1
1.00
2.71
3.84
6.63
n=2
2.30
4.61
5.99
9.21
n=3
3.53
6.25
7.81
11.3
n=4
4.72
7.78
9.49
13.3
n=5
5.89
9.24
11.1
15.1
Table 2-1 : Quantité Q définissant un domaine de confiance obtenu par maximum de
vraisemblance selon le niveau de confiance  et le nombre de paramètres estimés n.
D. Fonction de vraisemblance de deux paramètres
L’exemple précédent constitue un cas particulier (sans corrélation) d’une fonction de
vraisemblance à deux paramètres. Nous nous proposons ici de jeter un œil sur le cas général.
Considérons une fonction de vraisemblance à 2 variables L(x,y). Notons x0 et y0 les
paramètres optimaux. Nous pouvons développer la vraisemblance au voisinage du maximum
sous la forme :
ln L ( x, y)  ln L ( x 0 , y 0 ) 

1
M xx ( x  x 0 ) 2  2 M xy ( x  x 0 ) ( y  y 0 )  M yy ( y  y 0 ) 2
2
Avec :
M xx  
M xy  
M yy  
 2 ln L ( x , y)
x 2

(x 0 , y 0 )
 2 ln L ( x , y)
(x 0 , y 0 )
x y
 2 ln L ( x , y)
y 2
(x 0 , y 0 )
Il s’agit d’un paraboloïde. Comme nous sommes au voisinage d’un maximum nous avons :
M xx  0, M yy  0 et M xx M yy  M xy 2  0
Notons M la matrice définie positive :
S. Tisserant – Eléments de Statistique – 2009
2-9
 M xx
M
M
 xy
M xy 

M yy 
Son inverse nous donne la matrice de covariance V :
 2
 x
V
  xy

 xy    x 2

 y 2     x  y
  x  y 
1
 M 1 

M xx M yy  M xy 2
 y 2 
 M yy

 M
xy

 M xy 

M xx 
Nous en déduisons :
M yy
 2
 x 
M xx M yy  M xy 2


M xx
 2 
y

M xx M yy  M xy 2

et
M xy

 xy  
M xx M yy  M xy 2


M xy
  

M xx M yy

Nous pouvons également exprimer la matrice M à partir des covariances :
 M xx
M
M
 xy
  2
M xy 
y
1

  V 1 

2
2
2
M yy 
 x  y (1   )     x  y

   x  y 

 x 2 
Ce qui nous donne :

1
M xx 

 x 2 (1   2 )


1
M yy 
2
 y (1   2 )



M 
 xy   (1   2 )
x y

Nous pouvons donc réécrire le développement de la fonction de vraisemblance au voisinage
du maximum sous la forme :
 (x  x ) 2
(x  x 0 ) ( y  y 0 ) ( y  y 0 ) 2 
0


ln L ( x, y)  ln L ( x 0 , y 0 ) 
 2

2 
2
2



2 (1   )   x
y
x
y

1
Le domaine de confiance correspondant à s déviations standards est défini par :
ln L ( x, y)  ln L ( x 0 , y 0 ) 
S. Tisserant – Eléments de Statistique – 2009
s2
2
2-10
Il s’agit d’une ellipse d’équation :
(x  x 0 ) 2
x 2
(x  x 0 ) ( y  y 0 ) ( y  y 0 ) 2
 2

 s 2 (1   2 )
2
x
y
y
Pour une déviation standard (s = 1) cette ellipse s’inscrit dans un rectangle de largeur 2x et
de hauteur 2y (fig. 2-2). La rotation des deux axes principaux de l’ellipse dépend de la
corrélation entre les deux paramètres. Nous avons :
tan 2  
2x y
x 2  y2
Les points d’intersection de la droite y = y0 avec l’ellipse ont pour abscisses :
x  x 0   x 1  2
Ils sont matérialisés sur la figure 2-2 par le segment noir.
Fig. 2-2 : Domaine de confiance correspondant à une déviation standard
pour l’estimation simultanée de deux paramètres
S. Tisserant – Eléments de Statistique – 2009
2-11
Cherchons le lieu des maxima par rapport à x. Dérivons la vraisemblance par rapport à x :
 2 (x  x 0 )
 ln L ( x, y)
1
1 (y  y0 ) 

 2


x
 x  y 
2 (1   2 )   x 2
Elle s’annule pour :
y  y0 
y
 x
(x  x 0 )
C’est une droite (en rouge sur la figure). De même le lieu des maxima par rapport à y est une
droite d’équation :
y
y  y0 
(x  x 0 )
x
en bleu sur la figure. Le long de cette droite la vraisemblance a pour expression :
ln L ' ( x )  ln L ( x 0 , y 0 ) 
2
 (x  x 0 ) 2
(x  x 0 ) 2
2 (x  x 0 )

2





2 (1   2 )   x 2
x 2
 x 2 
1
Soit :
ln L ' ( x )  ln L ( x 0 , y 0 ) 
(x  x 0 ) 2
2 x 2
Nous retrouvons l’intervalle de confiance à une déviation standard :
ln L ' ( x )  ln L ( x 0 , y 0 ) 
1
2
 x  x0  x
E. Fonction de vraisemblance étendue
Parfois le nombre n des mesures n’est pas décidé arbitrairement par l’expérimentateur mais il
peut lui-même constituer une variable aléatoire. Il peut par exemple suivre une loi de
Poisson :
P ( n;  )  e

n
n!
La fonction de vraisemblance doit alors être étendue :
L (θ, )  P(x; ) P(n; )  e   
n
n!
n
 p ( x i ; )
i 1
Soit pour la log-vraisemblance :
S. Tisserant – Eléments de Statistique – 2009
2-12
ln L (θ, )    n ln() 
n
 ln p(x i ; )  ln(n!)
i 1
Le nombre moyen d’événements attendus  constitue alors un nouveau paramètre à estimer.
S’il est indépendant des autres paramètres il vient :
 ln L (θ, )
n

 1   0    n


Cependant dans certains cas ce nombre moyen peut être prédit par le modèle étudié et, par
exemple, dépendre des paramètres . La fonction de vraisemblance étendue s’écrit alors :
ln L (θ)  (θ)  n ln(θ) 
n
 ln p(x i ; )  ln(n!)
i 1
Soit encore :
ln L (θ)  (θ) 
n
 ln (θ) p(x i ; )  ln(n!)
i 1
F. Maximum de vraisemblance et histogramme
Lorsque le nombre de mesures est grand il est possible de travailler avec un histogramme sans
perte importante d’information. Considérons une variable aléatoire x ayant pour densité de
probabilité f(x;). Nous effectuons n tirages indépendants de celle-ci. Les nombres
d’apparition sont mémorisés dans un histogramme divisé en k boîtes de même largeur. Nous
notons ni le nombre de tirage observé dans la boîte i.
Nous supposons la largeur x des boîtes suffisamment petite pour pouvoir écrire la probabilité
d’avoir un tirage dans la boîte i sous la forme :
p i  x f (x i ; )
où xi représente le milieu de la boîte. Nous supposons également que la couverture de
l’histogramme est telle que la probabilité d’avoir un tirage hors de l’histogramme est
négligeable.
F.1. Normalisation fixe
Si le nombre total de tirages n est fixé par l’expérimentateur la distribution des nombres
{ni}i=1,…,k suit une loi multinomiale :
P(n1 , n 2 ,..., n k ) 
S. Tisserant – Eléments de Statistique – 2009
n!
p1n 1 p 2 n 2 ... p k n k
n1!n 2 !... n k !
2-13
En tenant compte de l’expression des probabilités pi, nous avons pour la fonction de
vraisemblance :
L () 
n!
x n f ( x1; ) n 1 f ( x 2 ; ) n 2 ... f ( x k ; ) n k
n1!n 2 !... n k !
Soit :
L ( ) 
n!
x n
n1!n 2 !... n k !
k
 f ( x i ; ) n
i
i 1
Ce qui nous donne pour le logarithme :
k
ln L () 
 n i ln f (x i ; )  C
i 1
La constante C regroupe les contributions de tous les termes indépendants des paramètres.
F.2. Normalisation libre
Nous supposons le nombre total de tirages n aléatoire. Si par exemple celui-ci suit une loi de
Poisson de moyenne µ la probabilité d’observer la distribution {ni}i=1,…,k devient :
P(n, n1 , n 2 ,..., n k )  e µ
µn
n!
p1n 1 p 2 n 2 ... p k n k
n! n1!n 2 !... n k !
Nous pouvons donc écrire pour la fonction de vraisemblance :
1
L ( ) 
x n µ n e µ
n1!n 2 !... n k !
k
 f ( x i ; ) n
i
i 1
Soit pour le logarithme en n’explicitant que les termes faisant apparaître que les paramètres 
et µ :
k
ln L ()  n ln(µ)  µ 
 n i lnf (x i ; )  C
i 1
La valeur moyenne µ peut éventuellement être fonction des paramètres , par exemple si le
modèle analysé prédit le nombre total moyen d’événements attendus. Par contre si µ ne
dépend pas a priori des autres paramètres il vient :
 ln L () n
 1  0  µ  n
µ
µ
S. Tisserant – Eléments de Statistique – 2009
2-14
G. Méthode des poids
G.1. Position du problème
La méthode des poids a été présentée par Louis Behr dans sa Thèse d’Etat en 1965. Nous
considérons un lot de n événements indépendants qui peuvent se répartir entre différentes
classes C indépendantes, disjointes et exhaustives. Notons p la probabilité pour qu’un
événement soit du type , avec :
p  1


Nous supposons que chaque événement i est caractérisé par un ensemble de mesures xi. Nous
supposons également que nous connaissons a priori pour chaque famille C la densité de
probabilité des variables aléatoires xi : f(xi), avec naturellement :
 f  (x) dx  1
Nous voulons déterminer la répartition des événements entre les différentes classes.
Nous pouvons écrire la densité de probabilité d’observer les mesures x :
f ( x) 
 p  f  ( x)

Pour calculer la densité de probabilité d’observer un ensemble de n mesures {xi}i=1,…,n nous
devons distinguer deux cas selon que n est une variable aléatoire ou pas.
G.2. Normalisation fixe
Supposons que le nombre n est fixé arbitrairement. Ce n’est pas une variable aléatoire. Les n
événements étant indépendants nous avons pour la probabilité d’observation :

n


 

   p  f  (xi )
P x i i 1,...,n 
i 1
Celle-ci dépend des proportions p que nous voulons estimer. Nous pouvons construire la
fonction de vraisemblance de ces paramètres :
L p   



p  f  (x i )


i 1  

n

Soit encore pour le logarithme :
S. Tisserant – Eléments de Statistique – 2009
2-15


ln 
p  f  (x i )


i 1  

n
 
ln L p   
Nous devons chercher le maximum de cette vraisemblance avec la contrainte :
 p  1

Nous introduisons donc un multiplicateur de Lagrange et maximisons :
Fp   


ln 
p  f  (x i )  µ
p


i 1  


n
 

Dérivons :
F

p 
n
  p fi (xi )  µ
f (x )
i 1

Ce qui conduit au système d’équations :
F
0  µ
p 
n
  p fi (xi )
i 1
f (x )

Ce qui nous permet d’écrire :
n
µ  µ p 
  p  f  (x i )
p  f  (x i )
i 1

Ce qui nous donne en sommant sur toutes les classes :
 p  f  (x i )
µ  p   
n
p
f
(
x
)

i 1    i
n

Nous avons donc pour le multiplicateur de Lagrange :
µn
Reportons dans le système d’équations. Il vient :
S. Tisserant – Eléments de Statistique – 2009
2-16
n
µ  n p  
 pf (ixi )
i 1
p f (x )

Ce système peut se résoudre par itérations. Il peut également s’écrire :
n
µ 
 µf (ixi )
i 1
µ f (x )

Les paramètres µ représentent les nombres moyens d’événements de chaque type parmi les n
événements.
D’autre part la quantité :
  (i) 
µ  f  (x i )
p  f  (x i )

 µ f  (x i )  p  f  (x i )


est appelée poids de l’événement i dans l’hypothèse . Ces poids vérifient :
   (i)  1

Le nombre moyen d’événements d’une famille C est égal à la somme sur tous les
événements de leur poids dans l’hypothèse correspondante :
n
µ 
   (i)
i 1
G.3. Normalisation libre
Nous supposons ici que le nombre total d’événements puisse être considéré comme une
variable aléatoire obéissant à une loi de Poisson de valeur moyenne µ.
Nous avons pour la densité de probabilité d’observer les n événements :


µ n µ
P x i i 1,...,n 
e
n!



p  f  (x i )


i 1  

n

Soit :
S. Tisserant – Eléments de Statistique – 2009
2-17


1
P x i i 1,...,n  e µ
n!


 µ p  f  (x i )


i 1  

n

Posons :
µ  µ p 
avec
µ   µ

Nous pouvons écrire avec ces notations :
n


 

1
Px i i 1,...,n   e   µ   µ  f  (x i )
n!



i 1
Ce qui nous donne la fonction de vraisemblance des paramètres µ :


 µ  f  (x i )


i 1  

n

1
L µ    e   µ 
n!
Soit encore pour le logarithme, à une constante additive près :
ln L µ   


ln  µ  f  (x i ) 
µ  C


i 1  
 
n
 

Dérivons :
 ln L µ  

µ 
n
 µ fi (xi )  µ
f (x )
i 1

La recherche du maximum nous conduit à un système d’équations identiques au premier cas
(normalisation fixe) :
n
µ 
 µf (ixi )
µ f (x )
i 1

L’estimateur du nombre moyen µ est naturellement :
µ
µ  n

S. Tisserant – Eléments de Statistique – 2009
2-18
G.4. Exemple
A titre d’exemple nous considérons un cas limité à deux familles. Nous nous intéressons à une
variable aléatoire x. Les événements peuvent être du type signal (s) ou bruit de fond (b). Les
deux densités de probabilités, fs(x) et fb(x), sont supposées connues. On réalise une expérience
qui enregistre n mesures {xi}i=1,…,n. On souhaite déterminer la répartition du signal et du bruit,
µs et µb, parmi ces n événements.
Nous devons résoudre par itérations le système de deux équations suivant :
n

µs f s (x i )
µ s 
µ f (x )  µ b f b (x i )

i 1 s s i


n

µ b f b (x i )
µ b 
µ f (x )  µ b f b (x i )

i 1 s s i


A titre d’illustration, nous avons réalisé une simulation simple d’une expérience de ce type.
Nous avons supposé les mesures bornées sur l’intervalle [a, b] et nous avons pris pour la
densité de probabilité du signal une gaussienne et pour le bruit de fond une distribution
exponentielle :
 (x  x 0 ) 2 
f s (x) 
exp 

 2
2  2 

1
f b (x) 
  x
e
A
avec A  e   a  e   b
Pour l’analyse toutes les quantités x0,  et  caractérisant ces densités de probabilité sont
considérées comme connues.
Dans l’exemple présenté ici nous avons pris :
x 0  1,   0.05,   0.2, a  0, b  2, µs  6 et µ b  60
Les figures présentées correspondent à une réalisation comportant 71 événements dont 9
correspondent à du signal. La figure 3 présente l’allure de la fonction de vraisemblance en
fonction des deux paramètres à estimer µs et µb. La recherche de l’optimum conduit à
l’estimation suivante :
µs  7.9 et µ b  63.1
Le contour tracé sur la figure 2-3 correspond à une déviation standard. Il nous permet
d’estimer un intervalle de confiance pour chacun des paramètres. Nous avons :
µs  4.3, 12.1 et µ b  55.1, 71.9
S. Tisserant – Eléments de Statistique – 2009
2-19
Ces intervalles ne sont pas parfaitement symétriques par rapport à l’optimum.
Fig. 2-3 : Fonction de vraisemblance pour notre simulation
Fig. 2-4 : Distribution de la variable aléatoire x pour notre simulation
S. Tisserant – Eléments de Statistique – 2009
2-20
Remarquons l’importance de la connaissance a priori des densités de probabilité. La figure 24 montre la distribution de la variable aléatoire x pour notre réalisation. Sans information
supplémentaire il serait difficile de mettre en évidence le signal.
S. Tisserant – Eléments de Statistique – 2009
2-21
Téléchargement