4-METHODES PARAMETRIQUES : ESTIMATION D’UN
MELANGE DE LOIS
Méthode
La loi de distribution d’ un ensemble d’observations est le plus souvent définie comme une
combinaison convexe de plusieurs lois de probabilités. Afin d’ estimer les paramètres de ce mélange
de lois, la méthode de Monte Carlo par chaîne de Markov (MCMC) est de plus en plus utilisée. La
méthode MCMC est un algorithme qui génère une chaîne de Markov (Yn, n=>0), stationnaire
sous certaines conditions.
Rappels : ( Yn, n=>0) est une chaîne de Markov si la loi de probabilité de l‘état Yn+1, ne dépend
que de l’état de Yn : P (Yn+1 / Yn, Yn-1, .., Xo) = P (Yn+1 / Yn).
Un état Yn représente la valeur des paramètres à estimer à la nième itération de l’algorithme.
Le passage de l’état Yn à l’état Yn+1 se fait grâce à une estimation Bayésienne.
Cette méthode nécessite de connaître au préalable le nombre k de lois qui constituent le mélange.
Nous allons appliquer cet algorithme à l’échantillon 2. Les observations seront constituées des
projections sur l’a xe 1 de l’analyse en composantes principales. On suppose que ces observations sont
une réalisation d’une variable aléatoire X de loi Px.
On suppose aussi que la distribution des points selon l’axe 1 est un mélange de 2 lois normales (k=2).
X ~ Px = p*Normale (mu_1, var_1) + (1-p)*Normale (mu_2, var_2).
Soit f la densité de la loi normale du groupe 1 (gr1).
Soit g la densité de la loi normale du groupe 1 (gr2).
On pose théta = [p, (1-p), mu_1, mu_2, sigma_1, sigma_2], les paramètres à estimer. (théta est la
chaîne de Markov)
Le but est d’ estimer théta au vu des observations x1, ..., xN.
Algorithme
Etape 0. : Initialisation des paramètres : thêta (0) = thêta_0 (loi initiale de la chaîne de
Markov)
La chaîne de Markov est stationnaire si la loi initiale est la loi recherchée (i.e les
valeurs de départ sont les vraies valeurs)
[p, (1-p)] = [0.5, 0.5]
Les probabilités a priori de chaque classe sont uniformes, égales à 1/ k, où k est le nombre de
classes.
[mu_1, mu_2] = [1, 2]
[var_1, var_2] = [1, 1]
1