M´elange de Gaussiennes: p(x|j) est une normale de moyenne µjet variance Σj.
C’est un “approximateur universel” des densit´es (pour une erreur fix´ee on peut
trouver m < ∞et les µj,Σjqui approxime avec une erreur plus petite).
Param`etres: les P(j) et les param`etres de chaque composante.
On peut aussi avoir des m´elanges conditionnels:
P(Y|X) = X
i
P(i|X)P(Y|X, i)
qu’on appelle aussi des m´elanges d’experts (mixtures of experts). Dans ce cas,
chacun des sous-mod`eles repr´esente une distribution conditionnelle (par exemple
on peut utiliser un r´eseau de neurone pour calculer les param`etres d’une Gaussi-
enne). Rappelons que
E[Y|X] = X
i
P(i|X)E[Y|X, i]
Donc si on a un ensemble de mod`eles de r´egression, E[Y|X, i], on peut les combiner
ainsi. La fonction P(i|X) est aussi une fonction param´etris´ee de X, et on l’appelle
le gater puisqu’elle d´ecide quelle sous-distribution utiliser dans chaque contexte
X.
Algorithme EM
Malheureusement on ne peut maximiser analytiquement la vraisemblance pour un
mod`ele de m´elange de densit´es simples (e.g. m´elange de Gaussiennes). L’algorithme
EM est un algorithme d’optimisation pour mod`eles probabilistes quand on peut
r´esoudre analytiquement une fois qu’une certaine variable al´eatoire est introduite
et suppos´ee observ´ee (ici ¸ca sera l’identit´e de la composante jqui a g´en´er´e la
donn´ee x).
L’algorithme EM est un algorithme d’optimisation (d’estimation de param`etres)
pour certaines distributions param´etriques Pθ(Y) (possiblement conditionnelles
Pθ(Y|X)), et qui a ´et´e principalement utilis´e pour des mixtures, telles que les
mixtures de Gaussiennes et les mod`eles de Markov cach´es (HMMs). Il s’agit d’une
technique d’optimisation qui permet parfois d’acc´elerer l’estimation des param`etres
(par rapport `a un algorithme d’optimisation num´erique g´en´erique). Il faut pouvoir
introduire un nouveau mod`ele probabiliste Pθ(Y, Z) avec une variable cach´ee (non-
observ´ee) Z(g´en´eralement discr`ete), telle que la maximisation de la vraisemblance
de Pθ(Y, Z) est beaucoup plus facile que celle de Pθ(Y). C’est par exemple le cas
des m´elanges de Gaussiennes et des HMMs. Pour les m´elanges de Gaussiennes, la