Algorithmes EM - CEM
A3 - WMMFB40
Exercice 1: Exemple jouet
Nous considérons ici une collection simplifiée dans laquelle les poids des termes dans
les documents sont des poids de présence/absence binaires (1 si le terme est présent, 0
sinon). Cette collection contient 4 documents d1=(java,langage);d2=(java,programmation),
d3=(café,récolte)et d4=(java,café,récolte).
1.1 Quel sont le vocabulaire associé à cette collection ainsi que la représentation binaire
documents-termes obtenue?
1.2 Donner les matrices de similarité suivant les indices de Jaccard, le coecient de
Dice et la mesure cosinus.
1.3 Quelles sont les partitions obtenues avec l’algorithme de la méthode à une passe, si
on prend pour similarité le coecient de Jaccard, pour seuil 0,2,etenconsidérantles
documents dans l’ordre d1,d
2,d
3,d
4,puisdanslordred4,d
1,d
2,d
3?
1.4 Même question dans le cas où on considérerait l’algorithme des k-moyennes et en
utilisant comme mesure de similarité le coecient de Jaccard. Nous considérons deux
classes (K=2), et formulons l’hypothèse que les documents d3et d4ont été choisis
comme représentants initiaux des deux classes.
Exercice 2: Algorithme EM
Afin de déterminer les paramètres d’un modèle qui explique au mieux un ensemble
d’observations d1:N=(d1,...,d
N)supposées être un vecteur aléatoire, on peut chercher
àmaximiserlalog-vraisemblancedumélange(ouLM)suivant.Engénéral,ilnest
pas possible de résoudre explicitement:
@LM
@=0
Une manière de maximiser LMest d’utiliser alors une classe générale de procédures
itératives connues sous le nom d’algorithme Expectation-Maximisation (EM). Cet algo-
1
Traitement des données temps réel et données hétérogènes WMMFB40
rithme est l’un des algorithmes d’optimisation les plus employés en statistiques. Parmi
les applications classiques qui l’utilisent on peut citer le modèle PLSA.
2.1 Le principe de l’algorithme EM est le suivant; à chaque itération, les valeurs de
sont réestimées de façon à accroître LMet ceci jusqu’à ce qu’un maximum soit atteint.
L’idée principale de cet algorithme est d’introduire des variables cachées Zde façon à ce
que, si les Zétaient connues, la valeur optimale de pourrait être trouvée facilement.
Montrer que:
LM() = ln X
Z
P(d1:N|Z, )P(Z|)
2.2 En notant l’estimation courante des paramètres à l’itération t,(t),litérationt+1
consiste à trouver une nouvelle valeur des paramètres qui maximise LM()LM((t)).
Montrer que:
LM()L
M((t))=lnX
Z
P(Z|d1:N,(t))P(d1:N|Z, )P(Z|)
P(Z|d1:N,(t))P(d1:N|(t))
2.3 En utilisant la concavité de la fonction logarithme, et l’inégalité de Jensen:
Si (i)n
i=1 est tel que
n
X
i=1
i=1alors ln
n
X
i=1
ixi
n
X
i=1
iln xi
montrer que:
LM()L
M((t))X
Z
P(Z|d1:N,(t))ln P(d1:N|Z, )P(Z|)
P(d1:N|(t))P(Z|d1:N,(t))
2.4 Soit:
Q(,(t))=LM((t))+X
Z
P(Z|d1:N,(t))ln P(d1:N|Z, )P(Z|)
P(d1:N|(t))P(Z|d1:N,(t))
Dire comment se comporte Q(,(t))par rapport à LM().
2.5 À l’étape t+1,nouscherchonsunenouvellevaleurdequi maximise Q(,(t)),
montrer que la nouvelle valeur des paramètres (t+1) qui maximise cette fonction vérifie:
(t+1) =argmax
EZ|d1:Nln P(d1:N,Z |)|(t)
EZ|d1:N[.]est l’espérance conditionnelle des variables cachées sachant les observées.
Traitement des données temps réel et données hétérogènes WMMFB40
2.6 L’algorithme EM peut ainsi être résumé par l’algorithme suivant.
Algorithm 1: Algorithme EM
Entrée :unensembledobservationsd1:N={d1,··· ,d
N}
Initialisation:initialisationdesparamètres(0)
pour t0faire
Étape E:calculerlespéranceEZ|d1:Nln P(d1:N,Z |)|(t);
Étape M:trouver(t+1) qui maximise Q(,(t));
fin
Sortie :lesparamètresdumodèle.
Montrer que l’algorithme 1 converge.
Exercice 3: Algorithme CEM avec des densités normales
On considère l’algorithme CEM vu en cours. Nous nous plaçons dans le cas où les
densités de mélange sont des lois normales avec une matrice de covariance identité et où
les proportions des groupes sont équiprobables
3.1 Montrer que:
8k2{1,...,K},P(d|Gk,) = 1
(2)V/2exp1
2||drk||2
k=1
K
||.||2représente le carré de la distance euclidienne.
3.2 Les paramètres du mélange à estimer sont alors ={rk|k2{1,...,K}}.
Montrer alors que, le logarithme de la vraisemblance classifiante s’écrit:
LC(G, ) = 1
2
N
X
i=1
K
X
k=1
tik||dirk||2+A
=1
2
K
X
k=1
X
d2Gk
||drk||2+A
Aest une constante ne dépendant pas des paramètres .
3.3 Ainsi, la maximisation du logarithme de la vraisemblance classifiante par rapport
àest équivalente à la minimisation de la somme des distances :
SSR(G1,...,G
K;r1,...,rK)=1
2
K
X
k=1
X
d2Gk
||drk||2(1)
La notation SSR provient de l’anglais Sum of Squared Residuals (ou somme des carrés
des résidus)
Traitement des données temps réel et données hétérogènes WMMFB40
3.3 Estimer le gradient du critère précédent, et montrer que ce critère atteint ainsi un
minimum local lorsque
8k2{1,...,K},rk=1
|Gk|X
d2Gk
d
|Gk|représente le cardinal (le nombre d’exemples) du groupe Gk.
3.4 Dire alors à quel algorithme de partitionnement vu en cours se réduit l’algorithme
CEM dans ce cas?
1 / 4 100%