Algorithmes EM - CEM
A3 - WMMFB40
Exercice 1: Exemple jouet
Nous considérons ici une collection simplifiée dans laquelle les poids des termes dans
les documents sont des poids de présence/absence binaires (1 si le terme est présent, 0
sinon). Cette collection contient 4 documents d1=(java,langage);d2=(java,programmation),
d3=(café,récolte)et d4=(java,café,récolte).
1.1 Quel sont le vocabulaire associé à cette collection ainsi que la représentation binaire
documents-termes obtenue?
1.2 Donner les matrices de similarité suivant les indices de Jaccard, le coefficient de
Dice et la mesure cosinus.
1.3 Quelles sont les partitions obtenues avec l’algorithme de la méthode à une passe, si
on prend pour similarité le coefficient de Jaccard, pour seuil 0,2,etenconsidérantles
documents dans l’ordre d1,d
2,d
3,d
4,puisdansl’ordred4,d
1,d
2,d
3?
1.4 Même question dans le cas où on considérerait l’algorithme des k-moyennes et en
utilisant comme mesure de similarité le coefficient de Jaccard. Nous considérons deux
classes (K=2), et formulons l’hypothèse que les documents d3et d4ont été choisis
comme représentants initiaux des deux classes.
Exercice 2: Algorithme EM
Afin de déterminer les paramètres ⇥d’un modèle qui explique au mieux un ensemble
d’observations d1:N=(d1,...,d
N)supposées être un vecteur aléatoire, on peut chercher
àmaximiserlalog-vraisemblancedumélange(ouLM)suivant⇥.Engénéral,iln’est
pas possible de résoudre explicitement:
@LM
@⇥=0
Une manière de maximiser LMest d’utiliser alors une classe générale de procédures
itératives connues sous le nom d’algorithme Expectation-Maximisation (EM). Cet algo-
1