Algorithmes EM

Téléchargement

Algorithmes EM - CEM

A3 - WMMFB40

Exercice 1: Exemple jouet

Nous considérons ici une collection simpliﬁée dans laquelle les poids des termes dans

les documents sont des poids de présence/absence binaires (1 si le terme est présent, 0

sinon). Cette collection contient 4 documents d1=(java,langage);d2=(java,programmation),

d3=(café,récolte)et d4=(java,café,récolte).

1.1 Quel sont le vocabulaire associé à cette collection ainsi que la représentation binaire

documents-termes obtenue?

1.2 Donner les matrices de similarité suivant les indices de Jaccard, le coeﬃcient de

Dice et la mesure cosinus.

1.3 Quelles sont les partitions obtenues avec l’algorithme de la méthode à une passe, si

on prend pour similarité le coeﬃcient de Jaccard, pour seuil 0,2,etenconsidérantles

documents dans l’ordre d1,d

2,d

3,d

4,puisdansl’ordred4,d

1,d

2,d

1.4 Même question dans le cas où on considérerait l’algorithme des k-moyennes et en

utilisant comme mesure de similarité le coeﬃcient de Jaccard. Nous considérons deux

classes (K=2), et formulons l’hypothèse que les documents d3et d4ont été choisis

comme représentants initiaux des deux classes.

Exercice 2: Algorithme EM

Aﬁn de déterminer les paramètres ⇥d’un modèle qui explique au mieux un ensemble

d’observations d1:N=(d1,...,d

N)supposées être un vecteur aléatoire, on peut chercher

àmaximiserlalog-vraisemblancedumélange(ouLM)suivant⇥.Engénéral,iln’est

pas possible de résoudre explicitement:

@LM

@⇥=0

Une manière de maximiser LMest d’utiliser alors une classe générale de procédures

itératives connues sous le nom d’algorithme Expectation-Maximisation (EM). Cet algo-

Traitement des données temps réel et données hétérogènes WMMFB40

rithme est l’un des algorithmes d’optimisation les plus employés en statistiques. Parmi

les applications classiques qui l’utilisent on peut citer le modèle PLSA.

2.1 Le principe de l’algorithme EM est le suivant; à chaque itération, les valeurs de ⇥

sont réestimées de façon à accroître LMet ceci jusqu’à ce qu’un maximum soit atteint.

L’idée principale de cet algorithme est d’introduire des variables cachées Zde façon à ce

que, si les Zétaient connues, la valeur optimale de ⇥pourrait être trouvée facilement.

Montrer que:

LM(⇥) = ln X

P(d1:N|Z, ⇥)P(Z|⇥)

2.2 En notant l’estimation courante des paramètres à l’itération t,⇥(t),l’itérationt+1

consiste à trouver une nouvelle valeur des paramètres ⇥qui maximise LM(⇥)LM(⇥(t)).

Montrer que:

LM(⇥)L

M(⇥(t))=lnX

P(Z|d1:N,⇥(t))P(d1:N|Z, ⇥)P(Z|⇥)

P(Z|d1:N,⇥(t))P(d1:N|⇥(t))

2.3 En utilisant la concavité de la fonction logarithme, et l’inégalité de Jensen:

Si (i)n

i=1 est tel que

i=1

i=1alors ln

i=1

ixi

i=1

iln xi

montrer que:

LM(⇥)L

M(⇥(t))X

P(Z|d1:N,⇥(t))ln P(d1:N|Z, ⇥)P(Z|⇥)

P(d1:N|⇥(t))P(Z|d1:N,⇥(t))

2.4 Soit:

Q(⇥,⇥(t))=LM(⇥(t))+X

P(Z|d1:N,⇥(t))ln P(d1:N|Z, ⇥)P(Z|⇥)

P(d1:N|⇥(t))P(Z|d1:N,⇥(t))

Dire comment se comporte Q(⇥,⇥(t))par rapport à LM(⇥).

2.5 À l’étape t+1,nouscherchonsunenouvellevaleurde⇥qui maximise Q(⇥,⇥(t)),

montrer que la nouvelle valeur des paramètres ⇥(t+1) qui maximise cette fonction vériﬁe:

⇥(t+1) =argmax

⇥

EZ|d1:N⇥ln P(d1:N,Z |⇥)|⇥(t)⇤

où EZ|d1:N[.]est l’espérance conditionnelle des variables cachées sachant les observées.

[email protected] 2

Traitement des données temps réel et données hétérogènes WMMFB40

2.6 L’algorithme EM peut ainsi être résumé par l’algorithme suivant.

Algorithm 1: Algorithme EM

Entrée :unensembled’observationsd1:N={d1,··· ,d

Initialisation:initialisationdesparamètres⇥(0)

pour t0faire

Étape E:calculerl’espéranceEZ|d1:N⇥ln P(d1:N,Z |⇥)|⇥(t)⇤;

Étape M:trouver⇥(t+1) qui maximise Q(⇥,⇥(t));

ﬁn

Sortie :lesparamètresdumodèle⇥.

Montrer que l’algorithme 1 converge.

Exercice 3: Algorithme CEM avec des densités normales

On considère l’algorithme CEM vu en cours. Nous nous plaçons dans le cas où les

densités de mélange sont des lois normales avec une matrice de covariance identité et où

les proportions des groupes sont équiprobables

3.1 Montrer que:

8k2{1,...,K},P(d|Gk,⇥) = 1

(2⇡)V/2exp1

2||drk||2

⇡k=1

où ||.||2représente le carré de la distance euclidienne.

3.2 Les paramètres du mélange à estimer sont alors ⇥={rk|k2{1,...,K}}.

Montrer alors que, le logarithme de la vraisemblance classiﬁante s’écrit:

LC(G, ⇥) = 1

i=1

k=1

tik||dirk||2+A

=1

k=1

d2Gk

||drk||2+A

où Aest une constante ne dépendant pas des paramètres ⇥.

3.3 Ainsi, la maximisation du logarithme de la vraisemblance classiﬁante par rapport

à⇥est équivalente à la minimisation de la somme des distances :

SSR(G1,...,G

K;r1,...,rK)=1

k=1

d2Gk

||drk||2(1)

La notation SSR provient de l’anglais Sum of Squared Residuals (ou somme des carrés

des résidus)

[email protected] 3

Traitement des données temps réel et données hétérogènes WMMFB40

3.3 Estimer le gradient du critère précédent, et montrer que ce critère atteint ainsi un

minimum local lorsque

8k2{1,...,K},rk=1

|Gk|X

d2Gk

où |Gk|représente le cardinal (le nombre d’exemples) du groupe Gk.

3.4 Dire alors à quel algorithme de partitionnement vu en cours se réduit l’algorithme

CEM dans ce cas?

[email protected] 4

1 / 4 100%

Algorithmes EM

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Algorithmes EM

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib