Algorithmes EM

publicité
Algorithmes EM - CEM
A3 - WMMFB40
Exercice 1: Exemple jouet
Nous considérons ici une collection simplifiée dans laquelle les poids des termes dans
les documents sont des poids de présence/absence binaires (1 si le terme est présent, 0
sinon). Cette collection contient 4 documents d1 = (java, langage); d2 = (java, programmation),
d3 = (café, récolte) et d4 = (java, café, récolte).
1.1 Quel sont le vocabulaire associé à cette collection ainsi que la représentation binaire
documents-termes obtenue?
1.2 Donner les matrices de similarité suivant les indices de Jaccard, le coefficient de
Dice et la mesure cosinus.
1.3 Quelles sont les partitions obtenues avec l’algorithme de la méthode à une passe, si
on prend pour similarité le coefficient de Jaccard, pour seuil 0, 2, et en considérant les
documents dans l’ordre d1 , d2 , d3 , d4 , puis dans l’ordre d4 , d1 , d2 , d3 ?
1.4 Même question dans le cas où on considérerait l’algorithme des k-moyennes et en
utilisant comme mesure de similarité le coefficient de Jaccard. Nous considérons deux
classes (K = 2), et formulons l’hypothèse que les documents d3 et d4 ont été choisis
comme représentants initiaux des deux classes.
Exercice 2: Algorithme EM
Afin de déterminer les paramètres ⇥ d’un modèle qui explique au mieux un ensemble
d’observations d1:N = (d1 , . . . , dN ) supposées être un vecteur aléatoire, on peut chercher
à maximiser la log-vraisemblance du mélange (ou LM ) suivant ⇥. En général, il n’est
pas possible de résoudre explicitement:
@LM
=0
@⇥
Une manière de maximiser LM est d’utiliser alors une classe générale de procédures
itératives connues sous le nom d’algorithme Expectation-Maximisation (EM). Cet algo1
Traitement des données temps réel et données hétérogènes
WMMFB40
rithme est l’un des algorithmes d’optimisation les plus employés en statistiques. Parmi
les applications classiques qui l’utilisent on peut citer le modèle PLSA.
2.1 Le principe de l’algorithme EM est le suivant; à chaque itération, les valeurs de ⇥
sont réestimées de façon à accroître LM et ceci jusqu’à ce qu’un maximum soit atteint.
L’idée principale de cet algorithme est d’introduire des variables cachées Z de façon à ce
que, si les Z étaient connues, la valeur optimale de ⇥ pourrait être trouvée facilement.
Montrer que:
X
LM (⇥) = ln
P (d1:N | Z, ⇥)P (Z | ⇥)
Z
2.2 En notant l’estimation courante des paramètres à l’itération t, ⇥(t) , l’itération t + 1
consiste à trouver une nouvelle valeur des paramètres ⇥ qui maximise LM (⇥) LM (⇥(t) ).
Montrer que:
LM (⇥)
LM (⇥(t) ) = ln
X
Z
P (Z | d1:N , ⇥(t) )
P (d1:N | Z, ⇥)P (Z | ⇥)
P (Z | d1:N , ⇥(t) )P (d1:N | ⇥(t) )
2.3 En utilisant la concavité de la fonction logarithme, et l’inégalité de Jensen:
Si (
n
i )i=1
est tel que
n
X
i
= 1 alors ln
i=1
n
X
i xi
i=1
n
X
i
ln xi
i=1
montrer que:
LM (⇥)
LM (⇥(t) )
X
Z
P (Z | d1:N , ⇥(t) ) ln
P (d1:N | Z, ⇥)P (Z | ⇥)
P (d1:N | ⇥(t) )P (Z | d1:N , ⇥(t) )
2.4 Soit:
Q(⇥, ⇥(t) ) = LM (⇥(t) ) +
X
Z
P (Z | d1:N , ⇥(t) ) ln
P (d1:N | Z, ⇥)P (Z | ⇥)
P (d1:N | ⇥(t) )P (Z | d1:N , ⇥(t) )
Dire comment se comporte Q(⇥, ⇥(t) ) par rapport à LM (⇥).
2.5 À l’étape t + 1, nous cherchons une nouvelle valeur de ⇥ qui maximise Q(⇥, ⇥(t) ),
montrer que la nouvelle valeur des paramètres ⇥(t+1) qui maximise cette fonction vérifie:
⇥
⇤
⇥(t+1) = argmax EZ|d1:N ln P (d1:N , Z | ⇥) | ⇥(t)
⇥
où EZ|d1:N [.] est l’espérance conditionnelle des variables cachées sachant les observées.
[email protected]
2
Traitement des données temps réel et données hétérogènes
WMMFB40
2.6 L’algorithme EM peut ainsi être résumé par l’algorithme suivant.
Algorithm 1: Algorithme EM
Entrée
: un ensemble d’observations d1:N = {d1 , · · · , dN }
Initialisation: initialisation des paramètres ⇥(0)
pour t 0 faire
⇥
⇤
Étape E: calculer l’espérance EZ|d1:N ln P (d1:N , Z | ⇥) | ⇥(t) ;
Étape M: trouver ⇥(t+1) qui maximise Q(⇥, ⇥(t) ) ;
fin
Sortie
: les paramètres du modèle ⇥.
Montrer que l’algorithme 1 converge.
Exercice 3: Algorithme CEM avec des densités normales
On considère l’algorithme CEM vu en cours. Nous nous plaçons dans le cas où les
densités de mélange sont des lois normales avec une matrice de covariance identité et où
les proportions des groupes sont équiprobables
3.1 Montrer que:
1
exp
(2⇡)V /2
1
⇡k =
K
2
où ||.|| représente le carré de la distance euclidienne.
8k 2 {1, . . . , K}, P (d | Gk , ⇥) =
1
||d
2
r k ||2
3.2 Les paramètres du mélange à estimer sont alors ⇥ = {r k | k 2 {1, . . . , K}}.
Montrer alors que, le logarithme de la vraisemblance classifiante s’écrit:
N
LC (G, ⇥) =
=
K
1 XX
tik ||di
2 i=1 k=1
K
1X X
||d
2 k=1 d2G
k
r k ||2 + A
r k ||2 + A
où A est une constante ne dépendant pas des paramètres ⇥.
3.3 Ainsi, la maximisation du logarithme de la vraisemblance classifiante par rapport
à ⇥ est équivalente à la minimisation de la somme des distances :
K
1X X
SSR(G1 , . . . , GK ; r 1 , . . . , r K ) =
||d
2 k=1 d2G
k
r k ||2
(1)
La notation SSR provient de l’anglais Sum of Squared Residuals (ou somme des carrés
des résidus)
[email protected]
3
Traitement des données temps réel et données hétérogènes
WMMFB40
3.3 Estimer le gradient du critère précédent, et montrer que ce critère atteint ainsi un
minimum local lorsque
8k 2 {1, . . . , K}, r k =
1 X
d
|Gk | d2G
k
où |Gk | représente le cardinal (le nombre d’exemples) du groupe Gk .
3.4 Dire alors à quel algorithme de partitionnement vu en cours se réduit l’algorithme
CEM dans ce cas?
[email protected]
4
Téléchargement