Mastere M2 MVA 2010 - Mod`eles graphiques
Exercices `a rendre pour le 15 d´ecembre 2010.
Ces exercices doivent s’effectuer seul.
1 Propagation de messages dans les mod`eles gaus-
siens
Soit un mod`ele graphique Gaussien non-orient´e de param`etres canoniques ηRn
(le vecteur potentiel) et Λ Rn×n(la matrice de pr´ecision). On consid`ere le cas
o`u la variable al´eatoire correspondant `a chaque noeud est une variable Gaussienne
scalaire et o`u le mod`ele graphique est un arbre G= (V, E). On s’int´eresse au calcul
des lois marginales par l’algorithme de propagation de messages (PM). L’algorithme
de propagation des messages tel que vu en cours ´echange des messages qui sont des
fonctions-potentiels de Rdans R.
1. Montrer qu’en pratique, la PM peut s’impl´ementer en ´echangeant des mes-
sages mstqui sont des exponentielles de fonctions quadratiques. Calculer les
´equations de propagation des messages pour ces fonctions quadratiques.
2. Montrer qu’au terme de l’algorithme, le calcul des marginales sur les noeuds et
les arˆetes permet de calculer µ=E[X] et (E[XsXt]){s,t}∈E.
3. Quelle est la complexit´e de l’algorithme PM ? Quelle est la complexit´e du calcul
de µ`a partir de Λ et ηdans le cas g´en´eral du mod`ele Gaussien ? Dans le cas ou
le mod`ele graphique est un arbre ? Commentez.
2 Apprentissage de la structure d’un arbre
Dans cet exercice, un algorithme pour apprendre la structure d’un mod`ele graphique
`a partir de donn´ees i.i.d sera d´eriv´e pour les arbres.
1. Pr´eliminaire I (entropie marginale) : Soit une variable al´eatoire discr`ete X`a
valeurs dans un ensemble fini X. Soit η(x) = p(X=x) le vecteur de param`etres.
Soit un ´echantillon i.i.d (xn), n= 1,...,N de taille Nde cette variable. On note
ˆp(x) la densit´e empirique, d´efinie par ˆp(x) = 1
NPN
n=1 δ(xn=x). Montrer que la
log-vraisemblance conditionnelle maximale maxηPN
n=1 log p(xn|η) est ´egale `a :
max
η
N
X
n=1
log p(xn|η) = NH(X),
o`u H(X) est l’entropie empirique de X, d´efinie par H(X) = X
x∈X
ˆp(x) log ˆp(x).
1
2. Pr´eliminaire II (entropies jointe et conditionnelle) : Soient deux variables al´eatoires
discr`etes X,Y`a valeurs dans des ensembles finis Xet Y. Soit η(x, y) = p(Y=
x|X=x) la matrice de param`etres de la loi conditionnelle. Soit un ´echantillon
i.i.d (xn, yn), n= 1,...,N de taille Nde ces deux variables. On note ˆp(x, y) la
densit´e empirique, d´efinie par ˆp(x, y) = 1
NPN
n=1 δ(xn=x)δ(yn=y). Montrer
que la log-vraisemblance conditionnelle maximale maxηPN
n=1 log p(yn|xn, η) est
´egale `a :
max
η
N
X
n=1
log p(yn|xn, η) = N(H(X)H(X, Y ))
o`u H(X, Y ) l’entropie (jointe) empirique de (X, Y ) est d´efinie par
H(X, Y ) = X
y∈Y
X
x∈X
ˆp(x, y) log ˆp(x, y).
3. On consid`ere maintenant Pvariables al´eatoires X1,...,XP`a supports finis
X1,...,XP. On consid`ere Nobservations i.i.d. de ces Pvariables, (xn
p), p=
1,...,P,n= 1,...,N. On note ˆp(x1,...,xP) la densit´e empirique, d´efinie
comme suit :
ˆp(x1,...,xP) = 1
N
N
X
n=1
δ(xn
1=x1)···δ(xn
P=xP).
Cette densit´e jointe permet de d´efinir des densit´es marginales ˆp(xp, xq) et ˆp(xq)
par marginalisation.
Soit un arbre couvrant orient´e T`a Psommets (i.e., un DAG connexe avec
au plus un parent par sommet). Quelle est la param´etrisation la plus g´en´erale
pour une loi p(x1,...,xP) se factorisant dans un tel DAG ? Montrer qu’une fois
maximis´ee par rapport `a ces param`etres, la log-vraisemblance des donn´ees est
´egale `a :
(T) = N
P
X
p=1
H(Xπp(T))H(Xp, Xπp(T))
(avec les conventions H(Xp, X) = H(Xp) et H(X) = 0)
4. Pour tout p, q, on appelle information mutuelle empirique la quantit´e I(Xp, Xq) =
H(Xp, Xq) + H(Xp) + H(Xq). Exprimer cette quantit´e comme une divergence
de Kullback-Leibler et montrer qu’elle est positive ou nulle.
5. Exprimer (T) `a l’aide des informations mutuelles. Comment maximiser (T)
par rapport `a l’arbre T? Retrouver un probl`eme classique de th´eorie des graphes,
et d´ecrire un algorithme permettant d’apprendre la structure de l’arbre ayant
le maximum de vraisemblance. Quelle est sa complexit´e ?
2
3 Impl´ementation - HMM
On consid`ere les mˆemes donn´ees d’apprentissage que le devoir pr´ec´edent, dans le
fichier “EMGaussienne.dat”, mais cette fois-ci en consid´erant la structure temporelle,
i.e., les donn´ees sont de la forme ut= (xt, yt) o`u ut= (xt, yt)R2, pour t=
1,...,T. Le but de cet exercice est d’impl´ementer l’inf´erence dans les HMM ainsi que
l’algorithme EM pour l’apprentissage des param`etres. Il est conseill´e d’utiliser le code
du devoir pr´ec´edent.
On consid`ere le mod`ele HMM suivant avec une chaˆıne (qt) `a K=4 ´etats et matrice
de transition aR4×4, et des “probabilit´es d’´emission” Gaussiennes : ut|qt=i
N(µi,Σi).
1. Impl´ementer les r´ecursions αet βvues en cours et dans le polycopi´e pour estimer
p(qt|u1,...,uT) et p(qt, qt+1|u1,...,uT).
2. Calculer les ´equations d’estimation de EM.
3. Impl´ementer l’algorithme EM pour l’apprentissage (on pourra initialiser les
moyennes et les covariances avec celles trouv´ees dans le devoir pr´ec´edent).
4. Impl´ementer l’inf´erence pour estimer la equence d’´etats la plus probables,
i.e. arg maxqp(q1,...,qT|y1,...,yT), et repr´esenter le r´esultat obtenu avec les
donn´ees (pour le jeu de param`etres appris par EM).
5. Commenter les diff´erents r´esultats obtenus avec ceux du devoir pr´ec´edent. En
particulier, comparer les log-vraisemblances, sur les donn´ees d’apprentissage,
ainsi que sur les donn´ees de test (dans “EMGaussienne.test”).
3
1 / 3 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !