2. Pr´eliminaire II (entropies jointe et conditionnelle) : Soient deux variables al´eatoires
discr`etes X,Y`a valeurs dans des ensembles finis Xet Y. Soit η(x, y) = p(Y=
x|X=x) la matrice de param`etres de la loi conditionnelle. Soit un ´echantillon
i.i.d (xn, yn), n= 1,...,N de taille Nde ces deux variables. On note ˆp(x, y) la
densit´e empirique, d´efinie par ˆp(x, y) = 1
NPN
n=1 δ(xn=x)δ(yn=y). Montrer
que la log-vraisemblance conditionnelle maximale maxηPN
n=1 log p(yn|xn, η) est
´egale `a :
max
η
N
X
n=1
log p(yn|xn, η) = N(H(X)−H(X, Y ))
o`u H(X, Y ) l’entropie (jointe) empirique de (X, Y ) est d´efinie par
H(X, Y ) = −X
y∈Y
X
x∈X
ˆp(x, y) log ˆp(x, y).
3. On consid`ere maintenant Pvariables al´eatoires X1,...,XP`a supports finis
X1,...,XP. On consid`ere Nobservations i.i.d. de ces Pvariables, (xn
p), p=
1,...,P,n= 1,...,N. On note ˆp(x1,...,xP) la densit´e empirique, d´efinie
comme suit :
ˆp(x1,...,xP) = 1
N
N
X
n=1
δ(xn
1=x1)···δ(xn
P=xP).
Cette densit´e jointe permet de d´efinir des densit´es marginales ˆp(xp, xq) et ˆp(xq)
par marginalisation.
Soit un arbre couvrant orient´e T`a Psommets (i.e., un DAG connexe avec
au plus un parent par sommet). Quelle est la param´etrisation la plus g´en´erale
pour une loi p(x1,...,xP) se factorisant dans un tel DAG ? Montrer qu’une fois
maximis´ee par rapport `a ces param`etres, la log-vraisemblance des donn´ees est
´egale `a :
ℓ(T) = N
P
X
p=1
H(Xπp(T))−H(Xp, Xπp(T))
(avec les conventions H(Xp, X∅) = H(Xp) et H(X∅) = 0)
4. Pour tout p, q, on appelle information mutuelle empirique la quantit´e I(Xp, Xq) =
−H(Xp, Xq) + H(Xp) + H(Xq). Exprimer cette quantit´e comme une divergence
de Kullback-Leibler et montrer qu’elle est positive ou nulle.
5. Exprimer ℓ(T) `a l’aide des informations mutuelles. Comment maximiser ℓ(T)
par rapport `a l’arbre T? Retrouver un probl`eme classique de th´eorie des graphes,
et d´ecrire un algorithme permettant d’apprendre la structure de l’arbre ayant
le maximum de vraisemblance. Quelle est sa complexit´e ?
2