TD Méthodes de clustering (Réponses)
M1-ATD
Ioannis Partalas, Eric Gaussier
D’après M.-R. Amini & E. Gaussier, Recherche d’information, Eyrolles 2013
1. Algorithme des k-moyennes
(a) Montrer qu’entre les itérations tet t+ 1 de l’algorithme 1 on a :
L(G(t+1)
1, . . . , G(t+1)
K;r(t)
1,...,r(t)
K)≤ L(G(t)
1, . . . , G(t)
K;r(t)
1,...,r(t)
K)
Réponse : L’inégalité découle de la définition de la réaffectation des exemples :
G(t+1)
k← {d:||dr(t)
k||2
2≤ ||dr(t)
l||2
2,l6=k, 1lK}
(b) Montrer aussi que :
L(G(t+1)
1, . . . , G(t+1)
K;r(t+1)
1,...,r(t+1)
K)≤ L(G(t+1)
1, . . . , G(t+1)
K;r(t)
1,...,r(t)
K)
Réponse : Considérons la fonction de coût pour une seule classe G:
L(G, z) = X
dG
kdzk2
=X
dG
kdCG +CG zk2
=X
dG
kdCG k2+X
dG
kCG zk2+2 X
dG
< d CG, CG z >
=X
dG
kdCG k2+|G| k CG zk2+2 <X
dG
d
|{z}
|G|CG
−|G|CG, CG z >
=L(G, CG) + |G| k CG zk2
Nous avons de ce fait :
1
L(G(t+1)
1, . . . , G(t+1)
K;r(t+1)
1,...,r(t+1)
K)≤ L(G(t+1)
1, . . . , G(t+1)
K;r(t)
1,...,r(t)
K)
(c) En déduire que la fonction de coût de l’algorithme k-moyennes décroît à chaque itération.
Réponse : D’après les questions (a) et (b) et en exploitant la positivité de la fonction considérée
nous avons t:
0≤ L(G(t+1)
1, . . . , G(t+1)
K;r(t+1)
1,...,r(t+1)
K)≤ L(G(t)
1, . . . , G(t)
K;r(t)
1,...,r(t)
K)
La fonction Ldécroit donc à chaque itération de l’algorithme.
2. Classification par méthodes agglomératives hiérarchiques ascendantes
Question 1 Montrer que la méthode du lien unique est stable pour la meilleure fusion. On
rappelle que la méthode du lien unique est fondée sur la distance entre classes :
simlu(Gk, Gl) = max
dGk,d0Gl
sim(d, d0)
Réponse : Nous avons :
sim(G(r+1)
k, G(r)) = max(sim(G(r)
k, G(r)
mf(k)), sim(G(r)
k, G(r)
l))
=sim(G(r)
k, G(r)
mf(k))
Question 2 Quelle est la complexité de l’algorithme 3 qui utilise un tableau de meilleure fusion
en lieu et place des files de priorité ?
Réponse : O(N2)
Question 3 Expliquer pourquoi la stabilité de la meilleure fusion est importante pour le bon
déroulement de cet algorithme (donner un exemple simple).
2
Réponse : La stabilité est importante car nous permet d’utiliser un tableau de meilleure fusion
et ainsi mettre à jour la matrice Cà chaque itération en O(N). On peut considérer un exemple
avec 4 documents et l’algorithme du lien complet et montrer qu’on ne peut pas utiliser un tableau
de meilleure fusion car la stabilité de la meilleure fusion ne s’applique pas.
Question 4 Montrer que la méthode par lien unique est monotone.
Réponse : Si G(r+1)
16=G(r)et G(r+1)
26=G(r), l’inégalité découle de la construction même du
dendrogramme (sinon les deux classes G(r+1)
1et G(r+1)
2auraient été fusionnées avant les deux
classes G(r)
1et G(r)
2).
Supposons donc que G(r+1)
1=G(r). Nous avons :
sim(G(r+1)
1, G(r+1)
2) = max
dG(r)
1G(r)
2,d0G(r+1)
2
sim(d, d0)
Cette dernière quantité est équivalente à :
max( max
dG(r)
1,d0G(r+1)
2
sim(d, d0),max
dG(r)
2,d0G(r+1)
2
sim(d, d0),)
et :
max(sim(G(r)
1, G(r+1)
2), sim(G(r)
2, G(r+1)
2))
Mais sim(G(r)
1, G(r+1)
2)sim(G(r)
1, G(r)
2)car sinon ce sont les classes G(r)
1et G(r+1)
2qui
auraient été fusionnées à l’étape r. De même, sim(G(r)
2, G(r+1)
2)sim(G(r)
1, G(r)
2), ce qui montre
la monotonicité du lien simple.
3
1 / 3 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !