TD Méthodes de clustering (Réponses) M1

Téléchargement

TD Méthodes de clustering (Réponses)

M1-ATD

Ioannis Partalas, Eric Gaussier

D’après M.-R. Amini & E. Gaussier, Recherche d’information, Eyrolles 2013

1. Algorithme des k-moyennes

(a) Montrer qu’entre les itérations tet t+ 1 de l’algorithme 1 on a :

L(G(t+1)

1, . . . , G(t+1)

K;r(t)

1,...,r(t)

K)≤ L(G(t)

1, . . . , G(t)

K;r(t)

1,...,r(t)

Réponse : L’inégalité découle de la déﬁnition de la réaﬀectation des exemples :

G(t+1)

k← {d:||d−r(t)

k||2

2≤ ||d−r(t)

l||2

2,∀l6=k, 1≤l≤K}

(b) Montrer aussi que :

L(G(t+1)

1, . . . , G(t+1)

K;r(t+1)

1,...,r(t+1)

K)≤ L(G(t+1)

1, . . . , G(t+1)

K;r(t)

1,...,r(t)

Réponse : Considérons la fonction de coût pour une seule classe G:

L(G, z) = X

d∈G

kd−zk2

d∈G

kd−CG +CG −zk2

d∈G

kd−CG k2+X

d∈G

kCG −zk2+2 X

d∈G

< d −CG, CG −z >

d∈G

kd−CG k2+|G| k CG −zk2+2 <X

d∈G

|{z}

|G|CG

−|G|CG, CG −z >

=L(G, CG) + |G| k CG −zk2

Nous avons de ce fait :

L(G(t+1)

1, . . . , G(t+1)

K;r(t+1)

1,...,r(t+1)

K)≤ L(G(t+1)

1, . . . , G(t+1)

K;r(t)

1,...,r(t)

Réponse : D’après les questions (a) et (b) et en exploitant la positivité de la fonction considérée

nous avons ∀t:

0≤ L(G(t+1)

1, . . . , G(t+1)

K;r(t+1)

1,...,r(t+1)

K)≤ L(G(t)

1, . . . , G(t)

K;r(t)

1,...,r(t)

La fonction Ldécroit donc à chaque itération de l’algorithme.

2. Classiﬁcation par méthodes agglomératives hiérarchiques ascendantes

Question 1 Montrer que la méthode du lien unique est stable pour la meilleure fusion. On

rappelle que la méthode du lien unique est fondée sur la distance entre classes :

simlu(Gk, Gl) = max

d∈Gk,d0∈Gl

sim(d, d0)

Réponse : Nous avons :

sim(G(r+1)

k, G(r)) = max(sim(G(r)

k, G(r)

mf(k)), sim(G(r)

k, G(r)

l))

=sim(G(r)

k, G(r)

mf(k))

Question 2 Quelle est la complexité de l’algorithme 3 qui utilise un tableau de meilleure fusion

en lieu et place des ﬁles de priorité ?

Réponse : O(N2)

Question 3 Expliquer pourquoi la stabilité de la meilleure fusion est importante pour le bon

déroulement de cet algorithme (donner un exemple simple).

Réponse : La stabilité est importante car nous permet d’utiliser un tableau de meilleure fusion

et ainsi mettre à jour la matrice Cà chaque itération en O(N). On peut considérer un exemple

avec 4 documents et l’algorithme du lien complet et montrer qu’on ne peut pas utiliser un tableau

de meilleure fusion car la stabilité de la meilleure fusion ne s’applique pas.

Question 4 Montrer que la méthode par lien unique est monotone.

Réponse : Si G(r+1)

16=G(r)et G(r+1)

26=G(r), l’inégalité découle de la construction même du

dendrogramme (sinon les deux classes G(r+1)

1et G(r+1)

2auraient été fusionnées avant les deux

classes G(r)

1et G(r)

2).

Supposons donc que G(r+1)

1=G(r). Nous avons :

sim(G(r+1)

1, G(r+1)

2) = max

d∈G(r)

1∪G(r)

2,d0∈G(r+1)

sim(d, d0)

Cette dernière quantité est équivalente à :

max( max

d∈G(r)

1,d0∈G(r+1)

sim(d, d0),max

d∈G(r)

2,d0∈G(r+1)

sim(d, d0),)

et :

max(sim(G(r)

1, G(r+1)

2), sim(G(r)

2, G(r+1)

2))

Mais sim(G(r)

1, G(r+1)

2)≤sim(G(r)

1, G(r)

2)car sinon ce sont les classes G(r)

1et G(r+1)

2qui

auraient été fusionnées à l’étape r. De même, sim(G(r)

2, G(r+1)

2)≤sim(G(r)

1, G(r)

2), ce qui montre

la monotonicité du lien simple.

1 / 3 100%

Documents connexes

Formation marketing industriel

Chapitre 8 : Système d`information mercatique (SIM)

définitions - je suis une blatte

Table des matières

communiquer

RECHERCHE COMMERCIALE

FORMATION INITIALE

Fiche Technique Vanity Qwerty - 1,47 Mb, 14/03/2016, Français

TD Méthodes de clustering M1-ATD Ioannis Partalas, Eric Gaussier

marketing approfondi et etude de marché DRB

La gestion de la Force de vente au sein du Marketing de Réseaux

Suivi intensif dans le milieu (SIM), une expérience pilote à

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

TD Méthodes de clustering (Réponses) M1

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

TD Méthodes de clustering (Réponses) M1

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib