Clustering et recherche d`associations Etat de l`art

Clustering et recherche

d’associations

Etat de l’art

1

Nicolas Durand

4 et 5 février 2002

Université de Caen

Introduction

• 3 voies possibles :

–

Regroupement de transactions

2

–

Regroupement de transactions

– Regroupement d’items

– Post-traitement des motifs découverts

Regroupement de transactions

• Dans [WXL99]

• Utilisation notion de fréquent

• Définition de 2 mesures :

– Coût intra-cluster (différences entre items d’un cluster)

–

Coût inter

-

cluster (duplication d’items fréquents dans

3

–

Coût inter

-

cluster (duplication d’items fréquents dans

les ≠clusters)

Coût global

• Idée algorithme : placer initialement les

transactions dans des clusters, puis déplacer les

transactions de façon à minimiser le coût global du

clustering

Regroupement de transactions

critiques

• Points positifs :

– partition des transactions

–

analogie avec méthodes usuelles

4

–

analogie avec méthodes usuelles

– nombre non fixé de clusters

• Point négatif :

– pas de description des clusters obtenus

(sous forme d’itemset)

Regroupement d’items

• Dans [Ron98]

• Mesure de similarité d’attributs (items)

• Distance entre 2 items :

5

• Distance entre 2 clusters (itemsets) :

d(ci, cj) = F({d(oi, oj) / oi ∈ciet oj∈cj})

où F est min ou max ou avg

• Algorithme de HAC pour obtenir k clusters

sup(AB)sup(B)sup(A) 2sup(AB)(B)supsup(A)

B)d(A, −+

−

+

=

6

7

8

9

10

11

12

Clustering et recherche d`associations Etat de l`art

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Clustering et recherche d`associations Etat de l`art

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib