Clustering et recherche
d’associations
Etat de l’art
1
Nicolas Durand
4 et 5 février 2002
Université de Caen
Introduction
3 voies possibles :
Regroupement de transactions
2
Regroupement de transactions
Regroupement d’items
Post-traitement des motifs découverts
Regroupement de transactions
Dans [WXL99]
Utilisation notion de fréquent
Définition de 2 mesures :
Coût intra-cluster (différences entre items d’un cluster)
Coût inter
-
cluster (duplication d’items fréquents dans
3
Coût inter
-
cluster (duplication d’items fréquents dans
les clusters)
Coût global
Idée algorithme : placer initialement les
transactions dans des clusters, puis déplacer les
transactions de façon à minimiser le coût global du
clustering
Regroupement de transactions
critiques
Points positifs :
partition des transactions
analogie avec méthodes usuelles
4
analogie avec méthodes usuelles
nombre non fixé de clusters
Point négatif :
pas de description des clusters obtenus
(sous forme d’itemset)
Regroupement d’items
Dans [Ron98]
Mesure de similarité d’attributs (items)
Distance entre 2 items :
5
Distance entre 2 clusters (itemsets) :
d(ci, cj) = F({d(oi, oj) / oi ciet ojcj})
où F est min ou max ou avg
Algorithme de HAC pour obtenir k clusters
sup(AB)sup(B)sup(A) 2sup(AB)(B)supsup(A)
B)d(A, +
+
=
1 / 12 100%