Clustering et recherche d`associations Etat de l`art

publicité
Clustering et recherche
d’associations
Etat de l’art
Nicolas Durand
4 et 5 février 2002
Université de Caen
1
Introduction
• 3 voies possibles :
– Regroupement de transactions
– Regroupement d’items
– Post-traitement des motifs découverts
2
Regroupement de transactions
• Dans [WXL99]
• Utilisation notion de fréquent
• Définition de 2 mesures :
– Coût intra-cluster (différences entre items d’un cluster)
– Coût inter-cluster (duplication d’items fréquents dans
les ≠ clusters)
Coût global
• Idée algorithme : placer initialement les
transactions dans des clusters, puis déplacer les
transactions de façon à minimiser le coût global du
clustering
3
Regroupement de transactions
critiques
• Points positifs :
– partition des transactions
– analogie avec méthodes usuelles
– nombre non fixé de clusters
• Point négatif :
– pas de description des clusters obtenus
(sous forme d’itemset)
4
Regroupement d’items
• Dans [Ron98]
• Mesure de similarité d’attributs (items)
• Distance entre 2 items :
sup(A)+sup(B)−2sup(AB)
d(A,B)=
sup(A)+sup(B)−sup(AB)
• Distance entre 2 clusters (itemsets) :
d(ci, cj) = F({d(oi, oj) / oi ∈ ci et oj ∈ cj})
où F est min ou max ou avg
• Algorithme de HAC pour obtenir k clusters
5
Regroupement d’items
critiques
• Points positifs :
– distance entre items, et entre itemsets (clusters)
– utilisation méthodes classiques
• Points négatifs :
– nombre fixé de clusters
– les transactions ne sont pas rangées dans les
clusters obtenus
6
Post-traitement des motifs
découverts
• Calcul des motifs fréquents, puis
– Partition hypergraphe des motifs obtenus
– Sélection de motifs obtenus (cf. rapport DEA
N. Durand)
– Motifs découverts = modèle initiaux pour
algorithmes de clustering « classiques »
7
Post-traitement des motifs découverts
utilisation d’un hypergraphe
• Dans [HKKM98]
• Génération des motifs fréquents
• Construction hypergraphe
– sommets = items
– hyper-arêtes = motifs fréquents
(une hyper-arête regroupe les items d’un motif fréquent)
– poids hyper-arête = moyenne des confiances des règles
essentielles que l’on peut produire avec le motif
fréquent
8
Hypergraphe des motifs fréquents
a
A
B
b
c
D
C
• Partition de l’hypergraphe :
– à chaque étape, on coupe un morceaux de
l’hypergraphe en deux
on supprime l’hyper-arête ayant le plus faible poids
– jusqu’à obtenir k parties
9
Hypergraphe des motifs fréquents
critiques
• Point positif :
– utilisation directe des motifs fréquents
• Points négatifs :
– nombre fixé de clusters
– « casse » les motifs
– les transactions ne sont pas rangées dans les
clusters obtenus
10
Conclusion
• Les méthodes vues permettent d’obtenir :
– les éléments des clusters, mais pas leurs descriptions
– les descriptions des clusters, mais pas les éléments qui
les composent
– des clusters potentiels avec leurs éléments et leurs
descriptions, mais pas un « réel » clustering
– des clusters potentiels qui sont ensuite injectés dans un
algorithme de clustering « classiques »
• Bilan : parmi toutes ces méthodes, la troisième
semble la plus attirante, car on obtient toutes les
informations voulues, de façon exacte.
problème : sélection de clusters
11
Références
• [WXL99] K. Wang, X. Chu, and B. Liu, "Clustering
Transactions Using Large Items", ACM CIKM (Conference
on Information and Knowledge Management), USA, 1999.
• [Ron98] P. Ronkainen, "Attribute Similarity and Event
Sequence Similarity in Data Mining", Université d'Helsinki,
1998.
• [HKKM98] E. H. Han, G. Karypis, V. Kumar, and B.
Mobasher, "Hypergraph Based Clustering in HighDimensional Data Sets : a Summary of Results", Bulletin of
the Technical Commitee on Data Engineering, Vol21, N°1,
March 1998.
12
Téléchargement