Clustering et recherche d’associations Etat de l’art Nicolas Durand 4 et 5 février 2002 Université de Caen 1 Introduction • 3 voies possibles : – Regroupement de transactions – Regroupement d’items – Post-traitement des motifs découverts 2 Regroupement de transactions • Dans [WXL99] • Utilisation notion de fréquent • Définition de 2 mesures : – Coût intra-cluster (différences entre items d’un cluster) – Coût inter-cluster (duplication d’items fréquents dans les ≠ clusters) Coût global • Idée algorithme : placer initialement les transactions dans des clusters, puis déplacer les transactions de façon à minimiser le coût global du clustering 3 Regroupement de transactions critiques • Points positifs : – partition des transactions – analogie avec méthodes usuelles – nombre non fixé de clusters • Point négatif : – pas de description des clusters obtenus (sous forme d’itemset) 4 Regroupement d’items • Dans [Ron98] • Mesure de similarité d’attributs (items) • Distance entre 2 items : sup(A)+sup(B)−2sup(AB) d(A,B)= sup(A)+sup(B)−sup(AB) • Distance entre 2 clusters (itemsets) : d(ci, cj) = F({d(oi, oj) / oi ∈ ci et oj ∈ cj}) où F est min ou max ou avg • Algorithme de HAC pour obtenir k clusters 5 Regroupement d’items critiques • Points positifs : – distance entre items, et entre itemsets (clusters) – utilisation méthodes classiques • Points négatifs : – nombre fixé de clusters – les transactions ne sont pas rangées dans les clusters obtenus 6 Post-traitement des motifs découverts • Calcul des motifs fréquents, puis – Partition hypergraphe des motifs obtenus – Sélection de motifs obtenus (cf. rapport DEA N. Durand) – Motifs découverts = modèle initiaux pour algorithmes de clustering « classiques » 7 Post-traitement des motifs découverts utilisation d’un hypergraphe • Dans [HKKM98] • Génération des motifs fréquents • Construction hypergraphe – sommets = items – hyper-arêtes = motifs fréquents (une hyper-arête regroupe les items d’un motif fréquent) – poids hyper-arête = moyenne des confiances des règles essentielles que l’on peut produire avec le motif fréquent 8 Hypergraphe des motifs fréquents a A B b c D C • Partition de l’hypergraphe : – à chaque étape, on coupe un morceaux de l’hypergraphe en deux on supprime l’hyper-arête ayant le plus faible poids – jusqu’à obtenir k parties 9 Hypergraphe des motifs fréquents critiques • Point positif : – utilisation directe des motifs fréquents • Points négatifs : – nombre fixé de clusters – « casse » les motifs – les transactions ne sont pas rangées dans les clusters obtenus 10 Conclusion • Les méthodes vues permettent d’obtenir : – les éléments des clusters, mais pas leurs descriptions – les descriptions des clusters, mais pas les éléments qui les composent – des clusters potentiels avec leurs éléments et leurs descriptions, mais pas un « réel » clustering – des clusters potentiels qui sont ensuite injectés dans un algorithme de clustering « classiques » • Bilan : parmi toutes ces méthodes, la troisième semble la plus attirante, car on obtient toutes les informations voulues, de façon exacte. problème : sélection de clusters 11 Références • [WXL99] K. Wang, X. Chu, and B. Liu, "Clustering Transactions Using Large Items", ACM CIKM (Conference on Information and Knowledge Management), USA, 1999. • [Ron98] P. Ronkainen, "Attribute Similarity and Event Sequence Similarity in Data Mining", Université d'Helsinki, 1998. • [HKKM98] E. H. Han, G. Karypis, V. Kumar, and B. Mobasher, "Hypergraph Based Clustering in HighDimensional Data Sets : a Summary of Results", Bulletin of the Technical Commitee on Data Engineering, Vol21, N°1, March 1998. 12