Le « Data mining » pour la fouille de données Cours INF 7115 Bases de données Hiver 2004, groupe 10 Par: Javier Bentancur, Youssef Khlouf et Yvon L’Abbé 1 Motivation Pourquoi nous intéresser à ce sujet ? Élargir nos connaissances, Évolution normale sur le thème des bases de données, Complément du « data-warehousing » pour une création de base de connaissances, Un sujet de recherches d’actualité. 2 Sommaire Introduction Domaines d’applications Catégories principales Le « Clustering » Algorithmes et logiciels Comparaison La recherche Conclusion 3 Vision Les découvertes de pépites d’or et de diamants sont évoqués bien souvent lorsqu’il est question de « data mining ». Ces découvertes sont destinées à l’obtention d’avantages compétitifs, à améliorer le service à la clientèle et finalement, les profits. 4 Introduction Le savoir est source de pouvoir Les données qui dorment peuvent être dynamisées par des experts ou des logiciels « intelligents » Fouiller pour en extraire la quintessence Il faut une accélérer la synthèse de l’information à partir des données qui s’accumulent à grande vitesse 5 Actualité choc « Le Congrès coupe les fonds à un organisme qui a créé un programme de fouille de données, soupçonné d’empiéter sur la vie privée de citoyens américains, sans raisons valables. » Washington Times, Audrey Hudson, 26 sept. 2003 Ce programme fut perçu comme le plus ambitieux aux USA pour la surveillance de citoyens en sol américain. 6 Le plaidoyer du milieu 1- La technologie de fouille de données est une technique d’analyse qui doit être distinguée de la collecte ou de l’agrégation des données et leurs utilisations. 2- Support de la recherche dans la découverte de profils d’actions de médicaments, pour la biologie et les applications de protection de la vie, autant que pour d’innombrable applications d’affaires et de sciences. 7 Constatations Les données aident à apprendre du passé pour prédire le futur Au rythme de croissance des banques de données, les statistiques n’arrivent plus à tout analyser Le data mining a émergé comme un domaine grandissant de recherches multidisciplinaires Cette technique est définie comme l’extraction de liens implicites, jusque-là inconnus et potentiellement utiles Une importante source de savoir serait donc à la porté de la main 8 •Affaires •Insurance Premium Increase Optimization: Case Study •Insurance Fraud Detection: MARS vs. Neural Networks •Predicting Customer Behavior Trends Over Space and Time •CART/ MARS Risk Assessment of Automobile Loans and Leases •Combined Time Series and Cross Sectional CART Modeling for Common Stock Selection Scientifiques •The Importance of CART and MARS in Environmental Fate and Risk Assessment for Pesticides •Atmospheric Pollution Forecasting" •Predictive and Spatial Modeling Applications for Wildlife Research and Conservation Biomédical •Using CART to Develop a Diagnostic Tool for Erectile Dysfunction •Using CART to Discern Models in Genetics: Alcoholism, Alzheimers and Aging •CART for Outcome Predictions in Clinical Settings: Emergency Department Triage, •Survival Prediction and Prediction of Neurologic Survival" •Application of MARS to Gene Expression Data: Predictive Models of Gene Regulation •Mining SELDI ProteinChip Data for Biomarkers and Disease Stratification Découverte de médicaments •Drug Discovery using CART and MARS •Improving the Ability to Predict Drug-Like Compounds from Virtual Screening Using CART •CART in Drug Discovery: Identifying Rules for Making Better Small Molecules 9 •Drug Discovery Clinical Trials and Random Forests at Novartis Définition “The process of exploration and analysis, by automatic or semi-automatic means, of large quantities of data in order to discover meaningful patterns and rules”. Knowledge Discovery Une classe d’applications de bases de données qui cherche des liens cachés dans un groupe de données qui peuvent être utilisés pour prédire un comportement futur. 10 “Data Mining” « Comment arriver à trouver un diamant dans un tas de charbon sans se salir les mains » ! Le “Data Mining” ce n’est pas le “Data Warehousing”, ni OLAP. 11 Data mining & Entrepôt de données BD opérationnelle (OLTP) BD opérationnelle (OLTP) Extraction : épuration, filtrage, synthèse, transformation, fusion Entrepôt de données « Data Wharehouse » Outils Data mining Autre source de données 12 Principales phases Compréhension du domaine et des buts Extraction de groupes de données cibles Purification des données Sélection de la tâche appropriée Sélection de l’algorithme de traitement Triturer les données pour en découvrir les secrets Passage au crible des liens découvert pour mettre en valeur les plus prometteurs 13 Casino Harrah’s Comment s’assurer de la loyauté des clients ? Acquérir une information riche et complète par un système impliquant des cartes de membres Triturer finement les données pour faciliter l’analyse Utiliser la fouille de données pour identifier les clients principaux et prédire leur valeur à long terme Obtenir d’avantage d’informations sur les préférences des clients, de sorte à les satisfaire Déployer des stratégies de marketing intelligentes Récompenser les employés qui donnent la priorité au service ! 14 Data mining 3,920,000 liens ! 15 Catégories principales en fouilles de données Classification Association Séquençage/profil temporel Regroupement/segmentation (Clustering) 16 Classification Chercher les règles pour prédire la classe à la quelle le cas appartient à partir des attributs prédictifs. Technique supervisée : définition d’au moins un attribut. Catégorie des règles : exactes (sans exceptions) fortes (avec quelques exceptions) probables (conditionnées à la probabilité) de classification (avec assez de conditions pour classifier les objets). 17 Association Opération sur les éléments d’une collection d’objets qui donnent pour résultat les affinités trouvées parmi les éléments de la collection Le résultat est présenté comme règle : « Le 70 % des éléments dans la collection qui contient l’élément A contient aussi les éléments D et F » L’usage le plus commun est la recherche de liens entre les produits achetés dans un super marché 18 Séquençage / profil temporel Consiste à analyser une collection de donnés pendant quelques périodes de temps, pour identifier tendances. Trouve des liens entre des clients et les profils de fréquence des achats. 19 Regroupement / Clustering Processus par lequel seront créés des groupes de données + Les ( objets dans ces groupes doivent présenter des similarités entre eux et se différencier des autres. =~ ) 20 Type de Clustering pour le Data mining supervisé savoir spécifiquement ce que nous recherchons. Input Processus Output 21 Type de Clustering Non supervisé Pas exactement certain de ce que nous recherchons Input Output 22 Différentes techniques Arbres de décision Réseaux neuronaux Régression Clustering Etc. Clustering Arbres de décision Neural Networks 23 Classification d’algorithmes de “Clustering” Hiérarchiques De partitionnement À base de densité À base de grille 24 Méthodes de groupement Hiérarchiques Séquences nichées de partitions Agglomération • Chaque objet est un groupe Division • L’ensemble est divisé en groupes plus petits. CURE, CHAMALEON, (BIRCH) 25 Méthodes de groupement Partitionnement Groupement d’objets avec similarités entre eux et différenciés des autres. CLARANS 26 Méthodes de groupement Densité Des Clusters sont des régions denses séparées par régions moins denses DBSCAN, DENCLUE, OPTICS Grille L’espace est divisé en segments rectangulaires CLIQUE, STING 27 Problèmes à résoudre Densité d’information Interprétation des résultats Différents attributs et domaines complexes (multimédia) Assimilation par l’usager Ordre des données Vitesse d’obtention des résultats Nombre de lectures Qualité des groupes Bruit 28 Exemples d’algorithmes de Clustering CLARANS BIRCH DBSCAN CLIQUE OPTICS 29 CLARANS Usage pour la statistique Cluster : point central Data mining spatial K-medoid Maxneighbour Local minimun Recherche : R-Tree, plus de vitesse mais moins de qualité Clustering LARge Applications 30 BIRCH Très grande base de données Différences entre clusters et bruit Points plus importantes qu’autres Sommaire compacte Mémoire disponible Une seule lecture, O(N) CF-tree (Cluster Feature) Recherche: parallélisme et apprentissage Balanced Iterative Reducing and Clustering using Hierarchies 31 BIRCH 32 • Image : 512 x 1024 pixels • BIRCH: 400Kb mémoire, 80 kb disque 33 DBSCAN 34 Comparaison entre BIRCH & DBSCAN 35 CLIQUE « Density & grid based » Trouve automatiquement les sous-espaces Identifie les groupes denses dans les sousespaces de dimensionnement maximal Peu importe l’ordre Regroupement : hyper rectangles parallèles Échelle linéaire avec le nombre de données entrées CLustering In QUEst : research projet à IBM Almaden 36 OPTICS Analyse et ordonnancement des groupes distance au centre distance aux autres objets Basé sur DBSCAN Analyse automatique et interactive Technique de visualisation Ordering Points to Identify the Clustering Structure 37 Le code derrière Optics 38 La visualisation 39 ANALYSE Générateur des données Paramètres des groupes (clusters) Nombre de points Rayon Centre Externes Mémoire Type d’accès Dimensions 40 Quelques progiciels Intégral Solutions-ISL (Clementine) Thinking Machines-TMC (Darwin) SAS Institute (Enterprise Miner) IBM (Intelligent Miner for Data) Unica Technologies (Pattern Recognition Workbench) « An Evaluation of High-end Data Mining Tools for Fraud Detection» 41 Outils de Data mining http://www.kdnuggets.com Business Intelligence 42 Outils de Data mining Sélection des outils de Data mining par expérience professionnelle du produit viabilité des fournisseurs ampleur des algorithmes d'extraction de données dans l'outil compatibilité avec une configuration matérielle spécifique facilité d'utilisation la capacité de manipuler de grands ensembles de données 43 Techniques de fouille de données supportées par les fournisseurs: 44 Fouille de données: Microsoft SQL vs Oracle •Algorithmes pour Microsoft: - Arbres de décision - « Microsoft Clustering » - algorithme EM 45 Microsoft Data Mining Model de data Mining sur SQL Server avec DMM MiningModel 'Model1_MDT_NonNested' Execute : CREATE MINING MODEL [Model1_MDT_NonNested'S] ([Customer Id] LONG KEY, [Income] DOUBLE CONTINUOUS , [Other Income] DOUBLE CONTINUOUS , [Loan] DOUBLE CONTINUOUS , [Age] DOUBLE CONTINUOUS , [Region Name] TEXT DISCRETE , [Home Years] DOUBLE CONTINUOUS , [House Value] DOUBLE CONTINUOUS , [Education Level] TEXT DISCRETE , [Home Type] TEXT DISCRETE , [Churn Yes No] TEXT DISCRETE PREDICT) USING Microsoft_Decision_Trees 46 Oracle Data Mining Algorithme de Clustering d’Oracle : Enhanced hierarchical k-means clustering Orthogonal Partitioning Clustering (O-Cluster) Oracle Data Mining (ODM) Permet de faire la classification, l’association, la régression et le regroupement 47 La recherche / Sigmod 2004 2002 Statistical Grid-based Clustering over Data Streams State-of-the-art in Privacy Preserving Data Mining Data Mining: Practical Machine Learning Tools and Techniques Cluster Validity Methods: Part I, II Data Mining: Concepts and Techniques Mining the World Wide Web: An Information Search Approach 2001 Data Mining-based Intrusion Detectors: An Overview of the Columbia IDS Project ADAM: A Testbed for Exploring the Use of Data Mining in Intrusion Detection Mining System Audit Data: Opportunities and Challenges Mining Email Content for Author Identification Forensics Data Analysis and Mining in the Life Sciences 48 La recherche de règles d’association « Data mining Group » de l’université d’Helsinki est à la recherche de règles d’associations et étudie la taille d’échantillon de données pour obtenir des déductions fiables. Le 49 La découverte de connaissances dans les bases de données (KDD) Innovation ! Interprétation Savoir Data Mining Transformation Pré-traitement Données « Paterns » transformées Sélection Données Pré-traitées Données Ciblage 50 L’outil et le spécialiste L’outil Rôle déterminant Le spécialiste 1990 2010 Fouille de données 51 Contrôle de la qualité La validité des regroupements comme importante préoccupation de l’analyse Évaluation des résultats et de la sélection de schèmes qui concordent le mieux avec les données Aucune indication à-priori sur le nombre de groupes présents dans les données Évaluations basées sur des tests statistiques ou par comparaisons On a besoin de déterminer les mesures de qualité: Intra-groupe, Séparation inter-groupe, Géométrie des groupes. 52 Conclusions Il existe de nombreuses techniques et méthodes spécialisées pour différents types de données et de domaines. Il faut une meilleure compréhension de la fouille de données et des modèles permettant de clarifier les tâches. On doit Inciter les utilisateurs à mieux comprendre la contribution de ces outils au processus de découverte de connaissances. Il faut savoir que les résultats de la fouille de données incluent souvent des faux positifs et faux négatifs. On peut améliorer la situation en faisant plus de recherches, entre autre pour la sécurisation des données sur la vie privée. 53 Bibliographie 1.Congress kills data-mining computer program, Audrey Hudson, The Washington Times, 2003 2. Spatial Clustering Methods in Data Mining : A Survey, Jiawei Han, M.Kamber & K.H.Tung, School of Computing Science, Simon Fraser University, B.C., Canada, 2001 3. An evaluation of High-end Data Mining Tools for Fraud Detection, Dean W. Abbot et al., U.S.A., 1998 ? 4. Survey of Clustering Data Mining Techniques, Pavel Berkhin, Accrue Software Inc., année 2002, 5. Spatial Data Mining: Progress and Challenges, Krzysztof Koperski Jiawei Han Junas Adhikary, Simon Fraser University, Canada, 1997 6. Data Mining: Clustering, Nina Mishra, HP Labs, oct. 2002 7. Birch: An efficient Data Clustering Method for Very Large Databases, Tian Zhang, Raghu Ramakrishnan, Miron Livny, Univ. of Wisconsin-Madison, année 1998 54 Bibliographie / 2 8. Automatic Suspace Clustering of High Dimensional Data for Data Mining Applications, Rakesh Agrawal, J.Gehrke, D.Gunopulos, P. Raghavan, IBM, année 1998 9. OPTICS: Ordering Points To Identify the Clustering Structure, Mihael Ankerst, M.Breunig, H.P.Kriegel, J.Sander, Univ. of Munich, année 1999 10. Statistical Grid-based Clustering over Data Streams, Nam Hun Park, Won Suk Lee, Yonsei University, 2002 11. A Comparison of Leading Data Mining Tools, J.F. Elder IV & Dean W. Abbott, Elder Research, NewYork, 1998 12. Performance Study of Microsoft Data Mining Algorithms, Sanjay Soni, ZhaohuiTang, Jim Yang, Unisys & Microsoft, March 2002. 13. Oracle Data Mining, Discover Patterns, Make Predictions, Develop Advanced BI Applications data sheet, Oracle Technology Network, web page, January 2004. 14. Clustering Validity Checking Methods: Part 1-2, Maria Halkidi, Yannis Batistaki, Michalis Vazirgiannis, Athens Univ. of Economics & Business, Sigmod, Vol.31, no. 3, sept.2002. 15. Diamonds in the Data Mine, Gary Loveman, HBR OnPoint, 2003. 55 Période de questions 56 57