INTRODUCTION AU DATA MINING Ndèye Niang Keita Chaire de Statistique Appliquée Conservatoire National des Arts et Métiers 292 rue Saint Martin, 75003 Paris [email protected] Plan de la présentation Introduction Contexe d’émergence et définition Le processus Data Mining Objectifs et outils Data Mining et statistique Conclusions et perspectives Introduction Qu’est ce que le data mining? Quelques exemples : Analyse du panier de la ménagère Web mining Text mining Télédétection et analyse d’images satellites Point commun : un important volume de données opérationnelles = gisement de données (d’où le terme mining) BIG DATA 1 Contexte d’émergence Exigences de l ’environnement • environnement concurrentiel, mondialisation • temps de réaction • gains de productivité rapides • transformation de l’économie : on passe d’une politique orientée produit vers une politique orientée client Contexte d’émergence L ’Etat de l’entreprise • • • • informatisation massive : gigantesques bases de données coûteuses en stockage , souvent dupliquées, incohérentes bases souvent optimisées pour le stockage, pas pour l’analyse très grande taille : le temps et la capacité de traitement deviennent des contraintes majeures • inexploitées Nécessité de transformer par des outils adaptés cette expérience accumulée en connaissance : ‘Knowledge is power. Use it or lose it’ Pourquoi s’est-il développé ? Evolution des SGBD vers l’informatique décisionnelle (BI) avec les entrepôts de données (Data Warehouse) Technologie de l’information : faible coût de stockage de données, saisie automatique de transaction (appels téléphoniques code bar, click web, cartes de crédit…) Augmentation de la puissance de calculs Recherche en IA, apprentissage, extraction de connaissances Mais aussi entreprise commerciale! CRM 2 Définition du Data Mining Le data Mining (traduire : fouille de données, extraction de connaissance ECD ou KDD) : nouveau champ d’application intégrant des techniques provenant de diverses disciplines : la Statistique, l’Intelligence Artificielle et l’Informatique (Base de données , ICHM...) La définition exacte est peu claire et les terminologies associées au Data-Mining sont parfois encore floues. Définition du Data Mining Fayyad, Piatetsky-Shapiro et Smyth : “ Knowledge Discovery in Databases is the non-trivial process of identifying valid, potentially useful, and ultimately understandable patterns in data ” (extraction non triviale des bases de données, de connaissances implicites, inconnues à l’avance et potentiellement utiles.) D.J.Hand:“I shall define Data Mining as the discovery of interesting, unexpected, or valuable structures in large data sets” Objectif : essayer ‘de tirer quelque chose’ des informations disponibles dans les bases de données opérationnelles dans l’optique d’augmenter la performance des entreprises. Saporta 2013 La métaphore du Data Mining signifie qu’il y a des trésors ou pépites cachés sous des montagnes de données que l’on peut découvrir avec des outils spécialisés. Le Data Mining analyse des données recueillies à d’autres fins: c’est une analyse secondaire de bases de données, souvent conçues pour la gestion de données individuelles (Kardaun, T.Alanko,1998) Le Data Mining ne se préoccupe donc pas de collecter des données de manière efficace (sondages, plans d’expériences) (Hand, 2000) 9 3 Processus pas une collection d’outils 4 Mise en oeuvre d’un projet data mining 1. Comprendre et analyser les objectifs de l’application 2. Créer une base de données pour la mise au point de l’application. 3. Prétraitement et nettoyage des données 4. Analyse statistique des données (réduction de la dimension, projection, etc...) 5. Identifier le type de problèmes ( discrimination, clustering,…) et choisir un algorithme. 6. Evaluer les performances de l’algorithme. 7. réitérer les étapes précédentes si nécessaire. 8. Déployer l’application. Objectifs et outils Rappel : objectif du data mining = découvrir des structures dans de grandes bases de données. Il existe deux types de structures: Modèles et des patterns Deux types de méthodes: supervisées (prédictives) ou non supervisées (exploratoires) Vérification vs découverte Distinction aussi entre : Data mining de vérification : techniques de BD : olap, molap, rolap Data mining de découverte : techniques statistiques et IA 5 Vérification vs découverte « Trouver les clients qui ont acheté tel produit à telle période» Mais : « Quel est leur profil ? » « Quels autres produits les intéresseront ? » « A quelle date? » Les profils de clientèle à découvrir sont en général des profils complexes : pas seulement des oppositions évidentes jeunes/vieux, citadins/ruraux faciles à identifier par des statistiques descriptives Le data mining fait passer du confirmatoire à la découverte et à la prédiction Techniques descriptives Exploration, recherche de « patterns » : • mise en évidence des informations présentes mais cachées par le volume des données • réduction, résumé, synthèse des données • pas de variable « cible » à prédire. •Deux grandes familles: description : Stat descriptive Analyse factorielle des données Structuration, association : typologie ou classif: recherches de règles d’associations cartes de Kohonen Quelques définitions La statistique et les statistiques les statistiques : recueils de données, résultats élémentaires la statistique : méthodologie du recueil, du traitement, de l’interprétation de données statistiques Individus et variables individus, observations, unités… variables ou caractères 18 6 différentes méthodes analyse exploratoire, descriptive, non supervisée Méthodes factorielles réduction du nombre de variables en les résumant par un petit nombre de composantes synthétiques : les facteurs : ACP pour les variables quantitatives AFC pour 2 variables qualitatives ACM pour plusieurs variables qualitatives Méthodes de Classification automatique réduction du nombre d’individus par la formation de groupes homogènes : méthodes de partitionnement méthodes hiérarchiques EXEMPLES Feuille de calcul Microsoft Excel Document Microsoft Word Document Microsoft Word 7 Les techniques explicatives Prédiction , modélisation : • extrapolation de nouvelles informations à partir d’informations présentes • explication des données • une variable « cible » à prédire. Plusieurs méthodes selon la cible : Quantitative : régression, arbre de régression, régression par réseau de neurones… Qualitative : discrimination, régression logistique, arbre de décision, réseaux de neurones… analyse décisionnelle, inférentielle, supervisée Modèle linéaire général: recherche d’une relation entre une variable numérique et plusieurs autres : Numériques : régression Qualitatives : analyse de la variance Mixtes : analyse de la covariance Analyse discriminante : prédiction d’une variable qualitative à l’aide de plusieurs prédicteurs en général numériques Cas particulier des variables qualitatives * méthodes descriptives, exploratoires - méthodes factorielles : ACM ACP pour variables ordinales, AFD Disqual - méthodes de classification: sur les coordonnées factorielles d’une ACM ou sur le tableau de distances du chi deux calculées sur tableau disjonctif 8 Cas particulier des variables qualitatives * méthodes explicatives, supervisées - le modèle linéaire général n’est pas adapté au cas d’une variable cible qualitative - autres méthodes : Y qualitative : et Xi qualitative analyse discriminante décisionnelle sur disqual Y qualitative et Xi qualitative : (on ne fait pas de distinction entre à expliquer et explicative) modèle log linéaire ou modèle d’association Y qualitative et Xi quantitative : régression logistique (les prédicteurs peuvent aussi être qualitatifs) L’ensemble de ces méthodes (MLG, logistique, log linéaire) constituent le modèle linéaire généralisé. Il faut aussi ajouter les méthodes de modélisation (non paramétriques) de segmentation par arbre et de réseaux de neurones. 9 Quoi de neuf? Cf S. Tufféry – Atelier SAS - http://data.mining… Ces techniques sont pour la plupart anciennes Ce qui est nouveau, ce sont : les capacités de stockage et de calcul offertes par le matériel et les techniques informatiques modernes la constitution de giga-bases de données pour les besoins de gestion des entreprises la recherche en IA et en théorie de l’apprentissage les logiciels universels développés par des éditeurs ambitieux l’intégration du data mining dans les processus de production qui permettent de traiter de grands volumes de données et font sortir le data mining des laboratoires de recherche pour entrer dans les entreprises Quoi de neuf? De nouvelles techniques pour de nouvelles données De nouvelles données : Données textuelles : text mining Internet : webmining Données symboliques Image mining Données Multimédia De nouvelles techniques Agrégation de modèles rééchantillonnage bootstrap, bagging, boosting… Text mining Extraction d’information à partir de textes (nouvelles, brevets, réclamations, e_mails….) Ensemble de techniques de tri automatique de masse de documents à partir de leur contenu sémantique Applications : recherche sur internet traitement automatique des demandes en assurances Analyse de lettres ou appels de réclamation de clients Analyse des résultats d’une enquête d’opinions 10 Webmining Analyse des fichiers log issus de la fréquentation de sites web et du comportement des internautes Applications : Click analysis : optimisation des sites Meilleure connaissance des internautes Fidélisation Campagnes de promotions Publicité Données symboliques Nouveau type de données : plus de tableau classique : une valeur par case individu-variable Données intervalles ou floues, distribution de probabilité, courbe, histogramme…. Projet européen SODAS Image mining Reconnaissance d’iris, de visage… Télédétection : comparaison d’image, suivi de phénomènes climatiques Prévision météo …. 11 Data mining et Statistique Le data mining est–il de la statistique? Qu’est ce qui distingue les deux? Quelles sont les spécificités du data mining? Data mining et Statistique Statistique et analyse de données : ensemble de méthodes : décisionnelle : validation d’hypothèses ou prédiction d’une valeur exploratoire : synthétiser un ensemble d’informations Data mining et Statistique http://cedric.cnam.fr/~saporta 12 Principaux changements Surabondance des données remise en question de la démarche d’analyse données opérationnelles / données d’enquêtes données exhaustives développement de l’approche exploratoire données historisées Data mining et Statistique Statistique inférentielle classique (tests statistiques) ne marche plus pour les très grands ensembles de données : toute hypothèse nulle H0 est rejetée quand n est grand Exemple : Une corrélation de 0.002 est significativement différente de zéro avec un million d’individus. A la place des tests de signification on utilisera la validation croisée, une combinaison ensemble d’apprentissage-ensemble test, des méthodes de rééchantillonnage… 13 Data mining et Statistique Les structures trouvées sont-elles valides? Il est inévitable de trouver des comportements, en raison d’une recherche combinatoire. Existent-ils vraiment? Exemple RA “False discovery rate” (Benjamini& Hochberg,1995) Le traitement exhaustif n’est sans doute pas la meilleure idée: un bon échantillonnage est souvent plus sur. Data mining et Statistique Document Microsoft Word Il faut vérifier l’utilité de ce que l’on «découvre»: corrélation n’est pas causalité et promouvoir B n’entrainera pas forcément des meilleures ventes de A! Acceptabilité des méthodes: prédire et comprendre peuvent ne pas aller de pair réticences aux boîtes noires Qualité des données, un enjeu majeur. Robustesse aux outliers Données manquantes, fusion de fichiers… Data mining et Statistique Découvrir des structures «inattendues» est une idée trompeuse: on a d’autant plus de chances de trouver quelque chose d’intéressant que l’on connaît mieux ses données Une démarche complètement automatique est aussi une idée fallacieuse. L’expertise et l’intervention du spécialiste sera toujours nécessaire. 14 Data mining et Statistique L’idée de découvrir des faits à partir des données est aussi vieille que la statistique “Statistics is the science of learning from data.Statistics is essential for the proper running of government, central to decision making in industry,and a core component of modern educational curricula at all levels” (J.Kettenring, 1997, ancien président de l’ASA). Data mining et Statistique années 60: Analyse Exploratoire (Tukey) Benzécri : «L’analyse des données est un outil pour dégager de la gangue des données le pur diamant de la véridique nature.» (J.P.Benzécri 1973) Les outils de l’ECD Intégration d’outils de bases de données volumineuses, d’apprentissage, de statistique, d’analyse des données,... Commerciaux SAS Entreprise Miner SPSS / Clementine IBM Intelligent Miner SPAD STATISTICA Data miner KXEN / SAP Universitaire SIPINA / TANAGRA dbMiner Weka 15 Conclusions et perspectives Data mining : ensemble de méthodes issues de BD, STAT, IA mais adaptées à la nouvelle nature des données : volumétrie, incohérence, incomplète … Objectif : étayer le processus décisionnel des entreprises dans le but de consolider leur position sur un marché mondialisé et de valoriser leurs produits et services. Discipline jeune avec des challenges intéressants mais attention aux accroches publicitaires, boites noires, automatisation, une connaissance des méthodes est parfois indispensable. http://cedric.cnam.fr/~saporta http://cedric.cnam.fr/~saporta 16 Conclusions et perspectives Selon le MIT, c’est l’une des 10 technologies émergentes qui « changeront le monde » au XXIe siècle. Confirmation: big data aujourd’hui! Quelques ouvrages... Advances in Knowledge Discovery and Data Mining Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy AAAI Press / MIT Press (1996) Le Data Mining LEFEBURE, VENTURI Eyrolles, 1998 Data Mining. Techniques for marketing sales and customer support BERRY & LINOFF Wiley 1997 Data Mining Adriaans & Zantinge 1996 Graphes d’induction, Apprentissage et Data Mining Zighed & Rakotomalala Hermes sciences 2000 Data Mining et Scoring, S. Tufféry, ed. Dunod, 2002. Quelques sites web... http://www.kdnuggets.com Site de référence. Liens vers : Logiciels, données, liens, ouvrages… http://eric.univ-lyon2.fr Logiciel TANAGRA en ligne et à télécharger, papiers… http://clubs.yahoo.com/clubs/datamining Forums de discussion, mailing-list http://www.cs.bham.ac.uk/~anp/papers.html Collection d ’articles sur le Data Mining http://www.web-datamining.net « Le » portail français, surtout intéressant pour les études de cas complets 17 http://cedric.cnam.fr/~saporta 18