www.pepite.be [email protected] 28/04/2003 ©PEPITe S.A. Page 1 « Data Mining » En bref… Techniques informatiques d’exploration automatique de données Extraction de connaissances à partir de données assistée par ordinateur Les piliers: Visualisation d’information La statistique L’apprentissage automatique: • Réseaux de neurones • Arbres d’induction (décision, régression,..) L’intelligence artificielle 28/04/2003 ©PEPITe S.A. Page 2 CRISP-DM 28/04/2003 ©PEPITe S.A. Page 4 Statistique Synthétiser l’information (moyenne, écart-type, etc.) Sélection MANUELLE des modèles Tests d’hypothèses pour valider les choix des modèles Mieux adapté pour des petites bases de données Méthodes plus complexes demandant une grande expertise pour une utilisation efficace 28/04/2003 ©PEPITe S.A. Page 5 Visualisation 28/04/2003 ©PEPITe S.A. Page 6 Apprentissage Automatique Extraction de la Connaissance Construction de modèles à partir d’observations (ou de simulations) d’un système Dans le but de: Expliquer le comportement du système Prédire le comportement du système Pas d’hypothèses sur les modèles de départ MAIS, nécessité d’un minimum d’observations 28/04/2003 ©PEPITe S.A. Page 7 IA : Systèmes Experts Modélisation de la Connaissance La machine imite le comportement de l’être humain Capacité d’apprendre et de raisonner Capacité de proposer des solutions déduites de prédicats Introduction préable des règles (IF…THEN…) et de faits par l’expert Outils d’inférence : PROLOG, CLIPS, JESS, LISP, OPENCYC,… Gestion d’alarmes, jeux,… 28/04/2003 ©PEPITe S.A. Page 8 Apprentissage Automatique Supervisé Entrées Xi : données du débiteur Sortie Y : solvabilité Construction du modèle Y = F(X1,…XN) Diviser la BD en un ensemble d’apprentissage et un ensemble de test Apprendre avec EA Valider quantitativement le modèle avec ET Valider qualitativement le modèle avec expert Exploitation du modèle 28/04/2003 ©PEPITe S.A. Page 9 Supervisé Classement & Régression Sortie Y continue : régression Taux de rebuts Sortie Y discrète : classement Taux de rebuts acceptable/non acceptable 28/04/2003 ©PEPITe S.A. Page 10 Apprentissage Automatique Non-Supervisé Apprendre les relations entre variables Pas de distinction entre variables d’entrées et de sorties Exemple : Retrouver des journées de productions similaires Retrouver des corrélations entre attributs (mesures similaires) Méthodes : Dendrogramme, K-MEANS 28/04/2003 ©PEPITe S.A. Page 11 Supervisé Arbres de Décision Apprentissage automatique supervisé pour le classement Construction A chaque noeud recherche de la meilleure entrée et de la bonne question Séparation du noeud en deux fils en fonction de la réponse à la question Arrêt du développement Utilisation Propagation d’un nouvel objet dans l’arbre, le noeud terminal indique la classe de l’objet 28/04/2003 ©PEPITe S.A. Page 12 Arbre de Décision Construction Y Y 28/04/2003 T° > 54°C N N ©PEPITe S.A. Page 13 Atouts des Arbres Interprétable : Lecture facile des règles Plus facile pour la validation qualitative Sélection des paramètres relevants Construction très rapide Différentes variantes : Arbres de régression (sortie continue) Arbres flous (sortie continue et discrète) Ensemble d’arbres 28/04/2003 ©PEPITe S.A. Page 14 Problématique des Données Qualité: erreurs d’encodage bruits valeurs manquantes Quantité: taille minimum requise de la BD imprévisible (dépend de la complexité du problème) 28/04/2003 ©PEPITe S.A. Page 15 Types de Données Images Sons Données symboliques (grand, petit, chaud, froid,…) Données numériques Données temporelles 28/04/2003 ©PEPITe S.A. Page 16 Méthodes Régression multivariée Arbres (régression, classif., flous,…) Réseaux de neurones Réseaux baysiens Analyse Composantes Principales (ACP – PCA) Machines à support vectoriel … 28/04/2003 ©PEPITe S.A. Page 17 La Meilleure Méthode ? Toutes et aucune Dépend du type de problème Dépend des besoins Précision : réseau de neurones Interprétabilité : arbres de décison Nécessité de disposer d’une boîte à outils robuste, flexible et adaptable 28/04/2003 ©PEPITe S.A. Page 18 Manufacturing Industry 1 ERP: planning, scheduling, supply and logistics 2 MES: plant-wide optimization &management 3 Automation, advanced process control, abnormality management 4 Basic control, rectification, statistical analysis 5 Measurement and sensing, on-line monitoring 28/04/2003 ©PEPITe S.A. Page 19 DATA EXPERT PROCESS KNOWLEDGE 28/04/2003 ©PEPITe S.A. Page 20 Applications en Économie eCRM analytique : analyse du comportement des clients, des interactions & optimisation de métriques de satisfaction Détection de fraude Stratégies de trading Optimisation de portfolio Bâle II : mesure et analyse du risque dans le gestion des fonds propres des banques 28/04/2003 ©PEPITe S.A. Page 21 Links2go http://www.cwu.edu/~borisk/finance http://www.aaai.org http://www.aaai.org/AITopics http://www.kdnuggets.com http://www.crisp-dm.org http://www.montefiore.ulg.ac.be/services/stochastic 28/04/2003 ©PEPITe S.A. Page 22 Slides et logiciel disponibles sur www.pepite.be Login : EAA / Mot de passe AA_1000 28/04/2003 ©PEPITe S.A. Page 23