DATA MINING ou KNOWLEDGE DISCOVERY IN DATABASES (KDD) Besoin de retrouver toutes les informations associées à un sujet donné, par exemple un consommateur, un vendeur, un produit ou une activité. Extraire des connaissances des « grandes BD » historisées, en dégageant des tendances de fond et les règles de l’entreprise et du marché. Entrepôt de données (Data Warehouse) Ensemble de données historisées, constitué par extraction à partir de bases applicatives ou fichiers, organisé par sujets spécifiques, consolidé dans une BD unique, géré dans un environnement de stockage particulier, aidant à la prise de décision de l’entreprise. Les outils d’exploitation d’un data warehouse peuvent être classés en deux catégories: - outils d’aide à la décision permettant d ’interroger et d’analyser l’évolution des données - outils de DM permettant de comprendre les relations entre les données (problème très ouvert) afin de déterminer des modèles implicites, et de remonter de l’information non prévisible à l’utilisateur. Méthodes et Outils de Data Mining (Fouille des données) • DM : Ensemble de techniques d’explorations de données afin d’en tirer les liens sémantiques. La découverte des règles à partir des données permet d’améliorer le processus. Les mécanismes de base sont les méthodes de déduction issues de la logique, permettant de déduire un théorème à partir d’axiomes. Le résultat est sûr, mais la méthode nécessite la connaissance de règles a priori. La logique floue gagnerait à être considérée. Les méthodes d’induction permettent de tirer des conclusions à partir d’une série de faits. Parmi les techniques employées, on peut citer: - L’analyse statistique qui consiste à choisir des variables et à les analyser par rapport à des fonctions connues. explorer Variances Ecart-types entre variables - Test de Chi 2 - Théorème de Bayes Corrélations • La découverte de règles de type: « Si A alors B » avec coefficients de confiance. • La recherche de modèles fonctionnels : -La régression linéaire, -Les réseaux de neurones. • La classification des données (techniques de prédilection du DM): la classification supervisée, ou segmentation. Chaque problème nécessite des algorithmes d’extraction spécifiques. Les phases essentielles du processus de DM sont les suivantes: • identifier le problème à résoudre, i.e. cerner les objectifs. • préparer les données d’entrée, en particulier trouver les sources, collecter, nettoyer, transformer et intégrer les données. • explorer et régler plusieurs modèles afin de choisir une ou plusieurs techniques adaptées. • Évaluer les techniques sur un échantillon (de 5% à 1/3) et valider sur le reste. • Utiliser le modèle sur le réel. • Suivre le modèle et l’améliorer. Acquisition et préparation des données • 1) Choix des objets Il importe de définir les objets les plus homogènes possibles relativement au problème étudié. Deux questions: – Tous les objets auxquels on s’intéresse sont-ils couverts par la définition qu’on s’en est donné? – Les objets considérés ne sont-ils pas eux-mêmes des catégories agrégeant des objets plus élémentaires, et si oui le niveau d’agrégation est-il identique pour tous? • 2) Choix des individus Il est vain d’essayer de traiter entièrement les grosses bases de données. Il semble judicieux de mettre en œuvre des schémas de tirage qui permettent d’assurer de la prise en compte de la plupart des structures qui régissent les observations. • 3) Choix des variables Extraire les champs qui permettent d’expliquer au mieux l’état de la classe que l’on cherche à prédire. S’ajoute le problème de la pondération des variables. • 4) Types de données On propose généralement: -les données nominales auxquelles on associe des codes permettant d’énumérer les cas possibles. -les données ordinales auxquelles on associe des codes énumérant les situations possibles en intégrant une relation d’ordre. -les données continues généralement définies sur un sous-ensemble de : échelle d’intervalle, échelle métrique. • Les comparer par rapport à un opérateur distance d. • IA: les données sont le plus souvent symboliques. Recodage et transformation des données • Objectif: Homogénéiser les variables. Ces méthodes sont parfois considérées comme des méthodes d’appauvrissement ou d’enrichissement des données. Nominales ------> Ordinales • Variables continues: – Standardisation: centrage, réduction (/écart-type), centrage-réduction. – Transformation distributionnelle: à partir d’une variable X, on trouve une variable Z de distribution « presque » normale. – Discrétisation des attributs continus. – Transformations qui découlent de décision d’expert. Traitement des données manquantes • Traitement monovarié: On remplace la valeur manquante en utilisant uniquement les caractéristiques intrinsèques de la variable étudiée: la valeur la plus fréquemment rencontrée, celle qui minimise l’espérance du coût de la décision, la valeur moyenne, la valeur médiane,….. ?!: méthodes peu fiables. • Traitement multivarié: 1) en exploitant les liens qui existent entre les différentes variables composant la base de données. ?!: méthodes très coûteuses en temps de calcul. 2) en exploitant la notion de proximité. ?!: notion de distance. • Traitement bivarié: L’idée est d’essayer de trouver une variable dans la base qui explique au mieux les variations de celle qui nous préoccupe. Cette option semble être le meilleur compromis, encore faut-il choisir la bonne variable. Détection des données anormales Il est souvent conseillé d’exclure ces données • Données catégorielles (symboliques): Sauf un code différent de ceux déclarés, il est impossible de détecter les anomalies. • Données continues: sur des données basées sur l’hypothèse de distribution gaussienne des individus, il existe des procédures qui permettent de détecter assez rapidement des points « anormaux ». Il existe également des tests d ’homogénéité de répartition des individus à faire lorsqu’on constate des points atypiques qui mettraient en cause l’analyse que l’on mène. Discrétisation des attributs continus Apprentissage inductif: un système qui reçoit des entrées et en extrait des connaissances. • Apprentissage non-supervisé (classification) • Apprentissage supervisé (classement) Finalités de l ’apprentissage supervisé: – le diagnostic, – la prévision. Construction de variables synthétiques et réduction de la dimension • Un des objectifs de l’apprentissage supervisé est de produire le modèle le plus précis. A performances égales, le modèle le moins complexe sera considéré le meilleur. • Il est nécessaire de: – réduire au mieux le nombre de variables, – de construire des variables synthétiques qui: •simplifient la représentation de la solution, •permettent une meilleure compréhension du problème étudié. • Comment? – Construction d’expert, – Construction automatique (analyse discriminante, combinaisons de variables, régression multiple). DATA MINING DECOUVERTE DE NOUVELLES CONNAISSANCES PREVISION EXPLICATION PREVISION-EXPLICATION Induction de règles en apprentissage supervisé SI prémisse ALORS conclusion • L’induction par graphes d’induction propose d’utiliser les variables explicatives pour décomposer successivement l’échantillon de départ. • L’objectif est de mettre en évidence des sous-groupes dans lesquels la présence d’une des modalités de la classe à prédire est « significativement » élevée. EXEMPLE Moyenne<10 Stage Résultat Non Bon A Non Bon A Non Bon A Oui Bon A Non Bon A Oui Mauvais R Oui Mauvais R Oui Mauvais R Oui Mauvais R Oui Mauvais R M<10 Oui Non Stage Bon AA AA A ----> ARBRES CONCURRENTS Mauvais RRR RR 5 5 Acceptés refusés M< 10 OUI NON 4 0 11 5 Stage Mauvais 0 5 Bon 5 5 Stage 1 0 Problème: Trouver une heuristique permettant de s’approcher au mieux de la « meilleure » solution. Mauvais 0 5 Bon 5 0 Les principales étapes de la création de graphes d’induction • La sélection de l’attribut pour partitionner un sous-graphe. Plusieurs attributs sont candidats pour former les sous-groupes induits, il importe de choisir la meilleure localement: il est nécessaire de définir une mesure de qualité de la subdivision. • Un critère d’arrêt qui permet de stopper le processus de partionnement. • L’affectation d’une classe à chaque sommet terminal, on parle alors couramment d’Arbre de Décision. • La construction d’un classifieur peut être ramené à la recherche de la combinaison d’attributs prédictifs la plus correlée avec la variable à prédire. • Choix de sélection des attributs lors du partionnement sur un nœud: NP-complet • Stratégie couramment utilisée: rechercher localement sur chaque nœud, l’attribut qui induit le meilleur éclatement. Paradigme: L’influence de la mesure de qualité sur la partition est manifeste sur la complexité du graphe d’induction construit, elle est en revanche faible sur ses performances en classification. Critère d’arrêt de la construction de l’arbre • Homogénéité totale de la partition construite? Oui, si processus déterministe… Surapprentissage?………. • Les règles induites doivent être « statistiquement » intéressantes. • Toute décomposition engendrant au moins un groupe de cardinal inférieur à une taille minimale doit être refusée. • Choix de la valeur limite? …. 5 • Il existe des critères statistiques, ou des critères basés sur les gains d’informations (pré-élégage),… discutables! Exemple de décomposition à rejeter: 10 10 1 1 9 0 0 9 Post-élégage: On construit un arbre aussi grand que l’on veut, et on définit une séquence de sous-arbres imbriqués, et on choisit celle qui minimise le taux d’erreur. 70 60 20 60 50 0 20 40 10 30 0 20 10 10 Suite….. • Extraction des règles dans le graphe d’induction: Si prémisses Alors Conclusion • Assigner une conclusion à un sommet terminal. • Lecture des règles dans le graphe. • SBC • Déclenchement des règles. • Validation statistiques des règles (règles inutiles). • Stratégies de décision. Evaluations et comparaisons empiriques de classifieurs • Meilleur classifieur? – Taux d’erreur en généralisation, – Etudes théoriques, – Etudes expérimentales (Serveurs de données tests, ….), – Complexité, – Le temps de réponse, – La difficulté de mise à jour, – L’analyse de la fiabilité (sur quelles classes?,coûts?,…) Quelle est la meilleure méthode sur mes données compte tenu des critères qu’on s’est fixé? L’algorithme A est-il en général meilleur que B? Vaste Problème. • Les différents taux d’erreur, • La complexité: le nombre de règles produites?, le nombre de nœud dans le graphe?, y compris les feuilles? • Les données tests? – Données synthétiques, – Données réalistes, – Données réelles. Il faut essayer de répondre: • Quel est l’effectif total? • Combien de classes? • Quelles sont les distributions conditionnelles et inconditionnelles? • Combien y-a-t-il d’attributs? • Sont-ils qualitatifs, continus ou mixtes? • Quelles sont leurs distributions? • Y-a-t-il des valeurs manquantes? • Quel est le niveau de bruits sur les observations? Analyse et estimation de l’erreur • La matrice de confusion ou le tableau de contingence (Cf page suivante), • Erreur théorique? • Erreur en substitution: elle est calculée directement sur l’échantillon ayant servi à l’apprentissage. • Erreur en validation: elle est calculée directement sur l’échantillon ayant servi à la validation. La matrice de confusion CLD (L) A CLO © B C A 50 0 0 B 0 45 1 C 0 5 49 Conclusion • Il est délicat de comparer des méthodes sur la base d’évaluations empiriques. • De nombreuses précautions sont nécessaires pour donner une signification statistique aux résultats. • Les comparaisons n’ont vraiment de sens que pour un domaine d’étude donné, la généralisation est hasardeuse, pour ne pas dire illusoire.