Fouille de données Approches supervisées 1 Plan du cours 1. Le pré-traitement des données 2. Méthodes non supervisées 3. Méthodes supervisées 4. Méthodes semi-supervisées 5. Fouille de données Web 2 Approches supervisées 3 Exemple d’application Société de crédit Pour chaque client qui veut emprunter : - Age - Statut marital - Salaire annuel - Dettes contractées -… Faut-il accorder le crédit ? 4 Apprentissage supervisé - On apprend des expériences passées - Un ordinateur n’a pas d’expérience - Il apprend à partir des données - Objectif: apprendre une fonction objectif pour prédire la valeur d’une classe - Plusieurs noms possibles: classification, apprentissage supervisé, machine learning 5 Un processus en deux étapes 1. Apprentissage du modèle sur un jeu de données d’apprentissage X A B A A Y C D C D Z Classe E 1 E 2 E 1 F 2 Données d’apprentissage Modèle 2. Test du modèle sur un jeu de données test X B A A B Y D C D D Z Classe E ? F ? E ? F ? Données de test Modèle 6 X Y Z Classe prédite B A A B D C D D E F E F 2 1 1 2 Prédiction Hypothèse fondamentale Hypothèse Distribution des classes identique entre le jeu d’apprentissage et le jeu de test Remarques - Ce n’est jamais vraiment le cas en pratique - Si la distribution est vraiment différente alors la classification sera de mauvaise qualité - Le jeu d’apprentissage doit être suffisamment représentatif du jeu de test 7 Jeu de données Choix des jeux de données de test et d’apprentissage Principes Soit le jeu de données. On note jeu de test. On a : le jeu d’apprentissage et - Objectif - Etre représentatif de l’ensemble du jeu de donnée - Eviter l’overfitting (sur-apprentissage) 8 le Jeu de données Validation simple Principes Découpe du jeu de données en 2 : apprentissage et test A appliquer lorsque le jeu de données est large Répartition courante : - 50 % apprentissage - 50% test - 2/3 apprentissage - 1/3 test Tirage aléatoire ou en fonction de la temporalité de la donnée = 9 Jeu de données Tirage multiple aléatoire Principes Applicable si le jeu de données est petit Application n fois de la validation simple Obtention de n indicateurs de performance Efficacité moyenne = la moyenne des n indicateurs de performance = = 10 Jeu de données Validation croisée Principes Découpe du jeu de données en k (5 ou 10 généralement) parties On apprend sur k-1 parties et on teste sur la k ème partie Processus répété k fois (chaque partie sert de jeu de données de test) Calcul de l’efficacité globale identique au tirage multiple aléatoire Apprentissage Round 1 Round 2 Round 3 Round 4 11 Test Evaluation des méthodes - Efficacité de la classification - Temps de calcul - Passage à l’échelle: - Interprétabilité - Compacité 12 Mesures Efficacité n’est qu’une mesure Erreur = 1 - efficacité Pas toujours valide sur jeux de données déséquilibrés - Fouille de texte - Détection d’intrusion - Détection de fraude Communément : - Classe d’intérêt : classe positive - Autre classe : classe négative 13 Précision et rappel - Très utilisé en recherche d’information - Utilisation d’une matrice de contingence Classe réelle Classe prédite + - + VP FN - FP VN 14 Précision et rappel Precision Rappel F-mesure Classe réelle Classe prédite 15 + - + VP FN - FP VN Précision et rappel Precision Classe réelle Classe prédite Rappel F-mesure + - + 1 99 - 0 1000 Remarques 1. Précision et rappel ne s’occupent que de la classe positive 2. Peut facilement être étendu au cas où nbClasses > 2 16 Courbe ROC Receiver Operating Characteristic - Communément utilisé pour évaluer les performances d’un classifieur bi-classe - Nécessité d’ordonner les instances selon la vraisemblance d’appartenir à la classe positive Ratio Vrai Positif (RVP) Sensitivité Ratio Faux Positif (RFP) 1 - spécificité 17 Courbe ROC Receiver Operating Characteristic Exploitation de la courbe - Calcul de l’aire sous la courbe (AUC) - AUC = 1 équivaut à un tirage aléatoire - AUC = 1 équivaut à un classifieur parfait 18 Courbe ROC Construction Rang Classe VP FP VN FN RVP RFP 0 0 6 4 0 0 1 + 1 0 6 3 0,25 0 2 + 2 0 6 2 0,5 0 3 2 1 5 2 0,5 0,17 4 - 5 + 19 6 - 7 - 8 + 9 - 10 - Courbe ROC Construction Rang Classe VP FP VN FN RVP RFP 0 0 6 4 0 0 1 + 1 0 6 3 0,25 0 2 + 2 0 6 2 0,5 0 3 2 1 5 2 0,5 0,17 4 2 2 4 2 0,5 0,33 20 5 + 3 2 4 1 0,75 0,33 6 3 3 3 1 0,75 0,50 7 3 4 2 1 0,75 0,67 8 + 4 4 2 0 1 0,67 9 4 5 1 0 1 0,83 10 4 6 0 0 1 1 Arbres de décision - Une des techniques les plus utilisées Efficacité compétitive Rapide à construire Résultat facile à interpréter Chaque instance du jeu d’apprentissage est couverte une et une seule fois 21 Arbres de décision Algorithme C4.5 [Quinlan J.,1993] Quilan J. C4.5: programs for machine learning. 1993: Morgan Kaufmann Publishers. 22 Arbres de décision Gestion d’attributs numériques - Ne gère pas nativement les attributs numériques - Nécessité de discrétiser - Deux classes sont souvent suffisantes (valeur qui maximise le gain) - Nécessite de modifier légèrement l’algorithme initial (on garde l’attribut numérique) - Impact négatif sur la complexité temporelle 23 Arbres de décision Elagage de l’arbre - Arbre potentiellement très profond - Bruit, complexité des données, caractère aléatoire - L’arbre produit ne généralise pas bien les données (surapprentissage) - Elagage nécessaire (pré ou post traitement) - Si l’erreur estimée d’un noeud est inférieure ou proche de l’erreur estimée moyenne du sous-arbre alors on élague 24 Arbres de décision Données manquantes et classes non-équilibrées Données manquantes Situation très courante si pré-traitement mal effectué Plusieurs manières d’aborder le problème - Remplacement par une valeur joker - Remplacement par la valeur la plus fréquente ou la moyenne Classes non-équilibrées Une classe apparaît significativement plus qu’une autre (alarmes) Plusieurs manières d’aborder le problème - Augmenter la proportion de la classe sous-représentée - Echantillonner la classe sur-représentée 25 Arbres de décision Résumé INCONVÉN AVANTAGES - Très utilisé e iv it t é p m o c é it c a c fi f -E e ir u r t s n o c à e id p a R u o e u iq r é m u n s t u - Attrib catégoriel s le b a t é r p r e t in s t - Résulta IENTS - Données ma n q u a n t Inconvénients es - Classes non-équilib rées 26 Classification naive bayésienne Point de vue probabiliste de l’apprentissage Soit A1,…,Ak des attributs discrets et C la classe à prédire On cherche la classe c telle que : Pr(C=c | A1=a1,…,Ak=ak) soit maximale Fonctionne sur données catégorielles Articles fondateurs Domingos, P., & Pazzani, M. (1997). On the optimality of the simple Bayesian classifier under zero-one loss. Machine learning, 29(2-3), 103-130. Langley, P., Iba, W., & Thompson, K. (1992, July). An analysis of Bayesian classifiers. In AAAI (Vol. 90, pp. 223-228). Kohavi, R., Becker, B., & Sommerfield, D. (1997). Improving simple bayes. 27 Classification naive bayésienne Par le théorème de Bayes on a : Probabilité a priori Inutile à des fins de classification 28 Classification naive bayésienne Hypothèse d’indépendance conditionnelle et de façon similaire pour les autres attributs Sous l’hypothèse d’indépendance conditionnelle, on a : 29 Classification naive bayésienne Classe prédite 30 Classification naive bayésienne Exercice A B C m b f m s f g q f h s f g q f g q t g s t h b t h q t m b t A = m, B = q, C = ? 31 Classification naive bayésienne Attributs numériques,valeurs absentes et valeurs manquantes Attributs numériques Situation très courante On peut utiliser une technique de discrétisation vue précédemment Valeurs absentes Problème si une valeur apparaît uniquement dans le jeu de test On utilise un facteur correcteur : où nij le nombre d’instances avec ai et cj, nj le nombre d’instances avec cj, mi le nombre de valeurs d’Ai et (n est la taille du jeu) Valeurs manquantes Elles sont ignorées dans le calcul 32 Classification naive bayésienne Résumé INCONVÉN AVANTAGES e é is a n io t a t n e m lé p - Im e iv it t é p m o c é it c - Effica e ir u r t s n o c à e id - Rap IENTS - Indépend ance Inconvénients - Attributs numérique s - Valeurs a bsentes - Valeurs m anquantes 33 Classification naive bayésienne sur les textes [McCallum A. et Nigam K., 1998] Classification de textes Assigner un document à une classe (e.g., Sports, Politique, Finance, …) Constat Méthode précédente assez peu efficace sur des textes Améliorations Cadre probabiliste pour les textes Idées similaires à l’approche précédente McCallum, A., & Nigam, K. (1998, July). A comparison of event models for naive bayes text classification. In AAAI-98 workshop on learning for text categorization (Vol. 752, pp. 41-48). 34 CNB sur les textes Cadre probabiliste pour les textes - Modèle génératif probabiliste - Chaque document est généré par une distribution paramétrique - Estimation des paramètres via le jeu de données d’apprentissage Suppositions du modèle génératif probabiliste 1. Les données (ou les textes) sont générés par un modèle de mixture 2. Correspondance une à une entre les composants de la mixture et les classes 35 CNB sur les textes Cadre probabiliste pour les textes Notations Génération de di Probabilité que di soit généré par le modèle de mixture 36 CNB sur les textes Quelques hypothèses sur les textes Modélisation d’un texte Les textes sont représentés comme des sacs de mots (comme en Recherche d’Information) Hypothèses - Chaque mot d’un document est généré indépendamment de son contexte, i.e., des autres mots du document et de la classe - La probabilité d’un mot est indépendante de sa position dans le texte - La longueur des documents est indépendante de la classe Génération de di Par une distribution multinomiale k tirages avec k la taille du document 37 CNB sur les textes Calcul de la probabilité conditionnelle Application de la fonction de probabilité d’une distribution mulinomiale Indépendant de la classe Le nombre d’apparitions de wt dans di 38 CNB sur les textes Estimation des paramètres Estimation à partir du jeu d’apprentissage L’estimation de wt sachant cj est simplement le nombre de fois que wt apparaît dans un document de la classe cj Cas des valeurs absentes 39 CNB sur les textes Probabilités a priori et classification Probabilités a priori Probabilités a priori = poids des mixtures Classification 40 Classification naive bayésienne Résumé INCONVÉN AVANTAGES s e d n o ti la io v i s e m - Efficace mê s e d e c n a d n e p é d in hypothèses ( eà n u e c n a d n o p s e r r o mots et c t une entre classes e e) r tu ix m la e d ts n a s compo ire - Rapide à constru IENTS Inconvénients 41 SVM Support Vector Machine Séparateur à Vaste Marge [Vapnik V., 2013] Quand ? Classification binaire Attributs réels Principe Trouver un séparateur dont la marge est maximale Séparateur Marge Vapnik, V. (2013). The nature of statistical learning theory. Springer Science & Business Media. 42 SVM Pré-requis mathématiques Optimisation non-linéaire - Méthode de Lagrange, lagrangien, multiplicateur de Lagrange - Problèmes primal et dual - Problèmes convexes et leurs résolution Analyse fonctionnelle - Espaces de Hilbert - Espace de Hilbert à noyau reproduisant 43 SVM Formulation mathématique du problème Z Z Minimiser ce terme maximise la séparabilité Formulation 44 SVM Difficultés Séparateur rarement linéaire Séparateur Séparation rarement parfaite Séparateur 45 SVM SVM non linéaire « Dans une tâche de classification supervisée, plus la dimension des données est grande, i.e., plus ils ont d’attributs linéairement indépendants, plus la p ro b a b i l i t é q u e l e s c l a s s e s s o i e n t l i n é a i re m e n t s é p a r a b l e s e s t grande » [Théoreme de Cover, 1965] Principe Pulvérisation des données dans un espace potentiellement infini Problème : produit scalaire en grandes dimensions est coûteux Astuce du noyau : noyau symétrique défini positif pour calculer le produit scalaire des données pulvérisées dans l’espace de représentation d’origine Noyaux usuels Noyau polynomial Noyau gaussien 46 SVM Cas linéairement non séparable Principe Introduction de nouvelles contraintes Nouveau problème de minimisation avec contraintes 47 SVM Multi-classes Un contre tous Construction Construction de M classifier binaires (classe + pour une classe et - pour toutes les autres) Test Le classifieur donnant la marche la plus élevée remporte le vote et sa décision sera suivie Un contre un Construction Construction de M(M-1)/2 classifieurs Test Vote majoritaire 48 SVM Données catégorielles Solutions possibles Création d’une variable prenant n valeurs numériques Création de n variables binaires Remarques Meilleures performances des variables binaires Très utilisé pour la classification de documents Fonctionne très bien pour de grandes dimensions 49 SVM Résumé INCONVÉN AVANTAGES IENTS - Attributs ré e l s Inconvénients - Classifica tion binaire - Modèle d ifficilemen t interprétab le s e u iq r o é th s n o ti a - Solides fond s e c n a m r fo r e p s e n n - Très bo s e d n a r g s le te r o p - Sup dimensions 50 K plus proches voisins - Pas de construction de modèle (lazy learning vs eager learning) - Nécessite une fonction de distance - Compte la classe majoritaire dans le voisinage 2 plus proches voisins 1 plus proche voisin 3 plus proches voisins 51 K plus proches voisins Classification - La classe majoritaire est élue - Possibilité de pondérer en fonction de la distance 2 plus proches voisins ? 1 plus proche voisin 3 plus proches voisins Très sensible au paramètre k 52 K plus proches voisins Résumé INCONVÉN AVANTAGES - Simplicité - Efficacité s e s s la c ilt u m s e d - Gestion IENTS - Classifica Inconvénients tion lente - Non gest ion des données m anquantes 53 Classification supervisée Approches ensemblistes Constat Classifieurs isolés peuvent peiner à résoudre un problème de classification Mais ils peuvent chacun être efficaces sur une partie de l’espace de données Questions Ne peut on pas construire de nombreux modèles puis les combiner ? Comment les combiner ? Solutions Génériques : - Bagging - Boosting Spécifique: - Random forest 54 Approches ensemblistes Bagging (Bootstrap Aggregating) [Breiman L., 1996] Notations Un jeu de données D avec n exemples et un algorithme d’apprentissage M Apprentissage 1. Création de k jeu d’apprentissage, S1 à Sk, par tirage aléatoire avec remise de n exemples 2. Création de k modèles construites sur S1 … Sk avec le même algorithme M Test - Système de vote (poids égaux) - Election de la classe majoritaire Breiman, L. (1996). Bagging predictors. Machine learning, 24(2), 123-140. 55 Bagging Forces et faiblesses INCONVÉN AVANTAGES IENTS Peut dégr ader les ré Inconvénients sultats des mét hodes s tables (KPP et c l a s s i fi c a tion bayésienn e) r te n e m g u a t n e m e Peut significativ s e d o th é m s e d s les performance ) n io is c é d e d s e r b instables (ar 56 Approches ensemblistes Boosting [Schapire R., 1990] Idée générale Un classifieur dit « faible » est exécuté à plusieurs reprises sur le jeu de données repondéré. Mécanisme A chaque itération t : 1. Pondération de chaque exemple selon s’il a été bien classé précédemment (fort poids si mal classé) 2. Apprentissage d’un modèle noté ht 3. Affection d’une force à ce modèle noté Sortie Combinaison linéaire du vote des différents modèles pondéré par leur force Schapire, R. E. (1990). The strength of weak learnability. Machine learning, 5(2), 197-227. 57 Boosting Pondération du jeu de données Les exemples ne sont pas égaux Plus un exemple est dur à classer plus celui-ci devrait être « sur-représenté » dans le jeu de données Jeu de données pondéré On note D(i) le poids du ième exemple (xi, yi) Interprétation : - Le ième exemple compte pour D(i) exemples - Si on doit « resampler » le jeu de données, les exemples ayant un fort poids seront plus présents 58 Boosting AdaBoost 59 Références Ces ouvrages pointent vers de nombreuses références d’articles scientifiques décrivant les approches vues en cours ou des variantes de celles-ci - Data Mining - Concepts and Techniques par J. Han et M.Kamber (ed. Morgan Kauffman) - Web Data Mining - ExploringHyperlink, Contents and Usage Data par B. Liu (ed. Springer) - Statistiques Exploratoires Multidimensionnelles par L. Lebart et al. (ed. Dunod) 60