Découverte de connaissances dans les données (Datamining ou KDD) 15 September 2009 Data Mining 1 2009-2010 Renseignements Pratiques Cours le mardi 10h15-12h, Battelle A, Salle 316-318 (2è ) Labo le mercredi 16-18h, Battelle A, Salle 314-315 (2è ) Contrôle des connaissances HEC (1 semestre) 60% exercices 40% devoir de semestre SC/SES (2 semestres) 40% exercices 20% devoir de semestre 40% projet + soutenance 8 crédits (SC), 12 (SES) 6 crédits Data Mining 2 2009-2010 Plan 1 Le processus de datamining 2 La matière première : les données Le résultat : les connaissances Le coeur du processus : l'apprentissage Généralités sur l'apprentissage supervisé 3 4 5 Data Mining 3 2009-2010 Dénition Le processus de datamining le datamining ou fouille de données = découverte de connaissances dans les données (knowledge discovery in data, KDD) processus itératif par lequel on extrait des connaissances valides, nouvelles, potentiellement utiles et compréhensibles en dernière analyse [Fayyad et al., 1995] Data Mining 4 2009-2010 Schéma du processus Analyse du pb. Le processus de datamining Sélection Prétraitement Donnees initiales BD Données de travail Déploiement Modèle/ motifs (patterns) Connaissances Data Mining Apprentissage Evaluation 5 2009-2010 Les étapes du processus I 1 Le processus de datamining Analyse du problème d'application choisir un problème précis, des objectifs tangibles et quantiables dénir la manière dont la solution sera déployée spécier la solution 2 Sélection des données évaluer la qualité des données, détecter leurs insusances et pathologies visualiser, analyser les distributions et les regroupements Data Mining 6 2009-2010 Les étapes du processus II 3 Le processus de datamining Prétraitement des données nettoyage : suppression du bruit, valeurs manquantes ou abérrantes réduction des données sélection des instances sélection, extraction, combinaison des variables transformation des données discrétisation des variables continues numérisation des variables nominales invention de nouvelles variables Data Mining 7 2009-2010 Les étapes du processus III 4 Le processus de datamining L'apprentissage le coeur du KDD : construction d'un modèle à partir des données le maître-mot : généralisation problème critique : choix de l'algorithme d'apprentissage en fonction du problème/des données 5 Evaluation et interprétation des résultats évaluation quantitative indispensable compréhensibilité souvent capitale (ex. applications médicales) 6 Déploiement de la solution Data Mining 8 2009-2010 La matière première : les données Plan 1 Le processus de datamining 2 La matière première : les données 3 Le résultat : les connaissances Le coeur du processus : l'apprentissage Généralités sur l'apprentissage supervisé 4 5 Data Mining 9 2009-2010 Structure des données La matière première : les données une instance|exemple : un vecteur de d variables|attributs une table comporte n lignes (exemples), d colonnes (variables) cas le plus simple : un ensemble de données (dataset) = une table apprentissage dit attribut-valeur (propositionnel) Data Mining 10 2009-2010 La matière première : les données Notation variables 1 d exemples 1 X = {xij } y = {yj } xi n Data Mining 11 2009-2010 Types de variables La matière première : les données Simple ou primitive discrète|catégorique|qualitative : nombre ni de valeurs non ordonnées ordinale : nombre ni de valeurs ordonnées continue|réelle|quantitative : nombre inni de valeurs ordonnées Structurée ou complexe ensembles, listes, n-uplets, arbres, graphes ... Data Mining 12 2009-2010 Rôle des variables La matière première : les données indépendante|explicative|prédictive : sa valeur est donnée|observée dépendante|réponse|cible : sa valeur dépend d'autres variables Data Mining 13 2009-2010 La matière première : les données # 1 2 3 4 5 ... PL PW Iris 1.4 5.1 4.6 5.6 5.8 0.2 1.8 1.5 1.8 2.2 Iris-setosa Iris-virginica Iris-versicolor Iris-virginica Iris-virginica 1.5 1.0 Petal.Width 2.0 Setosa Versicolor Virginica 0.5 Chaque cas = un point dans un espace à d dimensions (d = nb de variables) Ex. Iris : 150 exemples, 4 variables (2 visualisées) 2.5 Interprétation géométrique des données 1 2 3 4 5 6 7 Petal.Length Problèmes réels → des centaines de milliers de variables|dimensions Data Mining 14 2009-2010 Les résultats : les connaissances Plan 2 Le processus de datamining La matière première : les données 3 Le résultat : les connaissances 4 Le coeur du processus : l'apprentissage Généralités sur l'apprentissage supervisé 1 5 Data Mining 15 2009-2010 Les résultats : les connaissances Forme des connaissances extraites modèle : un résumé global de l'ensemble de données s'applique à toute instance appartenant à l'espace des données ex. modèle simple : Y = aX + c, où X ∈ R, a et c sont les paramètres du modèle motif (pattern) : résumé local d'une région de l'espace des données une règle R: a→c n'est valable que pour les données qui satisfont ses antécédents ex. R1: si longueur.pétale < 2 alors iris-setosa Distinction pas toujours très nette: le terme modèle également utilisé pour désigner un ensemble de motifs Data Mining 16 2009-2010 Le coeur du processus : l'apprentissage Plan 3 Le processus de datamining La matière première : les données Le résultat : les connaissances 4 Le coeur du processus : l'apprentissage 5 Généralités sur l'apprentissage supervisé 1 2 Data Mining 17 2009-2010 L'apprentissage automatique Data Mining Le coeur du processus : l'apprentissage 18 2009-2010 Types d'apprentissage Le coeur du processus : l'apprentissage Supervisé versus non-supervisé Non supervisé : pas de variable dépendante Supervisé : comporte une variable dépendante ou cible Propositionnel versus relationnel Propositionnel : une seule table (variables = attributs d'un objet) Relationnel : plusieurs tables (variables = attributs ou relations entre objets) Data Mining 19 2009-2010 Le coeur du processus : l'apprentissage Exemples d'apprentissage non supervisé Segmentation or regroupement (clustering) détecter les groupes abérrants (fraudes, intrusions) segmenter la clientèle (campagnes promotionnelles) découvrir des classes sémantiques dans les mots d'un texte Association analyser le panier d'achats analyser les cours choisis par les étudiants interpréter les parcours des navigateurs sur Internet Data Mining 20 2009-2010 Le coeur du processus : l'apprentissage Exemples d'apprentissage supervisé Classication : variable cible catégorique ltrer les mails (spam or non) détecter les tendances boursières (hausse, baisse) diagnostiquer une maladie (positif, négatif ) Régression : variable cible numérique estimer la valeur d'un bien immobilier prédire la durée d'hospitalisation d'un patient estimer le retour sur investissement d'une campagne publicitaire Prédiction structurée: variable cible complexe/structurée prédiction de séries temporelles prédiction d'arbres syntaxiques d'une phrase Data Mining 21 2009-2010 Plan 4 Le processus de datamining La matière première : les données Le résultat : les connaissances Le coeur du processus : l'apprentissage 5 Généralités sur l'apprentissage supervisé 1 2 3 Généralités sur l'apprentissage supervisé Le cadre formel Un générateur de données x ∈ X ⊆ Rd , iid ∼ P (x) inconnue Un superviseur qui génère y ∈ Y ⊆ R, iid ∼ P (y|x) inconnue Un apprenti capable d'implémenter f (x, Θ) ∈ H Générateur Superviseur P(y| x ) P( x) x Data Mining y x1 y1 x2 ... xn y2 ... yn Apprenti H Θ 23 f ( x, Θ ) = y^ 2009-2010 Dénition de la tâche Généralités sur l'apprentissage supervisé Etant donné un ensemble de n exemples {(x1 , y1 ), . . . , (xn , yn )}, trouver une fonction f paramétrée par Θ telle que f (x, Θ) = ŷ soit une bonne approximation de y pour une nouvelle donnée x. On suppose une fonction "vraie" mais inconnue qu'il s'agit approximer à l'aide de données Dans les problèmes réels, les données sont souvent bruitées Data Mining 24 2009-2010 Généralités sur l'apprentissage supervisé Un problème central : La sélection du modèle Problème : comment trouver la bonne approximation fˆ de la fonction cible ? 1 sélection de l'algorithme d'apprentissage = choix d'une famille de modèles 2 sélection du modèle = choix d'hyperparamètres pour un algorithme donné Ex. d'une famille de fonctions : les fonctions polynomiales d'une variable f (x, w) = M X wj x j j=0 w: paramètres du modèle M : ordre de la fonction polynomiale (hyperparamètre à choisir) Data Mining 25 2009-2010 Généralités sur l'apprentissage supervisé Eclaircissements sur un exemple simulé On suppose une fonction cible sin(2πx) Le générateur tire n données par tirage uniforme dans le domaine de la fonction Le superviseur donne les réponses perturbées par un bruit gaussien aléatoire L'apprenant ne connaît pas f mais généralise à partir des données pour prédire la valeur de tout nouveau cas Data Mining 26 2009-2010 Généralités sur l'apprentissage supervisé Modèles appris de complexité croissante ... M=1 1.0 1.0 Données bruitées ● ● ● 0.5 ● 0.5 ● ● ● ● ● 0.4 0.6 ● ● ● 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 M x= 9 1.0 1.0 M x= 3 ● ● −1.0 −1.0 0.2 0.0 y ● ● 0.0 ● −0.5 0.0 ● ● −0.5 y ● ● ● ● ● 0.5 ● 0.5 ● ● ● ● 0.4 0.6 ● ● ● ● −1.0 −1.0 0.2 0.0 y ● ● 0.0 ● −0.5 0.0 ● ● −0.5 y ● ● 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Quel est le meilleur modèle ? Data Mining 27 2009-2010 Généralités sur l'apprentissage supervisé ... et vraie fonction ● M=1 1.0 1.0 Vraie fonction & données bruitées ● ● ● ● 0.5 0.5 ● ● ● ● ● 0.4 0.6 ● ● ● 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 M x= 9 1.0 1.0 M x= 3 ● ● −1.0 −1.0 0.2 0.0 y ● ● 0.0 ● −0.5 0.0 ● −0.5 y ● ● ● ● ● 0.5 ● 0.5 ● ● ● y ● 0.4 0.6 ● ● ● −1.0 −1.0 0.2 ● −0.5 ● ● 0.0 ● 0.0 0.0 ● ● −0.5 y ● ● 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 [Bishop, 2006] Data Mining 28 2009-2010 Généralités sur l'apprentissage supervisé Généralisation et surapprentissage M=1: Modèle loin des données et de la vraie fonction M=3: Plus proche de la vraie fonction; erreurs résiduelles M=9: Colle parfaitement aux données (y compris au bruit) Loin de la vraie fonction x = 3 our x = 8.5? surapprentissage (overtting) : le Quelle sera la prédiction pour On dit qu'il y a modèle s'ajuste parfaitement aux données d'apprentissage mais ne peut généraliser aux données nouvelles Pour bien géneraliser, il faut une connaissance approfondie des familles de modèles disponibles une méthodologie rigoureuse d'expérimentation Data Mining 29 2009-2010 Plan du cours (automne) 1 Généralités sur l'apprentissage supervisé L'apprentissage supervisé (classication, régression) Partitionnement récursif : Arbres et règles de décision: C4.5, CART Apprentissage par estimation de densité: méthodes bayésiennes, KNN, noyaux Approches numériques linéaires: discriminants linéaires, perceptrons Approches numériques non linéaires: réseaux de neurones articiels, méthodes à base de noyaux (SVM) 2 Techniques d'évaluation et d'expérimentation Mesures de performances et stratégies d'expérimentation Comparaison et sélection de modèles 3 Techniques avancées d'apprentissage supervisé L'agrégation de modèles : Bagging, boosting, stacking Les arbres et règles de décision de premier ordre: programmation logique inductive L'apprentissage relationnel à base de noyaux Data Mining 30 2009-2010 Plan du cours (printemps) 1 Généralités sur l'apprentissage supervisé Réduction des données Réduction de la dimensionnalité: sélection/transformation de variables Réduction de l'échantillon par apprentissage actif 2 L'apprentissage non supervisé Les règles d'association Le clustering hiérarchique Le clustering partitionnel: centres mobiles, cartes auto-organisatrices (réseaux de Kohonen) 3 L'apprentissage semi-supervisé La classication semi-supervisé (co-entraînement, transduction) Le clustering semi-supervisé (apprentissage de métriques) 4 Projet data mining Data Mining 31 2009-2010 Références Généralités sur l'apprentissage supervisé Bishop, C. M. Pattern Recognition and Machine Learning. Springer, 2006. Hastie, T., Tibshirani, R, Friedman, J. Elements of Statistical Learning: Data Mining, Inference and Prediction. Springer, 2001. Mitchell, T. Machine Learning. McGraw-Hill, 1997. Data Mining 32 2009-2010