Data Mining Plan • Introduction • Définition • Les tâches du Data Mining • Les techniques du Data Mining • Conclusion 1/ 19 Introduction Disponibilité croissante de données Données en trop grandes quantités pour être traitées manuellement ou par des algorithmes classiques => Émergence du Data Mining (fouille de données) 2/ 19 Définition Le Data Mining est l’ensemble du processus permettant l’extraction de connaissances à partir de grosses bases de données dans un but d’aide à la décision. 3/ 19 Processus du Data Mining (1 / 2) 1. Identifier le problème Cerner les objectifs 2. Préparer les données Collecter les données Nettoyer les données (suppression des doublons, des erreurs de saisie...) 4/ 19 Processus du Data Mining (2 / 2) 3. Fouille des données Choisir un type de modèle (classification, …) et une technique (arbres de décision, ...) pour construire ce modèle Validation – Évaluation (Erreurs, …) : par un expert ou par les statistiques 4. Utiliser le modèle Voir les résultats du modèle sur les données, Appliquer le modèle pour prédire sur de nouvelles données. Les tâches du Data Mining 6/ 19 Selon les objectifs • Classification : examiner les caractéristiques d'un objet et lui attribuer une classe • Segmentation : consiste à former des groupes homogènes à l'intérieur d'une population. Selon le type d’apprentissage 7/ 19 • Apprentissage supervisé : processus dans lequel l'apprenant reçoit des exemples d'apprentissage comprenant à la fois des données d'entrée et de sortie. → classification • Apprentissage non supervisé : processus dans lequel l'apprenant reçoit des exemples d'apprentissage ne comprenant que des données d'entrée. → segmentation Les techniques du Data Mining 9/ 19 Les arbres de décision (1 / 3) • Un arbre de décision est un outil d’aide à la décision qui permet de classifier une population d’individus selon les valeurs de leurs attributs. C’est une représentation graphique de la procédure de classification où : Chaque nœud correspond à un test sur la valeur d'un ou plusieurs attributs. Chaque branche partant d'un nœud correspond à une ou plusieurs valeurs de ce test. Une feuille = une classe. 10 / 19 Les arbres de décision (2 / 3) 11 / 19 Les arbres de décision (3 / 3) 12 / 19 L’algorithme K-NN (1 / 2) • k-NN (k Nearest Neighbours) est un algorithme de raisonnement à partir de cas c’est-à-dire prendre des décisions en recherchant un ou plusieurs cas similaires déjà résolus. • La décision consiste à chercher les k échantillons les plus voisins de l'objet et de l’affecter à la classe qui est la plus représentative dans ces k échantillons. 13 / 19 L’algorithme K-NN (2 / 2) 14 / 19 SVM (1 / 2) • Pour deux classes d’exemples donnés, le but de SVM est de trouver un classificateur qui va séparer les données et maximiser la distance entre ces deux classes. • Avec SVM, ce classificateur est un classificateur linéaire appelé hyperplan. 15 / 19 SVM (2 / 2) x2 x1 16 / 19 L’algorithme k-means (1 / 3) • Cette méthode est basée sur une notion de similarité entre enregistrements. • Nous allons pour introduire l'algorithme considérer un espace géométrique muni d'une distance, deux points sont similaires si ils sont proches pour la distance considérée. Nous nous plaçons donc dans l'espace euclidien de dimension 2 et considérons la distance euclidienne classique. L'algorithme suppose choisi a priori un nombre k de groupes à constituer. 17 / 19 L’algorithme k-means (2 / 3) • On constitue alors les k groupes initiaux en affectant chacun des enregistrements dans le groupe correspondant au centre le plus proche. • Pour chaque groupe ainsi constitué, on calcule son nouveau centre en effectuant la moyenne des points du groupe et on réitère le procédé. Le critère d'arrêt est : d'une itération à la suivante, aucun point n'a changé de groupe, i.e. les groupes sont stables. 18 / 19 L’algorithme k-means (3 / 3) étape 1 centre D(2;4) centre B(2;2) points A(1;3) B(2;2) C(2;3) D(2;4) E(4;2) F(5;2) G(6;2) H(7;3) groupe B B B D B B B B étape 2 centre D(2;4) étape 3 centre J(5/3;10/3) centre I(27/7;17/7) centre K(24/5;11/5) groupe D I D D I I I I groupe J J J J K K K K 19 / 19 Conclusion • Nous venons de présenter les tâches principales du data mining ainsi que les principaux outils utilisés pour les effectuer. • Il faut noter qu'à l'heure actuelle le choix de l'outil par rapport a une tâche donnée dépend fortement du domaine considéré. Merci de votre attention !