2 Fouille de données Lotfi Ben Romdhane, Ph.D. DSI / ESST / US/ Tn Sommaire • Chap. 1 -Introduction • Chap. 2 - Règles d’associations • Chap. 3 - Techniques de Classification • Chap. 4 - Arbres de décisions 4 Faits réels (1) Introduction Concepts fondamentaux Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane 5 Faits réels (2) 6 Faits réels (3) • Les satellites d’observation de la terre de la NASA génèrent un téraoctets (109 octets) de données chaque jour. • Les serveurs Web stockent des billions de transactions (fichiers logs) à propos des navigations des internautes • Projet Génome Humain entrepris en 1990 dont la mission est d'établir le séquençage complet de l'ADN du génome humain. ▫ Stockage de plusieurs billions de gènes Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane 7 Faits réels (4) • La croissance du volume de données est exponentielle ! • Les données sont disponibles d’une manière instantanée avec des réseaux à haut débit ▫ actuellement les BDs sont réparties à l’échelle de la planète • La capacité de stockage n’est plus un problème ▫ les disques sont de grandes capacités ▫ on peut regrouper plusieurs disques qu’on utilise comme un seul disque virtuel (RAID) 8 Faits réels (5) • “We are drowning in information but starved for knowledge”. John Naisbitt. • On a besoin d’un ensemble de techniques qui sont ▫ rapides (temps d’exécution) ▫ mises en échelle (capables de traiter de grands volumes de données) ▫ Simples à utiliser pour tansformer les données en connaissances (knowledge) Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane 9 Fouille de données (1)? 10 Fouille de données (2) ? • Un ensemble de techniques permettant d’extraire des connaissances utiles et intérressantes à partir de grands volumes de données Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane 11 Processus KDD (1) 12 Processus KDD (2) 1. Nettoyage des données La fouille de données est une étape cruciale dans le processus KDDs ▫ supprimer bruit & inconsistance dans les données 2. Intégration des données ▫ combiner plusieurs sources de données 3. Sélection des données KDD - Knowledge Discovery from Data ▫ extraire les données pertinentes pour l’étape de la fouille de données 4. Transformation des données ▫ ▫ Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane représenter les données dans un format “adéquat” faire une réduction de dimensions: projection sur un espace de dimension inférieure Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane 13 Processus KDD (3) Connaissances (1) 5. Fouille de données • Aucune définition précise et satisfaisante de la ▫ une étape importante dans laquelle plusieurs techniques intelligentes sont utilisées pour extraire les connaissances notion de connaissances 6. Evaluation des connaissances ▫ • Les connaissances est un ensemble de sélectionner uniquement les connaissances utiles en se basant sur une “mesure de qualité” patrons (patterns) ayant une certaine 7. Présentation des connaissances ▫ ▫ 14 forme d’intelligence présenter les connaissances extraites dans un format adéquat simple à comprendre par l’utilisateur final les techniques de visualisation jouent un rôle primordial à ce niveau Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane 16 15 Connaissances (2) Connaissances (3) • On rattache généralement deux concepts fondamentaux aux connaissances ▫ processus d’extraction : méthodes/algorithmes utilisés pour extraire les connaissances à partir des données ▫ mode de représentation : la forme de représentation des connaissances en général, dépend étroitement de l’algorithme d’extraction données Algorithmes Connaissances Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane Patrons structurés Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane Patrons « Black-Box » 17 Techniques de fouille de données (2) Techniques de fouille de données (1) Intelligence Artificielle Techniques de visualisation Fouille de données Base de données 18 Apprentissage Statistiques Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane 19 Fouille de données: Pourquoi? Décisions sont plus faciles et tangibles ! Quel serait le prix du pétrole dans les jours à venir Quels sont les produits que le client est suceptible d’achter Quels sont les thématiques préférées de cet internautes ? 20 21 Sources de données (1) 22 Sources de données (2) • Base de données relationnelles • Entrepôts de données (data warehouse) ▫ un ensemble de plusieurs bases de données hétérogènes intégrées ensembles et organisées sous formes de magasins de données ▫ la forme de données la plus répondue ▫ un ensemble de données inter-reliées ▫ organisées sous forme de tables/relations ▫ on y trouve les données et les liens (clés étrangères) entre les données l’algorithme de fouille de données doit tenir comptes des liens Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane 24 23 Sources de données (3) Sources de données (4) ▫ dans un entrepôts, on garde l’historique des modifications des données il y a un axe temps qui s’ajoute Image de la base en Mai 2005 Bas de données Entrepôt de données Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane Image de la base en Juillet 2006 Nom Ville Nom Ville Dupont Paris Dupont Marseille Durand Lyon Durand Lyon Code Année Mois Ville 2005 Mai Cod e Nom 1 2 2006 Juillet 1 Dupont Paris 1 Durand Lyon 2 Dupont Marseille Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane 25 26 Sources de données (6) Sources de données (5) • Base de données transactionnelles • contiennent des centaines de milliards de transactions effectuées par les utilisateurs • Base de données multimédia ▫ stockent les données sous forme audio, vidéo, etc. ▫ la tendance actuelle de la plupart des bases de données existantes ▫ achats des clients dans un supermarché les informations visuelles sont plus simples à assimiler et à comprendre que celles textuelles transaction: ensemble des produits achetés ▫ visite des internautes dans un site web ▫ Besoin d’un ensemble de techniques intelligentes pour calculer automatiquement la sémantique (contenu significatif) de l’image (un ensemble de pixels) transaction: ensemble des pages visitées, ordre des visites, durée des visites, ... • Une mine d’informations à exploiter Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane 27 Définition d’une donnée (1) Tid • Un d’objet décrit par des attributs • un attribut est une propriété ou caractéristique d’un objet ▫ couleur des yeux d’une personne • Une collection d’attributs permettent de décrire un objet • Un ensemble de données est un ensemble d’objets dont la représentation la plus commode est sous forme tabulaire Refund Marital Status 28 Définition d’une donnée (2) Taxable Income Loyal • Attributs discrets 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No chaînes de caractères 10 No Single 90K Yes prix d’un Produit, taille d’une personne ▫ possède un ensemble fini de valeurs couleurs des yeux d’une personne = {A, B, C, D} • Attributs continus ▫ possède un ensemble de valeurs infinis nombre réels Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane 30 29 Prétraitement des données (1) • Les données réelles , vu leur grand Prétraitement des données (2) image bruitée volume, sont susceptibles de contenir plusieurs formes d’anomalies ▫ bruit: erreurs de stockage, transmission ▫ valeurs manquantes: certains attributs d’un objets ne possèdent pas de valeurs • Les bonnes décisions se basent sur des connaissances de qualité qui nécessitent forcément des données de bonne qualité Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane 31 Prétraitement des données (3) Ecole Supérieure des Sciences et des Technologies © L. B. Romdhane