UNIVERSITE DE M’SILA FACULTÉ DE M ATHÉMATIQUES ET I NFORMATIQUE DEPARTEMENT D’INFORMATIQUE N˚ d’ordre / / / / / / / / MEMOIRE Présenté pour l’obtention du diplôme de : MAGISTER Spécialité : Informatique 0ption : Ingénierie des systèmes d’informatique Par BRAHIMI Belgacem Thème : Extraction de connaissances à partir de données incomplètes et imprécises Présenté et soutenu publiquement le :03 /07/2011 devant le jury composé de : B.BOUDERAH P ROFESSEUR U NIVERSITÉ DE M’ SILA Président A.MOUSSAOUI M.C. UFA- S ÉTIF Rapporteur M.BOURAHLA M.C U NIVERSITÉ DE M’ SILA Examinateur M.BENMOHAMED P ROFESSEUR U.M C ONSTANTINE Examinateur / / / DEDICACES A mon père et ma mère, qui m’ont vraiment tout donné ; A ma femme, qui m’a aidé ; A Ibtihel et Meriem, mes chères filles. A mes frères et mes sœurs. Remerciements Je remercie tout d’abord le grand Dieu pour m’avoir donnée le courage et la santé pour accomplir ce travail. Ce travail n’aurait pas pu aboutir à des résultats sans l’aide et les encouragements de plusieurs personnes que je remercie. Mes vifs remerciements accompagnés de toute ma gratitude vont ensuite à mon promoteur MOUSSAOUI ABDELOUAHAB, maître de conférence à l’université de Sétif, pour ses conseils judicieux, sa grande disponibilité et pour m’avoir suivie et orientée. Je remercie gracieusement Monsieur Brahim BOUDERAH, Professeur à l’université de M’sila, pour son support, son aide durant nos études de post-graduation. Les chefs des départements informatique et STIC, Mr. BENAZZI Makhlouf, BRAHIMI Mahmoud ainsi que le président du conseil scientifique Mr. BOURAHLA Mustapha pour leur soutien scientifique et moral. Les membres de jury qui m’ont fait un grand honneur en acceptant la valorisation de ce modeste mémoire. Enfin, que tous ceux qui nous ont aidés et encouragés de prés ou de loin dans la concrétisation de ce projet, trouvent ici ma gratitude et mes sincères remerciements. 4 Résumé L’extraction de connaissances à partir de données (ECD) est définie comme un processus de découverte d’informations implicites, inconnues auparavant et potentiellement utiles à partir de données. Ce processus se fait en plusieurs étapes : préparation des données (recherche, nettoyage et codage des données), fouille des données (recherche d’un modèle de connaissances), validation et interprétation du résultat et enfin intégration des connaissances apprises. Cependant, il se trouve que dans beaucoup de domaines, les données représentées sont incomplètes et/ou imprécises ce qui rend leur exploitation très difficile et/ou impossible d’autant plus que la dimensionnalité élevée des bases de données complexifie la tâche d’extraction de connaissances à partir de cette masse de données. Nous proposons dans ce travail de magister des solutions pour l’amélioration des techniques d’extraction de connaissances à partir de données tout en en prenant en compte la nature des données hétérogènes, incomplètes, incertaines ou incertaines en utilisant la notion de la similarité. Mots-clés : données incomplètes, données imprécises, logiques floue, extraction de connaissances, similarité. Abstract : Extracting knowledge from data (KDD) is defined as a process of discovery of implicit information, unknown earlier and potentially useful from the data. This process is several steps : data preparation (research, cleaning and data coding), data mining (looking for a model, knowledge), validation and interpretation of results and finally integration knowledge learned. However, it turns out that in many areas the data representation is incomplete and / or inaccurate which makes their operation very difficult or impossible especially since the high dimensionality databases complicates the task of knowledge extraction From this mass of data. We propose in this work solutions for improved techniques for extracting knowledge from data while taking into account the nature of heterogeneous data, incomplete, uncertain or uncertain using the notion of similarity. Keywords : incomplete data, imprecise data, fuzzy logic, knowledge extraction, similarity. 5 TABLE DES MATIÈRES i Table des matières Introduction générale 1 1 Le processus ECD 5 1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2 Le processus d’ECD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.3 Les étapes d’un processus d’extraction de connaissances à partir des données . . . 6 1.3.1 Nettoyage et intégration des données . . . . . . . . . . . . . . . . . . . . 6 1.3.2 Prétraitement des données . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.3.3 Fouille de données (Data Mining) . . . . . . . . . . . . . . . . . . . . . . 7 1.3.4 Evaluation et présentation . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Fouille de données (data mining) . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.4.1 Historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.4.2 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.4.3 Principales tâches de fouille de données . . . . . . . . . . . . . . . . . . . 10 1.4.4 Les méthodes de data mining . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.4.5 Différents types de base de données . . . . . . . . . . . . . . . . . . . . . 12 1.4 1.5 2 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 L’information imparfaite 15 2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.2 Les type d’imperfection des données . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.2.1 L’erreur (l’information incorrecte) . . . . . . . . . . . . . . . . . . . . . . 16 2.2.2 L’information Imprécise . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.2.3 L’information incomplète . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.2.4 L’information incertaine . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 ii TABLE DES MATIÈRES 2.3 Les causes d’imperfection des données . . . . . . . . . . . . . . . . . . . . . . . . 19 2.4 Problèmes liés en présence des valeurs manquantes ou imprécises . . . . . . . . . 20 2.5 Quelques représentations des informations imparfaites . . . . . . . . . . . . . . . 21 2.5.1 Bases de données probabilistes . . . . . . . . . . . . . . . . . . . . . . . . 21 2.5.2 La théorie des ensembles approximatifs Rough(approximate) set theory . . . . . . . . . . . . . . . . . . . . . . . . 22 2.5.3 Le modèle flou . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.6 Les types de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.7 Les méthodes de traitement des données manquantes. . . . . . . . . . . . . . . . . 26 2.8 Les méthodes d’imputation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.9 2.8.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.8.2 L’imputation simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.8.3 Dangers de l’imputation . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.8.4 L’imputation multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 Détection et traitement des points aberrants . . . . . . . . . . . . . . . . . . . . . 33 2.9.1 Comment détecter les points aberrants . . . . . . . . . . . . . . . . . . . . 36 2.10 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.11 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3 Le ECD et les données imparfaites : L’état de l’art 41 3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.2 Traitement des données imparfaites (incomplètes, imprécises ou incertaines) . . . . 41 3.3 3.2.1 Statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3.2.2 Bases de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3.2.3 Ensembles flous et d’approximation . . . . . . . . . . . . . . . . . . . . . 44 3.2.4 Valeurs manquantes en classification et segmentation . . . . . . . . . . . . 47 3.2.5 Règles de décision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3.2.6 Arbres de décision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3.2.7 Clustering des données incomplètes . . . . . . . . . . . . . . . . . . . . . 49 3.2.8 Règles d’association, valeurs manquantes et complétion . . . . . . . . . . 50 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 TABLE DES MATIÈRES iii 4 55 La similarité 4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 4.2 Similarité et Distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 Similarité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 4.2.2 Distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 4.2.3 Pondération des attributs . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 4.3 Les applications de la similarité . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 4.4 Quelques mesures de similarité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 4.5 4.6 4.7 4.8 5 4.2.1 4.4.1 Distance euclidienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 4.4.2 Distance de Manhattan . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 4.4.3 Distance de Minkowski . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 4.4.4 Normalisation 4.4.5 Distance euclidienne hétérogène (HEOM) . . . . . . . . . . . . . . . . . . 59 4.4.6 Sélection des cas proches voisins . . . . . . . . . . . . . . . . . . . . . . 60 La logique floue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 4.5.1 Historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 4.5.2 Théorie des sous-ensembles flous . . . . . . . . . . . . . . . . . . . . . . 63 4.5.3 Utilité des ensembles flous . . . . . . . . . . . . . . . . . . . . . . . . . . 65 4.5.4 Opérations sur les ensembles flous . . . . . . . . . . . . . . . . . . . . . . 65 Distance entre deux sous-ensembles flous . . . . . . . . . . . . . . . . . . . . . . 67 4.6.1 Distance de Hamming . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 4.6.2 Distance euclidienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 L’agrégation multicritère . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 4.7.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 4.7.2 Le quantificateur linguistique flou . . . . . . . . . . . . . . . . . . . . . . 68 4.7.3 L’opérateur d’agrégation OWA . . . . . . . . . . . . . . . . . . . . . . . . 69 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 L’approche proposée 71 5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 5.2 Méthode des KNN (k Nearest Neighbours) . . . . . . . . . . . . . . . . . . . . . . 73 5.3 KNN imputation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 5.3.1 Avantages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 iv TABLE DES MATIÈRES 5.3.2 5.4 Le choix d’un langage de modélisation des imperfections de l’information . . . . . 78 5.5 Approche proposée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 5.6 6 Points critiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 5.5.1 Problème de manque de données : . . . . . . . . . . . . . . . . . . . . . . 82 5.5.2 Problème de données imprécises : . . . . . . . . . . . . . . . . . . . . . . 83 5.5.3 Résume de notre approche . . . . . . . . . . . . . . . . . . . . . . . . . . 86 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 Expérimentations 91 6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 6.2 Évaluation du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 6.3 Critères de choix des bases de données . . . . . . . . . . . . . . . . . . . . . . . . 93 6.4 Protocole des expérimentations . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 6.5 6.4.1 Le cas de manque de données . . . . . . . . . . . . . . . . . . . . . . . . 94 6.4.2 Synthèse des résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 6.4.3 Le cas d’imprécision de données . . . . . . . . . . . . . . . . . . . . . . . 99 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 Conclusion et perspectives 103 Bibliographie 105 v TABLE DES FIGURES Table des figures 1.1 Les différentes étapes du processus d’ECD [Jol03] . . . . . . . . . . . . . . . . . 6 2.1 L’approximation de l’ensemble X . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.2 L’imputation par le modèle de régression . . . . . . . . . . . . . . . . . . . . . . . 29 2.3 L’imputation multiple : étape 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.4 L’imputation multiple : étape 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.5 L’imputation multiple : étape 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.6 Représentation des données x et y . . . . . . . . . . . . . . . . . . . . . . . . . . 36 2.7 Un point suspect (bruit) 3.1 La prise en charge des données manquantes dans le processus d’ECD . . . . . . . 53 4.1 La notion de la similarité entre deux objets . . . . . . . . . . . . . . . . . . . . . . 56 4.2 Le choix de K voisins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 4.3 Représentation floue et classique . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 4.4 Ensembles flous définis pour la caractéristique " Age " . . . . . . . . . . . . . . . 66 5.1 Les trois classes de la base Iris (fleurs) . . . . . . . . . . . . . . . . . . . . . . . . 72 5.2 L’approche par désactivation de données manquantes . . . . . . . . . . . . . . . . 88 5.3 L’approche par complétion des données manquantes . . . . . . . . . . . . . . . . . 89 5.4 L’approche hybride (précise, intervalle, floue) . . . . . . . . . . . . . . . . . . . . 90 6.1 Synthèse des résultats des méthodes de gestion du manque . . . . . . . . . . . . . 100 6.2 Représentation floue de la variable revenu par personne de la base credit . . . . . . 101 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 vi TABLE DES FIGURES vii LISTE DES TABLEAUX Liste des tableaux 2.1 Table de données univariée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.2 Table de données multi variée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.3 Table de données complètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.4 Table de données incomplètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.5 Les données après le remplissage par la moyenne . . . . . . . . . . . . . . . . . . 31 2.6 Les données de l’exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.7 Les données avec un bruit 5.1 Une partie de la base Iris . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 5.2 La distance entre l’objet 1 et les autres objets . . . . . . . . . . . . . . . . . . . . 78 6.1 Le taux de précision en fonction du taux de manque de la base iris . . . . . . . . . 96 6.2 Le taux de bonne classification pour les méthodes d’imputation de la base iris . . . 96 6.3 Le taux de bonne classification pour les méthodes d’imputation de la base crédit . . 97 6.4 Le taux de bonne classification pour les méthodes d’imputation de la base breast-w 6.5 Le taux TP en fonction du taux de manque, l’imputation par la régression . . . . . 98 6.6 Le taux de classification pour les différentes approches . . . . . . . . . . . . . . . 100 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 97 Introduction générale Contexte Dans de nombreux domaines, il est nécessaire de prendre des décisions critiques, dans un contexte parfois difficile et en un temps limité. Par exemple, un médecin qui doit prendre une décision rapide pour traiter un cas urgent, fait appel à ses connaissances et expériences pour prendre sa décision. Mais il ne peut pas se souvenir de tous les dossiers qu’il a traités et étudiés depuis des années. Les outils informatiques peuvent apporter une aide précieuse dans ce cas, car ils peuvent prendre en compte un grand nombre de cas déjà traités et proposer pour un nouveau cas une décision fondée sur la compilation de tous les cas passés. Il peut arriver que les données issues du monde réel ne soient pas complètes. Elles peuvent contenir des informations non renseignées, par exemple parce qu’une personne a refusé de ré- pondre à certaines questions, parce que certains tests ne peuvent pas être effectués, les données peuvent être également imprécises, pour manque de rigueur de précision ou différence des unités de mesures. etc. L’ignorance des valeurs imparfaites (manquantes, imprécises..) peut rendre la décision non représentative et donc être dangereuse. L’extraction de connaissances à partir des données (ECD) est un processus non trivial d’identification de structures inconnues, valides et potentiellement utiles dans les bases de données [FU96b]. Son objectif est d’aider l’être humain à extraire les informations utiles (connaissances) à partir de données dont le volume croît très rapidement. Les étapes de ce processus sont, l’acquisition de données multiformes (textes, images, séquences vidéos, etc.), la préparation de données (prétraitement), la fouille de données, et enfin la validation et mise en forme des connaissances. La Fouille de Données (Data Mining) [PD96] , [DR00] se situe dans le cadre de l’apprentissage inductif. Cette phase fait appel aux multiples techniques qui permettent de découvrir les 2 Introduction générale connaissances auparavant cachées dans les données et d’aider à la décision. Problématique Le problème des valeurs imparfaites (manquantes, imprécises..) est un problème connu dans le domaine de la fouille de données et de l’apprentissage automatique où, dans la base d’apprentissage, on rencontre des objets ayant des valeurs manquantes et/ imprécises pour certains attributs. Cela arrive pendant la phase d’acquisition des données du processus de l’ECD. Les données sont manquantes parce qu’on ne les a peut-être pas enregistrées, ou bien que leur acquisition est trop coûteuse, etc. Prendre une décision en présence de données imparfaites est une tâche difficile. Par exemple, la santé est un domaine où l’incertitude prend une importance considérable ; prendre une seule décision dans l’incertitude peut être dangereux. En effet, il existe des niveaux de difficulté relative à l’incertitude et à l’imprécision : – L’incertitude au niveau des données, le modèle est construit à partir des données probablement incertaines et imprécises (estimées) et ne sont pas des données nécessairement réelles. – L’incertitude au niveau du modèle de connaissance, le modèle (régression, classification. . .) est lui-même incertain et /ou imprécis même s’il est construit à partir des données complètes et réelles. Les natures de cette imperfection des connaissances sont au nombre de trois [AM] : 1. Les incertitudes concernant un doute sur la validité d’une connaissance. 2. Les imprécisions correspondent à une difficulté dans l’énoncé de la connaissance. 3. Les incomplétudes sont des absences de connaissances ou des connaissances partielles sur certaines caractéristiques du système. La question qui se pose, alors, est " Comment modéliser ces imperfections, et comment les utiliser pour l’extraction des connaissances de façon automatique ?". Objectifs : Notre contribution est d’apporter des solutions pour la prise en compte des données imparfaites lors de l’extraction des connaissances dans les deux niveaux (apprentissage, test),puisque c’est le cas le plus souvent dans la réalité, l’idée de base de notre solution est que les individus d’un Introduction générale 3 même groupe (classe) sont homogènes et similaires. Par contre les individus appartenant à des classes différentes ont des propriétés différentes. C’est une propriété fondamentale caractérisant les individus et leurs groupes. Nous avons utilisé la notion de la similarité des individus est la relation avec leur groupe (classe) pour les deux niveaux : 1. Pré traitement des données. 2. Fouille de données (data mining) ; nous avons proposé des modifications des algorithmes classiques d’extraction pour tenir en considération la présence des données imparfaites (manquantes, imprécises..). Malheureusement, et à notre connaissance modeste il n’existe pas un modèle (flou, possibiliste) qui permet de représenter tous les cas d’imperfection (manque, imprécision, incertitude). Pour cela une combinaison de plusieurs modèles est nécessaire. Pour les données imprécises, nous avons proposé le découpage des valeurs numériques en intervalles. Cette solution nous permet de surmonter les valeurs imprécises (plusieurs valeurs, intervalle..). Pour le problème des limites des intervalles, une approche floue est introduite. Pour le cas de manque de données, nous avons utilisé la notion de la similarité pour : 1. Prédire les valeurs manquantes. 2. Classer un objet ayant des valeurs manquantes, on a proposé des améliorations des techniques basées sur la similarité (classification, clustering...) pour classer un individu incomplet. Organisation du mémoire Notre mémoire est composé de six chapitres. Le premier chapitre présente les concepts du data mining, où sont décrites les différentes étapes d’un processus d’extraction de connaissances à partir des données. Parmi ces étapes, nous détaillons la phase de fouille de données. Le deuxième chapitre est consacré pour définir l’information imparfaite, les types de l’imperfection de donnée, les causes et les conséquences liées à l’existence des données imparfaites. Nous présentons également quelques modèles et langages pour modéliser l’imprécision de données. Le but du troisième chapitre est de présenter l’état de l’art des travaux permettant la prise en compte des valeurs incomplètes et imprécises lors d’une fouille de données avec les inconvénients 4 Introduction générale et les limites et les contraintes posées par quelques approches. Dans le quatrième nous abordons la notion de la similarité est ses applications et quelques mesures. La Deuxième partie du chapitre est faite pour présenter le modèle flou pour définir la similarité entre les objets flous. Dans le cinquième chapitre nous introduisons notre approche basée sur la similarité floue est la modification des approches classique pour prendre en charge l’imperfection de données. Le sixième chapitre présente les résultats obtenus dans le cadre de notre proposition. La conclusion et les perspectives de ce travail seront présentées à la fin du mémoire. Chapitre 1 Le processus ECD 1.1 Introduction L’extraction de Connaissances dans les Bases de Données (E.C.B.D.) est une discipline récente, à l’intersection des domaines des bases de données, de l’intelligence artificielle, de la statistique, des interfaces homme / machine et de la visualisation. A partir de données collectées par des experts, il s’agit de proposer des connaissances nouvelles qui enrichissent les interprétations du champ d’application, tout en fournissant des méthodes automatiques qui exploitent cette information. Dans cette partie, nous allons donner un aperçu général sur le processus ECD (définition, étapes. . .) notamment sur l’étape fouille de données (data mining).., les techniques utilisées (motif, règle d’association, classification . . .) et différents types de base de donnés qu’on rencontre lors de l’extraction des données. Enfin nous terminons par la conclusion. 1.2 Le processus d’ECD Le processus d’extraction de connaissances dans les bases de données (ECD). Présenté sur la figure 1.1 désigne l’ensemble des opérations qui permettent d’exploiter avec facilité et rapidité des données stockées massivement. Il s’agit d’un processus non trivial, consistant à identifier dans les données des schémas nouveaux, valides, potentiellement utiles et surtout compréhensibles et utilisables [FU96a]. Le processus d’ECD peut avoir deux objectifs, soit vérifier les hypothèses d’un utilisateur, soit 6 C HAPITRE 1. Le processus ECD F IGURE 1.1 – Les différentes étapes du processus d’ECD [Jol03] découvrir de nouveaux motifs. Un motif, ou schéma, est une expression dans un langage spécifique qui décrit un sous-ensemble de données ou un modèle applicable à ce sous-ensemble [FU96c]. 1.3 Les étapes d’un processus d’extraction de connaissances à partir des données Ce processus comporte quatre étapes principales : – Nettoyage et intégration des données, – la préparation des données, – la fouille de données (data mining) – l’interprétation. 1.3.1 Nettoyage et intégration des données Le nettoyage des données consiste à traiter ces données bruitées, soit en les supprimant, soit en les modifiant de manière à tirer le meilleur profit. L’intégration est la combinaison des données 1.3 Les étapes d’un processus d’extraction de connaissances à partir des données 7 provenant de plusieurs sources (base de données, sources externes, etc.). Le but de ces deux opérations est de générer des entrepôts de données et/ou des magasins de données spécialisés contenant les données traitées pour faciliter leurs exploitations futures. 1.3.2 Prétraitement des données Il peut arriver parfois que les bases de données contiennent à ce niveau un certain nombre de données incomplètes et/ou bruitées. Ces données erronées, manquantes ou inconsistantes doivent être traitées si cela n’a pas été fait précédemment. Dans le cas contraire, durant l’étape précédente, les données sont stockées dans un entrepôt. Cette étape permet de sélectionner et transformer des données de manière à les rendre exploitables par un outil de fouille de données. Cette seconde étape du processus d’ECD permet d’affiner les données. Si l’entrepôt de données est bien construit, le prétraitement de données peut permettre d’améliorer les résultats lors de l’interrogation dans la phase de fouille de données. 1.3.3 Fouille de données (Data Mining) La fouille de données (data mining en anglais), est le cœur du processus d’ECD. Il s’agit à ce niveau de trouver des pépites de connaissances à partir des données. Tout le travail consiste à appliquer des méthodes intelligentes dans le but d’extraire cette connaissance. Il est possible de définir la qualité d’un modèle en fonction de critères comme les performances obtenus, la fiabilité, la compréhensibilité, la rapidité de construction et d’utilisation et enfin l’évolutivité. Tout le problème de la fouille de données réside dans le choix de la méthode adéquate à un problème donné. Il est possible de combiner plusieurs méthodes pour essayer d’obtenir une solution optimale globale. Nous ne détaillerons pas d’avantage la fouille de données dans ce paragraphe car elle fera l’objet d’une section complète. 1.3.4 Evaluation et présentation Cette phase est constituée de l’évaluation, qui mesure l’intérêt des motifs extraits, et de la présentation des résultats à l’utilisateur grâce à différentes techniques de visualisation. Cette étape est dépendante de la tâche de fouille de données employée. En effet, bien que l’interaction avec l’expert soit importante quelle que soit cette tâche, les techniques ne sont pas les mêmes. Ce n’est 8 C HAPITRE 1. Le processus ECD qu’à partir de la phase de présentation que l’on peut employer le terme de connaissance à condition que ces motifs soient validés par les experts du domaine. Il y a principalement deux techniques de validation qui sont la technique de validation statistique et la technique de validation par expertise. La validation statistique consiste à utiliser des méthodes de base de statistique descriptive. L’objectif est d’obtenir des informations qui permettront de juger le résultat obtenu, ou d’estimer la qualité ou les biais des données d’apprentissage. Cette validation peut être obtenue par : – le calcul des moyennes et variances des attributs, – si possible, le calcul de la corrélation entre certains champs, – ou la détermination de la classe majoritaire dans le cas de la classification. La validation par expertise, est réalisée par un expert du domaine qui jugera la pertinence des résultats produits. Par exemple, pour la recherche des règles d’association, c’est l’expert du domaine qui jugera la pertinence des règles. Pour certains domaines d’application (le diagnostic médical, par exemple), le modèle présenté doit être compréhensible. Une première validation doit être effectuée par un expert qui juge la compréhensibilité du modèle. Cette validation peut être, éventuellement, accompagnée par une technique statistique. Grâce aux techniques d’extraction de connaissances, les bases de données volumineuses sont devenues des sources riches et fiables pour la génération et la validation de connaissances. La fouille de données n’est qu’une phase du processus d’ECD et consiste à appliquer des algorithmes d’apprentissage sur les données afin d’en extraire des modèles (motifs). L’extraction de connaissances à partir des données se situe à l’intersection de nombreuses discipline , comme l’apprentissage automatique, la reconnaissance de formes, les bases de données, les statistiques, la représentation des connaissances, l’intelligence artificielle, les systèmes experts . . . 1.4 Fouille de données (data mining) Les concepts de fouille de données et d’extraction de connaissances à partir de données sont parfois confondus et considérés comme synonymes. Mais, formellement on considère la fouille de données comme une étape centrale du processus d’extraction de connaissances des bases de données (ECBD ou KDD pour Knowledge Discovery in Databases en anglais) [Lie07]. 1.4 Fouille de données (data mining) 1.4.1 9 Historique L’expression "data mining" est apparue vers le début des années 1960 et avait, à cette époque, un sens péjoratif. En effet, les ordinateurs étaient de plus en plus utilisés pour toutes sortes de calculs qu’il n’était pas envisageable d’effectuer manuellement jusque là. Certains chercheurs ont commencé à traiter sans a priori statistique les tableaux de données relatifs à des enquêtes ou des expériences dont ils disposaient. Comme ils constataient que les résultats obtenus, loin d’être aberrants, étaient tout au contraire prometteurs, ils furent incites à systématiser cette approche opportuniste. Les statisticiens officiels considéraient toutefois cette démarche comme peu scientifique et utilisèrent alors les termes "data mining" ou "data fishing" pour les critiquer. Cette attitude opportuniste face aux données coïncida avec la diffusion dans le grand public de l’analyse de données dont les promoteurs, comme Jean-Paul Benzecri [DR00], ont également dû subir dans les premiers temps les critiques venant des membres de la communauté des statisticiens. Le succès de cette démarche empirique ne s’est pas démenti malgré tout. L’analyse des données s’est développée et son intérêt grandissait en même temps que la taille des bases de données. Vers la fin des années 1980, des chercheurs en base de données, tel que Rakesh Agrawal [AR93], ont commencé à travailler sur l’exploitation du contenu des bases de données volumineuses comme par exemple celles des tickets de caisses de grandes surfaces, convaincus de pouvoir valoriser ces masses de données dormantes. Ils utilisèrent l’expression "database mining" mais, celle-ci étant déjà déposée par une entreprise (Database mining workstation), ce fut "data mining" qui s’imposa. En mars 1989, Shapiro Piatetski [PS91] proposa le terme "knowledge discovery" à l’occasion d’un atelier sur la découverte des connaissances dans les bases de données. Actuellement, les termes data mining et knowledge discovery in data bases (KDD, ou ECD en français) sont utilisés plus ou moins indifféremment. Nous emploierons par conséquent l’expression "data mining", celleci étant la plus fréquemment employée dans la littérature. La communauté de "data mining " a initié sa première conférence en 1995 à la suite de nombreux atelier (workshops) sur le KDD entre 1989 et 1994. La première revue du domaine " Data mining and knowledge discovery journal " publiée par "Kluwers " a été lancée en 1997. 1.4.2 Définition " Le data mining, ou fouille de données, est l’ensemble des méthodes et techniques destinées à l’exploration et l’analyse de bases de données informatiques (souvent grandes), de façon automa- 10 C HAPITRE 1. Le processus ECD tique ou semi-automatique, en vue de détecter dans ces données des règles, des associations, des tendances inconnues ou cachées, des structures particulières restituant l’essentiel de l’information utile tout en réduisant la quantité de données" [M.03]. D’après [Had02], la définition la plus communément admise de Data Mining est celle de [FU98] : "Le Data mining est un processus non trivial qui consiste à identifier, dans des données, des schémas nouveaux, valides, potentiellement utiles et surtout compréhensibles et utilisables". En bref, le data mining est l’art d’extraire des informations (ou même des connaissances) à partir des données [S.T02]. 1.4.3 Principales tâches de fouille de données On dispose de données structurées. Les objets sont représentés par des enregistrements (ou descriptions) qui sont constitués d’un ensemble de champs (ou attributs) prenant leurs valeurs dans un domaine. De nombreuses tâches peuvent être associées au Data Mining, parmi elles nous pouvons citer : La classification Elle consiste à examiner les caractéristiques d’un objet et lui attribuer une classe, la classe est un champ particulier à valeurs discrètes. Des exemples de tâche de classification sont : – attribuer ou non un prêt à un client, – établir un diagnostic, – accepter ou refuser un retrait dans un distributeur, – attribuer un sujet principal à un article de presse, – etc. L’estimation Elle consiste à estimer la valeur d’un champ à partir des caractéristiques d’un objet. Le champ à estimer est un champ à valeurs continues. L’estimation peut être utilisée dans un but de classification. Il suffit d’attribuer une classe particulière pour un intervalle de valeurs du champ estimé. Des exemples de tâche d’estimation sont : – Estimer les revenus d’un client. – Estimer les risques. 1.4 Fouille de données (data mining) 11 La prédiction Cela consiste à estimer une valeur future. En général, les valeurs connues sont historisées. On cherche à prédire la valeur future d’un champ. Cette tâche est proche des précédentes. Les méthodes de classification et d’estimation peuvent être utilisées en prédiction. Des exemples de tâches de prédiction sont : – Prédire les valeurs futures d’actions, – Prédire, au vu de leurs actions passées, les départs de clients. Les règles d’association Cette tâche, plus connue comme l’analyse du panier de la ménagère, consiste à déterminer les variables qui sont associées. L’exemple type est la détermination des articles (le pain et le lait, la tomate, les carottes et les oignons) qui se retrouvent ensemble sur un même ticket de supermarché. Cette tâche peut être effectuée pour identifier des opportunités de vente croisée et concevoir des groupements attractifs de produit. La segmentation Consiste à former des groupes (clusters) homogènes à l’intérieur d’une population. Pour cette tâche, il n’y a pas de classe à expliquer ou de valeur à prédire définie a priori, il s’agit de créer des groupes homogènes dans la population (l’ensemble des enregistrements). Il appartient ensuite à un expert du domaine de déterminer l’intérêt et la signification des groupes ainsi constitués. Cette tâche est souvent effectuée avant les précédentes pour construire des groupes sur lesquels on applique des tâches de classification ou d’estimation. 1.4.4 Les méthodes de data mining Pour tout jeu de données et un problème spécifique, il existe plusieurs méthodes que l’on choisira en fonction de : – La tâche à résoudre. – La nature et de la disponibilité des données. – L’ensemble des connaissances et des compétences disponibles. – La finalité du modèle construit. – L’environnement social, technique, philosophique de l’entreprise. 12 C HAPITRE 1. Le processus ECD – Etc. On peut dégager deux grandes catégories de méthodes d’analyse consacrées à la fouille de données [Fio06]. La frontière entre les deux peut être définie par la spécificité des techniques, et marque l’aire proprement dite du "Data Mining". On distingue donc : A. Les méthodes classiques : On y retrouve des outils généralistes de l’informatique ou des mathématiques : – Les requêtes dans les bases de données, simples ou multicritères, dont la représentation est une vue, – les requêtes d’analyse croisée, représentées par des tableaux croisés, – les différents graphes, graphiques et représentations, – les statistiques descriptives, – l’analyse de données : analyse en composantes principales, – etc. B. Les méthodes sophistiquées : Elles ont été élaborées pour résoudre des tâches bien définies. Ce sont : – Les algorithmes de segmentation, – les règles d’association, – les algorithmes de recherche du plus proche voisin, – les arbres de décision, – les réseaux de neurones, – les algorithmes génétiques, – etc. 1.4.5 Différents types de base de données Nous avons vu précédemment que le choix d’une technique de fouille de données (data mining) dépend des objectifs de l’extraction des connaissances (description, prédiction, classification. . .), mais certaines techniques sont également plus adaptées à certaines données, comportant des informations caractéristiques. Il est donc important d’identifier quelques types de base de données. – Les bases de données relationnelles regroupent un ensemble de données stockées dans des tables et décrites par un ensemble d’attributs. Généralement, la fouille de données dans de telles bases a pour but de découvrir des schémas de tendances. – Les bases de données de transactions, quant à elles, sont une collection d’enregistrements 1.5 Conclusion 13 de transactions assimilables à des achats de supermarché. L’analyse de ces données consiste alors à trouver des corrélations entre les éléments (items) des transactions enregistrées dans les bases de données temporelles, – enfin les données relationnelles sont associées à un attribut temporel. Les algorithmes de fouille de données utilisés sont alors pour objectifs d’extraire des motifs périodiques, des épisodes ou encore des motifs séquentiels. – Les bases de séquence de données sont des bases de données temporelles particulières. Il s’agit en fait de base de données relationnelle ou de transaction dans lesquelles les enregistrements peuvent être organisés en séquences d’événements ordonnés selon une notion de temps (ordre chronologique), concrète ou non (e.g .achats de clients dans un supermarché, apparition de mots dans un texte, logs de navigation Internet) On peut y rechercher différents types de motifs : – Des schémas d’évolution des attributs au cours du temps, afin d’analyser les tendances – Des séquences qui ne diffèrent que légèrement les unes des autres, pour déceler des similitudes, – Des motifs séquentiels, afin de trouver les relations entre les occurrences d’évènements séquentiels. – Des motifs périodiques, afin de caractériser des successions d’évènement récurrents et répétés dans les séries temporelles. 1.5 Conclusion Dans ce chapitre, nous avons exposé le processus ECD et ses différentes étapes en général, et la fouille de données et les techniques utilisées pour extraire l’information utile et les différentes sortes de données. Nous avons tirés quelques conclusions : 1. Le choix du la technique utilisées dépend de l’objectif de l’utilisateur (description ou prédiction). 2. Certaines techniques d’extraction des connaissances sont plus adaptées à certains types de données. 14 C HAPITRE 1. Le processus ECD Chapitre 2 L’information imparfaite 2.1 Introduction L’objectif de ce chapitre est de définir l’information imparfaite, les types de l’imperfection de donnée, les causes et les conséquences liées à l’existence des données imparfaites. Nous présentons également quelques modèles et langages pour modéliser l’imprécision de données. Parmi les caractéristiques du raisonnement de l’être humain est qu’il est habile au comportement avec l’information incomplète et incertaine. Dans la vie courante, l’homme se confronte souvent à faire des décisions et des actions dans des situations dans lesquelles l’information imparfaite (imperfect) est la seule information disponible, est il est impossible d’obtenir l’information complète et certaine, car peut être elle n’existe pas. Vu l’habilité et le comportement naturel de l’être humain et sa capacité de prendre des décisions en présence d’une grande masse d’informations imparfaites (incomplètes, incertaines ou imprécises. . .), l’automatisation de traitement de ce type d’information à fait l’objet plusieurs recherches dont l’objectif était proposer des modèles et méthodes pour représenter et manipuler l’information incomplète et incertaine pour faire face à des situations réelles (real DB). A la rencontre d’une information imparfaite, la première chose est de donner un "sens" à cette information. Si la connaissance sur le monde réel est incomplète et incertaine, plusieurs scénarios et états sont possibles avec l’information complète incertaine, mais on ne connais pas lequel qui représente l’état réel du monde. Donc une base de données qui contient des informations incomplètes et / ou incertaines représente implicitement un ensemble d’états possibles et une description proche de la réalité. 16 C HAPITRE 2. L’information imparfaite Introduire une information incomplète et incertaine dans la base de données cause un problème inhérent de la manipulation d’une telle information, interrogation de la base, construction des requêtes, le contrôle et la mise à jour de la base doit tenir en compte la connaissance imparfaite. Ce problème peut être décomposé en différents aspects : 1. Déterminer les sources et les types d’incomplétude et d’incertitude présentes dans les BDs. 2. Déterminer le formalisme ou le modèle permettant de la représentation des informations incomplètes et incertaines. 3. Déterminer les algorithmes d’interrogation et de recherche dans la base tenant en compte l’incertitude et l’incomplétude des informations. 4. Déterminer les algorithmes et les techniques d’extractions des règles et des modèles des motifs à partir des informations incomplètes et incertaines. Dans cette section nous examinons plusieurs questions fondamentales concernant l’imperfection de description notamment les différents types d’imperfection, les différents effets de ces types (incomplétude, incertitude, imprécision) les différentes causes de l’imperfection de l’information et les différents problèmes liés en présence des données imparfaites. Enfin, nous donnons, avec des exemples, les modèles qui permettent de représenter les informations imparfaites. 2.2 Les type d’imperfection des données Beaucoup de tentatives ont été faites pour classifier les divers types possibles d’information imparfaite. Nous notons que d’autres types d’imperfection ont été observés comprenant l’imprécision et l’ambiguïté mais ils ne sont pas importants pour les systèmes d’information. 2.2.1 L’erreur (l’information incorrecte) C’est le type le plus simple d’information imparfaite. L’information stockée est incorrecte quand elle est différente de l’information vraie. Une contradiction est que le même aspect du réel est représenté par plusieurs représentations et que ceci pourrait être dans la même information ou dans différents informations qui sont considérés ensemble. Quand les différentes représentations sont irréconciliables l’information est contradictoire. 2.2 Les type d’imperfection des données 2.2.2 17 L’information Imprécise Elle correspond à une difficulté dans l’énoncé de la connaissance, soit parce que des connaissances numériques sont mal connues, soit parce que des termes du langage naturel sont utilisés pour qualifier une caractéristique du système de façon vague. Le premier cas est la conséquence d’une insuffisance des instruments d’observation (2000 à 3000 manifestants), d’erreurs de mesure (poids à 1% près) ou encore de connaissances flexibles (la taille d’un adulte est environ entre 1.50 et 2 mètres). Le second provient de l’expression spontanée de connaissances (température douce, grand appartement, proche de la plage) ou de l’utilisation de catégories aux limites mal définies (enfant, adulte, vieillard). L’information est imprécise dénote un ensemble de valeurs possibles et la valeur réelle est l’un des éléments de cet ensemble de valeurs. Donc, l’information imprécise n’est pas incorrecte et ne compromet pas l’intégrité d’information. Les types spécifiques d’information imprécise incluent l’information disjonctive. Exemple : l’âge de John est 20 ou 30, est une information disjonctive. L’information négative, exemple l’âge de Johns n’est pas de 23. Intervalle. exemple, l’âge de John est entre 20 et 25 or l’âge est John est plus de 20, L’information avec des marges d’erreur, exemple : l’âge est 34 ±2. Les deux cas extrêmes d’imprécision sont des valeurs précises et les valeurs manquantes (nulles). Une valeur est précise quand l’ensemble de possibilités est un singleton, une valeur manquante (nulle) dénote habituellement qu’aucune information n’est disponible. La valeur nulle pourrait être considérée en tant qu’information imprécise où l’ensemble de valeurs possibles est le domaine entier des valeurs légales. Généralement, la valeur manquante est représentée par le symbole " * " ou " ? ". 2.2.3 L’information incomplète L’information est dite incomplète si elle contient au moins une valeur manquante, dans ce cas on a uniquement une connaissance partielle du réel perçu. Les incomplétudes sont des absences de connaissances ou des connaissances partielles sur certaines caractéristiques de l’objet. Elles peuvent être dues à l’impossibilité d’obtenir certains renseignements (fichiers de malades dans lesquels certaines rubriques ne sont parfois pas remplies) ou à un problème au moment de la captation de la connaissance (image avec une partie cachée). 18 C HAPITRE 2. L’information imparfaite Elles peuvent aussi être associées à l’existence de connaissances générales sur l’état d’un système, habituellement vraies, soumises à des exceptions que l’on ne peut pas énumérer ou prévoir, selon les cas, (" généralement, Pierre est à son bureau tous les jours ", sauf s’il est malade ou si un événement grave survient dans sa famille). Elles sont généralement liées à l’existence de connaissances implicites, par exemple dans une recherche d’information auprès d’experts. Ces imperfection ne sont pas exclusives l’une de l’autre et l’incomplétude est toujours ramenée à l’imprécision. 2.2.4 L’information incertaine Parfois notre connaissance du réel (précis ou d’imprécis) ne peut pas être énoncée avec confiance ou garantie absolue. L’information énoncée avec l’incertitude (probabilité ou possibilité) n’est pas incorrect et ne compromet pas l’intégrité de l’information. Bien que l’information : l’âge de John et 20 ou 24 est information imprécise, l’information : l’âge est probablement 20 est une information incertaine, dans quelques cas, le degré de la certitude est donnée ; l’âge de John est 32 avec une probabilité de 0.6 et 33 avec une probabilité de 0.4. Une autre catégorie de l’incertitude est l’information floue(Fuzzy). Un exemple : " le bateau Mirage à une possibilité égale à 1 à être en mer méditerranéenne et a une possibilité égale à 0.75 à être en mer atlantique ". L’information floue appartient à théorie de l’ensemble flou (fuzzy set) et la logique floue développée par Zadeh . L’imprécision et l’incertitude sont deux notions très liées, on peut dans quelques cas modéliser l’imprécision par l’incertitude et vice versa, plus que l’information est précise, plus qu’elle est incertaine (par exemple : je suis sur que la note est entre 10 et 12, mais je ne suis pas certain qu’elle est 11, ou bien je suis certain que je serais à l’université l’après midi, mais je ne suis pas sur que je serais là à 13 h.30 min.) si la valeur précise (mais pas certaine) est entourée par d’autres valeurs possibles ceci incrémente la certitude, mais l’imprécision sera importante également (exemple : la valeur nulle). Bouchon Meunier affirme que la solution la plus satisfaisante réside dans une préservation des imperfections jusqu’à un certain point, qui permet de ne pas perdre une information intéressante, mais de parvenir à une représentation facilement manipulable de façon automatique [AM]. C’est un tel équilibre entre préservation de l’imperfection et traitement simple de l’incertitude que l’on doit rechercher. 2.3 Les causes d’imperfection des données 2.3 19 Les causes d’imperfection des données Cette imperfection des connaissances est due à plusieurs raisons. Bouchon Meunier, en cite deux : 1. L’obtention des connaissances à partir du réel s’effectue en deux étapes : l’observation et la représentation. La première se produit à travers des intermédiaires instrumentaux ou humains qui sont généralement soumis à des erreurs, des imprécisions et des incertitudes. La seconde étape est celle de la représentation de ces connaissances. Autant l’observation que la représentation entraîne une perte d’information d’autant plus grande que le système est complexe. 2. L’absence de rigueur ou la flexibilité inhérente au système lui-même et à son fonctionnement, c’est le cas pour toutes les caractéristiques de phénomènes naturels tels que la durée de maturation d’un fruit, la taille d’un animal adulte, le passage progressif et non strict du jour à la nuit ; c’est aussi le cas de certains systèmes artificiels, tels que la charge maximale d’un ascenseur, indiquée en kilogrammes dans un souci de simplicité mais à laquelle on peut ajouter quelques grammes sans problème majeur où le nombre maximal de voyageurs que peut contenir un wagon de métro, dépendant du degré de compression accepté par les passagers [AM]. Beaucoup de travaux qui montrent l’effet et l’importance des problèmes liés a la présence des valeurs imparfaites et présentent les approches pour prendre en considération l’incertitude de ces donnés lors d’un processus d’extraction de données ECD notamment lors de l’étape du prétraitement des données. Le premier problème est classique dans le domaine des bases de données. Celles-ci proviennent généralement de processus réels d’acquisition, concernant par exemple des données médicales humaines ou des résultats de sondages. Dans ce cadre, il n’est pas toujours possible d’obtenir une mesure relative à un examen qui n’a pas été pratiqué (par exemple quand le patient n’est pas en état de le supporter) ; ou la réponse à une question posée, car les sondés n’ont pas toujours une opinion à exprimer (ou ne le souhaitent pas) ni la patience de le faire. Codes invalides, attributs inapplicables, Il peut également s’agir d’attributs dépendants d’autres attributs, dont certains sont non renseignés. Domaine industriel : Les informations peuvent être manquantes car inaccessibles e.g. défaillance de capteur, débordement de capacité d’un tampon mémoire remis la valeur à zéro. . . 20 C HAPITRE 2. L’information imparfaite Le temps manque pour collecter un résultat d’examen ou encore le patient n’est pas en état de le supporter. Un autre exemple concerne les sondages d’opinion, que les interviewés prennent rarement la peine de remplir complètement. La fusion de données en provenance de plusieurs sources, pour des raisons d’incompatibilité entre les différents formats. Différents mesures (exemple : mesurer une période de temps : par minutes dans une base de données et par secondes dans une autre base de données). . . Cas d’oublie ou manque de soins lors de la saisie des enregistrements Dans d’autres cas les imperfections sont le résultat des restrictions imposées par le modèle. Par exemple si le schéma de base de données laisse stocker au plus deux métiers par employé. L’incertitude apparaît également comme un résultat des estimations ou dans les manipulations stochastiques de l’information, donc on peut avoir une distribution probabiliste ou une distribution de possibilistes des valeurs dont un inconnu attribut peut prendre. Des erreurs système comprenant le bruit de transmission d’erreurs d’entrée retarde en traitant des imperfections de transactions de mise à jour du logiciel système et données. Dans le domaine de l’économie par exemple, manipuler une situation en présence des informations incomplètes et/ ou incertaines et très important et critique, par exemple, les valeurs de quelques paramètres peuvent être inconnues, et il sera nécessaire d’introduire soit les valeurs possibles, soit les valeurs ’par défaut’ pour faire des simulations des différents scénarios économiques. Ces données sont donc régulièrement entachées de valeurs manquantes. Si la communauté des bases de données a produit de nombreux travaux sur le sujet, les contributions dans le domaine de la fouille de données sont plus rares. 2.4 Problèmes liés en présence des valeurs manquantes ou imprécises Les problèmes liés â la détection des valeurs manquantes ne doivent pas être traitées de la même façon que des attributs volontairement non renseignés. A l’inverse, dans certains cas, les valeurs inconnues, inapplicables ou encore non spécifiées sont encodées comme des valeurs valides. Les problèmes liés aux imperfections de données : – Aide à la décision. – Reconnaissance de formes. 2.5 Quelques représentations des informations imparfaites 21 – Prédiction. – Extraction des connaissances descriptives. – Manipulation des données (MAJ, transformation, requête. . .) 2.5 Quelques représentations des informations imparfaites Plusieurs langages ont été développés et utilisés pour modéliser et prendre en charge ces imperfections de l’information, dont la plus ancienne et la plus utilisée est, certainement, la théorie des probabilités. Cette théorie s’adresse aux incertitudes et expériences de nature aléatoire. Une situation où l’on envisage d’utiliser une modélisation par les probabilités implique concrètement l’identification d’une distribution de probabilités. Or, on est souvent dans l’incapacité de déterminer avec précision la distribution de probabilité appropriée[AM]. Les incertitudes ne sont pas toujours de nature aléatoire. Elles sont souvent dues à des imprécisions ou à des incomplétudes. 2.5.1 Bases de données probabilistes Les systèmes d’information probabilistes représentent l’information avec des variables et leurs distributions de probabilité dans un cadre apparenté la valeur de l’attribut particulier A pour un tuple spécifique t est une variable A(t) et cette variable a une PA(t) .PA(t) associée de distribution de probabilité assigne des valeurs dans l’intervalle (0, 1) aux éléments du domaine de l’attribut A avec la condition que la somme de toutes les valeurs assignées est 1. Un exemple d’une valeur probabiliste est la variable l’âge de John et cette distribution de probabilité : ( Page (jhon) = 32 0.6 33 0.4 L’interprétation de cette information est : l’âge de John est 32 avec une probabilité de 0.6 et 33 avec une probabilité de 0.4, sinon 0. A noter que cette information est incertaine et imprécise en même temps : incertaine car elle est probable et imprécise puisque elle contient deux valeurs possibles (32,33). Cette représentation des données est convenable pour certains cas : aide à la décision, prédiction, car elle permet des opérations de combinaisons entres plusieurs sources d’informations. 22 C HAPITRE 2. L’information imparfaite 2.5.2 La théorie des ensembles approximatifs Rough(approximate) set theory La théorie des ensembles approximatifs est une approche mathématique puissante qui traite les données manquantes, imprécises et incertaines. Elle est appliquée en plusieurs domaines :banque, médecine, diagnostic, aide à la décision et en data mining (clustering, règles de décision). Cette théorie a été introduite par Zdzislaw Pawlak en 1982 est basée sur les notions suivantes : indescernibility (similarité), l’approximation (lower, upper), reduct, core. . . La notion de base de cette théorie est l’indescernibility : à chaque objet de l’univers de discours une quelques information est associée (données, connaissance). Les objets caractérisés par les mêmes informations sont indiscernables (similaires) vue les informations disponibles relatives à ces objets. Avec chaque ensemble approximatif (imprécis) est associés deux ensembles exacts, lower approximation, upper approximation. C’est l’idée de base : si on ne peut pas définir un objet exactement (puisque par exemple, l’information disponible ne le permet pas), on peut néanmoins le délimiter par deux limites (bornes) inférieure et supérieure. La figure 2.1 montre l’ensemble imprécis X et ses bornes min et max. F IGURE 2.1 – L’approximation de l’ensemble X 2.5 Quelques représentations des informations imparfaites 2.5.3 23 Le modèle flou Développée par [Zad65] a été un cadre précurseur. Un autre cadre théorique très séduisant est certainement la théorie des fonctions de croyance. Elle permet dans un même formalisme d’encoder l’imprécision et l’incertitude contenue dans une information. Loin d’être binaire, la pensée humaine n’est pas toujours aisément modélisable par un programme informatique et parfois des outils permettant de raisonner avec des termes nuancés sont très utiles. Par ailleurs, les bases de données du monde réel contiennent souvent de nombreuses imperfections : des informations non renseignées (incomplétudes), des données erronées (incertitudes) ou encore des données imprécises. Il est important de proposer des techniques permettant de détecter ces données afin de les corriger ou des méthodes de fouille dont les résultats restent fiables malgré les différentes imperfections des données exploitées. C’est pourquoi la théorie des sous-ensembles flous a largement été employée et de nombreux algorithmes de data mining ont désormais leurs extensions floues. Ils permettent ainsi de répondre à des problématiques plus larges et souvent de faciliter l’interprétation des résultats par l’utilisateur final en fournissant des schémas approximatifs robustes aux imperfections et utilisant des termes linguistiques. Les ensembles flous permettent de représenter des classes d’éléments dont la frontière entre appartenance et exclusion n’est pas brutale mais graduelle. Ils dérivent de la logique floue et permettent d’obtenir des règles dont la conclusion est de nature probabiliste. Une des caractéristiques du raisonnement humain est qu’il est basé sur des données imprécises, ou incomplètes .Ainsi déterminer si une personne est de petite ou de grande taille est facile sans nécessairement connaître sa taille. Supposons que la limite soit de 1 m 65, une personne à une taille de 160 cm. Est-elle de taille grande ou petite ? Une réponse " floue " peut être : " la personne est 0.8 grande et 0.2 petite ". L’idée de la logique floue est de transmettre cette richesse du raisonnement humain à un ordinateur et de traiter ainsi des croyances subjectives ou de résoudre le problème posé par les connaissances imprécises et vagues. Le concept de base de la théorie des ensembles flous est l’ensemble flou. Un ensemble flou F est un ensemble d’éléments dans lesquels chaque élément a une valeur associée dans l’intervalle (0-1) qui dénote degré de son appartenance à l’ensemble. Un exemple d’un ensemble flou est F = 30/1.0, 31/1.0, 32/1.0, 33/0.7, 34/0.5, 35/0.2 24 C HAPITRE 2. L’information imparfaite Les éléments dans les ensembles 30, 31 et 32 sont avec un degré d’appartenance égale à 1. Les éléments dans les ensembles 33, 34 et 35 sont avec un degré d’appartenance égale à 0.7, 0.5, 0.2 et les autres éléments non mentionnés ont un degré d’appartenance égale à 0. Plusieurs modèles des bases de données ont été basés sur la théorie des ensembles flous. Le modèle le plus simple fait une extension des relations qui sont des sous-ensembles d’un produit cartésien des domaines aux sous ensembles flous. Ainsi chaque tuple dans une relation est associé à une degré d’appartenance. Par exemple : le tuple (Pascal, John) appartient à la relation Prociency (langue, Programmer) avec un degré d’appartenance associé égale à 0.9. Associer un degré d’appartenance pour chaque tuple peut être considéré comme un rapport de l’incertitude. Dans cette interprétation les degrés d’appartenance indiquent la force de l’association entre les composants du tuple. La théorie de possibilité est basée sur la théorie des ensembles flous ,dans une bases de données relationnelle ,la valeur d’un attribut particulier A pour un tuple t du spécifique est une variable at et cette variable a une distribution des possibilités associée Pi (at). Pi (at) assigne des valeurs dans l’intervalle (0-1) aux éléments du domaine de l’attribut A. En utilisant le même exemple de l’âge de John, la distribution possibiliste : 30 1.0 31 1.0 Page (jhon) = 33 0.7 34 0.5 35 0.2 L’interprétation de cette information est qu’il est complètement possible que l’âge de John est 30,31 ou 32 il est très possible que ce soit 33 qu’il est légèrement possible que c’est 34 il est à distance possible que ce soit 35 et il est complètement impossible que c’est n’importe quel autre âge. 2.6 Les types de données Dans ce paragraphe, nous décrivons les types de données dans une base d’apprentissage. Nous pouvons diviser le type d’un attribut en deux grandes catégories : 2.6 Les types de données 25 Quantitative (Numérique) : Si l’ensemble des valeurs qu’il peut prendre est un ensemble de nombres, fini ou infini, ou un intervalle de valeurs réelles. Un attribut X numérique peut être discret ou continu selon sa nature : – Continu : Si l’ensemble des valeurs qu’il peut prendre est réel ou un intervalle réel. Il s’agit donc d’un ensemble infini non dénombrable : on ne peut pas énumérer systématiquement l’ensemble de tous les points d’un intervalle réel. Par exemple, X peut être l’âge d’une personne prise au hasard, sa taille, son poids, etc. – Discret : Si l’ensemble des valeurs qu’il peut prendre est un ensemble numérique ni (comprenant un nombre ni d’éléments) ou un ensemble infini dénombrable (comprenant une infinité de nombres que l’on peut énumérer). Qualitative (symbolique) : Si l’ensemble des valeurs qu’il peut prendre est non numérique. X peut être par exemple la couleur des yeux d’une personne prise au hasard, sa région de naissance, son sexe, etc. D’autre part, une donnée numérique ou symbolique peut être ordinale (<, >) si ses valeurs sont ordonnées. Par exemple, l’attribut dont les valeurs sont bien, très-bien, excellente est un attribut ordinal symbolique ; l’attribut dont les valeurs sont 1, 2, 3, 4, 5 est un attribut ordinal numérique (discret). De plus, si les valeurs d’un attribut discret ou symbolique sont binaires, on parle d’un attribut binaire, par exemple l’attribut symbolique sexe qui prend les valeurs masculin, féminin ou un attribut discret qui prend les valeurs 0,1. Un attribut symbolique est dit nominal si l’ordre n’est pas important, comme le groupe sanguin (A, B, AB, O) ou l’état civil (marié, célibataire, divorcé, veuf). Un attribut quantitatif discret peut être traité comme une variable qualitative en considérant chaque valeur de l’attribut comme une modalité. Si les attributs dans la base d’apprentissage sont continus, on applique des méthodes de discrétisation pour les rendre discrets. On considère deux types des valeurs manquantes : – Valeur manquante aléatoire : lorsqu’elle affecte indifféremment toutes les valeurs d’un attribut. Exemple : Une erreur de transmission, un oubli à la saisie, une impossibilité d’effectuer une mesure suite à la panne d’un appareil. – Valeur manquante non aléatoire (informative) : lorsqu’elle affecte uniquement une certaine valeur d’un attribut. Exemples : un four qui tombe en panne dès que la température de 500 degrés Celsius est dépassée. Seules les valeurs supérieures à ce seuil sont manquantes. La 26 C HAPITRE 2. L’information imparfaite valeur de température est dépendante de la panne du four. 2.7 Les méthodes de traitement des données manquantes. Plusieurs possibilités sont envisageables afin de gérer les valeurs manquantes et imprécises lors du pré- traitement. 1. ne rien faire ; lorsque la proportion de valeurs imparfaites de l’échantillon est faible (5%). 2. utiliser uniquement les enregistrements pour lesquels les données sont complètes et précises : c’est la solution la plus simple (c’est la procédure prise par défaut par la plupart des applications statistiques). Cette méthode n’est appropriée que si les valeurs manquantes sont rares, car si le taux des valeurs manquantes est élevé, la perte d’information résultant de la suppression des données incomplètes n’est pas acceptable. De plus, la représentativité de l’échantillon n’est plus garantie, étant donnée la réduction du nombre d’enregistrements conservés pour l’analyse [Hui00]. 3. c’est une variante de la méthode précédente qui utilise l’observation incomplète lorsque la variable concernée n’est pas manquante. Exemple : Soit une table de données avec cinq variables et cinq observations. Cette table sera utilisée dans les exemples suivants. Le symbole "*" désigne que la valeur est manquante. A B C D E 4 7 * 2 * 44 * 10 7 4 * 1 2 3 3 7 4 9 * 7 6 12 41 7 * 20% 20% 20% 20% 40% TABLE 2.1 – Table de données univariée Analyse univariée dans ce type d’analyse, l’étude est faite sur chaque variable à part. Par exemple, la valeur de l’attribut A est manquante dans la ligne 3 ,donc le taux de manque est 1/5 = 20%, par contre la valeur de l’attribut E est manquante dans les deux lignes 1 et 5, donc le taux de manque est 2/5 = 40%. 27 2.8 Les méthodes d’imputation A B C D E 4 7 * 2 * 44 * 10 7 4 * 1 2 3 3 7 4 9 * 7 6 12 41 7 * TABLE 2.2 – Table de données multi variée Analyse multivariée : le même exemple. Toutes les observations sont incomplètes, donc aucune d’entre elles ne sera utilisée. Par contre si on utilise la méthode des enregistrements incomplets ; Si on veut calculer la moyenne de la variable A, on peut utiliser les observations 1et 2 et 4 et 5 (l’observation 3 est manquante). Pour la variable B, on peut utiliser les observations 1et 3 et 4 et 5 (l’observation 2 est manquante). Pour la variable E, on peut utiliser les observations 2et 3 et 4 (1 est 5 sont manquantes). Dans ce cas une méthode de traitement est nécessaire pour : 1. compléter les données manquantes. 2. filtrer les données imprécises. 3. éliminer les données bruitées Nous allons décrire les différentes méthodes d’imputation les plus connues : 2.8 2.8.1 Les méthodes d’imputation Définition Le terme imputation désigne la procédure de remplissage des données manquante par une ou plusieurs valeurs plausibles. On distingue deux types d’imputation : simple et multiple. 2.8.2 L’imputation simple On remplace chaque valeur manquante par une donnée prédite ou simulées et l’analyse portera 28 C HAPITRE 2. L’information imparfaite sur tous les enregistrements. L’effet est de produit une valeur ’artificielle’ pour remplacer la valeur manquante. La solution de choix pour traiter la non réponse partielle est l’imputation, qui produit une " valeur artificielle " pour remplacer la valeur manquante. Contrairement aux méthodes de repondération, l’imputation permet d’utiliser un poids unique associé à chaque individu, si bien que les résultats de diverses analyses seront nécessairement cohérents. L’information disponible sur les individus qui ne fournissent qu’une réponse partielle peut être utilisés comme variables auxiliaires pour améliorer la qualité des valeurs imputées. Les méthodes courantes d’imputation incluent l’imputation par la moyenne, par le ratio, par régression, par hot deck aléatoire et par plus proche voisin. En voici la description. L’imputation par la moyenne / mode. Cette méthode est la plus simple et la plus utilisée. Elle consiste à remplacer d’une valeur manquante par la moyenne des valeurs disponibles (attribut continus) ou le mode (la valeur la plus fréquente pour l’attribut nominal). Pour réduire l’influence des cas extrêmes (bruits) en peut utiliser la médiane (la valeur qui divise la population triée en deux parties). Représentons par U une population de taille N. Nous voulons estimer la moyenne de population n X yi Y = N i=1 À cette fin, nous tirons un échantillon aléatoire simple de taille n et observons chaque valeur . Il est bien connu que la moyenne d’échantillon Y = n X yi i=1 n Y est un estimateur non biaisé de en cas de réponse complète. En cas de non réponse, il est impossible de calculer la moyenne puisque certaines valeurs de y sont manquantes. Effet Selon Little et Rubin [RD02], la valeur imputée est la même pour toutes les valeurs manquantes d’une même variable (constante), ça pose un problème de changement de la structure de la BD et les relations entre les variables s’il sont en forte corrélation : 1. la variance est sous estimée, 2.8 Les méthodes d’imputation 29 2. la corrélation est biaisée, 3. la distribution de la variable est détruite par la création d’une nouvelle classe (chaque valeur manquante est remplacée par la moyenne). Pour cela une variante est proposée qui consiste à remplacer la valeur manquante par la moyenne (mode) des valeurs observées des objets de la même la classe dont l’objet incomplet appartient [Mag04]. Imputation par un modèle de régression Cette technique assume que la valeur d’une variable change d’une façon linéaire avec une variable. Dans ce cas la valeur manquante est remplacée par une fonction de régression linéaire. Cette technique suppose que la relation entres les variables est linéaire. Mais dans la plupart des cas cette propriété n’est pas vérifiée. Prédire la valeur manquante dans un sens linéaire engendre un modèle avec biais. La figure 2.2 illustre ce modèle. L’imputation par régression multiple C’est une extension naturelle de l’imputation par la méthode du ratio où l’on se sert de q variables auxiliaires x1 ...xq . F IGURE 2.2 – L’imputation par le modèle de régression 30 C HAPITRE 2. L’information imparfaite L’imputation par la méthode hot deck aléatoire Consiste à attribuer la valeur de y fournie par un répondant (donneur) sélectionné au hasard avec remise parmi l’ensemble de répondants pour remplacer la valeur manquant pour l’unité non répondante (receveur). L’imputation par la méthode par le plus proche voisin Dans ce cas on attribue à l’enregistrement pour lequel la réponse à une question manque la valeur figurant pour cette question dans ’enregistrement obtenu pour le répondant le plus proche, où l’expression " le plus proche " est habituellement définie par une fonction de distance basée sur une ou plusieurs variables auxiliaires. 2.8.3 Dangers de l’imputation 1. Même si l’imputation produit un fichier complet de données, l’inférence, en particulier l’estimation ponctuelle, n’est valide que si les hypothèses sous jacentes supplémentaires sont satisfaites. 2. L’imputation peut modifie les liens entre les variables. 3. Si les valeurs imputées sont traitées comme des valeurs observées, la variance de l’estimateur risque d’être considérablement sous estimée, surtout si la proportion de non réponses est appréciable. L’imputation modifie les relations entre les variables Puisque le traitement théorique des relations entre variables en présence d’imputation est relativement complexe, considérons plutôt une population de taille N = 10 et deux variables x et y. La table 2.3 contient les données sur la population. x 1 2 3 4 5 6 7 y 2 5 3 9 11 6 11 8 9 10 13 11 12 TABLE 2.3 – Table de données complètes Le coefficient de corrélation entre X et Y dans la population est : 31 2.8 Les méthodes d’imputation n X corr(X, Y ) = n X (xi − x)(yi − y) i=1 (xi − x) 2 n X 2 1/2 (yi − y) i=1 i=1 x est la moyenne de x, y est la moyenne de y . Le coefficient corr(X,Y) = 0.84. x 1 . 3 4 5 6 7 y . 5 3 9 . 6 11 . 9 . 13 . 12 TABLE 2.4 – Table de données incomplètes Dans la table 2.4, nous avons généré aléatoirement des valeurs manquantes, indiquées par " . ", indépendamment pour x et y de sorte que le taux de réponse soit d’environ 70 %. Supposons que nous recourions à l’imputation marginale par la moyenne (autrement dit, que nous imputions la moyenne des répondants ) X= n X xi i=1 N X =5 , pour remplacer une valeur manquante pour la variable x et la moyenne des réponses Y = n X yi N i=1 Y =8.42 , pour remplacer une valeur manquante pour la variable y. Le table 2.5 montre les données après imputation, avec les valeurs imputés marquées par *. x 1 y 8.42 * 5* 3 4 5 3 9 5 6 7 5* 9 5* 8.42 * 6 11 13 8.42 * 12 TABLE 2.5 – Les données après le remplissage par la moyenne Le coefficient de corrélation de x et y dans l’ensemble contenant des données imputées est 0.21 . Nous constatons que l’imputation a atténué la relation (ou l’association) entre les variables x et y et que l’effet est important (passage de 0,84 à 0,21). Si l’on traite les valeurs imputées comme des valeurs observées, la variance de l’estimateur risque d’être considérablement sous estimée, surtout si la proportion de non réponses est appréciable. Les statisticiens d’enquête ont étudié cette question extensivement ces dernières années. 32 C HAPITRE 2. L’information imparfaite Les auteurs de plusieurs articles ont insisté sur le fait que les valeurs imputées ne doivent pas être traitées comme s’il s’agissait de valeurs observées, particulièrement si le taux de non réponse est élevé. Par exemple, pour un taux de réponse de 70 % , le traitement des valeurs imputées comme s’il s’agissait de valeurs observées peut donner lieu à une sous estimation de la variance, dont l’ordre de grandeur peut atteindre 50 %. Les intervalles de confiance calculés en traitant les valeurs imputées comme des valeurs observées pourraient être plus étroits que ceux obtenus au moyen d’un estimateur correct qui tient compte de l’imputation, donc donner une impression erronée d’exactitude. Notons aussi l’importance d’identifier les valeurs imputées, comme dans le tableau 2.5, en prévision de l’estimation de la variance. En conclusion, lorsque l’on recourt à l’imputation pour tenir compte du non réponse partielle, il est important : 1. de modéliser minutieusement le mécanisme de réponse ou la variable d’intérêt afin de s’assurer que les modèles " soient valides " pour l’inférence ; 2. de calculer correctement l’estimateur de la variance de l’estimateur imputé ; et 3. d’utiliser des méthodes plus sophistiquées d’imputation et/ou d’estimation pour préserver les relations entre les variables. 2.8.4 L’imputation multiple L’imputation multiple est une méthode statistique pour remplir les valeurs manquantes et rendre une base d’apprentissage complète. L’idée de base est de remplacer la valeur manquante par plusieurs valeurs plausibles m. Dans ce cas, nous aurons m bases complètes. Chaque base sera analysée de manière identique en utilisant une même méthode standard. Ensuite, Les résultats seront combinés. Une procédure d’imputation multiple peut être basée sur des modèles explicites ou implicites. Plus le nombre k d’imputations est grand, plus les estimateurs seront précis. Pour analyser et combiner les résultats, il faut d’abord pour chaque analyse calculer et enregistrer les estimations et les erreurs standards ainsi que la variance et l’écart-type. Un test de signification de l’hypothèse nulle est également réalisé. Les buts sont : 1. De refléter correctement l’incertitude des valeurs manquantes. 2.9 Détection et traitement des points aberrants 33 2. De préserver les aspects importants des distributions. 3. De préserver les relations importantes entre les variables. Les buts ne sont pas ; 1. De prédire les données manquantes avec la plus grande précision. 2. De décrire les données de la meilleure façon possible. F IGURE 2.3 – L’imputation multiple : étape 1 2.9 Détection et traitement des points aberrants Dans le processus Data Mining, la détection et le traitement des points aberrants sont incontournables lors de la préparation des données, ou même après coup, pour analyser et valider les résultats. On parle de point aberrant (point atypique) lorsque qu’un individu prend une valeur exceptionnelle sur une variable (ex. un client d’une banque aurait 158 ans) ou sur des combinaisons de variables (ex. un athlète de 12 ans aurait effectué le 100 m en 10 secondes). Ces points sont problématiques car ils peuvent biaiser les résultats, notamment pour les méthodes basées sur des distances entre individus, ou plus dramatiquement encore, des distances par rapport à des barycentres. Il importe donc d’identifier ces individus et de les considérer attentivement. 34 C HAPITRE 2. L’information imparfaite F IGURE 2.4 – L’imputation multiple : étape 2 Exemple. Soit la table 2.6, on veut examiner l’influence des points aberrants sur les caractéristiques de la population. x 1 2 3 4 5 6 7 8 9 10 y 2 3 2 4 2 5 5 3 6 2 TABLE 2.6 – Les données de l’exemple n X yi Y = N i=1 On calcule la moyenne de la population : Pour x ,la moyenne est 5.5 ; Pour y la moyenne égale à 3.4 . Supposant maintenant que la valeur num 10 est y = 20 (voir la table 2.7). On recalcule la moyenne : Pour x = 5.5 sans changement. 35 2.9 Détection et traitement des points aberrants F IGURE 2.5 – L’imputation multiple : étape 3 x 1 2 3 4 5 6 7 8 9 10 y 2 3 2 4 2 5 5 3 6 20* TABLE 2.7 – Les données avec un bruit Pour y, il devient 5.2. Il est utile d’identifier le problème où la source d’existence des points aberrants, on peut citer par exemple : 1. Défaillance de matériel d’acquisition (capteur..). 2. Erreur de saisie (dans l’exemple précèdent peut être la vraie valeur est 2 et on a ajouté 0 par erreur de frappe !..) , ou copier coller.. 3. Débordement de capacité de stockage.. 36 C HAPITRE 2. L’information imparfaite F IGURE 2.6 – Représentation des données x et y F IGURE 2.7 – Un point suspect (bruit) 2.9.1 Comment détecter les points aberrants Les techniques suivantes sont largement inspirées du texte sur le site de NIST 1 Le test de Grubbs Ce test repose sur la normalité de la distribution. On devrait donc tester préalablement la crédibilité de cette hypothèse. Mais lorsque l’on se rend compte que les tests de normalité eux mêmes sont sensibles aux points aberrants, on ne s’en sort plus. Voilà pourquoi on se contente au préalable de techniques graphiques simples destinées à se faire une idée de la répartition des données. 1. Disponible sur http ://www.itl.nist.gov/div898/handbook/prc/section1/prc16.htm 37 2.10 Résumé La règle de "x" - sigmas Elle consiste à déclarer comme atypique les observations s’écartant de " x " écarts types autour de la moyenne. C’est une règle très fruste. Elle est aussi basée sur une normalité sous jacente des données. On sait par exemple que pour la loi normale, 99.73% des observations sont situées dans l’intervalle : [m − 3 × σ; m + 3 × σ]. m :la moyenne de la variable. σ est l’écart type. Toute observation qui sort de cet intervalle a une très faible probabilité d’apparaître. Il faut savoir pourquoi elle est présente dans les données. La règle de la boîte de Tukey Cette technique est inspirée d’une page wikipedia 2 La boîte à moustaches(BOXPLOT) permet de représenter graphiquement la distribution d’une variable. On peut mettre en évidence les points extrêmes en utilisant une règle simple. Nous calculons le 1er quartile Q1 et le 3ème quartile Q3, nous en déduisons l’intervalle interquartile : IQ = Q3 − Q1. On dit qu’une observation est moyennement atypique (mild outlier) s’il est en delà de : LIF = Q1 − 1.5 ∗ IQ ou au delà de U IF = Q3 + 1.5 ∗ IQ (LIF : lowr inner fence, UIF : upper inner fence). Elle est extrêmement atypique si elle en deçà de : LOF = Q1 − 3 ∗ IQ ou au delà de : U OF = Q3 + 3 ∗ IQ(LOF : lower outer fence, UOF : upper outer fence). 2.10 Résumé Des analyses préliminaires des données est nécessaire pour déterminer les points suivants : – taux de données manquantes (NA) pour chaque variables 2. Le lien http ://en.wikipedia.org/wiki/Box-plot 38 C HAPITRE 2. L’information imparfaite – taux de NA par sujets ; – pourcentage de NA total ; – corrélation entre les variables ; – processus de manque (aléatoire ou informatif). Analyse des données complètes 1. Imputation simple Exige souvent un processus d’observation complètement aléatoire. 2. Imputation multiple (a) Prend en compte simultanément les problèmes de biais et de précision ; (b) Flexible ; (c) Adaptée pour des données qualitatives et quantitatives ; (d) Utilisable pour différents type d’analyse (régression linéaire, logistique. . .) Problèmes On génère plusieurs bases de données dans l’imputation multiples, chaque BD est analysée à part puis les analyses de chaque BD sont combinées pour obtenir un résultat final. Cette solution peut être lourde vu le volume des BDs dans notre contexte (data mining). 2.11 Conclusion Dans cette partie, nous avons donné quelques notions et définitions relatives à l’information imparfaite (incomplète, incertaine, incomplète) et les différents types d’imperfection ainsi les causes de ce problème, et les conséquences (extraction- manipulation...) ; avec des exemples et les modèles qui permettent de modéliser ce type d’information. Finalement, nous avons présenté les types d’informations et les mécanismes de manque des données et nous avons expliqué les différentes méthodes d’imputation statistiques et leurs limites. Tous les spécialistes s’accordent à dire que le cadre le plus adapté à la représentation et la manipulation de connaissances imprécises est celui de la théorie de la logique floue développée par Zadeh [God99]. L’idée de Zadeh était de pouvoir manipuler des informations exprimées en langage naturel. 2.11 Conclusion 39 La logique floue repose sur le concept fondamental de sous-ensemble flou qui résulte d’un assouplissement de celui de sous-ensemble d’un ensemble donné. L’appartenance ou la non appartenance n’obéit pas à la dichotomie classique d’un ensemble ordinaire mais elle est teintée d’une certaine gradualité. Ce caractère graduel répond au besoin d’exprimer des connaissances imprécises. Le problème des informations imparfaites est un problème inévitable, vu les sources de présence de ce type d’information citées précédemment. Les techniques d’extractions des connaissances doivent tenir en compte la présence des données manquantes ou incertaine ou imprécises notamment si le taux de ces données dans la base de donnés est important. 40 C HAPITRE 2. L’information imparfaite Chapitre 3 Le ECD et les données imparfaites : L’état de l’art 3.1 Introduction Le présent chapitre présente l’état de l’art des travaux permettant la prise en compte des valeurs incomplètes et imprécises lors d’une fouille de données avec les inconvénients et les limites et les contraintes posées par quelques approches. Nous introduisons les différents approches et travaux dont nous nous somme inspirés pour concevoir notre solution détaillée dans les chapitres qui suivent. Une partie de cet état de l’art est inspirée de la thèse de Celine [Fio07]. 3.2 Traitement des données imparfaites (incomplètes, imprécises ou incertaines) Différentes techniques permettent de traiter des données incomplètes. Celles-ci sont souvent spécifiques à une application ou à un jeu de données. Il existe également quelques algorithmes qui permettent la classification par arbres de décision [Qui89],[WZLB97], [WF00], règles de décision [BH97], [BH98] ou clustering, de jeux de données incomplets [HTK03],[HK99]. Dans le cadre de la recherche de règles d’association, [RC99, RC98] présentent un algorithme afin de traiter les valeurs manquantes. Celui-ci ne fait pas intervenir la logique floue, mais divise la base de données en sous-ensembles complets. Par ailleurs, si la logique floue permet dans certains domaines de traiter les incomplétudes, dans le cadre de la découverte de règles d’association et 42 C HAPITRE 3. Le ECD et les données imparfaites : L’état de l’art de motifs séquentiels, l’introduction de la logique floue dans les algorithmes d’extraction a permis de traiter un nouveau type d’attributs, les attributs quantitatifs [SA96, AFSS98, CMKH98], [YCHC04]. [Pea06] souligne notamment les problèmes liés â la détection des valeurs manquantes qui ne doivent pas être traitées de la même façon que des attributs volontairement non renseignés. A l’inverse, dans certains cas, les valeurs inconnues, inapplicables ou encore non spécifiées sont encodées comme des valeurs valides. Selon le type de valeurs manquantes que l’on rencontre, leur traitement devra être adapté [Pea06],[Wri98]. De plus, de nombreux algorithmes de fouille nécessitent ce prétraitement spécifique des données incomplètes. Il apparaît donc nécessaire, dans un premier temps, de détecter s’il y a une raison pour que la valeur soit inconnue et si l’ignorer peut détruire une information potentiellement utile. Il est intéressant également de détecter si l’enregistrement est utile ou non, et on ne traitera les valeurs manquantes que lorsque ce sera nécessaire. Plusieurs possibilités sont alors envisageables afin de gérer les valeurs manquantes lors du prétraitement ; - Soit on procède à la suppression des données comportant des valeurs manquantes ou des données incomplètes et/ou à la suppression d’un attribut du jeu de données si celui-ci est souvent non renseigné. Cette méthode n’est appropriée que si les valeurs manquantes sont rares, car si le pourcentage de valeurs manquantes est élevé, la perte d’information résultant de la suppression des données incomplètes n’est pas acceptable. De plus, la représentativité statistique de l’échantillon n’est plus garantie, étant donnée la réduction du nombre d’enregistrements conservés pour l’analyse [Hui00]. - Soit on effectue un remplissage (ou complétion) des valeurs manquantes. Diverses manières sont alors possibles. Le remplissage par valeur statistique (moyenne, médiane...), difficilement applicable aux gros volumes de données, permet d’obtenir des résultats qui varient de manière importante selon l’estimation réalisée. Par ailleurs, le remplissage doit être le plus proche possible de la réalité pour éviter d’introduire un biais trop important dans les données. En effet, les résultats ultérieurs varient de manière importante selon l’estimation réalisée [HK00]. C’est pourquoi plusieurs travaux se sont intéressés à une complétion par valeurs multiples [HNJ01] ,[RD87]. Dans le but d’amoindrir les inconsistances pouvant résulter d’une complétion simple. Nous donnons en détails les solutions proposées pour traiter les données imparfaites (incomplètes, imprécises ou incertaines) par domaine : 3.2 Traitement des données imparfaites (incomplètes, imprécises ou incertaines) 3.2.1 43 Statistique Les statistiques définissent trois modèles de probabilité de valeurs manquantes [AP01] : 1. missing completely at random (MCAR), quand cette probabilité est complètement indépendante des données ; 2. missing at random, quand cette probabilité ne dépend pas des valeurs manquantes, mais des valeurs observées (par exemple, quand une pièce n’est pas défectueuse, on n’observe pas la taille du défaut) ; 3. not missing at random, quand la cause des valeurs manquantes peut-être expliquée par des relations entre les valeurs observées, mais également entre les valeurs manquantes (lorsque la taille du défaut d’une pièce n’est pas observée, d’autres paramètres connexes sont également manquants). Selon le traitement et l’analyse réalisés, il sera nécessaire d’identifier l’origine et la nature des valeurs manquantes, car certaines techniques sont bien adaptées pour le cas des données MAR mais pas pour les autres types de données et inversement. La contribution majeure des statistiques pour le traitement des données manquantes concerne l’algorithme EM (espérance/maximisation) [Lit85], qui simule les valeurs possibles cachées par les valeurs manquantes et réalise une analyse statistique combinée des résultats obtenus. Le but n’est pas de compléter les données mais de refléter correctement l’incertitude des valeurs manquantes et de préserver les aspects des distributions [NG00]. 3.2.2 Bases de données Dans le domaine des bases de données, l’expression " valeur nulle " est plus couramment utilisée que celle de valeur manquante. Les problèmes posés sont : comment effectuer des requêtes sur des bases incomplètes ? Comment élaborer des schémas, réaliser des fusions de données ? Dans [Dyr97], Curtis Dyreson répertorie 438 publications sur des thèmes très divers : Valeurs nulles, logique, exécution de requêtes, design de schémas, analyses de complexité. À l’aide d’une étude de la quantité d’articles parus par année, l’auteur montre que ce thème a émergé au milieu des années 70 et a connu une apogée à la fin des années 80. Plus récemment, des travaux ont étudié des problèmes comme celui des dépendances fonctionnelles. 44 C HAPITRE 3. Le ECD et les données imparfaites : L’état de l’art Celles-ci sont utilisées pour la rétro conception de bases de données et entre autres pour vérifier les cohérences. [LL99] examine ce cadre en présence de valeurs nulles sous l’angle de l’additivité. Les auteurs montrent que la transitivité énoncée par les axiomes fondateurs d’Armstrong [AWP02] n’est plus conservée. Ce résultat n’est pas surprenant, car les travaux de Codd [E.79] ont montré qu’on ne pouvait pas espérer étendre l’ensemble de l’algèbre relationnelle à ce type de base. Cependant, [D.02] donne des exemples en logique où, même avec des informations incomplètes, on peut répondre à des questions avec certitude. Par exemple, sans connaître le véritable emploi d’une personne, on pourra malgré tout affirmer qu’elle cotise à la Sécurité Sociale. 3.2.3 Ensembles flous et d’approximation Il existe deux extensions à la théorie des ensembles : les ensembles flous (fuzzy sets) et les ensembles d’approximation (rough sets). La théorie des sous-ensembles flous (Fuzzy Sets Theory) Développée par [Zad65] a été un cadre précurseur. Un autre cadre théorique très séduisant est certainement la théorie des fonctions de croyance. Elle permet dans un même formalisme d’encoder l’imprécision et l’incertitude contenue dans une information. Loin d’être binaire, la pensée humaine n’est pas toujours aisément modélisable par un programme informatique et parfois des outils permettant de raisonner avec des termes nuancés sont très utiles. Par ailleurs, les bases de données du monde réel contiennent souvent de nombreuses imperfections : des informations non renseignées (incomplétudes), des données erronées (incertitudes) ou encore des données imprécises. Il est important de proposer des techniques permettant de détecter ces données afin de les corriger ou des méthodes de fouille dont les résultats restent fiables malgré les différentes imperfections des données exploitées. C’est pourquoi la théorie des sous-ensembles flous a largement été employée et de nombreux algorithmes de data mining ont désormais leurs extensions floues. Ils permettent ainsi de répondre à des problématiques plus larges et souvent de faciliter l’interprétation des résultats par l’utilisateur final en fournissant des schémas approximatifs robustes aux imperfections et utilisant des termes linguistiques. Les ensembles flous permettent de représenter des classes d’éléments dont la frontière entre appartenance et exclusion n’est pas brutale mais graduelle. Ils dérivent de la logique floue et permettent d’obtenir des règles dont la conclusion est de nature probabiliste. Une des caractéristiques 3.2 Traitement des données imparfaites (incomplètes, imprécises ou incertaines) 45 du raisonnement humain est qu’il est basé sur des données imprécises, ou incomplètes .Ainsi déterminer si une personne est de petite ou de grande taille est facile sans nécessairement connaître sa taille. Supposons que la limite soit de 1 m 65, une personne a une taille de 160 cm. Est-elle de taille grande ou petite ? Une réponse " floue " peut être : " la personne est grande avec un degré de 0.8 et petite avec un degré 0.2 ". L’idée de la logique floue est de transmettre cette richesse du raisonnement humain à un ordinateur et de traiter ainsi des croyances subjectives ou de résoudre le problème posé par les connaissances imprécises et vagues. [CMKH98] propose une nouvelle définition du support et de la confiance pour les règles d’association sur des attributs quantitatifs. Ces nouvelles définitions sont basées sur l’introduction d’ensembles flous qui remplacent les items classiques. Ainsi, on ne cherchera plus des règles du type " 75 % des gens qui achètent le produit X achètent aussi le produit Y " mais " 60% des gens qui achètent beaucoup de produit X achètent peu de produit Y ". Les items ne sont plus des attributs discrets (X, Y, Z..) mais des attributs quantitatifs (beaucoup de X, peu de Y, moyen de Z...) [D.02] revient largement sur cette théorie, prolongée par [BP04], traitant également de la théorie des possibilités. Plusieurs propositions ont été formulées [CA83, AC98, AFSS98, GCK00, Gye00, TPHW00, MDV02, TPHW03], présentant les avantages d’utilisation d’intervalles flous pour le traitement de données quantitatives lors de la découverte de règles d’association. Leur principe consiste à découper chaque domaine de quantités en une partition floue. Remarque : 1. Comment générer les partitions floues (qualité de clustering dépends des techniques utilisées). 2. Comment définir la fonction d’appartenance ? 3. Perte d’informations dans quelques cas. théorie des ensembles approximatifs : the rough (approximate set theory) La théorie des ensembles approximatifs est une approche mathématique qui traite les données manquantes, imprécises et incertaines. Cette théorie a été introduite par Zdzislaw Pawlak [Paw82] en 1982 est basée sur les notions suivantes : indescernibility, (lower , upper) approximation.. 46 C HAPITRE 3. Le ECD et les données imparfaites : L’état de l’art Des algorithmes ont été proposés pour l’extraction des règles dans un système d’information incomplet sans prétraitement des valeurs manquantes. Les travaux sont basés sur la minimum et maximum (lower , upper) approximation est la notion des bornes est redéfinie pour l’extraction des règles d’association avec les attributs de décision pour calculer : le minimum /maximum support (confiance) possible afin de prédire le support [LKXj03]. Pour la tâche de classification, les ensembles d’approximation proposent des classes d’équivalence qui rassemblent les instances. Ces ensembles symbolisent des bornes (pour l’inclusion). Pour les valeurs manquantes,[GBH01] a proposé plusieurs algorithmes de classification et comparé plusieurs techniques d’imputation possibles : – remplacer par la valeur la plus fréquente ; – remplacer par la valeur la plus fréquente au sein de la classe ; – appliquer la méthode de C4.5 de traitement des valeurs manquantes, fondée sur l’entropie et qui partitionne les exemples incomplets [Qui93] ; – remplacer par toutes les possibilités ; – remplacer par toutes les possibilités en se restreignant aux valeurs possibles dans la classe ; – ignorer les exemples incomplets ; – utiliser une technique de sélection d’exemples statistiquement indépendants et compléter de façon probabiliste ; – désactiver temporairement les exemples incomplets suivant les attributs prédits ; L’auteur conclut que la meilleure méthode consiste à générer toutes les possibilités, mais est impraticable. Cette idée est exploitée par [Lat03] qui propose de décomposer la base de données incomplète en plusieurs bases complètes de dimensions différentes, formant ainsi un genre de pavage. Il fusionne les règles obtenues dans les différentes portions. L’inconvénient récurrent de ces méthodes à base d’imputation multiple est que des conflits surgissent lors de la phase d’imputation. La Théorie des fonctions de croyance (evedential theory , DS theory) Les travaux d’A. Dempster sur les bornes inférieure et supérieure d’une famille de distributions de probabilités ont permis à G. Shafer [Sha93]d’asseoir les bases de la théorie des fonctions de croyance. Ce formalisme théorique peut revêtir plusieurs interprétations et appellations (théorie des fonctions de croyance ou théorie de Dempster-Shafer). G. Shafer a montré l’intérêt des fonctions de croyance pour la modélisation de connaissances incertaines. Cette théorie est utilisée dans l’intelligence artificielle, les systèmes experts, reconnaissance 3.2 Traitement des données imparfaites (incomplètes, imprécises ou incertaines) 47 des formes comme une technique de modélisation de l’incertitude. Ce modèle est une généralisation du modèle probabiliste (bayes) car elle permet de traiter les événements non nécessairement exclusif. Ce modèle permet le traitement des probabilités où la distribution est non connue. Une fonction de masse m(x) peut être définie mathématiquement par une fonction (ou allocation) de masse, notée m définie de 2 dans [0 ;1]. Cette fonction m représente la croyance partielle affectée à une hypothèse X une fonction de croyance belief (x). Dans la littérature, on peut recenser trois familles de modèles qui font apparaître le terme fonctions de croyance : 1. le "Upper and Lower Probability Model" , 2. le "Dempster’s Model" et le "Hint Model" de Kholas et Monney , 3. le "Transferable Belief Model" introduit par Ph. Smets Les travaux de [SAH96] ont été proposés pour mettre un cadre général pour l’extraction des règles d’association en utilisant la théorie des fonctions de croyance. [HS05b] ont proposé un algorithme pour la classification des données imparfaites puis l’extraction des règles d’association en utilisant la théorie des fonctions de croyance. [MA08].ont proposé un algorithme pour l’extraction des motifs fréquents basé sur la théorie des fonctions de croyance en améliorant les algorithmes proposés [HS05a]par l’utilisation des liste (RidLists) et une représentation verticale de la base des croyances au lieu du vecteur (bit map), ce qui rend leur algorithme plus efficace et rapide. Remarque : Une des principales difficultés consiste à modéliser la connaissance disponible en initialisant de manière adéquate les fonctions de croyance. 3.2.4 Valeurs manquantes en classification et segmentation Le but de la classification est de modéliser un classifieur, c’est-à-dire un ensemble de règles permettant d’affecter des données à des classes prédéterminées. Cet ensemble de règles est obtenu à partir d’un ensemble d’apprentissage. Il s’agit donc, lors d’un processus de classification, de prendre en compte les enregistrements incomplets pendant l’apprentissage, soit par complétion [Qui89, BH98]. soit en utilisant uniquement l’information disponible [WHI87, WZLB97] ou encore en adoptant l’approche proposée par [WF00], en ne considérant pas les cas incomplets durant 48 C HAPITRE 3. Le ECD et les données imparfaites : L’état de l’art la phase d’apprentissage en calculant l’erreur engendrée par cette approximation. Ensuite, il faut également pouvoir classer les nouveaux enregistrements, qui peuvent être incomplets, soit en utilisant la classe la plus probable en fonction des informations disponibles [Qui89] soit en estimant la valeur de l’attribut non renseigné [LBS84]. 3.2.5 Règles de décision [BH97, BH98] présente un classifieur capable de traiter des enregistrements comportant des attributs non renseignés et utilisable dans trois scénarios différents : La classification avec des valeurs manquantes, le remplissage des vecteurs d’entrée et I’ apprentissage sur des données incomplètes. Apres la phase d apprentissage, on dispose d’un classifieur basé sur des règles floues pour chacune des classes possibles afin de classer un enregistrement comportant des valeurs manquantes. I’ensemble de règles définies sur l’ensemble des attributs est projeté vers un ensemble de règles n’utilisant que des attributs dont les valeurs sont connues. La classification se fait donc uniquement à partir des attributs renseignés. Ce principe peut également être utilisé pour la complétion des données incomplètes. Pour cela, on détermine à quelle classe l’enregistrement appartient le plus probablement, puis on utilise les éléments de la classe pour compléter les valeurs manquantes. 3.2.6 Arbres de décision Parmi les méthodes de classification supervisée, on trouve également les arbres de décision. Un arbre de décision est une structure arborescente, dont les feuilles représentent les classes et les nuds les caractéristiques, les chemins de l’arbre constituent les règles de classification. Lors d’une classification, on démarre de la racine de l’arbre et on le parcourt, selon les valeurs des attributs, jusqu’à avoir atteint la feuille de destination de l’objet à classer. Un arbre de décision se construit par induction, à partir d’un ensemble d’apprentissage. Cet ensemble est généralement constitué d’un ensemble d’exemples de décisions prises par le passé, chacun comportant un certain nombre d’attributs. Ainsi qu’un indicateur d’appartenance à une classe. Une fois l’arbre construit, il est utile pour prédire l’appartenance de classe d’enregistrementstests.II se pose donc deux problématiques dans le cas d’ensembles contenant des valeurs manquantes. Il existence de données incomplètes dans l’ensemble d’apprentissage et la présence d’un attribut non renseigné dans des cas-tests. Il existe différentes manières de traiter les valeurs manquantes pendant la phase de construction 3.2 Traitement des données imparfaites (incomplètes, imprécises ou incertaines) 49 de I’ arbre. Selon la technique utilisée, les effets sur la construction seront différents. On distingue trois grands principes : le traitement d’une valeur "inconnu", le remplissage des valeurs manquantes et l’omission des cas incomplets. [Qui86] propose de traiter la valeur manquante comme une nouvelle valeur pour chaque attribut et donc comme toute autre valeur que peut prendre l’attribut. L’inconvénient de cette méthode vient du fait qu’elle se prête bien à l’analyse de valeurs manquantes catégorielles, mais plus difficilement à celle de valeurs manquantes au hasard. [Qui86] présente donc également une méthode, plus appropriée dans ce deuxième cas. Celle-ci est basée sur l’idée que les cas contenant des valeurs manquantes sont distribués de manière homogène dans l’ensemble d’apprentissage et attribue un statut différent â la valeur " inconnu ". Cependant, cette méthode traite spécifiquement chacune des valeurs manquantes et ne tient pas compte de la structure de l’ensemble de données, elle n’utilise donc pas l’intégralité de l’information disponible. [WZLB97] utilise les informations disponibles (valeurs de l’attribut pour la classe, valeurs des autres attributs pour les cas de la même classe...) afin de déterminer les valeurs manquantes. Toutefois, il apparaît que cette technique n’est appropriée que pour une faible concentration de données incomplètes et un nombre limité d’attributs non-renseignés (explosion combinatoire) ; [WF00] ne considère pas les cas incomplets durant la phase d’apprentissage et calcule l’erreur engendrée par cette approximation en utilisant le nombre de valeurs manquantes sur l’échantillon et introduit une pondération pour les données incomplètes. Enfin, la génération de chemin dynamique [WHI87] permet de construire l’arbre, en commencent par l’ensemble des attributs pour lesquels les valeurs sont disponibles. 3.2.7 Clustering des données incomplètes Selon [HK99]. L’analyse de données incomplètes peut se faire grâce au clustering flou. Cette méthode nécessite toutefois de traiter les données incomplètes différemment selon l’origine des valeurs manquantes. La première étape consiste donc à analyser pour un ensemble de données les raisons de la présence de valeurs manquantes. Dans un deuxième temps, on recherche les corrélations dans la base. Comme pour le clustering. L’objectif du clustering flou est de diviser un ensemble de données en un ensemble de clusters tels que la similarité intra-classes est nettement supérieure à la similarité interclasses. Cependant, le but est de pouvoir traiter les données qui pourraient appartenir à plusieurs groupes en même temps. On introduit un degré d’appartenance aux différents clusters 50 C HAPITRE 3. Le ECD et les données imparfaites : L’état de l’art calculé en fonction de la distance entre cette donnée et le cluster. Chaque cluster peut donc être considéré comme un sous-ensemble flou. L’approche proposée dans [HK99, HTK03] consiste à adapter la formule de calcul des distances de manière à ce qu’elle puisse tenir compte des données incomplètes, ce qui permet d’omettre les valeurs manquantes, le fonctionnement général de l’algorithme restant le même. Ceci revient à considérer qu’un attribut non renseigné n’a pas d’influence sur l’affectation de l’enregistrement à un cluster et à prendre en compte la différence entre données complètes et incomplètes à l’aide d’une pondération. De plus, cette méthode permet de compléter des enregistrements incomplets en fonction du ou des clusters auxquels ils appartiennent. Cette méthode de traitement des données incomplètes par clustering flou permet de compléter des valeurs manquantes â chaque itération de l’algorithme de clustering, sur le même principe que la complétion proposée par l’algorithme Expectation-Maximization [APDR77]. De plus, pour tenir compte de la différence entre données complètes et incomplètes, on réduit le degré d’appartenance des données incomplètes. 3.2.8 Règles d’association, valeurs manquantes et complétion Dans le cadre des techniques de description, des travaux ont été proposés pour la recherche de règles d’association. [RC98, TCM07] présentent un algorithme afin de prendre en compte les données incomplètes lors de l’extraction des règles, par omission partielle et temporaire de ces enregistrements. Ces règles peuvent ensuite être utilisées afin de compléter les valeurs manquantes.[NL98, NC01] mettent en œuvre un système d’approximation probabiliste dans lequel une valeur manquante peut prendre plusieurs valeurs lors de la découverte des règles. Ces méthodes approximatives permettent d’extraire des règles proches de celles qui devraient être obtenues sur la base complète, tandis que [RC04] extrait des représentations condensée exactes. Enfin d’autres méthodes utilisent les règles d’association et certains indices de confiance afin de compléter les valeurs manquantes [CHWC04, SJTJS05]. Dans la section suivante, nous détaillons les concepts liés à la découverte de règles d’association, ainsi que le principe des méthodes de complétion qui les utilisent. Modèle probabiliste :AAR (Approximate Association Rule) Les travaux présentés dans [NC01, NL98] reposent sur une technique couramment utilisée dans les domaines de statistique et d’apprentissage. Le principe consiste à utiliser l’information 3.2 Traitement des données imparfaites (incomplètes, imprécises ou incertaines) 51 disponible (i.e. les attributs renseignés) et à estimer grâce à elle les informations manquantes, avec un certain niveau de probabilité. Ainsi, ces méthodes mettent en œuvre un système d’approximation probabiliste dans lequel une valeur manquante prend plusieurs valeurs lors de la découverte des règles. Afin de prendre en compte ces estimations, les concepts de support (pourcentage des enregistrements de la base qui contiennent tous les items de la règle) et par extension, celui de confiance (la probabilité qu’un enregistrement qui contient la partie gauche de la régie contienne également la partie droite) ont été redéfinis. La première étape de l’algorithme AAR consiste donc à remplacer chaque valeur manquante par une distribution de probabilité qui représente la probabilité pour la valeur manquante d’être chacune des valeurs possibles de l’attribut considéré. Cette distribution de probabilité est calculée par rapport i l’ensemble des données complètes pour l’attribut considéré. Robust Association Rules Des travaux ont été proposées pour la recherche des règles d’association dans les bases de donnée relationnelles incomplètes .nous présentons les travaux de [RC98, RC99] qui présentent l’algorithme RAR robut association rules. Cette méthode, complètement compatible avec la méthode originelle [RAS93], permet la prise en compte des données incomplètes lors de l’extraction des règles dans des bases de données relationnelles incomplètes, par omission partielle et temporaire de ces enregistrements. Pour cela, la base est divisée en trois parties pour chaque règle, comme également présenté par [M.00] : une partie regroupe les enregistrements contenant la règle de façon certaine, la seconde les enregistrements ne contenant pas la règle de façon certaine et la troisième contient les enregistrements pour lesquels on ne sait pas. Le principe consiste à ne prendre en compte que les attributs renseignés pour les enregistrements incomplets. La base de données entière n’est pas utilisée pour chaque règle mais pour générer l’ensemble des règles. Cette technique repose sur la définition de bases de données valides, complètes pour un ensemble d’items donnés, le reste de la base étant momentanément ignoré. Afin de prendre en compte ce partitionnement de la base, les concepts de support et de confiance ont été redéfinis. Par ailleurs, une nouvelle notion est introduite afin de tenir compte de la taille de l’échantillon complet considéré pour déterminer le support de la règle. Cette mesure de représentativité permet ainsi d’éliminer de la liste des règles celles trouvées sur une base peu significative par 52 C HAPITRE 3. Le ECD et les données imparfaites : L’état de l’art rapport à la base initiale. Un seuil de représentativité minimale. minRep, a donc été défini [RC98]. Règles d’association et complétion des enregistrements Les méthodes de complétion des données incomplètes basées sur les règles d’association fonctionnent toutes sur le même principe : les règles d’association correspondant â l’enregistrement incomplet sont retenues, puis on utilise différents indices de pertinence afin de pouvoir conclure sur une valeur de remplacement. La méthode MVC (Missing Value Completion) présentée dans [RC99] utilise les règles de grande confiance dont le conséquent pourrait être une solution pour la valeur manquante et dont l’antécédent est proche de l’itemset à compléter. Deux situations sont alors possibles : toutes les règles correspondantes indiquent la même conclusion, soit plusieurs règles concluent sur différentes valeurs. Dans ce cas, le nombre de règles concluant sur la même valeur est utilisé pour résoudre le conflit automatiquement. [CHWC04].Quant à eux, proposent d’utiliser une combinaison de plusieurs mesures pour noter les règles (score, lift, applicability ..).Cette approche repose sur l’idée que les règles d’association décrivent les relations de dépendances qui existent dans les enregistrements d’une base de données, y compris dans les enregistrements incomplets. Les règles d’association peuvent alors être utilisées pour estimer les valeurs manquantes. Pour cela, les auteurs proposent un score pour chaque régie, défini en fonction du support, de la confiance et du lift de ces règles d’association. [SJTJS05] utilisent des règles d’association dont le conséquent est un intervalle de valeurs. Ces règles ont une confiance égale à 1. Elles sont également triées selon une seconde mesure, qui permet d’attribuer un ensemble de valeurs très probables à une valeur manquante. 3.3 Conclusion Dans cette partie, nous avons présenté l’état de l’art de l’extraction de connaissances à partir de données incomplètes et imprécises, les limites et les contraintes des travaux et approches proposée. Cette exposition de l’état de l’art nous a permis de conclure les points suivants : La prise en charge des données manquantes du processus ECD peut être réalisée en deux niveaux selon les étapes du ECD : 1. L’étape pri traitement ; 2. L’étape data mining. 3.3 Conclusion 53 F IGURE 3.1 – La prise en charge des données manquantes dans le processus d’ECD Les niveaux sont mentionnés par (*) dans la figure 3.1. Il n’existe pas une approche idéale qui traite les différents types de données (incomplètes, imprécises, incertaine). On doit éviter les techniques simple de remplissage des données manquantes ou incertaines, ou imprécises, car on a aucune garantie sur la qualité de remplissage utilisée ce qui peut engendrer un bruit si les données remplies ne sont pas proches des données réelles. On doit également éviter les techniques de suppression des données manquantes ou incertaines ou imprécises, car ces données apportent une information partielle et peut être très utile pour l’extraction des connaissances. A notre avis ces données doivent contribuer comme une information supplémentaire afin d’extraire des règles proche de la réalité. En effet, comme vu dans la partie " information imparfaite ", les données imprécises, contrairement aux données incorrectes et contradictoires, ne touchent pas l’intégrité et l’homogénéité des données. Ces données imparfaites peuvent être exploitées et intégrées pour l’extraction des données. 54 C HAPITRE 3. Le ECD et les données imparfaites : L’état de l’art Chapitre 4 La similarité 4.1 Introduction Dans ce chapitre nous abordons la notion de la similarité est ses applications et ses mesures. Plusieurs approches ont été faites pour modéliser les mesures de similarité utilisées [RUE02]. Elles vont de l’utilisation des simples mesures de distances que nous allons développer, par la suite, à la définition manuelle de ces mesures avec l’aide des experts du domaine et qui tiennent compte des spécificités de ce dernier. Elles dépendent également de la description et de la représentation des cas. Ensuite nous présentons la logique floue et ses application et ses avantages par rapport à la logique classique. Ensuite nous donnons les mesures de similarité dans le contexte flou. C’est la similarité floue. Les notions de la similarité et de dissimilarité sont concepts de base pour le data mining, l’intélligence artificielle et les systèmes muti agents . . . Pour le data mining ces notions sont utilisées dans les connaissances telles que le clustering(K means), l’analyse des composantes principales. . . 4.2 Similarité et Distance Chaque individu est caractérisé par des propriétés (couleur, dimension, poids. . .). Deux individus sont identiques s’ils ont les mêmes propriétés, par contre ils sont similaires s’ils partagent presque les mêmes propriétés, sinon ils sont dissimilaires. 56 C HAPITRE 4. La similarité F IGURE 4.1 – La notion de la similarité entre deux objets (La figure 4.1) 4.2.1 Similarité Gilles Bisson définit la similarité comme étant l’opérateur qui permet d’évaluer les ressemblances et les dissemblances qui existent au sein d’un ensemble de données [Bis00]. Il subdivise la similarité en deux grandes familles ; les similarités numériques qui quantifient les ressemblances sous la forme d’une valeur dans l’intervalle [0,1] et les similarités symboliques qui permettent de caractériser les ressemblances. 4.2.2 Distance Les notions de similarité et de distance sont équivalentes et sont utilisées indifféremment pour calculer le degré de similarité entre deux objets, et donc de deux cas. En effet, pour deux cas donnés, plus sont similaires moins ils sont distants. L’évaluation de la similarité entre deux cas, décrits par un ensemble d’attributs, est souvent évaluée par la mesure de la distance entre ces deux cas à travers leurs ensembles d’attributs. Si deux individus sont séparés par une faible distance, alors ils se ressemblent. 4.2.3 Pondération des attributs Les attributs décrivant un problème n’ont pas la même importance. Cette importance variable doit se refléter dans le calcul de la similarité entre deux cas en attribuant des poids aux attributs pour décrire leur influence respective sur le résultat de la comparaison. Les attributs qui sont considérés comme les plus importants dans la résolution du problème doivent avoir des poids plus forts. La détermination des poids des attributs dans la mesure de similarité des cas a une influence significative dans l’efficacité et la justesse de la phase de remémoration [IDR03]. Dans la plupart 4.3 Les applications de la similarité 57 des cas, ces poids sont attribués, manuellement, par l’utilisateur ou l’expert ce qui ne garantit pas la remémoration des cas les plus utiles. Toutefois, plusieurs méthodes ou techniques ont été proposées telles que les méthodes statistiques, les algorithmes génétiques ou les réseaux de neurones... Quelque soit la méthode utilisée, ces poids ne sont pas statiques et doivent être continuellement, au fur et à mesure de l’utilisation du système, ajustés jusqu’à l’obtention des valeurs optimales. 4.3 Les applications de la similarité Si on peut mesurer la similarité ou la dissimilarité , alors – On peut distinguer un objet d’un autre, – On peut grouper les objets en se basant sur la similarité (k-means), – Si on peut grouper les objets dans des groupes, on peut comprendre les caractéristiques de chaque groupe, – On peut expliquer le comportement d’une classe, – On peut classer un nouvel objet, – On peut prédire le comportement d’un nouvel objet, – On peut prendre une décision basée sur la prédiction des données. 4.4 Quelques mesures de similarité La similarité est la dissimilarité (distance) peuvent être mesurées pour deux objets basée sur les différents types des variables. Cela dépend de l’échelle de mesure des variables des objets. Après que la similarité ou la distance pour chaque est déterminée, on peut combiner toutes les mesures pour former une seule similarité (distance). C’est la similarité globale. Il existe une panoplie de mesures de similarité et donc de mesures de distances, et le choix de la mesure adéquate n’est pas toujours évident. Ce choix dépend du domaine d’application, de la représentation des cas et de l’apport et de l’implication des experts du domaine. Nous pouvons citer quelques exemples des mesures de distance utilisées dans la classification et la classification automatique (clustering en englais). 58 C HAPITRE 4. La similarité 4.4.1 Distance euclidienne La distance euclidienne entre deux objets x, y est la distance entre ses deux extrémités. C’est la mesure la plus utilisée et se calcule de la façon suivante : soit X = (x1 ; x2 ..xn ) et Y = (y1 ; y2 ; ..yn ) deux instances, un appartient à la base et l’autre qu’on cherche à classer. La distance euclidienne entre X et Y est D : v u n uX D(X, Y ) = t (xi − yi )2 (4.1) i=1 n : nombre d’attributs. En pratique, la racine carré n’est pas calculée dans la plupart des cas puisque les individus les plus proches restent plus proches même si la racine carrée n’est pas appliquée. 4.4.2 Distance de Manhattan La distance de Manhattan (ou de City-Block) entre deux individus demande peu de calcules et est définie comme suit : M (X, Y ) = n X (xi − yi ) (4.2) i=1 n :le nombre d’attributs. 4.4.3 Distance de Minkowski Cette distance est une généralisation de la distance euclidienne de la distance de Manhattan. Elle est calculée de la façon suivante : v u n uX r D(X, Y ) = t (xi − yi )r i=1 n :le nombre d’attributs. Si r = 1 alors il s’agit de la distance de Manhattan. Si r = 2 alors il s’agit de la distance euclidienne. A noter qu’il existent d’autres mesures de distance (X2 , corrélation , camberra . . .) (4.3) 4.4 Quelques mesures de similarité 59 Le choix de la mesure de distance est un point déterminant pour chercher les objets les plus similaires( les plus proches voisins ) ce qui influe directement sur la qualité de la classification (automatique ,supervisée). 4.4.4 Normalisation Parmi les points critiques de la distance euclidienne classique est que si un des attributs a un intervalle relativement large, il peut dominer les autres attributs. Par exemple, si une BD contient seulement deux attributs A et B , A peut avoir des valeurs de 1 à 1000, et B de 1 à 10 alors l’influence de la distance de B est toujours dominée par celle de la distance de A. C’est pour ça que les distances sont souvent normalisées par la division de la distance de chaque attribut par l’intervalle [min-max] de l’attribut pour avoir des distances dans la plage [0,1]. Les points aberrants La solution est la division de la distance par l’écart type de l’attribut au lieu de la division sur la valeur max-min. En effet, la division sur cette valeur permet à la valeur aberrante (extrême) d’avoir un effet profond de la contribution de l’attribut concerné. Par exemple, si une variable possède des valeurs dans l’intervalle [0..10 ] dans presque tous les cas mais avec une valeur exceptionnelle (et fort possible qu’elle est erronée) de 50, alors la division par la valeur max-min peut avoir presque toujours une valeurs inférieure à 0.2. Une autre solution est de supprimer un faible taux (5 % par exemple) des deux extrémités la plus élevée et la plus basse. 4.4.5 Distance euclidienne hétérogène (HEOM) Une solution pour traiter les BDs contenant les deux types de données (continue et nominal ) est d’utiliser la fonction de distance hétérogène (HEOM) qui utilise différentes fonctions de distance pour différents type de données. Cette fonction hétérogène définit la distance entre deux valeurs x et y d’un attribut a comme : da (x, y) = 1 si x ou x est inconnu overlap(x, y) si a est nominal rndif f (x, y) a 60 C HAPITRE 4. La similarité Les valeurs inconnues sont traitées par l’attribution d’une distance = 1 (maximale distance) si une des valeurs est manquante. La fonction overlap ( est différence normalisée sont définies comme suit : 0 si x = y overlap(x, y) = 1 sinon. la fonction rndif fa est définie comme : rndif fa (x, y) = |x−y| rangea La valeur rangea est utilisée pour normaliser les attributs et définie comme : rangea = maxa − mina maxa et mina sont les valeurs maximales et minimales respectivement observées de d’attribut a. Il est possible qu’un nouveau individus possède une valeur dehors cet intervalle est produire une différence supérieure de un. Bien que ces cas sont rares, une large différence peut être acceptable. La normalisation garantie que presque tous les différences sont inférieures à un. La distance totale (hétérogène) entre deux individus est calculée comme : v u m uX HOEM (X, Y ) = t d(xa − ya )2 (4.4) a=1 m est le nombre d’attributs. Cette distance élimine les effets de l’ordre des attributs continus, mais elle est trop simpliste pour mesurer la différence entre les valeurs nominales puisque elle n’exploite pas l’information supplémentaire apportée par les attributs nominaux. 4.4.6 Sélection des cas proches voisins C’est l’application de la mesure de similarité choisie du cas de l’objet à classer avec l’ensemble des cas de la base des exemples. Le résultat serait un ensemble de cas plus ou moins similaires au cas cible dont il faut prélever un certain nombre pour classer l’objet. Trois alternatives se présentent ; 4.4 Quelques mesures de similarité 61 1. prendre les cas dont le degré de similarité avec le cas cible dépasse un certain seuil, 2. prendre les k plus proches voisins , 3. la méthode mixte qui combine les deux précédentes. Méthode du seuil de similarité Dans cette méthode, un seuil α dans l’intervalle [0, 1] est utilisé pour pouvoir obtenir la liste des cas similaires, avec les valeurs de similarité correspondantes, dont le degré de similarité est supérieur ou égal au seuil α . Méthode des k plus proches voisins Cette méthode consiste à sélectionner les k objets ayant les degrés de similarité les plus élevés avec l’objet qu’on veut classer. La recherche des k plus proches objets similaires au cas cible se fait à l’aide d’un niveau de similarité a qui correspond au seuil minimum pour valider la similarité. Ce seuil α augmente au fur et à mesure que des cas plus similaires sont comparés au cas cible (le seuil A prend alors pour valeur le degré de similarité). Méthode mixte Cette méthode combine les deux précédentes méthodes ; on sélectionne un nombre k d’exemples dont le degré de similarité est supérieur ou égal au seuil minimum α . F IGURE 4.2 – Le choix de K voisins 62 C HAPITRE 4. La similarité Le choix d’une variante (k ou seuil) dépend directement du domaine étudié. Prendre k =1 risque de prendre des cas rares comme modèle de prédiction. Prendre k grand peut inclure des exemples dissimilaires dans le modèle de classification. La figure 4.2 explique le problème du choix de k voisins. 4.5 La logique floue L’homme perçoit, raisonne, imagine et décide à partir de modèles ou de représentations. Sa pensée n’est pas binaire. L’idée de la logique floue est de " capturer " l’imprécision de la pensée humaine et l’exprimer avec des outils mathématiques appropriés. La théorie des ensembles flous s’occupe de la subjectivité et de l’incertitude ou de l’imprécision. Elle trouve ses origines dans un certain nombre de constatations : La connaissance que l’être humain a d’une situation quelconque est généralement imparfaite, – elle peut être incertaine (il doute de sa validité), – ou imprécise (il a du mal à l’exprimer clairement). – L’être humain résout souvent des problèmes complexes à l’aide de données approximatives : – la précision des données est souvent inutile. – Plus la complexité d’un système augmente, moins il est possible de faire des affirmations précises sur son comportement. 4.5.1 Historique Les racines de la logique floue se trouvent dans le principe de l’incertitude de Heisenberg. Dans les années 20, les physiciens ont introduit la troisième valeur 1 2 dans le système logique binaire bivalent 0, 1. Au début des années 30, le logicien polonais Jan Lukasiewicz a développé le système logique avec trois valeurs puis l’a étendu à tous les nombres rationnels entre 0 et 1. Il a défini la logique floue comme une logique qui utilise la fonction générale de vérité, laquelle associe à une affirmation un niveau de vérité qui peut prendre toutes les valeurs entre 0 (faux) et 1 (vrai). Dans les années 30, Max Black a appliqué la logique floue aux ensembles d’éléments ou de symboles. Il a appelé imprécision l’incertitude de ces ensembles. Il a dessiné la première fonction d’appartenance (membership function) d’un ensemble flou [God99]. En 1965 Lotfi Zadeh, de l’université de Berkeley aux USA, a publié l’article " Fuzzy sets " dans 4.5 La logique floue 63 lequel il a développé la théorie des ensembles flous et introduit le terme fuzzy dans la littérature technique. L’idée de Zadeh consiste à utiliser le modèle de l’esprit humain qui dispose d’une très forte capacité pour appréhender la complexité et pour manier des notations vagues et imprécises. Cette compétence est due à l’habilité des humains à manipuler des informations imprécises et incertaines. Ainsi, Zadeh a initié le développement de la logique floue dont l’objectif principal est d’imiter les fonctionnalités de l’esprit humain. Il résume l’objectif de la logique floue par "The construction of smarter machines ". Aussi, Dubois et Prade, qui sont parmi les pionniers de la logique floue, affirment ils : "The main motivation of fuzzy set theory is apparently the desire to build up a formal, quantitative framework that captures the vagueness of human knowledge as it is expressed via natural language"[God99]. Depuis, la logique floue s’est confirmée comme étant un outil adéquat pour le traitement des imprécisions et des incertitudes dans les systèmes intelligents. Au niveau industriel, les différentes applications de la logique floue ont bien montré son utilité dans beaucoup de domaines tels que la robotique et le contrôle des automatismes de processus. Dans les sections suivantes de ce chapitre, nous présentons les concepts principaux de la logique floue que nous utiliserons dans notre travail. 4.5.2 Théorie des sous-ensembles flous Notion d’ensemble et de sous-ensemble flou Une des notions fondamentales dans les mathématiques est la notion d’ensemble, créé par le mathématicien Georg Cantor. Il a définit les ensembles comme des collections d’objets, appelés éléments, bien spécifiés et tous différents. Dans la théorie des ensembles, un élément appartient ou n’appartient pas à un ensemble. Ainsi, on peut définir un ensemble par une fonction caractéristique pour tous les éléments x de l’univers de discours U. L’univers de discours est l’ensemble référentiel qui contient tous les éléments qui ( sont en relation avec le contexte donné. 1 si x ∈ E µE (x) = 0 si x∈ /E Zadeh a étendu la notion d’un ensemble classique à l’ensemble flou qui le définit comme étant " une collection telle que l’appartenance d’un élément quelconque à cette collection peut prendre toutes les valeurs entre 0 et 1". 64 C HAPITRE 4. La similarité Comparativement à la logique classique, les bases théoriques de la logique floue sont établies de manière à pouvoir traiter des variables inexactes de valeurs comprises entre 0 et 1, par contre la logique de Boole dont les variables ne peuvent prendre que les valeurs 0 et 1. A titre d’exemple, la classification des personnes à travers leur âge par les deux logiques présenté dans la figure 4.3 qui montre que : 1. La logique classique (logique de Boole) n’admet pour les variables que les valeurs 0 et 1, qui font que les personnes âgées de moins de 30 ans sont systématiquement jeunes et les plus de 50 ans sont âgées, sans pour autant que, cette classification soit logique. 2. Alors que la logique floue, dont les variables peuvent prendre n’importe qu’elle valeur comprise entre 0 et 1, permet de tenir compte du passage progressif de l’individu d’un âge à un autre, on parle alors, de fonction d’appartenance µ. Les limites ne varient pas soudainement, mais progressivement, la figure 4.4 montre une classification possible ; une personne de 25 ans appartient à l’ensemble (jeune) avec une valeur µ = 0.75 de la fonction d’appartenance, et à l’ensemble (entre deux âges) avec µ = 0.25, par contre une personne de 70 ans appartient avec une valeur µ = 1 de la fonction d’appartenance à l’ensemble (âge). F IGURE 4.3 – Représentation floue et classique Valeur d’appartenance La valeur d’appartenance est le degré de compatibilité d’un élément avec le concept qui est représenté par un ensemble flou. La fonction caractéristique de l’ensemble B,µB (x) est appelée 4.5 La logique floue 65 une fonction d’appartenance. La valeur µB (x) mesure l’appartenance ou le degré avec lequel un élément x appartient à l’ensemble B :µB (x) = Degre(x ∈ B). 4.5.3 Utilité des ensembles flous En général, un ensemble flou est utilise pour modéliser l’incertitude et les imprécisions dans la connaissance : 1- Incertitude : la fonction d’appartenance µA (x) est utilisée pour indiquer le degré de vérité de la proposition x est A. Dans ce cas, on connait la valeur de x mais on ne connait pas a quel ensemble elle appartient ; en effet x peut appartenir aux plusieurs ensembles avec différents (ou mêmes) degrés d’appartenance. L’ensemble flou modélise alors ici l’aspect incertain de la connaissance. 2- Imprécision : la fonction d’appartenance µA (x) est une distribution de possibilités dans l’espace de toutes les valeurs possibles de x. Dans ce cas, on connait l’ensemble (ou les ensembles) auquel appartient x mais on ne connait pas la valeur exacte de x ; µA (x1) représente la possibilité pour que x=x1. L’ensemble flou modélise alors ici l’aspect imprécis de la connaissance. 4.5.4 Opérations sur les ensembles flous Les ensembles flous sont une généralisation des ensembles ordinaires. Ainsi trouve-t-on les mêmes opérateurs classiques, mais définis sur des notions floues : Egalité Deux sous-ensembles flous B1 et B2 d’un ensemble X sont égaux si leur fonctions d’appartenance sont en tout point égales : µB1 (x) = µB2 (x)∀x ∈ X Inclusion Un sous-ensemble flou B1 est inclus dans B2 (on note B1 ⊂ B2 ) si tout élément de X qui appartient à B1, appartient à B2 avec un degré au moins égal : µB1 (x) ≤ µB2 (x)∀x ∈ X Intersection L’intersection des sous-ensembles flous B1 et B2 est le sous-ensemble constitué des minimums des degrés de vérité des sous- ensembles flous B1 et B2 : µB1 (x) ∧ µB2 (x)∀x ∈ X 66 C HAPITRE 4. La similarité Union L’union des sous-ensembles flous B1 et B2 est le sous-ensemble constitué des maximums des degrés de vérité des sous- ensembles flous B1 et B2 : µB1 (x) ∨ µB2 (x)∀x ∈ X Complément Le complément d’un sous-ensemble flou B est défini comme suit : ¬µB1 (x) = 1 − µB2 (x) Remarque : Il est à remarquer que l’intersection d’un sous-ensemble flou et de son complément ne donne pas l’ensemble vide. De même que l’union des mêmes sous-ensembles ne donnent pas l’ensemble de référence. F IGURE 4.4 – Ensembles flous définis pour la caractéristique " Age " La fuzzification La fuzzification est l’opération qui permet de transformer une valeur numérique de l’entrée en une partie floue définie sur un espace de représentation lié à l’entrée. Du choix de cet espace de représentation (numérique ou linguistique) dépend la nature de la partie floue E résultante de la fuzzification. La défuzzification La défuzzification est l’opération qui permet de transformer une partie floue de l’entrée en une valeur numérique définie sur un espace de représentation lié à l’entrée. Les méthodes de défuzzification les plus utilisées sont ; la méthode des hauteurs, le centre de gravité, le centre des aires et le 4.6 Distance entre deux sous-ensembles flous 67 centre des maxima. La méthode des hauteurs consiste à choisir la valeur maximum, le premier ou le dernier des maxima, ou la moyenne des maxima. 4.6 Distance entre deux sous-ensembles flous Une distance entre deux sous-ensembles flous d’un même ensemble de référence est une évaluation de ce qui sépare ces deux sous-ensembles. Elle permet d’apprécier leur ressemblance ou leur dissemblance. Il existe plusieurs mesures de distances, mais les plus utilisées sont : la distance de Hamming et la distance euclidienne. Soient trois sous-ensembles flous A, B et C. Chaque mesure de distance doit satisfaire les conditions suivantes : Une distance n’est jamais une quantité négative :D(A, B) ≥ 0 La distance entre A et B est égale à la distance entre B et A : D(A, B) = D(B, A) La distance entre A et A est toujours nulle :D(A, A) = 0 Si l’on associe à la distance une opération pour composer deux distances, on doit avoir la propriété suivante appelée inégalité triangulaire D(A, B) ≤ D(A, B) ∗ D(B, C) Où * est l’opération considérée, par exemple la somme pour la distance de Hamming. 4.6.1 Distance de Hamming La définition générale de la distance de Hamming est la somme des valeurs absolues des différences entre les fonctions d’appartenance des objets correspondants : P D(A, B) = ni=1 |µA (x) − µB (x)| Où n est le nombre d’éléments dans l’ensemble de référence E. Pour tenir compte du nombre d’éléments de l’ensemble de référence, on préfère utiliser la notion de " distance de Hamming relative " en divisant le résultat par le nombre d’éléments de référence, soit : P D(A, B) = 1/n ni=1 |µA (x) − µB (x)| 4.6.2 Distance euclidienne La distance euclidienne relative pour deux sous-ensembles flous A et B dans le même ensemble de référence E est définie de la manière suivante : pPn 2 D(A, B) = i=1 (µA (x) − µB (x)) 68 C HAPITRE 4. La similarité 4.7 4.7.1 L’agrégation multicritère Définition L’agrégation multicritère consiste à synthétiser des informations traduisant des aspects ou des points de vues différents et parfois conflictuels au sujet d’un même ensemble d’objets. Il se pose de manière cruciale dans nombre de procédures d’évaluation, de comparaison ou de classification utilisées en aide à la décision. En effet, de nombreux problèmes de décision sont multicritères. Dans la pratique, que ce soit pour évaluer une préférence ou une similarité, les critères sont rarement unanimes dans la comparaison des alternatives et l’on doit se résoudre à prendre parti sur la résultante des conflits existants. Pour cela, on cherche généralement à définir une règle de décision qui permette de bâtir une relation de préférence ou de similarité sur l’ensemble des alternatives à partir de leurs vecteurs de performances. D’un point de vue général on peut dire que l’agrégation a pour objet d’utilisation des connaissances fournies par différentes sources pour parvenir à une conclusion ou une décision. Mais faut-il prendre en considération toutes les sources ou se suffire d’une ou quelques sources ? C’est là qu’intervient le concept de " Quantificateur linguistique flou " introduit par Zadeh [Yag01]. 4.7.2 Le quantificateur linguistique flou Le concept de quantificateur linguistique a été introduit par Zadeh, qui a suggéré que la sémantique d’un quantificateur flou peut être capturé en utilisant les sous-ensembles flous pour leur représentation. Il distingue deux types de quantificateurs, absolus et relatifs. Les quantificateurs absolus sont utilisés pour représenter une quantité d’éléments tels que autour de 2, plus que 5,.. etc. Les quantificateurs relatifs sont des termes correspondants à une proportion d’objets comme par exemple, la plupart, au moins la moitie, tous,..etc. Un quantificateur Q peut être représenté par un sous-ensemble flou sur l’univers de discours I = [0, 1] tel que pour toute proportion r ∈ I, Q(r) indique le degré avec lequel r satisfait le concept indiqué par le quantificateur Q [Yag01]. Cette notion a été davantage développée par R. Yager pour introduire plusieurs types de quantificateurs dont celui, proportionnel, appelé Regular Increasing Monotone Quantifier ou RIM [IDR03]. Un quantificateur est dit RIM s’il vérifie les trois conditions suivantes : 69 4.8 Conclusion 1. Q(0) = 0, 2. Q(1) = 1 3. Si r1 > r2 alors Q(r1) ≥ Q(r2). L’évaluation de la solution ou la conclusion passe par l’implémentation du quantificateur linguistique RIM par un opérateur d’agrégation OWA (Ordered Weighted Averaging). 4.7.3 L’opérateur d’agrégation OWA Yager [IDR03] définit un opérateur OWA de dimension M comme une fonction à laquelle on associe un vecteur de poids W de dimension M : W (w1,w2,..w) avec : 1. wi ∈ [0, 1], Pn 2. i=1 wi = 0 3. F (a1 , a2 , .., am ) = Pn i=1 w i ∗ bi ou bj est le j eme ai selon un ordre croissant et les ai sont les critères à combiner. Deux approches ont été proposées, par Yager, pour obtenir le vecteur de poids wj [IDR03]. La première consiste à utiliser un mécanisme d’apprentissage sur des données d’essai ; et la seconde est d’essayer de donner une sémantique ou une signification aux poids. C’est cette dernière qui permet l’application dans les domaines d’agrégation guidée par les quantificateurs. 4.8 Conclusion Nous avons consacré ce chapitre pour définir les notions relatives à la distance et la similarité et quelques mesures les plus connues et utilisées. Le problème majeur est que la notion de la similarité est un concept relatif. En effet, deux objets similaires à un certain seuil (ou k) peuvent être également dissimilaires à un autre seuil (ou k différent). Les autres paramètres influant à définir sont : Le choix de la mesure (fonction) de distance (euclidienne, Manhattan..) La sélection des attributs importants. Le choix des poids des attributs. Cette difficulté sera plus importantes dans notre cas où les données sont imparfaites ( imprécises, manquantes..). 70 C HAPITRE 4. La similarité Après un bref historique, nous avons détaillé la théorie de la logique floue et surtout les notions que nous allons utilisées pour notre approche. Les notions de la similarité dans les sous-ensembles flous et tout ce qui en découle (propriétés, représentation, ..etc.), les variables linguistiques, la (dé)fuzzification... Nous avons terminé ce chapitre par expliquer la notion d’agrégation multicritère et le quantificateur linguistique flou. Notre objectif est de présenter la similarité dans un contexte flou. Chapitre 5 L’approche proposée 5.1 Introduction Le problème des valeurs imparfaites est un problème connu dans le domaine de la fouille de données et de l’apprentissage automatique où, dans la base d’apprentissage, on rencontre des objets ayant des valeurs manquantes et/ou imprécises pour certains attributs. Cela arrive pendant la phase d’acquisition des données du processus de l’ECD. Les données sont manquantes parce qu’on ne les a peut-être pas enregistrées, ou bien que leur acquisition est trop coûteuse, etc. Prendre une décision en présence de données manquantes/imprécises est une tâche difficile. Par exemple, la santé est un domaine où l’incertitude prend une importance considérable. Nous présentons dans ce chapitre notre approche, qui se compose de deux parties : – partie pré traitement. – partie data mining . Nous allons exposer l’analyse univarié et ses limites, cette présentation est essentielle pour montrer l’avantage de notre approche. 1. Analyse univariée : En se basant sur les données observées et en utilisant les outils de statistiques descriptives (moyenne, médiane, mode, écart type, distribution. . .), il est possible de caractériser une propriété (attribut). Cette analyse nous permet d’avoir une idée globale sur la variable mais la limite de cette approche est qu’elle traite les propriétés une par une sans prendre en considération les liens qui peuvent exister entre ces variables. D’où l’idée est d’utiliser la structure globale de la base et les relations qui existent entre les variables pour traiter le problème des 72 C HAPITRE 5. L’approche proposée données manquantes et imprécises. 2. Ceux qui se ressemblent se rassemblent.. Généralement les individus d’un même groupe (classe) sont homogènes et similaires. Par contre les individus appartenant à des classes différentes ont des propriétés différentes. C’est une propriété fondamentale caractérisant les individus et leurs groupes. Il est possible de caractériser un groupe d’individus en utilisant les outils de statistiques descriptives (moyenne, médiane, mode, écart type. . .) par classe et non pas par attribut pour décrire les groupes de la population. Ces informations sont utiles pour la prédiction des valeurs manquantes, élimination des bruits, filtrages des données imprécises. En effet, connaître la relation d’appartenance d’un individu à une classe nous facilite la connaissance (avec une grande probabilité) de déduire les caractéristiques (attributs) de l’individu en question. Ces deux exemples montrent comment peut on déduire une information en exploitant le maxi- mum des données disponibles observées pour inférer les données imparfaites (manquantes, imprécises.) Exemple 01 : données quantitatives. Les données Iris provenant d’UCI , cette base contient quatre variables continues et la classe (03 classes). Cette BD contient 150 individus. La figure 5.1permet la visualisation des trois classes selon la variable petalwidth. F IGURE 5.1 – Les trois classes de la base Iris (fleurs) On peut dire alors que pour la classe 1 (les 50 premiers individus) la propriété petalwidth est entre 0.1 et 0.6 , pour la deuxième classe elle est entre 1 et 1.8 et entre 1.6 et 2.5 , donc pour une 5.2 Méthode des KNN (k Nearest Neighbours) 73 donnée manquante pour l’attribut petalwidth la probabilité pr qu’elle soit entre 0.1 et 0.6 sachant que la classe est 1 est pr = 1. Une information imprécise peut contenir une information bruitée ou contradictoire avec la classe concernée. On peut exploiter la relation entre l’attribut petalwidth est la classe 1 pour filtrer l’imprécision. Bien qu’on travaille avec une BD complète, c’est le cas idéale pour l’extraction des connaissances, le problème est plus complexe lorsque la BD est imparfaite (manquante, imprécises. . .). En effet, cette analyse doit être prise avec précaution car toutes les hypothèses et les observations sont basées sur les informations incomplètes et incertaines. Tous les paramètres extraits (corrélation, distribution...) donc sont imparfaits. Exemple 02 : données qualitatives. La BD vote.txt de la BD de référence d’UCI du congres américain contient les thèmes de vote (16 questions) et 2 classes (républicains, démocrates). Nous voulons caractériser le comportement du vote des deux groupes (républicains, démocrates) sur les différents thèmes qui leurs ont été soumis (crime, immigration, éducation..). La variable classe décrit l’appartenance politique (républicains, démocrates). Le fichier contient 435 parlementaires, 168 d’entre eux (%38) sont républicains. La première variable caractérisant mieux ce groupe est physician-fee-freeze ,% 40.69 des députés (177) ont répondu oui à la question physician-fee-freeze Parmi les républicains, ce pourcentage monte à % 97.02 (163 de 168) députés. Le fait d’être républicain a déterminé le comportement de vote sur cette question. Donc la probabilité conditionnelle Prob(republicain / physician-fee-freeze = yes) = 163/168 = 0.97,02. La limite de cette approche univariée est : 1. elle traite les propriétés une par une sans prendre en considération les liens qui peuvent exister entre ces variables. 2. si cette variable est manquante, sa valeur sera estimée sur sa distribution de probabilité. C’est là qu’intervient l’intérêt d’utiliser la structure globale de la base. 5.2 Méthode des KNN (k Nearest Neighbours) La méthode de k plus proches voisins est une méthode de l’apprentissage supervisé de type apprentissage à base d’instances (instance-based learning). 74 C HAPITRE 5. L’approche proposée C’est une méthode de classification non-paramétrique puisqu’aucune estimation de paramètres n’est nécessaire comme pour la régression linéaire. On dispose de données d’apprentissage (training data) pour lesquelles chaque observation dispose d’une classe y. Si le problème est à 2 classes, y est binaire. L’idée de l’algorithme des KNN est pour une nouvelle observation (u1, u2,..., up) de prédire les k observations lui étant les plus similaires dans les données d’apprentissage et utiliser ces observations pour classer l’observation dans une classe. Quand on parle de voisin cela implique la notion de distance ou de dissimilarité. 1. La distance la plus populaire est la distance euclidienne. 2. Le cas le plus simple est k=1 (cas 1-NN) . 3. On cherche l’observation la plus proche. On peut résumer l’algorithme comme suit : Début On cherche à classer l’instance I pour chaque objet J de l’ensemble d’apprentissage faire calculer la distance D(J,I) entre J et I fin pour Dans les k objets les plus proches de I calculer le nombre d’occurrences de chaque classe Attribuer à I la classe la plus probable fin 75 5.3 KNN imputation 5.3 KNN imputation L’idée est d’adapter la technique KNN pour compléter les données manquantes en se basant sur le même principe : la similarité. KNN imputation (KNNI) est une méthode qui consiste à remplacer les données manquantes d’un individu par la valeur observée de l’individu le plus proche (similaire) au sens d’une fonction de distance. Cette méthode a été proposée par Dixon 1979. Nous donnons par la suite les étapes de la méthode KNN Imputation. Algorithme Diviser la BD en deux parties ; Dc la base contenant les données complètes et Dm le reste(missing). Pour chaque individu x dans Dm Diviser le vecteur x en partie manquante et observée [xmis,xobs] Calculer la distance entre xobs et tous les autres vecteurs de Dc . Utiliser les attributs de Dc qui sont connus dans x (xobs). Trouver les k plus voisins proches et utiliser le mode de ces k voisins pour compléter la variable catégorielle utiliser la moyenne des k voisins 5.3.1 pour la variable continue. Avantages – KNNI peut prédire les deux types de données ; continue (la moyenne des k voisins), discrète (le mode). – Pas de nécessité pour créer un modèle prédictif pour chaque variable (comme la régression par exemple), donc l’approche KNN imputation peut être facilement adaptée pour n’importe quelle variable comme variable prédite. – KNNI peut facilement traiter le cas des individus avec plusieurs données manquantes ; – Cette approche tient en compte la structure des données. 76 C HAPITRE 5. L’approche proposée – KNNI est robuste aux données bruitées. 5.3.2 Points critiques – Le choix de la fonction de distance D Comment choisir la fonction de distance parmi plusieurs (euclidienne, Manhattan..) ?. Solution : dans la phase d’apprentissage on choisit la distance qui donne le meilleur taux de bonne classification. – Pour trouver les plus proches voisins d’une instance A, nous devons chercher dans toute la BD. Solution : sélectionner les instances exemplaires parmi la base d’apprentissage. Une autre solution est d’effectuer un clustering avec k = nbre cluster = nbre classe qui est connu, puis pour un nouvel objet à classer en cherchant les voisins dans le cluster le plus proche au lieu de chercher dans toutes la base. – Le choix du nombre K. Comment choisir le nombre K les plus similaires. Un k petit (k=1) peut introduire un bruit et détruire la structure de la BD après l’imputation du à la domination d’un nombre petit des voisins pour l’estimation de la valeur manquante. Par contre, choisir un nombre k grand, cela permet des instances différentes d’être des similaires. Pour les BDs de taille faible, choisir k inférieur à 10 est une solution raisonnable. Solution : varier k dans la phase apprentissage jusqu’à l’obtention du meilleur taux de classification (le moindre taux d’erreur de classification). Exemple : La base Iris contient 150 instances et 4 attributs continus. La classe de cette base prend 3 valeurs : Iris Setosa, Iris Versicolor, Iris Virginica codées dans cette exemple respectivement 1,2 et 3. L’objectif de cette base est de classer les fleurs d’Iris. On a pris dix exemples de la base pour illustrer les notions de distance et de similarité. (voir la table 5.1). La distance euclidienne : soit X = (x1 ; x2 .. xn) et Y = (y1 ; y2 ; ..yn) deux instances, la distance euclidienne entre X et Y est D : v u n uX D=t (ai − bi )2 i=1 (5.1) 77 5.3 KNN imputation ID Objet Sepallength Sepallwidth Petallength Petalwidth Classe 1 5.8 4 1.2 0.2 1 2 5.7 4.4 1.5 0.4 1 3 5.4 3.9 1.3 0.4 1 4 5.6 3 4.5 1.5 2 5 5.8 2.7 4.1 1 2 6 6.2 2.2 4.5 1.5 2 7 5.6 2.5 3.9 1.1 2 8 6.3 2.5 5 1.9 3 9 6.5 3 5.2 2 3 10 6.2 3.4 5.4 2.3 3 TABLE 5.1 – Une partie de la base Iris En pratique, on ne calcule pas la racine carrée. La distance entre l’instance 1 et l’instance 2 est : D(1, 2) = (5, 8 − 5, 7)2 + (4 − 4, 4)2 + (1, 2 − 1, 5)2 + (0, 2 − 0, 4)2 D(1, 2) = 0.12 + 0.42 + 0.32 + 0.22 D(1, 2) = 0, 3. De même, la distance entre l’objet 1 et 3 est : D(1, 3) = 0, 22. Le tableau 5.2 donne la distance calculée entre l’objet 1 et les autres objets de la base. On trouve que l’instance 3 est la plus proche avec un minimum de distance 0.22, si l’instance 1 possède des données manquantes, et si l’instance 3 reste le plus proche, on utilise les données de l’instance 3 (la plus proche) pour compléter ses valeurs manquantes. Remarque : On a pris le cas le plus simple lorsque le nombre des voisins les plus proches est égal à 1. 1. si la donnée manquante est quantitative, on calcule la moyenne des données de ces voisins pour l’attribut manquant pour compléter l’instance incomplète. 78 C HAPITRE 5. L’approche proposée ID Objet Distance 2 0.3 3 0.22 4 13.62 5 10.74 6 15.98 7 10.39 8 19.83 9 20.73 10 22.57 TABLE 5.2 – La distance entre l’objet 1 et les autres objets 2. si la données manquante est symbolique (qualitative), on choisit la valeur la plus fréquente (mode) de ces voisins pour l’attribut manquant pour compléter l’instance incomplète. 5.4 Le choix d’un langage de modélisation des imperfections de l’information Le choix de la méthode pour modéliser ou traiter le problème de l’imperfection des données (manque, imprécision..) est très difficile, cela dépend de plusieurs facteurs ; – L’objectif de traitement (la connaissance qu’on souhaite à extraire : description, prédiction). – Le nombre des variables à traiter. – Le taux de l’imperfection. – L’importance des variables (associer un poids). Les incertitudes ne sont pas toujours de nature aléatoire. Elles sont souvent dues à des imprécisions ou à des incomplétudes. La théorie des sous-ensembles flous [Zad65] se présente comme un outil privilégié pour la modélisation des situations présentant des imprécisions. Elle inclut la théorie des possibilités dans sa logique pour permettre la prise en compte simultanée d’imprécisions et d’incertitudes. La logique floue repose sur le concept fondamental de sous-ensemble flou qui résulte d’un assouplissement de celui de sous-ensemble d’un ensemble donné. C’est l’instrument qui nous permet de représenter la notion de classe dont les limites sont mal définies. 5.4 Le choix d’un langage de modélisation des imperfections de l’information 79 L’appartenance ou la non appartenance n’obéit pas à la dichotomie classique d’un ensemble ordinaire mais elle est teintée d’une certaine gradualité. Ce caractère graduel répond au besoin d’exprimer des connaissances imprécises telles que des informations recueillies en langage naturel, ou des valeurs approximatives dues à des difficultés de mesurage. Bien que la théorie des sous-ensembles flous offre un cadre conjoint permettant de traiter autant des données numériques que des données en langage naturel, elle ne traite pas l’imprécision et l’incertitude qui peut les entacher dans le même formalisme. En revanche, la théorie des possibilités permet la manipulation de l’incertitude sur des connaissances imprécises ou vagues. Il est important de signaler que l’incertitude visée par cette théorie n’est pas de nature probabiliste car on y cherche à savoir dans quelle mesure la réalisation d’un événement est possible et dans quelle mesure on en est certain sans que l’on dispose de l’évaluation de la probabilité de réalisation de cet événement. Face à la multitude de langages de modélisation des imperfections de l’information, c’est la question du choix d’un langage en particulier qui s’impose dans toute tentative de modélisation. Le choix entre tous ces langages de modélisation des imperfections de l’information n’est pas trivial. Il nécessite un effort de compréhension de toutes les théories en concurrence et un examen minutieux de la situation décisionnelle à modéliser. Afin de faciliter la tâche de l’homme d’étude dans le choix approprié du langage de modélisation des imperfections de l’information, [AM] ont tenté de mettre en place un cadre conceptuel permettant une caractérisation opérationnelle de chacun des langages de modélisation retenus. Ce cadre pourrait constituer un guide pratique pour le choix d’un langage de modélisation des imperfections de l’information concernant les évaluations des actions selon divers critères. Dans [AM]. une proposition d’ un guide permettant d’aider le choix d’un langage de modélisation des imperfections de l’information. Ce guide comprend des étapes que nous résumons : Étape 1 : Identification de la nature d’imperfection de l’information pour les évaluations des actions selon le critère à construire. À cette étape il faut cocher l’une des deux cases suivantes selon la nature prédominante de l’imperfection de l’information présente : 1. incertitude 2. imprécision Il faut en effet préciser si les imperfections de l’information reliées à ce critère sont de l’ordre - des incertitudes : au sens d’un doute sur la validité d’une connaissance : 80 C HAPITRE 5. L’approche proposée – données recueillies par un intermédiaire peu fiable (pas sûr de lui, susceptible de se tromper ou de donner intentionnellement des informations erronées) ; – données difficiles à obtenir ou à vérifier ; – données prévisionnelles ; – données de nature aléatoire ; – incertitudes dues à des imprécisions ou à des incomplétudes. - des imprécisions : au sens d’une difficulté dans l’énoncé d’une connaissance : – des catégories aux limites mal définies ("jeune", "centre ville",..), – des situations intermédiaires entre le tout et le rien ("presque noir"), – le passage progressif d’une propriété à une autre (notion de distance : "proche", "éloigné",..), – des valeurs approximatives ("environ 2 km"). Étape 2 : Cette étape commence à partir de l’une des deux cases incertitude ou imprécision. Si on a identifié un contexte d’incertitude pour le critère à construire, il faut répondre par oui (O) ou par non (N) à la question 1 : 1- Peut-on énumérer les différents états possibles influençant ou représentant les évaluations selon ce critère ? L’identification d’un contexte d’imprécision par contre est suivie par la question 2 à laquelle il faut répondre également par oui (O) ou par non (N) : 2- Les imprécisions portent-elles sur des données numériques approximatives que l’on peut exprimer par des intervalles ? Étape 3 : L’étape 3 procède à partir des réponses données aux questions 1 et 2. Si suite à la question 1 on constate qu’on est dans l’impossibilité d’énumérer les différents états possibles influençant ou représentant les évaluations selon le critère à construire (N), on devrait avoir recours à la théorie des possibilités pour modéliser l’incertitude en présence. Dans le cas contraire (O), on continue l’investigation par le biais du test de l’aléatoire (A) : Test A : – Les évaluations selon ce critère sont des données numériques ou du moins mesurables sur des échelles standard (ratio, intervalle,...) ; – Il existe peu d’intervenants humains non experts dans la situation d’incertitude à modéliser, ces derniers introduisent des éléments d’imprécision par des descriptions subjectives ou des 5.5 Approche proposée 81 connaissances formulées en langage naturel, – Il n’existe pas d’importantes connaissances graduelles ou de classes aux limites mal définies caractérisant la situation à modéliser. Si toutes les propositions énoncées dans le test A sont vérifiées on y répondra par oui (O), dans le cas contraire on y répondra par non (N). Si la question 2 montre que les imprécisions sont dues à des données numériques approximatives que l’on peut exprimer par des intervalles (O) il sera naturel de recourir à une modélisation par les intervalles. Sinon (N), on utilisera le langage du flou. 5.5 Approche proposée Nous avons proposé deux solutions suivant le guide [AM] en laissant le choix selon les critères cités dans le guide. Ces deux propositions sont : – La modélisation par intervalles classiques. – Le modèle flou. En plus, on a proposé une méthode mixte qui combine les deux approches précédentes ( floue, intervalle classique). On a vu que l’information imprécise peut être plusieurs valeurs possibles ou sous forme d’intervalle [min,max]. L’approche intuitive et logique est d’utiliser les intervalles pour surmonter le problème des données imprécises . Cette solution a plusieurs avantages : 1. Éliminer l’effet des points aberrants. 2. Réduire le nombre des possibilités infinies des valeurs des variables continues. Un problème majeur dans cette proposition classique est les limites des classes. Il apparaît à partir du moment où l’on transforme une valeur continue en son appartenance à une classe de valeurs. Nous pensons que la théorie de la logique floue est un moyen pour cela, ce que nous exposerons par la suite. La théorie de la logique floue développée par Zadeh [God99]. L’idée de Zadeh était de pouvoir manipuler des informations exprimées en langage naturel. La logique floue repose sur le concept fondamental de sous-ensemble flou qui résulte d’un assouplissement de celui de sous-ensemble d’un ensemble donné. L’appartenance ou la non appartenance n’obéit pas à la dichotomie classique 82 C HAPITRE 5. L’approche proposée d’un ensemble ordinaire mais elle est teintée d’une certaine gradualité. Ce caractère graduel répond au besoin d’exprimer des connaissances imprécises. 5.5.1 Problème de manque de données : Les incomplétudes identifiées comme étant des absences de connaissance ou des connaissances partielles ne sont pas prises en compte par un langage particulier. En effet, il n’existe pas de langage propre à la modélisation des incomplétudes. Les incomplétudes sont prises en compte dans la mesure où elles conduisent à des incertitudes ou à des imprécisions. Pour traiter ce problème on a proposé les deux solutions : 1. L’approche qui consiste à ignorer les données manquantes. Utilisation de la similarité partielle (modification de KNN pour tolérer le manque) : c’est la modification de la technique de calcule de la similarité(distance)en supprimant les attributs manquants. 2. L’approche par remplissage de données (mode, moyenne, régression, similarité, information supplémentaire...). Les avantages de la procédure de complétion sont : La base complétée devient complète est la technique d’extraction de connaissance est applicable dans ce cas. L’exploitation des données observées pour estimer les données manquantes. les inconvénients sont : La qualité d’imputation. (Les données imputées sont des estimations probables). Le temps d’estimation et de complétion est considérable (la masse de données dans la cas de data mining). Les avantages de la procédure de suppression de données : On ne pend que les données observées. La limite est lorsque le taux de manque est important. Notre travail est de tester les performances de ces deux approches. Dans notre approche, nous distinguons les types d’attributs suivants : 1. attributs forcément exacts, 2. attributs potentiellement imprécis (flou , intervalle). 5.5 Approche proposée 83 Attributs forcément exacts : Ce sont les attributs qui ne peuvent être flous lors de la description du cas et ceci pour deux principales raisons : On ne peut se tromper sur leurs valeurs (ex. Sexe du malade dans le domaine médical). On doit les connaître pour différentes raisons (ex. Le groupe sanguin du malade). L’attribut binaire : C’est un attribut qui ne peut prendre que deux valeurs. Ces deux valeurs sont généralement 0, 1 ou logiques Vrai, Faux. L’attribut mesuré par des valeurs discrètes : C’est un attribut ne pouvant avoir qu’une seule valeur qui appartient à un ensemble fini de valeurs v1,v2, .. vk. Ces valeurs peuvent être numériques, nominales ou tout autre type. Un exemple typique de ces attributs est le groupe sanguin dont les valeurs sont A, B, AB, O. L’attribut mesuré par des valeurs continues : C’est un attribut dont le domaine de valeurs contient un nombre infini de valeurs. Ce domaine doit être limité par une valeur minimale et une valeur maximale. Dans ce type de données précis, la distance est calculée par les mesures classiques, elle doit être normalisée (entre 0 et 1). 5.5.2 Problème de données imprécises : Modélisation par intervalle (classe) Pour chaque attribut, on procède à découper l’espace des valeurs en intervalles (classes) par la transformation des valeurs continues. Cette opération consiste à attribuer une valeur numérique à l’intervalle dont il appartient. Cette opération entraine une perte d’information et l’effet et l’impact de cette perte dépend du domaine considéré, mais notre objectif est la précision de la connaissance et permettent la tolérance des données imprécises. Le découpage doit tenir en compte le nombre de classe à prédire. A chaque valeur numérique est associée : 1. Non de la classe. 2. L’ordre de la classe. 3. L’intervalle (min - max). 84 C HAPITRE 5. L’approche proposée L’information supplémentaire ordre d’intervalle sert pour le calcul de la distance. Cette distance sera plus précise puisque elle utilise les ordres de classes. Les classes adjacentes sont plus proches (similaires) que les éloignées. Calcule de la distance imprécise Nous donnons trois alternatives : 1. Considérer l’attribut comme symbolique. 2. Utiliser les ordres d’intervalles pour calculer la distance. Cette alternative donne plus de précision pour mesurer la distance. 3. Utiliser l’estimation des experts pour chaque couple de classes. Approche floue Dans un domaine donné et contrairement aux attributs obligatoirement crispe, il existe des attributs descripteurs des cas qui peuvent tolérer l’imprécision et l’incertitude. Cette tolérance aux imprécisions et aux incertitudes est un avantage certain pour l’extraction de connaissances utilisant ce type d’attributs du fait qu’en réalité on n’a jamais l’ensemble des valeurs réelles et précises des différents attributs à portée de main. La prise en charge de ce type d’attributs, comme on l’a vue dans le chapitre consacré à la logique floue, passe par l’utilisation de la logique floue et des variables linguistiques et tout ce qui en découle. Avantages : L’utilisation des variables linguistiques, en plus des valeurs numériques, dans un processus de mesurage d’un attribut, a plusieurs avantages [IDR03] : Elles sont faciles à comprendre contrairement au cas des valeurs numériques. Elles permettent la tolérance des imprécisions dans le processus de mesurage. Elles généralisent les valeurs numériques qui ne sont utilisées que dans le cas de disponibilité d’informations précises (imprécision est égale à zéro). Malheureusement, souvent ce n’est pas le cas. Elles permettent d’exprimer convenablement les capacités limitées de l’esprit humain dans le traitement des informations précises et infinies. Utilisation des variables linguistiques : A chaque attribut potentiellement flou on associe une variable linguistique dont on doit définir : Le nom de l’attribut ou de la variable linguistique. L’univers de discours ou le domaine des valeurs numériques X que peut prendre la variable numérique associée à la variable linguistique. 5.5 Approche proposée 85 Les valeurs ou les termes linguistiques que peut prendre la variable linguistique. Ces valeurs ne sont pas statiques et peuvent changer d’un domaine à un autre ; pour l’attribut âge on peut prendre les valeurs enfant, jeune, adulte, vieux dans un domaine ou nourrisson, enfant, adulte dans un autre. La valeur linguistique par défaut que doit prendre la variable ou l’attribut en cas d’indisponibilité ou de méconnaissance de cette valeur. Le type de fuzzification utilisé pour rattacher une valeur ayant deux sous ensembles flous d’appartenance. Pour chacune des valeurs linguistiques on associe un sous-ensemble flou. L’ensemble des sous ensembles flous s’appelle une partition floue. La similarité dans notre système sera calculée sur deux niveaux : 1. par attribut (locale), 2. par individu (totale). Similarité par attribut Cette étape consiste à évaluer la similarité entre deux exemples A et B selon chaque attribut Aj, SIM (A,B). SIM (A,B) sera calculé par la formule d’agrégation flou SIM (A, B) = max min (µA (x), µB (x)) Similarité entre individus La similarité entre deux exemples A et B SIM(A,B) est évaluée en combinant les similarités individuelles SIM(A,B), par un quantificateur linguistique Q tel que all, most, many, at-most , et there exists.. Ce genre de quantificateur est appelé RIM (Regular Increasing Monotone Quantifier) [Yag01]. Donc, la similarité globale entre deux individus A et B est définie par l’expression informelle suivante : SIM (A, B) = mostof (SIMJ (A, B)) Ou SIMJ (A, B) est la j eme similarité individuelle selon un ordre croissant . Ou mostof veut dire prendre en considération la plupart des attributs dans le calcul des similarités. Cette méthode assure la qualité et la quantité car en prend la plupart des attributs et les plus similaires selon l’ordre croissant. L’implémentation du quantificateur RIM de l’équation précédente est assurée par un opérateur OWA. Donc, la similarité globale entre deux cas A et B est calculée par : 86 C HAPITRE 5. L’approche proposée SIM (a1 , a2 , .., am ) = Pn Ou SIMi (A, B) est la i i=1 eme wi ∗ SIMi (A, B) similarité individuelle selon un ordre croissant . wi est le poids de l’attribut i selon un ordre croissant. Classification Si la variable à prédire est continue en parle d’estimation sinon (la variable est discrète) il s’agit de la classification. En utilisant les exemples de la base les plus similaires à l’objet qu’on veut classer / estimer. Méthode de choix des cas similaires – KNN, déterminer le nombre k ; – Seuil de similarité, déterminer le seuil minimum α (par exemple un degré de similarité à 0,8). – Mixte, les k voisins ayant un seuil minimum α. Si la tache est la classification on choisi le mode de la classe des voisins similaires sélectionnés. Si l’objectif est l’estimation de la variable prédite, on combine les variables des voisins similaires sélectionnés par la moyenne (ou par la moyenne pondérée ; chaque valeur candidat est pondérée selon son degré de similarité pour favoriser les cas les plus similaires) 5.5.3 Résume de notre approche On distingue deux types d’attributs : exact et imprécis. 1-Attributs exact : La distance est calculée de la manière classique (distance euclidienne normalisée). 2-Attributs imprécis : Selon le type d’imprécision, deux approches sont proposées : 2-1-Par intervalle (classe) : 1. Découpage des attributs imprécis en intervalles : 2. A chaque valeur continue est associée une classe, un ordre d’intervalle. Distance des attributs imprécis : Nous donnons trois alternatives : 1. Considérer l’attribut comme symbolique. 2. Utiliser les ordres d’intervalle pour calculer la distance. Cette alternative donne plus de précision pour mesurer la distance. 87 5.5 Approche proposée 3. Utiliser l’estimation des experts pour chaque couple de classes. 2-2- Approche floue La similarité sera calculée sur deux niveaux : 1. par attribut(locale) SIM (A, B) = max min (µA (x), µB (x)) 2. par individu (totale) SIM (a1 , a2 , .., am ) = Pn i=1 wi ∗ SIMi (A, B) 3-Données manquantes : 3-1- Modification de KNN missing, c’est la modification de KNN classique pour tolérer le manque de données.(similarité partielle).Les données manquantes ne seront pas en compte lors de calcule de la similarité. 3-2- Complétion de données : 1. Moyenne ou mode 2. Aléatoire, 3. Régression, 4. Information supplémentaire, La distance totale sera la somme des distances des attributs (exacts et imprécis) 4-Classification / estimation On utilise KNN ou seuil de similarité minimum α. Pour la clarté de démonstration, on a divisé notre approche en deux parties : La première approche qui consiste à ignorer les données manquantes. Ses différentes étapes sont illustrés dans la figure 5.2 Dans la deuxième approche on procède à la complétion des données. La figure 5.3 explique cette alternative. Les deux alternatives seront testées et comparées. L’avantage de notre approche est la possibilité de combiner les types de similarité : exact, imprécis (intervalle et flou) afin de déterminer la similarité totale (toutes les types sont normalisées entre 0 et 1). La figure 5.4 illustre la structure de ce modèle. Dans le contexte data mining , la base de données est le résultat de fusion des sources hétérogènes, d’où la possibilité de trouver les différents types d’attributs : exact, imprécis (intervalle, flou) dans la même base de données. Alors choisir un modèle (intervalle ou flou) n’est pas approprié dans ce cas. Notre proposition d’agréger les différents types de similarité est une solution pour ce problème. 88 C HAPITRE 5. L’approche proposée F IGURE 5.2 – L’approche par désactivation de données manquantes 5.6 Conclusion L’approche que nous avons proposé présente deux modélisations de l’imprécision ; par intervalle et le modèle flou. Des redéfinitions sont également données pour les différents cas. Notre contribution est de proposer une mesure pour la distance imparfaite qui accepte les données imprécises, floues et manquantes. La distance proposées donc est une distance hétérogène. Le chapitre suivant contient les tests et les expérimentations pour valider notre approche. 5.6 Conclusion F IGURE 5.3 – L’approche par complétion des données manquantes 89 90 C HAPITRE 5. L’approche proposée F IGURE 5.4 – L’approche hybride (précise, intervalle, floue) Chapitre 6 Expérimentations 6.1 Introduction Dans le chapitre précédent, nous avons expliqué notre approche, qui est basée sur le principe de la similarité entre les individus. Nous présentons dans ce chapitre les notions relatives à l’évaluation d’un modèle. Notre approche est applicable sur les attributs discrets, qualitatifs, intervalle, continus et flou. Une validation d’un nouveau système peut être effectué sur deux niveaux : 1. axiomatique ; 2. empirique. La validation empirique de notre approche consiste en l’évaluation de la précision du modèle de classification qui tolère l’incertitude due à l’imprécision et le manque de données. Dans notre cas, nous utilisons les bases de données de référence (benchmark) provenant du (UCI Repository of machine learning databases) 1 6.2 Évaluation du modèle Pour évaluer notre approche, nous commençons par la tester sur plusieurs bases réelles. Deux critères sont à prendre pour l’évaluation : 1. http ://www.ics.uci.edu/mlearn/mlrepository.html 92 C HAPITRE 6. Expérimentations 1. La tolérance à l’imprécision et le manque. 2. La précision des résultats par rapport à la base de données précise et complète. Ensuite, nous évaluons sa performance en utilisant le taux de bonne classification. Finalement, nous comparons les résultats donnés par les méthodes de remplissage de données (moyenne, mode ,régression .. ). Dans le contexte d’une classification supervisée, la base est divisée en deux parties : La base d’apprentissage :elle contient environ 70% de la base et sert pour définir les paramètres du modèle pour obtenir le meilleur taux de bonne classification(le minimum taux d’erreur). Pour notre cas (la similarité), les paramètres à définir sont : la fonction de distance (euclidienne, Manhattan .. ) et le nombre de voisin k ou le seuil de distance (similarité). La base de test :(environ 30% de la base), après la construction du modèle de prédiction (classification), on utilise cette partie de la base pour tester et valider le modèle. Nous donnons les définitions suivantes : – a est le nombre de classements corrects des instances de classe négative. – b est le nombre de classements incorrects des instances de classe négative. – c est le nombre de classements incorrects des instances de classe positive. – d est le nombre de classements corrects des instances de classe positive. Plusieurs mesures appelées mesures d’exactitude par classe, sont définies : Accuracy (exactitude - taux de bon apprentissage) : la proportion des instances qui sont bien classées. Accuracy =a + d /a + b + c + d True Postive Rate (TP Rate) ou (Recall - rappel) : la proportion des instances de classe positive qui sont correctement classées. TPrate = Recall =d/(c + d) C’est donc le rapport entre le nombre de bien classés et le nombre total d’instances qui devraient être bien classées.Si le rappel est à 1, cela signifie que toutes les instances positives ont été trouvées. True Negative Rate (TN Rate) : la proportion des instances négatives qui sont correctement classées. TNrate =a/(a + b) False Postive Rate (FP Rate) : la proportion des instances négatives qui sont incorrectement classées comme positives. FPrate =b/(a + b) 6.3 Critères de choix des bases de données 93 False Negative Rate (FN Rate) : la proportion des instances positives qui sont incorrectement classées comme négatives. FNrate = c/(c + d) Precision (p) : la proportion des instances classées positives correctement parmi toutes les instances classées positives. Precision = d/(b + d) Si la valeur de Precision est à 1, cela exprime le fait que toutes les instances classées positives l’étaient vraiment. Fmeasure : c’est une mesure globale qui regroupe Precision et Recall dans une seule matrice. Fmeasure = 2*Recall * Precision/(Recall + Precision) Fmeasure = 2*r*p/(r + p) Cette mesure permet de regrouper en une seule valeur les performances du classifieur (pour une classe donnée) pour ce qui concerne le Recall et la Precision. 6.3 Critères de choix des bases de données Nous avons choisi les bases de données complètes, car l’objectif est de tester les performances de notre approche pour la prise en charge des données imparfaites, nous introduisons les données manquantes artificiellement et nous comparons ensuite ces résultats avec les résultats obtenus sur la base complète qui sert comme référence. Nous avons choisis les trois bases de données suivantes : – La base iris. – La base cancer-w – La base crédit La base iris est la base la plus connue et utilisée pour les tests et la validation pour la classification. S’il y a un domaine où le problème d’imprécision et d’incertitude de données est une caractéristique fondamentale, c’est bien le domaine médical. La principale raison à cela est que le type de raisonnement utilisé par le médecin dans sa démarche repose, en plus de son savoir, sur l’expérience liée à la résolution de cas rencontrés dans la pratique. L’autre domaine entaché par l’incertitude est le domaine économique (l’étude de demande de crédits est un cas typique). Nous donnons par la suite les détails sur la description de ces bases. 94 C HAPITRE 6. Expérimentations 6.4 Protocole des expérimentations Ces expérimentations ont été réalisées sur un PC équipé d’un processeur 2.8 GHz et de 512 Mo de mémoire DDR, sous système XP2. L’application est développée sous Borland C++4.5. 6.4.1 Le cas de manque de données Pour mieux gérer les paramètres, nous avons mène des expériences sur les bases complète. Sur ces bases, les valeurs manquantes sont artificiellement générées en enlevant aléatoirement certaines valeurs. On peut avoir plusieurs scénarios pour le problème d’incomplétude de données : 1. La base d’apprentissage est manquante et la base de test est complète ; 2. La base d’apprentissage est complète et la base de test est manquante ; 3. La base est entièrement incomplète (apprentissage et test ) ; c’est le pire des cas car on apprend sur des données partielles d’une part et on doit classer les objets incomplets d’autre part. Nous avons choisis le cas extrême de manque ou il affecte les deux parties de la base (apprentissage et test). Pour le cas d’apprentissage puisque la classe est connue est quelques propriétés sont manquantes, la meilleure technique est l’imputation par la similarité, dans ce cas l’objet incomplet est complété par les objets les plus similaires. Pour éviter le problème du choix du nombre de voisins K on complète l’individu incomplet par le représentant (centre) de la classe dont il appartient pour garder l’homogénéité des groupes. Cette solution permet d’éviter de remplir un objet incomplet à partir d’un autre similaire inconsistant (qui est le plus proche mais appartient à une classe différente),ou par des données aberrantes. On a plusieurs solutions : 1. Ignorer les attributs manquant ; les valeurs des attributs manquants n’interviennent pas dans le calcul de la similarité (distance) : c’est la similarité partielle. 2. Le remplissage de la base par une méthode d’imputation : (a) La moyenne/Le mode ; (b) Régression ; (c) Similarité : par les plus proches voisins ou par le représentant (moyenne / mode) de la classe ou l’objet appartient. 6.4 Protocole des expérimentations 95 (d) L’information supplémentaire . Soit une base de données complète. Le protocole a été conçu comme suit : 1- Génération artificielle de données manquantes : Pour chaque paire de bases apprentissagetest, " trouer " la base d’apprentissage selon l’hypothèse que les données manquantes surviennent de manière complètement aléatoire, nous testons avec plusieurs taux de données manquantes pour les bases d’apprentissage (5%,10%, 20%, 30%, 40% et 50%). 2- Substitution des données manquantes : Substituer les données manquantes dans les bases d’apprentissage par une technique de substitution citée. Pour chaque paire de bases apprentissage-test ainsi remplies : (a) Appliquer les méthodes d’imputation sur la base d’apprentissage afin de construire un modèle de classification. (b) Utiliser le modèle obtenu pour classifier les exemples de la base de test. Le critère utilisé est le taux de bonne classification, nous évaluons les résultats de classification obtenus. 3- Agrégation des résultats : Pour donner des résultats représentatifs, le nombre de simulations pour chaque taux de manque doit être significatif (200 par exemple). Ensuite moyenner les indices de performance (taux de bonne classification)sur toutes les paires de bases apprentissagetest. Nous comparons ensuite les résultats. Les méthodes d’imputation : Moyenne, Médiane et Mode : Les valeurs manquantes de chaque variable sont remplacées par la moyenne arithmétique ou la médiane (pour être moins sensible aux valeurs aberrantes) pour les données numériques et le mode pour les données symboliques. Régression : On cherche des corrélations entres la variable manquantes et d’autres variables. La plus simple forme est la régression simple entre deux variables x et y ou la relation linéaire peut être sous la forme y = ax+ b, la variable y est à remplir et x la variable observée. Les paramètres a et b sont calculées à partir des données observées. 1-La base iris Les données Iris provenant d’UCI, contient 150 instances et 4 attributs continus. La classe de cette base prend 3 valeurs : Iris Setosa, Iris Versicolor, Iris Virginica. L’objectif de cette base est de classer les fleurs d’iris. Les attributs sont : sepallength, sepalwidth, petallength et petalwidth. Pour évaluer le modèle. On calcule la précision de classification sur la base complète. Cette précision sert comme référence par rapport aux bases imputées. Le taux de précision sur la base 96 C HAPITRE 6. Expérimentations iris est 94 % pour la méthode de la seuil et 96 % pour 1nn (k=1). Comme expliqué avant, on introduit des données manquantes d’une façon aléatoire. La table 6.1 donne la précision en fonction du taux de manque introduit. taux manque 5% taux précision 94% 10 % 20% 30% 40% 92% 50% 90% 88% 80% 64 % TABLE 6.1 – Le taux de précision en fonction du taux de manque de la base iris Explication On remarque que la dégradation des performances du classifieur est en fonction du pourcentage d’incomplétude de la base d’une façon proportionnelle. La table 6.2 résume les résultats de bonne classification notée TP pour les différentes méthodes (remplissage ou suppression )en fonction du taux de manque de données. taux manque 5% 10 % 20% 30% 40% 50% moyenne seuil 92% 87% 84% 80% 78% 70 % similarité partielle 95% 95% 89 % 86% 82% 74 % TABLE 6.2 – Le taux de bonne classification pour les méthodes d’imputation de la base iris Les tests ont montré que la meilleure méthode est la similarité partielle en utilisant un seuil de similarité. Une explication peut être parce qu’elle utilise l’information disponible (mais certaine) par rapport aux autres méthodes d’imputation. Le pire des cas est celle de l’imputation par la moyenne. En effet, cette méthode remplace la donnée manquante par la moyenne, donc toutes les données manquantes seront à une tendance vers le centre de la population alors que la tache est la classification où on cherche à distinguer les groupes alors que l’imputation par la moyenne donne la même valeur pour chaque individu incomplet , par la suite tous les objets deviennent presque les mêmes puisque ils partagent la même propriété (la moyenne de la population) ce qui augmente le taux d’inconsistance dans la base imputée. 2- La base credit La base crédit comporte n = 100 observations. La variable à prédire est " ACCEPTATION.CREDIT " (" yes " ou " no "). Les variables prédictives sont : Age :Age du client,Quantitative ; 97 6.4 Protocole des expérimentations Income.Per.Dependent : Revenu par tête dans le ménage, Quantitative, Derogatory.Report : Au moins un problème avec l’établissement bancaire a été rapporté, de type binaire. Le taux de bonne classification est 55% pour 1nn et 77% pour la méthode de seuil de similarité = 0.9. Pour 1nn le mauvais taux est expliqué par l’existence de plusieurs individus qui sont inconsistants dans cette base. taux manque 5% 10 % 20% 30% 40% moyenne /mode, seuil=0.9 75% 76% 76% 74% 73% 70 % 71% 71% 70% 60% 52 % similarité partielle 72% 50% TABLE 6.3 – Le taux de bonne classification pour les méthodes d’imputation de la base crédit Les résultats dans la table 6.3 montrent que le pire des résultats est celle de l’ignorance de manque(sim partielle). On remarque que les performances du classifieur ne sont pas trés affectées par le manque pour la méthode d’imputation par moyenne/mode. Une explication logique est que seule la variable Derogatory.Report (un problème de crédit) est la plus pertinente est significative. Cette variable est complétée par le mode( la plus fréquente valeur dans la base observée). Cette variable est toujours estimée par la vraie valeur(O)ce qui donne toujours un taux de bonne classification acceptable indépendamment du taux de manque. Pour valider cette interprétation, on a supprimé de la base les autres variables qui sont jugés non significatives et classer les individus sur la base de la variable Derogatory.Report :un problème de crédit seulement, en effet cette variable peut classer toute seule 77% des exemples de la base. 3- La base brest-w La base possède 699 objets. Elle contient 9 attributs continus, la classe prédite contient deux valeurs benign et malignant. Nous avons choisi les trois variables les plus pertinantes : Clump Thickness ,Cell Size Uniformity et Bare Nuclei. Le taux de classification basée sur ces trois variables est de 96% avec une seuil de similarité de 0.9.Le Le même taux est obtenu par 1nn. taux manque 5% 10 % 20% 30% 40% 50% moyenne /mode, seuil=0.9 95% 93% 93% 92% 88% 85 % moyenne 1nn 95% 92% 93% 91% 89% 82 % similarité partielle seuil 95% 94% 93% 90% 83% 80 % similarité partielle 1nn 95% 89% 66% 33% 28% 33 % TABLE 6.4 – Le taux de bonne classification pour les méthodes d’imputation de la base breast-w 98 C HAPITRE 6. Expérimentations Les résultats sont résumés dans la table 6.4. On remarque que la méthode de seuil de similarité est plus performante que celle de 1nn dans les différentes méthodes. Egalement la méthode d’imputation est meilleure que celle de la similarité partielle(sans imputation), on observe une dégradation totale du taux de bonne classification TP de cette méthode à partir du taux d’incomplétude de 30%. Le cas des variables dépendantes et l’apport de la régression et l’information supplémentaire On peut trouver des relations qui existent entre les variables qui décrivent l’exemple à classer. Notre idée est d’exploiter cette relation pour remplir la variable dépendante par la régression. On peut avoir plusieurs formes de la régression (linéaire, exponentielle ,log..). Dans la base complète iris les variables 3 et 4 sont dépendantes , le coefficient de corrélation ( qui mesure la liaison entre les variables)= 0.96. La relation linéaire entre les deux variables est : var3= var4* 2,2+1,07. On utilise cette fonction pour imputer la variable manquante. Les variables 1 et 2 sont imputées par la moyenne. La même remarque pour la base cancer-w,ou les variables Cell Size Uniformity et Cell Shape Uniformity sont dependentes(le coeff de corrélation est 0.90). La relation linéaire est : Cell Shape Uniformity = Cell Size Uniformity*0,93-0,21. On exploite cette relation pour estimer la valeur de la variable Cell Shape Uniformity si elle est manquante. A la différence de la base iris, dans la base breast l’attribut Cell Size Uniformity ne participe pas directement dans la classification, mais il sert comme information supplémentaire équivalente. Cette information est utilisée pour compléter la valeur de la variable Cell Shape Uniformity si elle est manquante. taux manque 5% 10 % 20% 30% 40% 50% taux TP iris 94% 93% 94% 93% 94% 92 % taux TP breast 94% 95% 94% 94% 93% 93 % TABLE 6.5 – Le taux TP en fonction du taux de manque, l’imputation par la régression Les résultats de la table 6.5montrent que le taux de bonne classification n’est pas touché par le taux de manque de données. Si les méthodes d’imputation (moyenne) donne les mêmes valeurs pour les objets différents, la procédure de la régression marque la différence (donc la distance) ce qui permet de classer les exemples de la base d’une manière correcte. 6.4 Protocole des expérimentations 6.4.2 99 Synthèse des résultats La dégradation des performances du classifieur en fonction du taux de manque de données. Toutes les méthodes de gestion du manque (imputation, suppression) sont équivalentes lorsque le taux de manque n’est pas important (inférieur à 20 %). La méthode de suppression des données manquante (sans remplissage de données) n’est pas appropriée si le taux de manque dépasse le 20% (problème de la représentativité statistique). Les méthodes de remplissage par la moyenne ne sont pas appropriées dans un contexte de classification / clustering. Cela augmente le taux d’inconsistance dans la base. L’apport de la similarité des variables (imputation par régression) est trés bénéfique. L’apport de l’information complémentaire est également intéressant. En effet, une variable extérieure de la base de la classification (dans la même base ou d’autres sources de données) peut être en relation avec les attributs de la classification. Cette variable extérieure peut être utilisée pour compléter ou expliquer la variable en question s’il elle est manquante. Si l’information externe provient d’une source extérieure, on parle de la fusion de données. L’utilisation de nombre de voisins = 1 est à déconseiller, cela risque d’intervenir les objets inconsistants ou les objets ayant des valeurs aberrantes pour la imputation / classification. La fig 6.1 résume les résultats des trois méthodes de gestion d’incomplétude de données (imputation par moyenne, information supplémentaire er régression, ignorance des données manquantes) pour les trois bases de données. 6.4.3 Le cas d’imprécision de données Le but de cette partie est de tester les approches proposées pour la prise en compte de manque et de l’imprécision et l’incertitude des données pour l’extraction de connaissances , par intervalle et par la logique floue et l’approche hybride. Ces approches sont comparées en fonction de taux d’exactitude (bonne classification). La table suivante montre les résultats des transformations faites sur les bases(iris, credit et breast-w). L’approche mixte qui accepte les trois type de données( exact,intervalle,flou) est aussi perforante que les autres approches (intervalle et exacte) en terme de pourcentage de bonne classification , mais son atout est qu’elle accepte toutes les types de données (intervalle,exact et floue)et la distance est calculée en fonction de chaque type de donnée. Enfin la distance (similarité) totale est 100 C HAPITRE 6. Expérimentations F IGURE 6.1 – Synthèse des résultats des méthodes de gestion du manque la base la base précise l’approche intervalle l’approche hybride( floue,intervalle,précise ) iris 96% 96% 95% crédit 77% 68% 73% breast 96% 93% 94% TABLE 6.6 – Le taux de classification pour les différentes approches agrégée. Cette approche surmonte le problème des limites crispes des classes classiques et permet également à un objet d’appartenir à plusieurs classes en même temps mais avec des degrés différents. Son avantage est également la tolérance au mauvais choix des intervalles classiques ce qui rend les conséquences de l’erreur est minime par rapport à l’approche classique où s’il y a eu une erreur. Soit un objet à classer. Sa classe réelle est A. Dans l’approche floue si une erreur d’affectation est commise, l’objet reste toujours dans la classe mais avec un degré d’appartenance inférieure (0.7 par exemple). L’erreur dans ce cas est : 1-0.7 = 0.3. Dans l’approche de la classe classique, s’il y a eu une erreur d’affectation, cela signifie que l’objet est affecté à une autre classe que sa classe réelle, par conséquence son degré d’appartenance égale 0. L’erreur devient alors 1-0=1 La figure 6.2 montre la représentation de la variable floue revenu par personne de la base credit dans l’approche mixte. 6.5 Conclusion 101 F IGURE 6.2 – Représentation floue de la variable revenu par personne de la base credit 6.5 Conclusion Dans ce chapitre nous avons donné les résultats de test pour notre approche. Nous avons pu réaliser deux objectifs : Le cas de manque ; la solution d’imputation est la plus efficace que celle de suppression de données dans la classification par la similarité en exploitant la maximum de l’information disponible(la relation des variables incomplètes avec les autres variables et l’information supplémentaire). L’approche qui combine les type hétérogènes de données (imprécises, floues, précises..) montre des performances similaires à l’approche classique. En plus elle est supérieure puisque elle peut accepter les données imparfaites alors que les autres approches ne sont pas appropriés pour un tel contexte. 102 C HAPITRE 6. Expérimentations Conclusion et perspectives Nous avons décrit dans ce travail, une approche que nous avons proposée pour la prise en compte de manque et de l’imprécision et l’incertitude des données pour l’extraction de connaissances par des approches différentes ; par intervalle et par la logique floue et l’approche hybride. Ces approches sont comparées. Pour le manque de données, les tests ont monté l’effet de l’incomplétude de manque sur la précision du classifieur. Les deux approches sont également testées sur les bases de données. L’approche qui consiste à ignorer les données manquantes et l’approche par remplissage de données. Les tests et les expérimentations ont montré que la qualité de connaissances extraites dépend de plusieurs facteurs mais dépend directement de la qualité de données en question. En effet, la présence de données aberrantes et incertaines et imprécises et les exemples inconsistants est un facteur qui affecte sur les pertinences de connaissances. Les connaissances et les paramètres extraites à partir de données incertaines et imprécises sont également des connaissances incertaines. Les autres facteurs influant sur la qualité de la connaissance sont : – Le taux de manque de données. – La qualité des variables (pertinentes ou non). – La taille de la base (la représentativité). – Le motif d’incomplétude (aléatoire ou non). Les méthodes d’imputation sont nécessaires si le taux de manque de données est important (supérieur à 30% ). Les méthodes d’imputation statistiques simplistes telles que l’imputation par mode/moyenne n’est pas appropriée dans le contexte de classification / clustering. Par contre l’utilisation des mesures de similarité des individus (knn, seuil) ou la similarité des variables (régression) est très bénéfique. Cette mesure permet de garder les relations et la structure de la base. Le problème est que la notion de similarité est un principe et non pas une technique, la tache la plus difficile est comment définir cette notion pour la mesurer. Cela inclut le choix des paramètres (la 104 Conclusion et perspectives fonction de distance , le nombre de voisins k, la seuil de similarité , le choix des variables importantes..). Cette tache devient plus complexe dans un contexte d’imprécision et d’incertitude et de manque où ces paramètres sont à extraire à partir de données observées. La complétion de données est une la meilleure solution mais le problème est d’assurer la qualité de complétion. Pour le remplissage de données les méthodes d’imputation simple ne sont pas appropriées. Il faut penser à des méthodes de remplissage orienté data mining qui exploite la similarité entre les variables (régression) et la similarité entres les individus (l’imputation KNN) Perspectives Comme projection future de ce travail, il est utile de : – Envisager une validation empirique de notre approche, à grande échelle, pour l’améliorer et apporter les correctifs nécessaires. – Appliquer notre approche basée sur la similarité hybride (floue et/ou intervalle)pour compléter les données dans un conteste d’imprécision pour les autres techniques : 1. Supervisée (arbre de décision par exemple pour voir les performances) 2. Non supervisée (clustering , motifs fréquents et règles d’association .. ) 105 Bibliographie Bibliographie [AC98] W.-H. Au and K. Chan. An effective algorithm for discovering fuzzy rules in relational databases. In IEEE World Congress on Computational Intelligence, pages 1314–1319, 1998. [AFSS98] M Wong. A. Fu, W. Wong S Sze, and W Yu . Finding fuzzy sets for the mining of fuzzy association rules for numerical attributes. In In the 1st International Symposium on Intelligent Data Engineering and Learning (IDEAL), 1998. [AM] Ben Amor.Sarah and Jean-Marc Martel. Le choix d’un langage de modélisation des imperfections de l’information en aide à la décision. [AP01] R. C. Agarwal and V. Prasad. A tree projection algorithm for generation of frequent item sets. In Journal of Parallel and Distributed Computing 61-3 Special issue on high-performance data mining, pages 350–371, 2001. [APDR77] N. M. Laid A. P. Dempster and D. B. Rubin. Maximum likelihood from incomplete data via the em algorithm. Journal of the Royal Statistical Society, 39(1) :1–38, 1977. [AR93] Swami A. Agrawal R., Imielinski T. Mining association rules between sets of items in large database. Proceedings of the ACM SIGMOD International Conference on Management of Data, Washington, DC, 10 :207–216, May 1993. [AWP02] Nakamura Y. Armstrong W. and Rudnicki P. Armstrong’s axioms. In Journal of formalized mathematics, 14, 2002. [BH97] M. R. Berthold and K.-P. Huber. Tolerating missing values in a fuzzy environment. In 7th IFSA World Congress, Prag, 1 :359–362, 1997. [BH98] M. R. Berthold and K.-P. Huber. Missing values and learning of fuzzy rules. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 1998. 106 BIBLIOGRAPHIE [Bis00] Gilles Bisson. La similarite : Une notion symbolique/numerique. 2000. [BP04] Pivert O. et Rocacher D. Bosc P., Liétard L. Gradualité et imprécision dans les bases de données. Ellipses Marketting, Technosup, 2004. [CA83] K. Chan and W.-H. Au. Mining fuzzy association rules. In In 6th International Conference on Information and Knowledge Management(CIKM ’97), pages 209– 215, 1983. [CHWC04] C.-H. Wun C.-H. Wu and H.-J. Chou. Using association rules for completing missing data. In In 4th International Conference on Hybrid Intelligent Systems (HIS’04), pages 236–241, 2004. [CMKH98] A. W.-C. Fu C. M. Kuok and M. H.Wong. Mining fuzzy association rules in databases. ACM SIGMOD Record, 27(1) :41–46, 1998. [D.02] Bosc P.and Cholvy L.and Dubois D. Les informations incomplètes dans les bases de données et en intelligence articielle. In Actes des 2è assises nationales du GRD i3, 2002. [DR00] Zighed D. and Rakotomalala R. Graphes d’induction : apprentissage automatique et data mining. Hermes., pages 82–88, 2000. [Dyr97] C. E Dyreson. Uncertainty Management in Information Systems, chapter A Bibliography on Uncertainty Management in Information Systems. Kluwer Academic Publishers., 1997. [E.79] Codd E. Extending the data relational model to capture more meaning. Transactions of ACM on database systems, 4, 1979. [Fio06] Céline Fiot. Quelques techniques de fouille de données. Master Pro, 2006. [Fio07] Céline Fiot. Extraction de séquences fréquentes :des données numériques aux valeurs manquantes. PhD thesis, Université Montpellier II, 2007. [FU96a] Smyth.P Fayyad U., Piatetsky-shapiro G. From data mining to knowledge discovery : an overview. advances in knowledge discovery and data mining. pages 16–34, 1996. [FU96b] Smyth.P Fayyad U., Piatetsky-shapiro G. From data mining to knowledge discovery in databases. AI Magazine, 17 :37–57, 1996. BIBLIOGRAPHIE [FU96c] 107 Smyth.P Fayyad U., Piatetsky-shapiro G. Knowledge discovery and data mining : Towards a unifying framework. in knowledge discovery and data mining. pages 82–88, 1996. [FU98] Piatetsky-Shapiro G.and Smyth.P Fayyad U. From data mining to knowledge discovery in databases advices in knowledge discovery and data mining. MIT Press, pages 1–36, 1998. [GBH01] J. Grzymala-Busse and M. Hu. A comparison of several approaches to missing attribute values in data mining. In RSCTC ’00 : Revised Papers from the Second International Conference on Rough Sets and Current Trends in Computing, London,UK, pages 378–385, 2001. [GCK00] Q. Wei G. Chen and E. Kerre. Discovery of fuzzy generalized association rules. Recent Research Issues on Management of Fuzziness in Databases, 2000. [God99] Jelena Godjevac. Idées nettes sur la logique floue. Presses polytechniques et universitaires Romandes Lausanne, 1999. [Gye00] A. Gyenesei. A fuzzy approach for mining quantitative association rules. Rapport technique TUCS-TR-336.Turku Centre for Computer Science, 2000. [Had02] Med Haddad. Extraction et impact des connaissances sur les performances des systèmes de recherche d’information, 2002. [HK99] Timm .H and Klawonn.F. Different approaches for fuzzy cluster analysis with missing values. In 7th European Congress on Intelligent Techniques and Soft Computing, 1999. [HK00] J. Han and M. Kamber. Data Mining : Concepts and Techniques. Morgan Kaufmann Publishers, 2000. [HNJ01] Lipsitz R. S. Horton N. J. Multiple imputation in practice : Comparison of software packages for regression models with missing variables. The American Statistician, pages 244–254, 2001. [HS05a] M.-L. Shyu Hewawasam, K. Premaratne and S.P. Rule mining and classification in imperfect databases. In In Proceedings Of The Seventh International Conference On Information Fusion, pages 661–668, 2005. [HS05b] M.-L. Shyu Hewawasam, K. Premaratne and S.P. Rule mining and classification in the presence of feature level and class label ambiguities. In in Intelligent and 108 BIBLIOGRAPHIE Unmanned Systems, Intelligent Computing : Theory and Applications III, ser. Proc. SPIE.Defense and Security Symposium 2005., 2005. [HTK03] C. Doring H. Timm and R. Kruse. Different approaches to fuzzy clustering of incomplete datasets. International Journal of Approximate Reasoning, 35, 2003. [Hui00] M. Huisman. Poststratification to correct for nonresponse : Stratification of zip code areas. In Computational Statistics (COMPSTAT’00 ), pages 235–330, 2000. [IDR03] ALI IDRI. Un modèle intelligent d’estimation des coûts de développement de logiciel. PhD thesis, université du Québec à Montréal, 2003. [Jol03] François-Xavier Jollois. Contribution de la classicationautomatique à la Fouille de Données. PhD thesis, Université de Metz, 2003. [Lat03] R. Latkowski. On decomposition for incomplete data. Fundam. Inf, 54(1) :1–16, 2003. [LBS84] R. A. Olshen L. Breiman, J. H. Friedman and C. J. Stone. Classication anregression trees, 1984. [Lie07] J. Lieber. fortement mais librement inspire du cours d’amedeo napoli. fouille de données : notes de cours. 2007. [Lit85] D. Little, R. et Rubin. In John Wiley and Sons, editors, Statical analysis with missing data, 1985. [LKXj03] WANG Li-li LUO Ke and TONG Xiao-jiao. Mining association rules in incomplete information systems. Springer, 15 :733–737, 2003. [LL99] M. Levene and Loizou. Database design for incomplete relations areas. ACM Transactions on Database Systems, pages 80–126, 1999. [M.00] KRYSZKIEWICZ M. Probabilistic approach to association rules in incomplete databases. In London :Springer-Verlag, editor, Proceedings of 1st International Conference on Web-Age Information Management, pages 133–138, 2000. [M.03] Kantardzic M. Data mining - concepts, models, methods,and algorithms. IEEE Press ,Piscataway, NJ, USA, 2003. [MA08] KHALED. M MOHAMED A.B.T, BOUTHEINA B.Y. A new algorithm for mining frequent itemsets from ividential databases. In torremolinos, editor, Proceedings of IPMU’08, pages 1535–1542, june 2008. BIBLIOGRAPHIE [Mag04] 109 M Magnani. Techniques for dealing with missing data,in knowledge. Pearson Education., 2004. [MDV02] D. Sanchez M. Delgado and M.-A. Vila. Acquisition of fuzzy association rules from medical data. Fuzzy Logic in Medicine, Studies in Fuzziness and Soft Computing Series, pages 286–310, 2002. [NC01] J. Nayak and D. Cook. Approximate association rule mining. In In Florida Artificial Intelligence Research Symposium, 2001. [NG00] J.-P. Nakache and A. Gueguen. Analyse multidimensionnelle de données incomplètes. Rapport technique, CNRS/INSERM U88-IFR69, 2000. [NL98] V. Ng and J. Lee. Quantitative association rules over incomplete data. In In IEEE International Conference, pages 2821–2826, 1998. [Paw82] Z Pawlak. Rough sets. Int. J. Inf. Comp. Sci., 11(5) :341–356, 1982. [PD96] Adriaans P. and Zantinge D. Data mining. Addison Wesley., 1996. [Pea06] R. Pearson. The problem of disguised missing data. ACM SIGKDD Explorations Newsletter, 8(1) :83–92, 2006. [PS91] G. Piatetsky-Shapiro. Discovery, analysis, and presentation of strong rules. in g. piatetsky-shapiro and w. j. frawley. AAAI/ MIT press, pages 229–238, 1991. [Qui86] J. R. Quinlan. Induction of decision trees, 1986. [Qui89] J. R. Quinlan. Unknown attribute values in induction. 1989. [Qui93] J. R. Quinlan. C4.5 : Programs for Machine Learning. Morgan Kaufmann Publishers, 1993. [RAS93] T. Imielinski R. Agrawal and A. N. Swami. Mining association rules between sets of items in large databases. In In the ACM SIGMOD International Conference on Management of Data, pages 207–216, 1993. [RC98] A. Ragel and B. Crémilleux. Treatment of missing values for association rules. In Pacific-Asia Conference on Knowledge Discovery and Data Mining, pages 258– 270, 1998. [RC99] A. Ragel and B. Crémilleux. Mvc a preprocessing method to deal with missing values. Knowledge-Based Systems Journal, pages 285–291, 1999. 110 [RC04] BIBLIOGRAPHIE F. Rioult and B. Crémilleux. Représentation condensée en présence de valeurs manquantes. In In XXIIème Congrès Informatique des organisations et systèmes d’information et de décision (INFORSID’04), pages 301–317, 2004. [RD87] Little R.J. and Rubin D.B. Statical analysis with missing data. 1987. [RD02] Little R.J. and Rubin D.B. In John Wiley and New York Sons, editors, Statical analysis with missing data, 2002. [RUE02] MAGALI RUET. Capitalisation et réutilisation dexpériences dans un contexte multiacteur. PhD thesis, Institut National Polytechnique de Toulouse, 2002. [SA96] R. Srikant and R. Agrawal. Mining quantitative association rules in large relational tables. In In Proceedings of the 1996 ACM SIGMOD International Conference on Management of Data, 1996. [SAH96] D.A. Bell S. Anand and J.G. Hughes. Edm :a general framework for data mining based on evidence theory. Data and Knowledge Engineering, 18 :189–223, 1996. [Sha93] G. Shafer. A mathematical theory of evidence. Princeton University Press, Princeton, N.J, 19761993. [SJTJS05] G. Loizou S. Jami T.Y. Jen, D. Laurent and O. Sy. Extraction de règles d’association pour la prédiction de valeurs manquantes. Revue Africaine de la Recherche en Informatique et Mathématique appliquée (Numéro spécial CARI’04), pages 103– 124, 2005. [S.T02] S.Tufféry. data mining et scoring, bases de données et gestion de la relation client groupe bancaire francais, 2002. [TCM07] B. Goethals T. Calders and M. Mampaey. Mining itemsets in the presence of missing values. In ACM Symposium on Applied Computing (SAC’07), 2007. [TPHW00] S.-Chai C. T.-P. Hong, C.-S. Kuo and S.-L. Wang. Mining fuzzy rules from quantitative data based on the apriori tid algorithm. In ACM symposium on Applied computing (SAC’00), pages 534–536, 2000. [TPHW03] K.-Y. Lin T.-P. Hong and S.-L. Wang. Fuzzy data mining for interesting generalized association rules. Fuzzy Sets and Systems, pages 255–269, 2003. [WF00] S. M. Weiss and N. IndurkhyaWilliam Fulton. Decision-rule solutions for data mining with missing values. In In the 7th International Joint Ibero-American Conference on AI : Advances in Artificial Intelligence, volume 1952, 2000. BIBLIOGRAPHIE [WHI87] 111 A. P. WHITE. Probabilistic induction by dynamic path generation in virtual trees. In Cambridge University Press, editor, In Proc. 6th conference Expert Systems ES 86, pages 35–46, 1987. [Wri98] P. Wright. The significance of the missing data problem in knowledge discovery. 1998. [WZLB97] S. G. Thompson W. Z. Liu, A. P. White and M. A. Bramer. Techniques for dealing with missing values in classiffcation. In Computer Science, editor, Advances in Intelligent Data Analysis, Reasoning about Data, volume 1280, 1997. [Yag01] Ronald Yager. Induced owa aggregation in case based reasoning. 2001. [YCHC04] G.-H. Tzeng Y.-C. Hu and C.-M. Chen. Deriving two-stage learning sequences from knowledge in fuzzy sequential pattern mining. Information Sciences, pages 69–86, 2004. [Zad65] L Zadeh. Fuzzy sets. Information and Control, 3 :338–353, 1965.