Extraction de connaissances à partir de données incomplètes et

publicité
UNIVERSITE DE M’SILA
FACULTÉ DE M ATHÉMATIQUES ET I NFORMATIQUE
DEPARTEMENT D’INFORMATIQUE
N˚ d’ordre
/
/
/
/
/
/
/
/
MEMOIRE
Présenté pour l’obtention du diplôme de :
MAGISTER
Spécialité : Informatique
0ption : Ingénierie des systèmes d’informatique
Par
BRAHIMI Belgacem
Thème :
Extraction de connaissances à partir de données
incomplètes et imprécises
Présenté et soutenu publiquement le :03 /07/2011 devant le jury composé de :
B.BOUDERAH
P ROFESSEUR U NIVERSITÉ DE M’ SILA
Président
A.MOUSSAOUI
M.C. UFA- S ÉTIF
Rapporteur
M.BOURAHLA
M.C U NIVERSITÉ DE M’ SILA
Examinateur
M.BENMOHAMED
P ROFESSEUR U.M C ONSTANTINE
Examinateur
/
/
/
DEDICACES
A mon père et ma mère, qui m’ont vraiment tout donné ;
A ma femme, qui m’a aidé ;
A Ibtihel et Meriem, mes chères filles.
A mes frères et mes sœurs.
Remerciements
Je remercie tout d’abord le grand Dieu pour m’avoir donnée le courage et la santé pour accomplir ce travail.
Ce travail n’aurait pas pu aboutir à des résultats sans l’aide et les encouragements de plusieurs
personnes que je remercie.
Mes vifs remerciements accompagnés de toute ma gratitude vont ensuite à mon promoteur
MOUSSAOUI ABDELOUAHAB, maître de conférence à l’université de Sétif, pour ses conseils
judicieux, sa grande disponibilité et pour m’avoir suivie et orientée.
Je remercie gracieusement Monsieur Brahim BOUDERAH, Professeur à l’université de M’sila,
pour son support, son aide durant nos études de post-graduation. Les chefs des départements informatique et STIC, Mr. BENAZZI Makhlouf, BRAHIMI Mahmoud ainsi que le président du conseil
scientifique Mr. BOURAHLA Mustapha pour leur soutien scientifique et moral. Les membres de
jury qui m’ont fait un grand honneur en acceptant la valorisation de ce modeste mémoire.
Enfin, que tous ceux qui nous ont aidés et encouragés de prés ou de loin dans la concrétisation
de ce projet, trouvent ici ma gratitude et mes sincères remerciements.
4
Résumé
L’extraction de connaissances à partir de données (ECD) est définie comme un processus de
découverte d’informations implicites, inconnues auparavant et potentiellement utiles à partir de
données. Ce processus se fait en plusieurs étapes : préparation des données (recherche, nettoyage
et codage des données), fouille des données (recherche d’un modèle de connaissances), validation
et interprétation du résultat et enfin intégration des connaissances apprises.
Cependant, il se trouve que dans beaucoup de domaines, les données représentées sont incomplètes et/ou imprécises ce qui rend leur exploitation très difficile et/ou impossible d’autant plus que
la dimensionnalité élevée des bases de données complexifie la tâche d’extraction de connaissances
à partir de cette masse de données.
Nous proposons dans ce travail de magister des solutions pour l’amélioration des techniques
d’extraction de connaissances à partir de données tout en en prenant en compte la nature des
données hétérogènes, incomplètes, incertaines ou incertaines en utilisant la notion de la similarité.
Mots-clés : données incomplètes, données imprécises, logiques floue, extraction de connaissances, similarité.
Abstract :
Extracting knowledge from data (KDD) is defined as a process of discovery of implicit information, unknown earlier and potentially useful from the data. This process is several steps : data
preparation (research, cleaning and data coding), data mining (looking for a model, knowledge),
validation and interpretation of results and finally integration knowledge learned. However, it turns
out that in many areas the data representation is incomplete and / or inaccurate which makes their
operation very difficult or impossible especially since the high dimensionality databases complicates the task of knowledge extraction From this mass of data.
We propose in this work solutions for improved techniques for extracting knowledge from data
while taking into account the nature of heterogeneous data, incomplete, uncertain or uncertain
using the notion of similarity.
Keywords : incomplete data, imprecise data, fuzzy logic, knowledge extraction, similarity.
5
TABLE DES MATIÈRES
i
Table des matières
Introduction générale
1
1
Le processus ECD
5
1.1
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
1.2
Le processus d’ECD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
1.3
Les étapes d’un processus d’extraction de connaissances à partir des données . . .
6
1.3.1
Nettoyage et intégration des données . . . . . . . . . . . . . . . . . . . .
6
1.3.2
Prétraitement des données . . . . . . . . . . . . . . . . . . . . . . . . . .
7
1.3.3
Fouille de données (Data Mining) . . . . . . . . . . . . . . . . . . . . . .
7
1.3.4
Evaluation et présentation . . . . . . . . . . . . . . . . . . . . . . . . . .
7
Fouille de données (data mining) . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
1.4.1
Historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
1.4.2
Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
1.4.3
Principales tâches de fouille de données . . . . . . . . . . . . . . . . . . . 10
1.4.4
Les méthodes de data mining . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4.5
Différents types de base de données . . . . . . . . . . . . . . . . . . . . . 12
1.4
1.5
2
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
L’information imparfaite
15
2.1
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2
Les type d’imperfection des données . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.1
L’erreur (l’information incorrecte) . . . . . . . . . . . . . . . . . . . . . . 16
2.2.2
L’information Imprécise . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.3
L’information incomplète . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.4
L’information incertaine . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
ii
TABLE DES MATIÈRES
2.3
Les causes d’imperfection des données . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4
Problèmes liés en présence des valeurs manquantes ou imprécises . . . . . . . . . 20
2.5
Quelques représentations des informations imparfaites . . . . . . . . . . . . . . . 21
2.5.1
Bases de données probabilistes . . . . . . . . . . . . . . . . . . . . . . . . 21
2.5.2
La théorie des ensembles approximatifs
Rough(approximate) set theory . . . . . . . . . . . . . . . . . . . . . . . . 22
2.5.3
Le modèle flou . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.6
Les types de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.7
Les méthodes de traitement des données manquantes. . . . . . . . . . . . . . . . . 26
2.8
Les méthodes d’imputation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.9
2.8.1
Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.8.2
L’imputation simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.8.3
Dangers de l’imputation . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.8.4
L’imputation multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
Détection et traitement des points aberrants . . . . . . . . . . . . . . . . . . . . . 33
2.9.1
Comment détecter les points aberrants . . . . . . . . . . . . . . . . . . . . 36
2.10 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.11 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3
Le ECD et les données imparfaites : L’état de l’art
41
3.1
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.2
Traitement des données imparfaites (incomplètes, imprécises ou incertaines) . . . . 41
3.3
3.2.1
Statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2.2
Bases de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2.3
Ensembles flous et d’approximation . . . . . . . . . . . . . . . . . . . . . 44
3.2.4
Valeurs manquantes en classification et segmentation . . . . . . . . . . . . 47
3.2.5
Règles de décision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.2.6
Arbres de décision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.2.7
Clustering des données incomplètes . . . . . . . . . . . . . . . . . . . . . 49
3.2.8
Règles d’association, valeurs manquantes et complétion . . . . . . . . . . 50
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
TABLE DES MATIÈRES
iii
4
55
La similarité
4.1
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.2
Similarité et Distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Similarité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.2.2
Distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.2.3
Pondération des attributs . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.3
Les applications de la similarité . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.4
Quelques mesures de similarité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.5
4.6
4.7
4.8
5
4.2.1
4.4.1
Distance euclidienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.4.2
Distance de Manhattan . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.4.3
Distance de Minkowski . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.4.4
Normalisation
4.4.5
Distance euclidienne hétérogène (HEOM) . . . . . . . . . . . . . . . . . . 59
4.4.6
Sélection des cas proches voisins . . . . . . . . . . . . . . . . . . . . . . 60
La logique floue
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.5.1
Historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.5.2
Théorie des sous-ensembles flous . . . . . . . . . . . . . . . . . . . . . . 63
4.5.3
Utilité des ensembles flous . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.5.4
Opérations sur les ensembles flous . . . . . . . . . . . . . . . . . . . . . . 65
Distance entre deux sous-ensembles flous . . . . . . . . . . . . . . . . . . . . . . 67
4.6.1
Distance de Hamming . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.6.2
Distance euclidienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
L’agrégation multicritère . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.7.1
Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.7.2
Le quantificateur linguistique flou . . . . . . . . . . . . . . . . . . . . . . 68
4.7.3
L’opérateur d’agrégation OWA . . . . . . . . . . . . . . . . . . . . . . . . 69
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
L’approche proposée
71
5.1
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.2
Méthode des KNN (k Nearest Neighbours) . . . . . . . . . . . . . . . . . . . . . . 73
5.3
KNN imputation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.3.1
Avantages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
iv
TABLE DES MATIÈRES
5.3.2
5.4
Le choix d’un langage de modélisation des imperfections de l’information . . . . . 78
5.5
Approche proposée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.6
6
Points critiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.5.1
Problème de manque de données : . . . . . . . . . . . . . . . . . . . . . . 82
5.5.2
Problème de données imprécises : . . . . . . . . . . . . . . . . . . . . . . 83
5.5.3
Résume de notre approche . . . . . . . . . . . . . . . . . . . . . . . . . . 86
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
Expérimentations
91
6.1
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
6.2
Évaluation du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
6.3
Critères de choix des bases de données . . . . . . . . . . . . . . . . . . . . . . . . 93
6.4
Protocole des expérimentations . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
6.5
6.4.1
Le cas de manque de données . . . . . . . . . . . . . . . . . . . . . . . . 94
6.4.2
Synthèse des résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
6.4.3
Le cas d’imprécision de données . . . . . . . . . . . . . . . . . . . . . . . 99
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
Conclusion et perspectives
103
Bibliographie
105
v
TABLE DES FIGURES
Table des figures
1.1
Les différentes étapes du processus d’ECD [Jol03] . . . . . . . . . . . . . . . . .
6
2.1
L’approximation de l’ensemble X . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2
L’imputation par le modèle de régression . . . . . . . . . . . . . . . . . . . . . . . 29
2.3
L’imputation multiple : étape 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.4
L’imputation multiple : étape 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.5
L’imputation multiple : étape 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.6
Représentation des données x et y . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.7
Un point suspect (bruit)
3.1
La prise en charge des données manquantes dans le processus d’ECD . . . . . . . 53
4.1
La notion de la similarité entre deux objets . . . . . . . . . . . . . . . . . . . . . . 56
4.2
Le choix de K voisins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.3
Représentation floue et classique . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.4
Ensembles flous définis pour la caractéristique " Age " . . . . . . . . . . . . . . . 66
5.1
Les trois classes de la base Iris (fleurs) . . . . . . . . . . . . . . . . . . . . . . . . 72
5.2
L’approche par désactivation de données manquantes . . . . . . . . . . . . . . . . 88
5.3
L’approche par complétion des données manquantes . . . . . . . . . . . . . . . . . 89
5.4
L’approche hybride (précise, intervalle, floue) . . . . . . . . . . . . . . . . . . . . 90
6.1
Synthèse des résultats des méthodes de gestion du manque . . . . . . . . . . . . . 100
6.2
Représentation floue de la variable revenu par personne de la base credit . . . . . . 101
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
vi
TABLE DES FIGURES
vii
LISTE DES TABLEAUX
Liste des tableaux
2.1
Table de données univariée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2
Table de données multi variée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3
Table de données complètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.4
Table de données incomplètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.5
Les données après le remplissage par la moyenne . . . . . . . . . . . . . . . . . . 31
2.6
Les données de l’exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.7
Les données avec un bruit
5.1
Une partie de la base Iris . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.2
La distance entre l’objet 1 et les autres objets . . . . . . . . . . . . . . . . . . . . 78
6.1
Le taux de précision en fonction du taux de manque de la base iris . . . . . . . . . 96
6.2
Le taux de bonne classification pour les méthodes d’imputation de la base iris . . . 96
6.3
Le taux de bonne classification pour les méthodes d’imputation de la base crédit . . 97
6.4
Le taux de bonne classification pour les méthodes d’imputation de la base breast-w
6.5
Le taux TP en fonction du taux de manque, l’imputation par la régression . . . . . 98
6.6
Le taux de classification pour les différentes approches . . . . . . . . . . . . . . . 100
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
97
Introduction générale
Contexte
Dans de nombreux domaines, il est nécessaire de prendre des décisions critiques, dans un
contexte parfois difficile et en un temps limité. Par exemple, un médecin qui doit prendre une
décision rapide pour traiter un cas urgent, fait appel à ses connaissances et expériences pour prendre
sa décision. Mais il ne peut pas se souvenir de tous les dossiers qu’il a traités et étudiés depuis des
années.
Les outils informatiques peuvent apporter une aide précieuse dans ce cas, car ils peuvent
prendre en compte un grand nombre de cas déjà traités et proposer pour un nouveau cas une
décision fondée sur la compilation de tous les cas passés. Il peut arriver que les données issues
du monde réel ne soient pas complètes. Elles peuvent contenir des informations non renseignées,
par exemple parce qu’une personne a refusé de ré- pondre à certaines questions, parce que certains
tests ne peuvent pas être effectués, les données peuvent être également imprécises, pour manque
de rigueur de précision ou différence des unités de mesures. etc.
L’ignorance des valeurs imparfaites (manquantes, imprécises..) peut rendre la décision non
représentative et donc être dangereuse.
L’extraction de connaissances à partir des données (ECD) est un processus non trivial d’identification de structures inconnues, valides et potentiellement utiles dans les bases de données [FU96b].
Son objectif est d’aider l’être humain à extraire les informations utiles (connaissances) à partir
de données dont le volume croît très rapidement. Les étapes de ce processus sont, l’acquisition
de données multiformes (textes, images, séquences vidéos, etc.), la préparation de données (prétraitement), la fouille de données, et enfin la validation et mise en forme des connaissances.
La Fouille de Données (Data Mining) [PD96] , [DR00] se situe dans le cadre de l’apprentissage inductif. Cette phase fait appel aux multiples techniques qui permettent de découvrir les
2
Introduction générale
connaissances auparavant cachées dans les données et d’aider à la décision.
Problématique
Le problème des valeurs imparfaites (manquantes, imprécises..) est un problème connu dans le
domaine de la fouille de données et de l’apprentissage automatique où, dans la base d’apprentissage, on rencontre des objets ayant des valeurs manquantes et/ imprécises pour certains attributs.
Cela arrive pendant la phase d’acquisition des données du processus de l’ECD. Les données sont
manquantes parce qu’on ne les a peut-être pas enregistrées, ou bien que leur acquisition est trop
coûteuse, etc. Prendre une décision en présence de données imparfaites est une tâche difficile. Par
exemple, la santé est un domaine où l’incertitude prend une importance considérable ; prendre une
seule décision dans l’incertitude peut être dangereux.
En effet, il existe des niveaux de difficulté relative à l’incertitude et à l’imprécision :
– L’incertitude au niveau des données, le modèle est construit à partir des données probablement incertaines et imprécises (estimées) et ne sont pas des données nécessairement réelles.
– L’incertitude au niveau du modèle de connaissance, le modèle (régression, classification. . .)
est lui-même incertain et /ou imprécis même s’il est construit à partir des données complètes
et réelles.
Les natures de cette imperfection des connaissances sont au nombre de trois [AM] :
1. Les incertitudes concernant un doute sur la validité d’une connaissance.
2. Les imprécisions correspondent à une difficulté dans l’énoncé de la connaissance.
3. Les incomplétudes sont des absences de connaissances ou des connaissances partielles sur
certaines caractéristiques du système.
La question qui se pose, alors, est " Comment modéliser ces imperfections, et comment les
utiliser pour l’extraction des connaissances de façon automatique ?".
Objectifs :
Notre contribution est d’apporter des solutions pour la prise en compte des données imparfaites
lors de l’extraction des connaissances dans les deux niveaux (apprentissage, test),puisque c’est le
cas le plus souvent dans la réalité, l’idée de base de notre solution est que les individus d’un
Introduction générale
3
même groupe (classe) sont homogènes et similaires. Par contre les individus appartenant à des
classes différentes ont des propriétés différentes. C’est une propriété fondamentale caractérisant
les individus et leurs groupes. Nous avons utilisé la notion de la similarité des individus est la
relation avec leur groupe (classe) pour les deux niveaux :
1. Pré traitement des données.
2. Fouille de données (data mining) ; nous avons proposé des modifications des algorithmes
classiques d’extraction pour tenir en considération la présence des données imparfaites (manquantes, imprécises..).
Malheureusement, et à notre connaissance modeste il n’existe pas un modèle (flou, possibiliste)
qui permet de représenter tous les cas d’imperfection (manque, imprécision, incertitude). Pour cela
une combinaison de plusieurs modèles est nécessaire.
Pour les données imprécises, nous avons proposé le découpage des valeurs numériques en
intervalles. Cette solution nous permet de surmonter les valeurs imprécises (plusieurs valeurs, intervalle..). Pour le problème des limites des intervalles, une approche floue est introduite. Pour le
cas de manque de données, nous avons utilisé la notion de la similarité pour :
1. Prédire les valeurs manquantes.
2. Classer un objet ayant des valeurs manquantes, on a proposé des améliorations des techniques basées sur la similarité (classification, clustering...) pour classer un individu incomplet.
Organisation du mémoire
Notre mémoire est composé de six chapitres.
Le premier chapitre présente les concepts du data mining, où sont décrites les différentes étapes
d’un processus d’extraction de connaissances à partir des données. Parmi ces étapes, nous détaillons la phase de fouille de données.
Le deuxième chapitre est consacré pour définir l’information imparfaite, les types de l’imperfection de donnée, les causes et les conséquences liées à l’existence des données imparfaites. Nous
présentons également quelques modèles et langages pour modéliser l’imprécision de données.
Le but du troisième chapitre est de présenter l’état de l’art des travaux permettant la prise en
compte des valeurs incomplètes et imprécises lors d’une fouille de données avec les inconvénients
4
Introduction générale
et les limites et les contraintes posées par quelques approches. Dans le quatrième nous abordons
la notion de la similarité est ses applications et quelques mesures. La Deuxième partie du chapitre
est faite pour présenter le modèle flou pour définir la similarité entre les objets flous.
Dans le cinquième chapitre nous introduisons notre approche basée sur la similarité floue est
la modification des approches classique pour prendre en charge l’imperfection de données.
Le sixième chapitre présente les résultats obtenus dans le cadre de notre proposition. La conclusion et les perspectives de ce travail seront présentées à la fin du mémoire.
Chapitre 1
Le processus ECD
1.1
Introduction
L’extraction de Connaissances dans les Bases de Données (E.C.B.D.) est une discipline récente,
à l’intersection des domaines des bases de données, de l’intelligence artificielle, de la statistique,
des interfaces homme / machine et de la visualisation. A partir de données collectées par des
experts, il s’agit de proposer des connaissances nouvelles qui enrichissent les interprétations du
champ d’application, tout en fournissant des méthodes automatiques qui exploitent cette information.
Dans cette partie, nous allons donner un aperçu général sur le processus ECD (définition,
étapes. . .) notamment sur l’étape fouille de données (data mining).., les techniques utilisées (motif,
règle d’association, classification . . .) et différents types de base de donnés qu’on rencontre lors de
l’extraction des données. Enfin nous terminons par la conclusion.
1.2
Le processus d’ECD
Le processus d’extraction de connaissances dans les bases de données (ECD). Présenté sur la
figure 1.1 désigne l’ensemble des opérations qui permettent d’exploiter avec facilité et rapidité
des données stockées massivement. Il s’agit d’un processus non trivial, consistant à identifier dans
les données des schémas nouveaux, valides, potentiellement utiles et surtout compréhensibles et
utilisables [FU96a].
Le processus d’ECD peut avoir deux objectifs, soit vérifier les hypothèses d’un utilisateur, soit
6
C HAPITRE 1. Le processus ECD
F IGURE 1.1 – Les différentes étapes du processus d’ECD [Jol03]
découvrir de nouveaux motifs. Un motif, ou schéma, est une expression dans un langage spécifique
qui décrit un sous-ensemble de données ou un modèle applicable à ce sous-ensemble [FU96c].
1.3
Les étapes d’un processus d’extraction de connaissances à
partir des données
Ce processus comporte quatre étapes principales :
– Nettoyage et intégration des données,
– la préparation des données,
– la fouille de données (data mining)
– l’interprétation.
1.3.1
Nettoyage et intégration des données
Le nettoyage des données consiste à traiter ces données bruitées, soit en les supprimant, soit
en les modifiant de manière à tirer le meilleur profit. L’intégration est la combinaison des données
1.3 Les étapes d’un processus d’extraction de connaissances à partir des données
7
provenant de plusieurs sources (base de données, sources externes, etc.). Le but de ces deux opérations est de générer des entrepôts de données et/ou des magasins de données spécialisés contenant
les données traitées pour faciliter leurs exploitations futures.
1.3.2
Prétraitement des données
Il peut arriver parfois que les bases de données contiennent à ce niveau un certain nombre de
données incomplètes et/ou bruitées. Ces données erronées, manquantes ou inconsistantes doivent
être traitées si cela n’a pas été fait précédemment. Dans le cas contraire, durant l’étape précédente,
les données sont stockées dans un entrepôt. Cette étape permet de sélectionner et transformer des
données de manière à les rendre exploitables par un outil de fouille de données. Cette seconde étape
du processus d’ECD permet d’affiner les données. Si l’entrepôt de données est bien construit, le
prétraitement de données peut permettre d’améliorer les résultats lors de l’interrogation dans la
phase de fouille de données.
1.3.3
Fouille de données (Data Mining)
La fouille de données (data mining en anglais), est le cœur du processus d’ECD. Il s’agit à
ce niveau de trouver des pépites de connaissances à partir des données. Tout le travail consiste à
appliquer des méthodes intelligentes dans le but d’extraire cette connaissance. Il est possible de
définir la qualité d’un modèle en fonction de critères comme les performances obtenus, la fiabilité,
la compréhensibilité, la rapidité de construction et d’utilisation et enfin l’évolutivité. Tout le problème de la fouille de données réside dans le choix de la méthode adéquate à un problème donné. Il
est possible de combiner plusieurs méthodes pour essayer d’obtenir une solution optimale globale.
Nous ne détaillerons pas d’avantage la fouille de données dans ce paragraphe car elle fera l’objet
d’une section complète.
1.3.4
Evaluation et présentation
Cette phase est constituée de l’évaluation, qui mesure l’intérêt des motifs extraits, et de la
présentation des résultats à l’utilisateur grâce à différentes techniques de visualisation. Cette étape
est dépendante de la tâche de fouille de données employée. En effet, bien que l’interaction avec
l’expert soit importante quelle que soit cette tâche, les techniques ne sont pas les mêmes. Ce n’est
8
C HAPITRE 1. Le processus ECD
qu’à partir de la phase de présentation que l’on peut employer le terme de connaissance à condition
que ces motifs soient validés par les experts du domaine.
Il y a principalement deux techniques de validation qui sont la technique de validation statistique et la technique de validation par expertise.
La validation statistique consiste à utiliser des méthodes de base de statistique descriptive.
L’objectif est d’obtenir des informations qui permettront de juger le résultat obtenu, ou d’estimer
la qualité ou les biais des données d’apprentissage. Cette validation peut être obtenue par :
– le calcul des moyennes et variances des attributs,
– si possible, le calcul de la corrélation entre certains champs,
– ou la détermination de la classe majoritaire dans le cas de la classification.
La validation par expertise, est réalisée par un expert du domaine qui jugera la pertinence
des résultats produits. Par exemple, pour la recherche des règles d’association, c’est l’expert du
domaine qui jugera la pertinence des règles.
Pour certains domaines d’application (le diagnostic médical, par exemple), le modèle présenté
doit être compréhensible. Une première validation doit être effectuée par un expert qui juge la
compréhensibilité du modèle. Cette validation peut être, éventuellement, accompagnée par une
technique statistique.
Grâce aux techniques d’extraction de connaissances, les bases de données volumineuses sont
devenues des sources riches et fiables pour la génération et la validation de connaissances.
La fouille de données n’est qu’une phase du processus d’ECD et consiste à appliquer des
algorithmes d’apprentissage sur les données afin d’en extraire des modèles (motifs). L’extraction
de connaissances à partir des données se situe à l’intersection de nombreuses discipline , comme
l’apprentissage automatique, la reconnaissance de formes, les bases de données, les statistiques, la
représentation des connaissances, l’intelligence artificielle, les systèmes experts . . .
1.4
Fouille de données (data mining)
Les concepts de fouille de données et d’extraction de connaissances à partir de données sont
parfois confondus et considérés comme synonymes. Mais, formellement on considère la fouille
de données comme une étape centrale du processus d’extraction de connaissances des bases de
données (ECBD ou KDD pour Knowledge Discovery in Databases en anglais) [Lie07].
1.4 Fouille de données (data mining)
1.4.1
9
Historique
L’expression "data mining" est apparue vers le début des années 1960 et avait, à cette époque,
un sens péjoratif. En effet, les ordinateurs étaient de plus en plus utilisés pour toutes sortes de
calculs qu’il n’était pas envisageable d’effectuer manuellement jusque là. Certains chercheurs ont
commencé à traiter sans a priori statistique les tableaux de données relatifs à des enquêtes ou
des expériences dont ils disposaient. Comme ils constataient que les résultats obtenus, loin d’être
aberrants, étaient tout au contraire prometteurs, ils furent incites à systématiser cette approche opportuniste. Les statisticiens officiels considéraient toutefois cette démarche comme peu scientifique
et utilisèrent alors les termes "data mining" ou "data fishing" pour les critiquer.
Cette attitude opportuniste face aux données coïncida avec la diffusion dans le grand public de
l’analyse de données dont les promoteurs, comme Jean-Paul Benzecri [DR00], ont également dû
subir dans les premiers temps les critiques venant des membres de la communauté des statisticiens.
Le succès de cette démarche empirique ne s’est pas démenti malgré tout. L’analyse des données
s’est développée et son intérêt grandissait en même temps que la taille des bases de données. Vers
la fin des années 1980, des chercheurs en base de données, tel que Rakesh Agrawal [AR93], ont
commencé à travailler sur l’exploitation du contenu des bases de données volumineuses comme
par exemple celles des tickets de caisses de grandes surfaces, convaincus de pouvoir valoriser ces
masses de données dormantes. Ils utilisèrent l’expression "database mining" mais, celle-ci étant
déjà déposée par une entreprise (Database mining workstation), ce fut "data mining" qui s’imposa.
En mars 1989, Shapiro Piatetski [PS91] proposa le terme "knowledge discovery" à l’occasion
d’un atelier sur la découverte des connaissances dans les bases de données. Actuellement, les
termes data mining et knowledge discovery in data bases (KDD, ou ECD en français) sont utilisés
plus ou moins indifféremment. Nous emploierons par conséquent l’expression "data mining", celleci étant la plus fréquemment employée dans la littérature.
La communauté de "data mining " a initié sa première conférence en 1995 à la suite de nombreux atelier (workshops) sur le KDD entre 1989 et 1994. La première revue du domaine " Data
mining and knowledge discovery journal " publiée par "Kluwers " a été lancée en 1997.
1.4.2
Définition
" Le data mining, ou fouille de données, est l’ensemble des méthodes et techniques destinées à
l’exploration et l’analyse de bases de données informatiques (souvent grandes), de façon automa-
10
C HAPITRE 1. Le processus ECD
tique ou semi-automatique, en vue de détecter dans ces données des règles, des associations, des
tendances inconnues ou cachées, des structures particulières restituant l’essentiel de l’information
utile tout en réduisant la quantité de données" [M.03].
D’après [Had02], la définition la plus communément admise de Data Mining est celle de
[FU98] : "Le Data mining est un processus non trivial qui consiste à identifier, dans des données,
des schémas nouveaux, valides, potentiellement utiles et surtout compréhensibles et utilisables".
En bref, le data mining est l’art d’extraire des informations (ou même des connaissances) à partir
des données [S.T02].
1.4.3
Principales tâches de fouille de données
On dispose de données structurées. Les objets sont représentés par des enregistrements (ou
descriptions) qui sont constitués d’un ensemble de champs (ou attributs) prenant leurs valeurs
dans un domaine. De nombreuses tâches peuvent être associées au Data Mining, parmi elles nous
pouvons citer :
La classification
Elle consiste à examiner les caractéristiques d’un objet et lui attribuer une classe, la classe est
un champ particulier à valeurs discrètes. Des exemples de tâche de classification sont :
– attribuer ou non un prêt à un client,
– établir un diagnostic,
– accepter ou refuser un retrait dans un distributeur,
– attribuer un sujet principal à un article de presse,
– etc.
L’estimation
Elle consiste à estimer la valeur d’un champ à partir des caractéristiques d’un objet. Le champ
à estimer est un champ à valeurs continues. L’estimation peut être utilisée dans un but de classification. Il suffit d’attribuer une classe particulière pour un intervalle de valeurs du champ estimé.
Des exemples de tâche d’estimation sont :
– Estimer les revenus d’un client.
– Estimer les risques.
1.4 Fouille de données (data mining)
11
La prédiction
Cela consiste à estimer une valeur future. En général, les valeurs connues sont historisées.
On cherche à prédire la valeur future d’un champ. Cette tâche est proche des précédentes. Les
méthodes de classification et d’estimation peuvent être utilisées en prédiction. Des exemples de
tâches de prédiction sont :
– Prédire les valeurs futures d’actions,
– Prédire, au vu de leurs actions passées, les départs de clients.
Les règles d’association
Cette tâche, plus connue comme l’analyse du panier de la ménagère, consiste à déterminer les
variables qui sont associées. L’exemple type est la détermination des articles (le pain et le lait, la
tomate, les carottes et les oignons) qui se retrouvent ensemble sur un même ticket de supermarché.
Cette tâche peut être effectuée pour identifier des opportunités de vente croisée et concevoir des
groupements attractifs de produit.
La segmentation
Consiste à former des groupes (clusters) homogènes à l’intérieur d’une population. Pour cette
tâche, il n’y a pas de classe à expliquer ou de valeur à prédire définie a priori, il s’agit de créer
des groupes homogènes dans la population (l’ensemble des enregistrements). Il appartient ensuite
à un expert du domaine de déterminer l’intérêt et la signification des groupes ainsi constitués.
Cette tâche est souvent effectuée avant les précédentes pour construire des groupes sur lesquels on
applique des tâches de classification ou d’estimation.
1.4.4
Les méthodes de data mining
Pour tout jeu de données et un problème spécifique, il existe plusieurs méthodes que l’on choisira en fonction de :
– La tâche à résoudre.
– La nature et de la disponibilité des données.
– L’ensemble des connaissances et des compétences disponibles.
– La finalité du modèle construit.
– L’environnement social, technique, philosophique de l’entreprise.
12
C HAPITRE 1. Le processus ECD
– Etc.
On peut dégager deux grandes catégories de méthodes d’analyse consacrées à la fouille de
données [Fio06]. La frontière entre les deux peut être définie par la spécificité des techniques, et
marque l’aire proprement dite du "Data Mining". On distingue donc :
A. Les méthodes classiques :
On y retrouve des outils généralistes de l’informatique ou des mathématiques :
– Les requêtes dans les bases de données, simples ou multicritères, dont la représentation est
une vue,
– les requêtes d’analyse croisée, représentées par des tableaux croisés,
– les différents graphes, graphiques et représentations,
– les statistiques descriptives,
– l’analyse de données : analyse en composantes principales,
– etc.
B. Les méthodes sophistiquées :
Elles ont été élaborées pour résoudre des tâches bien définies. Ce sont :
– Les algorithmes de segmentation,
– les règles d’association,
– les algorithmes de recherche du plus proche voisin,
– les arbres de décision,
– les réseaux de neurones,
– les algorithmes génétiques,
– etc.
1.4.5
Différents types de base de données
Nous avons vu précédemment que le choix d’une technique de fouille de données (data mining)
dépend des objectifs de l’extraction des connaissances (description, prédiction, classification. . .),
mais certaines techniques sont également plus adaptées à certaines données, comportant des informations caractéristiques. Il est donc important d’identifier quelques types de base de données.
– Les bases de données relationnelles regroupent un ensemble de données stockées dans des
tables et décrites par un ensemble d’attributs. Généralement, la fouille de données dans de
telles bases a pour but de découvrir des schémas de tendances.
– Les bases de données de transactions, quant à elles, sont une collection d’enregistrements
1.5 Conclusion
13
de transactions assimilables à des achats de supermarché. L’analyse de ces données consiste
alors à trouver des corrélations entre les éléments (items) des transactions enregistrées dans
les bases de données temporelles,
– enfin les données relationnelles sont associées à un attribut temporel.
Les algorithmes de fouille de données utilisés sont alors pour objectifs d’extraire des motifs
périodiques, des épisodes ou encore des motifs séquentiels.
– Les bases de séquence de données sont des bases de données temporelles particulières. Il
s’agit en fait de base de données relationnelle ou de transaction dans lesquelles les enregistrements peuvent être organisés en séquences d’événements ordonnés selon une notion de
temps (ordre chronologique), concrète ou non (e.g .achats de clients dans un supermarché,
apparition de mots dans un texte, logs de navigation Internet)
On peut y rechercher différents types de motifs :
– Des schémas d’évolution des attributs au cours du temps, afin d’analyser les tendances
– Des séquences qui ne diffèrent que légèrement les unes des autres, pour déceler des similitudes,
– Des motifs séquentiels, afin de trouver les relations entre les occurrences d’évènements séquentiels.
– Des motifs périodiques, afin de caractériser des successions d’évènement récurrents et répétés dans les séries temporelles.
1.5
Conclusion
Dans ce chapitre, nous avons exposé le processus ECD et ses différentes étapes en général, et
la fouille de données et les techniques utilisées pour extraire l’information utile et les différentes
sortes de données.
Nous avons tirés quelques conclusions :
1. Le choix du la technique utilisées dépend de l’objectif de l’utilisateur (description ou prédiction).
2. Certaines techniques d’extraction des connaissances sont plus adaptées à certains types de
données.
14
C HAPITRE 1. Le processus ECD
Chapitre 2
L’information imparfaite
2.1
Introduction
L’objectif de ce chapitre est de définir l’information imparfaite, les types de l’imperfection de
donnée, les causes et les conséquences liées à l’existence des données imparfaites. Nous présentons
également quelques modèles et langages pour modéliser l’imprécision de données.
Parmi les caractéristiques du raisonnement de l’être humain est qu’il est habile au comportement avec l’information incomplète et incertaine. Dans la vie courante, l’homme se confronte
souvent à faire des décisions et des actions dans des situations dans lesquelles l’information imparfaite (imperfect) est la seule information disponible, est il est impossible d’obtenir l’information
complète et certaine, car peut être elle n’existe pas.
Vu l’habilité et le comportement naturel de l’être humain et sa capacité de prendre des décisions en présence d’une grande masse d’informations imparfaites (incomplètes, incertaines ou
imprécises. . .), l’automatisation de traitement de ce type d’information à fait l’objet plusieurs recherches dont l’objectif était proposer des modèles et méthodes pour représenter et manipuler
l’information incomplète et incertaine pour faire face à des situations réelles (real DB).
A la rencontre d’une information imparfaite, la première chose est de donner un "sens" à cette
information. Si la connaissance sur le monde réel est incomplète et incertaine, plusieurs scénarios
et états sont possibles avec l’information complète incertaine, mais on ne connais pas lequel qui
représente l’état réel du monde. Donc une base de données qui contient des informations incomplètes et / ou incertaines représente implicitement un ensemble d’états possibles et une description
proche de la réalité.
16
C HAPITRE 2. L’information imparfaite
Introduire une information incomplète et incertaine dans la base de données cause un problème
inhérent de la manipulation d’une telle information, interrogation de la base, construction des requêtes, le contrôle et la mise à jour de la base doit tenir en compte la connaissance imparfaite. Ce
problème peut être décomposé en différents aspects :
1. Déterminer les sources et les types d’incomplétude et d’incertitude présentes dans les BDs.
2. Déterminer le formalisme ou le modèle permettant de la représentation des informations
incomplètes et incertaines.
3. Déterminer les algorithmes d’interrogation et de recherche dans la base tenant en compte
l’incertitude et l’incomplétude des informations.
4. Déterminer les algorithmes et les techniques d’extractions des règles et des modèles des
motifs à partir des informations incomplètes et incertaines.
Dans cette section nous examinons plusieurs questions fondamentales concernant l’imperfection de description notamment les différents types d’imperfection, les différents effets de ces types
(incomplétude, incertitude, imprécision) les différentes causes de l’imperfection de l’information
et les différents problèmes liés en présence des données imparfaites.
Enfin, nous donnons, avec des exemples, les modèles qui permettent de représenter les informations imparfaites.
2.2
Les type d’imperfection des données
Beaucoup de tentatives ont été faites pour classifier les divers types possibles d’information imparfaite. Nous notons que d’autres types d’imperfection ont été observés comprenant l’imprécision
et l’ambiguïté mais ils ne sont pas importants pour les systèmes d’information.
2.2.1
L’erreur (l’information incorrecte)
C’est le type le plus simple d’information imparfaite. L’information stockée est incorrecte
quand elle est différente de l’information vraie.
Une contradiction est que le même aspect du réel est représenté par plusieurs représentations et
que ceci pourrait être dans la même information ou dans différents informations qui sont considérés
ensemble. Quand les différentes représentations sont irréconciliables l’information est contradictoire.
2.2 Les type d’imperfection des données
2.2.2
17
L’information Imprécise
Elle correspond à une difficulté dans l’énoncé de la connaissance, soit parce que des connaissances numériques sont mal connues, soit parce que des termes du langage naturel sont utilisés
pour qualifier une caractéristique du système de façon vague. Le premier cas est la conséquence
d’une insuffisance des instruments d’observation (2000 à 3000 manifestants), d’erreurs de mesure
(poids à 1% près) ou encore de connaissances flexibles (la taille d’un adulte est environ entre 1.50
et 2 mètres). Le second provient de l’expression spontanée de connaissances (température douce,
grand appartement, proche de la plage) ou de l’utilisation de catégories aux limites mal définies
(enfant, adulte, vieillard).
L’information est imprécise dénote un ensemble de valeurs possibles et la valeur réelle est l’un
des éléments de cet ensemble de valeurs. Donc, l’information imprécise n’est pas incorrecte et ne
compromet pas l’intégrité d’information. Les types spécifiques d’information imprécise incluent
l’information disjonctive.
Exemple : l’âge de John est 20 ou 30, est une information disjonctive.
L’information négative, exemple l’âge de Johns n’est pas de 23.
Intervalle. exemple, l’âge de John est entre 20 et 25 or l’âge est John est plus de 20,
L’information avec des marges d’erreur, exemple : l’âge est 34 ±2.
Les deux cas extrêmes d’imprécision sont des valeurs précises et les valeurs manquantes
(nulles). Une valeur est précise quand l’ensemble de possibilités est un singleton, une valeur
manquante (nulle) dénote habituellement qu’aucune information n’est disponible. La valeur nulle
pourrait être considérée en tant qu’information imprécise où l’ensemble de valeurs possibles est le
domaine entier des valeurs légales.
Généralement, la valeur manquante est représentée par le symbole " * " ou " ? ".
2.2.3
L’information incomplète
L’information est dite incomplète si elle contient au moins une valeur manquante, dans ce cas
on a uniquement une connaissance partielle du réel perçu.
Les incomplétudes sont des absences de connaissances ou des connaissances partielles sur certaines caractéristiques de l’objet. Elles peuvent être dues à l’impossibilité d’obtenir certains renseignements (fichiers de malades dans lesquels certaines rubriques ne sont parfois pas remplies)
ou à un problème au moment de la captation de la connaissance (image avec une partie cachée).
18
C HAPITRE 2. L’information imparfaite
Elles peuvent aussi être associées à l’existence de connaissances générales sur l’état d’un système,
habituellement vraies, soumises à des exceptions que l’on ne peut pas énumérer ou prévoir, selon
les cas, (" généralement, Pierre est à son bureau tous les jours ", sauf s’il est malade ou si un événement grave survient dans sa famille). Elles sont généralement liées à l’existence de connaissances
implicites, par exemple dans une recherche d’information auprès d’experts. Ces imperfection ne
sont pas exclusives l’une de l’autre et l’incomplétude est toujours ramenée à l’imprécision.
2.2.4
L’information incertaine
Parfois notre connaissance du réel (précis ou d’imprécis) ne peut pas être énoncée avec confiance
ou garantie absolue. L’information énoncée avec l’incertitude (probabilité ou possibilité) n’est pas
incorrect et ne compromet pas l’intégrité de l’information. Bien que l’information : l’âge de John
et 20 ou 24 est information imprécise, l’information : l’âge est probablement 20 est une information incertaine, dans quelques cas, le degré de la certitude est donnée ; l’âge de John est 32 avec
une probabilité de 0.6 et 33 avec une probabilité de 0.4.
Une autre catégorie de l’incertitude est l’information floue(Fuzzy).
Un exemple : " le bateau Mirage à une possibilité égale à 1 à être en mer méditerranéenne et a
une possibilité égale à 0.75 à être en mer atlantique ". L’information floue appartient à théorie de
l’ensemble flou (fuzzy set) et la logique floue développée par Zadeh .
L’imprécision et l’incertitude sont deux notions très liées, on peut dans quelques cas modéliser
l’imprécision par l’incertitude et vice versa, plus que l’information est précise, plus qu’elle est
incertaine (par exemple : je suis sur que la note est entre 10 et 12, mais je ne suis pas certain qu’elle
est 11, ou bien je suis certain que je serais à l’université l’après midi, mais je ne suis pas sur que
je serais là à 13 h.30 min.) si la valeur précise (mais pas certaine) est entourée par d’autres valeurs
possibles ceci incrémente la certitude, mais l’imprécision sera importante également (exemple : la
valeur nulle).
Bouchon Meunier affirme que la solution la plus satisfaisante réside dans une préservation des
imperfections jusqu’à un certain point, qui permet de ne pas perdre une information intéressante,
mais de parvenir à une représentation facilement manipulable de façon automatique [AM]. C’est
un tel équilibre entre préservation de l’imperfection et traitement simple de l’incertitude que l’on
doit rechercher.
2.3 Les causes d’imperfection des données
2.3
19
Les causes d’imperfection des données
Cette imperfection des connaissances est due à plusieurs raisons. Bouchon Meunier, en cite
deux :
1. L’obtention des connaissances à partir du réel s’effectue en deux étapes : l’observation et
la représentation. La première se produit à travers des intermédiaires instrumentaux ou humains qui sont généralement soumis à des erreurs, des imprécisions et des incertitudes. La
seconde étape est celle de la représentation de ces connaissances. Autant l’observation que
la représentation entraîne une perte d’information d’autant plus grande que le système est
complexe.
2. L’absence de rigueur ou la flexibilité inhérente au système lui-même et à son fonctionnement,
c’est le cas pour toutes les caractéristiques de phénomènes naturels tels que la durée de
maturation d’un fruit, la taille d’un animal adulte, le passage progressif et non strict du jour
à la nuit ; c’est aussi le cas de certains systèmes artificiels, tels que la charge maximale
d’un ascenseur, indiquée en kilogrammes dans un souci de simplicité mais à laquelle on
peut ajouter quelques grammes sans problème majeur où le nombre maximal de voyageurs
que peut contenir un wagon de métro, dépendant du degré de compression accepté par les
passagers [AM].
Beaucoup de travaux qui montrent l’effet et l’importance des problèmes liés a la présence
des valeurs imparfaites et présentent les approches pour prendre en considération l’incertitude de
ces donnés lors d’un processus d’extraction de données ECD notamment lors de l’étape du prétraitement des données.
Le premier problème est classique dans le domaine des bases de données. Celles-ci proviennent
généralement de processus réels d’acquisition, concernant par exemple des données médicales
humaines ou des résultats de sondages. Dans ce cadre, il n’est pas toujours possible d’obtenir une
mesure relative à un examen qui n’a pas été pratiqué (par exemple quand le patient n’est pas en état
de le supporter) ; ou la réponse à une question posée, car les sondés n’ont pas toujours une opinion
à exprimer (ou ne le souhaitent pas) ni la patience de le faire.
Codes invalides, attributs inapplicables, Il peut également s’agir d’attributs dépendants d’autres
attributs, dont certains sont non renseignés.
Domaine industriel : Les informations peuvent être manquantes car inaccessibles e.g. défaillance de capteur, débordement de capacité d’un tampon mémoire remis la valeur à zéro. . .
20
C HAPITRE 2. L’information imparfaite
Le temps manque pour collecter un résultat d’examen ou encore le patient n’est pas en état
de le supporter. Un autre exemple concerne les sondages d’opinion, que les interviewés prennent
rarement la peine de remplir complètement.
La fusion de données en provenance de plusieurs sources, pour des raisons d’incompatibilité
entre les différents formats.
Différents mesures (exemple : mesurer une période de temps : par minutes dans une base de
données et par secondes dans une autre base de données). . .
Cas d’oublie ou manque de soins lors de la saisie des enregistrements
Dans d’autres cas les imperfections sont le résultat des restrictions imposées par le modèle. Par
exemple si le schéma de base de données laisse stocker au plus deux métiers par employé.
L’incertitude apparaît également comme un résultat des estimations ou dans les manipulations
stochastiques de l’information, donc on peut avoir une distribution probabiliste ou une distribution
de possibilistes des valeurs dont un inconnu attribut peut prendre.
Des erreurs système comprenant le bruit de transmission d’erreurs d’entrée retarde en traitant
des imperfections de transactions de mise à jour du logiciel système et données.
Dans le domaine de l’économie par exemple, manipuler une situation en présence des informations incomplètes et/ ou incertaines et très important et critique, par exemple, les valeurs de
quelques paramètres peuvent être inconnues, et il sera nécessaire d’introduire soit les valeurs possibles, soit les valeurs ’par défaut’ pour faire des simulations des différents scénarios économiques.
Ces données sont donc régulièrement entachées de valeurs manquantes. Si la communauté des
bases de données a produit de nombreux travaux sur le sujet, les contributions dans le domaine de
la fouille de données sont plus rares.
2.4
Problèmes liés en présence des valeurs manquantes ou imprécises
Les problèmes liés â la détection des valeurs manquantes ne doivent pas être traitées de la même
façon que des attributs volontairement non renseignés. A l’inverse, dans certains cas, les valeurs
inconnues, inapplicables ou encore non spécifiées sont encodées comme des valeurs valides.
Les problèmes liés aux imperfections de données :
– Aide à la décision.
– Reconnaissance de formes.
2.5 Quelques représentations des informations imparfaites
21
– Prédiction.
– Extraction des connaissances descriptives.
– Manipulation des données (MAJ, transformation, requête. . .)
2.5
Quelques représentations des informations imparfaites
Plusieurs langages ont été développés et utilisés pour modéliser et prendre en charge ces imperfections de l’information, dont la plus ancienne et la plus utilisée est, certainement, la théorie
des probabilités. Cette théorie s’adresse aux incertitudes et expériences de nature aléatoire. Une
situation où l’on envisage d’utiliser une modélisation par les probabilités implique concrètement
l’identification d’une distribution de probabilités. Or, on est souvent dans l’incapacité de déterminer avec précision la distribution de probabilité appropriée[AM]. Les incertitudes ne sont pas
toujours de nature aléatoire. Elles sont souvent dues à des imprécisions ou à des incomplétudes.
2.5.1
Bases de données probabilistes
Les systèmes d’information probabilistes représentent l’information avec des variables et leurs
distributions de probabilité dans un cadre apparenté la valeur de l’attribut particulier A pour un
tuple spécifique t est une variable A(t) et cette variable a une PA(t) .PA(t) associée de distribution
de probabilité assigne des valeurs dans l’intervalle (0, 1) aux éléments du domaine de l’attribut
A avec la condition que la somme de toutes les valeurs assignées est 1. Un exemple d’une valeur
probabiliste est la variable l’âge de John et cette distribution de probabilité :
(
Page (jhon) =
32
0.6
33 0.4
L’interprétation de cette information est : l’âge de John est 32 avec une probabilité de 0.6 et 33
avec une probabilité de 0.4, sinon 0.
A noter que cette information est incertaine et imprécise en même temps : incertaine car elle
est probable et imprécise puisque elle contient deux valeurs possibles (32,33).
Cette représentation des données est convenable pour certains cas : aide à la décision, prédiction, car elle permet des opérations de combinaisons entres plusieurs sources d’informations.
22
C HAPITRE 2. L’information imparfaite
2.5.2
La théorie des ensembles approximatifs
Rough(approximate) set theory
La théorie des ensembles approximatifs est une approche mathématique puissante qui traite les
données manquantes, imprécises et incertaines. Elle est appliquée en plusieurs domaines :banque,
médecine, diagnostic, aide à la décision et en data mining (clustering, règles de décision). Cette
théorie a été introduite par Zdzislaw Pawlak en 1982 est basée sur les notions suivantes : indescernibility (similarité), l’approximation (lower, upper), reduct, core. . .
La notion de base de cette théorie est l’indescernibility : à chaque objet de l’univers de discours
une quelques information est associée (données, connaissance). Les objets caractérisés par les
mêmes informations sont indiscernables (similaires) vue les informations disponibles relatives à
ces objets.
Avec chaque ensemble approximatif (imprécis) est associés deux ensembles exacts, lower approximation, upper approximation. C’est l’idée de base : si on ne peut pas définir un objet exactement (puisque par exemple, l’information disponible ne le permet pas), on peut néanmoins le
délimiter par deux limites (bornes) inférieure et supérieure. La figure 2.1 montre l’ensemble imprécis X et ses bornes min et max.
F IGURE 2.1 – L’approximation de l’ensemble X
2.5 Quelques représentations des informations imparfaites
2.5.3
23
Le modèle flou
Développée par [Zad65] a été un cadre précurseur. Un autre cadre théorique très séduisant est
certainement la théorie des fonctions de croyance. Elle permet dans un même formalisme d’encoder l’imprécision et l’incertitude contenue dans une information. Loin d’être binaire, la pensée
humaine n’est pas toujours aisément modélisable par un programme informatique et parfois des
outils permettant de raisonner avec des termes nuancés sont très utiles.
Par ailleurs, les bases de données du monde réel contiennent souvent de nombreuses imperfections : des informations non renseignées (incomplétudes), des données erronées (incertitudes) ou
encore des données imprécises. Il est important de proposer des techniques permettant de détecter
ces données afin de les corriger ou des méthodes de fouille dont les résultats restent fiables malgré
les différentes imperfections des données exploitées. C’est pourquoi la théorie des sous-ensembles
flous a largement été employée et de nombreux algorithmes de data mining ont désormais leurs
extensions floues. Ils permettent ainsi de répondre à des problématiques plus larges et souvent de
faciliter l’interprétation des résultats par l’utilisateur final en fournissant des schémas approximatifs robustes aux imperfections et utilisant des termes linguistiques.
Les ensembles flous permettent de représenter des classes d’éléments dont la frontière entre
appartenance et exclusion n’est pas brutale mais graduelle. Ils dérivent de la logique floue et permettent d’obtenir des règles dont la conclusion est de nature probabiliste.
Une des caractéristiques du raisonnement humain est qu’il est basé sur des données imprécises,
ou incomplètes .Ainsi déterminer si une personne est de petite ou de grande taille est facile sans
nécessairement connaître sa taille.
Supposons que la limite soit de 1 m 65, une personne à une taille de 160 cm. Est-elle de taille
grande ou petite ? Une réponse " floue " peut être : " la personne est 0.8 grande et 0.2 petite ".
L’idée de la logique floue est de transmettre cette richesse du raisonnement humain à un ordinateur et de traiter ainsi des croyances subjectives ou de résoudre le problème posé par les connaissances imprécises et vagues.
Le concept de base de la théorie des ensembles flous est l’ensemble flou. Un ensemble flou F
est un ensemble d’éléments dans lesquels chaque élément a une valeur associée dans l’intervalle
(0-1) qui dénote degré de son appartenance à l’ensemble. Un exemple d’un ensemble flou est
F = 30/1.0, 31/1.0, 32/1.0, 33/0.7, 34/0.5, 35/0.2
24
C HAPITRE 2. L’information imparfaite
Les éléments dans les ensembles 30, 31 et 32 sont avec un degré d’appartenance égale à 1. Les
éléments dans les ensembles 33, 34 et 35 sont avec un degré d’appartenance égale à 0.7, 0.5, 0.2 et
les autres éléments non mentionnés ont un degré d’appartenance égale à 0.
Plusieurs modèles des bases de données ont été basés sur la théorie des ensembles flous. Le
modèle le plus simple fait une extension des relations qui sont des sous-ensembles d’un produit
cartésien des domaines aux sous ensembles flous.
Ainsi chaque tuple dans une relation est associé à une degré d’appartenance. Par exemple : le
tuple (Pascal, John) appartient à la relation Prociency (langue, Programmer) avec un degré d’appartenance associé égale à 0.9. Associer un degré d’appartenance pour chaque tuple peut être
considéré comme un rapport de l’incertitude.
Dans cette interprétation les degrés d’appartenance indiquent la force de l’association entre les
composants du tuple.
La théorie de possibilité est basée sur la théorie des ensembles flous ,dans une bases de données
relationnelle ,la valeur d’un attribut particulier A pour un tuple t du spécifique est une variable at
et cette variable a une distribution des possibilités associée Pi (at). Pi (at) assigne des valeurs dans
l’intervalle (0-1) aux éléments du domaine de l’attribut A. En utilisant le même exemple de l’âge
de John, la distribution possibiliste :


30 1.0






 31 1.0
Page (jhon) =
33 0.7




34 0.5



 35 0.2
L’interprétation de cette information est qu’il est complètement possible que l’âge de John est
30,31 ou 32 il est très possible que ce soit 33 qu’il est légèrement possible que c’est 34 il est à
distance possible que ce soit 35 et il est complètement impossible que c’est n’importe quel autre
âge.
2.6
Les types de données
Dans ce paragraphe, nous décrivons les types de données dans une base d’apprentissage. Nous
pouvons diviser le type d’un attribut en deux grandes catégories :
2.6 Les types de données
25
Quantitative (Numérique) : Si l’ensemble des valeurs qu’il peut prendre est un ensemble de
nombres, fini ou infini, ou un intervalle de valeurs réelles. Un attribut X numérique peut être discret
ou continu selon sa nature :
– Continu : Si l’ensemble des valeurs qu’il peut prendre est réel ou un intervalle réel. Il s’agit
donc d’un ensemble infini non dénombrable : on ne peut pas énumérer systématiquement
l’ensemble de tous les points d’un intervalle réel. Par exemple, X peut être l’âge d’une personne prise au hasard, sa taille, son poids, etc.
– Discret : Si l’ensemble des valeurs qu’il peut prendre est un ensemble numérique ni (comprenant un nombre ni d’éléments) ou un ensemble infini dénombrable (comprenant une infinité
de nombres que l’on peut énumérer).
Qualitative (symbolique) : Si l’ensemble des valeurs qu’il peut prendre est non numérique.
X peut être par exemple la couleur des yeux d’une personne prise au hasard, sa région de
naissance, son sexe, etc.
D’autre part, une donnée numérique ou symbolique peut être ordinale (<, >) si ses valeurs sont
ordonnées. Par exemple, l’attribut dont les valeurs sont bien, très-bien, excellente est un attribut
ordinal symbolique ; l’attribut dont les valeurs sont 1, 2, 3, 4, 5 est un attribut ordinal numérique
(discret).
De plus, si les valeurs d’un attribut discret ou symbolique sont binaires, on parle d’un attribut
binaire, par exemple l’attribut symbolique sexe qui prend les valeurs masculin, féminin ou un
attribut discret qui prend les valeurs 0,1.
Un attribut symbolique est dit nominal si l’ordre n’est pas important, comme le groupe sanguin
(A, B, AB, O) ou l’état civil (marié, célibataire, divorcé, veuf).
Un attribut quantitatif discret peut être traité comme une variable qualitative en considérant
chaque valeur de l’attribut comme une modalité. Si les attributs dans la base d’apprentissage sont
continus, on applique des méthodes de discrétisation pour les rendre discrets.
On considère deux types des valeurs manquantes :
– Valeur manquante aléatoire : lorsqu’elle affecte indifféremment toutes les valeurs d’un attribut. Exemple : Une erreur de transmission, un oubli à la saisie, une impossibilité d’effectuer
une mesure suite à la panne d’un appareil.
– Valeur manquante non aléatoire (informative) : lorsqu’elle affecte uniquement une certaine
valeur d’un attribut. Exemples : un four qui tombe en panne dès que la température de 500
degrés Celsius est dépassée. Seules les valeurs supérieures à ce seuil sont manquantes. La
26
C HAPITRE 2. L’information imparfaite
valeur de température est dépendante de la panne du four.
2.7
Les méthodes de traitement des données manquantes.
Plusieurs possibilités sont envisageables afin de gérer les valeurs manquantes et imprécises lors
du pré- traitement.
1. ne rien faire ; lorsque la proportion de valeurs imparfaites de l’échantillon est faible (5%).
2. utiliser uniquement les enregistrements pour lesquels les données sont complètes et précises : c’est la solution la plus simple (c’est la procédure prise par défaut par la plupart
des applications statistiques). Cette méthode n’est appropriée que si les valeurs manquantes
sont rares, car si le taux des valeurs manquantes est élevé, la perte d’information résultant
de la suppression des données incomplètes n’est pas acceptable. De plus, la représentativité
de l’échantillon n’est plus garantie, étant donnée la réduction du nombre d’enregistrements
conservés pour l’analyse [Hui00].
3. c’est une variante de la méthode précédente qui utilise l’observation incomplète lorsque la
variable concernée n’est pas manquante.
Exemple : Soit une table de données avec cinq variables et cinq observations. Cette table sera
utilisée dans les exemples suivants. Le symbole "*" désigne que la valeur est manquante.
A
B
C
D
E
4
7
*
2
*
44
*
10
7
4
*
1
2
3
3
7
4
9
*
7
6
12
41
7
*
20% 20% 20% 20% 40%
TABLE 2.1 – Table de données univariée
Analyse univariée dans ce type d’analyse, l’étude est faite sur chaque variable à part. Par
exemple, la valeur de l’attribut A est manquante dans la ligne 3 ,donc le taux de manque est 1/5 =
20%, par contre la valeur de l’attribut E est manquante dans les deux lignes 1 et 5, donc le taux de
manque est 2/5 = 40%.
27
2.8 Les méthodes d’imputation
A
B
C
D
E
4
7
*
2
*
44
*
10
7
4
*
1
2
3
3
7
4
9
*
7
6
12 41
7
*
TABLE 2.2 – Table de données multi variée
Analyse multivariée : le même exemple.
Toutes les observations sont incomplètes, donc aucune d’entre elles ne sera utilisée. Par contre
si on utilise la méthode des enregistrements incomplets ;
Si on veut calculer la moyenne de la variable A, on peut utiliser les observations 1et 2 et 4 et 5
(l’observation 3 est manquante). Pour la variable B, on peut utiliser les observations 1et 3 et 4 et 5
(l’observation 2 est manquante).
Pour la variable E, on peut utiliser les observations 2et 3 et 4 (1 est 5 sont manquantes).
Dans ce cas une méthode de traitement est nécessaire pour :
1. compléter les données manquantes.
2. filtrer les données imprécises.
3. éliminer les données bruitées
Nous allons décrire les différentes méthodes d’imputation les plus connues :
2.8
2.8.1
Les méthodes d’imputation
Définition
Le terme imputation désigne la procédure de remplissage des données manquante par une ou
plusieurs valeurs plausibles. On distingue deux types d’imputation : simple et multiple.
2.8.2
L’imputation simple
On remplace chaque valeur manquante par une donnée prédite ou simulées et l’analyse portera
28
C HAPITRE 2. L’information imparfaite
sur tous les enregistrements. L’effet est de produit une valeur ’artificielle’ pour remplacer la
valeur manquante.
La solution de choix pour traiter la non réponse partielle est l’imputation, qui produit une "
valeur artificielle " pour remplacer la valeur manquante. Contrairement aux méthodes de repondération, l’imputation permet d’utiliser un poids unique associé à chaque individu, si bien que les
résultats de diverses analyses seront nécessairement cohérents. L’information disponible sur les
individus qui ne fournissent qu’une réponse partielle peut être utilisés comme variables auxiliaires
pour améliorer la qualité des valeurs imputées.
Les méthodes courantes d’imputation incluent l’imputation par la moyenne, par le ratio, par
régression, par hot deck aléatoire et par plus proche voisin. En voici la description.
L’imputation par la moyenne / mode.
Cette méthode est la plus simple et la plus utilisée. Elle consiste à remplacer d’une valeur
manquante par la moyenne des valeurs disponibles (attribut continus) ou le mode (la valeur la plus
fréquente pour l’attribut nominal). Pour réduire l’influence des cas extrêmes (bruits) en peut utiliser
la médiane (la valeur qui divise la population triée en deux parties).
Représentons par U une population de taille N. Nous voulons estimer la moyenne de population
n
X
yi
Y =
N
i=1
À cette fin, nous tirons un échantillon aléatoire simple de taille n et observons chaque valeur .
Il est bien connu que la moyenne d’échantillon
Y =
n
X
yi
i=1
n
Y est un estimateur non biaisé de en cas de réponse complète. En cas de non réponse, il est
impossible de calculer la moyenne puisque certaines valeurs de y sont manquantes.
Effet
Selon Little et Rubin [RD02], la valeur imputée est la même pour toutes les valeurs manquantes
d’une même variable (constante), ça pose un problème de changement de la structure de la BD et
les relations entre les variables s’il sont en forte corrélation :
1. la variance est sous estimée,
2.8 Les méthodes d’imputation
29
2. la corrélation est biaisée,
3. la distribution de la variable est détruite par la création d’une nouvelle classe (chaque valeur
manquante est remplacée par la moyenne).
Pour cela une variante est proposée qui consiste à remplacer la valeur manquante par la moyenne
(mode) des valeurs observées des objets de la même la classe dont l’objet incomplet appartient
[Mag04].
Imputation par un modèle de régression
Cette technique assume que la valeur d’une variable change d’une façon linéaire avec une
variable. Dans ce cas la valeur manquante est remplacée par une fonction de régression linéaire.
Cette technique suppose que la relation entres les variables est linéaire. Mais dans la plupart des
cas cette propriété n’est pas vérifiée. Prédire la valeur manquante dans un sens linéaire engendre
un modèle avec biais. La figure 2.2 illustre ce modèle.
L’imputation par régression multiple
C’est une extension naturelle de l’imputation par la méthode du ratio où l’on se sert de q
variables auxiliaires x1 ...xq .
F IGURE 2.2 – L’imputation par le modèle de régression
30
C HAPITRE 2. L’information imparfaite
L’imputation par la méthode hot deck aléatoire
Consiste à attribuer la valeur de y fournie par un répondant (donneur) sélectionné au hasard
avec remise parmi l’ensemble de répondants pour remplacer la valeur manquant pour l’unité non
répondante (receveur).
L’imputation par la méthode par le plus proche voisin
Dans ce cas on attribue à l’enregistrement pour lequel la réponse à une question manque la
valeur figurant pour cette question dans ’enregistrement obtenu pour le répondant le plus proche,
où l’expression " le plus proche " est habituellement définie par une fonction de distance basée sur
une ou plusieurs variables auxiliaires.
2.8.3
Dangers de l’imputation
1. Même si l’imputation produit un fichier complet de données, l’inférence, en particulier l’estimation ponctuelle, n’est valide que si les hypothèses sous jacentes supplémentaires sont
satisfaites.
2. L’imputation peut modifie les liens entre les variables.
3. Si les valeurs imputées sont traitées comme des valeurs observées, la variance de l’estimateur
risque d’être considérablement sous estimée, surtout si la proportion de non réponses est
appréciable.
L’imputation modifie les relations entre les variables
Puisque le traitement théorique des relations entre variables en présence d’imputation est relativement complexe, considérons plutôt une population de taille N = 10 et deux variables x et y. La
table 2.3 contient les données sur la population.
x
1
2
3 4
5
6
7
y
2
5
3 9
11
6 11
8
9
10
13 11 12
TABLE 2.3 – Table de données complètes
Le coefficient de corrélation entre X et Y dans la population est :
31
2.8 Les méthodes d’imputation
n
X
corr(X, Y ) = n
X
(xi − x)(yi − y)
i=1
(xi − x)
2
n
X
2
1/2
(yi − y)
i=1
i=1
x est la moyenne de x, y est la moyenne de y . Le coefficient corr(X,Y) = 0.84.
x
1
.
3
4
5
6
7
y
.
5 3
9
.
6 11
.
9
.
13
.
12
TABLE 2.4 – Table de données incomplètes
Dans la table 2.4, nous avons généré aléatoirement des valeurs manquantes, indiquées par " . ",
indépendamment pour x et y de sorte que le taux de réponse soit d’environ 70 %.
Supposons que nous recourions à l’imputation marginale par la moyenne (autrement dit, que
nous imputions la moyenne des répondants )
X=
n
X
xi
i=1
N
X =5 , pour remplacer une valeur manquante pour la variable x et la moyenne des réponses
Y =
n
X
yi
N
i=1
Y =8.42 , pour remplacer une valeur manquante pour la variable y.
Le table 2.5 montre les données après imputation, avec les valeurs imputés marquées par *.
x
1
y 8.42 *
5*
3 4
5
3 9
5
6
7
5*
9
5*
8.42 * 6
11
13
8.42 *
12
TABLE 2.5 – Les données après le remplissage par la moyenne
Le coefficient de corrélation de x et y dans l’ensemble contenant des données imputées est 0.21
. Nous constatons que l’imputation a atténué la relation (ou l’association) entre les variables x et y
et que l’effet est important (passage de 0,84 à 0,21).
Si l’on traite les valeurs imputées comme des valeurs observées, la variance de l’estimateur
risque d’être considérablement sous estimée, surtout si la proportion de non réponses est appréciable. Les statisticiens d’enquête ont étudié cette question extensivement ces dernières années.
32
C HAPITRE 2. L’information imparfaite
Les auteurs de plusieurs articles ont insisté sur le fait que les valeurs imputées ne doivent pas
être traitées comme s’il s’agissait de valeurs observées, particulièrement si le taux de non réponse
est élevé. Par exemple, pour un taux de réponse de 70 % , le traitement des valeurs imputées
comme s’il s’agissait de valeurs observées peut donner lieu à une sous estimation de la variance,
dont l’ordre de grandeur peut atteindre 50 %. Les intervalles de confiance calculés en traitant
les valeurs imputées comme des valeurs observées pourraient être plus étroits que ceux obtenus
au moyen d’un estimateur correct qui tient compte de l’imputation, donc donner une impression
erronée d’exactitude.
Notons aussi l’importance d’identifier les valeurs imputées, comme dans le tableau 2.5, en
prévision de l’estimation de la variance.
En conclusion, lorsque l’on recourt à l’imputation pour tenir compte du non réponse partielle,
il est important :
1. de modéliser minutieusement le mécanisme de réponse ou la variable d’intérêt afin de s’assurer que les modèles " soient valides " pour l’inférence ;
2. de calculer correctement l’estimateur de la variance de l’estimateur imputé ; et
3. d’utiliser des méthodes plus sophistiquées d’imputation et/ou d’estimation pour préserver
les relations entre les variables.
2.8.4
L’imputation multiple
L’imputation multiple est une méthode statistique pour remplir les valeurs manquantes et rendre
une base d’apprentissage complète. L’idée de base est de remplacer la valeur manquante par plusieurs valeurs plausibles m. Dans ce cas, nous aurons m bases complètes.
Chaque base sera analysée de manière identique en utilisant une même méthode standard.
Ensuite, Les résultats seront combinés. Une procédure d’imputation multiple peut être basée sur
des modèles explicites ou implicites. Plus le nombre k d’imputations est grand, plus les estimateurs
seront précis.
Pour analyser et combiner les résultats, il faut d’abord pour chaque analyse calculer et enregistrer les estimations et les erreurs standards ainsi que la variance et l’écart-type. Un test de
signification de l’hypothèse nulle est également réalisé.
Les buts sont :
1. De refléter correctement l’incertitude des valeurs manquantes.
2.9 Détection et traitement des points aberrants
33
2. De préserver les aspects importants des distributions.
3. De préserver les relations importantes entre les variables.
Les buts ne sont pas ;
1. De prédire les données manquantes avec la plus grande précision.
2. De décrire les données de la meilleure façon possible.
F IGURE 2.3 – L’imputation multiple : étape 1
2.9
Détection et traitement des points aberrants
Dans le processus Data Mining, la détection et le traitement des points aberrants sont incontournables lors de la préparation des données, ou même après coup, pour analyser et valider les
résultats.
On parle de point aberrant (point atypique) lorsque qu’un individu prend une valeur exceptionnelle sur une variable (ex. un client d’une banque aurait 158 ans) ou sur des combinaisons
de variables (ex. un athlète de 12 ans aurait effectué le 100 m en 10 secondes). Ces points sont
problématiques car ils peuvent biaiser les résultats, notamment pour les méthodes basées sur des
distances entre individus, ou plus dramatiquement encore, des distances par rapport à des barycentres. Il importe donc d’identifier ces individus et de les considérer attentivement.
34
C HAPITRE 2. L’information imparfaite
F IGURE 2.4 – L’imputation multiple : étape 2
Exemple.
Soit la table 2.6, on veut examiner l’influence des points aberrants sur les caractéristiques de la
population.
x 1
2
3
4 5
6
7
8 9
10
y 2
3
2
4 2
5
5
3 6
2
TABLE 2.6 – Les données de l’exemple
n
X
yi
Y =
N
i=1
On calcule la moyenne de la population :
Pour x ,la moyenne est 5.5 ;
Pour y la moyenne égale à 3.4 .
Supposant maintenant que la valeur num 10 est y = 20 (voir la table 2.7).
On recalcule la moyenne :
Pour x = 5.5 sans changement.
35
2.9 Détection et traitement des points aberrants
F IGURE 2.5 – L’imputation multiple : étape 3
x
1 2
3
4
5 6
7
8
9
10
y
2 3
2
4
2 5
5
3
6 20*
TABLE 2.7 – Les données avec un bruit
Pour y, il devient 5.2.
Il est utile d’identifier le problème où la source d’existence des points aberrants, on peut citer
par exemple :
1. Défaillance de matériel d’acquisition (capteur..).
2. Erreur de saisie (dans l’exemple précèdent peut être la vraie valeur est 2 et on a ajouté 0 par
erreur de frappe !..) , ou copier coller..
3. Débordement de capacité de stockage..
36
C HAPITRE 2. L’information imparfaite
F IGURE 2.6 – Représentation des données x et y
F IGURE 2.7 – Un point suspect (bruit)
2.9.1
Comment détecter les points aberrants
Les techniques suivantes sont largement inspirées du texte sur le site de NIST 1
Le test de Grubbs
Ce test repose sur la normalité de la distribution. On devrait donc tester préalablement la crédibilité de cette hypothèse. Mais lorsque l’on se rend compte que les tests de normalité eux mêmes
sont sensibles aux points aberrants, on ne s’en sort plus. Voilà pourquoi on se contente au préalable
de techniques graphiques simples destinées à se faire une idée de la répartition des données.
1. Disponible sur http ://www.itl.nist.gov/div898/handbook/prc/section1/prc16.htm
37
2.10 Résumé
La règle de "x" - sigmas
Elle consiste à déclarer comme atypique les observations s’écartant de " x " écarts types autour
de la moyenne. C’est une règle très fruste. Elle est aussi basée sur une normalité sous jacente des
données. On sait par exemple que pour la loi normale, 99.73% des observations sont situées dans
l’intervalle :
[m − 3 × σ; m + 3 × σ].
m :la moyenne de la variable.
σ est l’écart type.
Toute observation qui sort de cet intervalle a une très faible probabilité d’apparaître. Il faut
savoir pourquoi elle est présente dans les données.
La règle de la boîte de Tukey
Cette technique est inspirée d’une page wikipedia 2
La boîte à moustaches(BOXPLOT) permet de représenter graphiquement la distribution d’une
variable.
On peut mettre en évidence les points extrêmes en utilisant une règle simple. Nous calculons
le 1er quartile Q1 et le 3ème quartile Q3, nous en déduisons l’intervalle interquartile :
IQ = Q3 − Q1.
On dit qu’une observation est moyennement atypique (mild outlier) s’il est en delà de :
LIF = Q1 − 1.5 ∗ IQ ou au delà de U IF = Q3 + 1.5 ∗ IQ
(LIF : lowr inner fence, UIF : upper inner fence).
Elle est extrêmement atypique si elle en deçà de :
LOF = Q1 − 3 ∗ IQ ou au delà de :
U OF = Q3 + 3 ∗ IQ(LOF : lower outer fence, UOF : upper outer fence).
2.10
Résumé
Des analyses préliminaires des données est nécessaire pour déterminer les points suivants :
– taux de données manquantes (NA) pour chaque variables
2. Le lien http ://en.wikipedia.org/wiki/Box-plot
38
C HAPITRE 2. L’information imparfaite
– taux de NA par sujets ;
– pourcentage de NA total ;
– corrélation entre les variables ;
– processus de manque (aléatoire ou informatif).
Analyse des données complètes
1. Imputation simple
Exige souvent un processus d’observation complètement aléatoire.
2. Imputation multiple
(a) Prend en compte simultanément les problèmes de biais et de précision ;
(b) Flexible ;
(c) Adaptée pour des données qualitatives et quantitatives ;
(d) Utilisable pour différents type d’analyse (régression linéaire, logistique. . .)
Problèmes
On génère plusieurs bases de données dans l’imputation multiples, chaque BD est analysée
à part puis les analyses de chaque BD sont combinées pour obtenir un résultat final. Cette
solution peut être lourde vu le volume des BDs dans notre contexte (data mining).
2.11
Conclusion
Dans cette partie, nous avons donné quelques notions et définitions relatives à l’information imparfaite (incomplète, incertaine, incomplète) et les différents types d’imperfection ainsi les causes
de ce problème, et les conséquences (extraction- manipulation...) ; avec des exemples et les modèles qui permettent de modéliser ce type d’information.
Finalement, nous avons présenté les types d’informations et les mécanismes de manque des
données et nous avons expliqué les différentes méthodes d’imputation statistiques et leurs limites.
Tous les spécialistes s’accordent à dire que le cadre le plus adapté à la représentation et la
manipulation de connaissances imprécises est celui de la théorie de la logique floue développée
par Zadeh [God99].
L’idée de Zadeh était de pouvoir manipuler des informations exprimées en langage naturel.
2.11 Conclusion
39
La logique floue repose sur le concept fondamental de sous-ensemble flou qui résulte d’un
assouplissement de celui de sous-ensemble d’un ensemble donné. L’appartenance ou la non appartenance n’obéit pas à la dichotomie classique d’un ensemble ordinaire mais elle est teintée d’une
certaine gradualité. Ce caractère graduel répond au besoin d’exprimer des connaissances imprécises.
Le problème des informations imparfaites est un problème inévitable, vu les sources de présence de ce type d’information citées précédemment.
Les techniques d’extractions des connaissances doivent tenir en compte la présence des données manquantes ou incertaine ou imprécises notamment si le taux de ces données dans la base de
donnés est important.
40
C HAPITRE 2. L’information imparfaite
Chapitre 3
Le ECD et les données imparfaites : L’état
de l’art
3.1
Introduction
Le présent chapitre présente l’état de l’art des travaux permettant la prise en compte des valeurs incomplètes et imprécises lors d’une fouille de données avec les inconvénients et les limites
et les contraintes posées par quelques approches. Nous introduisons les différents approches et travaux dont nous nous somme inspirés pour concevoir notre solution détaillée dans les chapitres qui
suivent. Une partie de cet état de l’art est inspirée de la thèse de Celine [Fio07].
3.2
Traitement des données imparfaites (incomplètes, imprécises ou incertaines)
Différentes techniques permettent de traiter des données incomplètes. Celles-ci sont souvent
spécifiques à une application ou à un jeu de données. Il existe également quelques algorithmes qui
permettent la classification par arbres de décision [Qui89],[WZLB97], [WF00], règles de décision
[BH97], [BH98] ou clustering, de jeux de données incomplets [HTK03],[HK99].
Dans le cadre de la recherche de règles d’association, [RC99, RC98] présentent un algorithme
afin de traiter les valeurs manquantes. Celui-ci ne fait pas intervenir la logique floue, mais divise la
base de données en sous-ensembles complets. Par ailleurs, si la logique floue permet dans certains
domaines de traiter les incomplétudes, dans le cadre de la découverte de règles d’association et
42
C HAPITRE 3. Le ECD et les données imparfaites : L’état de l’art
de motifs séquentiels, l’introduction de la logique floue dans les algorithmes d’extraction a permis de traiter un nouveau type d’attributs, les attributs quantitatifs [SA96, AFSS98, CMKH98],
[YCHC04].
[Pea06] souligne notamment les problèmes liés â la détection des valeurs manquantes qui ne
doivent pas être traitées de la même façon que des attributs volontairement non renseignés. A
l’inverse, dans certains cas, les valeurs inconnues, inapplicables ou encore non spécifiées sont
encodées comme des valeurs valides.
Selon le type de valeurs manquantes que l’on rencontre, leur traitement devra être adapté
[Pea06],[Wri98]. De plus, de nombreux algorithmes de fouille nécessitent ce prétraitement spécifique des données incomplètes. Il apparaît donc nécessaire, dans un premier temps, de détecter
s’il y a une raison pour que la valeur soit inconnue et si l’ignorer peut détruire une information
potentiellement utile. Il est intéressant également de détecter si l’enregistrement est utile ou non,
et on ne traitera les valeurs manquantes que lorsque ce sera nécessaire.
Plusieurs possibilités sont alors envisageables afin de gérer les valeurs manquantes lors du
prétraitement ;
- Soit on procède à la suppression des données comportant des valeurs manquantes ou des
données incomplètes et/ou à la suppression d’un attribut du jeu de données si celui-ci est souvent
non renseigné. Cette méthode n’est appropriée que si les valeurs manquantes sont rares, car si le
pourcentage de valeurs manquantes est élevé, la perte d’information résultant de la suppression
des données incomplètes n’est pas acceptable. De plus, la représentativité statistique de l’échantillon n’est plus garantie, étant donnée la réduction du nombre d’enregistrements conservés pour
l’analyse [Hui00].
- Soit on effectue un remplissage (ou complétion) des valeurs manquantes. Diverses manières
sont alors possibles. Le remplissage par valeur statistique (moyenne, médiane...), difficilement
applicable aux gros volumes de données, permet d’obtenir des résultats qui varient de manière importante selon l’estimation réalisée. Par ailleurs, le remplissage doit être le plus proche possible de
la réalité pour éviter d’introduire un biais trop important dans les données. En effet, les résultats
ultérieurs varient de manière importante selon l’estimation réalisée [HK00]. C’est pourquoi plusieurs travaux se sont intéressés à une complétion par valeurs multiples [HNJ01] ,[RD87]. Dans le
but d’amoindrir les inconsistances pouvant résulter d’une complétion simple.
Nous donnons en détails les solutions proposées pour traiter les données imparfaites (incomplètes, imprécises ou incertaines) par domaine :
3.2 Traitement des données imparfaites (incomplètes, imprécises ou incertaines)
3.2.1
43
Statistique
Les statistiques définissent trois modèles de probabilité de valeurs manquantes [AP01] :
1. missing completely at random (MCAR), quand cette probabilité est complètement indépendante des données ;
2. missing at random, quand cette probabilité ne dépend pas des valeurs manquantes, mais des
valeurs observées (par exemple, quand une pièce n’est pas défectueuse, on n’observe pas la
taille du défaut) ;
3. not missing at random, quand la cause des valeurs manquantes peut-être expliquée par des
relations entre les valeurs observées, mais également entre les valeurs manquantes (lorsque la
taille du défaut d’une pièce n’est pas observée, d’autres paramètres connexes sont également
manquants).
Selon le traitement et l’analyse réalisés, il sera nécessaire d’identifier l’origine et la nature des
valeurs manquantes, car certaines techniques sont bien adaptées pour le cas des données MAR
mais pas pour les autres types de données et inversement.
La contribution majeure des statistiques pour le traitement des données manquantes concerne
l’algorithme EM (espérance/maximisation) [Lit85], qui simule les valeurs possibles cachées par les
valeurs manquantes et réalise une analyse statistique combinée des résultats obtenus. Le but n’est
pas de compléter les données mais de refléter correctement l’incertitude des valeurs manquantes et
de préserver les aspects des distributions [NG00].
3.2.2
Bases de données
Dans le domaine des bases de données, l’expression " valeur nulle " est plus couramment
utilisée que celle de valeur manquante. Les problèmes posés sont : comment effectuer des requêtes
sur des bases incomplètes ? Comment élaborer des schémas, réaliser des fusions de données ?
Dans [Dyr97], Curtis Dyreson répertorie 438 publications sur des thèmes très divers :
Valeurs nulles, logique, exécution de requêtes, design de schémas, analyses de complexité. À
l’aide d’une étude de la quantité d’articles parus par année, l’auteur montre que ce thème a émergé
au milieu des années 70 et a connu une apogée à la fin des années 80.
Plus récemment, des travaux ont étudié des problèmes comme celui des dépendances fonctionnelles.
44
C HAPITRE 3. Le ECD et les données imparfaites : L’état de l’art
Celles-ci sont utilisées pour la rétro conception de bases de données et entre autres pour vérifier
les cohérences. [LL99] examine ce cadre en présence de valeurs nulles sous l’angle de l’additivité.
Les auteurs montrent que la transitivité énoncée par les axiomes fondateurs d’Armstrong [AWP02]
n’est plus conservée. Ce résultat n’est pas surprenant, car les travaux de Codd [E.79] ont montré
qu’on ne pouvait pas espérer étendre l’ensemble de l’algèbre relationnelle à ce type de base. Cependant, [D.02] donne des exemples en logique où, même avec des informations incomplètes, on
peut répondre à des questions avec certitude. Par exemple, sans connaître le véritable emploi d’une
personne, on pourra malgré tout affirmer qu’elle cotise à la Sécurité Sociale.
3.2.3
Ensembles flous et d’approximation
Il existe deux extensions à la théorie des ensembles : les ensembles flous (fuzzy sets) et les
ensembles d’approximation (rough sets).
La théorie des sous-ensembles flous (Fuzzy Sets Theory)
Développée par [Zad65] a été un cadre précurseur. Un autre cadre théorique très séduisant est
certainement la théorie des fonctions de croyance. Elle permet dans un même formalisme d’encoder l’imprécision et l’incertitude contenue dans une information.
Loin d’être binaire, la pensée humaine n’est pas toujours aisément modélisable par un programme informatique et parfois des outils permettant de raisonner avec des termes nuancés sont
très utiles. Par ailleurs, les bases de données du monde réel contiennent souvent de nombreuses
imperfections : des informations non renseignées (incomplétudes), des données erronées (incertitudes) ou encore des données imprécises. Il est important de proposer des techniques permettant
de détecter ces données afin de les corriger ou des méthodes de fouille dont les résultats restent
fiables malgré les différentes imperfections des données exploitées. C’est pourquoi la théorie des
sous-ensembles flous a largement été employée et de nombreux algorithmes de data mining ont désormais leurs extensions floues. Ils permettent ainsi de répondre à des problématiques plus larges
et souvent de faciliter l’interprétation des résultats par l’utilisateur final en fournissant des schémas
approximatifs robustes aux imperfections et utilisant des termes linguistiques.
Les ensembles flous permettent de représenter des classes d’éléments dont la frontière entre
appartenance et exclusion n’est pas brutale mais graduelle. Ils dérivent de la logique floue et permettent d’obtenir des règles dont la conclusion est de nature probabiliste. Une des caractéristiques
3.2 Traitement des données imparfaites (incomplètes, imprécises ou incertaines)
45
du raisonnement humain est qu’il est basé sur des données imprécises, ou incomplètes .Ainsi déterminer si une personne est de petite ou de grande taille est facile sans nécessairement connaître
sa taille. Supposons que la limite soit de 1 m 65, une personne a une taille de 160 cm. Est-elle de
taille grande ou petite ? Une réponse " floue " peut être : " la personne est grande avec un degré de
0.8 et petite avec un degré 0.2 ".
L’idée de la logique floue est de transmettre cette richesse du raisonnement humain à un ordinateur et de traiter ainsi des croyances subjectives ou de résoudre le problème posé par les connaissances imprécises et vagues.
[CMKH98] propose une nouvelle définition du support et de la confiance pour les règles d’association sur des attributs quantitatifs.
Ces nouvelles définitions sont basées sur l’introduction d’ensembles flous qui remplacent les
items classiques. Ainsi, on ne cherchera plus des règles du type " 75 % des gens qui achètent le
produit X achètent aussi le produit Y " mais " 60% des gens qui achètent beaucoup de produit
X achètent peu de produit Y ". Les items ne sont plus des attributs discrets (X, Y, Z..) mais des
attributs quantitatifs (beaucoup de X, peu de Y, moyen de Z...)
[D.02] revient largement sur cette théorie, prolongée par [BP04], traitant également de la théorie des possibilités.
Plusieurs propositions ont été formulées [CA83, AC98, AFSS98, GCK00, Gye00, TPHW00,
MDV02, TPHW03], présentant les avantages d’utilisation d’intervalles flous pour le traitement
de données quantitatives lors de la découverte de règles d’association. Leur principe consiste à
découper chaque domaine de quantités en une partition floue.
Remarque :
1. Comment générer les partitions floues (qualité de clustering dépends des techniques utilisées).
2. Comment définir la fonction d’appartenance ?
3. Perte d’informations dans quelques cas.
théorie des ensembles approximatifs : the rough (approximate set theory)
La théorie des ensembles approximatifs est une approche mathématique qui traite les données
manquantes, imprécises et incertaines. Cette théorie a été introduite par Zdzislaw Pawlak [Paw82]
en 1982 est basée sur les notions suivantes : indescernibility, (lower , upper) approximation..
46
C HAPITRE 3. Le ECD et les données imparfaites : L’état de l’art
Des algorithmes ont été proposés pour l’extraction des règles dans un système d’information
incomplet sans prétraitement des valeurs manquantes. Les travaux sont basés sur la minimum et
maximum (lower , upper) approximation est la notion des bornes est redéfinie pour l’extraction des
règles d’association avec les attributs de décision pour calculer : le minimum /maximum support
(confiance) possible afin de prédire le support [LKXj03].
Pour la tâche de classification, les ensembles d’approximation proposent des classes d’équivalence qui rassemblent les instances. Ces ensembles symbolisent des bornes (pour l’inclusion).
Pour les valeurs manquantes,[GBH01] a proposé plusieurs algorithmes de classification et comparé plusieurs techniques d’imputation possibles :
– remplacer par la valeur la plus fréquente ;
– remplacer par la valeur la plus fréquente au sein de la classe ;
– appliquer la méthode de C4.5 de traitement des valeurs manquantes, fondée sur l’entropie et
qui partitionne les exemples incomplets [Qui93] ;
– remplacer par toutes les possibilités ;
– remplacer par toutes les possibilités en se restreignant aux valeurs possibles dans la classe ;
– ignorer les exemples incomplets ;
– utiliser une technique de sélection d’exemples statistiquement indépendants et compléter de
façon probabiliste ;
– désactiver temporairement les exemples incomplets suivant les attributs prédits ;
L’auteur conclut que la meilleure méthode consiste à générer toutes les possibilités, mais est
impraticable. Cette idée est exploitée par [Lat03] qui propose de décomposer la base de données
incomplète en plusieurs bases complètes de dimensions différentes, formant ainsi un genre de pavage. Il fusionne les règles obtenues dans les différentes portions. L’inconvénient récurrent de ces
méthodes à base d’imputation multiple est que des conflits surgissent lors de la phase d’imputation.
La Théorie des fonctions de croyance (evedential theory , DS theory)
Les travaux d’A. Dempster sur les bornes inférieure et supérieure d’une famille de distributions
de probabilités ont permis à G. Shafer [Sha93]d’asseoir les bases de la théorie des fonctions de
croyance. Ce formalisme théorique peut revêtir plusieurs interprétations et appellations (théorie des
fonctions de croyance ou théorie de Dempster-Shafer). G. Shafer a montré l’intérêt des fonctions
de croyance pour la modélisation de connaissances incertaines.
Cette théorie est utilisée dans l’intelligence artificielle, les systèmes experts, reconnaissance
3.2 Traitement des données imparfaites (incomplètes, imprécises ou incertaines)
47
des formes comme une technique de modélisation de l’incertitude.
Ce modèle est une généralisation du modèle probabiliste (bayes) car elle permet de traiter les
événements non nécessairement exclusif. Ce modèle permet le traitement des probabilités où la
distribution est non connue.
Une fonction de masse m(x) peut être définie mathématiquement par une fonction (ou allocation) de masse, notée m définie de 2 dans [0 ;1]. Cette fonction m représente la croyance partielle
affectée à une hypothèse X une fonction de croyance belief (x).
Dans la littérature, on peut recenser trois familles de modèles qui font apparaître le terme
fonctions de croyance :
1. le "Upper and Lower Probability Model" ,
2. le "Dempster’s Model" et le "Hint Model" de Kholas et Monney ,
3. le "Transferable Belief Model" introduit par Ph. Smets
Les travaux de [SAH96] ont été proposés pour mettre un cadre général pour l’extraction des
règles d’association en utilisant la théorie des fonctions de croyance.
[HS05b] ont proposé un algorithme pour la classification des données imparfaites puis l’extraction des règles d’association en utilisant la théorie des fonctions de croyance.
[MA08].ont proposé un algorithme pour l’extraction des motifs fréquents basé sur la théorie
des fonctions de croyance en améliorant les algorithmes proposés [HS05a]par l’utilisation des liste
(RidLists) et une représentation verticale de la base des croyances au lieu du vecteur (bit map), ce
qui rend leur algorithme plus efficace et rapide.
Remarque :
Une des principales difficultés consiste à modéliser la connaissance disponible en initialisant
de manière adéquate les fonctions de croyance.
3.2.4
Valeurs manquantes en classification et segmentation
Le but de la classification est de modéliser un classifieur, c’est-à-dire un ensemble de règles
permettant d’affecter des données à des classes prédéterminées. Cet ensemble de règles est obtenu à partir d’un ensemble d’apprentissage. Il s’agit donc, lors d’un processus de classification,
de prendre en compte les enregistrements incomplets pendant l’apprentissage, soit par complétion
[Qui89, BH98]. soit en utilisant uniquement l’information disponible [WHI87, WZLB97] ou encore en adoptant l’approche proposée par [WF00], en ne considérant pas les cas incomplets durant
48
C HAPITRE 3. Le ECD et les données imparfaites : L’état de l’art
la phase d’apprentissage en calculant l’erreur engendrée par cette approximation. Ensuite, il faut
également pouvoir classer les nouveaux enregistrements, qui peuvent être incomplets, soit en utilisant la classe la plus probable en fonction des informations disponibles [Qui89] soit en estimant
la valeur de l’attribut non renseigné [LBS84].
3.2.5
Règles de décision
[BH97, BH98] présente un classifieur capable de traiter des enregistrements comportant des attributs non renseignés et utilisable dans trois scénarios différents : La classification avec des valeurs
manquantes, le remplissage des vecteurs d’entrée et I’ apprentissage sur des données incomplètes.
Apres la phase d apprentissage, on dispose d’un classifieur basé sur des règles floues pour chacune
des classes possibles afin de classer un enregistrement comportant des valeurs manquantes.
I’ensemble de règles définies sur l’ensemble des attributs est projeté vers un ensemble de règles
n’utilisant que des attributs dont les valeurs sont connues. La classification se fait donc uniquement
à partir des attributs renseignés. Ce principe peut également être utilisé pour la complétion des
données incomplètes. Pour cela, on détermine à quelle classe l’enregistrement appartient le plus
probablement, puis on utilise les éléments de la classe pour compléter les valeurs manquantes.
3.2.6
Arbres de décision
Parmi les méthodes de classification supervisée, on trouve également les arbres de décision.
Un arbre de décision est une structure arborescente, dont les feuilles représentent les classes et les
nuds les caractéristiques, les chemins de l’arbre constituent les règles de classification.
Lors d’une classification, on démarre de la racine de l’arbre et on le parcourt, selon les valeurs
des attributs, jusqu’à avoir atteint la feuille de destination de l’objet à classer.
Un arbre de décision se construit par induction, à partir d’un ensemble d’apprentissage. Cet ensemble est généralement constitué d’un ensemble d’exemples de décisions prises par le passé, chacun comportant un certain nombre d’attributs. Ainsi qu’un indicateur d’appartenance à une classe.
Une fois l’arbre construit, il est utile pour prédire l’appartenance de classe d’enregistrementstests.II se pose donc deux problématiques dans le cas d’ensembles contenant des valeurs manquantes. Il existence de données incomplètes dans l’ensemble d’apprentissage et la présence d’un
attribut non renseigné dans des cas-tests.
Il existe différentes manières de traiter les valeurs manquantes pendant la phase de construction
3.2 Traitement des données imparfaites (incomplètes, imprécises ou incertaines)
49
de I’ arbre. Selon la technique utilisée, les effets sur la construction seront différents. On distingue
trois grands principes : le traitement d’une valeur "inconnu", le remplissage des valeurs manquantes
et l’omission des cas incomplets.
[Qui86] propose de traiter la valeur manquante comme une nouvelle valeur pour chaque attribut
et donc comme toute autre valeur que peut prendre l’attribut. L’inconvénient de cette méthode vient
du fait qu’elle se prête bien à l’analyse de valeurs manquantes catégorielles, mais plus difficilement
à celle de valeurs manquantes au hasard. [Qui86] présente donc également une méthode, plus
appropriée dans ce deuxième cas. Celle-ci est basée sur l’idée que les cas contenant des valeurs
manquantes sont distribués de manière homogène dans l’ensemble d’apprentissage et attribue un
statut différent â la valeur " inconnu ". Cependant, cette méthode traite spécifiquement chacune des
valeurs manquantes et ne tient pas compte de la structure de l’ensemble de données, elle n’utilise
donc pas l’intégralité de l’information disponible.
[WZLB97] utilise les informations disponibles (valeurs de l’attribut pour la classe, valeurs
des autres attributs pour les cas de la même classe...) afin de déterminer les valeurs manquantes.
Toutefois, il apparaît que cette technique n’est appropriée que pour une faible concentration de
données incomplètes et un nombre limité d’attributs non-renseignés (explosion combinatoire) ;
[WF00] ne considère pas les cas incomplets durant la phase d’apprentissage et calcule l’erreur
engendrée par cette approximation en utilisant le nombre de valeurs manquantes sur l’échantillon et
introduit une pondération pour les données incomplètes. Enfin, la génération de chemin dynamique
[WHI87] permet de construire l’arbre, en commencent par l’ensemble des attributs pour lesquels
les valeurs sont disponibles.
3.2.7
Clustering des données incomplètes
Selon [HK99]. L’analyse de données incomplètes peut se faire grâce au clustering flou. Cette
méthode nécessite toutefois de traiter les données incomplètes différemment selon l’origine des
valeurs manquantes. La première étape consiste donc à analyser pour un ensemble de données les
raisons de la présence de valeurs manquantes. Dans un deuxième temps, on recherche les corrélations dans la base.
Comme pour le clustering. L’objectif du clustering flou est de diviser un ensemble de données
en un ensemble de clusters tels que la similarité intra-classes est nettement supérieure à la similarité interclasses. Cependant, le but est de pouvoir traiter les données qui pourraient appartenir
à plusieurs groupes en même temps. On introduit un degré d’appartenance aux différents clusters
50
C HAPITRE 3. Le ECD et les données imparfaites : L’état de l’art
calculé en fonction de la distance entre cette donnée et le cluster. Chaque cluster peut donc être
considéré comme un sous-ensemble flou.
L’approche proposée dans [HK99, HTK03] consiste à adapter la formule de calcul des distances
de manière à ce qu’elle puisse tenir compte des données incomplètes, ce qui permet d’omettre les
valeurs manquantes, le fonctionnement général de l’algorithme restant le même. Ceci revient à
considérer qu’un attribut non renseigné n’a pas d’influence sur l’affectation de l’enregistrement à
un cluster et à prendre en compte la différence entre données complètes et incomplètes à l’aide
d’une pondération. De plus, cette méthode permet de compléter des enregistrements incomplets en
fonction du ou des clusters auxquels ils appartiennent.
Cette méthode de traitement des données incomplètes par clustering flou permet de compléter
des valeurs manquantes â chaque itération de l’algorithme de clustering, sur le même principe que
la complétion proposée par l’algorithme Expectation-Maximization [APDR77]. De plus, pour tenir
compte de la différence entre données complètes et incomplètes, on réduit le degré d’appartenance
des données incomplètes.
3.2.8
Règles d’association, valeurs manquantes et complétion
Dans le cadre des techniques de description, des travaux ont été proposés pour la recherche de
règles d’association. [RC98, TCM07] présentent un algorithme afin de prendre en compte les données incomplètes lors de l’extraction des règles, par omission partielle et temporaire de ces enregistrements. Ces règles peuvent ensuite être utilisées afin de compléter les valeurs manquantes.[NL98,
NC01] mettent en œuvre un système d’approximation probabiliste dans lequel une valeur manquante peut prendre plusieurs valeurs lors de la découverte des règles. Ces méthodes approximatives permettent d’extraire des règles proches de celles qui devraient être obtenues sur la base complète, tandis que [RC04] extrait des représentations condensée exactes. Enfin d’autres méthodes
utilisent les règles d’association et certains indices de confiance afin de compléter les valeurs manquantes [CHWC04, SJTJS05].
Dans la section suivante, nous détaillons les concepts liés à la découverte de règles d’association, ainsi que le principe des méthodes de complétion qui les utilisent.
Modèle probabiliste :AAR (Approximate Association Rule)
Les travaux présentés dans [NC01, NL98] reposent sur une technique couramment utilisée
dans les domaines de statistique et d’apprentissage. Le principe consiste à utiliser l’information
3.2 Traitement des données imparfaites (incomplètes, imprécises ou incertaines)
51
disponible (i.e. les attributs renseignés) et à estimer grâce à elle les informations manquantes, avec
un certain niveau de probabilité. Ainsi, ces méthodes mettent en œuvre un système d’approximation probabiliste dans lequel une valeur manquante prend plusieurs valeurs lors de la découverte
des règles. Afin de prendre en compte ces estimations, les concepts de support (pourcentage des
enregistrements de la base qui contiennent tous les items de la règle) et par extension, celui de
confiance (la probabilité qu’un enregistrement qui contient la partie gauche de la régie contienne
également la partie droite) ont été redéfinis.
La première étape de l’algorithme AAR consiste donc à remplacer chaque valeur manquante
par une distribution de probabilité qui représente la probabilité pour la valeur manquante d’être
chacune des valeurs possibles de l’attribut considéré. Cette distribution de probabilité est calculée
par rapport i l’ensemble des données complètes pour l’attribut considéré.
Robust Association Rules
Des travaux ont été proposées pour la recherche des règles d’association dans les bases de
donnée relationnelles incomplètes .nous présentons les travaux de [RC98, RC99] qui présentent
l’algorithme RAR robut association rules. Cette méthode, complètement compatible avec la méthode originelle [RAS93], permet la prise en compte des données incomplètes lors de l’extraction
des règles dans des bases de données relationnelles incomplètes, par omission partielle et temporaire de ces enregistrements. Pour cela, la base est divisée en trois parties pour chaque règle,
comme également présenté par [M.00] : une partie regroupe les enregistrements contenant la règle
de façon certaine, la seconde les enregistrements ne contenant pas la règle de façon certaine et la
troisième contient les enregistrements pour lesquels on ne sait pas.
Le principe consiste à ne prendre en compte que les attributs renseignés pour les enregistrements incomplets. La base de données entière n’est pas utilisée pour chaque règle mais pour générer l’ensemble des règles. Cette technique repose sur la définition de bases de données valides,
complètes pour un ensemble d’items donnés, le reste de la base étant momentanément ignoré.
Afin de prendre en compte ce partitionnement de la base, les concepts de support et de confiance
ont été redéfinis. Par ailleurs, une nouvelle notion est introduite afin de tenir compte de la taille de
l’échantillon complet considéré pour déterminer le support de la règle. Cette mesure de représentativité permet ainsi d’éliminer de la liste des règles celles trouvées sur une base peu significative par
52
C HAPITRE 3. Le ECD et les données imparfaites : L’état de l’art
rapport à la base initiale. Un seuil de représentativité minimale. minRep, a donc été défini [RC98].
Règles d’association et complétion des enregistrements
Les méthodes de complétion des données incomplètes basées sur les règles d’association fonctionnent toutes sur le même principe : les règles d’association correspondant â l’enregistrement
incomplet sont retenues, puis on utilise différents indices de pertinence afin de pouvoir conclure
sur une valeur de remplacement.
La méthode MVC (Missing Value Completion) présentée dans [RC99] utilise les règles de
grande confiance dont le conséquent pourrait être une solution pour la valeur manquante et dont
l’antécédent est proche de l’itemset à compléter.
Deux situations sont alors possibles : toutes les règles correspondantes indiquent la même
conclusion, soit plusieurs règles concluent sur différentes valeurs. Dans ce cas, le nombre de règles
concluant sur la même valeur est utilisé pour résoudre le conflit automatiquement.
[CHWC04].Quant à eux, proposent d’utiliser une combinaison de plusieurs mesures pour noter
les règles (score, lift, applicability ..).Cette approche repose sur l’idée que les règles d’association
décrivent les relations de dépendances qui existent dans les enregistrements d’une base de données,
y compris dans les enregistrements incomplets. Les règles d’association peuvent alors être utilisées
pour estimer les valeurs manquantes. Pour cela, les auteurs proposent un score pour chaque régie,
défini en fonction du support, de la confiance et du lift de ces règles d’association.
[SJTJS05] utilisent des règles d’association dont le conséquent est un intervalle de valeurs.
Ces règles ont une confiance égale à 1. Elles sont également triées selon une seconde mesure, qui
permet d’attribuer un ensemble de valeurs très probables à une valeur manquante.
3.3
Conclusion
Dans cette partie, nous avons présenté l’état de l’art de l’extraction de connaissances à partir de
données incomplètes et imprécises, les limites et les contraintes des travaux et approches proposée.
Cette exposition de l’état de l’art nous a permis de conclure les points suivants :
La prise en charge des données manquantes du processus ECD peut être réalisée en deux niveaux selon les étapes du ECD :
1. L’étape pri traitement ;
2. L’étape data mining.
3.3 Conclusion
53
F IGURE 3.1 – La prise en charge des données manquantes dans le processus d’ECD
Les niveaux sont mentionnés par (*) dans la figure 3.1.
Il n’existe pas une approche idéale qui traite les différents types de données (incomplètes,
imprécises, incertaine).
On doit éviter les techniques simple de remplissage des données manquantes ou incertaines, ou
imprécises, car on a aucune garantie sur la qualité de remplissage utilisée ce qui peut engendrer un
bruit si les données remplies ne sont pas proches des données réelles.
On doit également éviter les techniques de suppression des données manquantes ou incertaines
ou imprécises, car ces données apportent une information partielle et peut être très utile pour l’extraction des connaissances. A notre avis ces données doivent contribuer comme une information
supplémentaire afin d’extraire des règles proche de la réalité.
En effet, comme vu dans la partie " information imparfaite ", les données imprécises, contrairement aux données incorrectes et contradictoires, ne touchent pas l’intégrité et l’homogénéité
des données. Ces données imparfaites peuvent être exploitées et intégrées pour l’extraction des
données.
54
C HAPITRE 3. Le ECD et les données imparfaites : L’état de l’art
Chapitre 4
La similarité
4.1
Introduction
Dans ce chapitre nous abordons la notion de la similarité est ses applications et ses mesures.
Plusieurs approches ont été faites pour modéliser les mesures de similarité utilisées [RUE02]. Elles
vont de l’utilisation des simples mesures de distances que nous allons développer, par la suite, à la
définition manuelle de ces mesures avec l’aide des experts du domaine et qui tiennent compte des
spécificités de ce dernier. Elles dépendent également de la description et de la représentation des
cas.
Ensuite nous présentons la logique floue et ses application et ses avantages par rapport à la
logique classique. Ensuite nous donnons les mesures de similarité dans le contexte flou. C’est la
similarité floue.
Les notions de la similarité et de dissimilarité sont concepts de base pour le data mining, l’intélligence artificielle et les systèmes muti agents . . .
Pour le data mining ces notions sont utilisées dans les connaissances telles que le clustering(K
means), l’analyse des composantes principales. . .
4.2
Similarité et Distance
Chaque individu est caractérisé par des propriétés (couleur, dimension, poids. . .). Deux individus sont identiques s’ils ont les mêmes propriétés, par contre ils sont similaires s’ils partagent
presque les mêmes propriétés, sinon ils sont dissimilaires.
56
C HAPITRE 4. La similarité
F IGURE 4.1 – La notion de la similarité entre deux objets
(La figure 4.1)
4.2.1
Similarité
Gilles Bisson définit la similarité comme étant l’opérateur qui permet d’évaluer les ressemblances et les dissemblances qui existent au sein d’un ensemble de données [Bis00]. Il subdivise la
similarité en deux grandes familles ; les similarités numériques qui quantifient les ressemblances
sous la forme d’une valeur dans l’intervalle [0,1] et les similarités symboliques qui permettent de
caractériser les ressemblances.
4.2.2
Distance
Les notions de similarité et de distance sont équivalentes et sont utilisées indifféremment pour
calculer le degré de similarité entre deux objets, et donc de deux cas. En effet, pour deux cas
donnés, plus sont similaires moins ils sont distants. L’évaluation de la similarité entre deux cas,
décrits par un ensemble d’attributs, est souvent évaluée par la mesure de la distance entre ces deux
cas à travers leurs ensembles d’attributs. Si deux individus sont séparés par une faible distance,
alors ils se ressemblent.
4.2.3
Pondération des attributs
Les attributs décrivant un problème n’ont pas la même importance. Cette importance variable
doit se refléter dans le calcul de la similarité entre deux cas en attribuant des poids aux attributs pour
décrire leur influence respective sur le résultat de la comparaison. Les attributs qui sont considérés
comme les plus importants dans la résolution du problème doivent avoir des poids plus forts.
La détermination des poids des attributs dans la mesure de similarité des cas a une influence
significative dans l’efficacité et la justesse de la phase de remémoration [IDR03]. Dans la plupart
4.3 Les applications de la similarité
57
des cas, ces poids sont attribués, manuellement, par l’utilisateur ou l’expert ce qui ne garantit pas la
remémoration des cas les plus utiles. Toutefois, plusieurs méthodes ou techniques ont été proposées
telles que les méthodes statistiques, les algorithmes génétiques ou les réseaux de neurones...
Quelque soit la méthode utilisée, ces poids ne sont pas statiques et doivent être continuellement,
au fur et à mesure de l’utilisation du système, ajustés jusqu’à l’obtention des valeurs optimales.
4.3
Les applications de la similarité
Si on peut mesurer la similarité ou la dissimilarité , alors
– On peut distinguer un objet d’un autre,
– On peut grouper les objets en se basant sur la similarité (k-means),
– Si on peut grouper les objets dans des groupes, on peut comprendre les caractéristiques de
chaque groupe,
– On peut expliquer le comportement d’une classe,
– On peut classer un nouvel objet,
– On peut prédire le comportement d’un nouvel objet,
– On peut prendre une décision basée sur la prédiction des données.
4.4
Quelques mesures de similarité
La similarité est la dissimilarité (distance) peuvent être mesurées pour deux objets basée sur les
différents types des variables. Cela dépend de l’échelle de mesure des variables des objets. Après
que la similarité ou la distance pour chaque est déterminée, on peut combiner toutes les mesures
pour former une seule similarité (distance). C’est la similarité globale.
Il existe une panoplie de mesures de similarité et donc de mesures de distances, et le choix de
la mesure adéquate n’est pas toujours évident. Ce choix dépend du domaine d’application, de la
représentation des cas et de l’apport et de l’implication des experts du domaine.
Nous pouvons citer quelques exemples des mesures de distance utilisées dans la classification
et la classification automatique (clustering en englais).
58
C HAPITRE 4. La similarité
4.4.1
Distance euclidienne
La distance euclidienne entre deux objets x, y est la distance entre ses deux extrémités. C’est la
mesure la plus utilisée et se calcule de la façon suivante : soit X = (x1 ; x2 ..xn ) et Y = (y1 ; y2 ; ..yn )
deux instances, un appartient à la base et l’autre qu’on cherche à classer. La distance euclidienne
entre X et Y est D :
v
u n
uX
D(X, Y ) = t
(xi − yi )2
(4.1)
i=1
n : nombre d’attributs.
En pratique, la racine carré n’est pas calculée dans la plupart des cas puisque les individus les
plus proches restent plus proches même si la racine carrée n’est pas appliquée.
4.4.2
Distance de Manhattan
La distance de Manhattan (ou de City-Block) entre deux individus demande peu de calcules et
est définie comme suit :
M (X, Y ) =
n
X
(xi − yi )
(4.2)
i=1
n :le nombre d’attributs.
4.4.3
Distance de Minkowski
Cette distance est une généralisation de la distance euclidienne de la distance de Manhattan.
Elle est calculée de la façon suivante :
v
u n
uX
r
D(X, Y ) = t
(xi − yi )r
i=1
n :le nombre d’attributs.
Si r = 1 alors il s’agit de la distance de Manhattan.
Si r = 2 alors il s’agit de la distance euclidienne.
A noter qu’il existent d’autres mesures de distance (X2 , corrélation , camberra . . .)
(4.3)
4.4 Quelques mesures de similarité
59
Le choix de la mesure de distance est un point déterminant pour chercher les objets les plus
similaires( les plus proches voisins ) ce qui influe directement sur la qualité de la classification
(automatique ,supervisée).
4.4.4
Normalisation
Parmi les points critiques de la distance euclidienne classique est que si un des attributs a un
intervalle relativement large, il peut dominer les autres attributs. Par exemple, si une BD contient
seulement deux attributs A et B , A peut avoir des valeurs de 1 à 1000, et B de 1 à 10 alors
l’influence de la distance de B est toujours dominée par celle de la distance de A.
C’est pour ça que les distances sont souvent normalisées par la division de la distance de chaque
attribut par l’intervalle [min-max] de l’attribut pour avoir des distances dans la plage [0,1].
Les points aberrants
La solution est la division de la distance par l’écart type de l’attribut au lieu de la division sur
la valeur max-min.
En effet, la division sur cette valeur permet à la valeur aberrante (extrême) d’avoir un effet
profond de la contribution de l’attribut concerné.
Par exemple, si une variable possède des valeurs dans l’intervalle [0..10 ] dans presque tous les
cas mais avec une valeur exceptionnelle (et fort possible qu’elle est erronée) de 50, alors la division
par la valeur max-min peut avoir presque toujours une valeurs inférieure à 0.2.
Une autre solution est de supprimer un faible taux (5 % par exemple) des deux extrémités la
plus élevée et la plus basse.
4.4.5
Distance euclidienne hétérogène (HEOM)
Une solution pour traiter les BDs contenant les deux types de données (continue et nominal ) est
d’utiliser la fonction de distance hétérogène (HEOM) qui utilise différentes fonctions de distance
pour différents type de données.
Cette fonction hétérogène définit la distance entre deux valeurs x et y d’un attribut a comme :
da (x, y) =




1 si x ou x est inconnu
overlap(x, y) si a est nominal


 rndif f (x, y)
a
60
C HAPITRE 4. La similarité
Les valeurs inconnues sont traitées par l’attribution d’une distance = 1 (maximale distance) si
une des valeurs est manquante.
La fonction overlap
( est différence normalisée sont définies comme suit :
0 si x = y
overlap(x, y) =
1 sinon.
la fonction rndif fa est définie comme :
rndif fa (x, y) =
|x−y|
rangea
La valeur rangea est utilisée pour normaliser les attributs et définie comme :
rangea = maxa − mina
maxa et mina sont les valeurs maximales et minimales respectivement observées de d’attribut
a.
Il est possible qu’un nouveau individus possède une valeur dehors cet intervalle est produire une
différence supérieure de un. Bien que ces cas sont rares, une large différence peut être acceptable.
La normalisation garantie que presque tous les différences sont inférieures à un.
La distance totale (hétérogène) entre deux individus est calculée comme :
v
u m
uX
HOEM (X, Y ) = t
d(xa − ya )2
(4.4)
a=1
m est le nombre d’attributs.
Cette distance élimine les effets de l’ordre des attributs continus, mais elle est trop simpliste
pour mesurer la différence entre les valeurs nominales puisque elle n’exploite pas l’information
supplémentaire apportée par les attributs nominaux.
4.4.6
Sélection des cas proches voisins
C’est l’application de la mesure de similarité choisie du cas de l’objet à classer avec l’ensemble
des cas de la base des exemples.
Le résultat serait un ensemble de cas plus ou moins similaires au cas cible dont il faut prélever
un certain nombre pour classer l’objet.
Trois alternatives se présentent ;
4.4 Quelques mesures de similarité
61
1. prendre les cas dont le degré de similarité avec le cas cible dépasse un certain seuil,
2. prendre les k plus proches voisins ,
3. la méthode mixte qui combine les deux précédentes.
Méthode du seuil de similarité
Dans cette méthode, un seuil α dans l’intervalle [0, 1] est utilisé pour pouvoir obtenir la liste
des cas similaires, avec les valeurs de similarité correspondantes, dont le degré de similarité est
supérieur ou égal au seuil α .
Méthode des k plus proches voisins
Cette méthode consiste à sélectionner les k objets ayant les degrés de similarité les plus élevés
avec l’objet qu’on veut classer. La recherche des k plus proches objets similaires au cas cible se
fait à l’aide d’un niveau de similarité a qui correspond au seuil minimum pour valider la similarité.
Ce seuil α augmente au fur et à mesure que des cas plus similaires sont comparés au cas cible (le
seuil A prend alors pour valeur le degré de similarité).
Méthode mixte
Cette méthode combine les deux précédentes méthodes ; on sélectionne un nombre k d’exemples
dont le degré de similarité est supérieur ou égal au seuil minimum α .
F IGURE 4.2 – Le choix de K voisins
62
C HAPITRE 4. La similarité
Le choix d’une variante (k ou seuil) dépend directement du domaine étudié. Prendre k =1 risque
de prendre des cas rares comme modèle de prédiction. Prendre k grand peut inclure des exemples
dissimilaires dans le modèle de classification. La figure 4.2 explique le problème du choix de k
voisins.
4.5
La logique floue
L’homme perçoit, raisonne, imagine et décide à partir de modèles ou de représentations. Sa
pensée n’est pas binaire. L’idée de la logique floue est de " capturer " l’imprécision de la pensée
humaine et l’exprimer avec des outils mathématiques appropriés. La théorie des ensembles flous
s’occupe de la subjectivité et de l’incertitude ou de l’imprécision. Elle trouve ses origines dans un
certain nombre de constatations : La connaissance que l’être humain a d’une situation quelconque
est généralement imparfaite,
– elle peut être incertaine (il doute de sa validité),
– ou imprécise (il a du mal à l’exprimer clairement).
– L’être humain résout souvent des problèmes complexes à l’aide de données approximatives :
– la précision des données est souvent inutile.
– Plus la complexité d’un système augmente, moins il est possible de faire des affirmations
précises sur son comportement.
4.5.1
Historique
Les racines de la logique floue se trouvent dans le principe de l’incertitude de Heisenberg.
Dans les années 20, les physiciens ont introduit la troisième valeur
1
2
dans le système logique
binaire bivalent 0, 1. Au début des années 30, le logicien polonais Jan Lukasiewicz a développé
le système logique avec trois valeurs puis l’a étendu à tous les nombres rationnels entre 0 et 1.
Il a défini la logique floue comme une logique qui utilise la fonction générale de vérité, laquelle
associe à une affirmation un niveau de vérité qui peut prendre toutes les valeurs entre 0 (faux) et 1
(vrai).
Dans les années 30, Max Black a appliqué la logique floue aux ensembles d’éléments ou de
symboles. Il a appelé imprécision l’incertitude de ces ensembles. Il a dessiné la première fonction
d’appartenance (membership function) d’un ensemble flou [God99].
En 1965 Lotfi Zadeh, de l’université de Berkeley aux USA, a publié l’article " Fuzzy sets " dans
4.5 La logique floue
63
lequel il a développé la théorie des ensembles flous et introduit le terme fuzzy dans la littérature
technique. L’idée de Zadeh consiste à utiliser le modèle de l’esprit humain qui dispose d’une très
forte capacité pour appréhender la complexité et pour manier des notations vagues et imprécises.
Cette compétence est due à l’habilité des humains à manipuler des informations imprécises et
incertaines.
Ainsi, Zadeh a initié le développement de la logique floue dont l’objectif principal est d’imiter
les fonctionnalités de l’esprit humain. Il résume l’objectif de la logique floue par "The construction
of smarter machines ". Aussi, Dubois et Prade, qui sont parmi les pionniers de la logique floue,
affirment ils : "The main motivation of fuzzy set theory is apparently the desire to build up a
formal, quantitative framework that captures the vagueness of human knowledge as it is expressed
via natural language"[God99].
Depuis, la logique floue s’est confirmée comme étant un outil adéquat pour le traitement des
imprécisions et des incertitudes dans les systèmes intelligents. Au niveau industriel, les différentes
applications de la logique floue ont bien montré son utilité dans beaucoup de domaines tels que la
robotique et le contrôle des automatismes de processus.
Dans les sections suivantes de ce chapitre, nous présentons les concepts principaux de la logique floue que nous utiliserons dans notre travail.
4.5.2
Théorie des sous-ensembles flous
Notion d’ensemble et de sous-ensemble flou
Une des notions fondamentales dans les mathématiques est la notion d’ensemble, créé par le
mathématicien Georg Cantor. Il a définit les ensembles comme des collections d’objets, appelés
éléments, bien spécifiés et tous différents. Dans la théorie des ensembles, un élément appartient ou
n’appartient pas à un ensemble.
Ainsi, on peut définir un ensemble par une fonction caractéristique pour tous les éléments x
de l’univers de discours U. L’univers de discours est l’ensemble référentiel qui contient tous les
éléments qui (
sont en relation avec le contexte donné.
1 si x ∈ E
µE (x) =
0 si x∈
/E
Zadeh a étendu la notion d’un ensemble classique à l’ensemble flou qui le définit comme étant
" une collection telle que l’appartenance d’un élément quelconque à cette collection peut
prendre toutes les valeurs entre 0 et 1".
64
C HAPITRE 4. La similarité
Comparativement à la logique classique, les bases théoriques de la logique floue sont établies
de manière à pouvoir traiter des variables inexactes de valeurs comprises entre 0 et 1, par contre la
logique de Boole dont les variables ne peuvent prendre que les valeurs 0 et 1. A titre d’exemple, la
classification des personnes à travers leur âge par les deux logiques présenté dans la figure 4.3 qui
montre que :
1. La logique classique (logique de Boole) n’admet pour les variables que les valeurs 0 et 1,
qui font que les personnes âgées de moins de 30 ans sont systématiquement jeunes et les plus de
50 ans sont âgées, sans pour autant que, cette classification soit logique.
2. Alors que la logique floue, dont les variables peuvent prendre n’importe qu’elle valeur comprise entre 0 et 1, permet de tenir compte du passage progressif de l’individu d’un âge à un autre,
on parle alors, de fonction d’appartenance µ.
Les limites ne varient pas soudainement, mais progressivement, la figure 4.4 montre une classification possible ; une personne de 25 ans appartient à l’ensemble (jeune) avec une valeur µ = 0.75
de la fonction d’appartenance, et à l’ensemble (entre deux âges) avec µ = 0.25, par contre une personne de 70 ans appartient avec une valeur µ = 1 de la fonction d’appartenance à l’ensemble
(âge).
F IGURE 4.3 – Représentation floue et classique
Valeur d’appartenance
La valeur d’appartenance est le degré de compatibilité d’un élément avec le concept qui est
représenté par un ensemble flou. La fonction caractéristique de l’ensemble B,µB (x) est appelée
4.5 La logique floue
65
une fonction d’appartenance. La valeur µB (x) mesure l’appartenance ou le degré avec lequel un
élément x appartient à l’ensemble B :µB (x) = Degre(x ∈ B).
4.5.3
Utilité des ensembles flous
En général, un ensemble flou est utilise pour modéliser l’incertitude et les imprécisions dans la
connaissance :
1- Incertitude : la fonction d’appartenance µA (x) est utilisée pour indiquer le degré de vérité de
la proposition x est A. Dans ce cas, on connait la valeur de x mais on ne connait pas a quel ensemble
elle appartient ; en effet x peut appartenir aux plusieurs ensembles avec différents (ou mêmes)
degrés d’appartenance. L’ensemble flou modélise alors ici l’aspect incertain de la connaissance.
2- Imprécision : la fonction d’appartenance µA (x) est une distribution de possibilités dans
l’espace de toutes les valeurs possibles de x. Dans ce cas, on connait l’ensemble (ou les ensembles)
auquel appartient x mais on ne connait pas la valeur exacte de x ; µA (x1) représente la possibilité
pour que x=x1. L’ensemble flou modélise alors ici l’aspect imprécis de la connaissance.
4.5.4
Opérations sur les ensembles flous
Les ensembles flous sont une généralisation des ensembles ordinaires. Ainsi trouve-t-on les
mêmes opérateurs classiques, mais définis sur des notions floues :
Egalité
Deux sous-ensembles flous B1 et B2 d’un ensemble X sont égaux si leur fonctions d’appartenance sont en tout point égales : µB1 (x) = µB2 (x)∀x ∈ X
Inclusion
Un sous-ensemble flou B1 est inclus dans B2 (on note B1 ⊂ B2 ) si tout élément de X qui
appartient à B1, appartient à B2 avec un degré au moins égal : µB1 (x) ≤ µB2 (x)∀x ∈ X
Intersection
L’intersection des sous-ensembles flous B1 et B2 est le sous-ensemble constitué des minimums
des degrés de vérité des sous- ensembles flous B1 et B2 : µB1 (x) ∧ µB2 (x)∀x ∈ X
66
C HAPITRE 4. La similarité
Union
L’union des sous-ensembles flous B1 et B2 est le sous-ensemble constitué des maximums des
degrés de vérité des sous- ensembles flous B1 et B2 : µB1 (x) ∨ µB2 (x)∀x ∈ X
Complément
Le complément d’un sous-ensemble flou B est défini comme suit : ¬µB1 (x) = 1 − µB2 (x)
Remarque : Il est à remarquer que l’intersection d’un sous-ensemble flou et de son complément
ne donne pas l’ensemble vide. De même que l’union des mêmes sous-ensembles ne donnent pas
l’ensemble de référence.
F IGURE 4.4 – Ensembles flous définis pour la caractéristique " Age "
La fuzzification
La fuzzification est l’opération qui permet de transformer une valeur numérique de l’entrée en
une partie floue définie sur un espace de représentation lié à l’entrée. Du choix de cet espace de
représentation (numérique ou linguistique) dépend la nature de la partie floue E résultante de la
fuzzification.
La défuzzification
La défuzzification est l’opération qui permet de transformer une partie floue de l’entrée en une
valeur numérique définie sur un espace de représentation lié à l’entrée. Les méthodes de défuzzification les plus utilisées sont ; la méthode des hauteurs, le centre de gravité, le centre des aires et le
4.6 Distance entre deux sous-ensembles flous
67
centre des maxima. La méthode des hauteurs consiste à choisir la valeur maximum, le premier ou
le dernier des maxima, ou la moyenne des maxima.
4.6
Distance entre deux sous-ensembles flous
Une distance entre deux sous-ensembles flous d’un même ensemble de référence est une évaluation de ce qui sépare ces deux sous-ensembles. Elle permet d’apprécier leur ressemblance ou
leur dissemblance. Il existe plusieurs mesures de distances, mais les plus utilisées sont : la distance de Hamming et la distance euclidienne. Soient trois sous-ensembles flous A, B et C. Chaque
mesure de distance doit satisfaire les conditions suivantes :
Une distance n’est jamais une quantité négative :D(A, B) ≥ 0
La distance entre A et B est égale à la distance entre B et A : D(A, B) = D(B, A)
La distance entre A et A est toujours nulle :D(A, A) = 0 Si l’on associe à la distance une
opération pour composer deux distances, on doit avoir la propriété suivante appelée inégalité triangulaire
D(A, B) ≤ D(A, B) ∗ D(B, C)
Où * est l’opération considérée, par exemple la somme pour la distance de Hamming.
4.6.1
Distance de Hamming
La définition générale de la distance de Hamming est la somme des valeurs absolues des différences entre les fonctions d’appartenance des objets correspondants :
P
D(A, B) = ni=1 |µA (x) − µB (x)|
Où n est le nombre d’éléments dans l’ensemble de référence E. Pour tenir compte du nombre
d’éléments de l’ensemble de référence, on préfère utiliser la notion de " distance de Hamming
relative " en divisant le résultat par le nombre d’éléments de référence, soit :
P
D(A, B) = 1/n ni=1 |µA (x) − µB (x)|
4.6.2
Distance euclidienne
La distance euclidienne relative pour deux sous-ensembles flous A et B dans le même ensemble
de référence E est définie de la manière suivante :
pPn
2
D(A, B) =
i=1 (µA (x) − µB (x))
68
C HAPITRE 4. La similarité
4.7
4.7.1
L’agrégation multicritère
Définition
L’agrégation multicritère consiste à synthétiser des informations traduisant des aspects ou des
points de vues différents et parfois conflictuels au sujet d’un même ensemble d’objets. Il se pose
de manière cruciale dans nombre de procédures d’évaluation, de comparaison ou de classification
utilisées en aide à la décision. En effet, de nombreux problèmes de décision sont multicritères.
Dans la pratique, que ce soit pour évaluer une préférence ou une similarité, les critères sont
rarement unanimes dans la comparaison des alternatives et l’on doit se résoudre à prendre parti
sur la résultante des conflits existants. Pour cela, on cherche généralement à définir une règle
de décision qui permette de bâtir une relation de préférence ou de similarité sur l’ensemble des
alternatives à partir de leurs vecteurs de performances.
D’un point de vue général on peut dire que l’agrégation a pour objet d’utilisation des connaissances fournies par différentes sources pour parvenir à une conclusion ou une décision. Mais faut-il
prendre en considération toutes les sources ou se suffire d’une ou quelques sources ? C’est là qu’intervient le concept de " Quantificateur linguistique flou " introduit par Zadeh [Yag01].
4.7.2
Le quantificateur linguistique flou
Le concept de quantificateur linguistique a été introduit par Zadeh, qui a suggéré que la sémantique d’un quantificateur flou peut être capturé en utilisant les sous-ensembles flous pour leur
représentation. Il distingue deux types de quantificateurs, absolus et relatifs.
Les quantificateurs absolus sont utilisés pour représenter une quantité d’éléments tels que autour de 2, plus que 5,.. etc.
Les quantificateurs relatifs sont des termes correspondants à une proportion d’objets comme
par exemple, la plupart, au moins la moitie, tous,..etc.
Un quantificateur Q peut être représenté par un sous-ensemble flou sur l’univers de discours I
= [0, 1] tel que pour toute proportion r ∈ I, Q(r) indique le degré avec lequel r satisfait le concept
indiqué par le quantificateur Q [Yag01]. Cette notion a été davantage développée par R. Yager pour
introduire plusieurs types de quantificateurs dont celui, proportionnel, appelé Regular Increasing
Monotone Quantifier ou RIM [IDR03].
Un quantificateur est dit RIM s’il vérifie les trois conditions suivantes :
69
4.8 Conclusion
1. Q(0) = 0,
2. Q(1) = 1
3. Si r1 > r2 alors Q(r1) ≥ Q(r2).
L’évaluation de la solution ou la conclusion passe par l’implémentation du quantificateur linguistique RIM par un opérateur d’agrégation OWA (Ordered Weighted Averaging).
4.7.3
L’opérateur d’agrégation OWA
Yager [IDR03] définit un opérateur OWA de dimension M comme une fonction
à laquelle on associe un vecteur de poids W de dimension M : W (w1,w2,..w) avec :
1. wi ∈ [0, 1],
Pn
2.
i=1 wi = 0
3. F (a1 , a2 , .., am ) =
Pn
i=1
w i ∗ bi
ou bj est le j eme ai selon un ordre croissant et les ai sont les critères à combiner.
Deux approches ont été proposées, par Yager, pour obtenir le vecteur de poids wj [IDR03]. La
première consiste à utiliser un mécanisme d’apprentissage sur des données d’essai ; et la seconde
est d’essayer de donner une sémantique ou une signification aux poids. C’est cette dernière qui
permet l’application dans les domaines d’agrégation guidée par les quantificateurs.
4.8
Conclusion
Nous avons consacré ce chapitre pour définir les notions relatives à la distance et la similarité
et quelques mesures les plus connues et utilisées. Le problème majeur est que la notion de la
similarité est un concept relatif. En effet, deux objets similaires à un certain seuil (ou k) peuvent
être également dissimilaires à un autre seuil (ou k différent).
Les autres paramètres influant à définir sont :
Le choix de la mesure (fonction) de distance (euclidienne, Manhattan..)
La sélection des attributs importants.
Le choix des poids des attributs.
Cette difficulté sera plus importantes dans notre cas où les données sont imparfaites ( imprécises, manquantes..).
70
C HAPITRE 4. La similarité
Après un bref historique, nous avons détaillé la théorie de la logique floue et surtout les notions
que nous allons utilisées pour notre approche. Les notions de la similarité dans les sous-ensembles
flous et tout ce qui en découle (propriétés, représentation, ..etc.), les variables linguistiques, la
(dé)fuzzification...
Nous avons terminé ce chapitre par expliquer la notion d’agrégation multicritère et le quantificateur linguistique flou. Notre objectif est de présenter la similarité dans un contexte flou.
Chapitre 5
L’approche proposée
5.1
Introduction
Le problème des valeurs imparfaites est un problème connu dans le domaine de la fouille de
données et de l’apprentissage automatique où, dans la base d’apprentissage, on rencontre des objets
ayant des valeurs manquantes et/ou imprécises pour certains attributs. Cela arrive pendant la phase
d’acquisition des données du processus de l’ECD. Les données sont manquantes parce qu’on ne
les a peut-être pas enregistrées, ou bien que leur acquisition est trop coûteuse, etc. Prendre une
décision en présence de données manquantes/imprécises est une tâche difficile. Par exemple, la
santé est un domaine où l’incertitude prend une importance considérable.
Nous présentons dans ce chapitre notre approche, qui se compose de deux parties :
– partie pré traitement.
– partie data mining .
Nous allons exposer l’analyse univarié et ses limites, cette présentation est essentielle pour
montrer l’avantage de notre approche.
1. Analyse univariée :
En se basant sur les données observées et en utilisant les outils de statistiques descriptives
(moyenne, médiane, mode, écart type, distribution. . .), il est possible de caractériser une propriété (attribut). Cette analyse nous permet d’avoir une idée globale sur la variable mais la
limite de cette approche est qu’elle traite les propriétés une par une sans prendre en considération les liens qui peuvent exister entre ces variables. D’où l’idée est d’utiliser la structure
globale de la base et les relations qui existent entre les variables pour traiter le problème des
72
C HAPITRE 5. L’approche proposée
données manquantes et imprécises.
2. Ceux qui se ressemblent se rassemblent..
Généralement les individus d’un même groupe (classe) sont homogènes et similaires. Par
contre les individus appartenant à des classes différentes ont des propriétés différentes. C’est
une propriété fondamentale caractérisant les individus et leurs groupes. Il est possible de caractériser un groupe d’individus en utilisant les outils de statistiques descriptives (moyenne,
médiane, mode, écart type. . .) par classe et non pas par attribut pour décrire les groupes de
la population. Ces informations sont utiles pour la prédiction des valeurs manquantes, élimination des bruits, filtrages des données imprécises. En effet, connaître la relation d’appartenance d’un individu à une classe nous facilite la connaissance (avec une grande probabilité)
de déduire les caractéristiques (attributs) de l’individu en question.
Ces deux exemples montrent comment peut on déduire une information en exploitant le maxi-
mum des données disponibles observées pour inférer les données imparfaites (manquantes, imprécises.)
Exemple 01 : données quantitatives. Les données Iris provenant d’UCI , cette base contient
quatre variables continues et la classe (03 classes). Cette BD contient 150 individus. La figure
5.1permet la visualisation des trois classes selon la variable petalwidth.
F IGURE 5.1 – Les trois classes de la base Iris (fleurs)
On peut dire alors que pour la classe 1 (les 50 premiers individus) la propriété petalwidth est
entre 0.1 et 0.6 , pour la deuxième classe elle est entre 1 et 1.8 et entre 1.6 et 2.5 , donc pour une
5.2 Méthode des KNN (k Nearest Neighbours)
73
donnée manquante pour l’attribut petalwidth la probabilité pr qu’elle soit entre 0.1 et 0.6 sachant
que la classe est 1 est pr = 1.
Une information imprécise peut contenir une information bruitée ou contradictoire avec la
classe concernée. On peut exploiter la relation entre l’attribut petalwidth est la classe 1 pour filtrer
l’imprécision.
Bien qu’on travaille avec une BD complète, c’est le cas idéale pour l’extraction des connaissances, le problème est plus complexe lorsque la BD est imparfaite (manquante, imprécises. . .). En
effet, cette analyse doit être prise avec précaution car toutes les hypothèses et les observations sont
basées sur les informations incomplètes et incertaines. Tous les paramètres extraits (corrélation,
distribution...) donc sont imparfaits.
Exemple 02 : données qualitatives. La BD vote.txt de la BD de référence d’UCI du congres
américain contient les thèmes de vote (16 questions) et 2 classes (républicains, démocrates). Nous
voulons caractériser le comportement du vote des deux groupes (républicains, démocrates) sur les
différents thèmes qui leurs ont été soumis (crime, immigration, éducation..). La variable classe
décrit l’appartenance politique (républicains, démocrates). Le fichier contient 435 parlementaires,
168 d’entre eux (%38) sont républicains.
La première variable caractérisant mieux ce groupe est physician-fee-freeze ,% 40.69 des députés (177) ont répondu oui à la question physician-fee-freeze Parmi les républicains, ce pourcentage
monte à % 97.02 (163 de 168) députés. Le fait d’être républicain a déterminé le comportement de
vote sur cette question. Donc la probabilité conditionnelle Prob(republicain / physician-fee-freeze
= yes) = 163/168 = 0.97,02.
La limite de cette approche univariée est :
1. elle traite les propriétés une par une sans prendre en considération les liens qui peuvent
exister entre ces variables.
2. si cette variable est manquante, sa valeur sera estimée sur sa distribution de probabilité.
C’est là qu’intervient l’intérêt d’utiliser la structure globale de la base.
5.2
Méthode des KNN (k Nearest Neighbours)
La méthode de k plus proches voisins est une méthode de l’apprentissage supervisé de type
apprentissage à base d’instances (instance-based learning).
74
C HAPITRE 5. L’approche proposée
C’est une méthode de classification non-paramétrique puisqu’aucune estimation de paramètres
n’est nécessaire comme pour la régression linéaire.
On dispose de données d’apprentissage (training data) pour lesquelles chaque observation dispose d’une classe y. Si le problème est à 2 classes, y est binaire. L’idée de l’algorithme des KNN
est pour une nouvelle observation (u1, u2,..., up) de prédire les k observations lui étant les plus
similaires dans les données d’apprentissage et utiliser ces observations pour classer l’observation
dans une classe. Quand on parle de voisin cela implique la notion de distance ou de dissimilarité.
1. La distance la plus populaire est la distance euclidienne.
2. Le cas le plus simple est k=1 (cas 1-NN) .
3. On cherche l’observation la plus proche.
On peut résumer l’algorithme comme suit :
Début
On cherche à classer l’instance I
pour chaque objet J de l’ensemble d’apprentissage faire
calculer la distance D(J,I) entre J et I
fin pour
Dans les k objets les plus proches de I
calculer le nombre d’occurrences de chaque classe
Attribuer à I la classe la plus probable
fin
75
5.3 KNN imputation
5.3
KNN imputation
L’idée est d’adapter la technique KNN pour compléter les données manquantes en se basant sur
le même principe : la similarité. KNN imputation (KNNI) est une méthode qui consiste à remplacer
les données manquantes d’un individu par la valeur observée de l’individu le plus proche (similaire)
au sens d’une fonction de distance.
Cette méthode a été proposée par Dixon 1979.
Nous donnons par la suite les étapes de la méthode KNN Imputation.
Algorithme
Diviser
la BD en deux parties ;
Dc la base contenant les données complètes et Dm le reste(missing).
Pour chaque individu x dans Dm
Diviser le vecteur x en partie manquante et observée [xmis,xobs]
Calculer la distance entre xobs et tous les autres vecteurs de Dc .
Utiliser les attributs de Dc qui sont connus dans x (xobs).
Trouver les k plus voisins proches et utiliser le mode de ces k
voisins pour compléter la variable catégorielle
utiliser la moyenne des k voisins
5.3.1
pour la variable continue.
Avantages
– KNNI peut prédire les deux types de données ; continue (la moyenne des k voisins), discrète
(le mode).
– Pas de nécessité pour créer un modèle prédictif pour chaque variable (comme la régression
par exemple), donc l’approche KNN imputation peut être facilement adaptée pour n’importe
quelle variable comme variable prédite.
– KNNI peut facilement traiter le cas des individus avec plusieurs données manquantes ;
– Cette approche tient en compte la structure des données.
76
C HAPITRE 5. L’approche proposée
– KNNI est robuste aux données bruitées.
5.3.2
Points critiques
– Le choix de la fonction de distance D
Comment choisir la fonction de distance parmi plusieurs (euclidienne, Manhattan..) ?.
Solution : dans la phase d’apprentissage on choisit la distance qui donne le meilleur taux de
bonne classification.
– Pour trouver les plus proches voisins d’une instance A, nous devons chercher dans toute la
BD.
Solution : sélectionner les instances exemplaires parmi la base d’apprentissage.
Une autre solution est d’effectuer un clustering avec k = nbre cluster = nbre classe qui est
connu, puis pour un nouvel objet à classer en cherchant les voisins dans le cluster le plus
proche au lieu de chercher dans toutes la base.
– Le choix du nombre K. Comment choisir le nombre K les plus similaires. Un k petit (k=1)
peut introduire un bruit et détruire la structure de la BD après l’imputation du à la domination
d’un nombre petit des voisins pour l’estimation de la valeur manquante. Par contre, choisir
un nombre k grand, cela permet des instances différentes d’être des similaires. Pour les BDs
de taille faible, choisir k inférieur à 10 est une solution raisonnable.
Solution : varier k dans la phase apprentissage jusqu’à l’obtention du meilleur taux de classification (le moindre taux d’erreur de classification).
Exemple : La base Iris contient 150 instances et 4 attributs continus. La classe de cette base
prend 3 valeurs : Iris Setosa, Iris Versicolor, Iris Virginica codées dans cette exemple respectivement 1,2 et 3. L’objectif de cette base est de classer les fleurs d’Iris.
On a pris dix exemples de la base pour illustrer les notions de distance et de similarité. (voir la
table 5.1).
La distance euclidienne : soit X = (x1 ; x2 .. xn) et Y = (y1 ; y2 ; ..yn) deux instances, la
distance euclidienne entre X et Y est D :
v
u n
uX
D=t
(ai − bi )2
i=1
(5.1)
77
5.3 KNN imputation
ID Objet Sepallength Sepallwidth Petallength Petalwidth Classe
1
5.8
4
1.2
0.2
1
2
5.7
4.4
1.5
0.4
1
3
5.4
3.9
1.3
0.4
1
4
5.6
3
4.5
1.5
2
5
5.8
2.7
4.1
1
2
6
6.2
2.2
4.5
1.5
2
7
5.6
2.5
3.9
1.1
2
8
6.3
2.5
5
1.9
3
9
6.5
3
5.2
2
3
10
6.2
3.4
5.4
2.3
3
TABLE 5.1 – Une partie de la base Iris
En pratique, on ne calcule pas la racine carrée. La distance entre l’instance 1 et l’instance 2
est :
D(1, 2) = (5, 8 − 5, 7)2 + (4 − 4, 4)2 + (1, 2 − 1, 5)2 + (0, 2 − 0, 4)2
D(1, 2) = 0.12 + 0.42 + 0.32 + 0.22
D(1, 2) = 0, 3.
De même, la distance entre l’objet 1 et 3 est :
D(1, 3) = 0, 22.
Le tableau 5.2 donne la distance calculée entre l’objet 1 et les autres objets de la base.
On trouve que l’instance 3 est la plus proche avec un minimum de distance 0.22, si l’instance
1 possède des données manquantes, et si l’instance 3 reste le plus proche, on utilise les données de
l’instance 3 (la plus proche) pour compléter ses valeurs manquantes.
Remarque :
On a pris le cas le plus simple lorsque le nombre des voisins les plus proches est égal à 1.
1. si la donnée manquante est quantitative, on calcule la moyenne des données de ces voisins
pour l’attribut manquant pour compléter l’instance incomplète.
78
C HAPITRE 5. L’approche proposée
ID Objet Distance
2
0.3
3
0.22
4
13.62
5
10.74
6
15.98
7
10.39
8
19.83
9
20.73
10
22.57
TABLE 5.2 – La distance entre l’objet 1 et les autres objets
2. si la données manquante est symbolique (qualitative), on choisit la valeur la plus fréquente
(mode) de ces voisins pour l’attribut manquant pour compléter l’instance incomplète.
5.4
Le choix d’un langage de modélisation des imperfections
de l’information
Le choix de la méthode pour modéliser ou traiter le problème de l’imperfection des données
(manque, imprécision..) est très difficile, cela dépend de plusieurs facteurs ;
– L’objectif de traitement (la connaissance qu’on souhaite à extraire : description, prédiction).
– Le nombre des variables à traiter.
– Le taux de l’imperfection.
– L’importance des variables (associer un poids).
Les incertitudes ne sont pas toujours de nature aléatoire. Elles sont souvent dues à des imprécisions ou à des incomplétudes. La théorie des sous-ensembles flous [Zad65] se présente comme un
outil privilégié pour la modélisation des situations présentant des imprécisions. Elle inclut la théorie des possibilités dans sa logique pour permettre la prise en compte simultanée d’imprécisions
et d’incertitudes. La logique floue repose sur le concept fondamental de sous-ensemble flou qui
résulte d’un assouplissement de celui de sous-ensemble d’un ensemble donné. C’est l’instrument
qui nous permet de représenter la notion de classe dont les limites sont mal définies.
5.4 Le choix d’un langage de modélisation des imperfections de l’information
79
L’appartenance ou la non appartenance n’obéit pas à la dichotomie classique d’un ensemble
ordinaire mais elle est teintée d’une certaine gradualité. Ce caractère graduel répond au besoin
d’exprimer des connaissances imprécises telles que des informations recueillies en langage naturel,
ou des valeurs approximatives dues à des difficultés de mesurage.
Bien que la théorie des sous-ensembles flous offre un cadre conjoint permettant de traiter autant des données numériques que des données en langage naturel, elle ne traite pas l’imprécision
et l’incertitude qui peut les entacher dans le même formalisme. En revanche, la théorie des possibilités permet la manipulation de l’incertitude sur des connaissances imprécises ou vagues. Il est
important de signaler que l’incertitude visée par cette théorie n’est pas de nature probabiliste car
on y cherche à savoir dans quelle mesure la réalisation d’un événement est possible et dans quelle
mesure on en est certain sans que l’on dispose de l’évaluation de la probabilité de réalisation de
cet événement.
Face à la multitude de langages de modélisation des imperfections de l’information, c’est la
question du choix d’un langage en particulier qui s’impose dans toute tentative de modélisation.
Le choix entre tous ces langages de modélisation des imperfections de l’information n’est pas
trivial. Il nécessite un effort de compréhension de toutes les théories en concurrence et un examen
minutieux de la situation décisionnelle à modéliser.
Afin de faciliter la tâche de l’homme d’étude dans le choix approprié du langage de modélisation des imperfections de l’information, [AM] ont tenté de mettre en place un cadre conceptuel
permettant une caractérisation opérationnelle de chacun des langages de modélisation retenus. Ce
cadre pourrait constituer un guide pratique pour le choix d’un langage de modélisation des imperfections de l’information concernant les évaluations des actions selon divers critères.
Dans [AM]. une proposition d’ un guide permettant d’aider le choix d’un langage de modélisation des imperfections de l’information. Ce guide comprend des étapes que nous résumons :
Étape 1 : Identification de la nature d’imperfection de l’information pour les évaluations des
actions selon le critère à construire. À cette étape il faut cocher l’une des deux cases suivantes
selon la nature prédominante de l’imperfection de l’information présente :
1. incertitude
2. imprécision
Il faut en effet préciser si les imperfections de l’information reliées à ce critère sont de l’ordre
- des incertitudes : au sens d’un doute sur la validité d’une connaissance :
80
C HAPITRE 5. L’approche proposée
– données recueillies par un intermédiaire peu fiable (pas sûr de lui, susceptible de se tromper
ou de donner intentionnellement des informations erronées) ;
– données difficiles à obtenir ou à vérifier ;
– données prévisionnelles ;
– données de nature aléatoire ;
– incertitudes dues à des imprécisions ou à des incomplétudes.
- des imprécisions : au sens d’une difficulté dans l’énoncé d’une connaissance :
– des catégories aux limites mal définies ("jeune", "centre ville",..),
– des situations intermédiaires entre le tout et le rien ("presque noir"),
– le passage progressif d’une propriété à une autre (notion de distance : "proche", "éloigné",..),
– des valeurs approximatives ("environ 2 km").
Étape 2 :
Cette étape commence à partir de l’une des deux cases incertitude ou imprécision. Si on a
identifié un contexte d’incertitude pour le critère à construire, il faut répondre par oui (O) ou par
non (N) à la question 1 :
1- Peut-on énumérer les différents états possibles influençant ou représentant les évaluations
selon ce critère ?
L’identification d’un contexte d’imprécision par contre est suivie par la question 2 à laquelle il
faut répondre également par oui (O) ou par non (N) :
2- Les imprécisions portent-elles sur des données numériques approximatives que l’on peut
exprimer par des intervalles ?
Étape 3 :
L’étape 3 procède à partir des réponses données aux questions 1 et 2.
Si suite à la question 1 on constate qu’on est dans l’impossibilité d’énumérer les différents états
possibles influençant ou représentant les évaluations selon le critère à construire (N), on devrait
avoir recours à la théorie des possibilités pour modéliser l’incertitude en présence. Dans le cas
contraire (O), on continue l’investigation par le biais du test de l’aléatoire (A) :
Test A :
– Les évaluations selon ce critère sont des données numériques ou du moins mesurables sur
des échelles standard (ratio, intervalle,...) ;
– Il existe peu d’intervenants humains non experts dans la situation d’incertitude à modéliser,
ces derniers introduisent des éléments d’imprécision par des descriptions subjectives ou des
5.5 Approche proposée
81
connaissances formulées en langage naturel,
– Il n’existe pas d’importantes connaissances graduelles ou de classes aux limites mal définies
caractérisant la situation à modéliser.
Si toutes les propositions énoncées dans le test A sont vérifiées on y répondra par oui (O), dans
le cas contraire on y répondra par non (N).
Si la question 2 montre que les imprécisions sont dues à des données numériques approximatives que l’on peut exprimer par des intervalles (O) il sera naturel de recourir à une modélisation
par les intervalles. Sinon (N), on utilisera le langage du flou.
5.5
Approche proposée
Nous avons proposé deux solutions suivant le guide [AM] en laissant le choix selon les critères
cités dans le guide.
Ces deux propositions sont :
– La modélisation par intervalles classiques.
– Le modèle flou.
En plus, on a proposé une méthode mixte qui combine les deux approches précédentes ( floue,
intervalle classique).
On a vu que l’information imprécise peut être plusieurs valeurs possibles ou sous forme d’intervalle [min,max]. L’approche intuitive et logique est d’utiliser les intervalles pour surmonter le
problème des données imprécises . Cette solution a plusieurs avantages :
1. Éliminer l’effet des points aberrants.
2. Réduire le nombre des possibilités infinies des valeurs des variables continues.
Un problème majeur dans cette proposition classique est les limites des classes. Il apparaît
à partir du moment où l’on transforme une valeur continue en son appartenance à une classe de
valeurs. Nous pensons que la théorie de la logique floue est un moyen pour cela, ce que nous
exposerons par la suite.
La théorie de la logique floue développée par Zadeh [God99]. L’idée de Zadeh était de pouvoir
manipuler des informations exprimées en langage naturel. La logique floue repose sur le concept
fondamental de sous-ensemble flou qui résulte d’un assouplissement de celui de sous-ensemble
d’un ensemble donné. L’appartenance ou la non appartenance n’obéit pas à la dichotomie classique
82
C HAPITRE 5. L’approche proposée
d’un ensemble ordinaire mais elle est teintée d’une certaine gradualité. Ce caractère graduel répond
au besoin d’exprimer des connaissances imprécises.
5.5.1
Problème de manque de données :
Les incomplétudes identifiées comme étant des absences de connaissance ou des connaissances
partielles ne sont pas prises en compte par un langage particulier. En effet, il n’existe pas de langage
propre à la modélisation des incomplétudes. Les incomplétudes sont prises en compte dans la
mesure où elles conduisent à des incertitudes ou à des imprécisions.
Pour traiter ce problème on a proposé les deux solutions :
1. L’approche qui consiste à ignorer les données manquantes. Utilisation de la similarité partielle (modification de KNN pour tolérer le manque) : c’est la modification de la technique
de calcule de la similarité(distance)en supprimant les attributs manquants.
2. L’approche par remplissage de données (mode, moyenne, régression, similarité, information
supplémentaire...).
Les avantages de la procédure de complétion sont :
La base complétée devient complète est la technique d’extraction de connaissance est applicable dans ce cas.
L’exploitation des données observées pour estimer les données manquantes.
les inconvénients sont :
La qualité d’imputation. (Les données imputées sont des estimations probables).
Le temps d’estimation et de complétion est considérable (la masse de données dans la cas de
data mining).
Les avantages de la procédure de suppression de données :
On ne pend que les données observées.
La limite est lorsque le taux de manque est important.
Notre travail est de tester les performances de ces deux approches.
Dans notre approche, nous distinguons les types d’attributs suivants :
1. attributs forcément exacts,
2. attributs potentiellement imprécis (flou , intervalle).
5.5 Approche proposée
83
Attributs forcément exacts :
Ce sont les attributs qui ne peuvent être flous lors de la description du cas et ceci pour deux
principales raisons :
On ne peut se tromper sur leurs valeurs (ex. Sexe du malade dans le domaine médical).
On doit les connaître pour différentes raisons (ex. Le groupe sanguin du malade).
L’attribut binaire :
C’est un attribut qui ne peut prendre que deux valeurs. Ces deux valeurs sont généralement 0,
1 ou logiques Vrai, Faux.
L’attribut mesuré par des valeurs discrètes : C’est un attribut ne pouvant avoir qu’une seule
valeur qui appartient à un ensemble fini de valeurs v1,v2, .. vk. Ces valeurs peuvent être numériques, nominales ou tout autre type.
Un exemple typique de ces attributs est le groupe sanguin dont les valeurs sont A, B, AB, O.
L’attribut mesuré par des valeurs continues :
C’est un attribut dont le domaine de valeurs contient un nombre infini de valeurs. Ce domaine
doit être limité par une valeur minimale et une valeur maximale.
Dans ce type de données précis, la distance est calculée par les mesures classiques, elle doit
être normalisée (entre 0 et 1).
5.5.2
Problème de données imprécises :
Modélisation par intervalle (classe)
Pour chaque attribut, on procède à découper l’espace des valeurs en intervalles (classes) par la
transformation des valeurs continues.
Cette opération consiste à attribuer une valeur numérique à l’intervalle dont il appartient. Cette
opération entraine une perte d’information et l’effet et l’impact de cette perte dépend du domaine
considéré, mais notre objectif est la précision de la connaissance et permettent la tolérance des
données imprécises. Le découpage doit tenir en compte le nombre de classe à prédire.
A chaque valeur numérique est associée :
1. Non de la classe.
2. L’ordre de la classe.
3. L’intervalle (min - max).
84
C HAPITRE 5. L’approche proposée
L’information supplémentaire ordre d’intervalle sert pour le calcul de la distance. Cette distance
sera plus précise puisque elle utilise les ordres de classes. Les classes adjacentes sont plus proches
(similaires) que les éloignées.
Calcule de la distance imprécise
Nous donnons trois alternatives :
1. Considérer l’attribut comme symbolique.
2. Utiliser les ordres d’intervalles pour calculer la distance. Cette alternative donne plus de
précision pour mesurer la distance.
3. Utiliser l’estimation des experts pour chaque couple de classes.
Approche floue
Dans un domaine donné et contrairement aux attributs obligatoirement crispe, il existe des
attributs descripteurs des cas qui peuvent tolérer l’imprécision et l’incertitude. Cette tolérance aux
imprécisions et aux incertitudes est un avantage certain pour l’extraction de connaissances utilisant
ce type d’attributs du fait qu’en réalité on n’a jamais l’ensemble des valeurs réelles et précises
des différents attributs à portée de main. La prise en charge de ce type d’attributs, comme on l’a
vue dans le chapitre consacré à la logique floue, passe par l’utilisation de la logique floue et des
variables linguistiques et tout ce qui en découle.
Avantages :
L’utilisation des variables linguistiques, en plus des valeurs numériques, dans un processus de
mesurage d’un attribut, a plusieurs avantages [IDR03] :
Elles sont faciles à comprendre contrairement au cas des valeurs numériques.
Elles permettent la tolérance des imprécisions dans le processus de mesurage.
Elles généralisent les valeurs numériques qui ne sont utilisées que dans le cas de disponibilité
d’informations précises (imprécision est égale à zéro). Malheureusement, souvent ce n’est pas le
cas.
Elles permettent d’exprimer convenablement les capacités limitées de l’esprit humain dans le
traitement des informations précises et infinies.
Utilisation des variables linguistiques :
A chaque attribut potentiellement flou on associe une variable linguistique dont on doit définir : Le nom de l’attribut ou de la variable linguistique. L’univers de discours ou le domaine des
valeurs numériques X que peut prendre la variable numérique associée à la variable linguistique.
5.5 Approche proposée
85
Les valeurs ou les termes linguistiques que peut prendre la variable linguistique. Ces valeurs ne
sont pas statiques et peuvent changer d’un domaine à un autre ; pour l’attribut âge on peut prendre
les valeurs enfant, jeune, adulte, vieux dans un domaine ou nourrisson, enfant, adulte dans un autre.
La valeur linguistique par défaut que doit prendre la variable ou l’attribut en cas d’indisponibilité ou de méconnaissance de cette valeur.
Le type de fuzzification utilisé pour rattacher une valeur ayant deux sous ensembles flous d’appartenance.
Pour chacune des valeurs linguistiques on associe un sous-ensemble flou. L’ensemble des sous
ensembles flous s’appelle une partition floue.
La similarité dans notre système sera calculée sur deux niveaux :
1. par attribut (locale),
2. par individu (totale).
Similarité par attribut
Cette étape consiste à évaluer la similarité entre deux exemples A et B selon chaque attribut
Aj, SIM (A,B). SIM (A,B) sera calculé par la formule d’agrégation flou
SIM (A, B) = max min (µA (x), µB (x))
Similarité entre individus
La similarité entre deux exemples A et B SIM(A,B) est évaluée en combinant les similarités
individuelles SIM(A,B), par un quantificateur linguistique Q tel que all, most, many, at-most ,
et there exists.. Ce genre de quantificateur est appelé RIM (Regular Increasing Monotone Quantifier) [Yag01]. Donc, la similarité globale entre deux individus A et B est définie par l’expression
informelle suivante :
SIM (A, B) = mostof (SIMJ (A, B))
Ou SIMJ (A, B) est la j eme similarité individuelle selon un ordre croissant .
Ou mostof veut dire prendre en considération la plupart des attributs dans le calcul des similarités. Cette méthode assure la qualité et la quantité car en prend la plupart des attributs et les plus
similaires selon l’ordre croissant.
L’implémentation du quantificateur RIM de l’équation précédente est assurée par un opérateur
OWA. Donc, la similarité globale entre deux cas A et B est calculée par :
86
C HAPITRE 5. L’approche proposée
SIM (a1 , a2 , .., am ) =
Pn
Ou SIMi (A, B) est la i
i=1
eme
wi ∗ SIMi (A, B)
similarité individuelle selon un ordre croissant . wi est le poids de
l’attribut i selon un ordre croissant.
Classification
Si la variable à prédire est continue en parle d’estimation sinon (la variable est discrète) il s’agit
de la classification.
En utilisant les exemples de la base les plus similaires à l’objet qu’on veut classer / estimer.
Méthode de choix des cas similaires
– KNN, déterminer le nombre k ;
– Seuil de similarité, déterminer le seuil minimum α (par exemple un degré de similarité à
0,8).
– Mixte, les k voisins ayant un seuil minimum α.
Si la tache est la classification on choisi le mode de la classe des voisins similaires sélectionnés.
Si l’objectif est l’estimation de la variable prédite, on combine les variables des voisins similaires
sélectionnés par la moyenne (ou par la moyenne pondérée ; chaque valeur candidat est pondérée
selon son degré de similarité pour favoriser les cas les plus similaires)
5.5.3
Résume de notre approche
On distingue deux types d’attributs : exact et imprécis.
1-Attributs exact :
La distance est calculée de la manière classique (distance euclidienne normalisée).
2-Attributs imprécis : Selon le type d’imprécision, deux approches sont proposées :
2-1-Par intervalle (classe) :
1. Découpage des attributs imprécis en intervalles :
2. A chaque valeur continue est associée une classe, un ordre d’intervalle.
Distance des attributs imprécis :
Nous donnons trois alternatives :
1. Considérer l’attribut comme symbolique.
2. Utiliser les ordres d’intervalle pour calculer la distance. Cette alternative donne plus de précision pour mesurer la distance.
87
5.5 Approche proposée
3. Utiliser l’estimation des experts pour chaque couple de classes.
2-2- Approche floue La similarité sera calculée sur deux niveaux :
1. par attribut(locale)
SIM (A, B) = max min (µA (x), µB (x))
2. par individu (totale)
SIM (a1 , a2 , .., am ) =
Pn
i=1
wi ∗ SIMi (A, B)
3-Données manquantes :
3-1- Modification de KNN missing, c’est la modification de KNN classique pour tolérer le
manque de données.(similarité partielle).Les données manquantes ne seront pas en compte lors de
calcule de la similarité.
3-2- Complétion de données :
1. Moyenne ou mode
2. Aléatoire,
3. Régression,
4. Information supplémentaire,
La distance totale sera la somme des distances des attributs (exacts et imprécis)
4-Classification / estimation
On utilise KNN ou seuil de similarité minimum α.
Pour la clarté de démonstration, on a divisé notre approche en deux parties : La première
approche qui consiste à ignorer les données manquantes. Ses différentes étapes sont illustrés dans
la figure 5.2
Dans la deuxième approche on procède à la complétion des données. La figure 5.3 explique
cette alternative. Les deux alternatives seront testées et comparées.
L’avantage de notre approche est la possibilité de combiner les types de similarité : exact,
imprécis (intervalle et flou) afin de déterminer la similarité totale (toutes les types sont normalisées
entre 0 et 1). La figure 5.4 illustre la structure de ce modèle.
Dans le contexte data mining , la base de données est le résultat de fusion des sources hétérogènes, d’où la possibilité de trouver les différents types d’attributs : exact, imprécis (intervalle,
flou) dans la même base de données. Alors choisir un modèle (intervalle ou flou) n’est pas approprié dans ce cas. Notre proposition d’agréger les différents types de similarité est une solution pour
ce problème.
88
C HAPITRE 5. L’approche proposée
F IGURE 5.2 – L’approche par désactivation de données manquantes
5.6
Conclusion
L’approche que nous avons proposé présente deux modélisations de l’imprécision ; par intervalle et le modèle flou. Des redéfinitions sont également données pour les différents cas. Notre
contribution est de proposer une mesure pour la distance imparfaite qui accepte les données imprécises, floues et manquantes. La distance proposées donc est une distance hétérogène.
Le chapitre suivant contient les tests et les expérimentations pour valider notre approche.
5.6 Conclusion
F IGURE 5.3 – L’approche par complétion des données manquantes
89
90
C HAPITRE 5. L’approche proposée
F IGURE 5.4 – L’approche hybride (précise, intervalle, floue)
Chapitre 6
Expérimentations
6.1
Introduction
Dans le chapitre précédent, nous avons expliqué notre approche, qui est basée sur le principe
de la similarité entre les individus. Nous présentons dans ce chapitre les notions relatives à l’évaluation d’un modèle. Notre approche est applicable sur les attributs discrets, qualitatifs, intervalle,
continus et flou.
Une validation d’un nouveau système peut être effectué sur deux niveaux :
1. axiomatique ;
2. empirique.
La validation empirique de notre approche consiste en l’évaluation de la précision du modèle
de classification qui tolère l’incertitude due à l’imprécision et le manque de données. Dans notre
cas, nous utilisons les bases de données de référence (benchmark) provenant du (UCI Repository
of machine learning databases) 1
6.2
Évaluation du modèle
Pour évaluer notre approche, nous commençons par la tester sur plusieurs bases réelles.
Deux critères sont à prendre pour l’évaluation :
1. http ://www.ics.uci.edu/mlearn/mlrepository.html
92
C HAPITRE 6. Expérimentations
1. La tolérance à l’imprécision et le manque.
2. La précision des résultats par rapport à la base de données précise et complète.
Ensuite, nous évaluons sa performance en utilisant le taux de bonne classification. Finalement,
nous comparons les résultats donnés par les méthodes de remplissage de données (moyenne, mode
,régression .. ).
Dans le contexte d’une classification supervisée, la base est divisée en deux parties :
La base d’apprentissage :elle contient environ 70% de la base et sert pour définir les paramètres du modèle pour obtenir le meilleur taux de bonne classification(le minimum taux d’erreur).
Pour notre cas (la similarité), les paramètres à définir sont : la fonction de distance (euclidienne,
Manhattan .. ) et le nombre de voisin k ou le seuil de distance (similarité).
La base de test :(environ 30% de la base), après la construction du modèle de prédiction
(classification), on utilise cette partie de la base pour tester et valider le modèle.
Nous donnons les définitions suivantes :
– a est le nombre de classements corrects des instances de classe négative.
– b est le nombre de classements incorrects des instances de classe négative.
– c est le nombre de classements incorrects des instances de classe positive.
– d est le nombre de classements corrects des instances de classe positive.
Plusieurs mesures appelées mesures d’exactitude par classe, sont définies :
Accuracy (exactitude - taux de bon apprentissage) : la proportion des instances qui sont bien
classées.
Accuracy =a + d /a + b + c + d
True Postive Rate (TP Rate) ou (Recall - rappel) : la proportion des instances de classe positive
qui sont correctement classées.
TPrate = Recall =d/(c + d)
C’est donc le rapport entre le nombre de bien classés et le nombre total d’instances qui devraient
être bien classées.Si le rappel est à 1, cela signifie que toutes les instances positives ont été trouvées.
True Negative Rate (TN Rate) : la proportion des instances négatives qui sont correctement
classées.
TNrate =a/(a + b)
False Postive Rate (FP Rate) : la proportion des instances négatives qui sont incorrectement
classées comme positives.
FPrate =b/(a + b)
6.3 Critères de choix des bases de données
93
False Negative Rate (FN Rate) : la proportion des instances positives qui sont incorrectement
classées comme négatives.
FNrate = c/(c + d)
Precision (p) : la proportion des instances classées positives correctement parmi toutes les
instances classées positives.
Precision = d/(b + d)
Si la valeur de Precision est à 1, cela exprime le fait que toutes les instances classées positives
l’étaient vraiment.
Fmeasure : c’est une mesure globale qui regroupe Precision et Recall dans une seule matrice.
Fmeasure = 2*Recall * Precision/(Recall + Precision) Fmeasure = 2*r*p/(r + p)
Cette mesure permet de regrouper en une seule valeur les performances du classifieur (pour
une classe donnée) pour ce qui concerne le Recall et la Precision.
6.3
Critères de choix des bases de données
Nous avons choisi les bases de données complètes, car l’objectif est de tester les performances
de notre approche pour la prise en charge des données imparfaites, nous introduisons les données
manquantes artificiellement et nous comparons ensuite ces résultats avec les résultats obtenus sur la
base complète qui sert comme référence. Nous avons choisis les trois bases de données suivantes :
– La base iris.
– La base cancer-w
– La base crédit
La base iris est la base la plus connue et utilisée pour les tests et la validation pour la classification.
S’il y a un domaine où le problème d’imprécision et d’incertitude de données est une caractéristique fondamentale, c’est bien le domaine médical. La principale raison à cela est que le
type de raisonnement utilisé par le médecin dans sa démarche repose, en plus de son savoir, sur
l’expérience liée à la résolution de cas rencontrés dans la pratique. L’autre domaine entaché par
l’incertitude est le domaine économique (l’étude de demande de crédits est un cas typique).
Nous donnons par la suite les détails sur la description de ces bases.
94
C HAPITRE 6. Expérimentations
6.4
Protocole des expérimentations
Ces expérimentations ont été réalisées sur un PC équipé d’un processeur 2.8 GHz et de 512
Mo de mémoire DDR, sous système XP2. L’application est développée sous Borland C++4.5.
6.4.1
Le cas de manque de données
Pour mieux gérer les paramètres, nous avons mène des expériences sur les bases complète. Sur
ces bases, les valeurs manquantes sont artificiellement générées en enlevant aléatoirement certaines
valeurs.
On peut avoir plusieurs scénarios pour le problème d’incomplétude de données :
1. La base d’apprentissage est manquante et la base de test est complète ;
2. La base d’apprentissage est complète et la base de test est manquante ;
3. La base est entièrement incomplète (apprentissage et test ) ; c’est le pire des cas car on
apprend sur des données partielles d’une part et on doit classer les objets incomplets d’autre
part.
Nous avons choisis le cas extrême de manque ou il affecte les deux parties de la base (apprentissage et test). Pour le cas d’apprentissage puisque la classe est connue est quelques propriétés
sont manquantes, la meilleure technique est l’imputation par la similarité, dans ce cas l’objet incomplet est complété par les objets les plus similaires. Pour éviter le problème du choix du nombre
de voisins K on complète l’individu incomplet par le représentant (centre) de la classe dont il appartient pour garder l’homogénéité des groupes. Cette solution permet d’éviter de remplir un objet
incomplet à partir d’un autre similaire inconsistant (qui est le plus proche mais appartient à une
classe différente),ou par des données aberrantes.
On a plusieurs solutions :
1. Ignorer les attributs manquant ; les valeurs des attributs manquants n’interviennent pas dans
le calcul de la similarité (distance) : c’est la similarité partielle.
2. Le remplissage de la base par une méthode d’imputation :
(a) La moyenne/Le mode ;
(b) Régression ;
(c) Similarité : par les plus proches voisins ou par le représentant (moyenne / mode) de la
classe ou l’objet appartient.
6.4 Protocole des expérimentations
95
(d) L’information supplémentaire .
Soit une base de données complète. Le protocole a été conçu comme suit :
1- Génération artificielle de données manquantes : Pour chaque paire de bases apprentissagetest, " trouer " la base d’apprentissage selon l’hypothèse que les données manquantes surviennent
de manière complètement aléatoire, nous testons avec plusieurs taux de données manquantes pour
les bases d’apprentissage (5%,10%, 20%, 30%, 40% et 50%).
2- Substitution des données manquantes : Substituer les données manquantes dans les bases
d’apprentissage par une technique de substitution citée.
Pour chaque paire de bases apprentissage-test ainsi remplies :
(a) Appliquer les méthodes d’imputation sur la base d’apprentissage afin de construire un modèle de classification.
(b) Utiliser le modèle obtenu pour classifier les exemples de la base de test. Le critère utilisé
est le taux de bonne classification, nous évaluons les résultats de classification obtenus.
3- Agrégation des résultats : Pour donner des résultats représentatifs, le nombre de simulations pour chaque taux de manque doit être significatif (200 par exemple). Ensuite moyenner les
indices de performance (taux de bonne classification)sur toutes les paires de bases apprentissagetest.
Nous comparons ensuite les résultats.
Les méthodes d’imputation :
Moyenne, Médiane et Mode : Les valeurs manquantes de chaque variable sont remplacées
par la moyenne arithmétique ou la médiane (pour être moins sensible aux valeurs aberrantes) pour
les données numériques et le mode pour les données symboliques.
Régression : On cherche des corrélations entres la variable manquantes et d’autres variables.
La plus simple forme est la régression simple entre deux variables x et y ou la relation linéaire peut
être sous la forme y = ax+ b, la variable y est à remplir et x la variable observée.
Les paramètres a et b sont calculées à partir des données observées.
1-La base iris
Les données Iris provenant d’UCI, contient 150 instances et 4 attributs continus. La classe de
cette base prend 3 valeurs : Iris Setosa, Iris Versicolor, Iris Virginica. L’objectif de cette base est
de classer les fleurs d’iris. Les attributs sont : sepallength, sepalwidth, petallength et petalwidth.
Pour évaluer le modèle. On calcule la précision de classification sur la base complète. Cette
précision sert comme référence par rapport aux bases imputées. Le taux de précision sur la base
96
C HAPITRE 6. Expérimentations
iris est 94 % pour la méthode de la seuil et 96 % pour 1nn (k=1).
Comme expliqué avant, on introduit des données manquantes d’une façon aléatoire.
La table 6.1 donne la précision en fonction du taux de manque introduit.
taux manque
5%
taux précision 94%
10 % 20% 30% 40%
92%
50%
90% 88% 80% 64 %
TABLE 6.1 – Le taux de précision en fonction du taux de manque de la base iris
Explication
On remarque que la dégradation des performances du classifieur est en fonction du pourcentage
d’incomplétude de la base d’une façon proportionnelle.
La table 6.2 résume les résultats de bonne classification notée TP pour les différentes méthodes
(remplissage ou suppression )en fonction du taux de manque de données.
taux manque
5%
10 %
20%
30% 40%
50%
moyenne seuil
92%
87%
84%
80% 78% 70 %
similarité partielle 95%
95%
89 %
86% 82% 74 %
TABLE 6.2 – Le taux de bonne classification pour les méthodes d’imputation de la base iris
Les tests ont montré que la meilleure méthode est la similarité partielle en utilisant un seuil de
similarité. Une explication peut être parce qu’elle utilise l’information disponible (mais certaine)
par rapport aux autres méthodes d’imputation.
Le pire des cas est celle de l’imputation par la moyenne. En effet, cette méthode remplace la
donnée manquante par la moyenne, donc toutes les données manquantes seront à une tendance
vers le centre de la population alors que la tache est la classification où on cherche à distinguer
les groupes alors que l’imputation par la moyenne donne la même valeur pour chaque individu
incomplet , par la suite tous les objets deviennent presque les mêmes puisque ils partagent la
même propriété (la moyenne de la population) ce qui augmente le taux d’inconsistance dans la
base imputée.
2- La base credit
La base crédit comporte n = 100 observations. La variable à prédire est " ACCEPTATION.CREDIT
" (" yes " ou " no "). Les variables prédictives sont :
Age :Age du client,Quantitative ;
97
6.4 Protocole des expérimentations
Income.Per.Dependent : Revenu par tête dans le ménage, Quantitative,
Derogatory.Report : Au moins un problème avec l’établissement bancaire a été rapporté, de
type binaire. Le taux de bonne classification est 55% pour 1nn et 77% pour la méthode de seuil de
similarité = 0.9. Pour 1nn le mauvais taux est expliqué par l’existence de plusieurs individus qui
sont inconsistants dans cette base.
taux manque
5%
10 %
20% 30% 40%
moyenne /mode, seuil=0.9 75%
76%
76% 74% 73% 70 %
71%
71% 70% 60% 52 %
similarité partielle
72%
50%
TABLE 6.3 – Le taux de bonne classification pour les méthodes d’imputation de la base crédit
Les résultats dans la table 6.3 montrent que le pire des résultats est celle de l’ignorance de
manque(sim partielle). On remarque que les performances du classifieur ne sont pas trés affectées
par le manque pour la méthode d’imputation par moyenne/mode.
Une explication logique est que seule la variable Derogatory.Report (un problème de crédit)
est la plus pertinente est significative. Cette variable est complétée par le mode( la plus fréquente
valeur dans la base observée). Cette variable est toujours estimée par la vraie valeur(O)ce qui donne
toujours un taux de bonne classification acceptable indépendamment du taux de manque.
Pour valider cette interprétation, on a supprimé de la base les autres variables qui sont jugés
non significatives et classer les individus sur la base de la variable Derogatory.Report :un problème
de crédit seulement, en effet cette variable peut classer toute seule 77% des exemples de la base.
3- La base brest-w
La base possède 699 objets. Elle contient 9 attributs continus, la classe prédite contient deux
valeurs benign et malignant. Nous avons choisi les trois variables les plus pertinantes : Clump Thickness ,Cell Size Uniformity et Bare Nuclei. Le taux de classification basée sur ces trois variables
est de 96% avec une seuil de similarité de 0.9.Le Le même taux est obtenu par 1nn.
taux manque
5%
10 %
20% 30% 40%
50%
moyenne /mode, seuil=0.9 95%
93%
93% 92% 88% 85 %
moyenne 1nn
95%
92%
93% 91% 89% 82 %
similarité partielle seuil
95%
94%
93% 90% 83% 80 %
similarité partielle 1nn
95%
89%
66% 33% 28% 33 %
TABLE 6.4 – Le taux de bonne classification pour les méthodes d’imputation de la base breast-w
98
C HAPITRE 6. Expérimentations
Les résultats sont résumés dans la table 6.4. On remarque que la méthode de seuil de similarité
est plus performante que celle de 1nn dans les différentes méthodes. Egalement la méthode d’imputation est meilleure que celle de la similarité partielle(sans imputation), on observe une dégradation
totale du taux de bonne classification TP de cette méthode à partir du taux d’incomplétude de 30%.
Le cas des variables dépendantes et l’apport de la régression et l’information supplémentaire
On peut trouver des relations qui existent entre les variables qui décrivent l’exemple à classer.
Notre idée est d’exploiter cette relation pour remplir la variable dépendante par la régression. On
peut avoir plusieurs formes de la régression (linéaire, exponentielle ,log..). Dans la base complète
iris les variables 3 et 4 sont dépendantes , le coefficient de corrélation ( qui mesure la liaison entre
les variables)= 0.96. La relation linéaire entre les deux variables est :
var3= var4* 2,2+1,07.
On utilise cette fonction pour imputer la variable manquante. Les variables 1 et 2 sont imputées
par la moyenne.
La même remarque pour la base cancer-w,ou les variables Cell Size Uniformity et Cell Shape
Uniformity sont dependentes(le coeff de corrélation est 0.90).
La relation linéaire est : Cell Shape Uniformity = Cell Size Uniformity*0,93-0,21.
On exploite cette relation pour estimer la valeur de la variable Cell Shape Uniformity si elle
est manquante. A la différence de la base iris, dans la base breast l’attribut Cell Size Uniformity
ne participe pas directement dans la classification, mais il sert comme information supplémentaire équivalente. Cette information est utilisée pour compléter la valeur de la variable Cell Shape
Uniformity si elle est manquante.
taux manque
5%
10 % 20% 30% 40%
50%
taux TP iris
94%
93%
94% 93% 94% 92 %
taux TP breast 94%
95%
94% 94% 93% 93 %
TABLE 6.5 – Le taux TP en fonction du taux de manque, l’imputation par la régression
Les résultats de la table 6.5montrent que le taux de bonne classification n’est pas touché par
le taux de manque de données. Si les méthodes d’imputation (moyenne) donne les mêmes valeurs
pour les objets différents, la procédure de la régression marque la différence (donc la distance) ce
qui permet de classer les exemples de la base d’une manière correcte.
6.4 Protocole des expérimentations
6.4.2
99
Synthèse des résultats
La dégradation des performances du classifieur en fonction du taux de manque de données.
Toutes les méthodes de gestion du manque (imputation, suppression) sont équivalentes lorsque
le taux de manque n’est pas important (inférieur à 20 %).
La méthode de suppression des données manquante (sans remplissage de données) n’est pas
appropriée si le taux de manque dépasse le 20% (problème de la représentativité statistique).
Les méthodes de remplissage par la moyenne ne sont pas appropriées dans un contexte de
classification / clustering. Cela augmente le taux d’inconsistance dans la base.
L’apport de la similarité des variables (imputation par régression) est trés bénéfique. L’apport
de l’information complémentaire est également intéressant. En effet, une variable extérieure de la
base de la classification (dans la même base ou d’autres sources de données) peut être en relation
avec les attributs de la classification. Cette variable extérieure peut être utilisée pour compléter ou
expliquer la variable en question s’il elle est manquante. Si l’information externe provient d’une
source extérieure, on parle de la fusion de données.
L’utilisation de nombre de voisins = 1 est à déconseiller, cela risque d’intervenir les objets
inconsistants ou les objets ayant des valeurs aberrantes pour la imputation / classification.
La fig 6.1 résume les résultats des trois méthodes de gestion d’incomplétude de données (imputation par moyenne, information supplémentaire er régression, ignorance des données manquantes)
pour les trois bases de données.
6.4.3
Le cas d’imprécision de données
Le but de cette partie est de tester les approches proposées pour la prise en compte de manque
et de l’imprécision et l’incertitude des données pour l’extraction de connaissances , par intervalle
et par la logique floue et l’approche hybride. Ces approches sont comparées en fonction de taux
d’exactitude (bonne classification).
La table suivante montre les résultats des transformations faites sur les bases(iris, credit et
breast-w).
L’approche mixte qui accepte les trois type de données( exact,intervalle,flou) est aussi perforante que les autres approches (intervalle et exacte) en terme de pourcentage de bonne classification
, mais son atout est qu’elle accepte toutes les types de données (intervalle,exact et floue)et la distance est calculée en fonction de chaque type de donnée. Enfin la distance (similarité) totale est
100
C HAPITRE 6. Expérimentations
F IGURE 6.1 – Synthèse des résultats des méthodes de gestion du manque
la base la base précise l’approche intervalle l’approche hybride( floue,intervalle,précise )
iris
96%
96%
95%
crédit
77%
68%
73%
breast
96%
93%
94%
TABLE 6.6 – Le taux de classification pour les différentes approches
agrégée.
Cette approche surmonte le problème des limites crispes des classes classiques et permet également à un objet d’appartenir à plusieurs classes en même temps mais avec des degrés différents.
Son avantage est également la tolérance au mauvais choix des intervalles classiques ce qui rend les
conséquences de l’erreur est minime par rapport à l’approche classique où s’il y a eu une erreur.
Soit un objet à classer. Sa classe réelle est A. Dans l’approche floue si une erreur d’affectation
est commise, l’objet reste toujours dans la classe mais avec un degré d’appartenance inférieure (0.7
par exemple). L’erreur dans ce cas est : 1-0.7 = 0.3. Dans l’approche de la classe classique, s’il y
a eu une erreur d’affectation, cela signifie que l’objet est affecté à une autre classe que sa classe
réelle, par conséquence son degré d’appartenance égale 0. L’erreur devient alors 1-0=1
La figure 6.2 montre la représentation de la variable floue revenu par personne de la base credit
dans l’approche mixte.
6.5 Conclusion
101
F IGURE 6.2 – Représentation floue de la variable revenu par personne de la base credit
6.5
Conclusion
Dans ce chapitre nous avons donné les résultats de test pour notre approche. Nous avons pu
réaliser deux objectifs :
Le cas de manque ; la solution d’imputation est la plus efficace que celle de suppression de données dans la classification par la similarité en exploitant la maximum de l’information disponible(la
relation des variables incomplètes avec les autres variables et l’information supplémentaire).
L’approche qui combine les type hétérogènes de données (imprécises, floues, précises..) montre
des performances similaires à l’approche classique. En plus elle est supérieure puisque elle peut
accepter les données imparfaites alors que les autres approches ne sont pas appropriés pour un tel
contexte.
102
C HAPITRE 6. Expérimentations
Conclusion et perspectives
Nous avons décrit dans ce travail, une approche que nous avons proposée pour la prise en
compte de manque et de l’imprécision et l’incertitude des données pour l’extraction de connaissances par des approches différentes ; par intervalle et par la logique floue et l’approche hybride.
Ces approches sont comparées.
Pour le manque de données, les tests ont monté l’effet de l’incomplétude de manque sur la
précision du classifieur. Les deux approches sont également testées sur les bases de données. L’approche qui consiste à ignorer les données manquantes et l’approche par remplissage de données.
Les tests et les expérimentations ont montré que la qualité de connaissances extraites dépend
de plusieurs facteurs mais dépend directement de la qualité de données en question. En effet, la
présence de données aberrantes et incertaines et imprécises et les exemples inconsistants est un
facteur qui affecte sur les pertinences de connaissances.
Les connaissances et les paramètres extraites à partir de données incertaines et imprécises sont
également des connaissances incertaines.
Les autres facteurs influant sur la qualité de la connaissance sont :
– Le taux de manque de données.
– La qualité des variables (pertinentes ou non).
– La taille de la base (la représentativité).
– Le motif d’incomplétude (aléatoire ou non).
Les méthodes d’imputation sont nécessaires si le taux de manque de données est important
(supérieur à 30% ). Les méthodes d’imputation statistiques simplistes telles que l’imputation par
mode/moyenne n’est pas appropriée dans le contexte de classification / clustering. Par contre l’utilisation des mesures de similarité des individus (knn, seuil) ou la similarité des variables (régression) est très bénéfique. Cette mesure permet de garder les relations et la structure de la base. Le
problème est que la notion de similarité est un principe et non pas une technique, la tache la plus
difficile est comment définir cette notion pour la mesurer. Cela inclut le choix des paramètres (la
104
Conclusion et perspectives
fonction de distance , le nombre de voisins k, la seuil de similarité , le choix des variables importantes..). Cette tache devient plus complexe dans un contexte d’imprécision et d’incertitude et de
manque où ces paramètres sont à extraire à partir de données observées.
La complétion de données est une la meilleure solution mais le problème est d’assurer la qualité
de complétion.
Pour le remplissage de données les méthodes d’imputation simple ne sont pas appropriées. Il
faut penser à des méthodes de remplissage orienté data mining qui exploite la similarité entre les
variables (régression) et la similarité entres les individus (l’imputation KNN)
Perspectives
Comme projection future de ce travail, il est utile de :
– Envisager une validation empirique de notre approche, à grande échelle, pour l’améliorer et
apporter les correctifs nécessaires.
– Appliquer notre approche basée sur la similarité hybride (floue et/ou intervalle)pour compléter les données dans un conteste d’imprécision pour les autres techniques :
1. Supervisée (arbre de décision par exemple pour voir les performances)
2. Non supervisée (clustering , motifs fréquents et règles d’association .. )
105
Bibliographie
Bibliographie
[AC98]
W.-H. Au and K. Chan. An effective algorithm for discovering fuzzy rules in relational databases. In IEEE World Congress on Computational Intelligence, pages
1314–1319, 1998.
[AFSS98]
M Wong. A. Fu, W. Wong S Sze, and W Yu . Finding fuzzy sets for the mining of
fuzzy association rules for numerical attributes. In In the 1st International Symposium on Intelligent Data Engineering and Learning (IDEAL), 1998.
[AM]
Ben Amor.Sarah and Jean-Marc Martel. Le choix d’un langage de modélisation
des imperfections de l’information en aide à la décision.
[AP01]
R. C. Agarwal and V. Prasad. A tree projection algorithm for generation of frequent
item sets. In Journal of Parallel and Distributed Computing 61-3 Special issue on
high-performance data mining, pages 350–371, 2001.
[APDR77] N. M. Laid A. P. Dempster and D. B. Rubin. Maximum likelihood from incomplete
data via the em algorithm. Journal of the Royal Statistical Society, 39(1) :1–38,
1977.
[AR93]
Swami A. Agrawal R., Imielinski T. Mining association rules between sets of items
in large database. Proceedings of the ACM SIGMOD International Conference on
Management of Data, Washington, DC, 10 :207–216, May 1993.
[AWP02]
Nakamura Y. Armstrong W. and Rudnicki P. Armstrong’s axioms. In Journal of
formalized mathematics, 14, 2002.
[BH97]
M. R. Berthold and K.-P. Huber. Tolerating missing values in a fuzzy environment.
In 7th IFSA World Congress, Prag, 1 :359–362, 1997.
[BH98]
M. R. Berthold and K.-P. Huber. Missing values and learning of fuzzy rules. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 1998.
106
BIBLIOGRAPHIE
[Bis00]
Gilles Bisson. La similarite : Une notion symbolique/numerique. 2000.
[BP04]
Pivert O. et Rocacher D. Bosc P., Liétard L. Gradualité et imprécision dans les
bases de données. Ellipses Marketting, Technosup, 2004.
[CA83]
K. Chan and W.-H. Au. Mining fuzzy association rules. In In 6th International
Conference on Information and Knowledge Management(CIKM ’97), pages 209–
215, 1983.
[CHWC04] C.-H. Wun C.-H. Wu and H.-J. Chou. Using association rules for completing
missing data. In In 4th International Conference on Hybrid Intelligent Systems
(HIS’04), pages 236–241, 2004.
[CMKH98] A. W.-C. Fu C. M. Kuok and M. H.Wong. Mining fuzzy association rules in databases. ACM SIGMOD Record, 27(1) :41–46, 1998.
[D.02]
Bosc P.and Cholvy L.and Dubois D. Les informations incomplètes dans les bases
de données et en intelligence articielle. In Actes des 2è assises nationales du GRD
i3, 2002.
[DR00]
Zighed D. and Rakotomalala R. Graphes d’induction : apprentissage automatique
et data mining. Hermes., pages 82–88, 2000.
[Dyr97]
C. E Dyreson. Uncertainty Management in Information Systems, chapter A Bibliography on Uncertainty Management in Information Systems. Kluwer Academic
Publishers., 1997.
[E.79]
Codd E. Extending the data relational model to capture more meaning. Transactions of ACM on database systems, 4, 1979.
[Fio06]
Céline Fiot. Quelques techniques de fouille de données. Master Pro, 2006.
[Fio07]
Céline Fiot. Extraction de séquences fréquentes :des données numériques aux valeurs manquantes. PhD thesis, Université Montpellier II, 2007.
[FU96a]
Smyth.P Fayyad U., Piatetsky-shapiro G. From data mining to knowledge discovery : an overview. advances in knowledge discovery and data mining. pages
16–34, 1996.
[FU96b]
Smyth.P Fayyad U., Piatetsky-shapiro G. From data mining to knowledge discovery in databases. AI Magazine, 17 :37–57, 1996.
BIBLIOGRAPHIE
[FU96c]
107
Smyth.P Fayyad U., Piatetsky-shapiro G. Knowledge discovery and data mining :
Towards a unifying framework. in knowledge discovery and data mining. pages
82–88, 1996.
[FU98]
Piatetsky-Shapiro G.and Smyth.P Fayyad U. From data mining to knowledge discovery in databases advices in knowledge discovery and data mining. MIT Press,
pages 1–36, 1998.
[GBH01]
J. Grzymala-Busse and M. Hu. A comparison of several approaches to missing
attribute values in data mining. In RSCTC ’00 : Revised Papers from the Second
International Conference on Rough Sets and Current Trends in Computing, London,UK, pages 378–385, 2001.
[GCK00]
Q. Wei G. Chen and E. Kerre. Discovery of fuzzy generalized association rules.
Recent Research Issues on Management of Fuzziness in Databases, 2000.
[God99]
Jelena Godjevac. Idées nettes sur la logique floue. Presses polytechniques et universitaires Romandes Lausanne, 1999.
[Gye00]
A. Gyenesei. A fuzzy approach for mining quantitative association rules. Rapport
technique TUCS-TR-336.Turku Centre for Computer Science, 2000.
[Had02]
Med Haddad. Extraction et impact des connaissances sur les performances des
systèmes de recherche d’information, 2002.
[HK99]
Timm .H and Klawonn.F. Different approaches for fuzzy cluster analysis with
missing values. In 7th European Congress on Intelligent Techniques and Soft Computing, 1999.
[HK00]
J. Han and M. Kamber. Data Mining : Concepts and Techniques. Morgan Kaufmann Publishers, 2000.
[HNJ01]
Lipsitz R. S. Horton N. J. Multiple imputation in practice : Comparison of software
packages for regression models with missing variables. The American Statistician,
pages 244–254, 2001.
[HS05a]
M.-L. Shyu Hewawasam, K. Premaratne and S.P. Rule mining and classification in
imperfect databases. In In Proceedings Of The Seventh International Conference
On Information Fusion, pages 661–668, 2005.
[HS05b]
M.-L. Shyu Hewawasam, K. Premaratne and S.P. Rule mining and classification
in the presence of feature level and class label ambiguities. In in Intelligent and
108
BIBLIOGRAPHIE
Unmanned Systems, Intelligent Computing : Theory and Applications III, ser. Proc.
SPIE.Defense and Security Symposium 2005., 2005.
[HTK03]
C. Doring H. Timm and R. Kruse. Different approaches to fuzzy clustering of
incomplete datasets. International Journal of Approximate Reasoning, 35, 2003.
[Hui00]
M. Huisman. Poststratification to correct for nonresponse : Stratification of zip
code areas. In Computational Statistics (COMPSTAT’00 ), pages 235–330, 2000.
[IDR03]
ALI IDRI. Un modèle intelligent d’estimation des coûts de développement de logiciel. PhD thesis, université du Québec à Montréal, 2003.
[Jol03]
François-Xavier Jollois. Contribution de la classicationautomatique à la Fouille
de Données. PhD thesis, Université de Metz, 2003.
[Lat03]
R. Latkowski. On decomposition for incomplete data. Fundam. Inf, 54(1) :1–16,
2003.
[LBS84]
R. A. Olshen L. Breiman, J. H. Friedman and C. J. Stone. Classication anregression
trees, 1984.
[Lie07]
J. Lieber. fortement mais librement inspire du cours d’amedeo napoli. fouille de
données : notes de cours. 2007.
[Lit85]
D. Little, R. et Rubin. In John Wiley and Sons, editors, Statical analysis with
missing data, 1985.
[LKXj03]
WANG Li-li LUO Ke and TONG Xiao-jiao. Mining association rules in incomplete
information systems. Springer, 15 :733–737, 2003.
[LL99]
M. Levene and Loizou. Database design for incomplete relations areas. ACM
Transactions on Database Systems, pages 80–126, 1999.
[M.00]
KRYSZKIEWICZ M. Probabilistic approach to association rules in incomplete
databases. In London :Springer-Verlag, editor, Proceedings of 1st International
Conference on Web-Age Information Management, pages 133–138, 2000.
[M.03]
Kantardzic M. Data mining - concepts, models, methods,and algorithms. IEEE
Press ,Piscataway, NJ, USA, 2003.
[MA08]
KHALED. M MOHAMED A.B.T, BOUTHEINA B.Y. A new algorithm for mining
frequent itemsets from ividential databases. In torremolinos, editor, Proceedings of
IPMU’08, pages 1535–1542, june 2008.
BIBLIOGRAPHIE
[Mag04]
109
M Magnani. Techniques for dealing with missing data,in knowledge. Pearson
Education., 2004.
[MDV02]
D. Sanchez M. Delgado and M.-A. Vila. Acquisition of fuzzy association rules from
medical data. Fuzzy Logic in Medicine, Studies in Fuzziness and Soft Computing
Series, pages 286–310, 2002.
[NC01]
J. Nayak and D. Cook. Approximate association rule mining. In In Florida Artificial Intelligence Research Symposium, 2001.
[NG00]
J.-P. Nakache and A. Gueguen. Analyse multidimensionnelle de données incomplètes. Rapport technique, CNRS/INSERM U88-IFR69, 2000.
[NL98]
V. Ng and J. Lee. Quantitative association rules over incomplete data. In In IEEE
International Conference, pages 2821–2826, 1998.
[Paw82]
Z Pawlak. Rough sets. Int. J. Inf. Comp. Sci., 11(5) :341–356, 1982.
[PD96]
Adriaans P. and Zantinge D. Data mining. Addison Wesley., 1996.
[Pea06]
R. Pearson. The problem of disguised missing data. ACM SIGKDD Explorations
Newsletter, 8(1) :83–92, 2006.
[PS91]
G. Piatetsky-Shapiro. Discovery, analysis, and presentation of strong rules. in g.
piatetsky-shapiro and w. j. frawley. AAAI/ MIT press, pages 229–238, 1991.
[Qui86]
J. R. Quinlan. Induction of decision trees, 1986.
[Qui89]
J. R. Quinlan. Unknown attribute values in induction. 1989.
[Qui93]
J. R. Quinlan. C4.5 : Programs for Machine Learning. Morgan Kaufmann Publishers, 1993.
[RAS93]
T. Imielinski R. Agrawal and A. N. Swami. Mining association rules between sets
of items in large databases. In In the ACM SIGMOD International Conference on
Management of Data, pages 207–216, 1993.
[RC98]
A. Ragel and B. Crémilleux. Treatment of missing values for association rules. In
Pacific-Asia Conference on Knowledge Discovery and Data Mining, pages 258–
270, 1998.
[RC99]
A. Ragel and B. Crémilleux. Mvc a preprocessing method to deal with missing
values. Knowledge-Based Systems Journal, pages 285–291, 1999.
110
[RC04]
BIBLIOGRAPHIE
F. Rioult and B. Crémilleux. Représentation condensée en présence de valeurs
manquantes. In In XXIIème Congrès Informatique des organisations et systèmes
d’information et de décision (INFORSID’04), pages 301–317, 2004.
[RD87]
Little R.J. and Rubin D.B. Statical analysis with missing data. 1987.
[RD02]
Little R.J. and Rubin D.B. In John Wiley and New York Sons, editors, Statical
analysis with missing data, 2002.
[RUE02]
MAGALI RUET. Capitalisation et réutilisation dexpériences dans un contexte
multiacteur. PhD thesis, Institut National Polytechnique de Toulouse, 2002.
[SA96]
R. Srikant and R. Agrawal. Mining quantitative association rules in large relational
tables. In In Proceedings of the 1996 ACM SIGMOD International Conference on
Management of Data, 1996.
[SAH96]
D.A. Bell S. Anand and J.G. Hughes. Edm :a general framework for data mining
based on evidence theory. Data and Knowledge Engineering, 18 :189–223, 1996.
[Sha93]
G. Shafer. A mathematical theory of evidence. Princeton University Press, Princeton, N.J, 19761993.
[SJTJS05] G. Loizou S. Jami T.Y. Jen, D. Laurent and O. Sy. Extraction de règles d’association
pour la prédiction de valeurs manquantes. Revue Africaine de la Recherche en
Informatique et Mathématique appliquée (Numéro spécial CARI’04), pages 103–
124, 2005.
[S.T02]
S.Tufféry. data mining et scoring, bases de données et gestion de la relation client
groupe bancaire francais, 2002.
[TCM07]
B. Goethals T. Calders and M. Mampaey. Mining itemsets in the presence of missing values. In ACM Symposium on Applied Computing (SAC’07), 2007.
[TPHW00] S.-Chai C. T.-P. Hong, C.-S. Kuo and S.-L. Wang. Mining fuzzy rules from quantitative data based on the apriori tid algorithm. In ACM symposium on Applied
computing (SAC’00), pages 534–536, 2000.
[TPHW03] K.-Y. Lin T.-P. Hong and S.-L. Wang. Fuzzy data mining for interesting generalized
association rules. Fuzzy Sets and Systems, pages 255–269, 2003.
[WF00]
S. M. Weiss and N. IndurkhyaWilliam Fulton. Decision-rule solutions for data mining with missing values. In In the 7th International Joint Ibero-American Conference on AI : Advances in Artificial Intelligence, volume 1952, 2000.
BIBLIOGRAPHIE
[WHI87]
111
A. P. WHITE. Probabilistic induction by dynamic path generation in virtual trees.
In Cambridge University Press, editor, In Proc. 6th conference Expert Systems ES
86, pages 35–46, 1987.
[Wri98]
P. Wright. The significance of the missing data problem in knowledge discovery.
1998.
[WZLB97] S. G. Thompson W. Z. Liu, A. P. White and M. A. Bramer. Techniques for dealing
with missing values in classiffcation. In Computer Science, editor, Advances in
Intelligent Data Analysis, Reasoning about Data, volume 1280, 1997.
[Yag01]
Ronald Yager. Induced owa aggregation in case based reasoning. 2001.
[YCHC04] G.-H. Tzeng Y.-C. Hu and C.-M. Chen. Deriving two-stage learning sequences
from knowledge in fuzzy sequential pattern mining. Information Sciences, pages
69–86, 2004.
[Zad65]
L Zadeh. Fuzzy sets. Information and Control, 3 :338–353, 1965.
Téléchargement