4
Résumé
L’extraction de connaissances à partir de données (ECD) est définie comme un processus de
découverte d’informations implicites, inconnues auparavant et potentiellement utiles à partir de
données. Ce processus se fait en plusieurs étapes : préparation des données (recherche, nettoyage
et codage des données), fouille des données (recherche d’un modèle de connaissances), validation
et interprétation du résultat et enfin intégration des connaissances apprises.
Cependant, il se trouve que dans beaucoup de domaines, les données représentées sont incom-
plètes et/ou imprécises ce qui rend leur exploitation très difficile et/ou impossible d’autant plus que
la dimensionnalité élevée des bases de données complexifie la tâche d’extraction de connaissances
à partir de cette masse de données.
Nous proposons dans ce travail de magister des solutions pour l’amélioration des techniques
d’extraction de connaissances à partir de données tout en en prenant en compte la nature des
données hétérogènes, incomplètes, incertaines ou incertaines en utilisant la notion de la similarité.
Mots-clés : données incomplètes, données imprécises, logiques floue, extraction de connais-
sances, similarité.
Abstract :
Extracting knowledge from data (KDD) is defined as a process of discovery of implicit infor-
mation, unknown earlier and potentially useful from the data. This process is several steps : data
preparation (research, cleaning and data coding), data mining (looking for a model, knowledge),
validation and interpretation of results and finally integration knowledge learned. However, it turns
out that in many areas the data representation is incomplete and / or inaccurate which makes their
operation very difficult or impossible especially since the high dimensionality databases compli-
cates the task of knowledge extraction From this mass of data.
We propose in this work solutions for improved techniques for extracting knowledge from data
while taking into account the nature of heterogeneous data, incomplete, uncertain or uncertain
using the notion of similarity.
Keywords : incomplete data, imprecise data, fuzzy logic, knowledge extraction, similarity.