République Algérienne Démocratique et Populaire
Ministère de l'Enseignement Supérieur et de la Recherche Scientifique
Université d'Oran Es Senia
Faculté des sciences
Département d'informatique
Mémoire de Magistère
Spécialité : Informatique
Ecole doctorale des sciences et technologie de l’information et de la communication
Option : Système d’information et de connaissance
Présenté par
Nadjia Khatir
Jury composé de :
Bouabdellah Kechar Maître de ConférencesUniversité d’Oran Président
Rachid Nourine Maître de Conférences Université d’Oran Examinateur
Latifa Baba-hamedMaître de Conférences Université d’Oran Examinateur
Safia Nait BahloulMaître de Conférences Université d’Oran Encadreur
Soufi OSMANI DocteurEHU d’Oran Invité
Année Universitaire 2011-2012
Thème :
Clustering dans les bases de données
La classification non supervisée-Clustering- en Anglais est une étape importante du
processus d’extraction de connaissance à partir de données (ECD). Elle vise à découvrir
une structure intrinsèque d’un ensemble d’objets en formant des-Clusters- ou des
regroupements qui partagent des caractéristiques similaires.
L’augmentation de la dimension des données ces dernières décennies a eu des
conséquences non négligeables sur les méthodes de traitement mises en œuvre. En effet,
le nombre d’objets présents dans les bases de données a fortement augmenté ainsi que la
taille de leurs descriptions.
La santé, est un secteur où les données disponibles sont nombreuses et de nature variées
(documents et rapports médicaux, fiches des patients, imagerie médicale, etc.)
Ce mémoire est consacré à l’étude des méthodes et algorithmes de clustering sur des
données médicales. Notre travail a pour une première contribution une plateforme pour
l’application et la validation des algorithmes de clustering.
La deuxième contribution réside dans l’évaluation statistique des résultats du clustering
obtenus par les différents algorithmes sur des jeux de données de grande dimension
d’expression des gènes.
Nous proposons par la suite une méthode originale suffisamment générale basée sur les
algorithmes de clustering, permettant la segmentation des images de sang microscopiques.
Mots clés :
Classification non supervisée; Clustering; Données médicales; Puces à ADN; Image
microscopique; Expression des gènes; Data mining; Fouille de données; Apprentissage
automatique; Analyse de données.
Je remercie en premier notre grand Dieu pour m’avoir donné le courage et
la volonté durant les moments difficiles.
J’adresse tout d’abord mes remerciements à mon encadreur, pour avoir accep
de m’encadrer et m’avoir aidé à conduire ce travail jusqu’au bout : Madame Safia
Nait Bahloul, maître de conférence à l’université d’Oran Es-Senia. Je souhaite lui
exprimer ma profonde reconnaissance pour sa disponibilité, son regard critique et
enfin pour la confiance qu’elle m’a accordée durant ces années.
Je souhaite également adresser mes plus sincères remerciements aux membres du
jury : Mr. Bouabdellah .Kechar, Mr. Rachid Nourine et Madame Latifa Baba
Hamed, d’avoir accepté d’évaluer mon travail de mémoire.
Je remercie aussi tous les enseignants du département d’Informatique de
l’université d’Es-Senia, en particulier Mr Mustapha Kamel Rahmouni.
Enfin, je voudrais remercier chaleureusement ma famille et belle famille qui ont
toujours cru en moi en me poussant toujours à accomplir ce que je souhaitais, ils
ont été des piliers indispensables par leur présence et leur affection.
Table des matières
Introduction générale.................................................................................................................. 1
Chapitre I. Classification et analyse des algorithmes de clustering ....................................... 4
I.1 Introduction............................................................................................................................................5
I.2 La taxonomie de Jain et Dubes..............................................................................................................5
I.3 La classification non supervisée ...........................................................................................................6
I.4 Application du clustering.......................................................................................................................6
I.4.1 La segmentation.................................................................................................................................7
I.4.2 La classification..................................................................................................................................7
I.4.3 L’extraction de connaissance..............................................................................................................7
I.5 Les principales étapes du clustering ......................................................................................................8
I.5.1 La préparation des données.................................................................................................................8
I.5.2 Le choix de l’algorithme.....................................................................................................................9
I.5.3 La validation et interprétation des résultats......................................................................................12
I.6 Les méthodes du clustering..................................................................................................................13
I.6.1 Le clustering hiérarchique ................................................................................................................13
I.6.2 Le clustering par partitionnement.....................................................................................................17
I.6.3 Les méthodes à base de densi ........................................................................................................24
I.6.4 Les méthodes à base de grille ...........................................................................................................28
I.7 Techniques d’évaluation de la qualité du clustering............................................................................29
I.8 Challenges actuels en classification non supervisée............................................................................31
I.8.1 Problème inhérents aux données traitées .........................................................................................31
I.8.2 Problème inhérents à des contraintes applicatives............................................................................32
Chapitre II. Le clustering des données d’expression des gènes............................................ 33
II.1 Introduction........................................................................................................................................34
II.2 Contexte biologique............................................................................................................................35
II .2.1 Généralités et définition du transcriptome..................................................................................35
II.2.2 Principe des puces à ADN et analyse du transcriptome ..............................................................37
II.2.2.1 Les puces à ADN............................................................................................................ 37
II.2.2.2 Les jeux de données issues des puces à ADN ..............................................................................39
Table des matières
II.3 Enjeux et objectifs de l’analyse du transcriptome..............................................................................41
II.4 L’importance de l’informatique pour l’analyse des données issues des puces à ADN......................42
II.5 Le principe du clustering des gènes....................................................................................................43
II.5.1 Les prérequis du clustering des gènes ...........................................................................................43
II.5.2 Etat de l’art des méthodes de clustering des gènes..........................................................................46
II .5.2.1 Les méthodes de classification hiérarchiques..........................................................................47
II.5.2.2 Les méthodes de classification par partitionnement.....................................................................49
II.5.2.3 Les méthodes de classification floues ..........................................................................................49
II.5.2.4La classification par les réseaux de Kohonen ...............................................................................50
II.5.2.5 Les méthodes de classification basées sur un modèle..................................................................50
II.5.2.6 Les méthodes de classification basées sur les graphes ................................................................51
II.5.2.7 Les méthodes de biclustering .......................................................................................................51
II.6 Les défis du clustering des gènes .......................................................................................................52
Chapitre III.Contribution1 : Préparation d’une plateforme pour la validation des
algorithmes de clustering.......................................................................................................... 53
III.1 Introduction.......................................................................................................................................54
III.2 Architécture fonctionnelle.................................................................................................................54
III.3 Le module du prétraitement ............................................................................................................55
III.4 Le module du clustering....................................................................................................................57
III.4.1 Le module du clustering hiérarchique............................................................................................57
III.4.2 Le module du clustering par partitionnement ................................................................................59
III.4.2.1 Les algorithmes des K moyenne .................................................................................................59
III.4.2.2 L’algorithme CLARA.................................................................................................................63
III.4.2.3 L’algorithme PAM......................................................................................................................66
III.4.2.4 L’algorithme QT .........................................................................................................................69
III.4.3 Le module du clustering par densité ..............................................................................................70
III.4.4 Le module du clustering flou .........................................................................................................71
III.4.4.1 L’algorithme Fuzzy c means.......................................................................................................71
III.4.4.2 L’algorithmeFuzzy c shell...........................................................................................................73
III.4.4.3 L’algorithme Fanny.....................................................................................................................74
III.5 Le module de validation du clustering..............................................................................................76
III.5.1 La validation interne ......................................................................................................................76
III.5.2 La validation externe......................................................................................................................80
III.5.3 La validation biologique ................................................................................................................81
III.5 Technologies et langages de programmation....................................................................................83
1 / 148 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !