Nadjia Khatir - Université d`Oran 1 Ahmed Ben Bella

Téléchargement

République Algérienne Démocratique et Populaire

Ministère de l'Enseignement Supérieur et de la Recherche Scientifique

Université d'Oran Es Senia

Faculté des sciences

Département d'informatique

Mémoire de Magistère

Spécialité : Informatique

Ecole doctorale des sciences et technologie de l’information et de la communication

Option : Système d’information et de connaissance

Présenté par

Nadjia Khatir

Jury composé de :

Bouabdellah Kechar Maître de ConférencesUniversité d’Oran Président

Rachid Nourine Maître de Conférences Université d’Oran Examinateur

Latifa Baba-hamedMaître de Conférences Université d’Oran Examinateur

Safia Nait BahloulMaître de Conférences Université d’Oran Encadreur

Soufi OSMANI DocteurEHU d’Oran Invité

Année Universitaire 2011-2012

Thème :

Clustering dans les bases de données

La classification non supervisée-Clustering- en Anglais est une étape importante du

processus d’extraction de connaissance à partir de données (ECD). Elle vise à découvrir

une structure intrinsèque d’un ensemble d’objets en formant des-Clusters- ou des

regroupements qui partagent des caractéristiques similaires.

L’augmentation de la dimension des données ces dernières décennies a eu des

conséquences non négligeables sur les méthodes de traitement mises en œuvre. En effet,

le nombre d’objets présents dans les bases de données a fortement augmenté ainsi que la

taille de leurs descriptions.

La santé, est un secteur où les données disponibles sont nombreuses et de nature variées

(documents et rapports médicaux, fiches des patients, imagerie médicale, etc.)

Ce mémoire est consacré à l’étude des méthodes et algorithmes de clustering sur des

données médicales. Notre travail a pour une première contribution une plateforme pour

l’application et la validation des algorithmes de clustering.

La deuxième contribution réside dans l’évaluation statistique des résultats du clustering

obtenus par les différents algorithmes sur des jeux de données de grande dimension

d’expression des gènes.

Nous proposons par la suite une méthode originale suffisamment générale basée sur les

algorithmes de clustering, permettant la segmentation des images de sang microscopiques.

Mots clés :

Classification non supervisée; Clustering; Données médicales; Puces à ADN; Image

microscopique; Expression des gènes; Data mining; Fouille de données; Apprentissage

automatique; Analyse de données.

Je remercie en premier notre grand Dieu pour m’avoir donné le courage et

la volonté durant les moments difficiles.

J’adresse tout d’abord mes remerciements à mon encadreur, pour avoir accepté

de m’encadrer et m’avoir aidé à conduire ce travail jusqu’au bout : Madame Safia

Nait Bahloul, maître de conférence à l’université d’Oran Es-Senia. Je souhaite lui

exprimer ma profonde reconnaissance pour sa disponibilité, son regard critique et

enfin pour la confiance qu’elle m’a accordée durant ces années.

Je souhaite également adresser mes plus sincères remerciements aux membres du

jury : Mr. Bouabdellah .Kechar, Mr. Rachid Nourine et Madame Latifa Baba

Hamed, d’avoir accepté d’évaluer mon travail de mémoire.

Je remercie aussi tous les enseignants du département d’Informatique de

l’université d’Es-Senia, en particulier Mr Mustapha Kamel Rahmouni.

Enfin, je voudrais remercier chaleureusement ma famille et belle famille qui ont

toujours cru en moi en me poussant toujours à accomplir ce que je souhaitais, ils

ont été des piliers indispensables par leur présence et leur affection.

Table des matières

Introduction générale.................................................................................................................. 1

Chapitre I. Classification et analyse des algorithmes de clustering ....................................... 4

I.1 Introduction............................................................................................................................................5

I.2 La taxonomie de Jain et Dubes..............................................................................................................5

I.3 La classification non supervisée ...........................................................................................................6

I.4 Application du clustering.......................................................................................................................6

I.4.1 La segmentation.................................................................................................................................7

I.4.2 La classification..................................................................................................................................7

I.4.3 L’extraction de connaissance..............................................................................................................7

I.5 Les principales étapes du clustering ......................................................................................................8

I.5.1 La préparation des données.................................................................................................................8

I.5.2 Le choix de l’algorithme.....................................................................................................................9

I.5.3 La validation et interprétation des résultats......................................................................................12

I.6 Les méthodes du clustering..................................................................................................................13

I.6.1 Le clustering hiérarchique ................................................................................................................13

I.6.2 Le clustering par partitionnement.....................................................................................................17

I.6.3 Les méthodes à base de densité ........................................................................................................24

I.6.4 Les méthodes à base de grille ...........................................................................................................28

I.7 Techniques d’évaluation de la qualité du clustering............................................................................29

I.8 Challenges actuels en classification non supervisée............................................................................31

I.8.1 Problème inhérents aux données traitées .........................................................................................31

I.8.2 Problème inhérents à des contraintes applicatives............................................................................32

Chapitre II. Le clustering des données d’expression des gènes............................................ 33

II.1 Introduction........................................................................................................................................34

II.2 Contexte biologique............................................................................................................................35

II .2.1 Généralités et définition du transcriptome..................................................................................35

II.2.2 Principe des puces à ADN et analyse du transcriptome ..............................................................37

II.2.2.1 Les puces à ADN............................................................................................................ 37

II.2.2.2 Les jeux de données issues des puces à ADN ..............................................................................39

Table des matières

II.3 Enjeux et objectifs de l’analyse du transcriptome..............................................................................41

II.4 L’importance de l’informatique pour l’analyse des données issues des puces à ADN......................42

II.5 Le principe du clustering des gènes....................................................................................................43

II.5.1 Les prérequis du clustering des gènes ...........................................................................................43

II.5.2 Etat de l’art des méthodes de clustering des gènes..........................................................................46

II .5.2.1 Les méthodes de classification hiérarchiques..........................................................................47

II.5.2.2 Les méthodes de classification par partitionnement.....................................................................49

II.5.2.3 Les méthodes de classification floues ..........................................................................................49

II.5.2.4La classification par les réseaux de Kohonen ...............................................................................50

II.5.2.5 Les méthodes de classification basées sur un modèle..................................................................50

II.5.2.6 Les méthodes de classification basées sur les graphes ................................................................51

II.5.2.7 Les méthodes de biclustering .......................................................................................................51

II.6 Les défis du clustering des gènes .......................................................................................................52

Chapitre III.Contribution1 : Préparation d’une plateforme pour la validation des

algorithmes de clustering.......................................................................................................... 53

III.1 Introduction.......................................................................................................................................54

III.2 Architécture fonctionnelle.................................................................................................................54

III.3 Le module du prétraitement ............................................................................................................55

III.4 Le module du clustering....................................................................................................................57

III.4.1 Le module du clustering hiérarchique............................................................................................57

III.4.2 Le module du clustering par partitionnement ................................................................................59

III.4.2.1 Les algorithmes des K moyenne .................................................................................................59

III.4.2.2 L’algorithme CLARA.................................................................................................................63

III.4.2.3 L’algorithme PAM......................................................................................................................66

III.4.2.4 L’algorithme QT .........................................................................................................................69

III.4.3 Le module du clustering par densité ..............................................................................................70

III.4.4 Le module du clustering flou .........................................................................................................71

III.4.4.1 L’algorithme Fuzzy c means.......................................................................................................71

III.4.4.2 L’algorithmeFuzzy c shell...........................................................................................................73

III.4.4.3 L’algorithme Fanny.....................................................................................................................74

III.5 Le module de validation du clustering..............................................................................................76

III.5.1 La validation interne ......................................................................................................................76

III.5.2 La validation externe......................................................................................................................80

III.5.3 La validation biologique ................................................................................................................81

III.5 Technologies et langages de programmation....................................................................................83

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

1 / 148 100%

Nadjia Khatir - Université d`Oran 1 Ahmed Ben Bella

Téléchargement

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !

GDPR Confidentialité Conditions d'utilisation

Nadjia Khatir - Université d`Oran 1 Ahmed Ben Bella

Nadjia Khatir - Université d`Oran 1 Ahmed Ben Bella

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Nadjia Khatir - Université d`Oran 1 Ahmed Ben Bella

Nadjia Khatir - Université d`Oran 1 Ahmed Ben Bella

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib