Stabilité de la sélection de variables sur des données

Téléchargement

THESE DE DOCTORAT DE

L’UNIVERSITE PIERRE ET MARIE CURIE

Spécialité : Informatique Biomédicale

ÉCOLE DOCTORALE PIERRE LOUIS DE SANTÉ PUBLIQUE À PARIS : ÉPIDÉMIOLOGIE ET

SCIENCES DE L'INFORMATION BIOMÉDICALE

Présentée par

David DERNONCOURT

Pour obtenir le grade de

DOCTEUR de l’UNIVERSITÉ PIERRE ET MARIE CURIE

Sujet de la thèse :

Stabilité de la sélection de variables sur des données haute dimension :

une application à l’expression génique

soutenue le 15 octobre 2014

devant le jury composé de :

M Antoine Cornuéjols, Professeur, AgroParisTech ………………………………………………Rapporteur

Mme Barbara Heude, Chargée de recherches, INSERM …………….…………..…………….Rapporteur

M Nicolas Bredèche, Professeur, Université Paris 6 ……………..……………………………Examinateur

M Blaise Hanczar, Maître de conférences, LIPADE ……………….……………………………...Encadrant

Mme Karine Clément, Professeur, INSERM ……………………...……..…….…………….…Co-directrice

M Jean-Daniel Zucker, Directeur de recherches, IRD………..……..……….……………….……Directeur

Résumé

Les biotechnologies modernes sont capables, via les technologies dites « haut débit », de

mesurer de très grandes quantités de variables à l'échelle de chaque individu : séquence ADN,

expressions des gènes, profil lipidique... L'extraction de connaissances à partir de ces données

peut se faire par l'utilisation de techniques d'apprentissage automatique, par exemple par des

méthodes de classification. Cependant, ces données contiennent un très grand nombre de

variables mais ne sont mesurées que sur quelques centaines de patients, dans les meilleurs des

cas. Cette association d'une dimensionnalité élevée à une petite taille d’échantillon fait de la

sélection de variables une étape préalable indispensable pour réduire le risque de

surapprentissage, diminuer les temps de calcul, et améliorer l'interprétabilité des modèles.

Lorsque le nombre d’observations est faible, cette sélection a tendance à être instable, au

point qu’il est courant d’observer que sur deux jeux de données différents mais traitant d’un

problème similaire, les variables sélectionnées ne se recoupent presque pas. Pourtant, obtenir

une sélection stable semble crucial si l'on veut avoir confiance dans la pertinence effective des

variables sélectionnées à des fins d'extraction de connaissances. Dans le cadre de ce travail de

thèse, nous avons tout d'abord cherché à déterminer quels sont les facteurs, au niveau des

données, qui influencent le plus la stabilité de la sélection, sur tout de type de données

(biologiques mais aussi d'autres domaines). Puis nous avons proposé une approche, spécifique

aux données puces à ADN, faisant appel aux annotations fonctionnelles (Gene Ontology) pour

assister les méthodes de sélection habituelles, en enrichissant les données avec des

connaissances a priori. Cette approche, focalisée sur la stabilité fonctionnelle, n’a cependant pas

permis d’améliorer la stabilité (aussi bien fonctionnelle qu’au niveau des gènes). Nous avons

ensuite travaillé sur des méthodes d'ensemble, en nous focalisant tout d'abord sur l'influence de

la méthode d'agrégation de l'ensemble sur la stabilité de la sélection, puis sur des ensembles

hybrides. Si les méthodes d'ensemble peuvent permettre une amélioration de la stabilité parfois

importante, ces résultats sont variables selon les jeux de données et s'obtiennent parfois au

détriment de la précision du classifieur. Dans un dernier chapitre, nous appliquons les méthodes

étudiées à un problème de prédiction de la reprise de poids suite à un régime, à partir de données

puces, chez des patients obèses.

Publications en lien avec la thèse

Publications

• Dernoncourt D, Hanczar B, Zucker JD. Experimental Analysis of Feature Selection

Stability for High-Dimension and Low-Sample Size Gene Expression Classification Task.

Proceedings of the12th IEEE International Conference on BioInformatics and BioEngineering

(BIBE), IEEE, 2012, pp. 350-355. doi: 10.1109/BIBE.2012.6399649

• Dernoncourt D., Hanczar B., Zucker J.D. Analysis of feature selection stability on high

dimension and small sample data. Computational Statistics & Data Analysis, 2014, 71(C), pp.

681-693. doi: 10.1016/j.csda.2013.07.012

Communications, Posters

• Dernoncourt D, Hanczar B, Zucker JD. Évolution de la stabilité de la sélection de

variables en fonction de la taille d'échantillon et de la dimension. CAp (Conférence

Francophone sur l'Apprentissage Automatique), Nancy, 23-25 mai 2012 [Communication orale]

• Dernoncourt D, Hanczar B, Zucker JD. Stability of Ensemble Feature Selection on High-

Dimension and Low-Sample Size Data: Influence of the Aggregation Method. ICPRAM 2014 -

Proceedings of the 3nd International Conference on Pattern Recognition Applications and

Methods, Angers, France, 6-8 March, 2014, pp. 325-330 [Poster + short paper]

Table des matières
Résumé.......................................................................................................................................3
Publications en lien avec la thèse...............................................................................................4
Chapitre 1 : Introduction..........................................................................................................15
1 Données « omiques », puces à ADN.............................................................................16
1.1 Données « omiques ».............................................................................................16
1.2 Puces à ADN..........................................................................................................18
1.2.1 Puces spottées vs puces à oligonucléotides....................................................19
1.2.2 Puces à une couleur vs puces à deux couleurs...............................................20
1.2.3 Prétraitement des données..............................................................................21
1.3 Données biopuces utilisées....................................................................................22
2 Apprentissage automatique, méthodes de classification...............................................23
2.1 k plus proches voisins (kNN)................................................................................26
2.2 Analyse discriminante............................................................................................26
2.3 Machines à vecteurs de support (SVM).................................................................27
2.4 Réseaux de neurones artificiels.............................................................................29
2.5 Boosting.................................................................................................................31
2.6 Forêts aléatoires.....................................................................................................32
2.7 Estimation des performances du classifieur..........................................................33
3 Méthodes de sélection de variables...............................................................................33
3.1 Filtres univariés.....................................................................................................35
3.1.1 t-score.............................................................................................................35
3.1.2 Rapport signal sur bruit..................................................................................36
3.1.3 Information mutuelle......................................................................................36
3.2 Filtres multivariés..................................................................................................37
3.2.1 CAT-score.......................................................................................................37
3.2.2 ReliefF............................................................................................................38
3.2.3 Couverture de Markov...................................................................................39
3.3 SVM-RFE..............................................................................................................40
3.4 Évaluation de la méthode de sélection...................................................................41
Chapitre 2 : Analyse de la stabilité de la sélection de variables sur des données haute 
dimension et petit échantillon..................................................................................................45
Abstract...............................................................................................................................46
1 Introduction...................................................................................................................46
2 Stability measures..........................................................................................................48
5

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

1 / 175 100%

Documents connexes

File

Résumé

Le Téléthon est national. Ce mot est composé de deux autres mots

Version ultérieure

Exporter la page en pdf

Rapport de l`Académie de médecine « Maladies rares, le

Master Ecosciences, Microbiologie PROPOSITION SUJET de

UPMC- Master 2 Module Car Reda Bendraou Tewfik Ziadi TP : Les

Les transferts horizontaux

Phyl-ARIANE Phylogénomique : Algorithmes et

L`eugénisme est une théorie, et une pratique, qui consiste en l

Mot ou partie de mot surligné : difficulté particulière, prendre garde

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d'utilisation

Stabilité de la sélection de variables sur des données

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Stabilité de la sélection de variables sur des données

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib