THESE DE DOCTORAT DE
L’UNIVERSITE PIERRE ET MARIE CURIE
Spécialité : Informatique Biomédicale
ÉCOLE DOCTORALE PIERRE LOUIS DE SANTÉ PUBLIQUE À PARIS : ÉPIDÉMIOLOGIE ET
SCIENCES DE L'INFORMATION BIOMÉDICALE
Présentée par
David DERNONCOURT
Pour obtenir le grade de
DOCTEUR de l’UNIVERSITÉ PIERRE ET MARIE CURIE
Sujet de la thèse :
Stabilité de la sélection de variables sur des données haute dimension :
une application à l’expression génique
soutenue le 15 octobre 2014
devant le jury composé de :
M Antoine Cornuéjols, Professeur, AgroParisTech ………………………………………………Rapporteur
Mme Barbara Heude, Chargée de recherches, INSERM …………….…………..…………….Rapporteur
M Nicolas Bredèche, Professeur, Université Paris 6 ……………..……………………………Examinateur
M Blaise Hanczar, Maître de conférences, LIPADE ……………….……………………………...Encadrant
Mme Karine Clément, Professeur, INSERM ……………………...……..…….…………….…Co-directrice
M Jean-Daniel Zucker, Directeur de recherches, IRD………..……..……….……………….……Directeur
2
Résumé
Les biotechnologies modernes sont capables, via les technologies dites « haut débit », de
mesurer de très grandes quantités de variables à l'échelle de chaque individu : séquence ADN,
expressions des gènes, profil lipidique... L'extraction de connaissances à partir de ces données
peut se faire par l'utilisation de techniques d'apprentissage automatique, par exemple par des
méthodes de classification. Cependant, ces données contiennent un très grand nombre de
variables mais ne sont mesurées que sur quelques centaines de patients, dans les meilleurs des
cas. Cette association d'une dimensionnalité élevée à une petite taille d’échantillon fait de la
sélection de variables une étape préalable indispensable pour réduire le risque de
surapprentissage, diminuer les temps de calcul, et améliorer l'interprétabilité des modèles.
Lorsque le nombre d’observations est faible, cette sélection a tendance à être instable, au
point qu’il est courant d’observer que sur deux jeux de données différents mais traitant d’un
problème similaire, les variables sélectionnées ne se recoupent presque pas. Pourtant, obtenir
une sélection stable semble crucial si l'on veut avoir confiance dans la pertinence effective des
variables sélectionnées à des fins d'extraction de connaissances. Dans le cadre de ce travail de
thèse, nous avons tout d'abord cherché à déterminer quels sont les facteurs, au niveau des
données, qui influencent le plus la stabilité de la sélection, sur tout de type de données
(biologiques mais aussi d'autres domaines). Puis nous avons proposé une approche, spécifique
aux données puces à ADN, faisant appel aux annotations fonctionnelles (Gene Ontology) pour
assister les méthodes de sélection habituelles, en enrichissant les données avec des
connaissances a priori. Cette approche, focalisée sur la stabilité fonctionnelle, n’a cependant pas
permis d’améliorer la stabilité (aussi bien fonctionnelle qu’au niveau des gènes). Nous avons
ensuite travaillé sur des méthodes d'ensemble, en nous focalisant tout d'abord sur l'influence de
la méthode d'agrégation de l'ensemble sur la stabilité de la sélection, puis sur des ensembles
hybrides. Si les méthodes d'ensemble peuvent permettre une amélioration de la stabilité parfois
importante, ces résultats sont variables selon les jeux de données et s'obtiennent parfois au
détriment de la précision du classifieur. Dans un dernier chapitre, nous appliquons les méthodes
étudiées à un problème de prédiction de la reprise de poids suite à un régime, à partir de données
puces, chez des patients obèses.
3
Publications en lien avec la thèse
Publications
• Dernoncourt D, Hanczar B, Zucker JD. Experimental Analysis of Feature Selection
Stability for High-Dimension and Low-Sample Size Gene Expression Classification Task.
Proceedings of the12th IEEE International Conference on BioInformatics and BioEngineering
(BIBE), IEEE, 2012, pp. 350-355. doi: 10.1109/BIBE.2012.6399649
• Dernoncourt D., Hanczar B., Zucker J.D. Analysis of feature selection stability on high
dimension and small sample data. Computational Statistics & Data Analysis, 2014, 71(C), pp.
681-693. doi: 10.1016/j.csda.2013.07.012
Communications, Posters
• Dernoncourt D, Hanczar B, Zucker JD. Évolution de la stabilité de la sélection de
variables en fonction de la taille d'échantillon et de la dimension. CAp (Conférence
Francophone sur l'Apprentissage Automatique), Nancy, 23-25 mai 2012 [Communication orale]
• Dernoncourt D, Hanczar B, Zucker JD. Stability of Ensemble Feature Selection on High-
Dimension and Low-Sample Size Data: Influence of the Aggregation Method. ICPRAM 2014 -
Proceedings of the 3nd International Conference on Pattern Recognition Applications and
Methods, Angers, France, 6-8 March, 2014, pp. 325-330 [Poster + short paper]
4
Table des matières
Résumé.......................................................................................................................................3
Publications en lien avec la thèse...............................................................................................4
Chapitre 1 : Introduction..........................................................................................................15
1.1 Données « omiques », puces à ADN.............................................................................16
1.1.1 Données « omiques ».............................................................................................16
1.1.2 Puces à ADN..........................................................................................................18
1.1.2.1 Puces spottées vs puces à oligonucléotides....................................................19
1.1.2.2 Puces à une couleur vs puces à deux couleurs...............................................20
1.1.2.3 Prétraitement des données..............................................................................21
1.1.3 Données biopuces utilisées....................................................................................22
1.2 Apprentissage automatique, méthodes de classification...............................................23
1.2.1 k plus proches voisins (kNN)................................................................................26
1.2.2 Analyse discriminante............................................................................................26
1.2.3 Machines à vecteurs de support (SVM).................................................................27
1.2.4 Réseaux de neurones artificiels.............................................................................29
1.2.5 Boosting.................................................................................................................31
1.2.6 Forêts aléatoires.....................................................................................................32
1.2.7 Estimation des performances du classifieur..........................................................33
1.3 Méthodes de sélection de variables...............................................................................33
1.3.1 Filtres univariés.....................................................................................................35
1.3.1.1 t-score.............................................................................................................35
1.3.1.2 Rapport signal sur bruit..................................................................................36
1.3.1.3 Information mutuelle......................................................................................36
1.3.2 Filtres multivariés..................................................................................................37
1.3.2.1 CAT-score.......................................................................................................37
1.3.2.2 ReliefF............................................................................................................38
1.3.2.3 Couverture de Markov...................................................................................39
1.3.3 SVM-RFE..............................................................................................................40
1.3.4 Évaluation de la méthode de sélection...................................................................41
Chapitre 2 : Analyse de la stabilité de la sélection de variables sur des données haute
dimension et petit échantillon..................................................................................................45
Abstract...............................................................................................................................46
2.1 Introduction...................................................................................................................46
2.2 Stability measures..........................................................................................................48
5
1 / 175 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !