EDITE de Paris (ED130) -

publicité
Méthodes d'ensemble en classification croisée
Sujet proposé par Blaise HANCZAR [email protected]
École doctorale: EDITE de Paris (ED130)
Domaine: Sciences et technologies de l'information et de la communication
Projet
Les puces à ADN (ou biopuces) permettent de mesurer l'expression de plusieurs milliers de gènes
simultanément à travers différentes conditions expérimentales. L'une des principales approches d'analyse sont
les méthodes de classification qui consistent à regrouper les gènes ayant un comportement similaire sur
l'ensemble des conditions expérimentales. L'hypothèse généralement admise est que des gènes ayant un profil
d'expression proche, ont des fonctions biologique proches. Les méthodes de classification classiques, tel que
les K-moyennes, classification hiérarchique ou cartes auto-organisatrices, recherchent des groupes de gènes
qui ont le profil similaire sur un ensemble homogène de conditions. Cependant, lorsque les conditions
expérimentales sont hétérogènes, ce qui est généralement le cas dans les données biopuces, il est plus
approprié de construire des groupes de gènes similaires sur seulement des sous-ensembles de conditions. Dans
ce cas, les méthodes de classification croisée sont mieux adaptées au problème, car contrairement aux
méthodes classiques elles permettent de produire un modèle local. Cette différence fondamentale offre de
nombreux avantages à la classification croisée dans le contexte d'analyse de données biopuces [1]. On peut
donner comme exemple le cas où un ensemble de gènes participe à un processus cellulaire qui est activé
seulement sur un sous-ensemble de conditions expérimentales, ou quand un gène est impliqué dans plusieurs
voies métaboliques qui peuvent être coactivées sous certaines conditions. La classification croisée permet
d'identifier ces groupes de gènes et conditions biologiquement intéressants qui ne sont généralement pas mis
en évidence pas les méthodes de classification classiques.
Le principe des méthodes d'ensemble est de construire un ensemble de modèles puis de les agréger en un
unique modèle. Ces méthodes ont déjà démontré leur utilité dans différents problèmes d'apprentissage [2]. En
effet, elles permettent d'améliorer significativement la précision des classeurs dans les tâches d'apprentissage
supervisé [3] et les approches les plus populaires sont le boosting, le bagging et les random forests. Des
travaux récents ont montré que les méthodes d'ensemble peuvent être également utilisées et efficacement dans
les problèmes d'apprentissage non supervisé. Plusieurs approches d'ensemble ont été proposées pour améliorer
la précision et la robustesse des algorithmes de classification [4]. Puisque les méthodes d'ensemble sont
efficaces sur des tâches d'apprentissage supervisé et non supervisé, il est raisonnable de penser qu'elles
puissent l'être également en classification croisée.
Enjeux
L'intégration de la classification croisée dans une approche de type ensembliste présente deux problématiques
spécifiques. La première concerne la génération d'ensemble de modèles; comment générer ces modèles et
quelle est la source de diversité ? La deuxième est à propos de la fonction d'agrégation; comment combiner
tous les modèles et trouver les correspondances entre les différents groupes ? Pour chacune de ces questions,
le doctorant devra identifier, développer et tester différentes approches. Un travail préliminaire a déjà été
effectué au LIPADE. Nous avons utilisé une approche bagging pour générer différents modèles, puis les
avons agrégés en créant des "méta-groupes" de gènes. Les premiers tests sur des données artificielles et réelles
montrent que notre méthode d'ensemble améliore les performances des méthodes de classification croisée
classiques [5].
Le travail de thèse consistera donc à développer de nouvelles approches de classification croisée inspirées des
méthodes d'ensemble pour l'analyse de données issues de puces à ADN. Le doctorant sera amené à collaborer
avec des biologistes (INSERM U872 équipe7 ) pour tester les différentes approches sur des données réelles
concernant le développement de l'obésité. L'idée étant de comparer le profil d'expression des patients obèses
$LOGOIMAGE
1/2
EDITE de Paris (ED130) -- Proposition de thèse
$LOGOIMAGE
par rapport à des personnes de corpulence normale. Le but sera donc d'appliquer des méthodes de
classification croisée et de voir si les groupes obtenus sont cohérents biologiquement; c'est-à-dire si les
patients et les méthodes de prélèvement de même type sont regroupés ensembles. On étudiera aussi les
groupes de gènes obtenus pour voir s'ils partagent des fonctions biologiques ou s'ils sont impliqués dans les
mêmes voies métaboliques. Cette collaboration aura pour but de valider les méthodes d'ensemble qui seront
développées au cours de la thèse mais aussi de proposer de nouvelles hypothèses de travail aux biologistes.
Remarques additionnelles
Le sujet de cette thèse nécessite des connaissances dans le domaine l?apprentissage automatique. Un bagage
en mathématiques appliquées et une compétence avérée en programmation seront très appréciés.
Pour plus de détails sur l'EDITE, consultez le site http://edite-de-paris.fr/. D'autres propositions de thèse sont
aussi présentes sur ce site.
$LOGOIMAGE
2/2
Téléchargement