EDITE de Paris (ED130) -

Téléchargement

Méthodes d'ensemble en classification croisée

Sujet proposé par Blaise HANCZAR [email protected]

École doctorale: EDITE de Paris (ED130)

Domaine: Sciences et technologies de l'information et de la communication

Projet

Les puces à ADN (ou biopuces) permettent de mesurer l'expression de plusieurs milliers de gènes

simultanément à travers différentes conditions expérimentales. L'une des principales approches d'analyse sont

les méthodes de classification qui consistent à regrouper les gènes ayant un comportement similaire sur

l'ensemble des conditions expérimentales. L'hypothèse généralement admise est que des gènes ayant un profil

d'expression proche, ont des fonctions biologique proches. Les méthodes de classification classiques, tel que

les K-moyennes, classification hiérarchique ou cartes auto-organisatrices, recherchent des groupes de gènes

qui ont le profil similaire sur un ensemble homogène de conditions. Cependant, lorsque les conditions

expérimentales sont hétérogènes, ce qui est généralement le cas dans les données biopuces, il est plus

approprié de construire des groupes de gènes similaires sur seulement des sous-ensembles de conditions. Dans

ce cas, les méthodes de classification croisée sont mieux adaptées au problème, car contrairement aux

méthodes classiques elles permettent de produire un modèle local. Cette différence fondamentale offre de

nombreux avantages à la classification croisée dans le contexte d'analyse de données biopuces [1]. On peut

donner comme exemple le cas où un ensemble de gènes participe à un processus cellulaire qui est activé

seulement sur un sous-ensemble de conditions expérimentales, ou quand un gène est impliqué dans plusieurs

voies métaboliques qui peuvent être coactivées sous certaines conditions. La classification croisée permet

d'identifier ces groupes de gènes et conditions biologiquement intéressants qui ne sont généralement pas mis

en évidence pas les méthodes de classification classiques.

Le principe des méthodes d'ensemble est de construire un ensemble de modèles puis de les agréger en un

unique modèle. Ces méthodes ont déjà démontré leur utilité dans différents problèmes d'apprentissage [2]. En

effet, elles permettent d'améliorer significativement la précision des classeurs dans les tâches d'apprentissage

supervisé [3] et les approches les plus populaires sont le boosting, le bagging et les random forests. Des

travaux récents ont montré que les méthodes d'ensemble peuvent être également utilisées et efficacement dans

les problèmes d'apprentissage non supervisé. Plusieurs approches d'ensemble ont été proposées pour améliorer

la précision et la robustesse des algorithmes de classification [4]. Puisque les méthodes d'ensemble sont

efficaces sur des tâches d'apprentissage supervisé et non supervisé, il est raisonnable de penser qu'elles

puissent l'être également en classification croisée.

Enjeux

L'intégration de la classification croisée dans une approche de type ensembliste présente deux problématiques

spécifiques. La première concerne la génération d'ensemble de modèles; comment générer ces modèles et

quelle est la source de diversité ? La deuxième est à propos de la fonction d'agrégation; comment combiner

tous les modèles et trouver les correspondances entre les différents groupes ? Pour chacune de ces questions,

le doctorant devra identifier, développer et tester différentes approches. Un travail préliminaire a déjà été

effectué au LIPADE. Nous avons utilisé une approche bagging pour générer différents modèles, puis les

avons agrégés en créant des "méta-groupes" de gènes. Les premiers tests sur des données artificielles et réelles

montrent que notre méthode d'ensemble améliore les performances des méthodes de classification croisée

classiques [5].

Le travail de thèse consistera donc à développer de nouvelles approches de classification croisée inspirées des

méthodes d'ensemble pour l'analyse de données issues de puces à ADN. Le doctorant sera amené à collaborer

avec des biologistes (INSERM U872 équipe7 ) pour tester les différentes approches sur des données réelles

concernant le développement de l'obésité. L'idée étant de comparer le profil d'expression des patients obèses

$LOGOIMAGE 1/2

par rapport à des personnes de corpulence normale. Le but sera donc d'appliquer des méthodes de

classification croisée et de voir si les groupes obtenus sont cohérents biologiquement; c'est-à-dire si les

patients et les méthodes de prélèvement de même type sont regroupés ensembles. On étudiera aussi les

groupes de gènes obtenus pour voir s'ils partagent des fonctions biologiques ou s'ils sont impliqués dans les

mêmes voies métaboliques. Cette collaboration aura pour but de valider les méthodes d'ensemble qui seront

développées au cours de la thèse mais aussi de proposer de nouvelles hypothèses de travail aux biologistes.

Remarques additionnelles

Le sujet de cette thèse nécessite des connaissances dans le domaine l?apprentissage automatique. Un bagage

en mathématiques appliquées et une compétence avérée en programmation seront très appréciés.

Pour plus de détails sur l'EDITE, consultez le site http://edite-de-paris.fr/. D'autres propositions de thèse sont

aussi présentes sur ce site.

EDITE de Paris (ED130) -- Proposition de thèse $LOGOIMAGE

$LOGOIMAGE 2/2

1 / 2 100%

EDITE de Paris (ED130) -

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

EDITE de Paris (ED130) -

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib