Méthodes d'ensemble en classification croisée Sujet proposé par Blaise HANCZAR [email protected] École doctorale: EDITE de Paris (ED130) Domaine: Sciences et technologies de l'information et de la communication Projet Les puces à ADN (ou biopuces) permettent de mesurer l'expression de plusieurs milliers de gènes simultanément à travers différentes conditions expérimentales. L'une des principales approches d'analyse sont les méthodes de classification qui consistent à regrouper les gènes ayant un comportement similaire sur l'ensemble des conditions expérimentales. L'hypothèse généralement admise est que des gènes ayant un profil d'expression proche, ont des fonctions biologique proches. Les méthodes de classification classiques, tel que les K-moyennes, classification hiérarchique ou cartes auto-organisatrices, recherchent des groupes de gènes qui ont le profil similaire sur un ensemble homogène de conditions. Cependant, lorsque les conditions expérimentales sont hétérogènes, ce qui est généralement le cas dans les données biopuces, il est plus approprié de construire des groupes de gènes similaires sur seulement des sous-ensembles de conditions. Dans ce cas, les méthodes de classification croisée sont mieux adaptées au problème, car contrairement aux méthodes classiques elles permettent de produire un modèle local. Cette différence fondamentale offre de nombreux avantages à la classification croisée dans le contexte d'analyse de données biopuces [1]. On peut donner comme exemple le cas où un ensemble de gènes participe à un processus cellulaire qui est activé seulement sur un sous-ensemble de conditions expérimentales, ou quand un gène est impliqué dans plusieurs voies métaboliques qui peuvent être coactivées sous certaines conditions. La classification croisée permet d'identifier ces groupes de gènes et conditions biologiquement intéressants qui ne sont généralement pas mis en évidence pas les méthodes de classification classiques. Le principe des méthodes d'ensemble est de construire un ensemble de modèles puis de les agréger en un unique modèle. Ces méthodes ont déjà démontré leur utilité dans différents problèmes d'apprentissage [2]. En effet, elles permettent d'améliorer significativement la précision des classeurs dans les tâches d'apprentissage supervisé [3] et les approches les plus populaires sont le boosting, le bagging et les random forests. Des travaux récents ont montré que les méthodes d'ensemble peuvent être également utilisées et efficacement dans les problèmes d'apprentissage non supervisé. Plusieurs approches d'ensemble ont été proposées pour améliorer la précision et la robustesse des algorithmes de classification [4]. Puisque les méthodes d'ensemble sont efficaces sur des tâches d'apprentissage supervisé et non supervisé, il est raisonnable de penser qu'elles puissent l'être également en classification croisée. Enjeux L'intégration de la classification croisée dans une approche de type ensembliste présente deux problématiques spécifiques. La première concerne la génération d'ensemble de modèles; comment générer ces modèles et quelle est la source de diversité ? La deuxième est à propos de la fonction d'agrégation; comment combiner tous les modèles et trouver les correspondances entre les différents groupes ? Pour chacune de ces questions, le doctorant devra identifier, développer et tester différentes approches. Un travail préliminaire a déjà été effectué au LIPADE. Nous avons utilisé une approche bagging pour générer différents modèles, puis les avons agrégés en créant des "méta-groupes" de gènes. Les premiers tests sur des données artificielles et réelles montrent que notre méthode d'ensemble améliore les performances des méthodes de classification croisée classiques [5]. Le travail de thèse consistera donc à développer de nouvelles approches de classification croisée inspirées des méthodes d'ensemble pour l'analyse de données issues de puces à ADN. Le doctorant sera amené à collaborer avec des biologistes (INSERM U872 équipe7 ) pour tester les différentes approches sur des données réelles concernant le développement de l'obésité. L'idée étant de comparer le profil d'expression des patients obèses $LOGOIMAGE 1/2 EDITE de Paris (ED130) -- Proposition de thèse $LOGOIMAGE par rapport à des personnes de corpulence normale. Le but sera donc d'appliquer des méthodes de classification croisée et de voir si les groupes obtenus sont cohérents biologiquement; c'est-à-dire si les patients et les méthodes de prélèvement de même type sont regroupés ensembles. On étudiera aussi les groupes de gènes obtenus pour voir s'ils partagent des fonctions biologiques ou s'ils sont impliqués dans les mêmes voies métaboliques. Cette collaboration aura pour but de valider les méthodes d'ensemble qui seront développées au cours de la thèse mais aussi de proposer de nouvelles hypothèses de travail aux biologistes. Remarques additionnelles Le sujet de cette thèse nécessite des connaissances dans le domaine l?apprentissage automatique. Un bagage en mathématiques appliquées et une compétence avérée en programmation seront très appréciés. Pour plus de détails sur l'EDITE, consultez le site http://edite-de-paris.fr/. D'autres propositions de thèse sont aussi présentes sur ce site. $LOGOIMAGE 2/2