Méthodes d'ensemble en classification croisée
École doctorale: EDITE de Paris (ED130)
Domaine: Sciences et technologies de l'information et de la communication
Projet
Les puces à ADN (ou biopuces) permettent de mesurer l'expression de plusieurs milliers de gènes
simultanément à travers différentes conditions expérimentales. L'une des principales approches d'analyse sont
les méthodes de classification qui consistent à regrouper les gènes ayant un comportement similaire sur
l'ensemble des conditions expérimentales. L'hypothèse généralement admise est que des gènes ayant un profil
d'expression proche, ont des fonctions biologique proches. Les méthodes de classification classiques, tel que
les K-moyennes, classification hiérarchique ou cartes auto-organisatrices, recherchent des groupes de gènes
qui ont le profil similaire sur un ensemble homogène de conditions. Cependant, lorsque les conditions
expérimentales sont hétérogènes, ce qui est généralement le cas dans les données biopuces, il est plus
approprié de construire des groupes de gènes similaires sur seulement des sous-ensembles de conditions. Dans
ce cas, les méthodes de classification croisée sont mieux adaptées au problème, car contrairement aux
méthodes classiques elles permettent de produire un modèle local. Cette différence fondamentale offre de
nombreux avantages à la classification croisée dans le contexte d'analyse de données biopuces [1]. On peut
donner comme exemple le cas où un ensemble de gènes participe à un processus cellulaire qui est activé
seulement sur un sous-ensemble de conditions expérimentales, ou quand un gène est impliqué dans plusieurs
voies métaboliques qui peuvent être coactivées sous certaines conditions. La classification croisée permet
d'identifier ces groupes de gènes et conditions biologiquement intéressants qui ne sont généralement pas mis
en évidence pas les méthodes de classification classiques.
Le principe des méthodes d'ensemble est de construire un ensemble de modèles puis de les agréger en un
unique modèle. Ces méthodes ont déjà démontré leur utilité dans différents problèmes d'apprentissage [2]. En
effet, elles permettent d'améliorer significativement la précision des classeurs dans les tâches d'apprentissage
supervisé [3] et les approches les plus populaires sont le boosting, le bagging et les random forests. Des
travaux récents ont montré que les méthodes d'ensemble peuvent être également utilisées et efficacement dans
les problèmes d'apprentissage non supervisé. Plusieurs approches d'ensemble ont été proposées pour améliorer
la précision et la robustesse des algorithmes de classification [4]. Puisque les méthodes d'ensemble sont
efficaces sur des tâches d'apprentissage supervisé et non supervisé, il est raisonnable de penser qu'elles
puissent l'être également en classification croisée.
Enjeux
L'intégration de la classification croisée dans une approche de type ensembliste présente deux problématiques
spécifiques. La première concerne la génération d'ensemble de modèles; comment générer ces modèles et
quelle est la source de diversité ? La deuxième est à propos de la fonction d'agrégation; comment combiner
tous les modèles et trouver les correspondances entre les différents groupes ? Pour chacune de ces questions,
le doctorant devra identifier, développer et tester différentes approches. Un travail préliminaire a déjà été
effectué au LIPADE. Nous avons utilisé une approche bagging pour générer différents modèles, puis les
avons agrégés en créant des "méta-groupes" de gènes. Les premiers tests sur des données artificielles et réelles
montrent que notre méthode d'ensemble améliore les performances des méthodes de classification croisée
classiques [5].
Le travail de thèse consistera donc à développer de nouvelles approches de classification croisée inspirées des
méthodes d'ensemble pour l'analyse de données issues de puces à ADN. Le doctorant sera amené à collaborer
avec des biologistes (INSERM U872 équipe7 ) pour tester les différentes approches sur des données réelles
concernant le développement de l'obésité. L'idée étant de comparer le profil d'expression des patients obèses
$LOGOIMAGE 1/2