Fouille de données pour l`inférence grande échelle de

publicité
TITRE : Fouille de données pour l’inférence grande échelle de réseaux
biologiques
Laboratoires : LIPN (Université Paris-Nord) / Programme d’Epigénomique
(Université d’Evry - Genopole) / LIG (Université de Grenoble I)
Sujet proposé par : Céline Rouveirol : [email protected],
Mohamed Elati : [email protected],
Alexandre Termier : [email protected].
Mots-clefs : bioinformatique, fouille de données, recherche de patterns fréquents,
réseaux d’interaction de gènes, algorithmes parallèles.
Pré-requis : Bonne expérience de programmation. La maı̂trise du C++ est un
plus.
Résumé :
Un des défis majeurs de l’ère post-génomique est la construction, à partir
d’informations telles que les données d’expression, de réseaux de régulation transcriptionnelle. Les méthodes actuelles peuvent inférer des sous-réseaux dans des
cas où l’on ne considère qu’un nombre limité de gènes. Cela n’est pas suffisant
pour analyser en profondeur les données concernant l’homme, impliquant plus
de 30,000 gènes. Le but de ce stage est participer à la conception de nouveaux
algorithmes de fouille de données capables de passer à l’échelle sur des données
humaines, en exploitant entre autres les capacités des nouvelles architectures de
processeurs multi-cœurs.
Description :
La régulation génétique chez les eucaryotes est réalisée via des mécanismes
complexes, qui ne sont pas encore totalement compris. Des protéines, appelées
facteurs de transcription, jouent un rôle important : elles peuvent se lier à des
sites relativement spécifiques dans les régions régulatrices des gènes. En se fixant
à l’ADN et en formant des complexes les uns avec les autres, les facteurs de
transcription ont deux modes d’action : ils peuvent activer ou inhiber la transcription de leurs gènes cibles. Les facteurs de transcription peuvent eux-mêmes
être régulés, dans ce cas, ils participent à une voie de régulation génétique. Ces
régulations entre tous les gènes d’un organisme forment un graphe complexe appelé “réseaux de régulation transcriptionnelle”. Suite au succès rencontré par les
techniques de puces à ADN pour mesurer l’expression des gènes à grande échelle,
l’inférence des réseaux de régulation à partir de ces données d’expression a suscité
ces dernières années un intérêt croissant. Des approches bioinformatiques de plus
en plus nombreuses s’attaquent à ce problème par les méthodes d’inférence les
plus variées, mais à cause de la difficulté de la tâche seuls de petits sous-réseaux
ont pu être découverts. A l’aide de méthodes de fouille de données, des approches
d’analyse de réseaux d’interaction de gènes à grande échelle ont été appliquées
avec un certain succès sur des organismes simples comme la levure.
1
Notre but est de pousser cette approche plus avant afin de pouvoir analyser
les données humaines, qui sont nettement plus complexes que les données de la
levure (30,000 gènes pour l’homme contre 6,000 pour la levure). Nos équipes disposent de deux algorithmes complémentaires, Licorn (LIPN-Evry) [1] et DigDag
(LIG) [2], chacun spécialisé dans une partie de l’analyse du réseau de gènes. Un
premier travail sera de concevoir un nouvel algorithme combinant les approches
Licorn et DigDag afin de pouvoir avoir un algorithme unique capable de prendre
des données brutes de puces à ADN en entrée et de retourner des réseau d’interaction de gènes en sortie. Un deuxième travail sera ensuite d’assurer le passage
à l’échelle de cette algorithme, en utilisant des techniques de parallélisme. Pour
cela le stagiaire bénéficiera de l’expérience du LIG, où il existe une collaboration
active avec l’équipe de parallélisme pour la mise au points d’algorithme de fouille
de données parallèles et leur évaluation.
Ce qui rend ce stage complet sont les collaborations existantes entre les encadrants du LIPN et d’Evry avec les biologistes de l’Institut Curie. Le stagiaire
s’intègrera dans cette collaboration afin de savoir ce que les utilistateurs biologistes attendent comme résultats de son algorithme. En analysant les résultats
avec eux, il pourra déterminer quelles contraintes rajouter à l’algorithme pour filtrer les résultats peu intéressants et ainsi limiter / classer les résultats produits.
Résultats théoriques attendus : Définition d’une solution algorithme parallèle
efficace pour le problème de l’inférence grande échelle de réseaux d’interaction de
gènes, en se basant sur les algorithmes Licorn et DigDag et de contraintes sur les
résultats à partir des demandes des biologistes.
Résultats pratiques attendus : Tous les résultats théoriques précédents seront
validés dans le cadre d’implémentation de prototypes. L’efficacité de ces prototypes sera validée sur des données synthétiques et sur des données réelles. Les
résultats des analyses de données réelles donneront lieu à des échanges avec les
biologistes, qui pourront amener à modifier les solutions proposée initialement
afin de permettre la découverte de résultats plus pertinents.
Références :
[1] : M. Elati, P. Neuvial, M. Bolotin, E. Barillot, F. Radvanyi, C. Rouveirol. LICORN : learning co-operative regulation networks from expression data. Bioinformatics, 23 :2407-2414, 2007.
[2] : A. Termier, Y. Tamada, K. Numata, S. Imoto, T. Washio and T. Higuchi. DigDag,
a first algorithm to mine closed frequent embedded sub-DAGs. In Proceedings of Mining
and Learning with Graphs Workshop (MLG’07), pp 41-45, 2007.
2
Téléchargement