TITRE : Fouille de données pour l’inférence grande échelle de réseaux biologiques Laboratoires : LIPN (Université Paris-Nord) / Programme d’Epigénomique (Université d’Evry - Genopole) / LIG (Université de Grenoble I) Sujet proposé par : Céline Rouveirol : [email protected], Mohamed Elati : [email protected], Alexandre Termier : [email protected]. Mots-clefs : bioinformatique, fouille de données, recherche de patterns fréquents, réseaux d’interaction de gènes, algorithmes parallèles. Pré-requis : Bonne expérience de programmation. La maı̂trise du C++ est un plus. Résumé : Un des défis majeurs de l’ère post-génomique est la construction, à partir d’informations telles que les données d’expression, de réseaux de régulation transcriptionnelle. Les méthodes actuelles peuvent inférer des sous-réseaux dans des cas où l’on ne considère qu’un nombre limité de gènes. Cela n’est pas suffisant pour analyser en profondeur les données concernant l’homme, impliquant plus de 30,000 gènes. Le but de ce stage est participer à la conception de nouveaux algorithmes de fouille de données capables de passer à l’échelle sur des données humaines, en exploitant entre autres les capacités des nouvelles architectures de processeurs multi-cœurs. Description : La régulation génétique chez les eucaryotes est réalisée via des mécanismes complexes, qui ne sont pas encore totalement compris. Des protéines, appelées facteurs de transcription, jouent un rôle important : elles peuvent se lier à des sites relativement spécifiques dans les régions régulatrices des gènes. En se fixant à l’ADN et en formant des complexes les uns avec les autres, les facteurs de transcription ont deux modes d’action : ils peuvent activer ou inhiber la transcription de leurs gènes cibles. Les facteurs de transcription peuvent eux-mêmes être régulés, dans ce cas, ils participent à une voie de régulation génétique. Ces régulations entre tous les gènes d’un organisme forment un graphe complexe appelé “réseaux de régulation transcriptionnelle”. Suite au succès rencontré par les techniques de puces à ADN pour mesurer l’expression des gènes à grande échelle, l’inférence des réseaux de régulation à partir de ces données d’expression a suscité ces dernières années un intérêt croissant. Des approches bioinformatiques de plus en plus nombreuses s’attaquent à ce problème par les méthodes d’inférence les plus variées, mais à cause de la difficulté de la tâche seuls de petits sous-réseaux ont pu être découverts. A l’aide de méthodes de fouille de données, des approches d’analyse de réseaux d’interaction de gènes à grande échelle ont été appliquées avec un certain succès sur des organismes simples comme la levure. 1 Notre but est de pousser cette approche plus avant afin de pouvoir analyser les données humaines, qui sont nettement plus complexes que les données de la levure (30,000 gènes pour l’homme contre 6,000 pour la levure). Nos équipes disposent de deux algorithmes complémentaires, Licorn (LIPN-Evry) [1] et DigDag (LIG) [2], chacun spécialisé dans une partie de l’analyse du réseau de gènes. Un premier travail sera de concevoir un nouvel algorithme combinant les approches Licorn et DigDag afin de pouvoir avoir un algorithme unique capable de prendre des données brutes de puces à ADN en entrée et de retourner des réseau d’interaction de gènes en sortie. Un deuxième travail sera ensuite d’assurer le passage à l’échelle de cette algorithme, en utilisant des techniques de parallélisme. Pour cela le stagiaire bénéficiera de l’expérience du LIG, où il existe une collaboration active avec l’équipe de parallélisme pour la mise au points d’algorithme de fouille de données parallèles et leur évaluation. Ce qui rend ce stage complet sont les collaborations existantes entre les encadrants du LIPN et d’Evry avec les biologistes de l’Institut Curie. Le stagiaire s’intègrera dans cette collaboration afin de savoir ce que les utilistateurs biologistes attendent comme résultats de son algorithme. En analysant les résultats avec eux, il pourra déterminer quelles contraintes rajouter à l’algorithme pour filtrer les résultats peu intéressants et ainsi limiter / classer les résultats produits. Résultats théoriques attendus : Définition d’une solution algorithme parallèle efficace pour le problème de l’inférence grande échelle de réseaux d’interaction de gènes, en se basant sur les algorithmes Licorn et DigDag et de contraintes sur les résultats à partir des demandes des biologistes. Résultats pratiques attendus : Tous les résultats théoriques précédents seront validés dans le cadre d’implémentation de prototypes. L’efficacité de ces prototypes sera validée sur des données synthétiques et sur des données réelles. Les résultats des analyses de données réelles donneront lieu à des échanges avec les biologistes, qui pourront amener à modifier les solutions proposée initialement afin de permettre la découverte de résultats plus pertinents. Références : [1] : M. Elati, P. Neuvial, M. Bolotin, E. Barillot, F. Radvanyi, C. Rouveirol. LICORN : learning co-operative regulation networks from expression data. Bioinformatics, 23 :2407-2414, 2007. [2] : A. Termier, Y. Tamada, K. Numata, S. Imoto, T. Washio and T. Higuchi. DigDag, a first algorithm to mine closed frequent embedded sub-DAGs. In Proceedings of Mining and Learning with Graphs Workshop (MLG’07), pp 41-45, 2007. 2