Notre but est de pousser cette approche plus avant afin de pouvoir analyser
les donn´ees humaines, qui sont nettement plus complexes que les donn´ees de la
levure (30,000 g`enes pour l’homme contre 6,000 pour la levure). Nos ´equipes dis-
posent de deux algorithmes compl´ementaires, Licorn (LIPN-Evry) [1] et DigDag
(LIG) [2], chacun sp´ecialis´e dans une partie de l’analyse du r´eseau de g`enes. Un
premier travail sera de concevoir un nouvel algorithme combinant les approches
Licorn et DigDag afin de pouvoir avoir un algorithme unique capable de prendre
des donn´ees brutes de puces `a ADN en entr´ee et de retourner des r´eseau d’inter-
action de g`enes en sortie. Un deuxi`eme travail sera ensuite d’assurer le passage
`a l’´echelle de cette algorithme, en utilisant des techniques de parall´elisme. Pour
cela le stagiaire b´en´eficiera de l’exp´erience du LIG, o`u il existe une collaboration
active avec l’´equipe de parall´elisme pour la mise au points d’algorithme de fouille
de donn´ees parall`eles et leur ´evaluation.
Ce qui rend ce stage complet sont les collaborations existantes entre les en-
cadrants du LIPN et d’Evry avec les biologistes de l’Institut Curie. Le stagiaire
s’int`egrera dans cette collaboration afin de savoir ce que les utilistateurs biolo-
gistes attendent comme r´esultats de son algorithme. En analysant les r´esultats
avec eux, il pourra d´eterminer quelles contraintes rajouter `a l’algorithme pour fil-
trer les r´esultats peu int´eressants et ainsi limiter / classer les r´esultats produits.
R´esultats th´eoriques attendus : D´efinition d’une solution algorithme parall`ele
efficace pour le probl`eme de l’inf´erence grande ´echelle de r´eseaux d’interaction de
g`enes, en se basant sur les algorithmes Licorn et DigDag et de contraintes sur les
r´esultats `a partir des demandes des biologistes.
R´esultats pratiques attendus : Tous les r´esultats th´eoriques pr´ec´edents seront
valid´es dans le cadre d’impl´ementation de prototypes. L’efficacit´e de ces proto-
types sera valid´ee sur des donn´ees synth´etiques et sur des donn´ees r´eelles. Les
r´esultats des analyses de donn´ees r´eelles donneront lieu `a des ´echanges avec les
biologistes, qui pourront amener `a modifier les solutions propos´ee initialement
afin de permettre la d´ecouverte de r´esultats plus pertinents.
R´ef´erences :
[1] : M. Elati, P. Neuvial, M. Bolotin, E. Barillot, F. Radvanyi, C. Rouveirol. LI-
CORN : learning co-operative regulation networks from expression data. Bioinforma-
tics, 23 :2407-2414, 2007.
[2] : A. Termier, Y. Tamada, K. Numata, S. Imoto, T. Washio and T. Higuchi. DigDag,
a first algorithm to mine closed frequent embedded sub-DAGs. In Proceedings of Mining
and Learning with Graphs Workshop (MLG’07), pp 41-45, 2007.
2