TITRE : Fouille de donn´ees pour l’inf´erence grande ´echelle de r´eseaux
biologiques
Laboratoires : LIPN (Universit´e Paris-Nord) / Programme d’Epig´enomique
(Universit´e d’Evry - Genopole) / LIG (Universit´e de Grenoble I)
Sujet propos´e par : C´eline Rouveirol : [email protected],
Mohamed Elati : [email protected],
Alexandre Termier : [email protected].
Mots-clefs : bioinformatique, fouille de donn´ees, recherche de patterns fr´equents,
r´eseaux d’interaction de g`enes, algorithmes parall`eles.
Pr´e-requis : Bonne exp´erience de programmation. La maˆıtrise du C++ est un
plus.
R´esum´e :
Un des d´efis majeurs de l’`ere post-g´enomique est la construction, `a partir
d’informations telles que les donn´ees d’expression, de r´eseaux de r´egulation trans-
criptionnelle. Les m´ethodes actuelles peuvent inf´erer des sous-r´eseaux dans des
cas o`u l’on ne consid`ere qu’un nombre limit´e de g`enes. Cela n’est pas suffisant
pour analyser en profondeur les donn´ees concernant l’homme, impliquant plus
de 30,000 g`enes. Le but de ce stage est participer `a la conception de nouveaux
algorithmes de fouille de donn´ees capables de passer `a l’´echelle sur des donn´ees
humaines, en exploitant entre autres les capacit´es des nouvelles architectures de
processeurs multi-cœurs.
Description :
La r´egulation g´en´etique chez les eucaryotes est r´ealis´ee via des m´ecanismes
complexes, qui ne sont pas encore totalement compris. Des prot´eines, appel´ees
facteurs de transcription, jouent un rˆole important : elles peuvent se lier `a des
sites relativement sp´ecifiques dans les r´egions r´egulatrices des g`enes. En se fixant
`a l’ADN et en formant des complexes les uns avec les autres, les facteurs de
transcription ont deux modes d’action : ils peuvent activer ou inhiber la trans-
cription de leurs g`enes cibles. Les facteurs de transcription peuvent eux-mˆemes
ˆetre r´egul´es, dans ce cas, ils participent `a une voie de r´egulation g´en´etique. Ces
r´egulations entre tous les g`enes d’un organisme forment un graphe complexe ap-
pel´e “r´eseaux de r´egulation transcriptionnelle”. Suite au succ`es rencontr´e par les
techniques de puces `a ADN pour mesurer l’expression des g`enes `a grande ´echelle,
l’inf´erence des r´eseaux de r´egulation `a partir de ces donn´ees d’expression a suscit´e
ces derni`eres ann´ees un int´erˆet croissant. Des approches bioinformatiques de plus
en plus nombreuses s’attaquent `a ce probl`eme par les m´ethodes d’inf´erence les
plus vari´ees, mais `a cause de la difficult´e de la tˆache seuls de petits sous-r´eseaux
ont pu ˆetre d´ecouverts. A l’aide de m´ethodes de fouille de donn´ees, des approches
d’analyse de r´eseaux d’interaction de g`enes `a grande ´echelle ont ´et´e appliqu´ees
avec un certain succ`es sur des organismes simples comme la levure.
1
Notre but est de pousser cette approche plus avant afin de pouvoir analyser
les donn´ees humaines, qui sont nettement plus complexes que les donn´ees de la
levure (30,000 g`enes pour l’homme contre 6,000 pour la levure). Nos ´equipes dis-
posent de deux algorithmes compl´ementaires, Licorn (LIPN-Evry) [1] et DigDag
(LIG) [2], chacun sp´ecialis´e dans une partie de l’analyse du r´eseau de g`enes. Un
premier travail sera de concevoir un nouvel algorithme combinant les approches
Licorn et DigDag afin de pouvoir avoir un algorithme unique capable de prendre
des donn´ees brutes de puces `a ADN en entr´ee et de retourner des r´eseau d’inter-
action de g`enes en sortie. Un deuxi`eme travail sera ensuite d’assurer le passage
`a l’´echelle de cette algorithme, en utilisant des techniques de parall´elisme. Pour
cela le stagiaire b´en´eficiera de l’exp´erience du LIG, o`u il existe une collaboration
active avec l’´equipe de parall´elisme pour la mise au points d’algorithme de fouille
de donn´ees parall`eles et leur ´evaluation.
Ce qui rend ce stage complet sont les collaborations existantes entre les en-
cadrants du LIPN et d’Evry avec les biologistes de l’Institut Curie. Le stagiaire
s’int`egrera dans cette collaboration afin de savoir ce que les utilistateurs biolo-
gistes attendent comme r´esultats de son algorithme. En analysant les r´esultats
avec eux, il pourra d´eterminer quelles contraintes rajouter `a l’algorithme pour fil-
trer les r´esultats peu ineressants et ainsi limiter / classer les r´esultats produits.
R´esultats th´eoriques attendus : efinition d’une solution algorithme parall`ele
efficace pour le probl`eme de l’inf´erence grande ´echelle de r´eseaux d’interaction de
g`enes, en se basant sur les algorithmes Licorn et DigDag et de contraintes sur les
r´esultats `a partir des demandes des biologistes.
R´esultats pratiques attendus : Tous les r´esultats th´eoriques pr´ec´edents seront
valid´es dans le cadre d’impl´ementation de prototypes. L’efficacit´e de ces proto-
types sera valid´ee sur des donn´ees synth´etiques et sur des donn´ees r´eelles. Les
r´esultats des analyses de donn´ees r´eelles donneront lieu `a des ´echanges avec les
biologistes, qui pourront amener `a modifier les solutions propos´ee initialement
afin de permettre la d´ecouverte de r´esultats plus pertinents.
R´ef´erences :
[1] : M. Elati, P. Neuvial, M. Bolotin, E. Barillot, F. Radvanyi, C. Rouveirol. LI-
CORN : learning co-operative regulation networks from expression data. Bioinforma-
tics, 23 :2407-2414, 2007.
[2] : A. Termier, Y. Tamada, K. Numata, S. Imoto, T. Washio and T. Higuchi. DigDag,
a first algorithm to mine closed frequent embedded sub-DAGs. In Proceedings of Mining
and Learning with Graphs Workshop (MLG’07), pp 41-45, 2007.
2
1 / 2 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !