Fouille de données pour l`inférence grande échelle de

Téléchargement

TITRE : Fouille de donn´ees pour l’inf´erence grande ´echelle de r´eseaux

biologiques

Laboratoires : LIPN (Universit´e Paris-Nord) / Programme d’Epig´enomique

(Universit´e d’Evry - Genopole) / LIG (Universit´e de Grenoble I)

Sujet propos´e par : C´eline Rouveirol : [email protected],

Mohamed Elati : [email protected],

Alexandre Termier : [email protected].

Mots-clefs : bioinformatique, fouille de donn´ees, recherche de patterns fr´equents,

r´eseaux d’interaction de g`enes, algorithmes parall`eles.

Pr´e-requis : Bonne exp´erience de programmation. La maˆıtrise du C++ est un

plus.

R´esum´e :

Un des d´eﬁs majeurs de l’`ere post-g´enomique est la construction, `a partir

d’informations telles que les donn´ees d’expression, de r´eseaux de r´egulation trans-

criptionnelle. Les m´ethodes actuelles peuvent inf´erer des sous-r´eseaux dans des

cas o`u l’on ne consid`ere qu’un nombre limit´e de g`enes. Cela n’est pas suﬃsant

pour analyser en profondeur les donn´ees concernant l’homme, impliquant plus

de 30,000 g`enes. Le but de ce stage est participer `a la conception de nouveaux

algorithmes de fouille de donn´ees capables de passer `a l’´echelle sur des donn´ees

humaines, en exploitant entre autres les capacit´es des nouvelles architectures de

processeurs multi-cœurs.

Description :

La r´egulation g´en´etique chez les eucaryotes est r´ealis´ee via des m´ecanismes

complexes, qui ne sont pas encore totalement compris. Des prot´eines, appel´ees

facteurs de transcription, jouent un rˆole important : elles peuvent se lier `a des

sites relativement sp´eciﬁques dans les r´egions r´egulatrices des g`enes. En se ﬁxant

`a l’ADN et en formant des complexes les uns avec les autres, les facteurs de

transcription ont deux modes d’action : ils peuvent activer ou inhiber la trans-

cription de leurs g`enes cibles. Les facteurs de transcription peuvent eux-mˆemes

ˆetre r´egul´es, dans ce cas, ils participent `a une voie de r´egulation g´en´etique. Ces

r´egulations entre tous les g`enes d’un organisme forment un graphe complexe ap-

pel´e “r´eseaux de r´egulation transcriptionnelle”. Suite au succ`es rencontr´e par les

techniques de puces `a ADN pour mesurer l’expression des g`enes `a grande ´echelle,

l’inf´erence des r´eseaux de r´egulation `a partir de ces donn´ees d’expression a suscit´e

ces derni`eres ann´ees un int´erˆet croissant. Des approches bioinformatiques de plus

en plus nombreuses s’attaquent `a ce probl`eme par les m´ethodes d’inf´erence les

plus vari´ees, mais `a cause de la diﬃcult´e de la tˆache seuls de petits sous-r´eseaux

ont pu ˆetre d´ecouverts. A l’aide de m´ethodes de fouille de donn´ees, des approches

d’analyse de r´eseaux d’interaction de g`enes `a grande ´echelle ont ´et´e appliqu´ees

avec un certain succ`es sur des organismes simples comme la levure.

Notre but est de pousser cette approche plus avant aﬁn de pouvoir analyser

les donn´ees humaines, qui sont nettement plus complexes que les donn´ees de la

levure (30,000 g`enes pour l’homme contre 6,000 pour la levure). Nos ´equipes dis-

posent de deux algorithmes compl´ementaires, Licorn (LIPN-Evry) [1] et DigDag

(LIG) [2], chacun sp´ecialis´e dans une partie de l’analyse du r´eseau de g`enes. Un

premier travail sera de concevoir un nouvel algorithme combinant les approches

Licorn et DigDag aﬁn de pouvoir avoir un algorithme unique capable de prendre

des donn´ees brutes de puces `a ADN en entr´ee et de retourner des r´eseau d’inter-

action de g`enes en sortie. Un deuxi`eme travail sera ensuite d’assurer le passage

`a l’´echelle de cette algorithme, en utilisant des techniques de parall´elisme. Pour

cela le stagiaire b´en´eﬁciera de l’exp´erience du LIG, o`u il existe une collaboration

active avec l’´equipe de parall´elisme pour la mise au points d’algorithme de fouille

de donn´ees parall`eles et leur ´evaluation.

Ce qui rend ce stage complet sont les collaborations existantes entre les en-

cadrants du LIPN et d’Evry avec les biologistes de l’Institut Curie. Le stagiaire

s’int`egrera dans cette collaboration aﬁn de savoir ce que les utilistateurs biolo-

gistes attendent comme r´esultats de son algorithme. En analysant les r´esultats

avec eux, il pourra d´eterminer quelles contraintes rajouter `a l’algorithme pour ﬁl-

trer les r´esultats peu int´eressants et ainsi limiter / classer les r´esultats produits.

R´esultats th´eoriques attendus : D´eﬁnition d’une solution algorithme parall`ele

eﬃcace pour le probl`eme de l’inf´erence grande ´echelle de r´eseaux d’interaction de

g`enes, en se basant sur les algorithmes Licorn et DigDag et de contraintes sur les

r´esultats `a partir des demandes des biologistes.

R´esultats pratiques attendus : Tous les r´esultats th´eoriques pr´ec´edents seront

valid´es dans le cadre d’impl´ementation de prototypes. L’eﬃcacit´e de ces proto-

types sera valid´ee sur des donn´ees synth´etiques et sur des donn´ees r´eelles. Les

r´esultats des analyses de donn´ees r´eelles donneront lieu `a des ´echanges avec les

biologistes, qui pourront amener `a modiﬁer les solutions propos´ee initialement

aﬁn de permettre la d´ecouverte de r´esultats plus pertinents.

R´ef´erences :

[1] : M. Elati, P. Neuvial, M. Bolotin, E. Barillot, F. Radvanyi, C. Rouveirol. LI-

CORN : learning co-operative regulation networks from expression data. Bioinforma-

tics, 23 :2407-2414, 2007.

[2] : A. Termier, Y. Tamada, K. Numata, S. Imoto, T. Washio and T. Higuchi. DigDag,

a ﬁrst algorithm to mine closed frequent embedded sub-DAGs. In Proceedings of Mining

and Learning with Graphs Workshop (MLG’07), pp 41-45, 2007.

1 / 2 100%

Documents connexes

Analyse des réseaux complexes pour la recommandation de

16 netzgeräte-steckverbinder_DE-EN-FR

Brevet Maths( 2 h )

Feuille d’exercices 3, techniques algorithmiques Math 312, L3 Universit´ e Paris-Sud 11

Ouvrir l`extrait du document PDF

Sommaire des brèves, p.587 - iPubli

Physique pour Geosciences (1) : THERMODYNAMIQUE CoPG1Th1

LE CASSE DE L'ANNÉE 1000 MILLIARDS DE DOLLARS DE DIVIDENDES

le chariotmini-déchets

Exercices Réseaux de Neurones - LOG770

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Fouille de données pour l`inférence grande échelle de

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Fouille de données pour l`inférence grande échelle de

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib