Stages Recherche de M2 (MOPS et IMBI) et

Téléchargement

Laboratoi

re IBISC

CNRS

Equipe AMIS

BIO

Adresse

Tour Evry II, 4

ième

étage,523 Place des terrasses 91 Evry

Stages Recherche de M2 (MOPS et IMBI) et troisième année d école

d ingénieurs

LABORATOIRE IBISC

Thème

: APPRENTISSAGE AUTOMATIQUE & BIOINFO

Mots

clefs

apprentissage statistique, bioinformatique, génomique

fonctionnelle, modélisation de réseaux biologiques

Tous les stages se déroulent à IBISC (EVRY) au sein de l équipe Apprentissage,

Modélisation et Intégration de données pour la biologie des systèmes.

Durée

: 5 à 6 mois (début souhaité Février ou Mars)

demnités

300 euros/mois.

Contact

[email protected]

avant le 12/31

www.ibisc.univ

evry.fr/~dalche

A partir de 2007

http://amis

bio.ibisc.univ

evry.fr

Sta

ge 1 : Mélange de réseaux bayésiens dynamiques pour la modélisation de réseaux

d'interactions géniques

Mots

clefs

: modèles graphiques, réseaux bayésiens dynamiques, modèles à espace d états,

modules, réseaux génétiques de régulation

La modélisation et l'inférence de réseaux biologiques à partir de données (transcriptome/

protéome/métabolome) constituent des enjeux majeurs de la biologie des systèmes.

L apprentissage statistique offre un cadre à la fois formel et méthodologique pour la

représentation et l i

dentification de tels systèmes.

On s intéresse à l hypothèse de modularité dans les réseaux génétiques

: toute fonction

biologique est implémentée non pas par un seul gène mais par un ensemble de gènes qui

interagissent. Un réseau génétique serait décomposable en plusieurs sous-réseaux plus ou

moins connectés correspondants à des fonctions distinctes, implémentées en parallèle ou à

différents moments. L objectif de ce premier stage est d étudier et de développer un modèle

de mélange original, basé sur des

sous

-réseaux de base, qui permettent d implémenter cette

hypothèse. Contrairement aux modèles usuels de mélange, chaque modèle, composant de

base, travaille dans un sous-espace à identifier. Il s agit donc de définir le nombre de sous-

réseaux, les probabilités que les gènes étudiés aient leur activité régie par ces sous-réseaux et

la nature des régulations au sein de ces sous

réseaux.

On propose de lier la notion de sous-réseau à la notion d indépendance statistique et d utiliser

des décompositions de type ICA ( analyse en composantes indépendantes) pour identifier les

sous

-réseaux pertinents. On pourra choisir de travailler à partir d une initialisation des sous-

réseaux ou au contraire à l aide d un algorithme incrémental et hiérarchique. On travaillera

ess

entiellement sur des données artificielles simulées mais les résultats seront discutés avec

des biologistes du site.

Laboratoi

re IBISC

CNRS

Equipe AMIS

BIO

Adresse

Tour Evry II, 4

ième

étage,523 Place des terrasses 91 Evry

Le stagiaire bénéficiera du travail déjà effectué sur deux types de systèmes dynamiques

système dynamique linéaire sous la forme d un fil

tre de Kalman et modèle non linéaire

dynamique appris à l aide d un filtre à particules.

Contact

: Florence d Alché (email

: florence.

[email protected]

evry.fr,Tél. 01 60 87 39

08) et Nicolas Brunel (postdoc présent au laboratoire à partir de décembre 2006).

Bibliographie

A unifying view of linears systems, Roweis , Gharahmani, Neural Computation., vol. 11, 1999.

Inference of gene regulatory network with Dynamic Bayesian Network, B.-E. Perrin, L. Ralaivola,A. Mazurie, S.

Bottani, J. Mallet, F. d'Alché-Buc, Bioinformatics (Oxford Press), vol. 19, 2003.

Modeling highly non linear time series using kern

el dynamical models,

L. Ralaivola and F. d'Alché

Buc,

Advance in Neural Information Processing Systems

, MIT Press, 2004.

Janne Nikkilä, Antti Honkela, and Samuel Kaski. Exploring the independence of gene regulatory modules

Juho Rousu, Samuel Kaski, and Esko Ukkonen, editors,

Probabilistic Modeling and Machine Learning in

Structural and Systems Bio

logy (PMSB 2006)

, workshop proceedings, pages131

136, Helsinki University

Printing House, 2006.

G. Siolas et

F. d'Alche

Buc

, Mixture of Probabililistic PCAs and Fisher scores for word and document

modeling, in Artificial Neural networks

ICANN 2002, Lect

ure Notes in Computer Science 2415 Springer

2002,pp.769

776, 2002.

Stage 2

: Extraction de modules dans les réseaux d interactions géniques à partir de

données d expression statiques et cinétiques

Les données d expression (transcriptome) sont généralement étudiées sous l angle du

clustering classique : c est-à-dire qu on souhaite regrouper les gènes qui sont co-

exprimés.

Cependant, dans un réseau d interactions géniques, l important est de savoir qui interagit avec

qui. Si on admet l hypothèse d une certaine modularité dans les réseaux, l identification de

groupes de gènes interdépendants entre eux et faiblement dépendants avec les gènes des

autres groupes s avère une piste intéressante.

Dans le cadre du projet ANR Genomic Data to Graph Structure (GD2GS) coordonné par

l équipe AMIS-BIO, un stage est proposé pour travailler sur des données d abord statiques

d expression de gènes de cellules humaines de la peau.

Le stage donnera lieu à une collaboration avec le CEA d Evry. Ce stage a un lien fort avec le

stage 1.

Contact

: Florence d Alché-Buc, IBISC (

[email protected]

), Vincent Frouin

(

[email protected]

Bibliographie

F. Bach and M. Jordan, Kernel indep

endent component analysis,

The Journal of Machine Learning

Research,Volume 3 ,

(March 2003),

Pages: 1

48 ,2003

Laboratoi

re IBISC

CNRS

Equipe AMIS

BIO

Adresse

Tour Evry II, 4

ième

étage,523 Place des terrasses 91 Evry

Janne Nikkilä, Antti Honkela, and Samuel Kaski. Exploring the independence of gene regulatory modules

Juho Rousu, Samuel Kaski, and Esko Ukkonen, editors, Probabilistic Modeling and Machine Learning in

Structural and Systems Biology (PMSB 2006), workshop proceedings, pages131-136, Helsinki University

Printing House, 2006.

G. Siolas et

F. d'Alche

Buc

, Mixture of Probabililistic PCAs and Fis

her scores for word and document

modeling, in Artificial Neural networks

ICANN 2002, Lecture Notes in Computer Science 2415 Springer

2002,pp.769

776, 2002.

F. Theis. Towards a general independent subspace analysis, preprint, NIPS 2006.

Stage 3

: Combinaison de programmation logique inductive et d inférence statistique

pour l inférence supervisée de réseau biologique

On s intéresse à différents concepts d interaction biologique dans la cellule

interaction physique entre protéines

interaction e

ntre gènes régulateurs et gènes régulés

interactions métaboliques

L apprentissage relationnel réalisé en programmation logique inductive semble

particulièrement adapté à l identification des règles sous-jacentes à chacun de ces concepts.

Cependant dès que le nombre de variables et le nombre de prédicats est important, les

algorithmes de programmation logique inductive se heurtent à la NP

complétude du problème

d induction. Dans ce stage, on se propose de re-visiter les formalismes récents proposés pour

l apprentissage de règles probabilistes du premier ordre et d identifier parmi ceux-ci le cadre

approprié à l inférence d interactions biologiques à partir de données. Dans ce contexte, on

s intéressera en particulier aux liens entre réseaux bayésiens et programmes logiques

probabilistes.

Le stage s appuiera sur un stage déjà réalisé dans l équipe AMIS-BIO en 2004 sur

l apprentissage de concept d interactions géniques avec l ILP. Le travail s inscrira dans le

cadre d une collaboration avec l équipe de Christel Vrain au Laboratoire d Informatique

Fondamentale à Orléans et participera au projet ANR (Appel Action en Amont : masse de

données)

: Genomic Data to Graph Structure financé entre 2006 et 2008, et coordonné par

l équipe. Une thèse peut suivre.

Contact

Florence d Alché (

[email protected]

) et Christel Vrain

(

christel.vrain@univ

orleans.fr

)

Bibliographie

Travaux de Luc De Raedt, de S. Muggleton.

Rapport Eprint réseau PASCAL . Cyril Combe, Florence d Alché. Apprentissage relationnel

du concept de régulation. 2005.

Laboratoi

re IBISC

CNRS

Equipe AMIS

BIO

Adresse

Tour Evry II, 4

ième

étage,523 Place des terrasses 91 Evry

Stage 4

Apprentissage statistique pour la préd

iction de structures

Ce stage a pour objectif l étude de différentes méthodes de l apprentissage statistique pour la

prédiction dans des espaces de sorties structurés. La prédiction de structures en sortie est en

effet l un des plus grands challenges actuels en apprentissage statistique. Ce problème très

récemment introduit es

t omniprésent en bioinformatique et en fouille de textes.

Il s agit de définir des algorithmes d apprentissage supervisé qui puissent fournir en sortie

des objets structurés et non des vecteurs. On souhaite ici élaborer une stratégie nouvelle pour

traiter

le cas où les sorties sont interdépendantes avec les entrées : par exemple, prédire à

partir d une matrice d entrée de données d expression un graphe de dépendance entre les

gènes. Différentes méthodes récentes dont une, Output Kernel Tree (OK3), introduite par

l équipe en 2006 peuvent être considérées et étendues. OK3 est une extension des méthodes

d arbres (arbres, extra-trees, boosting d arbres) qui considère un espace de sortie muni d une

fonction noyau. OK3 allie les avantages des arbres et ceux des

méthodes à noyaux.

Un ensemble de tâches de difficulté croissante sera étudié pour se familiariser avec la

méthode

: classification hiérarchique de protéines puis prédiction de réseaux biologiques.

Les données seront puisées dans les deux projets menés

par l équipe en collaboration avec des

biologistes

: GD2GS (Apprentissage semi-supervisé de graphes) , DYNAMO (Extraction de

réseaux de régulation à partir de l étude des données cinétiques). Plusieurs stages sont

possibles sur ce thème avec de préférence

une prolongation en thèse de doctorat.

Contact

Florence d Alché (

[email protected]

) et Pierre Geurts (

[email protected],

[email protected]

). Le stage se déroulera à IBISC (Evry) avec une possibilité de court

séjour à l université de Liège (Belgique).

Bibliographie

Thèse de Ben Taskar, Stanford, 2005.

. P. Geurts, L. Wehenkel, F. d Alché-

Buc, Kernelizing the outp

ut of tree

based methods, Proc. of ICML

2006.

. P. Geurts, N. Touleimat, M. Dutreix, F. d Alché-

Buc, Inferring biological networks with Output

Kernel Trees, BMC Bioinformatics, à paraître 2007.

Stage 5 : Combinaisons locales de noyaux pour la détection de

groupes homogènes de

gènes.

L'analyse des données d expressions de gènes couplées aux autres types de données

génomiques (fonctions, réseaux biologiques, localisation, ) ouvre des voies vers la

découverte des mécanismes de régulation impliqués dans la réponse cellulaire à différents

signaux. Dans ce stage, on souhaite étudier l adéquation entre des groupes de gènes

homogènes selon un critère de référence (par exemple, les données expérimentales) et

Laboratoi

re IBISC

CNRS

Equipe AMIS

BIO

Adresse

Tour Evry II, 4

ième

étage,523 Place des terrasses 91 Evry

d autres représentations de ces gènes. En utilisant les méthodes à noyaux, les différents

critères se traduisent par la donnée de différentes matrices de similarité qui ont la propriété

d être définies positives. Le problème peut alors être posé à travers la recherche d une

combinaison locales de noyaux pour app

rocher au mieux un noyau de référence.

On souhaite donc développer une approche automatique qui cherche à optimiser le

matching

» entre noyaux en autorisant des «

matching

» locaux (sous-matrices). Plusieurs

approches seront considérées et s appuieront sur la programmation semi définie positive. Les

méthodes seront appliquées à des données de la levure soumise à l irradiation (Collaboration

avec Marie Dutreix, Institut Curie, Orsay) que l équipe a déjà étudiées.

Contact

: F. d Alché-

Buc, Farida Zehraoui,

(

[email protected]

). Le stage se déroulera à

IBISC (Evry), dans le contexte de Genopole.

Bibliographie

Lanckriet, G.R.G., De Bie, T., Cristianini, N. , Jordan, M.I., Noble, W.S. (2004).

A statistical framework for

genomic data fusion

Bioinformatics, 20, 2626

2635, 2004.

Vandenberghe, L., Boyd, S. Semidefinite Programming, SIAM Review, vol.38

(1), 49

95, 1996.

Lanckriet, G. R. G., Cristianini, N., Bartlett, P., El Ghaoui, L., Jordan

M., Learning the Kernel Matrix with Semidefinite Programming, J. Mach.

Learn. Res. Journal, vol.5,27 72,2004.

Stage 6

: Algorithmes de clustering spectral et biclustering spectral pour des

gros

volumes

: application à l analyse de données génomiques et transcriptomiques

Les méthodes spectrales ont été utilisées récemment avec succès dans plusieurs domaines

pour le clustering des données et ont été l'un des thèmes principaux de la conférence

internationale d'apprentissage automatique NIPS (Neural Information Processing Systems)

2005.

Le coeur du clustering spectral est le Laplacien de la matrice d'adjacence du graphe, qui

représente les données, obtenu à partir de la formulation du problème de clustering des

données sous forme d'un problème de coupe de graphe normalisée. Cet algorithme utilise les

vecteurs propres du Laplacien et donc sont peu appropriés à des gros volumes de données. En

revanche, il suffit de déterminer une matrice de noyau pour l appliquer et donc le traitement

de données hétérogènes se traduit simplement par la définition de différentes matrices de

noyau.

Les algorithmes de biclustering [MAD04] représentent une généralisation des algorithmes de

clustering basés sur des représentations vectorielles. Ils cherchent des sous-

ensembles

significatifs de données similaires suivant un sous ensemble d'attributs. Ces groupes sont

appelés biclusters. Le biclustering spectral travaille à partir de fonctions noyaux par extension

du prob

lème de coupe de graphe à un graphe biparti, généralisant ainsi le clustering spectral.

L objectif principal de ce stage est d étudier différentes solutions pour adapter les algorithmes

de clustering spectral et biclustering au traitement de gros volumes de données, avec pour

option, le cas échéant de proposer un nouvel algorithme. Le stagiaire s emploiera à traiter les

données du projet GD2GS qui vise à identifier des réseaux de régulation transcriptionnelle

impliqués dans la réponse des cellules de la peau à l irradiation en utilisant des techniques

1 / 8 100%

Documents connexes

STAGE INTERENTREPRISES Initiation à l`électricité bâtiment

DIOP ANTCHANDIET Mariam

310 allée du dragon, 91000 Evry

dossier de candidature en master 1 2011-2012

Développeur - Developpez.com

Présentation v8 à jour - MAXSODEL Informatique

Voir ici - Rotary club Evry Val de Seine

Résumé

Le Téléthon est national. Ce mot est composé de deux autres mots

Evaluation de la licence professionnelle Marketing et

CP Fermeture Association TOUS ENSEMBLE

L`eugénisme est une théorie, et une pratique, qui consiste en l

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Stages Recherche de M2 (MOPS et IMBI) et

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Stages Recherche de M2 (MOPS et IMBI) et

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib