Laboratoi
re IBISC
CNRS
Equipe AMIS
-
BIO
Adresse
:
Tour Evry II, 4
ième
étage,523 Place des terrasses 91 Evry
1
Stages Recherche de M2 (MOPS et IMBI) et troisième année d école
d ingénieurs
LABORATOIRE IBISC
Thème
: APPRENTISSAGE AUTOMATIQUE & BIOINFO
Mots
-
clefs
:
apprentissage statistique, bioinformatique, génomique
fonctionnelle, modélisation de réseaux biologiques
Tous les stages se déroulent à IBISC (EVRY) au sein de l équipe Apprentissage,
Modélisation et Intégration de données pour la biologie des systèmes.
Durée
: 5 à 6 mois (début souhaité Février ou Mars)
In
demnités
300 euros/mois.
Contact
:
avant le 12/31
/0
6
:
www.ibisc.univ
-
evry.fr/~dalche
A partir de 2007
:
http://amis
-
bio.ibisc.univ
-
evry.fr
Sta
ge 1 : Mélange de réseaux bayésiens dynamiques pour la modélisation de réseaux
d'interactions géniques
Mots
-
clefs
: modèles graphiques, réseaux bayésiens dynamiques, modèles à espace d états,
modules, réseaux génétiques de régulation
La modélisation et l'inférence de réseaux biologiques à partir de données (transcriptome/
protéome/métabolome) constituent des enjeux majeurs de la biologie des systèmes.
L apprentissage statistique offre un cadre à la fois formel et méthodologique pour la
représentation et l i
dentification de tels systèmes.
On s intéresse à l hypothèse de modularité dans les réseaux génétiques
: toute fonction
biologique est implémentée non pas par un seul gène mais par un ensemble de gènes qui
interagissent. Un réseau génétique serait décomposable en plusieurs sous-réseaux plus ou
moins connectés correspondants à des fonctions distinctes, implémentées en parallèle ou à
différents moments. L objectif de ce premier stage est d étudier et de développer un modèle
de mélange original, basé sur des
sous
-réseaux de base, qui permettent d implémenter cette
hypothèse. Contrairement aux modèles usuels de mélange, chaque modèle, composant de
base, travaille dans un sous-espace à identifier. Il s agit donc de définir le nombre de sous-
réseaux, les probabilités que les gènes étudiés aient leur activité régie par ces sous-réseaux et
la nature des régulations au sein de ces sous
-
réseaux.
On propose de lier la notion de sous-réseau à la notion d indépendance statistique et d utiliser
des décompositions de type ICA ( analyse en composantes indépendantes) pour identifier les
sous
-réseaux pertinents. On pourra choisir de travailler à partir d une initialisation des sous-
réseaux ou au contraire à l aide d un algorithme incrémental et hiérarchique. On travaillera
ess
entiellement sur des données artificielles simulées mais les résultats seront discutés avec
des biologistes du site.
Laboratoi
re IBISC
CNRS
Equipe AMIS
-
BIO
Adresse
:
Tour Evry II, 4
ième
étage,523 Place des terrasses 91 Evry
2
Le stagiaire bénéficiera du travail déjà effectué sur deux types de systèmes dynamiques
:
système dynamique linéaire sous la forme d un fil
tre de Kalman et modèle non linéaire
dynamique appris à l aide d un filtre à particules.
Contact
: Florence d Alché (email
: florence.
-
evry.fr,Tél. 01 60 87 39
08) et Nicolas Brunel (postdoc présent au laboratoire à partir de décembre 2006).
Bibliographie
:
A unifying view of linears systems, Roweis , Gharahmani, Neural Computation., vol. 11, 1999.
Inference of gene regulatory network with Dynamic Bayesian Network, B.-E. Perrin, L. Ralaivola,A. Mazurie, S.
Bottani, J. Mallet, F. d'Alché-Buc, Bioinformatics (Oxford Press), vol. 19, 2003.
Modeling highly non linear time series using kern
el dynamical models,
L. Ralaivola and F. d'Alché
-
Buc,
Advance in Neural Information Processing Systems
, MIT Press, 2004.
Janne Nikkilä, Antti Honkela, and Samuel Kaski. Exploring the independence of gene regulatory modules
In
Juho Rousu, Samuel Kaski, and Esko Ukkonen, editors,
Probabilistic Modeling and Machine Learning in
Structural and Systems Bio
logy (PMSB 2006)
, workshop proceedings, pages131
-
136, Helsinki University
Printing House, 2006.
G. Siolas et
F. d'Alche
-
Buc
, Mixture of Probabililistic PCAs and Fisher scores for word and document
modeling, in Artificial Neural networks
ICANN 2002, Lect
ure Notes in Computer Science 2415 Springer
2002,pp.769
-
776, 2002.
Stage 2
: Extraction de modules dans les réseaux d interactions géniques à partir de
données d expression statiques et cinétiques
Les données d expression (transcriptome) sont généralement étudiées sous l angle du
clustering classique : c est-à-dire qu on souhaite regrouper les gènes qui sont co-
exprimés.
Cependant, dans un réseau d interactions géniques, l important est de savoir qui interagit avec
qui. Si on admet l hypothèse d une certaine modularité dans les réseaux, l identification de
groupes de gènes interdépendants entre eux et faiblement dépendants avec les gènes des
autres groupes s avère une piste intéressante.
Dans le cadre du projet ANR Genomic Data to Graph Structure (GD2GS) coordonné par
l équipe AMIS-BIO, un stage est proposé pour travailler sur des données d abord statiques
d expression de gènes de cellules humaines de la peau.
Le stage donnera lieu à une collaboration avec le CEA d Evry. Ce stage a un lien fort avec le
stage 1.
Contact
: Florence d Alché-Buc, IBISC (
), Vincent Frouin
(
).
Bibliographie
:
F. Bach and M. Jordan, Kernel indep
endent component analysis,
The Journal of Machine Learning
Research,Volume 3 ,
(March 2003),
Pages: 1
-
48 ,2003
.
Laboratoi
re IBISC
CNRS
Equipe AMIS
-
BIO
Adresse
:
Tour Evry II, 4
ième
étage,523 Place des terrasses 91 Evry
3
Janne Nikkilä, Antti Honkela, and Samuel Kaski. Exploring the independence of gene regulatory modules
In
Juho Rousu, Samuel Kaski, and Esko Ukkonen, editors, Probabilistic Modeling and Machine Learning in
Structural and Systems Biology (PMSB 2006), workshop proceedings, pages131-136, Helsinki University
Printing House, 2006.
G. Siolas et
F. d'Alche
-
Buc
, Mixture of Probabililistic PCAs and Fis
her scores for word and document
modeling, in Artificial Neural networks
ICANN 2002, Lecture Notes in Computer Science 2415 Springer
2002,pp.769
-
776, 2002.
F. Theis. Towards a general independent subspace analysis, preprint, NIPS 2006.
Stage 3
: Combinaison de programmation logique inductive et d inférence statistique
pour l inférence supervisée de réseau biologique
On s intéresse à différents concepts d interaction biologique dans la cellule
:
-
interaction physique entre protéines
-
interaction e
ntre gènes régulateurs et gènes régulés
-
interactions métaboliques
L apprentissage relationnel réalisé en programmation logique inductive semble
particulièrement adapté à l identification des règles sous-jacentes à chacun de ces concepts.
Cependant dès que le nombre de variables et le nombre de prédicats est important, les
algorithmes de programmation logique inductive se heurtent à la NP
-
complétude du problème
d induction. Dans ce stage, on se propose de re-visiter les formalismes récents proposés pour
l apprentissage de règles probabilistes du premier ordre et d identifier parmi ceux-ci le cadre
approprié à l inférence d interactions biologiques à partir de données. Dans ce contexte, on
s intéressera en particulier aux liens entre réseaux bayésiens et programmes logiques
probabilistes.
Le stage s appuiera sur un stage déjà réalisé dans l équipe AMIS-BIO en 2004 sur
l apprentissage de concept d interactions géniques avec l ILP. Le travail s inscrira dans le
cadre d une collaboration avec l équipe de Christel Vrain au Laboratoire d Informatique
Fondamentale à Orléans et participera au projet ANR (Appel Action en Amont : masse de
données)
: Genomic Data to Graph Structure financé entre 2006 et 2008, et coordonné par
l équipe. Une thèse peut suivre.
Contact
:
Florence d Alché (
) et Christel Vrain
(
christel.vrain@univ
-
orleans.fr
)
Bibliographie
:
Travaux de Luc De Raedt, de S. Muggleton.
Rapport Eprint réseau PASCAL . Cyril Combe, Florence d Alché. Apprentissage relationnel
du concept de régulation. 2005.
Laboratoi
re IBISC
CNRS
Equipe AMIS
-
BIO
Adresse
:
Tour Evry II, 4
ième
étage,523 Place des terrasses 91 Evry
4
Stage 4
:
Apprentissage statistique pour la préd
iction de structures
Ce stage a pour objectif l étude de différentes méthodes de l apprentissage statistique pour la
prédiction dans des espaces de sorties structurés. La prédiction de structures en sortie est en
effet l un des plus grands challenges actuels en apprentissage statistique. Ce problème très
récemment introduit es
t omniprésent en bioinformatique et en fouille de textes.
Il s agit de définir des algorithmes d apprentissage superviqui puissent fournir en sortie
des objets structurés et non des vecteurs. On souhaite ici élaborer une stratégie nouvelle pour
traiter
le cas les sorties sont interdépendantes avec les entrées : par exemple, prédire à
partir d une matrice d entrée de données d expression un graphe de dépendance entre les
gènes. Différentes méthodes récentes dont une, Output Kernel Tree (OK3), introduite par
l équipe en 2006 peuvent être considérées et étendues. OK3 est une extension des méthodes
d arbres (arbres, extra-trees, boosting d arbres) qui considère un espace de sortie muni d une
fonction noyau. OK3 allie les avantages des arbres et ceux des
méthodes à noyaux.
Un ensemble de tâches de difficulté croissante sera étudié pour se familiariser avec la
méthode
: classification hiérarchique de protéines puis prédiction de réseaux biologiques.
Les données seront puisées dans les deux projets menés
par l équipe en collaboration avec des
biologistes
: GD2GS (Apprentissage semi-supervisé de graphes) , DYNAMO (Extraction de
réseaux de régulation à partir de l étude des données cinétiques). Plusieurs stages sont
possibles sur ce thème avec de préférence
une prolongation en thèse de doctorat.
Contact
:
Florence d Alché (
) et Pierre Geurts (
). Le stage se déroulera à IBISC (Evry) avec une possibilité de court
séjour à l université de Liège (Belgique).
Bibliographie
:
.
Thèse de Ben Taskar, Stanford, 2005.
. P. Geurts, L. Wehenkel, F. d Alché-
Buc, Kernelizing the outp
ut of tree
-
based methods, Proc. of ICML
2006.
. P. Geurts, N. Touleimat, M. Dutreix, F. d Alché-
Buc, Inferring biological networks with Output
Kernel Trees, BMC Bioinformatics, à paraître 2007.
Stage 5 : Combinaisons locales de noyaux pour la détection de
groupes homogènes de
gènes.
L'analyse des données d expressions de nes couplées aux autres types de données
génomiques (fonctions, réseaux biologiques, localisation, ) ouvre des voies vers la
découverte des mécanismes de régulation impliqués dans la réponse cellulaire à différents
signaux. Dans ce stage, on souhaite étudier l adéquation entre des groupes de gènes
homogènes selon un critère de référence (par exemple, les données expérimentales) et
Laboratoi
re IBISC
CNRS
Equipe AMIS
-
BIO
Adresse
:
Tour Evry II, 4
ième
étage,523 Place des terrasses 91 Evry
5
d autres représentations de ces gènes. En utilisant les méthodes à noyaux, les différents
critères se traduisent par la donnée de différentes matrices de similarité qui ont la propriété
d être définies positives. Le problème peut alors être posé à travers la recherche d une
combinaison locales de noyaux pour app
rocher au mieux un noyau de référence.
On souhaite donc développer une approche automatique qui cherche à optimiser le
«
matching
» entre noyaux en autorisant des «
matching
» locaux (sous-matrices). Plusieurs
approches seront considérées et s appuieront sur la programmation semi définie positive. Les
méthodes seront appliquées à des données de la levure soumise à l irradiation (Collaboration
avec Marie Dutreix, Institut Curie, Orsay) que l équipe a déjà étudiées.
Contact
: F. d Alché-
Buc, Farida Zehraoui,
(
). Le stage se déroulera à
IBISC (Evry), dans le contexte de Genopole.
Bibliographie
:
Lanckriet, G.R.G., De Bie, T., Cristianini, N. , Jordan, M.I., Noble, W.S. (2004).
A statistical framework for
genomic data fusion
.
Bioinformatics, 20, 2626
-
2635, 2004.
Vandenberghe, L., Boyd, S. Semidefinite Programming, SIAM Review, vol.38
(1), 49
-
95, 1996.
Lanckriet, G. R. G., Cristianini, N., Bartlett, P., El Ghaoui, L., Jordan
,
M., Learning the Kernel Matrix with Semidefinite Programming, J. Mach.
Learn. Res. Journal, vol.5,27 72,2004.
Stage 6
: Algorithmes de clustering spectral et biclustering spectral pour des
gros
volumes
: application à l analyse de données génomiques et transcriptomiques
Les méthodes spectrales ont été utilisées récemment avec succès dans plusieurs domaines
pour le clustering des données et ont été l'un des thèmes principaux de la conférence
internationale d'apprentissage automatique NIPS (Neural Information Processing Systems)
2005.
Le coeur du clustering spectral est le Laplacien de la matrice d'adjacence du graphe, qui
représente les données, obtenu à partir de la formulation du problème de clustering des
données sous forme d'un problème de coupe de graphe normalisée. Cet algorithme utilise les
vecteurs propres du Laplacien et donc sont peu appropriés à des gros volumes de données. En
revanche, il suffit de déterminer une matrice de noyau pour l appliquer et donc le traitement
de données hétérogènes se traduit simplement par la définition de différentes matrices de
noyau.
Les algorithmes de biclustering [MAD04] représentent une généralisation des algorithmes de
clustering basés sur des représentations vectorielles. Ils cherchent des sous-
ensembles
significatifs de données similaires suivant un sous ensemble d'attributs. Ces groupes sont
appelés biclusters. Le biclustering spectral travaille à partir de fonctions noyaux par extension
du prob
lème de coupe de graphe à un graphe biparti, généralisant ainsi le clustering spectral.
L objectif principal de ce stage est d étudier différentes solutions pour adapter les algorithmes
de clustering spectral et biclustering au traitement de gros volumes de données, avec pour
option, le cas échéant de proposer un nouvel algorithme. Le stagiaire s emploiera à traiter les
données du projet GD2GS qui vise à identifier des réseaux de régulation transcriptionnelle
impliqués dans la réponse des cellules de la peau à l irradiation en utilisant des techniques
1 / 8 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !