Stages Recherche de M2 (MOPS et IMBI) et

publicité
Stages Recherche de M2 (MOPS et IMBI) et troisième année d école
d ingénieurs
LABORATOIRE IBISC
Thème : APPRENTISSAGE AUTOMATIQUE & BIOINFO
Mots-clefs : apprentissage statistique, bioinformatique, génomique
fonctionnelle, modélisation de réseaux biologiques
Tous les stages se déroulent à IBISC (EVRY) au sein de l équipe Apprentissage,
Modélisation et Intégration de données pour la biologie des systèmes.
Durée : 5 à 6 mois (début souhaité Février ou Mars)
Indemnités 300 euros/mois.
Contact : [email protected] avant le 12/31/06 : www.ibisc.univ-evry.fr/~dalche
A partir de 2007 : http://amis-bio.ibisc.univ-evry.fr
Stage 1 : Mélange de réseaux bayésiens dynamiques pour la modélisation de réseaux
d'interactions géniques
Mots-clefs : modèles graphiques, réseaux bayésiens dynamiques, modèles à espace d états,
modules, réseaux génétiques de régulation
La modélisation et l'inférence de réseaux biologiques à partir de données (transcriptome/
protéome/métabolome) constituent des enjeux majeurs de la biologie des systèmes.
L apprentissage statistique offre un cadre à la fois formel et méthodologique pour la
représentation et l identification de tels systèmes.
On s intéresse à l hypothèse de modularité dans les réseaux génétiques : toute fonction
biologique est implémentée non pas par un seul gène mais par un ensemble de gènes qui
interagissent. Un réseau génétique serait décomposable en plusieurs sous-réseaux plus ou
moins connectés correspondants à des fonctions distinctes, implémentées en parallèle ou à
différents moments. L objectif de ce premier stage est d étudier et de développer un modèle
de mélange original, basé sur des sous-réseaux de base, qui permettent d implémenter cette
hypothèse. Contrairement aux modèles usuels de mélange, chaque modèle, composant de
base, travaille dans un sous-espace à identifier. Il s agit donc de définir le nombre de sousréseaux, les probabilités que les gènes étudiés aient leur activité régie par ces sous-réseaux et
la nature des régulations au sein de ces sous-réseaux.
On propose de lier la notion de sous-réseau à la notion d indépendance statistique et d utiliser
des décompositions de type ICA ( analyse en composantes indépendantes) pour identifier les
sous-réseaux pertinents. On pourra choisir de travailler à partir d une initialisation des sousréseaux ou au contraire à l aide d un algorithme incrémental et hiérarchique. On travaillera
essentiellement sur des données artificielles simulées mais les résultats seront discutés avec
des biologistes du site.
1Laboratoire IBISC CNRS Equipe AMIS-BIO
Adresse : Tour Evry II, 4ième étage,523 Place des terrasses 91 Evry
Le stagiaire bénéficiera du travail déjà effectué sur deux types de systèmes dynamiques :
système dynamique linéaire sous la forme d un filtre de Kalman et modèle non linéaire
dynamique appris à l aide d un filtre à particules.
Contact : Florence d Alché (email : [email protected],Tél. 01 60 87 39
08) et Nicolas Brunel (postdoc présent au laboratoire à partir de décembre 2006).
Bibliographie :
A unifying view of linears systems, Roweis , Gharahmani, Neural Computation., vol. 11, 1999.
Inference of gene regulatory network with Dynamic Bayesian Network, B.-E. Perrin, L. Ralaivola,A. Mazurie, S.
Bottani, J. Mallet, F. d'Alché-Buc, Bioinformatics (Oxford Press), vol. 19, 2003.
Modeling highly non linear time series using kernel dynamical models, L. Ralaivola and F. d'Alché-Buc,
Advance in Neural Information Processing Systems, MIT Press, 2004.
Janne Nikkilä, Antti Honkela, and Samuel Kaski. Exploring the independence of gene regulatory modules In
Juho Rousu, Samuel Kaski, and Esko Ukkonen, editors, Probabilistic Modeling and Machine Learning in
Structural and Systems Biology (PMSB 2006), workshop proceedings, pages131-136, Helsinki University
Printing House, 2006.
G. Siolas et F. d'Alche-Buc, Mixture of Probabililistic PCAs and Fisher scores for word and document
modeling, in Artificial Neural networks ICANN 2002, Lecture Notes in Computer Science 2415 Springer
2002,pp.769-776, 2002.
Stage 2 : Extraction de modules dans les réseaux d interactions géniques à partir de
données d expression statiques et cinétiques
Les données d expression (transcriptome) sont généralement étudiées sous l angle du
clustering classique : c est-à-dire qu on souhaite regrouper les gènes qui sont co-exprimés.
Cependant, dans un réseau d interactions géniques, l important est de savoir qui interagit avec
qui. Si on admet l hypothèse d une certaine modularité dans les réseaux, l identification de
groupes de gènes interdépendants entre eux et faiblement dépendants avec les gènes des
autres groupes s avère une piste intéressante.
Dans le cadre du projet ANR Genomic Data to Graph Structure (GD2GS) coordonné par
l équipe AMIS-BIO, un stage est proposé pour travailler sur des données d abord statiques
d expression de gènes de cellules humaines de la peau.
Le stage donnera lieu à une collaboration avec le CEA d Evry. Ce stage a un lien fort avec le
stage 1.
Contact : Florence d Alché-Buc, IBISC ([email protected]), Vincent Frouin
([email protected]).
Bibliographie :
F. Bach and M. Jordan, Kernel independent component analysis,The Journal of Machine Learning
Research,Volume 3 , (March 2003), Pages: 1 - 48 ,2003.
2Laboratoire IBISC CNRS Equipe AMIS-BIO
Adresse : Tour Evry II, 4ième étage,523 Place des terrasses 91 Evry
Janne Nikkilä, Antti Honkela, and Samuel Kaski. Exploring the independence of gene regulatory modules In
Juho Rousu, Samuel Kaski, and Esko Ukkonen, editors, Probabilistic Modeling and Machine Learning in
Structural and Systems Biology (PMSB 2006), workshop proceedings, pages131-136, Helsinki University
Printing House, 2006.
G. Siolas et F. d'Alche-Buc, Mixture of Probabililistic PCAs and Fisher scores for word and document
modeling, in Artificial Neural networks ICANN 2002, Lecture Notes in Computer Science 2415 Springer
2002,pp.769-776, 2002.
F. Theis. Towards a general independent subspace analysis, preprint, NIPS 2006.
Stage 3 : Combinaison de programmation logique inductive et d inférence statistique
pour l inférence supervisée de réseau biologique
On s intéresse à différents concepts d interaction biologique dans la cellule :
-
interaction physique entre protéines
interaction entre gènes régulateurs et gènes régulés
interactions métaboliques
L apprentissage relationnel réalisé en programmation logique inductive semble
particulièrement adapté à l identification des règles sous-jacentes à chacun de ces concepts.
Cependant dès que le nombre de variables et le nombre de prédicats est important, les
algorithmes de programmation logique inductive se heurtent à la NP-complétude du problème
d induction. Dans ce stage, on se propose de re-visiter les formalismes récents proposés pour
l apprentissage de règles probabilistes du premier ordre et d identifier parmi ceux-ci le cadre
approprié à l inférence d interactions biologiques à partir de données. Dans ce contexte, on
s intéressera en particulier aux liens entre réseaux bayésiens et programmes logiques
probabilistes.
Le stage s appuiera sur un stage déjà réalisé dans l équipe AMIS-BIO en 2004 sur
l apprentissage de concept d interactions géniques avec l ILP. Le travail s inscrira dans le
cadre d une collaboration avec l équipe de Christel Vrain au Laboratoire d Informatique
Fondamentale à Orléans et participera au projet ANR (Appel Action en Amont : masse de
données) : Genomic Data to Graph Structure financé entre 2006 et 2008, et coordonné par
l équipe. Une thèse peut suivre.
Contact :
Florence
d Alché
([email protected])
et
Christel
Vrain
([email protected])
Bibliographie :
Travaux de Luc De Raedt, de S. Muggleton.
Rapport Eprint réseau PASCAL . Cyril Combe, Florence d Alché. Apprentissage relationnel
du concept de régulation. 2005.
3Laboratoire IBISC CNRS Equipe AMIS-BIO
Adresse : Tour Evry II, 4ième étage,523 Place des terrasses 91 Evry
Stage 4 : Apprentissage statistique pour la prédiction de structures
Ce stage a pour objectif l étude de différentes méthodes de l apprentissage statistique pour la
prédiction dans des espaces de sorties structurés. La prédiction de structures en sortie est en
effet l un des plus grands challenges actuels en apprentissage statistique. Ce problème très
récemment introduit est omniprésent en bioinformatique et en fouille de textes.
Il s agit de définir des algorithmes d apprentissage supervisé qui puissent fournir en sortie
des objets structurés et non des vecteurs. On souhaite ici élaborer une stratégie nouvelle pour
traiter le cas où les sorties sont interdépendantes avec les entrées : par exemple, prédire à
partir d une matrice d entrée de données d expression un graphe de dépendance entre les
gènes. Différentes méthodes récentes dont une, Output Kernel Tree (OK3), introduite par
l équipe en 2006 peuvent être considérées et étendues. OK3 est une extension des méthodes
d arbres (arbres, extra-trees, boosting d arbres) qui considère un espace de sortie muni d une
fonction noyau. OK3 allie les avantages des arbres et ceux des méthodes à noyaux.
Un ensemble de tâches de difficulté croissante sera étudié pour se familiariser avec la
méthode : classification hiérarchique de protéines puis prédiction de réseaux biologiques.
Les données seront puisées dans les deux projets menés par l équipe en collaboration avec des
biologistes : GD2GS (Apprentissage semi-supervisé de graphes) , DYNAMO (Extraction de
réseaux de régulation à partir de l étude des données cinétiques). Plusieurs stages sont
possibles sur ce thème avec de préférence une prolongation en thèse de doctorat.
Contact : Florence d Alché ([email protected]) et Pierre Geurts ([email protected],
[email protected]). Le stage se déroulera à IBISC (Evry) avec une possibilité de court
séjour à l université de Liège (Belgique).
Bibliographie :
. Thèse de Ben Taskar, Stanford, 2005.
. P. Geurts, L. Wehenkel, F. d Alché-Buc, Kernelizing the output of tree-based methods, Proc. of ICML
2006.
. P. Geurts, N. Touleimat, M. Dutreix, F. d Alché-Buc, Inferring biological networks with Output
Kernel Trees, BMC Bioinformatics, à paraître 2007.
Stage 5 : Combinaisons locales de noyaux pour la détection de groupes homogènes de
gènes.
L'analyse des données d expressions de gènes couplées aux autres types de données
génomiques (fonctions, réseaux biologiques, localisation,
) ouvre des voies vers la
découverte des mécanismes de régulation impliqués dans la réponse cellulaire à différents
signaux. Dans ce stage, on souhaite étudier l adéquation entre des groupes de gènes
homogènes selon un critère de référence (par exemple, les données expérimentales) et
4Laboratoire IBISC CNRS Equipe AMIS-BIO
Adresse : Tour Evry II, 4ième étage,523 Place des terrasses 91 Evry
d autres représentations de ces gènes. En utilisant les méthodes à noyaux, les différents
critères se traduisent par la donnée de différentes matrices de similarité qui ont la propriété
d être définies positives. Le problème peut alors être posé à travers la recherche d une
combinaison locales de noyaux pour approcher au mieux un noyau de référence.
On souhaite donc développer une approche automatique qui cherche à optimiser le
« matching » entre noyaux en autorisant des « matching » locaux (sous-matrices). Plusieurs
approches seront considérées et s appuieront sur la programmation semi définie positive. Les
méthodes seront appliquées à des données de la levure soumise à l irradiation (Collaboration
avec Marie Dutreix, Institut Curie, Orsay) que l équipe a déjà étudiées.
Contact : F. d Alché-Buc, Farida Zehraoui, ([email protected]). Le stage se déroulera à
IBISC (Evry), dans le contexte de Genopole.
Bibliographie :
Lanckriet, G.R.G., De Bie, T., Cristianini, N. , Jordan, M.I., Noble, W.S. (2004). A statistical framework for
genomic data fusion . Bioinformatics, 20, 2626-2635, 2004.
Vandenberghe, L., Boyd, S. Semidefinite Programming, SIAM Review, vol.38
(1), 49-95, 1996.
Lanckriet, G. R. G., Cristianini, N., Bartlett, P., El Ghaoui, L., Jordan ,
M., Learning the Kernel Matrix with Semidefinite Programming, J. Mach.
Learn. Res. Journal, vol.5,27 72,2004.
Stage 6 : Algorithmes de clustering spectral et biclustering spectral pour des gros
volumes : application à l analyse de données génomiques et transcriptomiques
Les méthodes spectrales ont été utilisées récemment avec succès dans plusieurs domaines
pour le clustering des données et ont été l'un des thèmes principaux de la conférence
internationale d'apprentissage automatique NIPS (Neural Information Processing Systems)
2005.
Le coeur du clustering spectral est le Laplacien de la matrice d'adjacence du graphe, qui
représente les données, obtenu à partir de la formulation du problème de clustering des
données sous forme d'un problème de coupe de graphe normalisée. Cet algorithme utilise les
vecteurs propres du Laplacien et donc sont peu appropriés à des gros volumes de données. En
revanche, il suffit de déterminer une matrice de noyau pour l appliquer et donc le traitement
de données hétérogènes se traduit simplement par la définition de différentes matrices de
noyau.
Les algorithmes de biclustering [MAD04] représentent une généralisation des algorithmes de
clustering basés sur des représentations vectorielles. Ils cherchent des sous-ensembles
significatifs de données similaires suivant un sous ensemble d'attributs. Ces groupes sont
appelés biclusters. Le biclustering spectral travaille à partir de fonctions noyaux par extension
du problème de coupe de graphe à un graphe biparti, généralisant ainsi le clustering spectral.
L objectif principal de ce stage est d étudier différentes solutions pour adapter les algorithmes
de clustering spectral et biclustering au traitement de gros volumes de données, avec pour
option, le cas échéant de proposer un nouvel algorithme. Le stagiaire s emploiera à traiter les
données du projet GD2GS qui vise à identifier des réseaux de régulation transcriptionnelle
impliqués dans la réponse des cellules de la peau à l irradiation en utilisant des techniques
5Laboratoire IBISC CNRS Equipe AMIS-BIO
Adresse : Tour Evry II, 4ième étage,523 Place des terrasses 91 Evry
d'apprentissage automatique [ GD2GS : Genomic Data to Graph Structure est un projet ANR
coordonnée par l équipe AMIS-BIO].
Bibliographie :
[Madeira & Oliveira, 2004] Sara C. Madeira, Arlindo L. Oliveira, "Biclustering Algorithms
for Biological Data Analysis: A Survey," IEEE/ACM Transactions on Computational Biology
and Bioinformatics, vol. 01, no. 1, pp. 24-45, Jan-Mar, 2004.
[Zha & al., 2001b] H. Zha, X. He, C. Ding, M. Gu & H. Simon. Bipartite Graph Partitioning
and Data Clustering, Proc. of ACM 10th Int'l Conf. Information and Knowledge Management
(CIKM 2001), pp.25-31, 2001, Atlanta.
I. S. Dhillon . Co-Clustering Documents and Words Using Bipartite Spectral Graph
Partitioning. Proc. of the Seventh ACM SIGKDD International Conference on Knowledge
Discovery and Data Mining(KDD), August 26-29, 2001, San Francisco, California, USA
Contact : Farida Zehraoui MC et Florence d Alché, PR, IBISC,
mailto:{prenom.nom}@ibisc.fr. Le stage se déroulera à IBISC (Evry) en collaboration avec
Vincent Frouin du SGF-CEA (Evry).
Stage 7 : Algorithmes de biclustering pour traiter des données structurées
NB : ce stage concerne la même problématique que le stage 5 avec une approche différente.
L'analyse des données d expressions de gènes couplées aux autres types de données
génomiques (fonctions, réseaux biologiques, localisation,
) ouvre des voies vers la
découverte des mécanismes de régulation impliqués dans la réponse cellulaire à différents
signaux. Une étape clé dans cette analyse consiste à détecter des groupes de gènes ayant des
expressions similaires. Ceci revient à utiliser des algorithmes de clustering ou de biclustering.
Dans ce stage, on s intéressera au traitement de données hétérogènes (cinétiques d expression,
fonctions GO, ) par le biais du biclustering. Un travail déjà réalisé dans l équipe [Touleimat
et al. 2005, Touleimat et al. 2006] a permis d étudier des données concernant la réponse de la
levure à l irradiation et d extraire des bribes de réseaux de régulation. Un algorithme appelé
multiclustering (clustering spectral appliqué à une combinaison de noyaux) ainsi que du
biclustering ont été utilisés successivement sur deux types de données : des données
expérimentales (cinétiques d expression) puis des données provenant de différentes bases de
données.. Dans ce stage, nous souhaitons reprendre l étude et appliquer une seule fois un
algorithme de biclustering à l ensemble des données qui sont donc particulièrement
hétérogènes. Le stagiaire privilégiera l études des méthodes à noyaux (biclustering spectral) et
leur extension à ces cas difficile.
Bibliographie
[Madeira & Oliveira, 2004] Sara C. Madeira, Arlindo L. Oliveira, "Biclustering
Algorithms for Biological Data Analysis: A Survey," IEEE/ACM Transactions on
Computational Biology and Bioinformatics, vol. 01, no. 1, pp. 24-45, Jan-Mar,
2004.
6Laboratoire IBISC CNRS Equipe AMIS-BIO
Adresse : Tour Evry II, 4ième étage,523 Place des terrasses 91 Evry
I. S. Dhillon . Co-Clustering Documents and Words Using Bipartite Spectral Graph
Partitioning. Proc. of the Seventh ACM SIGKDD International Conference on
Knowledge Discovery and Data Mining(KDD), August 26-29, 2001, San Francisco,
California, USA
Y. Cheng and G. M. Church. Biclustering of expression data. In 8th Int'l Conference
on Intelligent Systems for Molecular Biology, pages 93--103, 2000.
Contact : Farida Zehraoui MC et Florence d Alché, PR, IBISC,
mailto:{prenom.nom}@ibisc.fr. Le stage se déroulera à IBISC (Evry).
7Laboratoire IBISC CNRS Equipe AMIS-BIO
Adresse : Tour Evry II, 4ième étage,523 Place des terrasses 91 Evry
This document was created with Win2PDF available at http://www.daneprairie.com.
The unregistered version of Win2PDF is for evaluation or non-commercial use only.
Téléchargement