Laboratoi
re IBISC
CNRS
Equipe AMIS
-
BIO
Adresse
:
Tour Evry II, 4
ième
étage,523 Place des terrasses 91 Evry
5
d autres représentations de ces gènes. En utilisant les méthodes à noyaux, les différents
critères se traduisent par la donnée de différentes matrices de similarité qui ont la propriété
d être définies positives. Le problème peut alors être posé à travers la recherche d une
combinaison locales de noyaux pour app
rocher au mieux un noyau de référence.
On souhaite donc développer une approche automatique qui cherche à optimiser le
«
matching
» entre noyaux en autorisant des «
matching
» locaux (sous-matrices). Plusieurs
approches seront considérées et s appuieront sur la programmation semi définie positive. Les
méthodes seront appliquées à des données de la levure soumise à l irradiation (Collaboration
avec Marie Dutreix, Institut Curie, Orsay) que l équipe a déjà étudiées.
Contact
: F. d Alché-
Buc, Farida Zehraoui,
(
). Le stage se déroulera à
IBISC (Evry), dans le contexte de Genopole.
Bibliographie
:
Lanckriet, G.R.G., De Bie, T., Cristianini, N. , Jordan, M.I., Noble, W.S. (2004).
A statistical framework for
genomic data fusion
.
Bioinformatics, 20, 2626
-
2635, 2004.
Vandenberghe, L., Boyd, S. Semidefinite Programming, SIAM Review, vol.38
(1), 49
-
95, 1996.
Lanckriet, G. R. G., Cristianini, N., Bartlett, P., El Ghaoui, L., Jordan
,
M., Learning the Kernel Matrix with Semidefinite Programming, J. Mach.
Learn. Res. Journal, vol.5,27 72,2004.
Stage 6
: Algorithmes de clustering spectral et biclustering spectral pour des
gros
volumes
: application à l analyse de données génomiques et transcriptomiques
Les méthodes spectrales ont été utilisées récemment avec succès dans plusieurs domaines
pour le clustering des données et ont été l'un des thèmes principaux de la conférence
internationale d'apprentissage automatique NIPS (Neural Information Processing Systems)
2005.
Le coeur du clustering spectral est le Laplacien de la matrice d'adjacence du graphe, qui
représente les données, obtenu à partir de la formulation du problème de clustering des
données sous forme d'un problème de coupe de graphe normalisée. Cet algorithme utilise les
vecteurs propres du Laplacien et donc sont peu appropriés à des gros volumes de données. En
revanche, il suffit de déterminer une matrice de noyau pour l appliquer et donc le traitement
de données hétérogènes se traduit simplement par la définition de différentes matrices de
noyau.
Les algorithmes de biclustering [MAD04] représentent une généralisation des algorithmes de
clustering basés sur des représentations vectorielles. Ils cherchent des sous-
ensembles
significatifs de données similaires suivant un sous ensemble d'attributs. Ces groupes sont
appelés biclusters. Le biclustering spectral travaille à partir de fonctions noyaux par extension
du prob
lème de coupe de graphe à un graphe biparti, généralisant ainsi le clustering spectral.
L objectif principal de ce stage est d étudier différentes solutions pour adapter les algorithmes
de clustering spectral et biclustering au traitement de gros volumes de données, avec pour
option, le cas échéant de proposer un nouvel algorithme. Le stagiaire s emploiera à traiter les
données du projet GD2GS qui vise à identifier des réseaux de régulation transcriptionnelle
impliqués dans la réponse des cellules de la peau à l irradiation en utilisant des techniques