Visual Data Mining of Immunogenomics data

publicité
Proposition de stage de Master 2
Visual Data Mining of Immunogenomics data
Guy Melançon ([email protected]) et Oriane Matte-Tailliez ([email protected])
0. Tuteur
Lieu du stage: LIRMM, Montpellier, 161 rue Ada, 34392 Montpellier Cedex 5
Encadrement : Guy Mélançon, Equipe « Visualisation et Algorithmes des
Graphes »
Date du stage : à préciser
Gratification possible
Mots-clés
Visualisation d’information, graphes, fouille de données, bio-informatique
1. Modules du Master requis
Le projet est essentiellement lié aux compétences du parcours ACR : algorithmique,
visualisation (dessin, clustering).
Module du master fortement recommandé
 UMINR321 Visualisation d'informations
Modules se rapportant au sujet du stage
 UMINR306 Fouille de données
 UMINR315 Bioinformatique
 UMINR316 Algorithmique combinatoire
 UMINR322 Structures multi-échelles
2. Contexte et Objectif
Le stage proposé se place dans le cadre d’un projet de recherche collaboratif national.
Ce projet multi-disciplinaire a pour objet de modéliser la réponse immunitaire. Il
s’appuie sur les connaissances de la base de données internationale sur les
immunoglobulines hébergée à Montpellier, IMGT (http://www.imgt.cines.fr) [Lefranc
et al. 2005] qui regroupe les données sur les immunoglobulines des mammifères et la
superfamille des immunoglobulines ; données variées d’ordre génomique, protéique,
structural, etc. Une partie amont du projet concerne la visualisation des données sous la
forme de graphes, afin de visualiser l’ensemble des groupes d’objets présents dans la
base.
Les grandes avancées dans le domaine de l’immunologie ont permis la production
massive de données qui sont stockées dans la base IMGT. Il est maintenant important
de visualiser ces données de manière globale, et de les fouiller. La base contient des
données numériques, catégorielles, ordinales et textuelles. Elle est de plus liée
directement ou indirectement à d’autres sources d’information comme la base de
données bibliographiques Medline. En proposant des représentations et des outils de
navigation graphiques des données, nous visons à apporter à la base IMGT et sur les
données qu’elle contient de nouvelles pistes d’étude de la réponse immunitaire.
3. Travail demandé
Nous projetons d’appliquer les résultats récents en clustering de graphes. Ces
techniques calculent non seulement un clustering, mais permettent également
d’analyser visuellement le résultat du clustering. Des domaines d'application ont été
examinés avec succès récemment (réseaux sociaux [Auber et al. 2003], trafic
international de transport aérien [Amiel et al. 2005]. Les travaux récents de Auber et al.
[Auber et al. 2003] produisent un clustering multi-niveaux des réseaux complexes lié à
la connectivité des voisinages dans le graphe. Dans la première phase du projet qui
permettra d’analyser la complexité intrinsèque de la base, le travail demandé vise à
expérimenter les divers graphes qui peuvent être construits avec les données IMGT. En
effet, des liens entre les objets biologiques peuvent être définis par les connaissances
biologiques établies (par exemple, distances calculées), ou par des attributs
sémantiques qui sont associés aux données (l'information textuelle, liens aux
publications de Medline, etc.). Cette première approche pourrait exiger d’adapter les
méthodologies précédemment citées au contexte d'IMGT. La visualisation de graphes
[Herman et al. 2000] et l'exploitation de liens devraient également être utiles pour
exploiter entièrement les informations issues des textes. En outre nous projetons
d’employer la visualisation de l'information, en se basant sur les dispositifs de calcul
standard ou sur des technologies plus sophistiquées de réalité virtuelle, comme outil
primaire pour explorer les données contenues dans IMGT ou n'importe quel modèle
que nous pourrions développer.
Le travail demandé lors du stage se résume donc ainsi :
- Identification des techniques pertinentes de visualisation pour les données de
IMGT,
- Proposition d’intégration de la visualisation dans une stratégie mixte faite de
différentes approches. Cette partie se fera en collaboration étroite avec les autres
partenaires du projet.
-
4. Possibilité de poursuivre en thèse
L’ACI Immunomics sera vraisemblablement candidat à une bourse de thèse dans
l’un des établissements partenaires du projet (LIMSI Orsay, LIRMM Montpellier 2,
IGH Montpellier 2, CPBS Montpellier 1).
5. Bibliographie
• Lefranc M.-P., Giudicelli V., Kaas Q., Duprat E., Jabado-Michaloud J., Scaviner
D., Ginestoux C., Clément O., Chaume D., Lefranc G. (2005). IMGT, the
international ImMunoGeneTics information system. Nucleic Acids Res., 33,
D593-D597.
• Amiel, M., G. Melançon, et al. (2005). Multi-level networks: the case of world
air traffics. 14th European Colloquium on Theoretical and Quantitative
Geography, Tomar (Portugal).
• Auber, D., Chiricota, Y., Jourdan, F. and Melançon, G. (2003). Multiscale
navigation of Small World Networks. IEEE Symposium on Information
Visualisation, Seattle, GA, USA, IEEE Computer Science Press.
• Herman, I., M. S. Marshall, et al. (2000). "Graph Visualisation and Navigation
in Information Visualisation: A Survey." IEEE Transactions on Visualization and
Computer Graphics, 6, 24-43.
Téléchargement