Proposition de stage de Master 2 Visual Data Mining of Immunogenomics data Guy Melançon ([email protected]) et Oriane Matte-Tailliez ([email protected]) 0. Tuteur Lieu du stage: LIRMM, Montpellier, 161 rue Ada, 34392 Montpellier Cedex 5 Encadrement : Guy Mélançon, Equipe « Visualisation et Algorithmes des Graphes » Date du stage : à préciser Gratification possible Mots-clés Visualisation d’information, graphes, fouille de données, bio-informatique 1. Modules du Master requis Le projet est essentiellement lié aux compétences du parcours ACR : algorithmique, visualisation (dessin, clustering). Module du master fortement recommandé UMINR321 Visualisation d'informations Modules se rapportant au sujet du stage UMINR306 Fouille de données UMINR315 Bioinformatique UMINR316 Algorithmique combinatoire UMINR322 Structures multi-échelles 2. Contexte et Objectif Le stage proposé se place dans le cadre d’un projet de recherche collaboratif national. Ce projet multi-disciplinaire a pour objet de modéliser la réponse immunitaire. Il s’appuie sur les connaissances de la base de données internationale sur les immunoglobulines hébergée à Montpellier, IMGT (http://www.imgt.cines.fr) [Lefranc et al. 2005] qui regroupe les données sur les immunoglobulines des mammifères et la superfamille des immunoglobulines ; données variées d’ordre génomique, protéique, structural, etc. Une partie amont du projet concerne la visualisation des données sous la forme de graphes, afin de visualiser l’ensemble des groupes d’objets présents dans la base. Les grandes avancées dans le domaine de l’immunologie ont permis la production massive de données qui sont stockées dans la base IMGT. Il est maintenant important de visualiser ces données de manière globale, et de les fouiller. La base contient des données numériques, catégorielles, ordinales et textuelles. Elle est de plus liée directement ou indirectement à d’autres sources d’information comme la base de données bibliographiques Medline. En proposant des représentations et des outils de navigation graphiques des données, nous visons à apporter à la base IMGT et sur les données qu’elle contient de nouvelles pistes d’étude de la réponse immunitaire. 3. Travail demandé Nous projetons d’appliquer les résultats récents en clustering de graphes. Ces techniques calculent non seulement un clustering, mais permettent également d’analyser visuellement le résultat du clustering. Des domaines d'application ont été examinés avec succès récemment (réseaux sociaux [Auber et al. 2003], trafic international de transport aérien [Amiel et al. 2005]. Les travaux récents de Auber et al. [Auber et al. 2003] produisent un clustering multi-niveaux des réseaux complexes lié à la connectivité des voisinages dans le graphe. Dans la première phase du projet qui permettra d’analyser la complexité intrinsèque de la base, le travail demandé vise à expérimenter les divers graphes qui peuvent être construits avec les données IMGT. En effet, des liens entre les objets biologiques peuvent être définis par les connaissances biologiques établies (par exemple, distances calculées), ou par des attributs sémantiques qui sont associés aux données (l'information textuelle, liens aux publications de Medline, etc.). Cette première approche pourrait exiger d’adapter les méthodologies précédemment citées au contexte d'IMGT. La visualisation de graphes [Herman et al. 2000] et l'exploitation de liens devraient également être utiles pour exploiter entièrement les informations issues des textes. En outre nous projetons d’employer la visualisation de l'information, en se basant sur les dispositifs de calcul standard ou sur des technologies plus sophistiquées de réalité virtuelle, comme outil primaire pour explorer les données contenues dans IMGT ou n'importe quel modèle que nous pourrions développer. Le travail demandé lors du stage se résume donc ainsi : - Identification des techniques pertinentes de visualisation pour les données de IMGT, - Proposition d’intégration de la visualisation dans une stratégie mixte faite de différentes approches. Cette partie se fera en collaboration étroite avec les autres partenaires du projet. - 4. Possibilité de poursuivre en thèse L’ACI Immunomics sera vraisemblablement candidat à une bourse de thèse dans l’un des établissements partenaires du projet (LIMSI Orsay, LIRMM Montpellier 2, IGH Montpellier 2, CPBS Montpellier 1). 5. Bibliographie • Lefranc M.-P., Giudicelli V., Kaas Q., Duprat E., Jabado-Michaloud J., Scaviner D., Ginestoux C., Clément O., Chaume D., Lefranc G. (2005). IMGT, the international ImMunoGeneTics information system. Nucleic Acids Res., 33, D593-D597. • Amiel, M., G. Melançon, et al. (2005). Multi-level networks: the case of world air traffics. 14th European Colloquium on Theoretical and Quantitative Geography, Tomar (Portugal). • Auber, D., Chiricota, Y., Jourdan, F. and Melançon, G. (2003). Multiscale navigation of Small World Networks. IEEE Symposium on Information Visualisation, Seattle, GA, USA, IEEE Computer Science Press. • Herman, I., M. S. Marshall, et al. (2000). "Graph Visualisation and Navigation in Information Visualisation: A Survey." IEEE Transactions on Visualization and Computer Graphics, 6, 24-43.