GEDAW : un environnement intégré pour l’analyse du transcriptome Emilie Guérin1, Gwenaëlle Marquet2, Anita Burgun2, Olivier Loréal1 et Fouzia Moussouni1 1 2 INSERM U522, CHU pontchaillou, 35033 RENNES Cedex, France [email protected] EA3888, Laboratoire d’Informatique médicale, faculté de médecine, 35043 RENNES Cedex, France [email protected] 1 Introduction De nos jours, de larges volumes de données sont disponibles publiquement, les types de données sont divers, et les ressources très nombreuses. Souvent les données provenant de différentes ressources se complètent mais se recoupent également, aussi il a été largement démontré qu’une approche intégrative est performante pour découvrir des relations entre ces données. Dans cette optique, de nombreux efforts ont été menés pour la mise à disposition et le partage de données génomiques, biologiques et médicales pour leur utilisation dans des projets d’intégration [6]. D’autre part les nouvelles technologies d’étude du transcriptome génèrent de grandes quantités de données qui nécessitent la prise en compte de données génomiques, biologiques et médicales pour leur interprétation. Nous avons donc développé notre propre approche intégrative appliquée à l’analyse de données issues d’expérience de microarrays, qui prend en compte l’information disponible sur les gènes étudiés : 1) leurs annotations génomiques (localisation chromosomique et séquences) 2) leurs annotations biologiques, par exemple le processus biologique dans lequel ils sont impliqués 3) leurs annotations médicales c'est-à-dire les maladies et syndromes auxquels ils sont associés dans la littérature. GEDAW (Gene Expression Data Warehouse) [3,4] est un entrepôt de données orienté objet qui permet l’intégration de ces données et d’autre part fournit des outils pour leur analyse, afin de mettre en évidence des corrélations entre gènes étudiés. L’environnement regroupe au sein d’un seul et même modèle de données les instances provenant de ressources expérimentales, génomiques, biologiques et médicales. Les instances du modèle sont ensuite interrogées par différentes APIs développées. Nous présentons dans cet article les ressources utilisées pour l’instanciation du modèle objet, l’architecture de l’environnement ainsi que les applications de récupération de données. 2 Sources et architecture Quatre types de données sont intégrés dans GEDAW, on distingue les données expérimentales, les données génomiques, les données biologiques et les données médicales. Un modèle de données objet permet de réunir tous ces concepts, l’élément central de ce modèle est l’ARNm puisque l’environnement est dédié à l’analyse du transcriptome. Trois ressources ont été utilisées pour l’instanciation du modèle de données déployé. Une base de données relationnelle développée localement sert de source pour le chargement dans GEDAW des données expérimentales. La banque de données Genbank [1] est utilisée comme source pour l’annotation génomique des gènes étudiés (séquences du gène, de l’ARNm, de la protéine ainsi que leurs annotations). BioMeKE [5] fournit une annotation biomédicale des gènes étudiés. Cette annotation biomédicale est basée sur le vocabulaire GO (Gene Ontology) [6] et l 'ontologie UMLS (Unified Medical Language System) [2]. BioMeKE permet l'obtention d'une double annotation biologique et médicale d’une liste de gènes. Le modèle de données de la figure 1a décrit les concepts de GEDAW ainsi que les relations entre ces concepts. Le schéma de la figure 1b définit l’architecture générale de GEDAW. L’entrepôt est orienté objet, FastObjects a été utilisé comme système de gestion de base de données, il est en accord avec le standard ODMG (Object Mata Management Group). Il existe deux types d’APIs (Application Programming Interface) dans GEDAW : Loader et Retrieval. Les APIs Loader sont différentes applications java qui permettent de se connecter aux ressources et d’extraire les informations qui sont ensuite transformées et réconciliées pour former les instances de GEDAW. Les APIs Retrieval permettent d’accéder via une interface aux données intégrées, ce sont des applications java qui combinent le standard ODMG Java Binding au langage de requête OQL (Object Query Language). 1a 1b Figure 1. Schéma de GEDAW. Figure 1a. Schéma UML de GEDAW. Les classes sont représentées par des rectangles. Les relations de spécialisation sont représentées par des flèches allant de la sous classe à la super classe. Les relations de composition sont représentées par des flèches avec un losange à la base. Figure 1b. Schéma de l’architecture de GEDAW. 3 Utilisation de GEDAW L’entrepôt GEDAW offre un maximum de flexibilité au niveau de l’intégration et de la récupération de données. En effet, en ce qui concerne l’intégration, le contexte d’étude conditionne amplement la nature et la quantité des données intégrées; d’autre part, au niveau de l’interrogation des données, des requêtes prédéfinies peuvent être déployées grâce aux APIs Retrieval développées, mais d’autres peuvent être ajoutées au besoin. On distingue deux types d’analyses dans GEDAW. Analyse interne : Deux types d’analyses internes peuvent être effectués dans GEDAW. - Visualisation de données : L’utilisateur récupère les annotations d’un ARNm, d’un gène ou d’une protéine en entrant un de ses identifiants (Genbank, RefSeq, nom officiel de gène, symbole officiel). Les informations pouvant être récupérées sont tout aussi diverses que les données intégrées au préalable : localisation chromosomique, séquence du gène, de l’ARNm, de la protéine au format fasta, annotations GO, annotations UMLS. - Interprétation de groupe de gènes : Ce type d’analyse consiste à interpréter des groupes de gènes obtenus sur la base de profils d’expression similaires. Il s’agit donc d’exploiter la confrontation des données intégrées au sein d’un même environnement pour faire ressortir une nouvelle information. L’utilisateur interroge GEDAW pour corréler un profil similaire à une caractéristique commune qui peut être, par exemple, une participation à un même processus biologique (GO), une localisation chromosomique proche (GenBank) ou une implication dans une même pathologie (UMLS). Analyse externe : Il s’agit d’exploiter les annotations pertinentes et disponibles dans GEDAW en les couplant à des outils d’analyse externes. Parmi ces outils nous utilisons l’outil de clustering JExpressPro et la suite logicielle d’analyse de séquences GCG® Wisconsin Package® (Accelrys). Nous développons actuellement une stratégie basée sur la définition de workflows faisant appel à des outils disponibles en webservices. 4 Conclusion Ce papier a présenté GEDAW, un entrepôt de données qui permet l’interprétation de grands volumes de données biologiques grâce à une intégration de ressources génomiques et biomédicales complémentaires. L’environnement supporte les applications d’intégration et de réconciliation des données mais également les applications de restitution et d’analyse de la connaissance. References [1] [2] [3] [4] [5] [6] Benson DA., Karsch-Mizrachi I., Lipman D.J., Ostell J., Wheeler DL. (2004) GenBank: update, Nucl. Acids. Res, 1; 32 (Database issue): D23–D26 Bodenreider, O. (2004) The Unified Medical Language System (UMLS): integrating biomedical terminology, Nucleic Acids Research, 32, Database issue:D267-70. Guérin, E., Marquet, G., Moussouni, F., Burgun, A., Mougin, F. and Loréal, O. Deployment of heterogeneous resources of genomic, biological and medical knowledge on the liver to build a datawarehouse. ECCB, European Conference on Computational Biology, Paris, France, 2003. Guérin, E., Moussouni, F., Courselaud, B. and Loréal, O. Modélisation d’un entrepôt de données dédié à l’analyse du transcriptome hépatique. JOBIM, Journées Biologie, Informatique et Mathématique, Saint Malo, France, 2002. Marquet, G., Burgun, A., Moussouni, F., Guerin, E., Le Duff, F. and Loreal, O. (2003) BioMeKE : an ontologybased biomedical knowledge extraction devoted to transcriptome analysis, Stud Health Technol Inform. 2003;95: 80-86Stud Health Technol Inform. 2003;95: 80-86 The Gene Ontology Consortium (2004) The Gene Ontology (GO) database and informatics resource, Nucleic Acids Research, 32, D258-D261.