GEDAW : un environnement intégré pour l`analyse du transcriptome

publicité
GEDAW : un environnement intégré pour l’analyse du
transcriptome
Emilie Guérin1, Gwenaëlle Marquet2, Anita Burgun2, Olivier Loréal1 et Fouzia Moussouni1
1
2
INSERM U522, CHU pontchaillou, 35033 RENNES Cedex, France
[email protected]
EA3888, Laboratoire d’Informatique médicale, faculté de médecine, 35043 RENNES Cedex, France
[email protected]
1 Introduction
De nos jours, de larges volumes de données sont disponibles publiquement, les types de données sont divers,
et les ressources très nombreuses. Souvent les données provenant de différentes ressources se complètent
mais se recoupent également, aussi il a été largement démontré qu’une approche intégrative est performante
pour découvrir des relations entre ces données. Dans cette optique, de nombreux efforts ont été menés pour la
mise à disposition et le partage de données génomiques, biologiques et médicales pour leur utilisation dans
des projets d’intégration [6].
D’autre part les nouvelles technologies d’étude du transcriptome génèrent de grandes quantités de données
qui nécessitent la prise en compte de données génomiques, biologiques et médicales pour leur interprétation.
Nous avons donc développé notre propre approche intégrative appliquée à l’analyse de données issues
d’expérience de microarrays, qui prend en compte l’information disponible sur les gènes étudiés : 1) leurs
annotations génomiques (localisation chromosomique et séquences) 2) leurs annotations biologiques, par
exemple le processus biologique dans lequel ils sont impliqués 3) leurs annotations médicales c'est-à-dire les
maladies et syndromes auxquels ils sont associés dans la littérature.
GEDAW (Gene Expression Data Warehouse) [3,4] est un entrepôt de données orienté objet qui permet
l’intégration de ces données et d’autre part fournit des outils pour leur analyse, afin de mettre en évidence des
corrélations entre gènes étudiés. L’environnement regroupe au sein d’un seul et même modèle de données les
instances provenant de ressources expérimentales, génomiques, biologiques et médicales. Les instances du
modèle sont ensuite interrogées par différentes APIs développées.
Nous présentons dans cet article les ressources utilisées pour l’instanciation du modèle objet, l’architecture
de l’environnement ainsi que les applications de récupération de données.
2 Sources et architecture
Quatre types de données sont intégrés dans GEDAW, on distingue les données expérimentales, les données
génomiques, les données biologiques et les données médicales. Un modèle de données objet permet de réunir
tous ces concepts, l’élément central de ce modèle est l’ARNm puisque l’environnement est dédié à l’analyse
du transcriptome.
Trois ressources ont été utilisées pour l’instanciation du modèle de données déployé.
Une base de données relationnelle développée localement sert de source pour le chargement dans GEDAW
des données expérimentales.
La banque de données Genbank [1] est utilisée comme source pour l’annotation génomique des gènes étudiés
(séquences du gène, de l’ARNm, de la protéine ainsi que leurs annotations).
BioMeKE [5] fournit une annotation biomédicale des gènes étudiés. Cette annotation biomédicale est basée
sur le vocabulaire GO (Gene Ontology) [6] et l 'ontologie UMLS (Unified Medical Language System) [2].
BioMeKE permet l'obtention d'une double annotation biologique et médicale d’une liste de gènes.
Le modèle de données de la figure 1a décrit les concepts de GEDAW ainsi que les relations entre ces
concepts. Le schéma de la figure 1b définit l’architecture générale de GEDAW. L’entrepôt est orienté objet,
FastObjects a été utilisé comme système de gestion de base de données, il est en accord avec le standard
ODMG (Object Mata Management Group). Il existe deux types d’APIs (Application Programming Interface)
dans GEDAW : Loader et Retrieval. Les APIs Loader sont différentes applications java qui permettent de se
connecter aux ressources et d’extraire les informations qui sont ensuite transformées et réconciliées pour
former les instances de GEDAW. Les APIs Retrieval permettent d’accéder via une interface aux données
intégrées, ce sont des applications java qui combinent le standard ODMG Java Binding au langage de requête
OQL (Object Query Language).
1a
1b
Figure 1. Schéma de GEDAW. Figure 1a. Schéma UML de GEDAW. Les classes sont
représentées par des rectangles. Les relations de spécialisation sont représentées par des flèches
allant de la sous classe à la super classe. Les relations de composition sont représentées par des
flèches avec un losange à la base. Figure 1b. Schéma de l’architecture de GEDAW.
3 Utilisation de GEDAW
L’entrepôt GEDAW offre un maximum de flexibilité au niveau de l’intégration et de la récupération de
données. En effet, en ce qui concerne l’intégration, le contexte d’étude conditionne amplement la nature et la
quantité des données intégrées; d’autre part, au niveau de l’interrogation des données, des requêtes
prédéfinies peuvent être déployées grâce aux APIs Retrieval développées, mais d’autres peuvent être ajoutées
au besoin.
On distingue deux types d’analyses dans GEDAW.
Analyse interne : Deux types d’analyses internes peuvent être effectués dans GEDAW.
- Visualisation de données : L’utilisateur récupère les annotations d’un ARNm, d’un gène ou d’une protéine
en entrant un de ses identifiants (Genbank, RefSeq, nom officiel de gène, symbole officiel). Les informations
pouvant être récupérées sont tout aussi diverses que les données intégrées au préalable : localisation
chromosomique, séquence du gène, de l’ARNm, de la protéine au format fasta, annotations GO, annotations
UMLS.
- Interprétation de groupe de gènes : Ce type d’analyse consiste à interpréter des groupes de gènes obtenus
sur la base de profils d’expression similaires. Il s’agit donc d’exploiter la confrontation des données intégrées
au sein d’un même environnement pour faire ressortir une nouvelle information. L’utilisateur interroge
GEDAW pour corréler un profil similaire à une caractéristique commune qui peut être, par exemple, une
participation à un même processus biologique (GO), une localisation chromosomique proche (GenBank) ou
une implication dans une même pathologie (UMLS).
Analyse externe : Il s’agit d’exploiter les annotations pertinentes et disponibles dans GEDAW en les couplant
à des outils d’analyse externes. Parmi ces outils nous utilisons l’outil de clustering JExpressPro et la suite
logicielle d’analyse de séquences GCG® Wisconsin Package® (Accelrys). Nous développons actuellement
une stratégie basée sur la définition de workflows faisant appel à des outils disponibles en webservices.
4 Conclusion
Ce papier a présenté GEDAW, un entrepôt de données qui permet l’interprétation de grands volumes de
données biologiques grâce à une intégration de ressources génomiques et biomédicales complémentaires.
L’environnement supporte les applications d’intégration et de réconciliation des données mais également les
applications de restitution et d’analyse de la connaissance.
References
[1]
[2]
[3]
[4]
[5]
[6]
Benson DA., Karsch-Mizrachi I., Lipman D.J., Ostell J., Wheeler DL. (2004) GenBank: update, Nucl. Acids. Res,
1; 32 (Database issue): D23–D26
Bodenreider, O. (2004) The Unified Medical Language System (UMLS): integrating biomedical terminology,
Nucleic Acids Research, 32, Database issue:D267-70.
Guérin, E., Marquet, G., Moussouni, F., Burgun, A., Mougin, F. and Loréal, O. Deployment of heterogeneous
resources of genomic, biological and medical knowledge on the liver to build a datawarehouse. ECCB, European
Conference on Computational Biology, Paris, France, 2003.
Guérin, E., Moussouni, F., Courselaud, B. and Loréal, O. Modélisation d’un entrepôt de données dédié à l’analyse
du transcriptome hépatique. JOBIM, Journées Biologie, Informatique et Mathématique, Saint Malo, France, 2002.
Marquet, G., Burgun, A., Moussouni, F., Guerin, E., Le Duff, F. and Loreal, O. (2003) BioMeKE : an ontologybased biomedical knowledge extraction devoted to transcriptome analysis, Stud Health Technol Inform. 2003;95:
80-86Stud Health Technol Inform. 2003;95: 80-86
The Gene Ontology Consortium (2004) The Gene Ontology (GO) database and informatics resource, Nucleic Acids
Research, 32, D258-D261.
Téléchargement