GEDAW : un environnement intégré pour l`analyse du transcriptome

Téléchargement

GEDAW : un environnement intégré pour l’analyse du

transcriptome

Emilie Guérin1, Gwenaëlle Marquet2, Anita Burgun2, Olivier Loréal1 et Fouzia Moussouni1

1 INSERM U522, CHU pontchaillou, 35033 RENNES Cedex, France

emilie.guerin@rennes.inserm.fr

2 EA3888, Laboratoire d’Informatique médicale, faculté de médecine, 35043 RENNES Cedex, France

gwenaelle.marquet@univ-rennes1.fr

1 Introduction

De nos jours, de larges volumes de données sont disponibles publiquement, les types de données sont divers,

et les ressources très nombreuses. Souvent les données provenant de différentes ressources se complètent

mais se recoupent également, aussi il a été largement démontré qu’une approche intégrative est performante

pour découvrir des relations entre ces données. Dans cette optique, de nombreux efforts ont été menés pour la

mise à disposition et le partage de données génomiques, biologiques et médicales pour leur utilisation dans

des projets d’intégration [6].

D’autre part les nouvelles technologies d’étude du transcriptome génèrent de grandes quantités de données

qui nécessitent la prise en compte de données génomiques, biologiques et médicales pour leur interprétation.

Nous avons donc développé notre propre approche intégrative appliquée à l’analyse de données issues

d’expérience de microarrays, qui prend en compte l’information disponible sur les gènes étudiés : 1) leurs

annotations génomiques (localisation chromosomique et séquences) 2) leurs annotations biologiques, par

exemple le processus biologique dans lequel ils sont impliqués 3) leurs annotations médicales c'est-à-dire les

maladies et syndromes auxquels ils sont associés dans la littérature.

GEDAW (Gene Expression Data Warehouse) [3,4] est un entrepôt de données orienté objet qui permet

l’intégration de ces données et d’autre part fournit des outils pour leur analyse, afin de mettre en évidence des

corrélations entre gènes étudiés. L’environnement regroupe au sein d’un seul et même modèle de données les

instances provenant de ressources expérimentales, génomiques, biologiques et médicales. Les instances du

modèle sont ensuite interrogées par différentes APIs développées.

Nous présentons dans cet article les ressources utilisées pour l’instanciation du modèle objet, l’architecture

de l’environnement ainsi que les applications de récupération de données.

2 Sources et architecture

Quatre types de données sont intégrés dans GEDAW, on distingue les données expérimentales, les données

génomiques, les données biologiques et les données médicales. Un modèle de données objet permet de réunir

tous ces concepts, l’élément central de ce modèle est l’ARNm puisque l’environnement est dédié à l’analyse

du transcriptome.

Trois ressources ont été utilisées pour l’instanciation du modèle de données déployé.

Une base de données relationnelle développée localement sert de source pour le chargement dans GEDAW

des données expérimentales.

La banque de données Genbank [1] est utilisée comme source pour l’annotation génomique des gènes étudiés

(séquences du gène, de l’ARNm, de la protéine ainsi que leurs annotations).

BioMeKE [5] fournit une annotation biomédicale des gènes étudiés. Cette annotation biomédicale est basée

sur le vocabulaire GO (Gene Ontology) [6] et l 'ontologie UMLS (Unified Medical Language System) [2].

BioMeKE permet l'obtention d'une double annotation biologique et médicale d’une liste de gènes.

Le modèle de données de la figure 1a décrit les concepts de GEDAW ainsi que les relations entre ces

concepts. Le schéma de la figure 1b définit l’architecture générale de GEDAW. L’entrepôt est orienté objet,

FastObjects a été utilisé comme système de gestion de base de données, il est en accord avec le standard

ODMG (Object Mata Management Group). Il existe deux types d’APIs (Application Programming Interface)

dans GEDAW : Loader et Retrieval. Les APIs Loader sont différentes applications java qui permettent de se

connecter aux ressources et d’extraire les informations qui sont ensuite transformées et réconciliées pour

former les instances de GEDAW. Les APIs Retrieval permettent d’accéder via une interface aux données

intégrées, ce sont des applications java qui combinent le standard ODMG Java Binding au langage de requête

OQL (Object Query Language).

Figure 1. Schéma de GEDAW. Figure 1a. Schéma UML de GEDAW. Les classes sont

représentées par des rectangles. Les relations de spécialisation sont représentées par des flèches

allant de la sous classe à la super classe. Les relations de composition sont représentées par des

flèches avec un losange à la base. Figure 1b. Schéma de l’architecture de GEDAW.

3 Utilisation de GEDAW

L’entrepôt GEDAW offre un maximum de flexibilité au niveau de l’intégration et de la récupération de

données. En effet, en ce qui concerne l’intégration, le contexte d’étude conditionne amplement la nature et la

quantité des données intégrées; d’autre part, au niveau de l’interrogation des données, des requêtes

prédéfinies peuvent être déployées grâce aux APIs Retrieval développées, mais d’autres peuvent être ajoutées

au besoin.

On distingue deux types d’analyses dans GEDAW.

Analyse interne : Deux types d’analyses internes peuvent être effectués dans GEDAW.

- Visualisation de données : L’utilisateur récupère les annotations d’un ARNm, d’un gène ou d’une protéine

en entrant un de ses identifiants (Genbank, RefSeq, nom officiel de gène, symbole officiel). Les informations

pouvant être récupérées sont tout aussi diverses que les données intégrées au préalable : localisation

chromosomique, séquence du gène, de l’ARNm, de la protéine au format fasta, annotations GO, annotations

UMLS.

- Interprétation de groupe de gènes : Ce type d’analyse consiste à interpréter des groupes de gènes obtenus

sur la base de profils d’expression similaires. Il s’agit donc d’exploiter la confrontation des données intégrées

au sein d’un même environnement pour faire ressortir une nouvelle information. L’utilisateur interroge

GEDAW pour corréler un profil similaire à une caractéristique commune qui peut être, par exemple, une

participation à un même processus biologique (GO), une localisation chromosomique proche (GenBank) ou

une implication dans une même pathologie (UMLS).

Analyse externe : Il s’agit d’exploiter les annotations pertinentes et disponibles dans GEDAW en les couplant

à des outils d’analyse externes. Parmi ces outils nous utilisons l’outil de clustering JExpressPro et la suite

logicielle d’analyse de séquences GCG® Wisconsin Package® (Accelrys). Nous développons actuellement

une stratégie basée sur la définition de workflows faisant appel à des outils disponibles en webservices.

4 Conclusion

Ce papier a présenté GEDAW, un entrepôt de données qui permet l’interprétation de grands volumes de

données biologiques grâce à une intégration de ressources génomiques et biomédicales complémentaires.

L’environnement supporte les applications d’intégration et de réconciliation des données mais également les

applications de restitution et d’analyse de la connaissance.

References

[1] Benson DA., Karsch-Mizrachi I., Lipman D.J., Ostell J., Wheeler DL. (2004) GenBank: update, Nucl. Acids. Res,

1; 32 (Database issue): D23–D26

[2] Bodenreider, O. (2004) The Unified Medical Language System (UMLS): integrating biomedical terminology,

Nucleic Acids Research, 32, Database issue:D267-70.

[3] Guérin, E., Marquet, G., Moussouni, F., Burgun, A., Mougin, F. and Loréal, O. Deployment of heterogeneous

resources of genomic, biological and medical knowledge on the liver to build a datawarehouse. ECCB, European

Conference on Computational Biology, Paris, France, 2003.

[4] Guérin, E., Moussouni, F., Courselaud, B. and Loréal, O. Modélisation d’un entrepôt de données dédié à l’analyse

du transcriptome hépatique. JOBIM, Journées Biologie, Informatique et Mathématique, Saint Malo, France, 2002.

[5] Marquet, G., Burgun, A., Moussouni, F., Guerin, E., Le Duff, F. and Loreal, O. (2003) BioMeKE : an ontology-

based biomedical knowledge extraction devoted to transcriptome analysis, Stud Health Technol Inform. 2003;95:

80-86Stud Health Technol Inform. 2003;95: 80-86

[6] The Gene Ontology Consortium (2004) The Gene Ontology (GO) database and informatics resource, Nucleic Acids

Research, 32, D258-D261.

1 / 3 100%

Documents connexes

Résumé

Le Téléthon est national. Ce mot est composé de deux autres mots

Construire un schéma bilan de

Rapport de l`Académie de médecine « Maladies rares, le

Planètes - SVT Guilleray

Les transferts horizontaux

MARDI 61 02 /0 1

L`eugénisme est une théorie, et une pratique, qui consiste en l

Méthode pour résoudre un exercice de génétique de type 1 avec

Biologie cellulaire - Biologie du développement

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

GEDAW : un environnement intégré pour l`analyse du transcriptome

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

GEDAW : un environnement intégré pour l`analyse du transcriptome

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib