3 Utilisation de GEDAW
L’entrepôt GEDAW offre un maximum de flexibilité au niveau de l’intégration et de la récupération de
données. En effet, en ce qui concerne l’intégration, le contexte d’étude conditionne amplement la nature et la
quantité des données intégrées; d’autre part, au niveau de l’interrogation des données, des requêtes
prédéfinies peuvent être déployées grâce aux APIs Retrieval développées, mais d’autres peuvent être ajoutées
au besoin.
On distingue deux types d’analyses dans GEDAW.
Analyse interne : Deux types d’analyses internes peuvent être effectués dans GEDAW.
- Visualisation de données : L’utilisateur récupère les annotations d’un ARNm, d’un gène ou d’une protéine
en entrant un de ses identifiants (Genbank, RefSeq, nom officiel de gène, symbole officiel). Les informations
pouvant être récupérées sont tout aussi diverses que les données intégrées au préalable : localisation
chromosomique, séquence du gène, de l’ARNm, de la protéine au format fasta, annotations GO, annotations
UMLS.
- Interprétation de groupe de gènes : Ce type d’analyse consiste à interpréter des groupes de gènes obtenus
sur la base de profils d’expression similaires. Il s’agit donc d’exploiter la confrontation des données intégrées
au sein d’un même environnement pour faire ressortir une nouvelle information. L’utilisateur interroge
GEDAW pour corréler un profil similaire à une caractéristique commune qui peut être, par exemple, une
participation à un même processus biologique (GO), une localisation chromosomique proche (GenBank) ou
une implication dans une même pathologie (UMLS).
Analyse externe : Il s’agit d’exploiter les annotations pertinentes et disponibles dans GEDAW en les couplant
à des outils d’analyse externes. Parmi ces outils nous utilisons l’outil de clustering JExpressPro et la suite
logicielle d’analyse de séquences GCG® Wisconsin Package® (Accelrys). Nous développons actuellement
une stratégie basée sur la définition de workflows faisant appel à des outils disponibles en webservices.
4 Conclusion
Ce papier a présenté GEDAW, un entrepôt de données qui permet l’interprétation de grands volumes de
données biologiques grâce à une intégration de ressources génomiques et biomédicales complémentaires.
L’environnement supporte les applications d’intégration et de réconciliation des données mais également les
applications de restitution et d’analyse de la connaissance.
References
[1] Benson DA., Karsch-Mizrachi I., Lipman D.J., Ostell J., Wheeler DL. (2004) GenBank: update, Nucl. Acids. Res,
1; 32 (Database issue): D23–D26
[2] Bodenreider, O. (2004) The Unified Medical Language System (UMLS): integrating biomedical terminology,
Nucleic Acids Research, 32, Database issue:D267-70.
[3] Guérin, E., Marquet, G., Moussouni, F., Burgun, A., Mougin, F. and Loréal, O. Deployment of heterogeneous
resources of genomic, biological and medical knowledge on the liver to build a datawarehouse. ECCB, European
Conference on Computational Biology, Paris, France, 2003.
[4] Guérin, E., Moussouni, F., Courselaud, B. and Loréal, O. Modélisation d’un entrepôt de données dédié à l’analyse
du transcriptome hépatique. JOBIM, Journées Biologie, Informatique et Mathématique, Saint Malo, France, 2002.
[5] Marquet, G., Burgun, A., Moussouni, F., Guerin, E., Le Duff, F. and Loreal, O. (2003) BioMeKE : an ontology-
based biomedical knowledge extraction devoted to transcriptome analysis, Stud Health Technol Inform. 2003;95:
80-86Stud Health Technol Inform. 2003;95: 80-86
[6] The Gene Ontology Consortium (2004) The Gene Ontology (GO) database and informatics resource, Nucleic Acids
Research, 32, D258-D261.