Son objectif est de supporter les requêtes et l’intégration de sources relationnelles et
semi-structurées. Le schéma global de AGORA est une DTD XML et un schéma
relationnel générique est utilisé comme interface entre ce schéma et les sources. La
difficulté du modèle d’intégration relationnelle est l’adaptation des techniques
relationnelles (représentation relationnelle des documents XML), et la traduction des
requêtes XML vers SQL.
Dans le cadre de l’approche matérielle, citons :
XYLEME est un système d’entrepôt de données qui a pour ambition de stocker toutes
les données du Web [26]. Une classification par domaine est faite par l’intermédiaire
d’entrepôts spécialisés (dit datamart). Le schéma médiateur est défini par un
mécanisme de vues [21], [6]. Xylème intègre un outil d’intégration sémantique qui est
basé sur des DTDs abstraite relatives à un domaine, qui peuvent être construite
manuellement ou automatiquement (technique de datamining).
CASTOR [4] permet le « mapping » entre bases de données de n’importe quel type et
un objet Java, c’est-à-dire que chaque attribut est représenté par une classe Java,
manipulée par deux opérateurs : Get et Set (data binding). L’outil Castor (qui est un
logiciel libre) paraît intéressant dans le but de réaliser des transformations de bases de
données relationnelles ou objets en véritables objets Java et donc en un système de
gestion d’objets. CASTOR nécessite un fichier de mapping, (DTD XML) et
évidemment une base de données. En phase de développement, le modèle objet évolue
très vite, et il devient rapidement lourd de gérer à la main la synchronisation entre ces
différents éléments.
Enfin, citons e-XMLMédia qui permet de construire un système d’intégration par
approche virtuelle ou matérialisée. Ce système utilise XML comme modèle commun
[12] et trouve son origine dans le projet Miro-Web [9]. Il est constitué de 3 modules à
savoir e-XML Mediator comme outil de requêtes, savoir e-XMLLizer qui sert de
wrapper, e-XML Repositery pour stocker et interroger les documents XML dans une
BD relationnelles. La structure des documents n’est pas toujours connue mais si c’est
le cas, e-XML Repositery peut générer un schéma relationnel spécifique.
Nous proposons dans cet article une implémentation de la deuxième approche
(approche virtuellement intégrée) en créant un hypershéma de bases de données.
Nous prenons en compte le fait qu’intégrer les données ne consiste pas seulement à
homogénéiser les données en utilisant un format commun XML mais consiste aussi à
exprimer les relations entre les données des sources intégrées [1]. Cet hypershéma
porte la sémantique attachée aux schémas des bases de données hétérogènes intégrées.
Il est constitué de deux graphes portant respectivement une dimension structurelle et
une dimension sémantique des données [13]. Pour cela, lors de la phase d’extraction
des concepts, nous enrichissons les modèles traditionnels les plus courants faits par
des DTDs (voir Section 1.2), en utilisant le formalisme XML Schema [24]. Ce dernier
permet d’affiner d’une part la sémantique interne d’un concept (typage, contrainte
d’unicité, etc.) et d’autre part la sémantique inter-concepts (dépendance, association,
agrégation, etc.).