Apport des spécifications pour les modèles de bases de données

publicité
Apport des spécifications pour les modèles
de bases de données géographiques
Nils Gesbert* — Thérèse Libourel** — Sébastien Mustière*
* Laboratoire COGIT, IGN,
2/4 avenue Pasteur,
F-94165 Saint-Mandé cedex
{nils.gesbert, sebastien.mustiere}@ign.fr
** Laboratoire d’informatique, de robotique et de microélectronique de Montpellier,
161 rue Ada,
F-34392 Montpellier cedex 5
[email protected]
Les bases de données topographiques ont pour particularités de ne pas représenter
exhaustivement leur domaine et de modéliser ce qu’elles représentent de façon non évidente
(faisant appel au savoir-faire des opérateurs qui saisissent les données). Ces particularités
conduisent à l’existence de spécifications très volumineuses sans l’aide desquelles il n’est pas
possible d’interpréter correctement et précisément la signification des données : le modèle
conceptuel de la base ne suffit pas. Or ces spécifications n’existent que sous forme de texte.
Nous proposons dans cet article de les formaliser en les considérant comme détentrices d’une
part d’une réelle ontologie du domaine et d’autre part de la description des liens d’appariement
entre cette ontologie et les schémas des bases de données. Le principal objectif visé par cette
formalisation est de faciliter l’intégration de plusieurs bases géographiques.
RÉSUMÉ.
Topographical databases are particular in that they do not represent their domain
exhaustively, and in that the way they modelise the things they represent is not obvious and
relies on the knowledge of the operators who capture the data. These particuliarities lead to
the existence of huge specifications, which are essential for a precise and correct interpretation
of the data’s meaning: the conceptual model of the databases is not enough. But these specifications only exist in a textual form. We propose in this article to formalise them by seeing them
as containing, first, an ontology of the domain and, second, the description of the matching
links between this ontology and the conceptual schemas. The first goal of this formalisation is
facilitating integration of several geographical databases.
ABSTRACT.
MOTS-CLÉS :
BD géographiques, spécifications, ontologie, modélisation, terrain conceptualisé.
KEYWORDS:
Geographical DBs, specifications, ontology, modelisation, conceptualised ground.
Géomatique – 14/2004. Les ontologies spatiales, pages 239 à 257
240
Géomatique – 14/2004. Les ontologies spatiales
1. Introduction
Les bases de données géographiques ont plusieurs particularités qui les distinguent
des bases de données classiques. L’une des principales est la complexité du processus
d’acquisition des données qui met en œuvre une expertise et un savoir-faire, lesquels
sont consignés au sein de spécifications plus ou moins complètes. Dans le contexte de
l’Institut géographique national (IGN), les bases de données vecteur (dont entre autres
une base à petite échelle, la BDCarto ; une base à grande échelle, BDTopo ; une base
de données routière à échelle variable, Géoroute) sont décrites par des spécifications
volumineuses, sous forme de texte, qui complètent l’information fournie par le modèle
conceptuel de la base de données.
Nous proposons une démarche consistant à extraire des spécifications la sémantique nécessaire à l’enrichissement du modèle conceptuel ; l’objectif poursuivi à long
terme est l’intégration de données issues de bases hétérogènes (en particulier, de bases
d’échelles différentes). Les concepts communs apparaissant dans les diverses spécifications forment une ontologie du domaine sur laquelle peut s’appuyer le processus.
Nous présenterons dans la section 2 tout d’abord le contexte de notre travail et les
particularités des bases de données auxquelles nous nous intéressons, puis les spécifications, leur rôle dans le processus d’acquisition et leur importance pour l’interprétation des données. Nous exposerons ensuite, section 3, la démarche préconisée pour
utiliser au mieux les spécifications. La section 4 présentera la formalisation de la démarche sous forme de métamodèle objet et détaillera les éléments de ce métamodèle.
2. Contexte
2.1. Les bases de données topographiques
Les bases de données topographiques ont deux particularités notoires. Tout d’abord, ces bases ne représentent pas directement le monde réel ni une partie de celui-ci
mais une certaine conceptualisation de ce monde, laquelle n’est pas triviale. En effet,
(Smith et al., 1998) mentionne un certain nombre de spécificités qui distinguent les
concepts géographiques des autres types de concepts : tout d’abord, un objet géographique est indissociable par nature de l’espace où il se trouve et l’on ne peut séparer le
« quoi » du « où »; les propriétés géométriques et topologiques, en particulier la notion
de frontière, sont fondamentales. D’autre part, l’existence de certains objets mésoscopiques, tels que les baies ou les péninsules, est le fruit de la cognition humaine. Les
auteurs décrivent de tels concepts comme « des ombres projetées par le raisonnement
et le langage humains sur l’espace géographique ».
On peut remarquer ensuite que cette conceptualisation dépend du point de vue, et
en particulier de l’échelle, ou plutôt, dans le cas des bases de données, de la résolution. Certains concepts ne peuvent exister qu’à certaines résolutions, par exemple il
est impossible de définir la limite d’une forêt à un mètre près ou d’en individualiser
les arbres à une résolution de 20 m. D’autres peuvent exister à toutes les résolutions
Spécifications de BD géographiques
241
considérées, mais leurs instances changent de nature, ainsi un fleuve qui se divise en
plusieurs bras quand on le regarde à 100 m près peut ne plus le faire (dans le terrain
conceptualisé, s’entend) lorsqu’on le regarde avec une résolution d’un kilomètre. En
quelque sorte, la conceptualisation du terrain à différentes résolutions correspond à ce
qu’on voit depuis différentes distances : face à un mur, on voit des briques ; depuis le
sommet d’une colline, on peut apercevoir une ville. Toutefois, on peut définir un « terrain conceptualisé » abstrait dont ces diverses conceptualisations seraient des vues à
une résolution donnée. C’est notamment intéressant dans le cas d’une base de données
multiéchelles, ainsi que dans un contexte où plusieurs bases de données coexistent
pour représenter une même partie du monde réel : il est plus pratique de considérer
que ces bases représentent différentes vues d’une même entité abstraite issue d’une
conceptualisation commune du monde réel plutôt que différentes conceptualisations
de ce monde.
Leur seconde particularité est de ne pas représenter exhaustivement leur domaine :
il existe des règles de sélection déterminant quelles entités du terrain conceptualisé
doivent ou ne doivent pas apparaître dans la base de données. Ces règles peuvent
s’appuyer sur divers critères tels que, souvent, la taille de l’objet ; mais la notion sousjacente est en général celle plus ou moins abstraite de trait caractéristique du paysage.
Ainsi, on fera souvent apparaître un bâtiment isolé même s’il est petit ; mais on n’indiquera pas individuellement tous les étangs d’une zone marécageuse.
Monde réel
concerné
modélisation
schéma
conceptuel
acquisition
BD
Figure 1. Conception d’une base de données classique
Ces particularités du domaine de l’information géographique se traduisent dans le
processus de constitution de la base. Le processus habituel de conception d’une base
de données classique passe par les étapes suivantes (figure 1) :
– modélisation de la portion de monde réel concernée en s’appuyant sur un modèle
et le formalisme associé (modèle relationnel, objet ou autre). Cette phase produit un
242
Géomatique – 14/2004. Les ontologies spatiales
schéma conceptuel de la future base et une description de la sémantique sous-jacente
via un dictionnaire de données ;
– acquisition des données. Celle-ci se fait par instanciation du schéma conceptuel,
c’est-à-dire création de données conformes aux descriptions du schéma.
Par exemple, si nous souhaitons réaliser une base de données pour une bibliothèque, la phase de conceptualisation produira un schéma dans lequel figureront
les concepts d’ouvrage, d’exemplaire, d’auteur, d’emprunt, présentés sous forme de
classes si on adopte l’approche objet, et les données stockées correspondront au catalogue de la bibliothèque et à son fonds en termes d’exemplaires disponibles. La
conception d’une base de données topographique correspond souvent à un processus
plus complexe (figure 2) :
expertise
Monde réel
concerné
spécifications
résolution nominale
résolution nominale
modélisation
schéma
conceptuel
acquisition
BD
Figure 2. Conception d’une base de données géographique
– l’expertise produit le terrain conceptualisé que nous pouvons considérer comme
une ontologie du domaine ;
– la phase de modélisation produit un schéma conceptuel qui décrit une vue de
ce terrain conceptualisé à une résolution donnée (éventuellement plusieurs s’il s’agit
d’une base de données multiéchelles) ;
– la phase d’acquisition quant à elle dépend également de la résolution et fait de
plus intervenir une étape de sélection afin de représenter uniquement ce qui est pertinent et de ne pas surcharger la base d’objets sans importance. Cette acquisition peut
être réalisée à partir d’instrumentations diverses (relevés terrain, restitution photogrammétrique, etc.).
Spécifications de BD géographiques
243
On notera que tous ces aspects spécifiques des bases de données géographiques
ont un point commun : une liberté importante est a priori laissée pour l’interprétation
du monde. Il existe, en tous cas à l’IGN, un savoir-faire et une expertise communs
qui limitent les variations dans une certaine mesure mais il est néanmoins nécessaire
de rédiger des spécifications précises afin de restreindre cette liberté. Ces spécifications sont détentrices de l’expertise du domaine et constituent à nos yeux la clef du
processus d’instanciation des bases géographiques et, au-delà, de leur intégration.
2.2. Intégration de bases de données géographiques
La problématique de l’intégration de bases de données (Batini et al., 1984, Batini
et al., 1986, Sheth et al., 1990, Li et al., 1992, Sheth, 1998, Parent et al., 2000) connaît
un regain d’intérêt depuis les approches « médiation » (Wiederhold, 1992, Kirk et al.,
1995, Chawathe et al., 1994, Chawathe et al., 1997, Garcia-Molina et al., 1997). Cette
approche requiert un niveau méta. Traditionnellement, ce niveau décrit les schémas
conceptuels issus de bases hétérogènes (voire un schéma intégrateur) et des liens d’appariement entre ces schémas établis à partir de la connaissance du domaine (ontologie). Dans le cas spécifique des bases de données géographiques, (Devogele et al.,
1998) donne plusieurs raisons montrant l’intérêt d’une telle intégration ; notamment,
le coût de l’acquisition des données rend souhaitable de faciliter leur réutilisation, et
l’hétérogénéité des données actuelles est un obstacle à cette réutilisation, sans compter
que les diverses sources de données peuvent présenter des incohérences. D’autre part,
cette intégration simplifierait grandement les mises à jour. L’article sus-cité propose
une approche de cette intégration par fédération de bases de données : détermination et description des correspondances entre les différents schémas des bases puis
réalisation d’un schéma intégré, sans modification des données. Cette approche est
détaillée plus avant dans (Devogele, 1997) où est également présenté un algorithme
d’appariement, pour le cas particulier des données routières, permettant l’instanciation au niveau des données des correspondances inter-schémas, et donc l’instanciation
du schéma intégré. Il existe également des travaux sur la notion de « distance sémantique » (Rodriguez et al., 1999).
L’intégration pour les bases de données géographiques peut concerner une autre
spécificité de l’information géographique : la multireprésentation. Dans une base de
données intégrée multireprésentations, un objet donné possède plusieurs représentations à des résolutions différentes. (Vangenot, 2001) étudie ce type de bases de données (qui n’existe pas encore de façon importante) et propose un modèle de gestion de
la multireprésentation (non limité à la multirésolution) avec un système d’estampilles.
(Friis-Christensen et al., 2002) propose une approche plus spécifique et technique de
la multireprésentation où la base de données multireprésentation est un cas particulier
de base de données fédérée (« un ensemble de bases de données composantes qui coopèrent mais sont autonomes. ») L’article est orienté vers la gestion d’une telle base
de données et en particulier le maintien de la cohérence entre les différentes représentations.
244
Géomatique – 14/2004. Les ontologies spatiales
2.3. Utilisation d’ontologies pour l’intégration
(Partridge, 2002) explique l’importance de l’ontologie sous-jacente d’une base de
données pour l’intégration. Le terme « ontologie » a été défini par (Gruber, 1993)
mais est toutefois utilisé dans plusieurs sens différents ; (Guarino et al., 1995) donne
et commente les principaux d’entre eux. Il est employé par (Partridge, 2002) dans le
sens « l’ensemble des choses dont l’existence est admise par une théorie ou un système de pensée donné. » En ce sens, la notion de terrain conceptualisé présentée plus
haut est une ontologie puisqu’il s’agit de l’ensemble des objets qui existent pour un
cartographe. L’article de Partridge oppose à la stratégie d’intégration par la résolution
de l’hétérogénéité sémantique (similaire à celle employée par (Devogele et al., 1998))
une stratégie d’intégration ontologique consistant à expliciter dans un premier temps
les déviations des schémas des bases par rapport à l’ontologie sous-jacente (c’est-àdire à la conceptualisation du monde correspondante) pour utiliser ensuite cette ontologie comme point de départ à la réalisation de la base intégrée. Cette seconde approche nécessite que les bases à intégrer aient la même ontologie sous-jacente (c’està-dire qu’elles soient des représentations différentes d’une même conceptualisation du
monde) ; on peut considérer que c’est notre cas dans le domaine de l’information topographique si l’on utilise comme ontologie la notion de terrain conceptualisé abstrait
(regroupant toutes les résolutions) proposée plus haut. Et l’avantage de cette stratégie
est que l’ontologie n’étant en principe pas spécifique aux bases de données étudiées,
il devrait être plus facile d’intégrer ultérieurement à notre base multireprésentation
une nouvelle base correspondant au même domaine. Le présent article peut être considéré comme s’inscrivant dans la première partie de cette seconde stratégie puisqu’il
cherche à expliciter et formaliser les relations entre les entités du terrain conceptualisé
et les données, donc entre l’ontologie et les schémas des bases.
Ces relations sont décrites au sein des spécifications des bases de données géographiques ; l’objet de cet article est la formalisation de ces spécifications. Il existe
des travaux sur la construction de spécifications formelles (Fougères et al., 1999) et
des langages de représentation de spécifications tel le langage Z (Spivey, 1992), cependant il s’agit essentiellement pour ces travaux de formaliser des spécifications de
logiciels, donc de décrire des fonctionnalités; aucune étude n’a encore été faite à notre
connaissance sur notre type particulier de spécifications.
On remarquera que si les diverses approches de l’intégration de bases de données
géographiques présentées ci-dessus ne font pas, ou très peu, mention des spécifications des bases, elles les utilisent cependant abondamment de manière implicite, notamment afin de déterminer les conflits possibles, les correspondances entre classes
de schémas conceptuels et les conditions sous lesquelles ces correspondances sont
applicables. Ces correspondances et ces conditions sont ensuite formalisées, avec des
ICA (inter-schema correspondance assertion) dans (Devogele et al., 1998), ou en OCL
(Object Constraint Language) dans (Friis-Christensen et al., 2002). C’est-à-dire que
les différences de spécifications entre les bases se trouvent, au moins partiellement,
formalisées; mais les spécifications elles-mêmes ne le sont pas. L’importance des spécifications a été mise en valeur pour la détection et la classification des incohérences
entre bases de données apprès appariement dans (Sheeren, 2002).
Spécifications de BD géographiques
245
2.4. Spécifications des bases
Si l’on se réfère à un schéma conceptuel exprimé avec le formalisme objet, on
dispose de diverses classes décrites par leurs attributs et qui, sans autre connaissance,
semblent simplement représenter le monde réel. Dans le cas de l’information géographique, les précisions sur l’expertise qui interfèrent avec la modélisation et l’acquisition (figure 2) ne se trouvent que dans les spécifications. Les régles d’interprétation
qui figurent dans ces spécifications sont indispensables à une interprétation correcte
et précise des objets contenus dans la base, même si le schéma conceptuel peut suffire
pour certaines utilisations. Ces spécifications, dans le cas de l’IGN, sont constituées de
volumineux documents sous forme de texte et décrivent les règles d’interprétation et
de sélection portant sur chaque classe du schéma conceptuel d’une base (par exemple,
les spécifications de la BDCarto (figure 4) et celles de la BDTopo Pays (figure 3)
Il faut donc analyser le contenu de ces spécifications. Celles dont nous disposons à
l’IGN ont toutes une structure similaire et proposent une collection correspondant aux
classes du schéma conceptuel de la base concernée. Chaque classe constitue un paragraphe découpé en quatre parties. Tout d’abord une partie définition qui précise la sémantique du concept représenté. Ensuite, une partie sélection permet de restreindre les
objets qui constitueront l’extension de la classe en précisant les critères qui décident
si un objet du monde réel peut ou non être conservé comme instance de la classe.
Une autre partie modélisation géométrique indique comment générer la géométrie de
l’instance créée à partir de l’entité du monde réel ; cette partie fait implicitement intervenir la résolution, qui est normalement indiquée dans les spécifications générales
avec d’autres métadonnées. Elle est parfois mentionnée explicitement si pour cette
classe particulière elle diffère de la spécification générale. Enfin, une partie attributs
regroupe les descriptions des attributs autres que la géométrie.
Ce format de spécifications a plusieurs inconvénients : le texte libre est peu adapté
à un traitement automatique ; même si ce texte est relativement structuré, il ne l’est
pas toujours exactement de la même façon suivant les bases; il n’est donc pas toujours
évident de savoir où trouver une information particulière et la comparaison de deux
jeux de spécifications s’avère délicate. De plus, même ces spécifications détaillées
recèlent une part d’implicite, en raison du savoir-faire commun déjà mentionné, qui
n’est pas toujours conscient.
Nous pensons donc, compte tenu de ces inconvénients, que l’information extraite
des spécifications doit être formalisée de manière à enrichir les schémas conceptuels
des bases, afin à terme de pouvoir faciliter les échanges entre bases.
3. Vers une formalisation des spécifications
Notre proposition (schématisée figure 5) consiste à extraire des spécifications
d’une part un ensemble de concepts et relations correspondant au terrain conceptualisé et d’autre part des relations d’appariement entre ces concepts et les classes des
schémas conceptuels des bases.
246
Géomatique – 14/2004. Les ontologies spatiales
Définition
Portion de cours d’eau, réel ou fictif, permanent ou temporaire, naturel ou artificiel, homogène pour l’ensemble des attributs et des relations qui la concernent, et qui
n’inclut pas de confluent.
Sélection
Le réseau hydrographique composé des objets <tronçon de cours d’eau> est décrit
de manière continue.
La continuité du réseau n’est toutefois pas toujours assurée dans les cas suivants :
– arrivée d’un cours d’eau en ville
– infiltration d’un cours d’eau (ex. perte en terrain calcaire)
– arrivée d’un petit ruisseau temporaire dans une large plaine où son tracé se perd
– zones de marais où les connexions et interruptions du réseau restent indicatives
Tous les cours d’eau permanents, naturels ou artificiels, sont inclus. Les cours d’eau
temporaires naturels sont inclus, à l’exception des tronçons de moins de 200 m situés
aux extrémités amont du réseau.
Les cours d’eau temporaires artificiels ou artificialisés sont sélectionnés en fonction
de leur importance et de l’environnement. Les talwegs qui ne sont pas marqués par la
présence régulière de l’eau sont exclus.
Tous les cours d’eau nommés de plus de 7,5 m de large sont inclus (tronçon de cours
d’eau d’attribut <fictif> = « oui » superposé à un objet de classe <surface d’eau>).
Fossé : Les gros fossés de plus de 2 m de large sont inclus lorsqu’ils coulent de
manière permanente.
Modélisation géométrique
A l’axe et à la surface du cours d’eau (tel qu’il se présente sur les photographies
aériennes). L’orientation de l’objet définit le sens d’écoulement. Elle n’est pas significative dans les zones très plates (ex. marais) ni pour les canaux.
[...]
Attributs
Attribut : Nature
Définition : attribut permettant de distinguer les tronçons de cours d’eau libres des
obstacles
Type : liste
Valeurs d’attribut : cours d’eau indifférencié / barrage / cascade / écluse
[...]
Attribut : Artificialisé
Définition : Permet de distinguer les cours d’eau naturels des cours d’eau artificiels ou
artificialisés.
Type : booléen
Valeurs d’attribut : oui / non
[...]
Figure 3. Extrait des spécifications de la BDTopo Pays concernant la classe « tronçon
de cours d’eau » (spe2002)
Spécifications de BD géographiques
247
Définition – sélection
Un tronçon hydrographique correspond à l’axe du lit d’une rivière, d’un ruisseau
ou d’un canal.
La BDCarto contient :
– tous les axes principaux, y compris dans la zone d’estran et dans les zones de marais,
à l’exception des « culs-de-sac » d’une longueur inférieure à un kilomètre sauf s’ils
appartiennent à un cours d’eau d’une longueur supérieure à un kilomètre ;
– outre l’axe principal, les axes des bras secondaires d’une longueur supérieure à un
kilomètre ou qui délimitent une île d’une superficie supérieure à dix hectares quand
un cours d’eau se subdivise en plusieurs.
Géométrie – construction
Les éléments du réseau d’hydrographie sont découpés en portions ayant les mêmes
attributs. Le changement de valeur d’un attribut n’entraîne la création d’un tronçon
que si la nouvelle valeur reste la même sur une longueur d’au moins un kilomètre ;
sinon, le tronçon précédent est prolongé.
Attributs
[1] Etat
0- inconnu : l’existence d’un écoulement est certaine, mais le tracé n’est pas connu
avec précision. 1- continu 2- intermittent 3- fictif : assure la continuité de l’écoulement
à l’intérieur des zones d’hydrographie (poste 51 des zones d’occupation du sol O-s-1),
lorsque le tracé n’est pas connu avec précision. 4- abandonné, à sec
[2] Largeur
1- entre 0 et 15 m 2- entre 15 et 50 m 3- plus de 50 m
[3] Nature
1- cours d’eau naturel 3- canal, chenal : voie d’eau artificielle 4- aqueduc, conduite
forcée : tuyau ou chenal artificiel conçu pour le transport de l’eau (usage hydroélectrique, industriel...) 7- estuaire : écoulement d’un cours d’eau dans la zone d’estran
[...]
Figure 4. Extrait des spécifications de la BDCarto concernant la classe « tronçon
hydrographique »
On remarque que les spécifications décrivent la sémantique du contenu de la base
par la description du processus d’acquisition des données. Cependant, même une fois
la base de données constituée, elles permettent d’interpréter ce contenu en lisant ce
processus à l’envers. Ledit processus n’étant pas injectif, il n’est pas évident a priori
de trouver une meilleure façon de décrire la sémantique des données. Rien n’oblige
toutefois à s’intéresser au véritable processus effectivement suivi par les opérateurs :
si l’on ne veut décrire que le contenu de la base, c’est-à-dire le résultat, on peut aussi
bien utiliser un processus imaginaire plus simple et plus abstrait que le processus réel.
Avant de proposer une formalisation, nous devons revenir plus en détail sur le
contenu des spécifications et souligner quelques points de difficulté implicite. Nous
avons vu que les spécifications dont nous disposons présentent les différentes classes
du modèle conceptuel de la base concernée ; dès lors il serait tentant de considérer
qu’une classe de la base de données correspond à un concept du terrain (selon une
248
Géomatique – 14/2004. Les ontologies spatiales
relation 1-1) et que les spécifications expriment simplement, pour chaque classe, le
processus de sélection/modélisation opéré sur l’extension du concept lors de la saisie
pour obtenir l’extension de la classe. Cette idée est implicitement présente dans l’organisation des spécifications dont nous disposons actuellement. Cependant trois raisons
nous conduisent à rejeter cette idée et à rechercher des concepts « partageables » ne
reproduisant pas nécessairement la structure du modèle conceptuel de la base.
Ontologie
Extraction
Spécifications 1
Extraction
<apparie>
<apparie>
Spécifications 2
Contraintes
Fonction de
modélisation
<<relatives à>>
Schéma1
BD1
<<relatives à>>
Schéma2
BD2
Figure 5. Notre proposition
Tout d’abord, les regroupements en classes ne sont pas les mêmes dans toutes
les bases, ce qui pourrait poser des problèmes pour la comparaison de spécifications.
Par exemple, dans la BDCarto, l’une des bases de données produites par l’IGN, la
classe « Tronçon de cours d’eau » comprend les aqueducs, mais dans la BDTopo
Pays, une autre de ces bases, ceux-ci sont regroupés dans la classe « canalisation »
avec les oléoducs et les gazoducs. Il est donc préférable d’utiliser le concept partagé
d’aqueduc, bien qu’il ne corresponde pas en lui-même à une classe, plutôt que ceux
de tronçon de cours d’eau et de canalisation.
D’autre part, les modalités de sélection font fréquemment référence au contexte
des objets et de ce fait recourent à des concepts extérieurs, non modélisés en tant que
tels dans la base de données : ainsi, dans notre exemple de la figure 3, « arrivée d’un
cours d’eau en ville » ou « zone de marais ». Nous aurons besoin pour formaliser les
spécifications de ces concepts de ville et de marais, or ils ne font pas l’objet de classes
de la base.
Spécifications de BD géographiques
249
« Monde »
Représentation 1 (interdite)
Représentation 2 (permise)
Représentation 3 (permise)
Figure 6. Exemple montrant la difficulté de définir un concept pour chaque classe de
la base de données
Enfin et surtout, il n’est pas toujours possible, pour une classe de la base donnée, de
définir de façon cohérente un concept du terrain qui lui correspondrait. Considérons
en effet cet extrait de spécification de la BDCarto : « Les tronçons retenus sont les
suivants : [...] les tronçons de voies carrossables [...], à l’exception des culs-de-sac
de moins de 1 000 mètres de long [...]. » Supposons qu’on veuille définir un concept
de tronçon de route réel, avec un mécanisme de classification bien défini, parmi les
instances duquel on sélectionnerait des tronçons à l’aide du critère de longueur pour
obtenir les objets de la base. Soit maintenant la situation de la figure 6, où l’on a
dans le monde réel un cul-de-sac en forme de Y tel que le tronçon unique obtenu
en ôtant l’une ou l’autre des deux branches dépasse 1 000 mètres, mais qu’aucun des
trois tronçons formant les branches du Y n’atteigne cette valeur. Les schémas 1, 2 et
3 correspondent à trois possibilités de saisie ; les représentations 2 et 3 sont a priori
toutes deux autorisées (car le tronçon est suffisamment long) mais la représentation 1
est interdite puisqu’elle comprend des tronçons trop courts. Or, selon la façon dont on
définit le concept de tronçon de route dans le monde réel, soit on considère qu’il y en
a trois – mais alors aucun des trois tronçons ne vérifiera le critère de sélection et on ne
représentera pas du tout le Y, ce qui ne convient pas – soit on considère qu’il y en a
deux, ceux des représentations 2 et 3, mais on est alors en difficulté pour exprimer le
fait qu’un seul de ces deux tronçons doit être représenté et pas l’autre : ils respectent
tous deux le critère de longueur. On voit bien ici qu’il n’est pas pertinent de faire
correspondre directement la classe « tronçon de route » à un concept : on a besoin
d’un concept plus large, tel que « réseau routier » par exemple.
La formalisation doit permettre de surmonter ces difficultés. Pour cela nous avons
adopté dans un premier temps le formalisme objet UML et nous avons défini un profil
UML qui permettra de générer la sémantique nécessaire à l’enrichissement du schéma
conceptuel des bases afin d’en faciliter et surtout d’homogénéiser leur interprétation.
250
Géomatique – 14/2004. Les ontologies spatiales
Classifier
« Objet de la base »
< Est représentée par
« Entité géographique »
1..*
*
1
1..*
Attribut
1..*
Propriété
Contrainte
2..*
Sélection
1
valeur(résolution,position)
Représentation
1
1
fonction de modélisation
^
Relation avec
0..1
Contrainte complexe
opérateur : et | ou
*
Contrainte sur propriété
Contrainte de relation
valeur seuil
opérateur : < | > | =
*
Relation topologique
Autre relation
Relation métrique
critère métrique
valeur seuil
opérateur : < | >
Porte sur >
Figure 7. Profil UML utilisé pour représenter les spécifications
4. Description du métamodèle
La démarche proposée consiste tout d’abord à produire, de façon manuelle, par
l’expertise, la consultation et la confrontation des différents jeux de spécifications,
une représentation du terrain (ontologie). Ensuite, il s’agira d’exprimer le processus
d’acquisition (sélection et modélisation) correspondant à chaque base de données sous
forme de liens entre le terrain conceptualisé ainsi représenté et le schéma objet de la
base correspondante.
Spécifications de BD géographiques
251
Le profil UML (extension du métamodèle UML) présenté figure 7 permet de représenter les métaéléments émergeant des spécifications. Il comporte trois métaéléments
principaux : Objet de la base, Entité géographique et l’association les reliant qui est
complétée par l’élément Représentation. Comme tout métamodèle il permet de générer par instanciation des modèles regroupant les éléments qui interviennent dans notre
démarche. Ces modèles sont : celui du schéma conceptuel des bases concernées, celui
du terrain conceptualisé (ontologie) et enfin celui du processus d’appariement inféré.
4.1. Modèle conceptuel de la base
L’instanciation de la métaclasse « Objet de la base » donne l’ensemble des classes
de chaque schéma de base concerné.
4.2. Modèle du terrain conceptualisé (ontologie)
Cette partie est constituée d’une hiérarchie de classes représentant les concepts utilisés dans les spécifications. Les concepts choisis doivent autant que possible être des
concepts communs à plusieurs bases de données ; le but est de n’avoir qu’une même
ontologie qu’on utilisera pour les spécifications de différentes bases (en l’étendant le
cas échéant). Dans nos exemples, les concepts utilisés pour l’ontologie ont été choisis par une simple recherche de mots-clefs dans le texte des spécifications ; il est à
noter que les spécifications ont été rédigées par des experts du domaine, aussi cette
méthode, bien que basique, donne-t-elle des résultats acceptables, du moins dans un
premier temps.
Ces concepts possèdent des propriétés dont la valeur peut éventuellement dépendre
de la position considérée à l’intérieur de l’instance (par exemple, pour une rivière, la
largeur ou la navigabilité varient tout au long du cours), comme il est proposé dans
le modèle MADS (Parent et al., 1997). Comme dit plus haut, on ne suppose pas les
propriétés des entités du terrain conceptualisé directement accessibles : elles ne le
sont qu’à une certaine résolution. Ici la résolution intervient comme une précision (par
exemple, on prend la largeur d’une rivière à 3 m près) et peut également indiquer un
niveau de généralisation, par exemple la représentation des lacets d’une route nécessite
un traitement particulier à petite échelle. La largeur de la rivière avec une précision
infinie ou le parcours exact de la route sont des abstractions qu’on ne peut utiliser
telles quelles pour créer les objets de la base. D’un point de vue orienté-objet, ces
propriétés correspondent donc à des méthodes plus qu’à des attributs, et la résolution
est un paramètre de la méthode. Dans le cas où la propriété dépend de la position, il
s’agit d’une méthode retournant une fonction.
252
Géomatique – 14/2004. Les ontologies spatiales
4.3. Liens d’appariement
Le processus d’acquisition (effectué par l’opérateur de saisie pour créer les objets
de la base de données à partir des éléments du terrain conceptualisé) est instancié sous
forme de liens entre concepts de l’ontologie et classes du schéma de la base, complétés
par des instances de Représentation. L’élément Représentation précise, après sélection
via des contraintes (Mustière et al., 2003), comment, par la fonction de modélisation,
instancier la classe de la base.
Une contrainte sur un concept géographique associe à chaque instance de ce
concept une valeur de vérité indiquant si la contrainte est respectée. Plusieurs
contraintes élémentaires peuvent être combinées à l’aide d’opérateurs logiques pour
constituer une contrainte complexe. Nous distinguons deux types de contraintes élémentaires (figure 7) : contrainte sur propriété et contrainte de relation. La contrainte
sur propriété porte sur la valeur d’une propriété de l’entité elle-même. Un cas particulier en est la contrainte géométrique, la plus rencontrée, notamment comme critère de
sélection (par exemple dans « tous les bâtiments de plus de 50 m2 sont inclus. »)
La contrainte de relation permet de spécifier que l’entité considérée doit ou ne doit
pas entretenir une relation avec une entité d’une autre classe (ou éventuellement une
autre entité de la même classe). Typiquement, il peut s’agir d’une relation métrique
(condition sur la distance entre les deux entités) ou topologique ; mais les spécifications étant souvent relativement floues dans ce type de cas pour laisser libre cours à
l’interprétation de l’opérateur, il est nécessaire d’ajouter un troisième type de relation,
« autre », par exemple pour les relations telles que « mener à ». Il est à noter que les
relations topologiques, comme le contact, doivent être comprises à la résolution près.
L’élément Représentation comprend également une fonction de modélisation qui
crée, pour les entités sélectionnées, les objets de la base et leurs attributs à partir de
l’entité et de ses propriétés. Pour représenter cette fonction, il sera nécessaire de définir
un certain nombre de primitives représentant en quelque sorte l’expertise de l’opérateur. On supposera par exemple l’existence de fonctions relativement simples, telles
que « obtenir le contour de l’objet à la résolution [paramètre] », ou plus compliquées
comme « extraire l’axe du réseau à la résolution [param1] en supprimant les culs-desac de longueur inférieure à [param2] ».
La figure 8 montre deux exemples d’instanciation de notre métamodèle, pour le réseau hydrographique, respectivement dans les bases de données BDTopo Pays et BDCarto. Dans chaque exemple, on distingue la partie supérieure, correspondant à l’ontologie. Celle-ci a été tout d’abord réalisée pour la BDTopo Pays – les concepts ayant été
simplement déterminés par la lecture des spécifications à la recherche de mots-clefs
– puis étendue et légèrement modifiée pour pouvoir servir également à la BDCarto.
Les parties inférieures correspondent respectivement aux classes des deux bases pour
le réseau hydrographique, et les liens en pointillés indiquent les instances des liens
« est représentée par », complétés par des éléments Représentation. Le contenu de
ces instances (contrainte de sélection et fonction de modélisation) n’a pas été indiqué
intégralement mais l’est partiellement sur certains liens, à titre d’exemple.
Spécifications de BD géographiques
Terrain
«Ent. géog.»
Él t du réseau hydro
0..1
«Ent. géog.»
Cours d'eau
«Ent. géog.»
Fossé
«Ent. géog.»
Acc. parcours
«Ent. géog.»
Nœud réseau
affluent de
*
«Ent. géog.»
Diffluent
«Ent. géog.»
Source
«Ent. géog.»
Rivière
«Ent. géog.»
Barrage
«Ent. géog.»
Aqueduc
«Ent. géog.»
Canal
253
«Ent. géog.»
Cascade
«Ent. géog.»
Confluent
«Ent. géog.»
Embouchure
«Ent. géog.»
Perte
«Ent. géog.»
Écluse
Modélisation :
Nature = cascade
Sélection :
largeur > 7,5 m
«Objet de la base»
Surface d’eau
Terrain
«Objet de la base»
Point d’eau
«Ent. géog.»
Él t du réseau hydro
0..1
«Ent. géog.»
Cours d'eau
*
«Ent. géog.»
Fossé
«Ent. géog.»
Nœud réseau
«Ent. géog.»
Acc. parcours
affluent de
«Ent. géog.»
Aqueduc
«Objet de la base»
Tronçon hydro
«Ent. géog.»
Diffluent
«Ent. géog.»
Source
«Ent. géog.»
Rivière
«Ent. géog.»
Barrage
«Ent. géog.»
Cascade
«Ent. géog.»
Confluent
«Ent. géog.»
Embouchure
«Ent. géog.»
Perte
«Ent. géog.»
Écluse
«Objet de la base»
Nœud hydro
«Objet de la base»
Cours d'eau
Sélection :
largeur > 50 m
Modélisation :
poste = 51 (eau libre)
Modélisation :
attribut Nature = source
Modélisation :
axe à résolution 2,5 m
artificiel = oui
découpé en tronçons aux
changements d’attributs
Sélection :
a un toponyme
«Objet de la base»
Cours d'eau nommé
«Ent. géog.»
Canal
BD Topo Pays
«Objet de la base»
Tronçon cours d’eau
«Objet de la base»
Z.O.S.
BD Carto
Figure 8. Exemple d’instanciation du métamodèle pour l’hydrographie de la BDTopo
Pays et de la BD Carto
254
Géomatique – 14/2004. Les ontologies spatiales
Seules des modifications mineures ont été nécessaires pour adapter l’ontologie de
façon à pouvoir l’utiliser pour les deux bases, ce qui met bien en valeur le fait qu’audelà des différences de modélisation, elles représentent une même réalité et utilisent
les mêmes concepts. Ainsi, par exemple, l’absence de classe « nœud hydrographique »
dans la BDTopo se traduit par le fait que les accidents de parcours y sont représentés
par des tronçons, ce qui provoque une différence apparemment importante entre les
structures des deux spécifications. Grâce à notre modèle, on peut voir immédiatement
que cette différence n’est que superficielle et que les deux bases représentent bien les
trois mêmes types d’accidents de parcours (barrage, écluse et cascade).
Cette représentation des spécifications a également l’avantage de faire clairement
apparaître la multireprésentation de certaines entités, ainsi le fait qu’une rivière soit
dans certains cas représentée simultanément par des tronçons et des surfaces est directement apparent sur le diagramme.
Sélection
Contraintes
Barrage
Barrage
Barrage
Barrage
Barrage
Création par
fonction de
modélisation
Noeud
Hydrographique
Figure 9. Processus d’instanciation de la classe Nœud hydrographique à partir des
barrages présents sur le terrain
En ce qui concerne les liens d’appariement, prenons l’exemple du concept Barrage. Ce concept est relié à la classe Nœud hydrographique de la BDCarto et à la
classe Tronçon de cours d’eau de la BDTopo Pays (figure 8). Pour le premier de ces
liens, la contrainte de sélection est une contrainte complexe d’opérateur logique “ou”
et composée de :
1) une contrainte géométrique portant sur la propriété longueur du barrage, avec
pour opérateur “>” et pour seuil la valeur “200 m” ;
2) une contrainte de relation topologique “contact” liée au concept de lac.
Ceci indique que les barrages saisis dans la BDCarto sont les barrages de plus de
200 m de long ainsi que les barrages de retenue (délimitant un lac). La fonction de
modélisation correspondante peut être exprimée ainsi : « Créer un objet de la classe
Nœud hydrographique, dont la géométrie est le point situé au milieu du barrage (à
50 m près) et sur l’axe du cours d’eau, dont l’attribut Nature vaut 1 (barrage), dont
l’attribut Cote est égal au maximum de la propriété Altitude du barrage, et dont l’at-
Spécifications de BD géographiques
255
tribut Toponyme est égal à la propriété Toponyme du barrage. » La figure 9 résume le
processus explicité ci-dessus.
Pour le second lien (avec le tronçon de cours d’eau BDTopo Pays), on n’a pas de
contrainte de sélection (tous les barrages sont saisis). La fonction de modélisation peut
s’exprimer : « Créer un objet de la classe Tronçon de cours d’eau, dont la géométrie
est l’arc connectant les parties de l’axe du cours d’eau situées de part et d’autre du
barrage, dont l’attribut Nature vaut “barrage” et dont l’attribut Fictif vaut “oui”. »
Par ailleurs, comme les propriétés des entités peuvent dépendre de la position, il
peut a priori en aller de même pour les résultats des fonctions donnant les valeurs des
attributs, par exemple pour la propriété « navigable » d’un cours d’eau et l’attribut
correspondant. Les spécifications précisent comment agir dans ces cas (par exemple
prendre la valeur moyenne, ou créer plusieurs instances) et il n’y a qu’un nombre
limité de possibilités, qui seront représentées par des primitives. On aura donc parmi
ces primitives par exemple « découper en tronçons aux changements d’attributs avec
agrégation pour les tronçons de moins de [paramètre] ».
5. Conclusion
Nous avons proposé dans cet article un modèle pour formaliser le contenu des
spécifications de bases de données géographiques. Le métamodèle UML permet de
construire des formalisations de spécifications comportant le volet ontologie, le volet schéma conceptuel, et les appariements entre les deux correspondant au processus
d’acquisition. Nous espérons qu’un tel modèle permettra une meilleure compréhension des données, et en particulier qu’il facilitera la comparaison de plusieurs jeux de
spécifications.
Les essais d’instanciation menés jusqu’à présent ont donné des résultats encourageants ; nous comptons tester le modèle sur des exemples plus nombreux portant sur
des thèmes différents, et sur d’autres bases de données. À plus long terme, ce modèle sera implanté sous la forme d’un système interactif par l’intermédiaire duquel les
liens d’appariement entre ontologie et schémas conceptuels (contrainte de sélection et
fonction de modélisation) seront définis.
La perspective principale de ce travail est l’étude de l’utilisation des relations entre
les schémas particuliers et l’ontologie afin d’en déduire des correspondances directement entre les différents schémas, puis des règles de correspondance entre les données
elles-mêmes, afin à terme de permettre l’intégration de plusieurs bases de données
géographiques.
6. Bibliographie
Batini C., Lenzerini M., « A Methodology for Data Schema Integration in the E-R Model »,
IEEE Transactions on Software Engineering, nov 1984.
256
Géomatique – 14/2004. Les ontologies spatiales
Batini C., Lenzerini M., Navathe S., « A Comparative Analysis of Methodologies for Database
Schema Integration », ACM Computing Surveys, vol. 18, no 4, 1986, p. 323–364.
Chawathe S., Garcia-Molina H., Hammer J., Ireland K., Papakonstantinou Y., Ullman J. D.,
Widom J., « The TSIMMIS project : Integration of heterogenous information sources »,
16th Meeting of the Information Processing Society of Japan, 1994, p. 7–18.
Chawathe S., Garcia-Molina H., Hammer J., Ireland K., Papakonstantinou Y., Ullman J. D.,
Widom J., « The TSIMMIS project : Integration of heterogenous information sources »,
Journal of Intelligent Information Systems, vol. 8, no 2, 1997.
Devogele T., « Processus d’intégration et d’appariement de bases de données géographiques ;
application à une base de données routières multi-échelles », Thèse de doctorat, Université
de Versailles, dec 1997.
Devogele T., Parent C., Spaccapietra S., « On spatial database integration », International
Journal of Geographical Information Science, vol. 12, no 4, 1998, p. 335–352.
Fougères A.-J., Trigano P., « Construction de spécifications formelles à partir des spécifications rédigées en langage naturel », Document numérique, vol. 3, no 3/4, 1999, p. 215–239.
Friis-Christensen A., Skogan D., Jensen C. S., Skagestein G., Tryfona N., « Management
of Multiply Represented Geographic Entities », Proceedings of International Database
Engineering and Applications Symposium (IDEAS), Edmonton, Canada, IEEE Press, 2002,
p. 150–159.
Garcia-Molina H., Papakonstantinou Y., Quass D., « The TSIMMIS Approach to Mediation :
Data Models and Languages », Journal of Intelligent Information System (JIIS), vol. 8, no
2, 1997.
Gruber T. R., « Toward Principles for the Design of Ontologies Used for Knowledge Sharing », Guarino N., Poli R., Eds., Formal Ontology in Conceptual Analysis and Knowledge
Representation, Kluwer Academic Publishers, 1993.
Guarino N., Giaretta P., « Ontologies and Knowledge Bases : Towards a Terminological Clarification », Mars N. J., Ed., Towards Very Large Knowledge Bases, IOS Press, Amsterdam,
1995.
Kirk T., Levy A. Y., Sagiv Y., D.Srivastava, « The Information Manifold », AAAI Spring Symposium on Information Gathering from Heterogeneous, Distributed Environments, 1995.
Li Q., McLeod D., « Managing Interdependencies among Objects in Federated Databases »,
Proceedings of the IFIP Database Semantics Conference on Interoperable Database Systems (DS-5), nov 1992, p. 331–347.
Mustière S., Gesbert N., Sheeren D., « A Formal Model for the Specifications of Geographical
Databases », Levachkine S., Serra J., Egenhofer M., Eds., Semantic Processing of Spatial
Data, proceedings of workshop GeoPro 2003, 2003, p. 152–159.
Parent C., Spaccapietra S., Zimanyi E., Donini P., Plazanet C., Vangenot C., Rognon N.,
Pouliot J., Crausaz P.-A., « MADS : un modèle conceptuel pour des applications spatiotemporelles », Revue internationale de géomatique, vol. 7, no 3-4, 1997.
Parent C., Spaccapietra S., « Database Integration : The Key to Data Interoperability », Spaccapietra S., Tari Z., Eds., Advances in Object Oriented Data Modeling, MIT Press, 2000.
Partridge C., « The Role of Ontology in Integrating Semantically Heterogeneous Databases »,
rapport no 05/02, June 2002, LADSEB-CNR, Padova.
Rodriguez M. A., Egenhofer M. J., Rugg R. D., « Assessing Semantic Similarity Among Geospatial Feature Class Definitions », Proceedings of Interop’99, Zürich, no 1580 Lecture
Notes in Computer Science, Springer-Verlag, 1999, p. 189–202.
Spécifications de BD géographiques
257
Sheeren D., « L’appariement pour la constitution de bases de données géographiques multirésolutions : vers une interprétation des différences de représentations », Revue internationale de géomatique, vol. 12, no 2/2002, 2002, p. 151–168.
Sheth A. P., « Changing Focus on Interoperability in Information Systems : From System,
Syntax, Structure to Semantics », Goodchild M. F., Egenhofer M. J., Fegeas R., Kottman
C. A., Eds., Interoperating Geographic Information Systems, Kluwer, 1998.
Sheth A. P., Larson J. A., « Federated Database Systems for Managing Distributed, Heterogeneous and Autonomous Databases », ACM Computing Surveys, vol. 22, no 3, 1990,
p. 183– 236.
Smith B., Mark D. M., « Ontology and Geographic Kinds », Poiker, Chrisman, Eds., Proceedings of the Eighth International Symposium on Spatial Data Handling, International
Geographical Union, Geographic Information Science Study Group, 1998, p. 308–320.
« BDTopo Pays/Agglo, spécifications de contenu version 1.2 », 2002.
Spivey J. M., The Z Notation: A Reference Manual, Prentice Hall International, second édition,
1992.
Vangenot C., « Multi-représentation dans les bases de données géographiques », Thèse de
doctorat, École polytechnique fédérale de Lausanne, 2001.
Wiederhold G., « Mediators in the Architecture of Future Information Systems », Computer
Journal, vol. 25, 1992, p. 38–49.
Téléchargement