Apport des spécifications pour les modèles de bases de données

Apport des spécifications pour les modèles
de bases de données géographiques
Nils Gesbert*Thérèse Libourel** Sébastien Mustière*
*Laboratoire COGIT, IGN,
2/4 avenue Pasteur,
F-94165 Saint-Mandé cedex
{nils.gesbert, sebastien.mustiere}@ign.fr
** Laboratoire d’informatique, de robotique et de microélectronique de Montpellier,
161 rue Ada,
F-34392 Montpellier cedex 5
libourel@lirmm.fr
RÉSUMÉ. Les bases de données topographiques ont pour particularités de ne pas représenter
exhaustivement leur domaine et de modéliser ce qu’elles représentent de façon non évidente
(faisant appel au savoir-faire des opérateurs qui saisissent les données). Ces particularités
conduisent à l’existence de spécifications très volumineuses sans l’aide desquelles il n’est pas
possible d’interpréter correctement et précisément la signification des données : le modèle
conceptuel de la base ne suffit pas. Or ces spécifications n’existent que sous forme de texte.
Nous proposons dans cet article de les formaliser en les considérant comme détentrices d’une
part d’une réelle ontologie du domaine et d’autre part de la description des liens d’appariement
entre cette ontologie et les schémas des bases de données. Le principal objectif visé par cette
formalisation est de faciliter l’intégration de plusieurs bases géographiques.
ABSTRACT. Topographical databases are particular in that they do not represent their domain
exhaustively, and in that the way they modelise the things they represent is not obvious and
relies on the knowledge of the operators who capture the data. These particuliarities lead to
the existence of huge specifications, which are essential for a precise and correct interpretation
of the data’s meaning: the conceptual model of the databases is not enough. But these specifi-
cations only exist in a textual form. We propose in this article to formalise them by seeing them
as containing, first, an ontology of the domain and, second, the description of the matching
links between this ontology and the conceptual schemas. The first goal of this formalisation is
facilitating integration of several geographical databases.
MOTS-CLÉS : BD géographiques, spécifications, ontologie, modélisation, terrain conceptualisé.
KEYWORDS: Geographical DBs, specifications, ontology, modelisation, conceptualised ground.
Géomatique – 14/2004. Les ontologies spatiales, pages 239 à 257
240 Géomatique – 14/2004. Les ontologies spatiales
1. Introduction
Les bases de données géographiques ont plusieurs particularités qui les distinguent
des bases de données classiques. L’une des principales est la complexité du processus
d’acquisition des données qui met en œuvre une expertise et un savoir-faire, lesquels
sont consignés au sein de spécifications plus ou moins complètes. Dans le contexte de
l’Institut géographique national (IGN), les bases de données vecteur (dont entre autres
une base à petite échelle, la BDCarto; une base à grande échelle, BDTopo ; une base
de données routière à échelle variable, Géoroute) sont décrites par des spécifications
volumineuses, sous forme de texte, qui complètent l’information fournie par le modèle
conceptuel de la base de données.
Nous proposons une démarche consistant à extraire des spécifications la séman-
tique nécessaire à l’enrichissement du modèle conceptuel; l’objectif poursuivi à long
terme est l’intégration de données issues de bases hétérogènes (en particulier, de bases
d’échelles différentes). Les concepts communs apparaissant dans les diverses spécifi-
cations forment une ontologie du domaine sur laquelle peut s’appuyer le processus.
Nous présenterons dans la section 2 tout d’abord le contexte de notre travail et les
particularités des bases de données auxquelles nous nous intéressons, puis les spéci-
fications, leur rôle dans le processus d’acquisition et leur importance pour l’interpré-
tation des données. Nous exposerons ensuite, section 3, la démarche préconisée pour
utiliser au mieux les spécifications. La section 4 présentera la formalisation de la dé-
marche sous forme de métamodèle objet et détaillera les éléments de ce métamodèle.
2. Contexte
2.1. Les bases de données topographiques
Les bases de données topographiques ont deux particularités notoires. Tout d’a-
bord, ces bases ne représentent pas directement le monde réel ni une partie de celui-ci
mais une certaine conceptualisation de ce monde, laquelle n’est pas triviale. En effet,
(Smith et al., 1998) mentionne un certain nombre de spécificités qui distinguent les
concepts géographiques des autres types de concepts : tout d’abord, un objet géogra-
phique est indissociable par nature de l’espace où il se trouve et l’on ne peut séparer le
« quoi » du « où »; les propriétés géométriques et topologiques, en particulier la notion
de frontière, sont fondamentales. D’autre part, l’existence de certains objets mésosco-
piques, tels que les baies ou les péninsules, est le fruit de la cognition humaine. Les
auteurs décrivent de tels concepts comme « des ombres projetées par le raisonnement
et le langage humains sur l’espace géographique ».
On peut remarquer ensuite que cette conceptualisation dépend du point de vue, et
en particulier de l’échelle, ou plutôt, dans le cas des bases de données, de la résolu-
tion. Certains concepts ne peuvent exister qu’à certaines résolutions, par exemple il
est impossible de définir la limite d’une forêt à un mètre près ou d’en individualiser
les arbres à une résolution de 20 m. D’autres peuvent exister à toutes les résolutions
Spécifications de BD géographiques 241
considérées, mais leurs instances changent de nature, ainsi un fleuve qui se divise en
plusieurs bras quand on le regarde à 100 m près peut ne plus le faire (dans le terrain
conceptualisé, s’entend) lorsqu’on le regarde avec une résolution d’un kilomètre. En
quelque sorte, la conceptualisation du terrain à différentes résolutions correspond à ce
qu’on voit depuis différentes distances : face à un mur, on voit des briques; depuis le
sommet d’une colline, on peut apercevoir une ville. Toutefois, on peut définir un « ter-
rain conceptualisé » abstrait dont ces diverses conceptualisations seraient des vues à
une résolution donnée. C’est notamment intéressant dans le cas d’une base de données
multiéchelles, ainsi que dans un contexte où plusieurs bases de données coexistent
pour représenter une même partie du monde réel : il est plus pratique de considérer
que ces bases représentent différentes vues d’une même entité abstraite issue d’une
conceptualisation commune du monde réel plutôt que différentes conceptualisations
de ce monde.
Leur seconde particularité est de ne pas représenter exhaustivement leur domaine :
il existe des règles de sélection déterminant quelles entités du terrain conceptualisé
doivent ou ne doivent pas apparaître dans la base de données. Ces règles peuvent
s’appuyer sur divers critères tels que, souvent, la taille de l’objet; mais la notion sous-
jacente est en général celle plus ou moins abstraite de trait caractéristique du paysage.
Ainsi, on fera souvent apparaître un bâtiment isolé même s’il est petit; mais on n’in-
diquera pas individuellement tous les étangs d’une zone marécageuse.
BD
Monde réel
concerné
schéma
conceptuel
modélisation
acquisition
Figure 1. Conception d’une base de données classique
Ces particularités du domaine de l’information géographique se traduisent dans le
processus de constitution de la base. Le processus habituel de conception d’une base
de données classique passe par les étapes suivantes (figure 1) :
modélisation de la portion de monde réel concernée en s’appuyant sur un modèle
et le formalisme associé (modèle relationnel, objet ou autre). Cette phase produit un
242 Géomatique – 14/2004. Les ontologies spatiales
schéma conceptuel de la future base et une description de la sémantique sous-jacente
via un dictionnaire de données ;
acquisition des données. Celle-ci se fait par instanciation du schéma conceptuel,
c’est-à-dire création de données conformes aux descriptions du schéma.
Par exemple, si nous souhaitons réaliser une base de données pour une biblio-
thèque, la phase de conceptualisation produira un schéma dans lequel figureront
les concepts d’ouvrage, d’exemplaire, d’auteur, d’emprunt, présentés sous forme de
classes si on adopte l’approche objet, et les données stockées correspondront au ca-
talogue de la bibliothèque et à son fonds en termes d’exemplaires disponibles. La
conception d’une base de données topographique correspond souvent à un processus
plus complexe (figure 2) :
BD
Monde réel
concerné
schéma
conceptuel
expertise spécifications
modélisation
acquisition
résolution nominale
résolution nominale
Figure 2. Conception d’une base de données géographique
l’expertise produit le terrain conceptualisé que nous pouvons considérer comme
une ontologie du domaine;
la phase de modélisation produit un schéma conceptuel qui décrit une vue de
ce terrain conceptualisé à une résolution donnée ventuellement plusieurs s’il s’agit
d’une base de données multiéchelles);
– la phase d’acquisition quant à elle dépend également de la résolution et fait de
plus intervenir une étape de sélection afin de représenter uniquement ce qui est perti-
nent et de ne pas surcharger la base d’objets sans importance. Cette acquisition peut
être réalisée à partir d’instrumentations diverses (relevés terrain, restitution photo-
grammétrique, etc.).
Spécifications de BD géographiques 243
On notera que tous ces aspects spécifiques des bases de données géographiques
ont un point commun : une liberté importante est a priori laissée pour l’interprétation
du monde. Il existe, en tous cas à l’IGN, un savoir-faire et une expertise communs
qui limitent les variations dans une certaine mesure mais il est néanmoins nécessaire
de rédiger des spécifications précises afin de restreindre cette liberté. Ces spécifica-
tions sont détentrices de l’expertise du domaine et constituent à nos yeux la clef du
processus d’instanciation des bases géographiques et, au-delà, de leur intégration.
2.2. Intégration de bases de données géographiques
La problématique de l’intégration de bases de données (Batini et al., 1984, Batini
et al., 1986, Sheth et al., 1990, Li et al., 1992, Sheth, 1998, Parent et al., 2000) connaît
un regain d’intérêt depuis les approches « médiation » (Wiederhold, 1992, Kirk et al.,
1995, Chawathe et al., 1994, Chawathe et al., 1997, Garcia-Molina et al., 1997). Cette
approche requiert un niveau méta. Traditionnellement, ce niveau décrit les schémas
conceptuels issus de bases hétérogènes (voire un schéma intégrateur) et des liens d’ap-
pariement entre ces schémas établis à partir de la connaissance du domaine (ontolo-
gie). Dans le cas spécifique des bases de données géographiques, (Devogele et al.,
1998) donne plusieurs raisons montrant l’intérêt d’une telle intégration; notamment,
le coût de l’acquisition des données rend souhaitable de faciliter leur réutilisation, et
l’hétérogénéité des données actuelles est un obstacle à cette réutilisation, sans compter
que les diverses sources de données peuvent présenter des incohérences. D’autre part,
cette intégration simplifierait grandement les mises à jour. L’article sus-cité propose
une approche de cette intégration par fédération de bases de données : détermina-
tion et description des correspondances entre les différents schémas des bases puis
réalisation d’un schéma intégré, sans modification des données. Cette approche est
détaillée plus avant dans (Devogele, 1997) où est également présenté un algorithme
d’appariement, pour le cas particulier des données routières, permettant l’instancia-
tion au niveau des données des correspondances inter-schémas, et donc l’instanciation
du schéma intégré. Il existe également des travaux sur la notion de « distance séman-
tique » (Rodriguez et al., 1999).
L’intégration pour les bases de données géographiques peut concerner une autre
spécificité de l’information géographique : la multireprésentation. Dans une base de
données intégrée multireprésentations, un objet don possède plusieurs représenta-
tions à des résolutions différentes. (Vangenot, 2001) étudie ce type de bases de don-
nées (qui n’existe pas encore de façon importante) et propose un modèle de gestion de
la multireprésentation (non limité à la multirésolution) avec un système d’estampilles.
(Friis-Christensen et al., 2002) propose une approche plus spécifique et technique de
la multireprésentation où la base de données multireprésentation est un cas particulier
de base de données fédérée (« un ensemble de bases de données composantes qui co-
opèrent mais sont autonomes. ») L’article est orienté vers la gestion d’une telle base
de données et en particulier le maintien de la cohérence entre les différentes représen-
tations.
1 / 19 100%

Apport des spécifications pour les modèles de bases de données

La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !