Apport des spécifications pour les modèles de bases de données

Téléchargement

Apport des spéciﬁcations pour les modèles

de bases de données géographiques

Nils Gesbert*—Thérèse Libourel** —Sébastien Mustière*

*Laboratoire COGIT, IGN,

2/4 avenue Pasteur,

F-94165 Saint-Mandé cedex

{nils.gesbert, sebastien.mustiere}@ign.fr

** Laboratoire d’informatique, de robotique et de microélectronique de Montpellier,

161 rue Ada,

F-34392 Montpellier cedex 5

libourel@lirmm.fr

RÉSUMÉ. Les bases de données topographiques ont pour particularités de ne pas représenter

exhaustivement leur domaine et de modéliser ce qu’elles représentent de façon non évidente

(faisant appel au savoir-faire des opérateurs qui saisissent les données). Ces particularités

conduisent à l’existence de spéciﬁcations très volumineuses sans l’aide desquelles il n’est pas

possible d’interpréter correctement et précisément la signiﬁcation des données : le modèle

conceptuel de la base ne sufﬁt pas. Or ces spéciﬁcations n’existent que sous forme de texte.

Nous proposons dans cet article de les formaliser en les considérant comme détentrices d’une

part d’une réelle ontologie du domaine et d’autre part de la description des liens d’appariement

entre cette ontologie et les schémas des bases de données. Le principal objectif visé par cette

formalisation est de faciliter l’intégration de plusieurs bases géographiques.

ABSTRACT. Topographical databases are particular in that they do not represent their domain

exhaustively, and in that the way they modelise the things they represent is not obvious and

relies on the knowledge of the operators who capture the data. These particuliarities lead to

the existence of huge speciﬁcations, which are essential for a precise and correct interpretation

of the data’s meaning: the conceptual model of the databases is not enough. But these speciﬁ-

cations only exist in a textual form. We propose in this article to formalise them by seeing them

as containing, ﬁrst, an ontology of the domain and, second, the description of the matching

links between this ontology and the conceptual schemas. The ﬁrst goal of this formalisation is

facilitating integration of several geographical databases.

MOTS-CLÉS : BD géographiques, spéciﬁcations, ontologie, modélisation, terrain conceptualisé.

KEYWORDS: Geographical DBs, speciﬁcations, ontology, modelisation, conceptualised ground.

Géomatique – 14/2004. Les ontologies spatiales, pages 239 à 257

240 Géomatique – 14/2004. Les ontologies spatiales

1. Introduction

Les bases de données géographiques ont plusieurs particularités qui les distinguent

des bases de données classiques. L’une des principales est la complexité du processus

d’acquisition des données qui met en œuvre une expertise et un savoir-faire, lesquels

sont consignés au sein de spéciﬁcations plus ou moins complètes. Dans le contexte de

l’Institut géographique national (IGN), les bases de données vecteur (dont entre autres

une base à petite échelle, la BDCarto; une base à grande échelle, BDTopo ; une base

de données routière à échelle variable, Géoroute) sont décrites par des spéciﬁcations

volumineuses, sous forme de texte, qui complètent l’information fournie par le modèle

conceptuel de la base de données.

Nous proposons une démarche consistant à extraire des spéciﬁcations la séman-

tique nécessaire à l’enrichissement du modèle conceptuel; l’objectif poursuivi à long

terme est l’intégration de données issues de bases hétérogènes (en particulier, de bases

d’échelles différentes). Les concepts communs apparaissant dans les diverses spéciﬁ-

cations forment une ontologie du domaine sur laquelle peut s’appuyer le processus.

Nous présenterons dans la section 2 tout d’abord le contexte de notre travail et les

particularités des bases de données auxquelles nous nous intéressons, puis les spéci-

ﬁcations, leur rôle dans le processus d’acquisition et leur importance pour l’interpré-

tation des données. Nous exposerons ensuite, section 3, la démarche préconisée pour

utiliser au mieux les spéciﬁcations. La section 4 présentera la formalisation de la dé-

marche sous forme de métamodèle objet et détaillera les éléments de ce métamodèle.

2. Contexte

2.1. Les bases de données topographiques

Les bases de données topographiques ont deux particularités notoires. Tout d’a-

bord, ces bases ne représentent pas directement le monde réel ni une partie de celui-ci

mais une certaine conceptualisation de ce monde, laquelle n’est pas triviale. En effet,

(Smith et al., 1998) mentionne un certain nombre de spéciﬁcités qui distinguent les

concepts géographiques des autres types de concepts : tout d’abord, un objet géogra-

phique est indissociable par nature de l’espace où il se trouve et l’on ne peut séparer le

« quoi » du « où »; les propriétés géométriques et topologiques, en particulier la notion

de frontière, sont fondamentales. D’autre part, l’existence de certains objets mésosco-

piques, tels que les baies ou les péninsules, est le fruit de la cognition humaine. Les

auteurs décrivent de tels concepts comme « des ombres projetées par le raisonnement

et le langage humains sur l’espace géographique ».

On peut remarquer ensuite que cette conceptualisation dépend du point de vue, et

en particulier de l’échelle, ou plutôt, dans le cas des bases de données, de la résolu-

tion. Certains concepts ne peuvent exister qu’à certaines résolutions, par exemple il

est impossible de déﬁnir la limite d’une forêt à un mètre près ou d’en individualiser

les arbres à une résolution de 20 m. D’autres peuvent exister à toutes les résolutions

Spéciﬁcations de BD géographiques 241

considérées, mais leurs instances changent de nature, ainsi un ﬂeuve qui se divise en

plusieurs bras quand on le regarde à 100 m près peut ne plus le faire (dans le terrain

conceptualisé, s’entend) lorsqu’on le regarde avec une résolution d’un kilomètre. En

quelque sorte, la conceptualisation du terrain à différentes résolutions correspond à ce

qu’on voit depuis différentes distances : face à un mur, on voit des briques; depuis le

sommet d’une colline, on peut apercevoir une ville. Toutefois, on peut déﬁnir un « ter-

rain conceptualisé » abstrait dont ces diverses conceptualisations seraient des vues à

une résolution donnée. C’est notamment intéressant dans le cas d’une base de données

multiéchelles, ainsi que dans un contexte où plusieurs bases de données coexistent

pour représenter une même partie du monde réel : il est plus pratique de considérer

que ces bases représentent différentes vues d’une même entité abstraite issue d’une

conceptualisation commune du monde réel plutôt que différentes conceptualisations

de ce monde.

Leur seconde particularité est de ne pas représenter exhaustivement leur domaine :

il existe des règles de sélection déterminant quelles entités du terrain conceptualisé

doivent ou ne doivent pas apparaître dans la base de données. Ces règles peuvent

s’appuyer sur divers critères tels que, souvent, la taille de l’objet; mais la notion sous-

jacente est en général celle plus ou moins abstraite de trait caractéristique du paysage.

Ainsi, on fera souvent apparaître un bâtiment isolé même s’il est petit; mais on n’in-

diquera pas individuellement tous les étangs d’une zone marécageuse.

Monde réel

concerné

schéma

conceptuel

modélisation

acquisition

Figure 1. Conception d’une base de données classique

Ces particularités du domaine de l’information géographique se traduisent dans le

processus de constitution de la base. Le processus habituel de conception d’une base

de données classique passe par les étapes suivantes (ﬁgure 1) :

– modélisation de la portion de monde réel concernée en s’appuyant sur un modèle

et le formalisme associé (modèle relationnel, objet ou autre). Cette phase produit un

242 Géomatique – 14/2004. Les ontologies spatiales

schéma conceptuel de la future base et une description de la sémantique sous-jacente

via un dictionnaire de données ;

– acquisition des données. Celle-ci se fait par instanciation du schéma conceptuel,

c’est-à-dire création de données conformes aux descriptions du schéma.

Par exemple, si nous souhaitons réaliser une base de données pour une biblio-

thèque, la phase de conceptualisation produira un schéma dans lequel ﬁgureront

les concepts d’ouvrage, d’exemplaire, d’auteur, d’emprunt, présentés sous forme de

classes si on adopte l’approche objet, et les données stockées correspondront au ca-

talogue de la bibliothèque et à son fonds en termes d’exemplaires disponibles. La

conception d’une base de données topographique correspond souvent à un processus

plus complexe (ﬁgure 2) :

Monde réel

concerné

schéma

conceptuel

expertise spéciﬁcations

modélisation

acquisition

résolution nominale

Figure 2. Conception d’une base de données géographique

– l’expertise produit le terrain conceptualisé que nous pouvons considérer comme

une ontologie du domaine;

– la phase de modélisation produit un schéma conceptuel qui décrit une vue de

ce terrain conceptualisé à une résolution donnée (éventuellement plusieurs s’il s’agit

d’une base de données multiéchelles);

– la phase d’acquisition quant à elle dépend également de la résolution et fait de

plus intervenir une étape de sélection aﬁn de représenter uniquement ce qui est perti-

nent et de ne pas surcharger la base d’objets sans importance. Cette acquisition peut

être réalisée à partir d’instrumentations diverses (relevés terrain, restitution photo-

grammétrique, etc.).

Spéciﬁcations de BD géographiques 243

On notera que tous ces aspects spéciﬁques des bases de données géographiques

ont un point commun : une liberté importante est a priori laissée pour l’interprétation

du monde. Il existe, en tous cas à l’IGN, un savoir-faire et une expertise communs

qui limitent les variations dans une certaine mesure mais il est néanmoins nécessaire

de rédiger des spéciﬁcations précises aﬁn de restreindre cette liberté. Ces spéciﬁca-

tions sont détentrices de l’expertise du domaine et constituent à nos yeux la clef du

processus d’instanciation des bases géographiques et, au-delà, de leur intégration.

2.2. Intégration de bases de données géographiques

La problématique de l’intégration de bases de données (Batini et al., 1984, Batini

et al., 1986, Sheth et al., 1990, Li et al., 1992, Sheth, 1998, Parent et al., 2000) connaît

un regain d’intérêt depuis les approches « médiation » (Wiederhold, 1992, Kirk et al.,

1995, Chawathe et al., 1994, Chawathe et al., 1997, Garcia-Molina et al., 1997). Cette

approche requiert un niveau méta. Traditionnellement, ce niveau décrit les schémas

conceptuels issus de bases hétérogènes (voire un schéma intégrateur) et des liens d’ap-

pariement entre ces schémas établis à partir de la connaissance du domaine (ontolo-

gie). Dans le cas spéciﬁque des bases de données géographiques, (Devogele et al.,

1998) donne plusieurs raisons montrant l’intérêt d’une telle intégration; notamment,

le coût de l’acquisition des données rend souhaitable de faciliter leur réutilisation, et

l’hétérogénéité des données actuelles est un obstacle à cette réutilisation, sans compter

que les diverses sources de données peuvent présenter des incohérences. D’autre part,

cette intégration simpliﬁerait grandement les mises à jour. L’article sus-cité propose

une approche de cette intégration par fédération de bases de données : détermina-

tion et description des correspondances entre les différents schémas des bases puis

réalisation d’un schéma intégré, sans modiﬁcation des données. Cette approche est

détaillée plus avant dans (Devogele, 1997) où est également présenté un algorithme

d’appariement, pour le cas particulier des données routières, permettant l’instancia-

tion au niveau des données des correspondances inter-schémas, et donc l’instanciation

du schéma intégré. Il existe également des travaux sur la notion de « distance séman-

tique » (Rodriguez et al., 1999).

L’intégration pour les bases de données géographiques peut concerner une autre

spéciﬁcité de l’information géographique : la multireprésentation. Dans une base de

données intégrée multireprésentations, un objet donné possède plusieurs représenta-

tions à des résolutions différentes. (Vangenot, 2001) étudie ce type de bases de don-

nées (qui n’existe pas encore de façon importante) et propose un modèle de gestion de

la multireprésentation (non limité à la multirésolution) avec un système d’estampilles.

(Friis-Christensen et al., 2002) propose une approche plus spéciﬁque et technique de

la multireprésentation où la base de données multireprésentation est un cas particulier

de base de données fédérée (« un ensemble de bases de données composantes qui co-

opèrent mais sont autonomes. ») L’article est orienté vers la gestion d’une telle base

de données et en particulier le maintien de la cohérence entre les différentes représen-

tations.

1 / 19 100%

Documents connexes

SystÃ¨me de commutation avec Soft Start 13 kW

procedure negociee avec publicite europeenne

OBJECTIF DU COURS

procedure negociee avec publicite europeenne

Les spécifications techniques

la qualité

Régulateur numérique FG-32 - La société GA-MM

Méthodes Cycle de vie du logiciel

Transmetteur 2-fils programmable (Pt100)

Référence de publication : EuropeAid/132781/D/SUP/BI :

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d'utilisation

Apport des spécifications pour les modèles de bases de données

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Apport des spécifications pour les modèles de bases de données

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib