Apport des spécifications pour les modèles de bases de données géographiques Nils Gesbert* — Thérèse Libourel** — Sébastien Mustière* * Laboratoire COGIT, IGN, 2/4 avenue Pasteur, F-94165 Saint-Mandé cedex {nils.gesbert, sebastien.mustiere}@ign.fr ** Laboratoire d’informatique, de robotique et de microélectronique de Montpellier, 161 rue Ada, F-34392 Montpellier cedex 5 [email protected] Les bases de données topographiques ont pour particularités de ne pas représenter exhaustivement leur domaine et de modéliser ce qu’elles représentent de façon non évidente (faisant appel au savoir-faire des opérateurs qui saisissent les données). Ces particularités conduisent à l’existence de spécifications très volumineuses sans l’aide desquelles il n’est pas possible d’interpréter correctement et précisément la signification des données : le modèle conceptuel de la base ne suffit pas. Or ces spécifications n’existent que sous forme de texte. Nous proposons dans cet article de les formaliser en les considérant comme détentrices d’une part d’une réelle ontologie du domaine et d’autre part de la description des liens d’appariement entre cette ontologie et les schémas des bases de données. Le principal objectif visé par cette formalisation est de faciliter l’intégration de plusieurs bases géographiques. RÉSUMÉ. Topographical databases are particular in that they do not represent their domain exhaustively, and in that the way they modelise the things they represent is not obvious and relies on the knowledge of the operators who capture the data. These particuliarities lead to the existence of huge specifications, which are essential for a precise and correct interpretation of the data’s meaning: the conceptual model of the databases is not enough. But these specifications only exist in a textual form. We propose in this article to formalise them by seeing them as containing, first, an ontology of the domain and, second, the description of the matching links between this ontology and the conceptual schemas. The first goal of this formalisation is facilitating integration of several geographical databases. ABSTRACT. MOTS-CLÉS : BD géographiques, spécifications, ontologie, modélisation, terrain conceptualisé. KEYWORDS: Geographical DBs, specifications, ontology, modelisation, conceptualised ground. Géomatique – 14/2004. Les ontologies spatiales, pages 239 à 257 240 Géomatique – 14/2004. Les ontologies spatiales 1. Introduction Les bases de données géographiques ont plusieurs particularités qui les distinguent des bases de données classiques. L’une des principales est la complexité du processus d’acquisition des données qui met en œuvre une expertise et un savoir-faire, lesquels sont consignés au sein de spécifications plus ou moins complètes. Dans le contexte de l’Institut géographique national (IGN), les bases de données vecteur (dont entre autres une base à petite échelle, la BDCarto ; une base à grande échelle, BDTopo ; une base de données routière à échelle variable, Géoroute) sont décrites par des spécifications volumineuses, sous forme de texte, qui complètent l’information fournie par le modèle conceptuel de la base de données. Nous proposons une démarche consistant à extraire des spécifications la sémantique nécessaire à l’enrichissement du modèle conceptuel ; l’objectif poursuivi à long terme est l’intégration de données issues de bases hétérogènes (en particulier, de bases d’échelles différentes). Les concepts communs apparaissant dans les diverses spécifications forment une ontologie du domaine sur laquelle peut s’appuyer le processus. Nous présenterons dans la section 2 tout d’abord le contexte de notre travail et les particularités des bases de données auxquelles nous nous intéressons, puis les spécifications, leur rôle dans le processus d’acquisition et leur importance pour l’interprétation des données. Nous exposerons ensuite, section 3, la démarche préconisée pour utiliser au mieux les spécifications. La section 4 présentera la formalisation de la démarche sous forme de métamodèle objet et détaillera les éléments de ce métamodèle. 2. Contexte 2.1. Les bases de données topographiques Les bases de données topographiques ont deux particularités notoires. Tout d’abord, ces bases ne représentent pas directement le monde réel ni une partie de celui-ci mais une certaine conceptualisation de ce monde, laquelle n’est pas triviale. En effet, (Smith et al., 1998) mentionne un certain nombre de spécificités qui distinguent les concepts géographiques des autres types de concepts : tout d’abord, un objet géographique est indissociable par nature de l’espace où il se trouve et l’on ne peut séparer le « quoi » du « où »; les propriétés géométriques et topologiques, en particulier la notion de frontière, sont fondamentales. D’autre part, l’existence de certains objets mésoscopiques, tels que les baies ou les péninsules, est le fruit de la cognition humaine. Les auteurs décrivent de tels concepts comme « des ombres projetées par le raisonnement et le langage humains sur l’espace géographique ». On peut remarquer ensuite que cette conceptualisation dépend du point de vue, et en particulier de l’échelle, ou plutôt, dans le cas des bases de données, de la résolution. Certains concepts ne peuvent exister qu’à certaines résolutions, par exemple il est impossible de définir la limite d’une forêt à un mètre près ou d’en individualiser les arbres à une résolution de 20 m. D’autres peuvent exister à toutes les résolutions Spécifications de BD géographiques 241 considérées, mais leurs instances changent de nature, ainsi un fleuve qui se divise en plusieurs bras quand on le regarde à 100 m près peut ne plus le faire (dans le terrain conceptualisé, s’entend) lorsqu’on le regarde avec une résolution d’un kilomètre. En quelque sorte, la conceptualisation du terrain à différentes résolutions correspond à ce qu’on voit depuis différentes distances : face à un mur, on voit des briques ; depuis le sommet d’une colline, on peut apercevoir une ville. Toutefois, on peut définir un « terrain conceptualisé » abstrait dont ces diverses conceptualisations seraient des vues à une résolution donnée. C’est notamment intéressant dans le cas d’une base de données multiéchelles, ainsi que dans un contexte où plusieurs bases de données coexistent pour représenter une même partie du monde réel : il est plus pratique de considérer que ces bases représentent différentes vues d’une même entité abstraite issue d’une conceptualisation commune du monde réel plutôt que différentes conceptualisations de ce monde. Leur seconde particularité est de ne pas représenter exhaustivement leur domaine : il existe des règles de sélection déterminant quelles entités du terrain conceptualisé doivent ou ne doivent pas apparaître dans la base de données. Ces règles peuvent s’appuyer sur divers critères tels que, souvent, la taille de l’objet ; mais la notion sousjacente est en général celle plus ou moins abstraite de trait caractéristique du paysage. Ainsi, on fera souvent apparaître un bâtiment isolé même s’il est petit ; mais on n’indiquera pas individuellement tous les étangs d’une zone marécageuse. Monde réel concerné modélisation schéma conceptuel acquisition BD Figure 1. Conception d’une base de données classique Ces particularités du domaine de l’information géographique se traduisent dans le processus de constitution de la base. Le processus habituel de conception d’une base de données classique passe par les étapes suivantes (figure 1) : – modélisation de la portion de monde réel concernée en s’appuyant sur un modèle et le formalisme associé (modèle relationnel, objet ou autre). Cette phase produit un 242 Géomatique – 14/2004. Les ontologies spatiales schéma conceptuel de la future base et une description de la sémantique sous-jacente via un dictionnaire de données ; – acquisition des données. Celle-ci se fait par instanciation du schéma conceptuel, c’est-à-dire création de données conformes aux descriptions du schéma. Par exemple, si nous souhaitons réaliser une base de données pour une bibliothèque, la phase de conceptualisation produira un schéma dans lequel figureront les concepts d’ouvrage, d’exemplaire, d’auteur, d’emprunt, présentés sous forme de classes si on adopte l’approche objet, et les données stockées correspondront au catalogue de la bibliothèque et à son fonds en termes d’exemplaires disponibles. La conception d’une base de données topographique correspond souvent à un processus plus complexe (figure 2) : expertise Monde réel concerné spécifications résolution nominale résolution nominale modélisation schéma conceptuel acquisition BD Figure 2. Conception d’une base de données géographique – l’expertise produit le terrain conceptualisé que nous pouvons considérer comme une ontologie du domaine ; – la phase de modélisation produit un schéma conceptuel qui décrit une vue de ce terrain conceptualisé à une résolution donnée (éventuellement plusieurs s’il s’agit d’une base de données multiéchelles) ; – la phase d’acquisition quant à elle dépend également de la résolution et fait de plus intervenir une étape de sélection afin de représenter uniquement ce qui est pertinent et de ne pas surcharger la base d’objets sans importance. Cette acquisition peut être réalisée à partir d’instrumentations diverses (relevés terrain, restitution photogrammétrique, etc.). Spécifications de BD géographiques 243 On notera que tous ces aspects spécifiques des bases de données géographiques ont un point commun : une liberté importante est a priori laissée pour l’interprétation du monde. Il existe, en tous cas à l’IGN, un savoir-faire et une expertise communs qui limitent les variations dans une certaine mesure mais il est néanmoins nécessaire de rédiger des spécifications précises afin de restreindre cette liberté. Ces spécifications sont détentrices de l’expertise du domaine et constituent à nos yeux la clef du processus d’instanciation des bases géographiques et, au-delà, de leur intégration. 2.2. Intégration de bases de données géographiques La problématique de l’intégration de bases de données (Batini et al., 1984, Batini et al., 1986, Sheth et al., 1990, Li et al., 1992, Sheth, 1998, Parent et al., 2000) connaît un regain d’intérêt depuis les approches « médiation » (Wiederhold, 1992, Kirk et al., 1995, Chawathe et al., 1994, Chawathe et al., 1997, Garcia-Molina et al., 1997). Cette approche requiert un niveau méta. Traditionnellement, ce niveau décrit les schémas conceptuels issus de bases hétérogènes (voire un schéma intégrateur) et des liens d’appariement entre ces schémas établis à partir de la connaissance du domaine (ontologie). Dans le cas spécifique des bases de données géographiques, (Devogele et al., 1998) donne plusieurs raisons montrant l’intérêt d’une telle intégration ; notamment, le coût de l’acquisition des données rend souhaitable de faciliter leur réutilisation, et l’hétérogénéité des données actuelles est un obstacle à cette réutilisation, sans compter que les diverses sources de données peuvent présenter des incohérences. D’autre part, cette intégration simplifierait grandement les mises à jour. L’article sus-cité propose une approche de cette intégration par fédération de bases de données : détermination et description des correspondances entre les différents schémas des bases puis réalisation d’un schéma intégré, sans modification des données. Cette approche est détaillée plus avant dans (Devogele, 1997) où est également présenté un algorithme d’appariement, pour le cas particulier des données routières, permettant l’instanciation au niveau des données des correspondances inter-schémas, et donc l’instanciation du schéma intégré. Il existe également des travaux sur la notion de « distance sémantique » (Rodriguez et al., 1999). L’intégration pour les bases de données géographiques peut concerner une autre spécificité de l’information géographique : la multireprésentation. Dans une base de données intégrée multireprésentations, un objet donné possède plusieurs représentations à des résolutions différentes. (Vangenot, 2001) étudie ce type de bases de données (qui n’existe pas encore de façon importante) et propose un modèle de gestion de la multireprésentation (non limité à la multirésolution) avec un système d’estampilles. (Friis-Christensen et al., 2002) propose une approche plus spécifique et technique de la multireprésentation où la base de données multireprésentation est un cas particulier de base de données fédérée (« un ensemble de bases de données composantes qui coopèrent mais sont autonomes. ») L’article est orienté vers la gestion d’une telle base de données et en particulier le maintien de la cohérence entre les différentes représentations. 244 Géomatique – 14/2004. Les ontologies spatiales 2.3. Utilisation d’ontologies pour l’intégration (Partridge, 2002) explique l’importance de l’ontologie sous-jacente d’une base de données pour l’intégration. Le terme « ontologie » a été défini par (Gruber, 1993) mais est toutefois utilisé dans plusieurs sens différents ; (Guarino et al., 1995) donne et commente les principaux d’entre eux. Il est employé par (Partridge, 2002) dans le sens « l’ensemble des choses dont l’existence est admise par une théorie ou un système de pensée donné. » En ce sens, la notion de terrain conceptualisé présentée plus haut est une ontologie puisqu’il s’agit de l’ensemble des objets qui existent pour un cartographe. L’article de Partridge oppose à la stratégie d’intégration par la résolution de l’hétérogénéité sémantique (similaire à celle employée par (Devogele et al., 1998)) une stratégie d’intégration ontologique consistant à expliciter dans un premier temps les déviations des schémas des bases par rapport à l’ontologie sous-jacente (c’est-àdire à la conceptualisation du monde correspondante) pour utiliser ensuite cette ontologie comme point de départ à la réalisation de la base intégrée. Cette seconde approche nécessite que les bases à intégrer aient la même ontologie sous-jacente (c’està-dire qu’elles soient des représentations différentes d’une même conceptualisation du monde) ; on peut considérer que c’est notre cas dans le domaine de l’information topographique si l’on utilise comme ontologie la notion de terrain conceptualisé abstrait (regroupant toutes les résolutions) proposée plus haut. Et l’avantage de cette stratégie est que l’ontologie n’étant en principe pas spécifique aux bases de données étudiées, il devrait être plus facile d’intégrer ultérieurement à notre base multireprésentation une nouvelle base correspondant au même domaine. Le présent article peut être considéré comme s’inscrivant dans la première partie de cette seconde stratégie puisqu’il cherche à expliciter et formaliser les relations entre les entités du terrain conceptualisé et les données, donc entre l’ontologie et les schémas des bases. Ces relations sont décrites au sein des spécifications des bases de données géographiques ; l’objet de cet article est la formalisation de ces spécifications. Il existe des travaux sur la construction de spécifications formelles (Fougères et al., 1999) et des langages de représentation de spécifications tel le langage Z (Spivey, 1992), cependant il s’agit essentiellement pour ces travaux de formaliser des spécifications de logiciels, donc de décrire des fonctionnalités; aucune étude n’a encore été faite à notre connaissance sur notre type particulier de spécifications. On remarquera que si les diverses approches de l’intégration de bases de données géographiques présentées ci-dessus ne font pas, ou très peu, mention des spécifications des bases, elles les utilisent cependant abondamment de manière implicite, notamment afin de déterminer les conflits possibles, les correspondances entre classes de schémas conceptuels et les conditions sous lesquelles ces correspondances sont applicables. Ces correspondances et ces conditions sont ensuite formalisées, avec des ICA (inter-schema correspondance assertion) dans (Devogele et al., 1998), ou en OCL (Object Constraint Language) dans (Friis-Christensen et al., 2002). C’est-à-dire que les différences de spécifications entre les bases se trouvent, au moins partiellement, formalisées; mais les spécifications elles-mêmes ne le sont pas. L’importance des spécifications a été mise en valeur pour la détection et la classification des incohérences entre bases de données apprès appariement dans (Sheeren, 2002). Spécifications de BD géographiques 245 2.4. Spécifications des bases Si l’on se réfère à un schéma conceptuel exprimé avec le formalisme objet, on dispose de diverses classes décrites par leurs attributs et qui, sans autre connaissance, semblent simplement représenter le monde réel. Dans le cas de l’information géographique, les précisions sur l’expertise qui interfèrent avec la modélisation et l’acquisition (figure 2) ne se trouvent que dans les spécifications. Les régles d’interprétation qui figurent dans ces spécifications sont indispensables à une interprétation correcte et précise des objets contenus dans la base, même si le schéma conceptuel peut suffire pour certaines utilisations. Ces spécifications, dans le cas de l’IGN, sont constituées de volumineux documents sous forme de texte et décrivent les règles d’interprétation et de sélection portant sur chaque classe du schéma conceptuel d’une base (par exemple, les spécifications de la BDCarto (figure 4) et celles de la BDTopo Pays (figure 3) Il faut donc analyser le contenu de ces spécifications. Celles dont nous disposons à l’IGN ont toutes une structure similaire et proposent une collection correspondant aux classes du schéma conceptuel de la base concernée. Chaque classe constitue un paragraphe découpé en quatre parties. Tout d’abord une partie définition qui précise la sémantique du concept représenté. Ensuite, une partie sélection permet de restreindre les objets qui constitueront l’extension de la classe en précisant les critères qui décident si un objet du monde réel peut ou non être conservé comme instance de la classe. Une autre partie modélisation géométrique indique comment générer la géométrie de l’instance créée à partir de l’entité du monde réel ; cette partie fait implicitement intervenir la résolution, qui est normalement indiquée dans les spécifications générales avec d’autres métadonnées. Elle est parfois mentionnée explicitement si pour cette classe particulière elle diffère de la spécification générale. Enfin, une partie attributs regroupe les descriptions des attributs autres que la géométrie. Ce format de spécifications a plusieurs inconvénients : le texte libre est peu adapté à un traitement automatique ; même si ce texte est relativement structuré, il ne l’est pas toujours exactement de la même façon suivant les bases; il n’est donc pas toujours évident de savoir où trouver une information particulière et la comparaison de deux jeux de spécifications s’avère délicate. De plus, même ces spécifications détaillées recèlent une part d’implicite, en raison du savoir-faire commun déjà mentionné, qui n’est pas toujours conscient. Nous pensons donc, compte tenu de ces inconvénients, que l’information extraite des spécifications doit être formalisée de manière à enrichir les schémas conceptuels des bases, afin à terme de pouvoir faciliter les échanges entre bases. 3. Vers une formalisation des spécifications Notre proposition (schématisée figure 5) consiste à extraire des spécifications d’une part un ensemble de concepts et relations correspondant au terrain conceptualisé et d’autre part des relations d’appariement entre ces concepts et les classes des schémas conceptuels des bases. 246 Géomatique – 14/2004. Les ontologies spatiales Définition Portion de cours d’eau, réel ou fictif, permanent ou temporaire, naturel ou artificiel, homogène pour l’ensemble des attributs et des relations qui la concernent, et qui n’inclut pas de confluent. Sélection Le réseau hydrographique composé des objets <tronçon de cours d’eau> est décrit de manière continue. La continuité du réseau n’est toutefois pas toujours assurée dans les cas suivants : – arrivée d’un cours d’eau en ville – infiltration d’un cours d’eau (ex. perte en terrain calcaire) – arrivée d’un petit ruisseau temporaire dans une large plaine où son tracé se perd – zones de marais où les connexions et interruptions du réseau restent indicatives Tous les cours d’eau permanents, naturels ou artificiels, sont inclus. Les cours d’eau temporaires naturels sont inclus, à l’exception des tronçons de moins de 200 m situés aux extrémités amont du réseau. Les cours d’eau temporaires artificiels ou artificialisés sont sélectionnés en fonction de leur importance et de l’environnement. Les talwegs qui ne sont pas marqués par la présence régulière de l’eau sont exclus. Tous les cours d’eau nommés de plus de 7,5 m de large sont inclus (tronçon de cours d’eau d’attribut <fictif> = « oui » superposé à un objet de classe <surface d’eau>). Fossé : Les gros fossés de plus de 2 m de large sont inclus lorsqu’ils coulent de manière permanente. Modélisation géométrique A l’axe et à la surface du cours d’eau (tel qu’il se présente sur les photographies aériennes). L’orientation de l’objet définit le sens d’écoulement. Elle n’est pas significative dans les zones très plates (ex. marais) ni pour les canaux. [...] Attributs Attribut : Nature Définition : attribut permettant de distinguer les tronçons de cours d’eau libres des obstacles Type : liste Valeurs d’attribut : cours d’eau indifférencié / barrage / cascade / écluse [...] Attribut : Artificialisé Définition : Permet de distinguer les cours d’eau naturels des cours d’eau artificiels ou artificialisés. Type : booléen Valeurs d’attribut : oui / non [...] Figure 3. Extrait des spécifications de la BDTopo Pays concernant la classe « tronçon de cours d’eau » (spe2002) Spécifications de BD géographiques 247 Définition – sélection Un tronçon hydrographique correspond à l’axe du lit d’une rivière, d’un ruisseau ou d’un canal. La BDCarto contient : – tous les axes principaux, y compris dans la zone d’estran et dans les zones de marais, à l’exception des « culs-de-sac » d’une longueur inférieure à un kilomètre sauf s’ils appartiennent à un cours d’eau d’une longueur supérieure à un kilomètre ; – outre l’axe principal, les axes des bras secondaires d’une longueur supérieure à un kilomètre ou qui délimitent une île d’une superficie supérieure à dix hectares quand un cours d’eau se subdivise en plusieurs. Géométrie – construction Les éléments du réseau d’hydrographie sont découpés en portions ayant les mêmes attributs. Le changement de valeur d’un attribut n’entraîne la création d’un tronçon que si la nouvelle valeur reste la même sur une longueur d’au moins un kilomètre ; sinon, le tronçon précédent est prolongé. Attributs [1] Etat 0- inconnu : l’existence d’un écoulement est certaine, mais le tracé n’est pas connu avec précision. 1- continu 2- intermittent 3- fictif : assure la continuité de l’écoulement à l’intérieur des zones d’hydrographie (poste 51 des zones d’occupation du sol O-s-1), lorsque le tracé n’est pas connu avec précision. 4- abandonné, à sec [2] Largeur 1- entre 0 et 15 m 2- entre 15 et 50 m 3- plus de 50 m [3] Nature 1- cours d’eau naturel 3- canal, chenal : voie d’eau artificielle 4- aqueduc, conduite forcée : tuyau ou chenal artificiel conçu pour le transport de l’eau (usage hydroélectrique, industriel...) 7- estuaire : écoulement d’un cours d’eau dans la zone d’estran [...] Figure 4. Extrait des spécifications de la BDCarto concernant la classe « tronçon hydrographique » On remarque que les spécifications décrivent la sémantique du contenu de la base par la description du processus d’acquisition des données. Cependant, même une fois la base de données constituée, elles permettent d’interpréter ce contenu en lisant ce processus à l’envers. Ledit processus n’étant pas injectif, il n’est pas évident a priori de trouver une meilleure façon de décrire la sémantique des données. Rien n’oblige toutefois à s’intéresser au véritable processus effectivement suivi par les opérateurs : si l’on ne veut décrire que le contenu de la base, c’est-à-dire le résultat, on peut aussi bien utiliser un processus imaginaire plus simple et plus abstrait que le processus réel. Avant de proposer une formalisation, nous devons revenir plus en détail sur le contenu des spécifications et souligner quelques points de difficulté implicite. Nous avons vu que les spécifications dont nous disposons présentent les différentes classes du modèle conceptuel de la base concernée ; dès lors il serait tentant de considérer qu’une classe de la base de données correspond à un concept du terrain (selon une 248 Géomatique – 14/2004. Les ontologies spatiales relation 1-1) et que les spécifications expriment simplement, pour chaque classe, le processus de sélection/modélisation opéré sur l’extension du concept lors de la saisie pour obtenir l’extension de la classe. Cette idée est implicitement présente dans l’organisation des spécifications dont nous disposons actuellement. Cependant trois raisons nous conduisent à rejeter cette idée et à rechercher des concepts « partageables » ne reproduisant pas nécessairement la structure du modèle conceptuel de la base. Ontologie Extraction Spécifications 1 Extraction <apparie> <apparie> Spécifications 2 Contraintes Fonction de modélisation <<relatives à>> Schéma1 BD1 <<relatives à>> Schéma2 BD2 Figure 5. Notre proposition Tout d’abord, les regroupements en classes ne sont pas les mêmes dans toutes les bases, ce qui pourrait poser des problèmes pour la comparaison de spécifications. Par exemple, dans la BDCarto, l’une des bases de données produites par l’IGN, la classe « Tronçon de cours d’eau » comprend les aqueducs, mais dans la BDTopo Pays, une autre de ces bases, ceux-ci sont regroupés dans la classe « canalisation » avec les oléoducs et les gazoducs. Il est donc préférable d’utiliser le concept partagé d’aqueduc, bien qu’il ne corresponde pas en lui-même à une classe, plutôt que ceux de tronçon de cours d’eau et de canalisation. D’autre part, les modalités de sélection font fréquemment référence au contexte des objets et de ce fait recourent à des concepts extérieurs, non modélisés en tant que tels dans la base de données : ainsi, dans notre exemple de la figure 3, « arrivée d’un cours d’eau en ville » ou « zone de marais ». Nous aurons besoin pour formaliser les spécifications de ces concepts de ville et de marais, or ils ne font pas l’objet de classes de la base. Spécifications de BD géographiques 249 « Monde » Représentation 1 (interdite) Représentation 2 (permise) Représentation 3 (permise) Figure 6. Exemple montrant la difficulté de définir un concept pour chaque classe de la base de données Enfin et surtout, il n’est pas toujours possible, pour une classe de la base donnée, de définir de façon cohérente un concept du terrain qui lui correspondrait. Considérons en effet cet extrait de spécification de la BDCarto : « Les tronçons retenus sont les suivants : [...] les tronçons de voies carrossables [...], à l’exception des culs-de-sac de moins de 1 000 mètres de long [...]. » Supposons qu’on veuille définir un concept de tronçon de route réel, avec un mécanisme de classification bien défini, parmi les instances duquel on sélectionnerait des tronçons à l’aide du critère de longueur pour obtenir les objets de la base. Soit maintenant la situation de la figure 6, où l’on a dans le monde réel un cul-de-sac en forme de Y tel que le tronçon unique obtenu en ôtant l’une ou l’autre des deux branches dépasse 1 000 mètres, mais qu’aucun des trois tronçons formant les branches du Y n’atteigne cette valeur. Les schémas 1, 2 et 3 correspondent à trois possibilités de saisie ; les représentations 2 et 3 sont a priori toutes deux autorisées (car le tronçon est suffisamment long) mais la représentation 1 est interdite puisqu’elle comprend des tronçons trop courts. Or, selon la façon dont on définit le concept de tronçon de route dans le monde réel, soit on considère qu’il y en a trois – mais alors aucun des trois tronçons ne vérifiera le critère de sélection et on ne représentera pas du tout le Y, ce qui ne convient pas – soit on considère qu’il y en a deux, ceux des représentations 2 et 3, mais on est alors en difficulté pour exprimer le fait qu’un seul de ces deux tronçons doit être représenté et pas l’autre : ils respectent tous deux le critère de longueur. On voit bien ici qu’il n’est pas pertinent de faire correspondre directement la classe « tronçon de route » à un concept : on a besoin d’un concept plus large, tel que « réseau routier » par exemple. La formalisation doit permettre de surmonter ces difficultés. Pour cela nous avons adopté dans un premier temps le formalisme objet UML et nous avons défini un profil UML qui permettra de générer la sémantique nécessaire à l’enrichissement du schéma conceptuel des bases afin d’en faciliter et surtout d’homogénéiser leur interprétation. 250 Géomatique – 14/2004. Les ontologies spatiales Classifier « Objet de la base » < Est représentée par « Entité géographique » 1..* * 1 1..* Attribut 1..* Propriété Contrainte 2..* Sélection 1 valeur(résolution,position) Représentation 1 1 fonction de modélisation ^ Relation avec 0..1 Contrainte complexe opérateur : et | ou * Contrainte sur propriété Contrainte de relation valeur seuil opérateur : < | > | = * Relation topologique Autre relation Relation métrique critère métrique valeur seuil opérateur : < | > Porte sur > Figure 7. Profil UML utilisé pour représenter les spécifications 4. Description du métamodèle La démarche proposée consiste tout d’abord à produire, de façon manuelle, par l’expertise, la consultation et la confrontation des différents jeux de spécifications, une représentation du terrain (ontologie). Ensuite, il s’agira d’exprimer le processus d’acquisition (sélection et modélisation) correspondant à chaque base de données sous forme de liens entre le terrain conceptualisé ainsi représenté et le schéma objet de la base correspondante. Spécifications de BD géographiques 251 Le profil UML (extension du métamodèle UML) présenté figure 7 permet de représenter les métaéléments émergeant des spécifications. Il comporte trois métaéléments principaux : Objet de la base, Entité géographique et l’association les reliant qui est complétée par l’élément Représentation. Comme tout métamodèle il permet de générer par instanciation des modèles regroupant les éléments qui interviennent dans notre démarche. Ces modèles sont : celui du schéma conceptuel des bases concernées, celui du terrain conceptualisé (ontologie) et enfin celui du processus d’appariement inféré. 4.1. Modèle conceptuel de la base L’instanciation de la métaclasse « Objet de la base » donne l’ensemble des classes de chaque schéma de base concerné. 4.2. Modèle du terrain conceptualisé (ontologie) Cette partie est constituée d’une hiérarchie de classes représentant les concepts utilisés dans les spécifications. Les concepts choisis doivent autant que possible être des concepts communs à plusieurs bases de données ; le but est de n’avoir qu’une même ontologie qu’on utilisera pour les spécifications de différentes bases (en l’étendant le cas échéant). Dans nos exemples, les concepts utilisés pour l’ontologie ont été choisis par une simple recherche de mots-clefs dans le texte des spécifications ; il est à noter que les spécifications ont été rédigées par des experts du domaine, aussi cette méthode, bien que basique, donne-t-elle des résultats acceptables, du moins dans un premier temps. Ces concepts possèdent des propriétés dont la valeur peut éventuellement dépendre de la position considérée à l’intérieur de l’instance (par exemple, pour une rivière, la largeur ou la navigabilité varient tout au long du cours), comme il est proposé dans le modèle MADS (Parent et al., 1997). Comme dit plus haut, on ne suppose pas les propriétés des entités du terrain conceptualisé directement accessibles : elles ne le sont qu’à une certaine résolution. Ici la résolution intervient comme une précision (par exemple, on prend la largeur d’une rivière à 3 m près) et peut également indiquer un niveau de généralisation, par exemple la représentation des lacets d’une route nécessite un traitement particulier à petite échelle. La largeur de la rivière avec une précision infinie ou le parcours exact de la route sont des abstractions qu’on ne peut utiliser telles quelles pour créer les objets de la base. D’un point de vue orienté-objet, ces propriétés correspondent donc à des méthodes plus qu’à des attributs, et la résolution est un paramètre de la méthode. Dans le cas où la propriété dépend de la position, il s’agit d’une méthode retournant une fonction. 252 Géomatique – 14/2004. Les ontologies spatiales 4.3. Liens d’appariement Le processus d’acquisition (effectué par l’opérateur de saisie pour créer les objets de la base de données à partir des éléments du terrain conceptualisé) est instancié sous forme de liens entre concepts de l’ontologie et classes du schéma de la base, complétés par des instances de Représentation. L’élément Représentation précise, après sélection via des contraintes (Mustière et al., 2003), comment, par la fonction de modélisation, instancier la classe de la base. Une contrainte sur un concept géographique associe à chaque instance de ce concept une valeur de vérité indiquant si la contrainte est respectée. Plusieurs contraintes élémentaires peuvent être combinées à l’aide d’opérateurs logiques pour constituer une contrainte complexe. Nous distinguons deux types de contraintes élémentaires (figure 7) : contrainte sur propriété et contrainte de relation. La contrainte sur propriété porte sur la valeur d’une propriété de l’entité elle-même. Un cas particulier en est la contrainte géométrique, la plus rencontrée, notamment comme critère de sélection (par exemple dans « tous les bâtiments de plus de 50 m2 sont inclus. ») La contrainte de relation permet de spécifier que l’entité considérée doit ou ne doit pas entretenir une relation avec une entité d’une autre classe (ou éventuellement une autre entité de la même classe). Typiquement, il peut s’agir d’une relation métrique (condition sur la distance entre les deux entités) ou topologique ; mais les spécifications étant souvent relativement floues dans ce type de cas pour laisser libre cours à l’interprétation de l’opérateur, il est nécessaire d’ajouter un troisième type de relation, « autre », par exemple pour les relations telles que « mener à ». Il est à noter que les relations topologiques, comme le contact, doivent être comprises à la résolution près. L’élément Représentation comprend également une fonction de modélisation qui crée, pour les entités sélectionnées, les objets de la base et leurs attributs à partir de l’entité et de ses propriétés. Pour représenter cette fonction, il sera nécessaire de définir un certain nombre de primitives représentant en quelque sorte l’expertise de l’opérateur. On supposera par exemple l’existence de fonctions relativement simples, telles que « obtenir le contour de l’objet à la résolution [paramètre] », ou plus compliquées comme « extraire l’axe du réseau à la résolution [param1] en supprimant les culs-desac de longueur inférieure à [param2] ». La figure 8 montre deux exemples d’instanciation de notre métamodèle, pour le réseau hydrographique, respectivement dans les bases de données BDTopo Pays et BDCarto. Dans chaque exemple, on distingue la partie supérieure, correspondant à l’ontologie. Celle-ci a été tout d’abord réalisée pour la BDTopo Pays – les concepts ayant été simplement déterminés par la lecture des spécifications à la recherche de mots-clefs – puis étendue et légèrement modifiée pour pouvoir servir également à la BDCarto. Les parties inférieures correspondent respectivement aux classes des deux bases pour le réseau hydrographique, et les liens en pointillés indiquent les instances des liens « est représentée par », complétés par des éléments Représentation. Le contenu de ces instances (contrainte de sélection et fonction de modélisation) n’a pas été indiqué intégralement mais l’est partiellement sur certains liens, à titre d’exemple. Spécifications de BD géographiques Terrain «Ent. géog.» Él t du réseau hydro 0..1 «Ent. géog.» Cours d'eau «Ent. géog.» Fossé «Ent. géog.» Acc. parcours «Ent. géog.» Nœud réseau affluent de * «Ent. géog.» Diffluent «Ent. géog.» Source «Ent. géog.» Rivière «Ent. géog.» Barrage «Ent. géog.» Aqueduc «Ent. géog.» Canal 253 «Ent. géog.» Cascade «Ent. géog.» Confluent «Ent. géog.» Embouchure «Ent. géog.» Perte «Ent. géog.» Écluse Modélisation : Nature = cascade Sélection : largeur > 7,5 m «Objet de la base» Surface d’eau Terrain «Objet de la base» Point d’eau «Ent. géog.» Él t du réseau hydro 0..1 «Ent. géog.» Cours d'eau * «Ent. géog.» Fossé «Ent. géog.» Nœud réseau «Ent. géog.» Acc. parcours affluent de «Ent. géog.» Aqueduc «Objet de la base» Tronçon hydro «Ent. géog.» Diffluent «Ent. géog.» Source «Ent. géog.» Rivière «Ent. géog.» Barrage «Ent. géog.» Cascade «Ent. géog.» Confluent «Ent. géog.» Embouchure «Ent. géog.» Perte «Ent. géog.» Écluse «Objet de la base» Nœud hydro «Objet de la base» Cours d'eau Sélection : largeur > 50 m Modélisation : poste = 51 (eau libre) Modélisation : attribut Nature = source Modélisation : axe à résolution 2,5 m artificiel = oui découpé en tronçons aux changements d’attributs Sélection : a un toponyme «Objet de la base» Cours d'eau nommé «Ent. géog.» Canal BD Topo Pays «Objet de la base» Tronçon cours d’eau «Objet de la base» Z.O.S. BD Carto Figure 8. Exemple d’instanciation du métamodèle pour l’hydrographie de la BDTopo Pays et de la BD Carto 254 Géomatique – 14/2004. Les ontologies spatiales Seules des modifications mineures ont été nécessaires pour adapter l’ontologie de façon à pouvoir l’utiliser pour les deux bases, ce qui met bien en valeur le fait qu’audelà des différences de modélisation, elles représentent une même réalité et utilisent les mêmes concepts. Ainsi, par exemple, l’absence de classe « nœud hydrographique » dans la BDTopo se traduit par le fait que les accidents de parcours y sont représentés par des tronçons, ce qui provoque une différence apparemment importante entre les structures des deux spécifications. Grâce à notre modèle, on peut voir immédiatement que cette différence n’est que superficielle et que les deux bases représentent bien les trois mêmes types d’accidents de parcours (barrage, écluse et cascade). Cette représentation des spécifications a également l’avantage de faire clairement apparaître la multireprésentation de certaines entités, ainsi le fait qu’une rivière soit dans certains cas représentée simultanément par des tronçons et des surfaces est directement apparent sur le diagramme. Sélection Contraintes Barrage Barrage Barrage Barrage Barrage Création par fonction de modélisation Noeud Hydrographique Figure 9. Processus d’instanciation de la classe Nœud hydrographique à partir des barrages présents sur le terrain En ce qui concerne les liens d’appariement, prenons l’exemple du concept Barrage. Ce concept est relié à la classe Nœud hydrographique de la BDCarto et à la classe Tronçon de cours d’eau de la BDTopo Pays (figure 8). Pour le premier de ces liens, la contrainte de sélection est une contrainte complexe d’opérateur logique “ou” et composée de : 1) une contrainte géométrique portant sur la propriété longueur du barrage, avec pour opérateur “>” et pour seuil la valeur “200 m” ; 2) une contrainte de relation topologique “contact” liée au concept de lac. Ceci indique que les barrages saisis dans la BDCarto sont les barrages de plus de 200 m de long ainsi que les barrages de retenue (délimitant un lac). La fonction de modélisation correspondante peut être exprimée ainsi : « Créer un objet de la classe Nœud hydrographique, dont la géométrie est le point situé au milieu du barrage (à 50 m près) et sur l’axe du cours d’eau, dont l’attribut Nature vaut 1 (barrage), dont l’attribut Cote est égal au maximum de la propriété Altitude du barrage, et dont l’at- Spécifications de BD géographiques 255 tribut Toponyme est égal à la propriété Toponyme du barrage. » La figure 9 résume le processus explicité ci-dessus. Pour le second lien (avec le tronçon de cours d’eau BDTopo Pays), on n’a pas de contrainte de sélection (tous les barrages sont saisis). La fonction de modélisation peut s’exprimer : « Créer un objet de la classe Tronçon de cours d’eau, dont la géométrie est l’arc connectant les parties de l’axe du cours d’eau situées de part et d’autre du barrage, dont l’attribut Nature vaut “barrage” et dont l’attribut Fictif vaut “oui”. » Par ailleurs, comme les propriétés des entités peuvent dépendre de la position, il peut a priori en aller de même pour les résultats des fonctions donnant les valeurs des attributs, par exemple pour la propriété « navigable » d’un cours d’eau et l’attribut correspondant. Les spécifications précisent comment agir dans ces cas (par exemple prendre la valeur moyenne, ou créer plusieurs instances) et il n’y a qu’un nombre limité de possibilités, qui seront représentées par des primitives. On aura donc parmi ces primitives par exemple « découper en tronçons aux changements d’attributs avec agrégation pour les tronçons de moins de [paramètre] ». 5. Conclusion Nous avons proposé dans cet article un modèle pour formaliser le contenu des spécifications de bases de données géographiques. Le métamodèle UML permet de construire des formalisations de spécifications comportant le volet ontologie, le volet schéma conceptuel, et les appariements entre les deux correspondant au processus d’acquisition. Nous espérons qu’un tel modèle permettra une meilleure compréhension des données, et en particulier qu’il facilitera la comparaison de plusieurs jeux de spécifications. Les essais d’instanciation menés jusqu’à présent ont donné des résultats encourageants ; nous comptons tester le modèle sur des exemples plus nombreux portant sur des thèmes différents, et sur d’autres bases de données. À plus long terme, ce modèle sera implanté sous la forme d’un système interactif par l’intermédiaire duquel les liens d’appariement entre ontologie et schémas conceptuels (contrainte de sélection et fonction de modélisation) seront définis. La perspective principale de ce travail est l’étude de l’utilisation des relations entre les schémas particuliers et l’ontologie afin d’en déduire des correspondances directement entre les différents schémas, puis des règles de correspondance entre les données elles-mêmes, afin à terme de permettre l’intégration de plusieurs bases de données géographiques. 6. Bibliographie Batini C., Lenzerini M., « A Methodology for Data Schema Integration in the E-R Model », IEEE Transactions on Software Engineering, nov 1984. 256 Géomatique – 14/2004. Les ontologies spatiales Batini C., Lenzerini M., Navathe S., « A Comparative Analysis of Methodologies for Database Schema Integration », ACM Computing Surveys, vol. 18, no 4, 1986, p. 323–364. Chawathe S., Garcia-Molina H., Hammer J., Ireland K., Papakonstantinou Y., Ullman J. D., Widom J., « The TSIMMIS project : Integration of heterogenous information sources », 16th Meeting of the Information Processing Society of Japan, 1994, p. 7–18. Chawathe S., Garcia-Molina H., Hammer J., Ireland K., Papakonstantinou Y., Ullman J. D., Widom J., « The TSIMMIS project : Integration of heterogenous information sources », Journal of Intelligent Information Systems, vol. 8, no 2, 1997. Devogele T., « Processus d’intégration et d’appariement de bases de données géographiques ; application à une base de données routières multi-échelles », Thèse de doctorat, Université de Versailles, dec 1997. Devogele T., Parent C., Spaccapietra S., « On spatial database integration », International Journal of Geographical Information Science, vol. 12, no 4, 1998, p. 335–352. Fougères A.-J., Trigano P., « Construction de spécifications formelles à partir des spécifications rédigées en langage naturel », Document numérique, vol. 3, no 3/4, 1999, p. 215–239. Friis-Christensen A., Skogan D., Jensen C. S., Skagestein G., Tryfona N., « Management of Multiply Represented Geographic Entities », Proceedings of International Database Engineering and Applications Symposium (IDEAS), Edmonton, Canada, IEEE Press, 2002, p. 150–159. Garcia-Molina H., Papakonstantinou Y., Quass D., « The TSIMMIS Approach to Mediation : Data Models and Languages », Journal of Intelligent Information System (JIIS), vol. 8, no 2, 1997. Gruber T. R., « Toward Principles for the Design of Ontologies Used for Knowledge Sharing », Guarino N., Poli R., Eds., Formal Ontology in Conceptual Analysis and Knowledge Representation, Kluwer Academic Publishers, 1993. Guarino N., Giaretta P., « Ontologies and Knowledge Bases : Towards a Terminological Clarification », Mars N. J., Ed., Towards Very Large Knowledge Bases, IOS Press, Amsterdam, 1995. Kirk T., Levy A. Y., Sagiv Y., D.Srivastava, « The Information Manifold », AAAI Spring Symposium on Information Gathering from Heterogeneous, Distributed Environments, 1995. Li Q., McLeod D., « Managing Interdependencies among Objects in Federated Databases », Proceedings of the IFIP Database Semantics Conference on Interoperable Database Systems (DS-5), nov 1992, p. 331–347. Mustière S., Gesbert N., Sheeren D., « A Formal Model for the Specifications of Geographical Databases », Levachkine S., Serra J., Egenhofer M., Eds., Semantic Processing of Spatial Data, proceedings of workshop GeoPro 2003, 2003, p. 152–159. Parent C., Spaccapietra S., Zimanyi E., Donini P., Plazanet C., Vangenot C., Rognon N., Pouliot J., Crausaz P.-A., « MADS : un modèle conceptuel pour des applications spatiotemporelles », Revue internationale de géomatique, vol. 7, no 3-4, 1997. Parent C., Spaccapietra S., « Database Integration : The Key to Data Interoperability », Spaccapietra S., Tari Z., Eds., Advances in Object Oriented Data Modeling, MIT Press, 2000. Partridge C., « The Role of Ontology in Integrating Semantically Heterogeneous Databases », rapport no 05/02, June 2002, LADSEB-CNR, Padova. Rodriguez M. A., Egenhofer M. J., Rugg R. D., « Assessing Semantic Similarity Among Geospatial Feature Class Definitions », Proceedings of Interop’99, Zürich, no 1580 Lecture Notes in Computer Science, Springer-Verlag, 1999, p. 189–202. Spécifications de BD géographiques 257 Sheeren D., « L’appariement pour la constitution de bases de données géographiques multirésolutions : vers une interprétation des différences de représentations », Revue internationale de géomatique, vol. 12, no 2/2002, 2002, p. 151–168. Sheth A. P., « Changing Focus on Interoperability in Information Systems : From System, Syntax, Structure to Semantics », Goodchild M. F., Egenhofer M. J., Fegeas R., Kottman C. A., Eds., Interoperating Geographic Information Systems, Kluwer, 1998. Sheth A. P., Larson J. A., « Federated Database Systems for Managing Distributed, Heterogeneous and Autonomous Databases », ACM Computing Surveys, vol. 22, no 3, 1990, p. 183– 236. Smith B., Mark D. M., « Ontology and Geographic Kinds », Poiker, Chrisman, Eds., Proceedings of the Eighth International Symposium on Spatial Data Handling, International Geographical Union, Geographic Information Science Study Group, 1998, p. 308–320. « BDTopo Pays/Agglo, spécifications de contenu version 1.2 », 2002. Spivey J. M., The Z Notation: A Reference Manual, Prentice Hall International, second édition, 1992. Vangenot C., « Multi-représentation dans les bases de données géographiques », Thèse de doctorat, École polytechnique fédérale de Lausanne, 2001. Wiederhold G., « Mediators in the Architecture of Future Information Systems », Computer Journal, vol. 25, 1992, p. 38–49.