L'appariement pour la constitution de bases de données géographiques multi-résolutions Vers une interprétation des différences de représentation David Sheeren Laboratoire COGIT / Institut Géographique National 2-4, Avenue Pasteur, 94165 Saint-Mandé Cedex [email protected] LIP6 - Pôle IA, Équipe ACASA Université Pierre & Marie Curie (Paris 6) 8, Rue du capitaine Scott, 75015 Paris L’utilisation de plusieurs bases de données géographiques sur une même portion du territoire conduit à manipuler des représentations du monde qui diffèrent en fonction des spécifications, de l’échelle de saisie, de la qualité, de l’actualité. Ces différences sont susceptibles d’engendrer des réponses contradictoires à une requête formulée dans un système multi-résolutions suivant la représentation utilisée. L’objectif de cet article est d’exposer les premiers éléments d’une méthodologie d’interprétation automatique des différences de représentation, et de déterminer si celles-ci sont justifiées ou non au regard des spécifications. La méthodologie repose sur un processus d’appariement qui permet de relier les données, mais qui peut aussi aider à identifier des concepts communs et extraire de nouvelles connaissances. RESUME. Using simultaneous datasets resulting from several databases provides different representations according to their specifications, scales, quality and actuality. These differences generate inconsistency answers when queries are formulated in a multi-scales database. The aim of this paper is first to set out the base elements of a methodology to interpret automatically the differences of representation, and then to determine whether those latter are justified or not in comparison with the specifications. The methodology is based on matching techniques wich connects corresponding elements of differents datasets and can also help to identify common concepts and to highlight new knowledge. ABSTRACT. MOTS-CLES : multi-représentation, appariement, incohérence, interprétation, apprentissage automatique. KEYWORDS : multi-representation, learning. spatial data matching, inconsistency, interpretation, machine 2 Revue internationale de géomatique, volume X - n°x/2002 1. Introduction Le passage du monde réel à une carte ou à une base de données géographiques implique une réduction volontaire de la complexité et de l'exhaustivité de la réalité. Le cartographe fait abstraction d'une série de phénomènes et crée son modèle de l'univers qui répond à une série de spécifications préalablement établies. Une carte représente ainsi une vision subjective de la réalité exprimée dans un langage de représentation. Avec la disponibilité croissante de données géographiques numériques, il est devenu courant de disposer de plusieurs représentations d’un même territoire (cf. figure1). La mise en correspondance de celles-ci est aujourd'hui recherchée car elle présente de multiples intérêts. a b Figure 1. Illustration de différences de représentation entre une portion de carte au 1:25.000 (a) et une portion de carte au 1:100.000 (b). Si aujourd'hui des modèles élaborés capables de supporter la représentation multiple commencent à émerger [BER et al. 01; VAN 01], leur instanciation à partir de bases de données existantes reste un problème délicat. L'intégration est difficile car le rapprochement des données fait apparaître des incompatibilités géométriques, topologiques et sémantiques entre les objets des différentes bases. De plus, ces différences sont susceptibles d’engendrer des réponses contradictoires à des requêtes formulées suivant la représentation utilisée. Dans ce contexte d'intégration et de multi-résolutions (sémantique et géométrique), nous nous intéressons à l'interprétation des différences de représentation et au maintien de la cohérence entre celles-ci. Notre objectif consiste à définir une méthodologie permettant d'évaluer et de qualifier les différences en faisant appel aux informations et contraintes présentes dans les spécifications des bases. Cette méthodologie repose sur un processus d'appariement qui permet de relier les données et qui peut aider à identifier des concepts communs. L’utilisation Appariement et interprétation 3 des techniques d’apprentissage est envisagée pour faciliter les phases d’appariement et d’interprétation. Après un bref rappel des différents contextes dans lequel l'appariement peut être mis en œuvre (§2), nous exposons les principales raisons pour lesquelles cet appariement doit être évalué (§3). La problématique étant définie, nous décrivons les propositions référencées dans la littérature traitant de l'intégrité et du maintien de la cohérence entre plusieurs représentations (§ 4). Nous présentons ensuite les premiers éléments de notre méthodologie (§5) et nous discutons des difficultés associées à cette interprétation automatique. Nous concluons enfin en présentant les perspectives de recherche (§6). 2. Les contextes d'utilisation de l'appariement de données géographiques L'appariement n'est pas un processus nouveau. Il est envisagé chaque fois que l'on souhaite mettre en correspondance des objets géographiques se rapportant aux mêmes phénomènes du monde réel mais provenant de jeux de données différents. Les techniques d’appariement ont déjà fait l'objet d'un certain nombre de travaux [LEM 96; BEL 01; WAL & FRI 99]. De manière schématisée, un processus d’appariement consiste à calculer des ressemblances géométriques, topologiques et sémantiques entre les jeux de données de manière indépendante ou coordonnée. Il utilise des mesures différentes suivant le type géométrique des objets à comparer (point, ligne, polygone) et établit des liens de correspondance qui peuvent être de plusieurs cardinalités : 0-1, 1-1, 1-n, n-m. L'application de ces outils et la paramétrisation des algorithmes se fait généralement par tâtonnement pour atteindre un appariement optimal. 2.1. Apparier pour évaluer la qualité d'un jeu de données Les techniques d'appariement sont généralement utilisées dans un contexte de contrôle de qualité d'une base de données géographiques. L'estimation de la qualité d'un jeu de données nécessite en effet l'utilisation d’échantillons de données de référence, assimilées au terrain nominal. Pour comparer ces deux jeux de données, il est nécessaire de les mettre en correspondance. Par exemple, [BEL 01] a récemment proposé une méthode d’appariement géométrique d’objets surfaciques dans le cadre d’une évaluation de leur qualité. De nouvelles métriques associées à différents espaces de représentation (notamment les moments mathématiques) ont été définies pour mieux caractériser les écarts de forme et de position entre des polygones. 4 Revue internationale de géomatique, volume X - n°x/2002 2.2. Apparier pour extraire et intégrer des mises à jour L’appariement peut être utilisé dans un contexte de mise à jour de bases de données géographiques lorsqu’aucune trace des modifications entre les différentes versions n’existe. La mise en correspondance des données permet la détection des différences entre les versions et facilite la déduction des évolutions subies [BAD 00]. 2.3. Apparier pour fusionner des données issues de plusieurs bases Il est fréquent de vouloir fusionner des données provenant de différentes sources. Cela permet d'une part de les enrichir à moindre coût et d'autre part, d'élargir leurs champs d'utilisation. Dans ce contexte, l'appariement est également utilisé pour identifier les objets candidats à la fusion. La fusion peut prendre la forme d’un transfert de l'information sémantique d'une base sur les éléments géométriques d'une autre base [WAL & FRI 99]. Ceci permet de combiner la richesse sémantique de la première avec la précision géométrique de la seconde. La fusion peut également aboutir à la création d'un produit composite issu de l'unification de plusieurs géométries. On suppose dans ce cas que les modèles de données des deux bases sont très proches. 2.4. Apparier pour intégrer et créer des bases de données multi-résolutions L'intégration de plusieurs bases de données est un problème émergent dans les organismes producteurs de données. Afin d’optimiser leur production, d'assurer une meilleure cohérence entre les représentations et d’éviter une mise à jour différée, ceux-ci souhaitent aujourd'hui établir des liens entre leurs bases. L'appariement peut être utilisé sous deux formes pour répondre à ce besoin : un appariement automatique pour matérialiser les correspondances utiles entre les bases existantes, et un appariement en temps réel durant les phases routinières de saisie de nouvelles données. Du point de vue des utilisateurs, la manipulation simultanée d'objets géographiques représentés à différentes échelles et selon différents points de vue est fréquemment recherchée. Ceux-ci souhaiteraient pouvoir effectuer des traitements sur leurs données à différents niveaux d'analyse et naviguer entre les représentations. L’appariement peut être utilisé pour relier les objets homologues et instancier un schéma à représentation multiple [DEV 97]. Appariement et interprétation 5 3. Problématique. Pourquoi évaluer l'appariement ? L'intérêt d'évaluer l'appariement – ou plutôt d'interpréter les différences de représentation entre les objets mis en correspondance car il ne s'agit pas ici d'évaluer la qualité des liens d'appariement – dépend du contexte dans lequel l’appariement est mis en œuvre. Pour un contrôle qualité, l’interprétation des différences est immédiate. Les deux jeux de données sont saisis en suivant les mêmes spécifications et tout écart par rapport à la référence s'interprète comme une erreur ou une faute. Dans le cadre d'une mise en correspondance des données pour une détection des mises à jour, l'analyse de l'appariement présente un intérêt plus marqué. En fonction du type de liens détectés, il est possible d'interpréter la nature des évolutions géométriques intervenues dans la base. Les liens caractérisés par une cardinalité 0-1 ou 1-0 indiquent respectivement la création ou la destruction d'un objet. Les liens de type 1-n ou n-1 peuvent résulter respectivement d'un processus de fusion ou de scission. Les liens n-m indiquent un phénomène d'agrégation. La stabilité se caractérise par un appariement 1-1 si les tests d’égalité géométrique et sémantique sont positifs [BAD 00]. Dans ce contexte de mise à jour, l’analyse des différences permet donc de déduire les évolutions spatio-temporelles entre les deux versions de la même base, et l’interprétation se traduit par la qualification de ces évolutions. Lorsque l'appariement est utilisé pour intégrer des données provenant de différentes sources et pour créer des systèmes à représentation multiple, l'interprétation est essentielle et doit nécessairement faire appel aux spécifications de chacune des bases. Ceci permet d'assurer une cohérence entre les représentations et d'éviter d'avoir des réponses contradictoires lorsqu'une requête est lancée (§ 3.1.). L'évaluation de l'appariement peut aussi aider à intégrer des schémas et éventuellement enrichir les spécifications par l'extraction et la découverte de nouvelles connaissances. Ces points sont développés dans les sections suivantes (3.2. & 3.3.). 3.1. Évaluer pour assurer la cohérence entre les représentations dans un système multi-échelles L'utilisation simultanée de jeux de données issus de plusieurs sources et se rapportant à un même territoire met en évidence des différences entre les représentations. Ces différences s'expliquent par des critères de saisie et de contenu différents entre les bases (échelle, degré de généralisation, modélisation, qualité) 6 Revue internationale de géomatique, volume X - n°x/2002 mais résultent aussi d'erreurs de saisie (complétude, inexactitude), d'actualités différentes ou encore de différences d’interprétation de spécifications peu explicites. Les différences sont de plusieurs natures. Elles concernent à la fois la géométrie (position, taille, forme, modes d'implantation), les relations spatiales (topologie, distances, orientation) et la sémantique (classes absentes, structures différentes, domaines d'attributs différents, etc.). Elles se caractérisent aussi par la présence et l'absence de certains éléments dans une des bases. Enfin, les différences concernent plusieurs niveaux d’analyse : l’objet lui-même (ex : une maison), les groupes d’objets (ex : l’ensemble des maisons d’un îlot urbain) et la population d’objets (ex : l’ensemble des maisons de la base) [RUA 99]. Un exemple d’îlot urbain au 1:25.000 issu de la BDTOPO de l’IGN et son correspondant généralisé par le prototype AGENT [BAR et al. 01] pour une carte au 1:50.000 est donné en figure 2. On remarque des différences entre les deux îlots (principalement l’agencement des bâtiments). L’évaluation des différences pour cet exemple doit être appréhendée au niveau de l’îlot (densité du bâti notamment) et pas au niveau des bâtiments. En effet, les bâtiments représentés au 1:50.000 sur cet extrait n’ont pas de réalité physique. Ils sont représentatifs des bâtiments réels figurant sur la carte au 1:25.000. Ceci est dû au fait que chaque échelle retranscrit différents phénomènes géographiques de manière distincte. a b Figure 2. Îlot urbain issu de la BDTOPO au 1:25.000 (a) et son homologue généralisé pour une représentation au 1:50.000 (b). Il est utile et nécessaire de cataloguer automatiquement ces différences de représentation car un utilisateur peut s’étonner d’obtenir des réponses contradictoires suivant la représentation qu’il utilise lorsqu'il interroge le système. Ces différences sont susceptibles de se produire chaque fois qu'une requête est lancée en faisant appel à une mesure (distance, intersection, calcul d'itinéraires, densité, …) ou à une information attributaire. Par exemple, le système doit être capable de signaler la différence de représentation des ronds-points, symbolisés dans une première base par leur pourtour (pour peu que le diamètre excède 30 mètres), et Appariement et interprétation 7 dans une seconde base par des objets ponctuels (figure 3a). Dans cet exemple, la différence de représentation est légitime étant donnés les critères de saisie des deux bases et il est nécessaire de le faire savoir à l'utilisateur, mais cette différence peut aussi être issue d'une erreur de saisie. La figure 3b illustre un autre exemple, dans lequel des différences de saisie expliquent des différences dans la représentation des routes à chaussées séparées par une borne centrale. Selon la base, les critères de saisie de ce type de chaussée peuvent consister à relever chaque axe de la route quel que soit la largeur du séparateur, ou à dédoubler les voies dans la mesure où la largeur du séparateur excède 15 mètres. Base 1 Base 2 Superposition a b Figure 3. Illustration d’équivalences, d’erreurs et/ou d’incohérences entre tronçons issus de différentes bases de résolutions identiques (ronds-points et routes à chaussées séparées). Trois cas essentiels sont donc rencontrés. Soit les représentations sont différentes mais équivalentes car les spécifications le justifient. Soit les représentations sont différentes mais ne sont pas équivalentes parce que la différence résulte d’une erreur de saisie. Soit les représentations sont différentes et incohérentes car aucun critère de saisie et de contenu ne permet de l'expliquer. La phase d'interprétation doit permettre de qualifier chacune de ces situations afin d'éviter toute incompréhension chez l'utilisateur. Elle doit aussi guider l’intégration pour déterminer quelle(s) représentation(s) choisir. 3.2. Évaluer pour faciliter l’intégration des schémas Lorsqu'on envisage d'intégrer plusieurs bases de données, il convient préalablement d'élaborer un schéma commun, intégré ou fédéré (selon la stratégie adoptée), qui se dérive des schémas initiaux et des spécifications des bases. La tâche 8 Revue internationale de géomatique, volume X - n°x/2002 d'intégration des schémas s'avère complexe car un certain nombre de conflits apparaissent [DEV 97] et la prise de connaissance approfondie des spécifications est fastidieuse. Dans cette optique, l'appariement des données pourrait être utilisé pour assister le concepteur à mettre en correspondance les schémas et pas uniquement pour relier les données lors de l’intégration des géométries. Par exemple, si un appariement géométrique met en relation des tronçons de route classés en autoroute dans une des bases avec des tronçons de route classés en routes principales dans l’autre base, on peut supposer que les autoroutes et les routes principales sont des concepts équivalents et on peut envisager de les relier au niveau du schéma. En analysant la sémantique des données appariées, il serait donc possible d'alléger la phase d'étude des spécifications et d'identifier plus facilement les classes à relier et les conflits à résoudre. 3.3. Évaluer pour extraire de nouvelles connaissances et enrichir les spécifications L'évaluation de données appariées peut aussi être réalisée dans une optique de découverte, d'extraction et de clarification de connaissances, ceci à la fois pour la géométrie, l’information attributaire et les relations spatiales. Il est fréquent que les critères de saisie et de contenu d'une base de données soient peu explicites. Par exemple, pour les voies en impasses présentes dans des zones de lotissement, les spécifications de la BDTOPO indiquent que celles-ci sont représentées si leur longueur est supérieure à 50m et « que la représentation du paysage ou la levée d'une ambiguïté le justifie » [IGN 94]. Un tel critère de saisie est vague et la décision de représenter l'objet sera laissée à l'appréciation du restituteur en fonction de ses connaissances et de son expérience. En utilisant une autre base de données possédant un modèle et une résolution comparables, on peut tenter de mieux formaliser cette spécification. Si on imagine que toutes les impasses sont saisies dans cette deuxième base et qu'on analyse systématiquement par comparaison le contexte dans lequel l'objet est – ou n'est pas – restitué dans la première, on peut envisager de clarifier la spécification. 4. Recherches relatives au maintien de la cohérence et à l’interprétation dans les systèmes à représentation multiple La nécessité de maintenir l’intégrité et la cohérence entre les données dans un système multi-représentations a été identifiée depuis longtemps. Ainsi, [BUT et DEL 89] mentionnent déjà qu’il s’agit d’un des principaux problèmes à résoudre, particulièrement lorsqu’on intègre des données provenant de sources multiples. Cependant, il existe très peu de méthodes répondant à ce problème [CAI 00]. Appariement et interprétation 9 [JEN 99] a étudié l’évolution des relations spatiales lors d’un changement d’échelle pour différents types d’objets et a établi l’ensemble des changements valides pour chaque relation topologique en s’appuyant sur certaines contraintes. Il introduit la relation R-analogue. Il s’agit d’une relation telle que le changement de R à R’ (ensemble des relations topologiques à grande échelle vers l’ensemble des relations à petite échelle) est valide. Cette relation lui permet d’obtenir une réponse cohérente à une requête quelle que soit la représentation utilisée. Une proposition a été faite par [EGE et al. 94] pour assurer une cohérence topologique entre des données représentées à différentes résolutions. Ils introduisent les notions de similarité entre objets et relations. Ces similarités sont exprimées à partir de l’examen des différences d’invariants : la dimension des intersections, la séquence des intersections entre objets, le type d’intersection (touch, cross, …), le nombre d’enclaves (pour les polygones), etc. Les degrés de similarité sont définis en fonction d’une déviation plus ou moins grande par rapport à la représentation homéomorphique. Cette déviation est évaluée en introduisant des propriétés d’ordre pour certains invariants. Cette proposition a été étendue aux relations métriques (orientation et distance) en se fondant sur le concept d’évolution graduelle [BRU et EGE 96]. Le nombre minimum de transformations nécessaires pour passer d’une configuration à une autre à travers le graphe conceptuel permet de fixer un degré de similarité qualitatif entre scènes. [PAI 98] propose aussi un modèle permettant de vérifier l’équivalence topologique entre deux scènes à différentes résolutions. Son travail s’inscrit dans la même lignée que ceux de [EGE et al. 94]. L’auteur expose le relation-based model qui se fonde sur la description des scènes sous forme de graphes et sur la recherche des configurations isomorphiques entre ceux-ci. Il présente une série d’indicateurs de similarité qui concerne entre autre la dimension spatiale, le nombre d’objets adjacents à un autre et le nombre de niveaux hiérarchiques (nombre de graphes internes). [GOY 00] s’est intéressé plus spécifiquement à l’évaluation de la similarité des directions cardinales entre objets spatiaux. Sa méthode est fondée sur le calcul d’une distance entre matrices de directions cardinales, utilisant aussi la notion de voisinage conceptuel (graphe à 4 et 8 connections). La distance à partir de laquelle le degré de similarité est dérivé est définie par le coût minimum de transformation pour passer d’une matrice à l’autre. Dans la plupart de ces travaux, les auteurs définissent des méthodes qui permettent de déterminer un degré de similarité entre scènes, c’est-à-dire une « distance » par rapport à des configurations qui seraient identiques. Notre objectif est différent. Nous souhaitons pouvoir expliquer et qualifier chaque différence de 10 Revue internationale de géomatique, volume X - n°x/2002 représentation, qu’elle soit topologique, géométrique ou sémantique, en terme d’équivalence, d’erreur ou d’incohérence, à partir des spécifications de chacune des bases. La partie suivante présente les premiers éléments de notre méthodologie d’interprétation automatique. 5. Vers une interprétation automatique des différences de représentations La méthodologie d’interprétation que nous proposons se décompose en plusieurs étapes (figure 4) : création des bases de spécifications, étude du respect des spécifications, création des bases de règles de saisie et de contenu, appariement, interprétation de l’appariement et enrichissement des spécifications. 5.1. Création des bases de spécifications Au cours de la première étape, les spécifications de chacune des bases de données sont informatisées et introduites dans une base d’informations qu’on nomme base de spécifications (BS). Chaque BS repose sur le même modèle générique qui permet de représenter l’ensemble des contraintes de saisie et de contenu des BD : contraintes d’existence d’un objet (ex : un bâtiment est saisi si sa superficie réelle est supérieure à 100 m²), contraintes de modélisation (ex : les rivières sont représentées par un objet linéaire si leur largueur est inférieure à 30m), contraintes de représentativité (ex : si le réseau d’allées est dense, elles sont confondues en un seul objet) et contraintes sur la valeur des attributs (ex : si la modalité de l’attribut état chaussée est en construction, l’attribut importance prend la valeur quelconque). La modélisation et l’instanciation du modèle à partir des spécifications des BD de l’IGN sont en cours d’élaboration. Notre modèle, orientéobjet, s’appuie sur certaines méta-classes définies dans les travaux de normalisation (ISO19109, General Feature Model - Rules for application schema). Il conviendra également à ce stade de mettre en commun les schémas des bases de données à relier à partir des similitudes entre les spécifications pour créer un schéma à représentation multiple. Cette mise en correspondance des schémas fait l’objet d’un autre travail de recherche au laboratoire COGIT [GES 01]. Il s’agit d’une étape importante du processus. Appariement et interprétation Fédérer Spec2 Modéliser & Instancier Modéliser & Instancier BD1 BD2 Extraire BS2 Extraire Jeu 1 ETUDE DU RESPECT DES SPECIFICATIONS BS1 Jeu 2 Étudier Étudier Écarts constatés Écarts constatés BR1 BR2 const. const. BR1 inter. Apparier Apprendre Jeux appariés - Préparer - Sélectionner - Mesurer - Filtrer - Regrouper - Analyser BR2 BR2 CREATION DES BASES DE REGLES Produire inter. APPARIEMENT Produire BR1 CREATION DES BASES DE SPECIFICATIONS Spec1 11 Interpréter Différences interprétées (incohérences et équivalences locales et globales) BD = Base de données BS = Base de spécifications BR = Base de règles (saisie et contenu) BR const. = Base de règles constatées BR inter = Base de règles interprétation INTERPRETATION ET ENRICHISSEMENT Apprendre Spécifications enrichies (BS1 et BS2) et qualité des données améliorée Figure 4. Méthodologie d’interprétation des différences de représentations entre deux bases de données. 12 Revue internationale de géomatique, volume X - n°x/2002 5.2. Étude du respect des spécifications des bases La deuxième phase consiste à étudier, pour chaque jeu de données à intégrer issu des BD, ses écarts par rapport aux spécifications (écarts constatés). Elle permet de vérifier que les données respectent les spécifications, car tous les critères de saisie ne sont pas examinés lors du contrôle qualité (ex : on ne vérifie pas que le diamètre d’un rond-point modélisé par son pourtour respecte le seuil minimum de saisie). Elle donne aussi une idée sur l’adéquation des spécifications aux données effectivement saisies et permet de remettre éventuellement en cause les BS. Si après examen des données on constate par exemple que les critères d’un type d’objet ne sont jamais respectés, on peut faire l’hypothèse que la spécification n’est pas adaptée à l’objet (on ne considère pas toutes les données comme fausses). La vérification portera principalement sur les domaines attributaires et sur certaines caractéristiques géométriques (les critères qui ne nécessitent pas de jeu de référence comme par exemple, la taille minimale de saisie des bâtiments). Cette étape a donc pour objectif d’enrichir les données de métadonnées (il s’agit principalement ici d’informations sur la qualité du jeu de données) et si besoin est, d’ajuster les spécifications. Cette analyse permettra par la suite de qualifier plus justement le type de différence constatée (équivalence, erreur ou incohérence) lors de la phase d’interprétation. 5.3. Création des bases de règles de saisie et de contenu Afin de pouvoir interpréter plus facilement les différences de représentations de manière automatique, les BS vont être réexprimées sous la forme de bases de règles. La création de bases de règles (BR) à partir de chaque BS et des écarts constatés constitue à ce titre la troisième étape. Deux bases de règles peuvent être produites : les règles « théoriques » qui sont issues directement des spécifications et les règles « constatées » produites après l’examen des jeux de données et des écarts constatés. Ces deux bases de règles devront servir à créer une troisième base de règles nécessaires à l’interprétation (BR inter) dont les règles et les seuils seront fixés à partir des règles théoriques et constatées. Cette troisième base est nécessaire car d’une part, la base de règles théoriques est complète mais ces règles ne sont pas systématiquement adaptées aux données, et d’autre part, la base des règles constatées est plus « vraie » mais ne contient pas tous les critères de saisie et de contenu. La base BR inter sera donc composée de l’ensemble des règles objectives à respecter, autrement dit, des nouvelles spécifications. Celles-ci seront utilisées lors de la phase d’interprétation automatique. Elles devront être définies dans un langage facilement manipulable par une machine. Par exemple, pour une classe représentant les bâtiments en ruine, si les spécifications indiquent que ceux-ci n’existent dans la base que si leur plus grande dimension est supérieure à 10m, la contrainte d’existence pour cette classe exprimée sous forme de règle pourrait être la suivante : SI plus grande dimension > 9m Appariement et interprétation 13 ALORS l’objet ruine existe. La contrainte est une contrainte géométrique d’existence qui est définie dans le modèle des spécifications. Le seuil fixé à 9m reflète l’ajustement des spécifications lors de l’étape précédente : après examen des données, il s’est avéré que sur l’ensemble des ruines existant dans le base, un grand nombre de ruines possédaient un côté compris entre 9 et 10m. 5.4. Appariement des données L’étape suivante est l’appariement. Le processus pourra s’appuyer sur les méthodes et mesures développées depuis quelques années au laboratoire COGIT de l’IGN [DEV 97 ; BAD 00 ; BEL 01]. Il est décomposé en six phases : l’enrichissement (préparation des données à apparier), la sélection des objets candidats, le calcul des mesures d’appariement, le filtrage ou la prolongation, le regroupement et l’analyse du résultat (vérification des contraintes). Si le processus actuel est relativement générique, il présente néanmoins quelques faiblesses. L’utilisateur doit encore déterminer l’ordre des sélections, choisir les outils d’appariement (mesures), choisir les paramètres des algorithmes et fixer la stratégie à adopter (filtrage ou prolongation). Le choix des mesures dépend du type d’appariement recherché, de la proximité des objets, de leur similarité de forme et des relations topologiques qu’ils entretiennent avec des données déjà appariées [DEV 97]. Pour améliorer le processus, on envisage actuellement d’utiliser les techniques d’apprentissage supervisé issues du domaine de l’IA (Intelligence Artificielle) [MIT 97]. Il s’agit d’un mécanisme d’induction qui vise à déterminer un concept (l’hypothèse ou fonction cible) à partir d’un sous-ensemble de son extension (les exemples). Pour notre problème, la tâche à apprendre désigne le choix des outils à utiliser pour apparier et la détermination de leurs paramètres. Cette tâche doit être apprise à partir d’exemples constitués de couples d’objets appariés manuellement et contenant des mesures les décrivant. Un algorithme d’apprentissage du type C4.5 [QUI 93] pourrait être utilisé pour réaliser la tâche. Les mesures composant les exemples sont celles utilisées par le module d’appariement. Il s’agit notamment, pour les éléments linéaires, de la distance moyenne (rapport de l’aire séparant les polylignes à apparier sur la moyenne de leur longueur) et de la distance de Hausdorff. Pour les polygones, il s’agit entre autre de la fonction de ressemblance et de la distance surfacique. Pour davantage de détails sur l’éventail des mesures existant dans le module d’appariement ainsi que sur leur définition, on peut se référer à [BAD et LEM 02]. Les techniques d’apprentissage supervisé symbolique semblent très prometteuses pour améliorer le processus d’appariement au vu des résultats obtenus par [MUS 01] dans le cadre de la généralisation cartographique automatique. L’auteur cherche à 14 Revue internationale de géomatique, volume X - n°x/2002 déterminer quels algorithmes doivent être appliqués à un objet caractérisé par une série de mesures pour le généraliser. Le processus d’apprentissage a été contraint par des connaissances du domaine grâce à la définition d’une méthode de résolution de problème. Peu d’exemples contenant un grand nombre de mesures ont été utilisés. Une étape d’abstraction des mesures (définition d’attributs symboliques à partir de plusieurs attributs numériques) a été nécessaire pour réduire la taille de l’espace des hypothèses et améliorer le processus d’apprentissage. L’approche symbolique a été retenue afin d’obtenir des hypothèses facilement compréhensibles et directement interprétables (contrairement à l’approche numérique). 5.5. Interprétation de l’appariement A l’issue du processus d’appariement, les correspondances entre les données seront stockées dans une table en utilisant les identifiants de chaque objet. L’étape suivante consiste à interpréter les différences de représentation pour chaque groupe d’éléments appariés (lien 1-1, 1-n ou n-m) et non appariés (lien 1-0 ou 0-1). Ces différences portent sur la géométrie et les attributs des objets et sur les relations spatiales qu’entretiennent les objets entre eux. Elles doivent être examinées pour chaque niveau d’analyse (cf. §3.1). Si des objets sont mis en correspondance, cela indique qu’ils représentent le même phénomène dans la réalité de l’appariement. Cela indique aussi que les différences, si elles existent, ont été acceptées puisque les données sont appariées. Encore faut-il maintenant comprendre et expliquer ces différences. Par exemple, on peut très bien apparier un rond-point modélisé par un nœud avec un rond-point modélisé par son pourtour, sans pour autant savoir si les différences de représentations sont justifiées au regard des spécifications. Une première sélection des règles d’interprétation peut être envisagée à ce niveau en utilisant la cardinalité du lien d’appariement. Pour les données non appariées par exemple, l’absence d’un des deux éléments peut être justifiée en parcourant uniquement les règles d’interprétation relatives aux contraintes géométriques d’existence (cf. § 5.1.). Ainsi, si un bâtiment d’une superficie de 100m² est présent dans la première base mais que les spécifications de la seconde indiquent que la taille minimale d’un bâtiment est de 200m², il est normal que ce bâtiment n’ait pas d’équivalent apparié dans la seconde base. Si le non appariement s’explique par un écart de position trop important entre les objets (dépassant le seuil fixé dans les outils d’appariement géométrique), seule l’information relative à la précision planimétrique des classes d’objets sera utilisée pour qualifier la différence. Encore faut-il être capable de détecter ces « non-correspondances ». Pour ce faire, on peut envisager à l’issue du processus, de traiter les données appariées séparément des données non appariées. Pour ces dernières, les algorithmes d’appariement peuvent être réappliqués avec des paramètres différents pour tenter de mettre en Appariement et interprétation 15 correspondance des objets homologues qui seraient trop éloignés. Les objets n’ayant pas de correspondants seront alors les derniers étudiés. Les règles issues des BR inter ainsi que les résultats des mesures réalisées pour chaque situation seront donc utilisées et comparées à cette étape. A chaque règle d’interprétation seront associées une ou plusieurs mesures qui peuvent être internes à l’objet (aire, périmètre, longueur,…) ou s’appliquer entre les objets (distance, intersection,...). Par exemple, dans le cas des ronds-points, il sera nécessaire de mesurer le diamètre du pourtour pour vérifier que les spécifications ont bien été respectées ou non. Il conviendra alors de qualifier la situation d’équivalence (si la différence est justifiée), d’erreur (si la différence n’est pas justifiée) ou d’incohérence (si la différence n’est pas interprétable sans information supplémentaire). Pour certains caractères tels que l’écart de position entre les objets, on utilisera les résultats des mesures effectuées durant le processus d’appariement (composante de la distance de Hausdorff par exemple). Il faut noter que pour cette caractéristique, toutes les relations d’appariement peuvent être considérées comme des équivalences. En effet, l’appariement géométrique se fonde sur des mesures de proximité et le seuil de recherche des objets homologues repose sur la connaissance des échelles et de l’erreur moyenne quadratique de position des objets. L’interprétation des différences présentera sans doute davantage de difficultés pour les groupes d’objets car ces objets ne sont généralement pas représentés dans les BD (ex : agglomération, quartier,… ) et peu d’informations existent dans les spécifications pour cette échelle d’analyse. Les caractéristiques des groupes d’objets seront évaluées statistiquement à partir d’échantillons. On s’inspirera des mesures proposées dans [AGE 99] pour comparer leurs caractéristiques géométriques. Les résultats de l’interprétation, c’est-à-dire le type de différence (équivalence, erreur ou incohérence) et le détail des règles d’interprétation utilisées, seront stockés dans la table d’appariement. Il sera nécessaire de fournir une évaluation globale de chaque situation par agrégation des résultats locaux. A ces résultats devront être systématiquement associées des informations sur la précision et la certitude de qualification. Ces informations sont indispensables car d’une part, les limites entre les classes de différences ne devraient pas être rigides, et d’autre part, la qualification est entâchée d’incertitudes. D’une manière générale, on envisage actuellement de recourir aussi à l’apprentissage pour faciliter l’interprétation automatique car la définition a priori de règles de classification des différences pour chaque situation est difficile et cette classification n’est pas binaire. A partir d’exemples classés contenant les écarts par rapport aux règles fixées dans les BR inter, la tâche à apprendre consisterait à qualifier automatiquement les autres cas appariés et non appariés en définissant pour 16 Revue internationale de géomatique, volume X - n°x/2002 chaque classe (situation faiblement incohérente / totalement équivalente, …) leurs limites. Ces techniques ont déjà été utilisées pour des tâches d’interprétation de bases de données spatiales mais dans un contexte différent [SES 98]. Les applications ont porté sur des données cadastrales et des cartes topographiques. Pour les données cadastrales, le processus visait à interpréter les données pour reconnaître les parcelles et les distinguer des routes. Pour les cartes topographiques, la tâche d’apprentissage consistait à déterminer les conditions requises pour qu’une agrégation de données apparaisse lors d’une généralisation à une échelle plus petite. 5.6. Découverte et enrichissement des spécifications L’interprétation permettra d’améliorer la cohérence entre les données mises en correspondance puisque des erreurs de saisie et de contenu dans les deux bases vont être détectées, mais son intérêt est plus large. Au terme de l’interprétation, les spécifications initiales pourront être enrichies de nouvelles spécifications. Par exemple, si pour la classe d’objet bâtiment, les spécifications indiquent dans la première base que toutes les cours intérieures sont saisies et que dans la seconde base, aucun critère de saisie n’existe, on peut utiliser la première base comme référence pour rechercher les critères de saisie de l’objet dans la seconde. Sans l’utilisation de cette base de référence, aucune indication ne permettrait de vérifier que toutes les cours intérieurs ont été représentées dans la seconde ou que le nombre de cours représentées augmente avec leur superficie ou encore, que les cours intérieurs ne sont saisies que sous certaines conditions (longueur > 15m et largeur > 5m par exemple). La mise en correspondance des données va également permettre de clarifier et de mieux formaliser certains critères de saisie imprécis. La figure 5 illustre des spécifications utilisant des termes flous (« si les bâtiments sont trop nombreux, seules les principaux sont retenus »). Un examen systématique du contexte dans lequel les objets sont ou ne sont pas représentés – et ceci pour un ensemble d’échantillons – permettra d’expliciter cette contrainte d’existence. Pour de telles analyses, on aura probablement recours à des techniques de Data Mining Spatial [MIL & HAN 01]. Appariement et interprétation 17 Figure 5. Exemple de spécifications qui pourraient être clarifiées dans la seconde base après à la mise en correspondance des deux jeux de données et l’évaluation de leurs différences. 6. Conclusion et perspectives Nous avons exposé dans cet article la problématique du maintien de la cohérence entre plusieurs représentations d’un même objet dans un système multireprésentations et justifié le besoin d’évaluer et interpréter les différences entre ces représentations à plusieurs niveaux d’analyse. Les premiers éléments d’une méthodologie d’interprétation ont été présentés. Elle commence à être mise en œuvre sur des bases de données géographiques de l’IGN. La méthodologie se décompose en plusieurs phases : création de bases de spécifications, étude du respect des spécifications des jeux de données à relier, création des bases de règles de saisie et de contenu, appariement, interprétation de l’appariement et enrichissement des spécifications. A l’issue du processus, le système devra être capable de cataloguer chaque situation en terme d’équivalence, d’erreur ou d’incohérence suivant que les différences de représentation sont justifiées ou non par les spécifications. Il s’agira d’introduire une certaine souplesse dans la caractérisation de chaque différence étant donné que les limites entre les classes sont imprécises. Des modificateurs linguistiques permettant de moduler une description tels que ceux utilisés en logique floue pourraient être utilisés [BOU 99]. Cette interprétation permettra d’enrichir les spécifications de chacune des bases et d’améliorer la qualité des données. Elle servira à expliquer toutes les réponses contradictoires à une requête formulée dans un système à représentation multiple. Les techniques d’apprentissage supervisé sont envisagées pour améliorer le processus d’appariement existant et pour aider à fixer les seuils de classification des différences. L’apprentissage devrait permettre de faire des hypothèses plus justes sur les correspondances entre les données et sur les métadonnées des BD. 18 Revue internationale de géomatique, volume X - n°x/2002 7. Bibliographie [AGE 99] Agent Project, ESPRIT LTR 24939, Specifications for measures on meso level & organisations, Final Report, http://agent.ign.fr, 1999. [BAD 00] Badard T., Propagation des mises à jour dans les bases de données géographiques multi-représentations par analyse des changements géographiques, Thèse de doctorat, Université de Marne-la-Vallée, 2000. [BAD et LEM 02] Badard T. & Lemarié C., Associer des données : l’appariement. Généralisation et représentation multiple, Ruas A. (ed.), Traité Information Géographique et Aménagement du territoire, Hermès Science Publication, 2002 (à paraître). [BAR et al. 01] Barrault M., Regnauld N, Duchêne C., Haire K., Baeijs C., Demazeau Y., Hardy P., Mackaness W., Ruas A., Weibel R., Integrating multi-agent, object-oriented, and algorithmic techniques for improved automated map generalization, Proceedings of the 20th International Cartographic Conference, Beijing, Chine, 2001. [BER et al. 01] Bernier E., Bédard Y. & Devillers R., Automatic generalization and multiple representation for Spatial OLAP, Séminaire Geo Information Fusion and Revision, Université Laval, Quebec, CA 9-12 avril, 2001. [BEL 01] Bel Hadj Ali A., Qualité géométrique des entités surfaciques. Application à l’appariement et définition d’une typologie des écarts géométriques, Thèse de doctorat, Université de Marne-la-Vallée, 2001. [BOU 99] Bouchon-Meunier B., La logique floue, Que sais-je ?, Presses Universitaires de France, 3ème édition, 1999. [BRU et EGE 96] Bruns T.H. & Egenhofer M.J., Similarity of spatial scenes, Proceedings of the 7th International Symposium on Spatial Data Handling SDH’96, Delft, The Netherlands, pp. 173-184. [BUT et DEL 89] Buttenfield B.P. & Delotto J.S., Multiple representations, Report for the specialists meeting, National Center for Geographic Information and Analysis (NCGIA), Technical paper 89-3, 1989. [CAI 00] Cai G., Spatial data integration under conceptuel and geometric incompatibility, Proceedings of the 9th International Symposium on Spatial Data Handling SDH’2000, Beijing, China, pp. 44-57. [DEV 97] Devogele T., Processus d’intégration et d’appariement de bases de données Géographiques. Application à une base de données routières multi-échelles, Thèse de doctorat, Université de Versailles, 1997. [EGE et al. 94] Egenhofer M.J., Clementini E. & DiFelice P., Evaluating inconsistencies among multiple representations, Proceedings of the 6th International Symposium on Spatial Data Handling SDH’94,, Edinburgh, Scotland, pp. 901-920. [GES 01] Gesbert N., Étude de la fédération de schémas dans les bases de données géographiques, Rapport de stage de DEA SIG, Université de Marne-la-Vallée, 2001. Appariement et interprétation 19 [GOY 00] Goyal R.K., Similarity assessment for cardinal directions between extended spatial objects, PhD Thesis in Spatial Information and Engineering, University of Maine, 2000. [IGN 94] IGN, Spécifications détaillées de la BDTOPO, version 3.1., St Mandé, 1994. [JEN 99] Jen T., Formalisation des relations spatiales topologiques et application à l’exploitation des bases de données géographiques, Thèse de doctorat, Université de Paris-Sud, 1999. [LEM 96] Lemarié C., État de l’art sur l’appariement, Rapport technique DT/9600022/SRAP, juillet 1996, IGN, Service de la Recherche. [MIT 97] Mitchell T.M., Machine Learning, McGraw-Hill International Editions, Singapour, 1997. [MIL & HAN 01] Miller H.J. & Han J. (eds), Geographic Data Mining and knowledge discovery, Taylor & Francis, 2001. [MUR 01] MurMur Project, Multi-representations and multi-resolutions in geographic databases, http://lbdwww.epfl.ch/e/MurMur/, 2001. [MUS 01] Mustière S., Apprentissage supervisé pour la généralisation cartographique, Thèse de doctorat, Université Pierre et Marie Curie, Paris 6, 2001. [PAI 98] Paiva J.A., Topological equivalence and similarity in multi-representation geographic databases, PhD Thesis in Spatial Information and Engineering, University of Maine, 1998. [QUI 93] Quilan J.R., C4.5 : Programs for machine learning, Morgan Kaufmann, 1993. [RUA 99] Ruas A., Modèle de généralisation de données géographiques à base de contraintes et d’autonomie, Thèse de doctorat, Université de Marne-la-Vallée, 1999. [SES 98] Sester M., Interpretation of spatial databases using matching learning techniques, Proceedings of the 8th International Symposium on Spatial Data Handling SDH’98, Vancouver, pp. 88-97. [VAN 01] Vangenot C., Multi-représentation dans les bases de données géographiques, Thèse de doctorat n°2430, École Polytechnique Fédérale de Lausanne, 2001. [WAL & FRI 99] Walter V. & Fritsch D., Matching spatial data sets : a statistical approach, International Journal of Geographical Information Science, vol. 13, n°5, 1999, pp. 445473.