L'appariement pour la constitution de bases
de données géographiques multi-résolutions
Vers une interprétation des différences de
représentation
David Sheeren
Laboratoire COGIT / Institut Géographique National
2-4, Avenue Pasteur, 94165 Saint-Mandé Cedex
LIP6 - Pôle IA, Équipe ACASA
Université Pierre & Marie Curie (Paris 6)
8, Rue du capitaine Scott, 75015 Paris
RESUME. L’utilisation de plusieurs bases de données géographiques sur une même portion du
territoire conduit à manipuler des représentations du monde qui diffèrent en fonction des
spécifications, de l’échelle de saisie, de la qualité, de l’actualité. Ces différences sont
susceptibles d’engendrer des réponses contradictoires à une requête formulée dans un
système multi-résolutions suivant la représentation utilisée. L’objectif de cet article est
d’exposer les premiers éléments d’une méthodologie d’interprétation automatique des
différences de représentation, et de déterminer si celles-ci sont justifiées ou non au regard des
spécifications. La méthodologie repose sur un processus d’appariement qui permet de relier
les données, mais qui peut aussi aider à identifier des concepts communs et extraire de
nouvelles connaissances.
ABSTRACT. Using simultaneous datasets resulting from several databases provides different
representations according to their specifications, scales, quality and actuality. These
differences generate inconsistency answers when queries are formulated in a multi-scales
database. The aim of this paper is first to set out the base elements of a methodology to
interpret automatically the differences of representation, and then to determine whether those
latter are justified or not in comparison with the specifications. The methodology is based on
matching techniques wich connects corresponding elements of differents datasets and can
also help to identify common concepts and to highlight new knowledge.
MOTS-CLES : multi-représentation, appariement, incohérence, interprétation, apprentissage
automatique.
KEYWORDS : multi-representation, spatial data matching, inconsistency, interpretation, machine
learning.
2 Revue internationale de géomatique, volume X - n°x/2002
1. Introduction
Le passage du monde réel à une carte ou à une base de données géographiques
implique une réduction volontaire de la complexité et de l'exhaustivité de la réalité.
Le cartographe fait abstraction d'une série de phénomènes et crée son modèle de
l'univers qui répond à une série de spécifications préalablement établies. Une carte
représente ainsi une vision subjective de la réalité exprimée dans un langage de
représentation.
Avec la disponibilité croissante de données géographiques numériques, il est
devenu courant de disposer de plusieurs représentations d’un même territoire (cf.
figure1). La mise en correspondance de celles-ci est aujourd'hui recherchée car elle
présente de multiples intérêts.
Figure 1. Illustration de différences de représentation entre une portion de carte au
1:25.000 (a) et une portion de carte au 1:100.000 (b).
Si aujourd'hui des modèles élaborés capables de supporter la représentation
multiple commencent à émerger [BER et al. 01; VAN 01], leur instanciation à partir
de bases de données existantes reste un problème délicat. L'intégration est difficile
car le rapprochement des données fait apparaître des incompatibilités géométriques,
topologiques et sémantiques entre les objets des différentes bases. De plus, ces
différences sont susceptibles d’engendrer des réponses contradictoires à des requêtes
formulées suivant la représentation utilisée.
Dans ce contexte d'intégration et de multi-résolutions (sémantique et
géométrique), nous nous intéressons à l'interprétation des différences de
représentation et au maintien de la cohérence entre celles-ci. Notre objectif consiste
à définir une méthodologie permettant d'évaluer et de qualifier les différences en
faisant appel aux informations et contraintes présentes dans les spécifications des
bases. Cette méthodologie repose sur un processus d'appariement qui permet de
relier les données et qui peut aider à identifier des concepts communs. L’utilisation
a b
Appariement et interprétation 3
des techniques d’apprentissage est envisagée pour faciliter les phases d’appariement
et d’interprétation.
Après un bref rappel des différents contextes dans lequel l'appariement peut être
mis en œuvre (§2), nous exposons les principales raisons pour lesquelles cet
appariement doit être évalué (§3). La problématique étant définie, nous décrivons les
propositions référencées dans la littérature traitant de l'intégrité et du maintien de la
cohérence entre plusieurs représentations (§ 4). Nous présentons ensuite les premiers
éléments de notre méthodologie (§5) et nous discutons des difficultés associées à
cette interprétation automatique. Nous concluons enfin en présentant les
perspectives de recherche (§6).
2. Les contextes d'utilisation de l'appariement de données géographiques
L'appariement n'est pas un processus nouveau. Il est envisagé chaque fois que
l'on souhaite mettre en correspondance des objets géographiques se rapportant aux
mêmes phénomènes du monde réel mais provenant de jeux de données différents.
Les techniques d’appariement ont déjà fait l'objet d'un certain nombre de travaux
[LEM 96; BEL 01; WAL & FRI 99]. De manière schématisée, un processus
d’appariement consiste à calculer des ressemblances géométriques, topologiques et
sémantiques entre les jeux de données de manière indépendante ou coordonnée. Il
utilise des mesures différentes suivant le type géométrique des objets à comparer
(point, ligne, polygone) et établit des liens de correspondance qui peuvent être de
plusieurs cardinalités : 0-1, 1-1, 1-n, n-m. L'application de ces outils et la
paramétrisation des algorithmes se fait généralement par tâtonnement pour atteindre
un appariement optimal.
2.1. Apparier pour évaluer la qualité d'un jeu de données
Les techniques d'appariement sont généralement utilisées dans un contexte de
contrôle de qualité d'une base de données géographiques. L'estimation de la qualité
d'un jeu de données nécessite en effet l'utilisation d’échantillons de données de
référence, assimilées au terrain nominal. Pour comparer ces deux jeux de données, il
est nécessaire de les mettre en correspondance.
Par exemple, [BEL 01] a récemment proposé une méthode d’appariement
géométrique d’objets surfaciques dans le cadre d’une évaluation de leur qualité. De
nouvelles métriques associées à différents espaces de représentation (notamment les
moments mathématiques) ont été définies pour mieux caractériser les écarts de
forme et de position entre des polygones.
4 Revue internationale de géomatique, volume X - n°x/2002
2.2. Apparier pour extraire et intégrer des mises à jour
L’appariement peut être utilisé dans un contexte de mise à jour de bases de
données géographiques lorsqu’aucune trace des modifications entre les différentes
versions n’existe. La mise en correspondance des données permet la détection des
différences entre les versions et facilite la déduction des évolutions subies [BAD
00].
2.3. Apparier pour fusionner des données issues de plusieurs bases
Il est fréquent de vouloir fusionner des données provenant de différentes sources.
Cela permet d'une part de les enrichir à moindre coût et d'autre part, d'élargir leurs
champs d'utilisation. Dans ce contexte, l'appariement est également utilisé pour
identifier les objets candidats à la fusion.
La fusion peut prendre la forme d’un transfert de l'information sémantique d'une
base sur les éléments géométriques d'une autre base [WAL & FRI 99]. Ceci permet
de combiner la richesse sémantique de la première avec la précision géométrique de
la seconde. La fusion peut également aboutir à la création d'un produit composite
issu de l'unification de plusieurs géométries. On suppose dans ce cas que les
modèles de données des deux bases sont très proches.
2.4. Apparier pour intégrer et créer des bases de données multi-résolutions
L'intégration de plusieurs bases de données est un problème émergent dans les
organismes producteurs de données. Afin d’optimiser leur production, d'assurer une
meilleure cohérence entre les représentations et d’éviter une mise à jour différée,
ceux-ci souhaitent aujourd'hui établir des liens entre leurs bases. L'appariement peut
être utilisé sous deux formes pour répondre à ce besoin : un appariement
automatique pour matérialiser les correspondances utiles entre les bases existantes,
et un appariement en temps réel durant les phases routinières de saisie de nouvelles
données.
Du point de vue des utilisateurs, la manipulation simultanée d'objets
géographiques représentés à différentes échelles et selon différents points de vue est
fréquemment recherchée. Ceux-ci souhaiteraient pouvoir effectuer des traitements
sur leurs données à différents niveaux d'analyse et naviguer entre les représentations.
L’appariement peut être utilisé pour relier les objets homologues et instancier un
schéma à représentation multiple [DEV 97].
Appariement et interprétation 5
3. Problématique. Pourquoi évaluer l'appariement ?
L'intérêt d'évaluer l'appariement ou plutôt d'interpréter les différences de
représentation entre les objets mis en correspondance car il ne s'agit pas ici d'évaluer
la qualité des liens d'appariement dépend du contexte dans lequel l’appariement
est mis en œuvre.
Pour un contrôle qualité, l’interprétation des différences est immédiate. Les deux
jeux de données sont saisis en suivant les mêmes spécifications et tout écart par
rapport à la référence s'interprète comme une erreur ou une faute.
Dans le cadre d'une mise en correspondance des données pour une détection des
mises à jour, l'analyse de l'appariement présente un intérêt plus marqué. En fonction
du type de liens détectés, il est possible d'interpréter la nature des évolutions
géométriques intervenues dans la base. Les liens caractérisés par une cardinalité 0-1
ou 1-0 indiquent respectivement la création ou la destruction d'un objet. Les liens de
type 1-n ou n-1 peuvent résulter respectivement d'un processus de fusion ou de
scission. Les liens n-m indiquent un phénomène d'agrégation. La stabilité se
caractérise par un appariement 1-1 si les tests d’égalité géométrique et sémantique
sont positifs [BAD 00].
Dans ce contexte de mise à jour, l’analyse des différences permet donc de
déduire les évolutions spatio-temporelles entre les deux versions de la même base, et
l’interprétation se traduit par la qualification de ces évolutions.
Lorsque l'appariement est utilisé pour intégrer des données provenant de
différentes sources et pour créer des systèmes à représentation multiple,
l'interprétation est essentielle et doit nécessairement faire appel aux spécifications de
chacune des bases. Ceci permet d'assurer une cohérence entre les représentations et
d'éviter d'avoir des réponses contradictoires lorsqu'une requête est lancée (§ 3.1.).
L'évaluation de l'appariement peut aussi aider à intégrer des schémas et
éventuellement enrichir les spécifications par l'extraction et la découverte de
nouvelles connaissances. Ces points sont développés dans les sections suivantes
(3.2. & 3.3.).
3.1. Évaluer pour assurer la cohérence entre les représentations dans un système
multi-échelles
L'utilisation simultanée de jeux de données issus de plusieurs sources et se
rapportant à un même territoire met en évidence des différences entre les
représentations. Ces différences s'expliquent par des critères de saisie et de contenu
différents entre les bases (échelle, degré de généralisation, modélisation, qualité)
1 / 19 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !