L`appariement pour la constitution de bases de données

Téléchargement

L'appariement pour la constitution de bases

de données géographiques multi-résolutions

Vers une interprétation des différences de

représentation

David Sheeren

Laboratoire COGIT / Institut Géographique National

2-4, Avenue Pasteur, 94165 Saint-Mandé Cedex

David.Sheer[email protected]

LIP6 - Pôle IA, Équipe ACASA

Université Pierre & Marie Curie (Paris 6)

8, Rue du capitaine Scott, 75015 Paris

RESUME. L’utilisation de plusieurs bases de données géographiques sur une même portion du

territoire conduit à manipuler des représentations du monde qui diffèrent en fonction des

spécifications, de l’échelle de saisie, de la qualité, de l’actualité. Ces différences sont

susceptibles d’engendrer des réponses contradictoires à une requête formulée dans un

système multi-résolutions suivant la représentation utilisée. L’objectif de cet article est

d’exposer les premiers éléments d’une méthodologie d’interprétation automatique des

différences de représentation, et de déterminer si celles-ci sont justifiées ou non au regard des

spécifications. La méthodologie repose sur un processus d’appariement qui permet de relier

les données, mais qui peut aussi aider à identifier des concepts communs et extraire de

nouvelles connaissances.

ABSTRACT. Using simultaneous datasets resulting from several databases provides different

representations according to their specifications, scales, quality and actuality. These

differences generate inconsistency answers when queries are formulated in a multi-scales

database. The aim of this paper is first to set out the base elements of a methodology to

interpret automatically the differences of representation, and then to determine whether those

latter are justified or not in comparison with the specifications. The methodology is based on

matching techniques wich connects corresponding elements of differents datasets and can

also help to identify common concepts and to highlight new knowledge.

MOTS-CLES : multi-représentation, appariement, incohérence, interprétation, apprentissage

automatique.

KEYWORDS : multi-representation, spatial data matching, inconsistency, interpretation, machine

learning.

2 Revue internationale de géomatique, volume X - n°x/2002

1. Introduction

Le passage du monde réel à une carte ou à une base de données géographiques

implique une réduction volontaire de la complexité et de l'exhaustivité de la réalité.

Le cartographe fait abstraction d'une série de phénomènes et crée son modèle de

l'univers qui répond à une série de spécifications préalablement établies. Une carte

représente ainsi une vision subjective de la réalité exprimée dans un langage de

représentation.

Avec la disponibilité croissante de données géographiques numériques, il est

devenu courant de disposer de plusieurs représentations d’un même territoire (cf.

figure1). La mise en correspondance de celles-ci est aujourd'hui recherchée car elle

présente de multiples intérêts.

Figure 1. Illustration de différences de représentation entre une portion de carte au

1:25.000 (a) et une portion de carte au 1:100.000 (b).

Si aujourd'hui des modèles élaborés capables de supporter la représentation

multiple commencent à émerger [BER et al. 01; VAN 01], leur instanciation à partir

de bases de données existantes reste un problème délicat. L'intégration est difficile

car le rapprochement des données fait apparaître des incompatibilités géométriques,

topologiques et sémantiques entre les objets des différentes bases. De plus, ces

différences sont susceptibles d’engendrer des réponses contradictoires à des requêtes

formulées suivant la représentation utilisée.

Dans ce contexte d'intégration et de multi-résolutions (sémantique et

géométrique), nous nous intéressons à l'interprétation des différences de

représentation et au maintien de la cohérence entre celles-ci. Notre objectif consiste

à définir une méthodologie permettant d'évaluer et de qualifier les différences en

faisant appel aux informations et contraintes présentes dans les spécifications des

bases. Cette méthodologie repose sur un processus d'appariement qui permet de

relier les données et qui peut aider à identifier des concepts communs. L’utilisation

a b

Appariement et interprétation 3

des techniques d’apprentissage est envisagée pour faciliter les phases d’appariement

et d’interprétation.

Après un bref rappel des différents contextes dans lequel l'appariement peut être

mis en œuvre (§2), nous exposons les principales raisons pour lesquelles cet

appariement doit être évalué (§3). La problématique étant définie, nous décrivons les

propositions référencées dans la littérature traitant de l'intégrité et du maintien de la

cohérence entre plusieurs représentations (§ 4). Nous présentons ensuite les premiers

éléments de notre méthodologie (§5) et nous discutons des difficultés associées à

cette interprétation automatique. Nous concluons enfin en présentant les

perspectives de recherche (§6).

2. Les contextes d'utilisation de l'appariement de données géographiques

L'appariement n'est pas un processus nouveau. Il est envisagé chaque fois que

l'on souhaite mettre en correspondance des objets géographiques se rapportant aux

mêmes phénomènes du monde réel mais provenant de jeux de données différents.

Les techniques d’appariement ont déjà fait l'objet d'un certain nombre de travaux

[LEM 96; BEL 01; WAL & FRI 99]. De manière schématisée, un processus

d’appariement consiste à calculer des ressemblances géométriques, topologiques et

sémantiques entre les jeux de données de manière indépendante ou coordonnée. Il

utilise des mesures différentes suivant le type géométrique des objets à comparer

(point, ligne, polygone) et établit des liens de correspondance qui peuvent être de

plusieurs cardinalités : 0-1, 1-1, 1-n, n-m. L'application de ces outils et la

paramétrisation des algorithmes se fait généralement par tâtonnement pour atteindre

un appariement optimal.

2.1. Apparier pour évaluer la qualité d'un jeu de données

Les techniques d'appariement sont généralement utilisées dans un contexte de

contrôle de qualité d'une base de données géographiques. L'estimation de la qualité

d'un jeu de données nécessite en effet l'utilisation d’échantillons de données de

référence, assimilées au terrain nominal. Pour comparer ces deux jeux de données, il

est nécessaire de les mettre en correspondance.

Par exemple, [BEL 01] a récemment proposé une méthode d’appariement

géométrique d’objets surfaciques dans le cadre d’une évaluation de leur qualité. De

nouvelles métriques associées à différents espaces de représentation (notamment les

moments mathématiques) ont été définies pour mieux caractériser les écarts de

forme et de position entre des polygones.

4 Revue internationale de géomatique, volume X - n°x/2002

2.2. Apparier pour extraire et intégrer des mises à jour

L’appariement peut être utilisé dans un contexte de mise à jour de bases de

données géographiques lorsqu’aucune trace des modifications entre les différentes

versions n’existe. La mise en correspondance des données permet la détection des

différences entre les versions et facilite la déduction des évolutions subies [BAD

00].

2.3. Apparier pour fusionner des données issues de plusieurs bases

Il est fréquent de vouloir fusionner des données provenant de différentes sources.

Cela permet d'une part de les enrichir à moindre coût et d'autre part, d'élargir leurs

champs d'utilisation. Dans ce contexte, l'appariement est également utilisé pour

identifier les objets candidats à la fusion.

La fusion peut prendre la forme d’un transfert de l'information sémantique d'une

base sur les éléments géométriques d'une autre base [WAL & FRI 99]. Ceci permet

de combiner la richesse sémantique de la première avec la précision géométrique de

la seconde. La fusion peut également aboutir à la création d'un produit composite

issu de l'unification de plusieurs géométries. On suppose dans ce cas que les

modèles de données des deux bases sont très proches.

2.4. Apparier pour intégrer et créer des bases de données multi-résolutions

L'intégration de plusieurs bases de données est un problème émergent dans les

organismes producteurs de données. Afin d’optimiser leur production, d'assurer une

meilleure cohérence entre les représentations et d’éviter une mise à jour différée,

ceux-ci souhaitent aujourd'hui établir des liens entre leurs bases. L'appariement peut

être utilisé sous deux formes pour répondre à ce besoin : un appariement

automatique pour matérialiser les correspondances utiles entre les bases existantes,

et un appariement en temps réel durant les phases routinières de saisie de nouvelles

données.

Du point de vue des utilisateurs, la manipulation simultanée d'objets

géographiques représentés à différentes échelles et selon différents points de vue est

fréquemment recherchée. Ceux-ci souhaiteraient pouvoir effectuer des traitements

sur leurs données à différents niveaux d'analyse et naviguer entre les représentations.

L’appariement peut être utilisé pour relier les objets homologues et instancier un

schéma à représentation multiple [DEV 97].

Appariement et interprétation 5

3. Problématique. Pourquoi évaluer l'appariement ?

L'intérêt d'évaluer l'appariement – ou plutôt d'interpréter les différences de

représentation entre les objets mis en correspondance car il ne s'agit pas ici d'évaluer

la qualité des liens d'appariement – dépend du contexte dans lequel l’appariement

est mis en œuvre.

Pour un contrôle qualité, l’interprétation des différences est immédiate. Les deux

jeux de données sont saisis en suivant les mêmes spécifications et tout écart par

rapport à la référence s'interprète comme une erreur ou une faute.

Dans le cadre d'une mise en correspondance des données pour une détection des

mises à jour, l'analyse de l'appariement présente un intérêt plus marqué. En fonction

du type de liens détectés, il est possible d'interpréter la nature des évolutions

géométriques intervenues dans la base. Les liens caractérisés par une cardinalité 0-1

ou 1-0 indiquent respectivement la création ou la destruction d'un objet. Les liens de

type 1-n ou n-1 peuvent résulter respectivement d'un processus de fusion ou de

scission. Les liens n-m indiquent un phénomène d'agrégation. La stabilité se

caractérise par un appariement 1-1 si les tests d’égalité géométrique et sémantique

sont positifs [BAD 00].

Dans ce contexte de mise à jour, l’analyse des différences permet donc de

déduire les évolutions spatio-temporelles entre les deux versions de la même base, et

l’interprétation se traduit par la qualification de ces évolutions.

Lorsque l'appariement est utilisé pour intégrer des données provenant de

différentes sources et pour créer des systèmes à représentation multiple,

l'interprétation est essentielle et doit nécessairement faire appel aux spécifications de

chacune des bases. Ceci permet d'assurer une cohérence entre les représentations et

d'éviter d'avoir des réponses contradictoires lorsqu'une requête est lancée (§ 3.1.).

L'évaluation de l'appariement peut aussi aider à intégrer des schémas et

éventuellement enrichir les spécifications par l'extraction et la découverte de

nouvelles connaissances. Ces points sont développés dans les sections suivantes

(3.2. & 3.3.).

3.1. Évaluer pour assurer la cohérence entre les représentations dans un système

multi-échelles

L'utilisation simultanée de jeux de données issus de plusieurs sources et se

rapportant à un même territoire met en évidence des différences entre les

représentations. Ces différences s'expliquent par des critères de saisie et de contenu

différents entre les bases (échelle, degré de généralisation, modélisation, qualité)

1 / 19 100%

Documents connexes

Syndrome g n ral d'adaptation Exercice d'appariement

SystÃ¨me de commutation avec Soft Start 13 kW

procedure negociee avec publicite europeenne

Exercice d appariement nonc s II

OBJECTIF DU COURS

procedure negociee avec publicite europeenne

Les spécifications techniques

Un modèle d`appariement avec hétérogénéité du facteur travail : un

la qualité

Régulateur numérique FG-32 - La société GA-MM

Référence de publication : EuropeAid/132781/D/SUP/BI :

fiche de poste

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

L`appariement pour la constitution de bases de données

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

L`appariement pour la constitution de bases de données

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib