Analyse exploratoire de données géographiques

publicité
Analyse Exploratoire des
Données Géographiques
ESDA
Didier JOSSELIN
ESPACE, UMR 6012, CNRS, Avignon, France
[email protected]
Tél.: 04 90 16 26 93
Introduction
P
L
A
N
Quelques outils de base de l’EDA
Méthodes à noyaux
Filtres spatiaux robustes
Variogrammes robustes
Autocorrélation spatiale
Filtres adaptatifs
Médienne, Distogramme
Rapport SIG / outils de Statistique
ARPEGE, LAVSTAT
Conclusion
Exploratory Spatial Data
Analysis :
Application de l’EDA à
l’analyse spatiale
L’enjeux principal de l’analyse spatiale
et donc … de l’ESDA
- L’analyse d’ensemble locale d’objets géographiques…
points
surfaces
lignes
objets complexes
- Pour rechercher les :
relations statistiques
relations spatiales
relations à travers les échelles
relations « statistico-spatiales » à travers…
L’ E D A et
la statistique “classique”
Analyse des données
Confirmatoire
Exploratoire
Moyenne
Médiane
Histogramme
(amplitude égale)
Test de normalité
Branchage, histogramme
dynamique, boîte à pattes
Quantile-Quantile Plot
Régression linéaire,
non linéaire
An. de la variance
Ré-expression, Lowess
régression robuste
Median polish
An. factorielle
Projection révélatrice
La voie de l’EDA
Histogramme, branchage,
boîte à pattes, dot plot ...
Question : quels sont les
qualités et les défauts de
l’histogramme ?
100
50
0
1er
trim.
3e
trim.
Est
Ouest
Nord
Les qualités ...
+
- Mode de représentation synthétique
- Mathématiquement bien étudié et établi
- Permet de nombreux tests de dépendance
statistique (contingence)
- Méthodes de discrétisations « automatiques »
Les défauts ...
- Sensibilité au nombre de classes
- Mélange d’individus différents par classe
- Contrainte de surfaces proportionnelles
aux fréquences  formes « bizarres »
- Méthodes de discrétisations « automatiques »
Réponse apportée par le branchage (Stem and leaf)
Branchage de la Population Urbaine (% de la population dans des zones urbaines)
37 87 95 64 97 71 41 68 54 56 85 76 73 63 75 76 89 59 65 58 92 67
73 21 72 89 60 89 52 100 73 89 64 36 56 65 94 51 59 61 83 69 70 57
feuilles non ordonnées
Tronc
2
3
4
5
6
7
8
9
10
D. Ladiray, 1999
Feuilles
1
76
1
469826197
4835704519
163563230
7599993
5724
0
feuilles ordonnées
Tronc
2
3
4
5
6
7
8
9
10
Feuilles
1
67
1
124667899
0134455789
012333566
3579999
2457
0
Réponse apportée par des graphiques simples
Dot Plot
0
0
30
10
10
20
30
20
30
45
40
40
50
50
60
60
60
70
80
70
80
75
90
90
100
100
90
Stacked
Plot
Jittered
Plot
Réponse apportée par la boîte à pattes
proches
intérieurs
min
Q1
Q2
adjaçents
Q3
Distance Inter Quartile (dIQ)
1,5 x (Q3-Q2)
lointains
max
Réponse apportée par l’histogramme dynamique
(ex : le distogramme, Josselin, 1999)
Démo
histogramme dynamique
et boîte à pattes
Question :
quels sont les qualités et les
défauts des méthodes classiques
de comparaison de distributions
(Khi2, Kolmogorov-Smirnov ...)
sur tableau de contingence ?
Les qualités ...
+
- Utilisent l’histogramme
- Sont synthétiques et font appel à des tests de
probabilité
- Mathématiquement bien étudié et établi
Les défauts ...
- Sensibilité au nombre de cases
- On perd l’individu
- On ne peut pas évaluer la forme de la distribution
- Plusieurs valeurs peuvent correspondre à des
réalités significativement différentes
La réponse du QQ Plot
Valeurs
xi
classées
par ordre
croissant
(i est
l’indice)
F 1 ( p i 
Quantiles théoriques suivant une loi normale
i3
8)
i 1
4
Démo QQ-Plot
Ré-expression de variable,
régressions robustes, Lowess
Question :
quels sont les qualités et les
défauts des régressions de type
“moindres carrés”, linéaires
ou non linéaires ?
Les mêmes qualités que
d’habitude ...
et les mêmes défauts ...
- Sensibilité aux valeurs extrêmes…
- Nécessité de normalité des résidus et bonne
répartitions des individus en X et Y
Une première réponse :
la ré-expression des données
Puissance
4
3
2
1
½
0
-½
-1
-2
-3
Transformée
X4
X3
X2
X
racine(X)
log(X)
-1/racine(X)
-1/X
-1/X2
-1/X3
L’échelle de puissance de Tukey
Log(x)
La réponse de la “droite résistante”
à la régression linéaire
(ex :grigri-plot, A. Banos, 1999)
Résistant line
Régression
Moindres carrés
Principe de la droite résistante
 On
regroupe les individus en 3 paquets
d’effectifs égaux (en fonction de X)
 On
calcule pour chaque groupe l’individu
robuste {médiane des X, médiane des Y}
 On
ajuste la droite sur les 2 points médians
extrêmes, puis sur le point médian central
Démo Droite Résistante
La réponse du “Lowess”
à la régression non linéaire
Principe du lowess (lissage
robuste d’un nuage de points)
 On
définit une distance et on calcule, pour
chaque point les poids des points voisins
 On
calcule la régression locale sur chaque
point (polynôme)
 On
calcule les résidus et on applique un
ajustement robuste par la médiane, pour
éliminer les résidus trop importants
La voie de l’ESDA ?
Démo
Lowess, filtres
robustes sur données
ESDA : outils existants
Stat. usuelle
exploratoire
Moyenne mobile (pondérée) Médiane mobile temporelle / spatiale
Bootstrap
Bootstrap spatial
Filtres spatiaux moyens
(pondérés)
Régression
filtres médians, adaptatifs,
estimateurs de densités, kernel
Régression géographique locale
Variogramme
Variogramme robuste
Autocorrélation spatiale
LISA : autocorrélation spatiale locale
globale
Analyse spatiale multivariée Data mining interactif, GAM
Question :
Comment lisser, homogénéiser,
simplifier
et
analyser à travers les échelles
... un phénomène observé ?
Filtres spatiaux robustes
Principe
On promène un filtre d’amplitude a choisi par l’utilisateur
En chaque valeur de la série, on applique
la fonction f (pour nous la
médiane) :
t  (round (a ))
2
Y ( x, t )  f ( x t ) à ( x t ) ( x  t );( x  t  1);...; x;...; ( x  t  1); ( x  t )
X+1
X-1
X-2
X
a=5, t=2
X+2

Médiane mobile
Filtres spatiaux
Degré de contiguïté
Même principe
que sur série,
mais s’applique
en 2D
Distance
Contiguïté
Matrice de contiguïté (i,j)
5 zones
1
2
3
5
4
Cij =
1
0
I J
1
2
3
4
5
1
0
1
1
1
0
2
1
0
1
0
1
3
1
1
0
1
1
4
1
0
1
0
1
5
0
1
1
1
0
si i et j ont une frontière commune
sinon
On peut aussi définir des degrés de contiguïté :
- d'ordre k (supérieur à 1)
- d'ordre infèrieur à k
Distance
Matrice de contiguïté (i,j)
5 zones
1
2
3
4
5
I J
1
2
3
4
5
1
0
25
33
50
22
2
25
0
53
22
50
3
33
53
0
33
53
4
50
22
33
0
25
5
22
50
53
25
0
a =1
Cij =
1/daij
0
si i  j
sinon
avec a > 1
On peut aussi d₫finir des pond₫rations dans la distance
en jouant sur a
Filtres spatiaux
Estimateurs de densité
Application aux accidents de la route en 1996 dans la CUDL
A. Banos, F. Huguenin-Richard, 1999
Source : CUDL, 1996
Estimation de densité par fonction de Kernel
et les fenêtres mobiles adaptatives

Principe général :
- estimation en tout point de l’espace
de l’intensité d’un phénomène
(nombre d’accidents)
- balayage systématique de la zone
d’étude par une fenêtre circulaire
mobile de rayon r défini par
l’utilisateur ou auto-adaptative
- pondération du nombre d’accidents
en fonction de la distance de chaque
accident au centre de la fenêtre
circulaire
D’après Bailey T., Gatrell, A., 1995
A. Banos, F. Huguenin-Richard, 1999
Estimation de densités locales. Représentation surfacique
Densités estimées à partir de 20 000
fenêtres mobiles fixes de rayon 1000 m
Source : CUDL, 1996
Densités estimées à partir de 20 000 fenêtres
mobiles adaptatives de rayon 1000 m
A. Banos, F. Huguenin-Richard, 1999
Estimation de densités locales. Représentation 3D
Densités estimées à partir de 20 000
fenêtres mobiles fixes de rayon 1000 m
Source : CUDL, 1996
Densités estimées à partir de 20 000 fenêtres
mobiles adaptatives de rayon 1000 m
A. Banos, F. Huguenin-Richard, 1999
Les clusters
Population de référence

Soit une population de référence : l’ensemble
des accidents en 1996 dans la Cudl

Extraction d’une sous-population : les
accidents ayant impliqué au moins un piéton
enfant

Constat visuel : forme de la distribution
spatiale des 2 semis de points semble identique

Question :
- existent-t ils dans la sous-population des
concentrations locales non identifiables à l’œil
nu ?
A. Banos, F. Huguenin-Richard, 1999
Sous-population
Principe de la méthode des clusters

Comparaison statistique de la distribution spatiale de la souspopulation avec sa distribution théorique associée, construite sous
hypothèse d’une répartition spatiale aléatoire

Application de la loi de Poisson pour tester la significativité des
écarts observés entre les 2 distributions

Couverture de la zone d’étude par des fenêtres mobiles circulaires
- nombre défini par l’utilisateur
- rayon variable, choisi au hasard dans un intervalle fixé par
l’utilisateur
Identification de concentrations locales
P(,) < 0.05
P(,) < 0.005
P(,) < 0.01
P(,) < 0.001
A. Banos, F. Huguenin-Richard, 1999
Démo
Filtres spatiaux robustes
Question :
Comment quantifier la
variation d’un phénomène dans
l’espace, à travers les échelles,
en changeant de résolution
spatiale ?
Variogrammes ... robustes
Principe sur une maille fixe
(Modèles Numériques de Terrain)
Z1
Z20
d
 Croiser
2d
Zn
variance et distance pour identifier des structures
Possible aussi sur semis de
points sans structure
Méthode
1 - On détermine la matrice des distances dij entre tous
les couples de points {i,j}
2 – Pour toutes les valeurs de distance dij (réparties en
classes, multiples de d ou non), on calcule la variance
de la variable Z
3 – On réalise un nuage de points croisant cette
variance (Y) et les distances (dij)
Variogramme « classique » et « robuste »
 Le Variogramme « classique » V (Z )  1
d
(Matheron)
2.nd
 Z
2
i
Zj
i, j
Et ses équivalents « robustes » (Cressie)
1  1
Vd ( Z )  
2  nd

1
Vd ( Z )  med  Z i  Z j
2

•
avec i et j
d
Z
nd
1
2
1
Z
i
Zj
2
i, j
2 
; i, j nd 




4
 0.457  0.494 


n
d 

4
0.457
les points considérés
la résolution spatiale
la variable à étudier
le nombre de couples de points à la résolution d
Exemple : population communale
Quantiles
1 : variogramme classique
2 : variogramme robuste 1
3 variogramme robuste 2
1
2
3
Amplitudes égales
faible
3
forte
1,2
Variogramme exploratoire
(abs (Zi – Zj))
Lowess
Log (abs (Zi – Zj))
Dij
Log (dij)
Autocorrélation spatiale
Question :
Comment mesurer à quel point
des individus proches
géographiquement se
ressemblent ?
Buts et usages de la mesure
d'autocorrélation spatiale




Mesurer des contrastes sur une carte
ou une image
Evaluer globalement ou localement la
structure d'un phénomène
Identifier des zones homogènes vs
hétérogènes
Aider à la détection de discontinuïtés
spatiales et des frontières
Disciplines et domaines concerné








Analyse spatiale, géographie
quantitative
Géostatistiques (phénomènes continus
et discrets)
Traitement d'images
Analyse des réseaux
Economie spatiale
Archéologie
Ecologie
Etc.
Les individus proches se
ressemblent... (autocorrélation +)
Les individus proches sont
différents... (autocorrélation -)
De quoi ai-je besoin pour
mesurer l'autocorrélation
spatiale ?
(ou de) variable(s) à mesurer
- D'une méthode pour mesurer la distance ou la
contiguïté :
- D'une
* choix d'une mesure
* calcul d'une matrice de distance ou contiguïté
- D'une méthode pour évaluer l'autocorrélation
sous contrainte de distance / contiguïté
* choix d'une mesure
* choix d'une fenêtre d'application
- D'une méthode de validation, visualisation
Indices de MORAN
L’indice de MORAN global est défini comme suit (Moran) :
M ( 1  1) 
n
 li

i
j
•
( 1 
1)
lij ( X i   )( X j   )

( X i   )2
i
Et son équivalent local (LISA, Anselin) :
Mi
i j

( X i   ) lij ( X j  )
j

i
avec u
n
lij
M<0 ou Mi<0
M>0 ou Mi>0
( X i   )2
n
la moyenne des valeurs
le nombre d’individus
=1 si i et j contigus ou répondent à une condition, 0 sinon
si l’autocorrélation est négative
si l’autocorrélation est positive
Indices de GEARY
L’indice de GEARY global est défini comme suit (Geary):
G
(0 
  )

•
avec u
n
lij
G ou Gi
(0 
  )
2 lij
ij

i
Et son équivalent local (LISA, Anselin) :
Gi

2
l
(
X

X
)
i
j
i  j ij


i j
( X i   )2
n 1
lij ( X i  X j ) 2
j
( X i   )2
i
n
la moyenne des valeurs
le nombre d’individus
=1 si i et j contigus ou répondent à une contrainte, 0 sinon
plus la valeur est grande et plus l’autocorrélation est forte
Démo LISA
Filtres temporels et spatiaux
robustes
Les individus proches se
ressemblent... (autocorrélation +)
Les individus proches sont
différents... (autocorrélation -)
Même principe,
que filtres spatiaux
lien lij
Degré de contiguïté (lij = cij)
Distance (lij = dij)
Indices de MORAN
L’indice de MORAN global est défini comme suit (Moran) :
M ( 1  1) 
n
 li

i
j
•
( 1 
1)
lij ( X i   )( X j   )

( X i   )2
i
Et son équivalent local (LISA, Anselin) :
Mi
i j

( X i   ) lij ( X j  )
j

i
avec u
n
lij
M<0 ou Mi<0
M>0 ou Mi>0
( X i   )2
n
la moyenne des valeurs
le nombre d’individus
=1 si i et j contigus ou répondent à une condition, 0 sinon
si l’autocorrélation est négative
si l’autocorrélation est positive
Indices de GEARY
L’indice de GEARY global est défini comme suit (Geary):
G
(0 
  )

•
avec u
n
lij
G ou Gi
(0 
  )
2 lij
ij

i
Et son équivalent local (LISA, Anselin) :
Gi

2
l
(
X

X
)
i
j
i  j ij


i j
( X i   )2
n 1
lij ( X i  X j ) 2
j
( X i   )2
i
n
la moyenne des valeurs
le nombre d’individus
=1 si i et j contigus ou répondent à une contrainte, 0 sinon
plus la valeur est grande et plus l’autocorrélation est forte
Démo LISA
Principe
On promène un filtre d’amplitude a choisi par l’utilisateur
En chaque valeur de la série, on applique
la fonction f :
t  (round (a ))
2
Y ( x, t )  f ( x t ) à ( x t ) ( x  t );( x  t  1);...; x;...; ( x  t  1); ( x  t )
X+1
X-1
X-2
X
a=5, t=2
X+2

Filtres sur série temporelle
Filtres spatiaux
Degré de contiguïté
Même principe,
mais s’applique
en 2D
Distance
Les outils du marché ...
SIG, logiciels de cartographie
ou logiciels de Statistique ?
Des logiciels de statistique
très élaborés...
+
 La
variété et la puissance des modèles et des
logiciels statistiques disponibles
 L ’intégration
l ’EDA
 L ’existence
des outils classiques et de
de modèles statistiques et de
logiciels spécifiques en EDA spatiale (ESDA)
… qui intègrent peu le spatial.
n ’existe que des « viewers » de données
géographiques
 Il

Les « grands » logiciels de statistique
intègrent peu les modèles de l ’ESDA
 L ’approche
Sortie
générale reste de type Entrée-
Des logiciels de cartographie
conviviaux ...
+
 L ’interactivité
 La
facilité d ’utilisation
 La
qualité de la sémiologie
 L ’association
à des représentations statistiques
… avec cependant quelques
limites ...
 Outils
relativement fermés
 Pas
de structure de données accessible
 Pas
de langage de requête autre que graphique
 Absence
de modèle topologique
Des Systèmes d ’Information
Géographique puissants ...
 Acquérir
 Archiver
 Accéder
 Afficher
 Analyser
 Abstraire
Les fonctionnalités à
l’avantage des SIG
+
 Le géocodage de l ’information
 Intégration d ’informations hétérogènes
 Langages de requête élaborés
 Modèles de données structurés
 Variété des SIG dédiés ou généralistes
 Langage de programmation souvent intégré
 Parfois modèle topologique
Mais quelques inconvénients
majeurs ...
-
 Interactivité
faible (sauf requête SQL)
d ’intégration d ’ outils statistiques (sauf
gros systèmes)
 Peu
empilement d ’informations mal
structurées (couches)
 Souvent
Anarchie ?
Conclusion : 3 voies sont
techniquement possibles
 Prendre
un outil existant et l ’utiliser,
 Marier
deux (ou plusieurs) outils pour le
meilleur et pour le pire (LAVSTAT)
 Développer
les besoins spécifiques dans les
outils proposés (ARPEGE)
Exploratory Spatial Data
Analysis :
nos propositions pour
l’enseignement et la recherche
Le « Distogramme »
Objectifs
Rechercher les discontinuités spatiales
Analyser les discontinuités dans les valeurs des
variables décrivant les individus
Chercher la meilleure configuration statistique
pour restituer une information cartographique
La règle des D
 une
Double vue : une carte et une distribution statistique
 Deux
types de Distributions croisées : spatiale et
statistique
 Un
lien Dynamique entre elles
 Un
outil pour Discrétiser des variables continues
 Un
outil pour analyser les Discontinuités spatiales et
statistiques
outil pour transformer les Données (“Distorsion” de
valeurs)
 Un
Le Distogramme : un lien dynamique
entre une carte et des distributions
Démo Distogramme
ARPEGE’
pour détecter les objets
géographiques composites
multiscalaires
Hypothèse
« Analyser dynamiquement les
relations statistiques et spatiales à
différentes échelles permet une
meilleure compréhension des entités
géographies et des relations qu’elles
entretiennent (statistiques, spatiales
et topologiques) »
L’exemple des flux agricoles
intercommunaux
Commune A
Commune B
SAU = flux
internes + entrants
1 ha
10 ha
360 ha
Flux sortants
LES FLUX SORTANTS EN FRANCHE-COMTÉ
EN 1988
Un enchevêtrement
inextricable...
Source : RGA 1988
Notion de « pertinence territoriale »
Pi = flux internes / tous les flux
int
F
 i
«Mauvais»
Pi 
avec
«Bon»
i
int
out
inc
(
F

F

F
)
 i
i
i
i
Tous flux = flux internes (Fint ) + flux externes
où
flux externes = sortants (Fout) + entrants (F
(Finc)
La « pertinence territoriale » calculée pour la PEZMA
(si elle était mal attribuée territorialement)
Distribution spatiale de la
pertinence territoriale communale
Communes
Cantons
Qualité des données : complétude
(Josselin, Bolot, Chatonnay,2000)
Effet de bordure
Secret statistique
Que cherchons-nous ?
Des collections
d’objets composites
associés par :
leurs dépendances sémantiques
et/ou statistiques
leurs relations spatiales,
topologiques et/ou
fonctionnelles
Commune aggregate with its key and boundary
Commune described by an attribute
Commune couple flow
Le « visionneur » d ’ARPEGE’
Application du prototype ARPEGE’
Démo
ARPEGE’
LAVSTAT
Un lien dynamique entre
ArcView et XlispStat
Objectifs
Analyser l’espace de manière systémique
Ne pas réinventer la roue
Faire coopérer des outils complémentaires
ArcView
Un SIG associé à ArcInfo
 Modèle
 Requêtes
 Une
 Tables
 Un
topologique
variées
connexion SQL (à Access par ex.)
indexées et liens entre tables
langage de « meta-programmation » (Avenue)
Xlisp-Stat
Un environment puissant de
programmation statistique
 Représentations
 Basé
 Un
 Un
statistiques multiples
sur méthodes robustes (ESDA)
lien dynamique entre les représentations
langage de programmation ouvert
(LISP Orienté Objet)
Interaction
Méthodologie de lien
Application 3
Services, DDE
Serveur
Xlisp-Stat
ArcView
Application N
Application de LAVSTAT
Téléchargement