Analyse Exploratoire des Données Géographiques ESDA Didier JOSSELIN ESPACE, UMR 6012, CNRS, Avignon, France [email protected] Tél.: 04 90 16 26 93 Introduction P L A N Quelques outils de base de l’EDA Méthodes à noyaux Filtres spatiaux robustes Variogrammes robustes Autocorrélation spatiale Filtres adaptatifs Médienne, Distogramme Rapport SIG / outils de Statistique ARPEGE, LAVSTAT Conclusion Exploratory Spatial Data Analysis : Application de l’EDA à l’analyse spatiale L’enjeux principal de l’analyse spatiale et donc … de l’ESDA - L’analyse d’ensemble locale d’objets géographiques… points surfaces lignes objets complexes - Pour rechercher les : relations statistiques relations spatiales relations à travers les échelles relations « statistico-spatiales » à travers… L’ E D A et la statistique “classique” Analyse des données Confirmatoire Exploratoire Moyenne Médiane Histogramme (amplitude égale) Test de normalité Branchage, histogramme dynamique, boîte à pattes Quantile-Quantile Plot Régression linéaire, non linéaire An. de la variance Ré-expression, Lowess régression robuste Median polish An. factorielle Projection révélatrice La voie de l’EDA Histogramme, branchage, boîte à pattes, dot plot ... Question : quels sont les qualités et les défauts de l’histogramme ? 100 50 0 1er trim. 3e trim. Est Ouest Nord Les qualités ... + - Mode de représentation synthétique - Mathématiquement bien étudié et établi - Permet de nombreux tests de dépendance statistique (contingence) - Méthodes de discrétisations « automatiques » Les défauts ... - Sensibilité au nombre de classes - Mélange d’individus différents par classe - Contrainte de surfaces proportionnelles aux fréquences formes « bizarres » - Méthodes de discrétisations « automatiques » Réponse apportée par le branchage (Stem and leaf) Branchage de la Population Urbaine (% de la population dans des zones urbaines) 37 87 95 64 97 71 41 68 54 56 85 76 73 63 75 76 89 59 65 58 92 67 73 21 72 89 60 89 52 100 73 89 64 36 56 65 94 51 59 61 83 69 70 57 feuilles non ordonnées Tronc 2 3 4 5 6 7 8 9 10 D. Ladiray, 1999 Feuilles 1 76 1 469826197 4835704519 163563230 7599993 5724 0 feuilles ordonnées Tronc 2 3 4 5 6 7 8 9 10 Feuilles 1 67 1 124667899 0134455789 012333566 3579999 2457 0 Réponse apportée par des graphiques simples Dot Plot 0 0 30 10 10 20 30 20 30 45 40 40 50 50 60 60 60 70 80 70 80 75 90 90 100 100 90 Stacked Plot Jittered Plot Réponse apportée par la boîte à pattes proches intérieurs min Q1 Q2 adjaçents Q3 Distance Inter Quartile (dIQ) 1,5 x (Q3-Q2) lointains max Réponse apportée par l’histogramme dynamique (ex : le distogramme, Josselin, 1999) Démo histogramme dynamique et boîte à pattes Question : quels sont les qualités et les défauts des méthodes classiques de comparaison de distributions (Khi2, Kolmogorov-Smirnov ...) sur tableau de contingence ? Les qualités ... + - Utilisent l’histogramme - Sont synthétiques et font appel à des tests de probabilité - Mathématiquement bien étudié et établi Les défauts ... - Sensibilité au nombre de cases - On perd l’individu - On ne peut pas évaluer la forme de la distribution - Plusieurs valeurs peuvent correspondre à des réalités significativement différentes La réponse du QQ Plot Valeurs xi classées par ordre croissant (i est l’indice) F 1 ( p i Quantiles théoriques suivant une loi normale i3 8) i 1 4 Démo QQ-Plot Ré-expression de variable, régressions robustes, Lowess Question : quels sont les qualités et les défauts des régressions de type “moindres carrés”, linéaires ou non linéaires ? Les mêmes qualités que d’habitude ... et les mêmes défauts ... - Sensibilité aux valeurs extrêmes… - Nécessité de normalité des résidus et bonne répartitions des individus en X et Y Une première réponse : la ré-expression des données Puissance 4 3 2 1 ½ 0 -½ -1 -2 -3 Transformée X4 X3 X2 X racine(X) log(X) -1/racine(X) -1/X -1/X2 -1/X3 L’échelle de puissance de Tukey Log(x) La réponse de la “droite résistante” à la régression linéaire (ex :grigri-plot, A. Banos, 1999) Résistant line Régression Moindres carrés Principe de la droite résistante On regroupe les individus en 3 paquets d’effectifs égaux (en fonction de X) On calcule pour chaque groupe l’individu robuste {médiane des X, médiane des Y} On ajuste la droite sur les 2 points médians extrêmes, puis sur le point médian central Démo Droite Résistante La réponse du “Lowess” à la régression non linéaire Principe du lowess (lissage robuste d’un nuage de points) On définit une distance et on calcule, pour chaque point les poids des points voisins On calcule la régression locale sur chaque point (polynôme) On calcule les résidus et on applique un ajustement robuste par la médiane, pour éliminer les résidus trop importants La voie de l’ESDA ? Démo Lowess, filtres robustes sur données ESDA : outils existants Stat. usuelle exploratoire Moyenne mobile (pondérée) Médiane mobile temporelle / spatiale Bootstrap Bootstrap spatial Filtres spatiaux moyens (pondérés) Régression filtres médians, adaptatifs, estimateurs de densités, kernel Régression géographique locale Variogramme Variogramme robuste Autocorrélation spatiale LISA : autocorrélation spatiale locale globale Analyse spatiale multivariée Data mining interactif, GAM Question : Comment lisser, homogénéiser, simplifier et analyser à travers les échelles ... un phénomène observé ? Filtres spatiaux robustes Principe On promène un filtre d’amplitude a choisi par l’utilisateur En chaque valeur de la série, on applique la fonction f (pour nous la médiane) : t (round (a )) 2 Y ( x, t ) f ( x t ) à ( x t ) ( x t );( x t 1);...; x;...; ( x t 1); ( x t ) X+1 X-1 X-2 X a=5, t=2 X+2 Médiane mobile Filtres spatiaux Degré de contiguïté Même principe que sur série, mais s’applique en 2D Distance Contiguïté Matrice de contiguïté (i,j) 5 zones 1 2 3 5 4 Cij = 1 0 I J 1 2 3 4 5 1 0 1 1 1 0 2 1 0 1 0 1 3 1 1 0 1 1 4 1 0 1 0 1 5 0 1 1 1 0 si i et j ont une frontière commune sinon On peut aussi définir des degrés de contiguïté : - d'ordre k (supérieur à 1) - d'ordre infèrieur à k Distance Matrice de contiguïté (i,j) 5 zones 1 2 3 4 5 I J 1 2 3 4 5 1 0 25 33 50 22 2 25 0 53 22 50 3 33 53 0 33 53 4 50 22 33 0 25 5 22 50 53 25 0 a =1 Cij = 1/daij 0 si i j sinon avec a > 1 On peut aussi d₫finir des pond₫rations dans la distance en jouant sur a Filtres spatiaux Estimateurs de densité Application aux accidents de la route en 1996 dans la CUDL A. Banos, F. Huguenin-Richard, 1999 Source : CUDL, 1996 Estimation de densité par fonction de Kernel et les fenêtres mobiles adaptatives Principe général : - estimation en tout point de l’espace de l’intensité d’un phénomène (nombre d’accidents) - balayage systématique de la zone d’étude par une fenêtre circulaire mobile de rayon r défini par l’utilisateur ou auto-adaptative - pondération du nombre d’accidents en fonction de la distance de chaque accident au centre de la fenêtre circulaire D’après Bailey T., Gatrell, A., 1995 A. Banos, F. Huguenin-Richard, 1999 Estimation de densités locales. Représentation surfacique Densités estimées à partir de 20 000 fenêtres mobiles fixes de rayon 1000 m Source : CUDL, 1996 Densités estimées à partir de 20 000 fenêtres mobiles adaptatives de rayon 1000 m A. Banos, F. Huguenin-Richard, 1999 Estimation de densités locales. Représentation 3D Densités estimées à partir de 20 000 fenêtres mobiles fixes de rayon 1000 m Source : CUDL, 1996 Densités estimées à partir de 20 000 fenêtres mobiles adaptatives de rayon 1000 m A. Banos, F. Huguenin-Richard, 1999 Les clusters Population de référence Soit une population de référence : l’ensemble des accidents en 1996 dans la Cudl Extraction d’une sous-population : les accidents ayant impliqué au moins un piéton enfant Constat visuel : forme de la distribution spatiale des 2 semis de points semble identique Question : - existent-t ils dans la sous-population des concentrations locales non identifiables à l’œil nu ? A. Banos, F. Huguenin-Richard, 1999 Sous-population Principe de la méthode des clusters Comparaison statistique de la distribution spatiale de la souspopulation avec sa distribution théorique associée, construite sous hypothèse d’une répartition spatiale aléatoire Application de la loi de Poisson pour tester la significativité des écarts observés entre les 2 distributions Couverture de la zone d’étude par des fenêtres mobiles circulaires - nombre défini par l’utilisateur - rayon variable, choisi au hasard dans un intervalle fixé par l’utilisateur Identification de concentrations locales P(,) < 0.05 P(,) < 0.005 P(,) < 0.01 P(,) < 0.001 A. Banos, F. Huguenin-Richard, 1999 Démo Filtres spatiaux robustes Question : Comment quantifier la variation d’un phénomène dans l’espace, à travers les échelles, en changeant de résolution spatiale ? Variogrammes ... robustes Principe sur une maille fixe (Modèles Numériques de Terrain) Z1 Z20 d Croiser 2d Zn variance et distance pour identifier des structures Possible aussi sur semis de points sans structure Méthode 1 - On détermine la matrice des distances dij entre tous les couples de points {i,j} 2 – Pour toutes les valeurs de distance dij (réparties en classes, multiples de d ou non), on calcule la variance de la variable Z 3 – On réalise un nuage de points croisant cette variance (Y) et les distances (dij) Variogramme « classique » et « robuste » Le Variogramme « classique » V (Z ) 1 d (Matheron) 2.nd Z 2 i Zj i, j Et ses équivalents « robustes » (Cressie) 1 1 Vd ( Z ) 2 nd 1 Vd ( Z ) med Z i Z j 2 • avec i et j d Z nd 1 2 1 Z i Zj 2 i, j 2 ; i, j nd 4 0.457 0.494 n d 4 0.457 les points considérés la résolution spatiale la variable à étudier le nombre de couples de points à la résolution d Exemple : population communale Quantiles 1 : variogramme classique 2 : variogramme robuste 1 3 variogramme robuste 2 1 2 3 Amplitudes égales faible 3 forte 1,2 Variogramme exploratoire (abs (Zi – Zj)) Lowess Log (abs (Zi – Zj)) Dij Log (dij) Autocorrélation spatiale Question : Comment mesurer à quel point des individus proches géographiquement se ressemblent ? Buts et usages de la mesure d'autocorrélation spatiale Mesurer des contrastes sur une carte ou une image Evaluer globalement ou localement la structure d'un phénomène Identifier des zones homogènes vs hétérogènes Aider à la détection de discontinuïtés spatiales et des frontières Disciplines et domaines concerné Analyse spatiale, géographie quantitative Géostatistiques (phénomènes continus et discrets) Traitement d'images Analyse des réseaux Economie spatiale Archéologie Ecologie Etc. Les individus proches se ressemblent... (autocorrélation +) Les individus proches sont différents... (autocorrélation -) De quoi ai-je besoin pour mesurer l'autocorrélation spatiale ? (ou de) variable(s) à mesurer - D'une méthode pour mesurer la distance ou la contiguïté : - D'une * choix d'une mesure * calcul d'une matrice de distance ou contiguïté - D'une méthode pour évaluer l'autocorrélation sous contrainte de distance / contiguïté * choix d'une mesure * choix d'une fenêtre d'application - D'une méthode de validation, visualisation Indices de MORAN L’indice de MORAN global est défini comme suit (Moran) : M ( 1 1) n li i j • ( 1 1) lij ( X i )( X j ) ( X i )2 i Et son équivalent local (LISA, Anselin) : Mi i j ( X i ) lij ( X j ) j i avec u n lij M<0 ou Mi<0 M>0 ou Mi>0 ( X i )2 n la moyenne des valeurs le nombre d’individus =1 si i et j contigus ou répondent à une condition, 0 sinon si l’autocorrélation est négative si l’autocorrélation est positive Indices de GEARY L’indice de GEARY global est défini comme suit (Geary): G (0 ) • avec u n lij G ou Gi (0 ) 2 lij ij i Et son équivalent local (LISA, Anselin) : Gi 2 l ( X X ) i j i j ij i j ( X i )2 n 1 lij ( X i X j ) 2 j ( X i )2 i n la moyenne des valeurs le nombre d’individus =1 si i et j contigus ou répondent à une contrainte, 0 sinon plus la valeur est grande et plus l’autocorrélation est forte Démo LISA Filtres temporels et spatiaux robustes Les individus proches se ressemblent... (autocorrélation +) Les individus proches sont différents... (autocorrélation -) Même principe, que filtres spatiaux lien lij Degré de contiguïté (lij = cij) Distance (lij = dij) Indices de MORAN L’indice de MORAN global est défini comme suit (Moran) : M ( 1 1) n li i j • ( 1 1) lij ( X i )( X j ) ( X i )2 i Et son équivalent local (LISA, Anselin) : Mi i j ( X i ) lij ( X j ) j i avec u n lij M<0 ou Mi<0 M>0 ou Mi>0 ( X i )2 n la moyenne des valeurs le nombre d’individus =1 si i et j contigus ou répondent à une condition, 0 sinon si l’autocorrélation est négative si l’autocorrélation est positive Indices de GEARY L’indice de GEARY global est défini comme suit (Geary): G (0 ) • avec u n lij G ou Gi (0 ) 2 lij ij i Et son équivalent local (LISA, Anselin) : Gi 2 l ( X X ) i j i j ij i j ( X i )2 n 1 lij ( X i X j ) 2 j ( X i )2 i n la moyenne des valeurs le nombre d’individus =1 si i et j contigus ou répondent à une contrainte, 0 sinon plus la valeur est grande et plus l’autocorrélation est forte Démo LISA Principe On promène un filtre d’amplitude a choisi par l’utilisateur En chaque valeur de la série, on applique la fonction f : t (round (a )) 2 Y ( x, t ) f ( x t ) à ( x t ) ( x t );( x t 1);...; x;...; ( x t 1); ( x t ) X+1 X-1 X-2 X a=5, t=2 X+2 Filtres sur série temporelle Filtres spatiaux Degré de contiguïté Même principe, mais s’applique en 2D Distance Les outils du marché ... SIG, logiciels de cartographie ou logiciels de Statistique ? Des logiciels de statistique très élaborés... + La variété et la puissance des modèles et des logiciels statistiques disponibles L ’intégration l ’EDA L ’existence des outils classiques et de de modèles statistiques et de logiciels spécifiques en EDA spatiale (ESDA) … qui intègrent peu le spatial. n ’existe que des « viewers » de données géographiques Il Les « grands » logiciels de statistique intègrent peu les modèles de l ’ESDA L ’approche Sortie générale reste de type Entrée- Des logiciels de cartographie conviviaux ... + L ’interactivité La facilité d ’utilisation La qualité de la sémiologie L ’association à des représentations statistiques … avec cependant quelques limites ... Outils relativement fermés Pas de structure de données accessible Pas de langage de requête autre que graphique Absence de modèle topologique Des Systèmes d ’Information Géographique puissants ... Acquérir Archiver Accéder Afficher Analyser Abstraire Les fonctionnalités à l’avantage des SIG + Le géocodage de l ’information Intégration d ’informations hétérogènes Langages de requête élaborés Modèles de données structurés Variété des SIG dédiés ou généralistes Langage de programmation souvent intégré Parfois modèle topologique Mais quelques inconvénients majeurs ... - Interactivité faible (sauf requête SQL) d ’intégration d ’ outils statistiques (sauf gros systèmes) Peu empilement d ’informations mal structurées (couches) Souvent Anarchie ? Conclusion : 3 voies sont techniquement possibles Prendre un outil existant et l ’utiliser, Marier deux (ou plusieurs) outils pour le meilleur et pour le pire (LAVSTAT) Développer les besoins spécifiques dans les outils proposés (ARPEGE) Exploratory Spatial Data Analysis : nos propositions pour l’enseignement et la recherche Le « Distogramme » Objectifs Rechercher les discontinuités spatiales Analyser les discontinuités dans les valeurs des variables décrivant les individus Chercher la meilleure configuration statistique pour restituer une information cartographique La règle des D une Double vue : une carte et une distribution statistique Deux types de Distributions croisées : spatiale et statistique Un lien Dynamique entre elles Un outil pour Discrétiser des variables continues Un outil pour analyser les Discontinuités spatiales et statistiques outil pour transformer les Données (“Distorsion” de valeurs) Un Le Distogramme : un lien dynamique entre une carte et des distributions Démo Distogramme ARPEGE’ pour détecter les objets géographiques composites multiscalaires Hypothèse « Analyser dynamiquement les relations statistiques et spatiales à différentes échelles permet une meilleure compréhension des entités géographies et des relations qu’elles entretiennent (statistiques, spatiales et topologiques) » L’exemple des flux agricoles intercommunaux Commune A Commune B SAU = flux internes + entrants 1 ha 10 ha 360 ha Flux sortants LES FLUX SORTANTS EN FRANCHE-COMTÉ EN 1988 Un enchevêtrement inextricable... Source : RGA 1988 Notion de « pertinence territoriale » Pi = flux internes / tous les flux int F i «Mauvais» Pi avec «Bon» i int out inc ( F F F ) i i i i Tous flux = flux internes (Fint ) + flux externes où flux externes = sortants (Fout) + entrants (F (Finc) La « pertinence territoriale » calculée pour la PEZMA (si elle était mal attribuée territorialement) Distribution spatiale de la pertinence territoriale communale Communes Cantons Qualité des données : complétude (Josselin, Bolot, Chatonnay,2000) Effet de bordure Secret statistique Que cherchons-nous ? Des collections d’objets composites associés par : leurs dépendances sémantiques et/ou statistiques leurs relations spatiales, topologiques et/ou fonctionnelles Commune aggregate with its key and boundary Commune described by an attribute Commune couple flow Le « visionneur » d ’ARPEGE’ Application du prototype ARPEGE’ Démo ARPEGE’ LAVSTAT Un lien dynamique entre ArcView et XlispStat Objectifs Analyser l’espace de manière systémique Ne pas réinventer la roue Faire coopérer des outils complémentaires ArcView Un SIG associé à ArcInfo Modèle Requêtes Une Tables Un topologique variées connexion SQL (à Access par ex.) indexées et liens entre tables langage de « meta-programmation » (Avenue) Xlisp-Stat Un environment puissant de programmation statistique Représentations Basé Un Un statistiques multiples sur méthodes robustes (ESDA) lien dynamique entre les représentations langage de programmation ouvert (LISP Orienté Objet) Interaction Méthodologie de lien Application 3 Services, DDE Serveur Xlisp-Stat ArcView Application N Application de LAVSTAT