FUSION DE DONNEES LiDAR ET MULTISPECTRALES

publicité
FUSION DE DONNEES LiDAR ET MULTISPECTRALES
PFE présenté par :
Société d’accueil :
Directeur de PFE :
Correctrice :
Ophélie SINAGRA
UNSW
Samsung LIM
Tania LANDES
1. INTRODUCTION
Ce projet de fin d’études a été réalisé à l’Université de Nouvelle-Galles du Sud de Sydney
(Australie) au sein de l’équipe de recherche du Dr Samsung LIM. Le Dr LIM travaille depuis plus d’une
vingtaine d’années dans les domaines du GPS, du SIG ou encore du LiDAR et a proposé de tester
une nouvelle méthode permettant la classification de la fusion de données issues d’un lever LiDAR et
d’images multispectrales.
L’objectif de cette recherche est de développer une technique permettant la fusion des données
afin de procéder à une classification rapide et efficace à l’aide d’un algorithme choisi. Certaines
contraintes se posent alors tels que les différentes résolutions spatiales de images et du nuage de
points ou encore le choix de l’algorithme.
Plusieurs études ont été menées dans le domaine de la fusion au cours des dernières années mais
ces dernières restent encore au stade de la recherche car c’est un domaine relativement nouveau.
L’étude de ces précédentes recherches a permis de déterminer une nouvelle approche qui consiste à
créer plusieurs rasters à l’aide des données de différentes sources, de les assembler afin de n’obtenir
qu’un seul et unique raster composé de plusieurs couches, et pour finir d’utiliser un algorithme de
classification supervisée sur le raster créé. Le calcul de la précision de chacune des classifications
testées sera effectué à partir de la matrice de confusion afin de pouvoir définir l’utilité de chacune de
ces couches. Ainsi il sera possible d’identifier la configuration optimale du jeu de données en entrée.
2. DONNEES
Les deux types de données ont étés acquis au niveau de la ville de Strasbourg (France) en 2002 et
en 2004.
Les données multispectrales utilisées sont issues du capteur QuickBird. Ce capteur permet d’obtenir
des images dans quatre bandes spectrales (bleu, vert, rouge, proche infra-rouge) à une résolution de
2.44 mètres et géoréférencées dans le système WGS84-UTM32N.
Le nuage de points ne couvre qu’une petite zone de la ville de Strasbourg et contient plus de 122 000
points connus dans les trois dimensions XYZ dans le système Lambert-I.
3. TRAITEMENT DE LA FUSION DES DONNEES
La classification est réalisée sur un raster composé de différentes couches contenant des
informations issues du LiDAR et des images multispectrales.
L’information principale provenant du LiDAR concerne les trois dimensions, en effet chaque point est
connu dans l’espace. Il est donc possible d’extraire cette information de chaque point du sursol et de
la convertir en raster.
Les bandes de l’image multispectrale peuvent être combinées afin d’obtenir des indices
multispectraux permettant l’identification de la végétation etc.. Chaque indice sera représenté sous
forme de raster.
Le choix de la méthode de classification s’est porté sur un algorithme supervisé de nouvelle
génération : le SVM (Support Vector Machine). Il est basé sur une méthode statistique où peu de
zones échantillons sont nécessaires à l’apprentissage.
PFE 2013
Ophelie SINAGRA 1/4
La forme et le contenu des résumés sont de la responsabilité de l’étudiant qui en est l’auteur
SVM
NDVI
Image
multispectrale
…
Voirie
Bâtiments
Points
sur le sol
Végétation
Variation
d’altitude
LiDAR
Points du
sursol
Figure 1 - Organigramme des étapes de classification
3.1. CREATION DES DIFFERENTES COUCHES
3.1.1. Variation d’altitude
Trois étapes sont nécessaires à la création du raster représentant la variation d’altitude entre les
points du sursol par rapport au MNT.
Il faut tout d’abord classer les points du sol et du sursol dans deux classes différentes. Cette
classification est réalisable automatiquement à l’aide du logiciel open source LAStools.
Une fois les points classés et que cette classification est vérifiée (à l’aide d’un logiciel différent, ici
SAGA est utilisé), la hauteur des points du sursol est calculée par rapport au MNT (MNT créé à l’aide
des points classés en tant que « sol »). Cette hauteur est substituée à la troisième coordonnée des
points du sursol alors que l’altitude des points du sol devient 0 mètre.
Pour finir, ce nuage de points dont les altitudes ont été modifiées doit être converti en raster dont la
résolution spatiale est identique à la résolution de l’image multispectrale c’est-à-dire 2.44 mètres.
3.1.2. Indices de végétation
Les indices de végétation sont des indicateurs numériques utilisant plusieurs bandes de l’image
multispectrale et fournissant des informations sur la présence ou non d’éléments végétaux.
Il a été choisi de calculer trois indices différents : le NDVI (indice de végétation normalisé), le SAVI
(indice de végétation ajusté pour le sol, limitant l’influence des sols) et le GEMI (indice de contrôle
environnemental global, limitant l’influence de l’atmosphère).
3.1.3. Fusion des données
Les rasters créés doivent être assemblés afin de n’avoir que des rasters composés de plusieurs
bandes et ainsi pouvoir parler de fusion des données.
Un premier raster composé des quatre bandes définies ci-dessus est créé. Celui-ci sera ensuite
classé. Puis six autres rasters sont créés, cette fois-ci ne comprenant plus que deux ou trois bandes.
Ces six rasters permettront de définir les couches indispensables à notre classification.
Plusieurs problèmes se posent alors, notamment celui du géoréférencement étant donné que les deux
types de données ne sont pas projetés dans le même système et n’ont pas les mêmes résolutions
spatiales. Un décalage entre les grilles du raster issu du LiDAR et des rasters issus des bandes
multispectrales est aussi observé. Il faut donc effectuer une transformation avec un polynôme du
premier degré pour avoir un géoréférencement correct et ensuite recaler les grilles.
3.2. CLASSIFICATION
3.2.1. Algorithme SVM
L’algorithme SVM est une technique de classification supervisée non linéaire basée sur une
méthode statistique. Il cherche à définir un hyperplan qui séparera deux classe, c’est-à-dire minimiser
la marge maximale (distance entre l’hyperplan et les échantillons les plus proches).
PFE 2013
Ophelie SINAGRA 2/4
La forme et le contenu des résumés sont de la responsabilité de l’étudiant qui en est l’auteur
L’algorithme étant de type supervisé, il nécessite donc des zones d’apprentissage afin que le SVM
apprenne chaque classe. Ces zones sont des polygones au format shape répartis sur l’image à
classer. Trois différentes catégories sont choisies : voirie, bâtiments, végétation.
3.2.2. Paramètres
De nombreux paramètres définissent notre algorithme. Ils seront
choisis après avoir testé les différentes possibilités et calculé le
coefficient Kappa de Cohen (estimateur de qualité par comparaison de
l’erreur obtenue et celle que l’on obtiendrait avec une classification au
hasard).
Le noyau de type Gaussien est choisi, avec un coefficient C de 3
(détermine à quel point l’algorithme SVM doit éviter la mauvaise
classification d’un échantillon), un ratio entre échantillons
d’apprentissage et échantillons de validation de 0.5 (autant
d’échantillons d’apprentissage que d’échantillons de validation) et la
taille maximale de ces zones de 1000 pixels.
NDVI
SAVI
GEMI
Variation Alt
Zones échantillons
Classification SVM
Figure 2 - Organigramme du
processus
3.3. CLASSIFICATION
La classification est effectuée à l’aide trois lignes de commande : une première pour extraire les
informations statistiques de l’image à classifier, une deuxième pour apprendre à l’algorithme les zones
échantillons, et une dernière pour classer l’image.
Avant d’effectuer la classification, le fichier SVM (fichier servant pour la classification) est analysé.
Le coefficient Kappa de Cohen est obtenu à partir de la matrice de confusion et est de 99.1%, donc le
fichier SVM est d’excellente qualité.
Figure 3 – Image classée
L’image est classée selon trois catégories : la voirie, les bâtiments et la végétation. La catégorie
« eau » est exclue car les informations spectrales au niveau de cette zone sont erronées.
3.4. REFERENCE
Ne disposant pas de données de référence, le nuage de points LiDAR (type de données ayant la
meilleure résolution spatiale) sera classé manuellement et converti en raster. L’image classée obtenue
sera comparée à cette référence.
Un nouveau problème se pose : l’acquisition des données LiDAR et multispectrales n’a pas été
effectuée au même moment : plus de deux années séparent les deux acquisitions. Cela influe
principalement sur la végétation (abattage d’arbres, etc.). C’est pour cela que les pixels ayant une
valeur supérieur à 0.2 dans la couche NDVI (entre végétation moyenne et forte selon les études de
Holben dans Characteristics of maximum-value composite images from temporal AVHRR data, 1986)
seront extraits et utilisés en tant que pixels de la classe « végétation » dans le raster de référence.
4. RESULTATS
4.1. CLASSIFICATION DU RASTER
Les deux rasters sont donc comparés. Un raster permettant l’analyse graphique est obtenu, à partir
de la table des attributs de ce raster, la matrice de confusion est extraite et les estimateurs de
précision sont calculés.
Figure 4 - Raster de comparaison (vert = bien classé, rouge = mal classé)
PFE 2013
Ophelie SINAGRA 3/4
La forme et le contenu des résumés sont de la responsabilité de l’étudiant qui en est l’auteur
Table 1 - Matrice de confusion du classement
Référence
Classification
Une précision totale de 83.6% est
obtenue avec notre technique : un raster
de quatre couches (Hauteur, NDVI,
SAVI, GEMI) est correctement classé
avec l’algorithme SVM.
L’erreur de classification principale
concerne un mauvais classement des
pixels « voirie » et « végétation » en tant
que « bâtiments ».
De plus, les bâtiments détectés sont
irréguliers étant donné que la méthode
SVM est orientée pixel et non objet.
Végétation
Bâtiments
Voirie
Total
Végétation
4495
18
46
4559
Bâtiments
939
14902
2074
17915
Voirie
815
1341
7334
9490
Total
6249
16261
9454
31964
Table 2 - Estimateurs de précision
Erreur de Commission
6.69%
Précision pour l'utilisateur
93.31%
Erreur d'Omission
9.68%
Précision pour le réalisateur
90.32%
Erreur d'Affectation
16.37%
Précision totale
83.63%
4.2. DETERMINATION DES COUCHES INDISPENSABLES
Afin de déterminer les couches importantes, la classification et le calcul de la matrice de confusion
sont effectués sur des rasters comprenant moins de couches (une ou deux couches ont été
supprimées).
Il est constaté que seule la couche hauteur (issue du lever LiDAR) combinée avec soit la couche NDVI
soit la couche SAVI s’avère utile. En effet, la précision de la classification est de 84.2% dans les deux
cas. Lorsque les informations issues du LiDAR ne sont pas utilisées la précision de la classification
baisse de près de 20%. De plus, une quantité importante d’informations (donc de couches) amène
des erreurs (dues au géoréférencement, à la résolution spatiale, etc.) et donc diminue la précision de
notre classification.
5. CONCLUSION ET PERSPECTIVE
Les différents tests effectués permettent de définir les éléments indispensables à une bonne
classification. Il est indispensable d’avoir une couche issue du lever LiDAR, reprenant l’information
concernant la hauteur des points du sursol, et une issue de l’image multispectrale, avec le calcul d’un
indice multispectral par exemple.
Les facteurs influant la qualité de la classification et auxquels il est primordial de porter une grande
attention sont les paramètres de l’algorithme SVM et les polygones délimitant les zones
d’apprentissage.
De plus, la résolution spatiale des données et l’espacement temporel entre les acquisitions
influenceront aussi nos résultats. Il est important d’avoir des données acquises dans un espace de
temps réduit.
Dans le futur, il sera intéressant de normaliser l’intensité de chaque point du lever LiDAR et
d’utiliser cette donnée pour calculer l’indice NDVI. En effet, il est possible de substituer cette
information à la bande du proche-infrarouge. L’indice pourra alors être de nouveau calculé avec cette
nouvelle bande et la bande rouge d’une image satellite ou d’une image aérienne (meilleure résolution
spatiale). Cette couche pourra être assemblée avec un raster reprenant les hauteurs des points avant
d’être utilisée pour une classification avec l’algorithme SVM.
De plus, de nouveaux capteurs comme MODIS permettent de calculer de nouveaux indices corrigés à
la fois de l’influence des sols et de l’effet de l’atmosphère. Il serait aussi intéressant d’utiliser cet indice
à la place ou en plus de l’indice NDVI pour notre classification.
PFE 2013
Ophelie SINAGRA 4/4
La forme et le contenu des résumés sont de la responsabilité de l’étudiant qui en est l’auteur
Téléchargement