FUSION DE DONNEES LiDAR ET MULTISPECTRALES

Téléchargement

PFE 2013 Ophelie SINAGRA 1/4

La forme et le contenu des résumés sont de la responsabilité de l’étudiant qui en est l’auteur

PFE présenté par : Ophélie SINAGRA

Société d’accueil : UNSW

Directeur de PFE : Samsung LIM

Correctrice : Tania LANDES

1. INTRODUCTION

Ce projet de fin d’études a été réalisé à l’Université de Nouvelle-Galles du Sud de Sydney

(Australie) au sein de l’équipe de recherche du Dr Samsung LIM. Le Dr LIM travaille depuis plus d’une

vingtaine d’années dans les domaines du GPS, du SIG ou encore du LiDAR et a proposé de tester

une nouvelle méthode permettant la classification de la fusion de données issues d’un lever LiDAR et

d’images multispectrales.

L’objectif de cette recherche est de développer une technique permettant la fusion des données

afin de procéder à une classification rapide et efficace à l’aide d’un algorithme choisi. Certaines

contraintes se posent alors tels que les différentes résolutions spatiales de images et du nuage de

points ou encore le choix de l’algorithme.

Plusieurs études ont été menées dans le domaine de la fusion au cours des dernières années mais

ces dernières restent encore au stade de la recherche car c’est un domaine relativement nouveau.

L’étude de ces précédentes recherches a permis de déterminer une nouvelle approche qui consiste à

créer plusieurs rasters à l’aide des données de différentes sources, de les assembler afin de n’obtenir

qu’un seul et unique raster composé de plusieurs couches, et pour finir d’utiliser un algorithme de

classification supervisée sur le raster créé. Le calcul de la précision de chacune des classifications

testées sera effectué à partir de la matrice de confusion afin de pouvoir définir l’utilité de chacune de

ces couches. Ainsi il sera possible d’identifier la configuration optimale du jeu de données en entrée.

2. DONNEES

Les deux types de données ont étés acquis au niveau de la ville de Strasbourg (France) en 2002 et

en 2004.

Les données multispectrales utilisées sont issues du capteur QuickBird. Ce capteur permet d’obtenir

des images dans quatre bandes spectrales (bleu, vert, rouge, proche infra-rouge) à une résolution de

2.44 mètres et géoréférencées dans le système WGS84-UTM32N.

Le nuage de points ne couvre qu’une petite zone de la ville de Strasbourg et contient plus de 122 000

points connus dans les trois dimensions XYZ dans le système Lambert-I.

3. TRAITEMENT DE LA FUSION DES DONNEES

La classification est réalisée sur un raster composé de différentes couches contenant des

informations issues du LiDAR et des images multispectrales.

L’information principale provenant du LiDAR concerne les trois dimensions, en effet chaque point est

connu dans l’espace. Il est donc possible d’extraire cette information de chaque point du sursol et de

la convertir en raster.

Les bandes de l’image multispectrale peuvent être combinées afin d’obtenir des indices

multispectraux permettant l’identification de la végétation etc.. Chaque indice sera représenté sous

forme de raster.

Le choix de la méthode de classification s’est porté sur un algorithme supervisé de nouvelle

génération : le SVM (Support Vector Machine). Il est basé sur une méthode statistique où peu de

zones échantillons sont nécessaires à l’apprentissage.

PFE 2013 Ophelie SINAGRA 2/4

La forme et le contenu des résumés sont de la responsabilité de l’étudiant qui en est l’auteur

3.1. CREATION DES DIFFERENTES COUCHES

3.1.1. Variation d’altitude

Trois étapes sont nécessaires à la création du raster représentant la variation d’altitude entre les

points du sursol par rapport au MNT.

Il faut tout d’abord classer les points du sol et du sursol dans deux classes différentes. Cette

classification est réalisable automatiquement à l’aide du logiciel open source LAStools.

Une fois les points classés et que cette classification est vérifiée (à l’aide d’un logiciel différent, ici

SAGA est utilisé), la hauteur des points du sursol est calculée par rapport au MNT (MNT créé à l’aide

des points classés en tant que « sol »). Cette hauteur est substituée à la troisième coordonnée des

points du sursol alors que l’altitude des points du sol devient 0 mètre.

Pour finir, ce nuage de points dont les altitudes ont été modifiées doit être converti en raster dont la

résolution spatiale est identique à la résolution de l’image multispectrale c’est-à-dire 2.44 mètres.

3.1.2. Indices de végétation

Les indices de végétation sont des indicateurs numériques utilisant plusieurs bandes de l’image

multispectrale et fournissant des informations sur la présence ou non d’éléments végétaux.

Il a été choisi de calculer trois indices différents : le NDVI (indice de végétation normalisé), le SAVI

(indice de végétation ajusté pour le sol, limitant l’influence des sols) et le GEMI (indice de contrôle

environnemental global, limitant l’influence de l’atmosphère).

3.1.3. Fusion des données

Les rasters créés doivent être assemblés afin de n’avoir que des rasters composés de plusieurs

bandes et ainsi pouvoir parler de fusion des données.

Un premier raster composé des quatre bandes définies ci-dessus est créé. Celui-ci sera ensuite

classé. Puis six autres rasters sont créés, cette fois-ci ne comprenant plus que deux ou trois bandes.

Ces six rasters permettront de définir les couches indispensables à notre classification.

Plusieurs problèmes se posent alors, notamment celui du géoréférencement étant donné que les deux

types de données ne sont pas projetés dans le même système et n’ont pas les mêmes résolutions

spatiales. Un décalage entre les grilles du raster issu du LiDAR et des rasters issus des bandes

multispectrales est aussi observé. Il faut donc effectuer une transformation avec un polynôme du

premier degré pour avoir un géoréférencement correct et ensuite recaler les grilles.

3.2. CLASSIFICATION

3.2.1. Algorithme SVM

L’algorithme SVM est une technique de classification supervisée non linéaire basée sur une

méthode statistique. Il cherche à définir un hyperplan qui séparera deux classe, c’est-à-dire minimiser

la marge maximale (distance entre l’hyperplan et les échantillons les plus proches).

LiDAR

Points

sur le sol

Points du

sursol

Variation

d’altitude

Voirie

Bâtiments

Végétation

Figure 1 - Organigramme des étapes de classification

Image

multispectrale

NDVI

…

SVM

PFE 2013 Ophelie SINAGRA 3/4

La forme et le contenu des résumés sont de la responsabilité de l’étudiant qui en est l’auteur

L’algorithme étant de type supervisé, il nécessite donc des zones d’apprentissage afin que le SVM

apprenne chaque classe. Ces zones sont des polygones au format shape répartis sur l’image à

classer. Trois différentes catégories sont choisies : voirie, bâtiments, végétation.

3.2.2. Paramètres

De nombreux paramètres définissent notre algorithme. Ils seront

choisis après avoir testé les différentes possibilités et calculé le

coefficient Kappa de Cohen (estimateur de qualité par comparaison de

l’erreur obtenue et celle que l’on obtiendrait avec une classification au

hasard).

Le noyau de type Gaussien est choisi, avec un coefficient C de 3

(détermine à quel point l’algorithme SVM doit éviter la mauvaise

classification d’un échantillon), un ratio entre échantillons

d’apprentissage et échantillons de validation de 0.5 (autant

d’échantillons d’apprentissage que d’échantillons de validation) et la

taille maximale de ces zones de 1000 pixels.

3.3. CLASSIFICATION

La classification est effectuée à l’aide trois lignes de commande : une première pour extraire les

informations statistiques de l’image à classifier, une deuxième pour apprendre à l’algorithme les zones

échantillons, et une dernière pour classer l’image.

Avant d’effectuer la classification, le fichier SVM (fichier servant pour la classification) est analysé.

Le coefficient Kappa de Cohen est obtenu à partir de la matrice de confusion et est de 99.1%, donc le

fichier SVM est d’excellente qualité.

L’image est classée selon trois catégories : la voirie, les bâtiments et la végétation. La catégorie

« eau » est exclue car les informations spectrales au niveau de cette zone sont erronées.

3.4. REFERENCE

Ne disposant pas de données de référence, le nuage de points LiDAR (type de données ayant la

meilleure résolution spatiale) sera classé manuellement et converti en raster. L’image classée obtenue

sera comparée à cette référence.

Un nouveau problème se pose : l’acquisition des données LiDAR et multispectrales n’a pas été

effectuée au même moment : plus de deux années séparent les deux acquisitions. Cela influe

principalement sur la végétation (abattage d’arbres, etc.). C’est pour cela que les pixels ayant une

valeur supérieur à 0.2 dans la couche NDVI (entre végétation moyenne et forte selon les études de

Holben dans Characteristics of maximum-value composite images from temporal AVHRR data, 1986)

seront extraits et utilisés en tant que pixels de la classe « végétation » dans le raster de référence.

4. RESULTATS

4.1. CLASSIFICATION DU RASTER

Les deux rasters sont donc comparés. Un raster permettant l’analyse graphique est obtenu, à partir

de la table des attributs de ce raster, la matrice de confusion est extraite et les estimateurs de

précision sont calculés.

Variation Alt

GEMI

SAVI

NDVI

Zones échantillons

Classification SVM

Figure 2 - Organigramme du

processus

Figure 3 – Image classée

Figure 4 - Raster de comparaison (vert = bien classé, rouge = mal classé)

PFE 2013 Ophelie SINAGRA 4/4

La forme et le contenu des résumés sont de la responsabilité de l’étudiant qui en est l’auteur

Une précision totale de 83.6% est

obtenue avec notre technique : un raster

de quatre couches (Hauteur, NDVI,

SAVI, GEMI) est correctement classé

avec l’algorithme SVM.

L’erreur de classification principale

concerne un mauvais classement des

pixels « voirie » et « végétation » en tant

que « bâtiments ».

De plus, les bâtiments détectés sont

irréguliers étant donné que la méthode

SVM est orientée pixel et non objet.

Table 2 - Estimateurs de précision

Erreur de Commission

6.69%

Précision pour l'utilisateur

93.31%

Erreur d'Omission

9.68%

Précision pour le réalisateur

90.32%

Erreur d'Affectation

16.37%

Précision totale

83.63%

4.2. DETERMINATION DES COUCHES INDISPENSABLES

Afin de déterminer les couches importantes, la classification et le calcul de la matrice de confusion

sont effectués sur des rasters comprenant moins de couches (une ou deux couches ont été

supprimées).

Il est constaté que seule la couche hauteur (issue du lever LiDAR) combinée avec soit la couche NDVI

soit la couche SAVI s’avère utile. En effet, la précision de la classification est de 84.2% dans les deux

cas. Lorsque les informations issues du LiDAR ne sont pas utilisées la précision de la classification

baisse de près de 20%. De plus, une quantité importante d’informations (donc de couches) amène

des erreurs (dues au géoréférencement, à la résolution spatiale, etc.) et donc diminue la précision de

notre classification.

5. CONCLUSION ET PERSPECTIVE

Les différents tests effectués permettent de définir les éléments indispensables à une bonne

classification. Il est indispensable d’avoir une couche issue du lever LiDAR, reprenant l’information

concernant la hauteur des points du sursol, et une issue de l’image multispectrale, avec le calcul d’un

indice multispectral par exemple.

Les facteurs influant la qualité de la classification et auxquels il est primordial de porter une grande

attention sont les paramètres de l’algorithme SVM et les polygones délimitant les zones

d’apprentissage.

De plus, la résolution spatiale des données et l’espacement temporel entre les acquisitions

influenceront aussi nos résultats. Il est important d’avoir des données acquises dans un espace de

temps réduit.

Dans le futur, il sera intéressant de normaliser l’intensité de chaque point du lever LiDAR et

d’utiliser cette donnée pour calculer l’indice NDVI. En effet, il est possible de substituer cette

information à la bande du proche-infrarouge. L’indice pourra alors être de nouveau calculé avec cette

nouvelle bande et la bande rouge d’une image satellite ou d’une image aérienne (meilleure résolution

spatiale). Cette couche pourra être assemblée avec un raster reprenant les hauteurs des points avant

d’être utilisée pour une classification avec l’algorithme SVM.

De plus, de nouveaux capteurs comme MODIS permettent de calculer de nouveaux indices corrigés à

la fois de l’influence des sols et de l’effet de l’atmosphère. Il serait aussi intéressant d’utiliser cet indice

à la place ou en plus de l’indice NDVI pour notre classification.

Table 1 - Matrice de confusion du classement

Référence

Végétation

Bâtiments

Voirie

Total

Classification

Végétation

4495

4559

Bâtiments

939

14902

2074

17915

Voirie

815

1341

7334

9490

Total

6249

16261

9454

31964

1 / 4 100%

FUSION DE DONNEES LiDAR ET MULTISPECTRALES

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

FUSION DE DONNEES LiDAR ET MULTISPECTRALES

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib