FUSION DE DONNEES LiDAR ET MULTISPECTRALES PFE présenté par : Société d’accueil : Directeur de PFE : Correctrice : Ophélie SINAGRA UNSW Samsung LIM Tania LANDES 1. INTRODUCTION Ce projet de fin d’études a été réalisé à l’Université de Nouvelle-Galles du Sud de Sydney (Australie) au sein de l’équipe de recherche du Dr Samsung LIM. Le Dr LIM travaille depuis plus d’une vingtaine d’années dans les domaines du GPS, du SIG ou encore du LiDAR et a proposé de tester une nouvelle méthode permettant la classification de la fusion de données issues d’un lever LiDAR et d’images multispectrales. L’objectif de cette recherche est de développer une technique permettant la fusion des données afin de procéder à une classification rapide et efficace à l’aide d’un algorithme choisi. Certaines contraintes se posent alors tels que les différentes résolutions spatiales de images et du nuage de points ou encore le choix de l’algorithme. Plusieurs études ont été menées dans le domaine de la fusion au cours des dernières années mais ces dernières restent encore au stade de la recherche car c’est un domaine relativement nouveau. L’étude de ces précédentes recherches a permis de déterminer une nouvelle approche qui consiste à créer plusieurs rasters à l’aide des données de différentes sources, de les assembler afin de n’obtenir qu’un seul et unique raster composé de plusieurs couches, et pour finir d’utiliser un algorithme de classification supervisée sur le raster créé. Le calcul de la précision de chacune des classifications testées sera effectué à partir de la matrice de confusion afin de pouvoir définir l’utilité de chacune de ces couches. Ainsi il sera possible d’identifier la configuration optimale du jeu de données en entrée. 2. DONNEES Les deux types de données ont étés acquis au niveau de la ville de Strasbourg (France) en 2002 et en 2004. Les données multispectrales utilisées sont issues du capteur QuickBird. Ce capteur permet d’obtenir des images dans quatre bandes spectrales (bleu, vert, rouge, proche infra-rouge) à une résolution de 2.44 mètres et géoréférencées dans le système WGS84-UTM32N. Le nuage de points ne couvre qu’une petite zone de la ville de Strasbourg et contient plus de 122 000 points connus dans les trois dimensions XYZ dans le système Lambert-I. 3. TRAITEMENT DE LA FUSION DES DONNEES La classification est réalisée sur un raster composé de différentes couches contenant des informations issues du LiDAR et des images multispectrales. L’information principale provenant du LiDAR concerne les trois dimensions, en effet chaque point est connu dans l’espace. Il est donc possible d’extraire cette information de chaque point du sursol et de la convertir en raster. Les bandes de l’image multispectrale peuvent être combinées afin d’obtenir des indices multispectraux permettant l’identification de la végétation etc.. Chaque indice sera représenté sous forme de raster. Le choix de la méthode de classification s’est porté sur un algorithme supervisé de nouvelle génération : le SVM (Support Vector Machine). Il est basé sur une méthode statistique où peu de zones échantillons sont nécessaires à l’apprentissage. PFE 2013 Ophelie SINAGRA 1/4 La forme et le contenu des résumés sont de la responsabilité de l’étudiant qui en est l’auteur SVM NDVI Image multispectrale … Voirie Bâtiments Points sur le sol Végétation Variation d’altitude LiDAR Points du sursol Figure 1 - Organigramme des étapes de classification 3.1. CREATION DES DIFFERENTES COUCHES 3.1.1. Variation d’altitude Trois étapes sont nécessaires à la création du raster représentant la variation d’altitude entre les points du sursol par rapport au MNT. Il faut tout d’abord classer les points du sol et du sursol dans deux classes différentes. Cette classification est réalisable automatiquement à l’aide du logiciel open source LAStools. Une fois les points classés et que cette classification est vérifiée (à l’aide d’un logiciel différent, ici SAGA est utilisé), la hauteur des points du sursol est calculée par rapport au MNT (MNT créé à l’aide des points classés en tant que « sol »). Cette hauteur est substituée à la troisième coordonnée des points du sursol alors que l’altitude des points du sol devient 0 mètre. Pour finir, ce nuage de points dont les altitudes ont été modifiées doit être converti en raster dont la résolution spatiale est identique à la résolution de l’image multispectrale c’est-à-dire 2.44 mètres. 3.1.2. Indices de végétation Les indices de végétation sont des indicateurs numériques utilisant plusieurs bandes de l’image multispectrale et fournissant des informations sur la présence ou non d’éléments végétaux. Il a été choisi de calculer trois indices différents : le NDVI (indice de végétation normalisé), le SAVI (indice de végétation ajusté pour le sol, limitant l’influence des sols) et le GEMI (indice de contrôle environnemental global, limitant l’influence de l’atmosphère). 3.1.3. Fusion des données Les rasters créés doivent être assemblés afin de n’avoir que des rasters composés de plusieurs bandes et ainsi pouvoir parler de fusion des données. Un premier raster composé des quatre bandes définies ci-dessus est créé. Celui-ci sera ensuite classé. Puis six autres rasters sont créés, cette fois-ci ne comprenant plus que deux ou trois bandes. Ces six rasters permettront de définir les couches indispensables à notre classification. Plusieurs problèmes se posent alors, notamment celui du géoréférencement étant donné que les deux types de données ne sont pas projetés dans le même système et n’ont pas les mêmes résolutions spatiales. Un décalage entre les grilles du raster issu du LiDAR et des rasters issus des bandes multispectrales est aussi observé. Il faut donc effectuer une transformation avec un polynôme du premier degré pour avoir un géoréférencement correct et ensuite recaler les grilles. 3.2. CLASSIFICATION 3.2.1. Algorithme SVM L’algorithme SVM est une technique de classification supervisée non linéaire basée sur une méthode statistique. Il cherche à définir un hyperplan qui séparera deux classe, c’est-à-dire minimiser la marge maximale (distance entre l’hyperplan et les échantillons les plus proches). PFE 2013 Ophelie SINAGRA 2/4 La forme et le contenu des résumés sont de la responsabilité de l’étudiant qui en est l’auteur L’algorithme étant de type supervisé, il nécessite donc des zones d’apprentissage afin que le SVM apprenne chaque classe. Ces zones sont des polygones au format shape répartis sur l’image à classer. Trois différentes catégories sont choisies : voirie, bâtiments, végétation. 3.2.2. Paramètres De nombreux paramètres définissent notre algorithme. Ils seront choisis après avoir testé les différentes possibilités et calculé le coefficient Kappa de Cohen (estimateur de qualité par comparaison de l’erreur obtenue et celle que l’on obtiendrait avec une classification au hasard). Le noyau de type Gaussien est choisi, avec un coefficient C de 3 (détermine à quel point l’algorithme SVM doit éviter la mauvaise classification d’un échantillon), un ratio entre échantillons d’apprentissage et échantillons de validation de 0.5 (autant d’échantillons d’apprentissage que d’échantillons de validation) et la taille maximale de ces zones de 1000 pixels. NDVI SAVI GEMI Variation Alt Zones échantillons Classification SVM Figure 2 - Organigramme du processus 3.3. CLASSIFICATION La classification est effectuée à l’aide trois lignes de commande : une première pour extraire les informations statistiques de l’image à classifier, une deuxième pour apprendre à l’algorithme les zones échantillons, et une dernière pour classer l’image. Avant d’effectuer la classification, le fichier SVM (fichier servant pour la classification) est analysé. Le coefficient Kappa de Cohen est obtenu à partir de la matrice de confusion et est de 99.1%, donc le fichier SVM est d’excellente qualité. Figure 3 – Image classée L’image est classée selon trois catégories : la voirie, les bâtiments et la végétation. La catégorie « eau » est exclue car les informations spectrales au niveau de cette zone sont erronées. 3.4. REFERENCE Ne disposant pas de données de référence, le nuage de points LiDAR (type de données ayant la meilleure résolution spatiale) sera classé manuellement et converti en raster. L’image classée obtenue sera comparée à cette référence. Un nouveau problème se pose : l’acquisition des données LiDAR et multispectrales n’a pas été effectuée au même moment : plus de deux années séparent les deux acquisitions. Cela influe principalement sur la végétation (abattage d’arbres, etc.). C’est pour cela que les pixels ayant une valeur supérieur à 0.2 dans la couche NDVI (entre végétation moyenne et forte selon les études de Holben dans Characteristics of maximum-value composite images from temporal AVHRR data, 1986) seront extraits et utilisés en tant que pixels de la classe « végétation » dans le raster de référence. 4. RESULTATS 4.1. CLASSIFICATION DU RASTER Les deux rasters sont donc comparés. Un raster permettant l’analyse graphique est obtenu, à partir de la table des attributs de ce raster, la matrice de confusion est extraite et les estimateurs de précision sont calculés. Figure 4 - Raster de comparaison (vert = bien classé, rouge = mal classé) PFE 2013 Ophelie SINAGRA 3/4 La forme et le contenu des résumés sont de la responsabilité de l’étudiant qui en est l’auteur Table 1 - Matrice de confusion du classement Référence Classification Une précision totale de 83.6% est obtenue avec notre technique : un raster de quatre couches (Hauteur, NDVI, SAVI, GEMI) est correctement classé avec l’algorithme SVM. L’erreur de classification principale concerne un mauvais classement des pixels « voirie » et « végétation » en tant que « bâtiments ». De plus, les bâtiments détectés sont irréguliers étant donné que la méthode SVM est orientée pixel et non objet. Végétation Bâtiments Voirie Total Végétation 4495 18 46 4559 Bâtiments 939 14902 2074 17915 Voirie 815 1341 7334 9490 Total 6249 16261 9454 31964 Table 2 - Estimateurs de précision Erreur de Commission 6.69% Précision pour l'utilisateur 93.31% Erreur d'Omission 9.68% Précision pour le réalisateur 90.32% Erreur d'Affectation 16.37% Précision totale 83.63% 4.2. DETERMINATION DES COUCHES INDISPENSABLES Afin de déterminer les couches importantes, la classification et le calcul de la matrice de confusion sont effectués sur des rasters comprenant moins de couches (une ou deux couches ont été supprimées). Il est constaté que seule la couche hauteur (issue du lever LiDAR) combinée avec soit la couche NDVI soit la couche SAVI s’avère utile. En effet, la précision de la classification est de 84.2% dans les deux cas. Lorsque les informations issues du LiDAR ne sont pas utilisées la précision de la classification baisse de près de 20%. De plus, une quantité importante d’informations (donc de couches) amène des erreurs (dues au géoréférencement, à la résolution spatiale, etc.) et donc diminue la précision de notre classification. 5. CONCLUSION ET PERSPECTIVE Les différents tests effectués permettent de définir les éléments indispensables à une bonne classification. Il est indispensable d’avoir une couche issue du lever LiDAR, reprenant l’information concernant la hauteur des points du sursol, et une issue de l’image multispectrale, avec le calcul d’un indice multispectral par exemple. Les facteurs influant la qualité de la classification et auxquels il est primordial de porter une grande attention sont les paramètres de l’algorithme SVM et les polygones délimitant les zones d’apprentissage. De plus, la résolution spatiale des données et l’espacement temporel entre les acquisitions influenceront aussi nos résultats. Il est important d’avoir des données acquises dans un espace de temps réduit. Dans le futur, il sera intéressant de normaliser l’intensité de chaque point du lever LiDAR et d’utiliser cette donnée pour calculer l’indice NDVI. En effet, il est possible de substituer cette information à la bande du proche-infrarouge. L’indice pourra alors être de nouveau calculé avec cette nouvelle bande et la bande rouge d’une image satellite ou d’une image aérienne (meilleure résolution spatiale). Cette couche pourra être assemblée avec un raster reprenant les hauteurs des points avant d’être utilisée pour une classification avec l’algorithme SVM. De plus, de nouveaux capteurs comme MODIS permettent de calculer de nouveaux indices corrigés à la fois de l’influence des sols et de l’effet de l’atmosphère. Il serait aussi intéressant d’utiliser cet indice à la place ou en plus de l’indice NDVI pour notre classification. PFE 2013 Ophelie SINAGRA 4/4 La forme et le contenu des résumés sont de la responsabilité de l’étudiant qui en est l’auteur