InternshipStudy of correlation software for complex modal analysis

publicité
Analyse d’image complexe de télédétection
conjointement à l’extraction de variables
interprétables
Mathieu Fauvel
Laboratoire DYNAFOR - UMR 1201 - INRA & University of Toulouse, France
Mots Clef
Image hyperspectrale, série temporelle, classification, estimation de paramètres, extraction de variables, parcimonie.
Contexte
Dans le contexte actuel de développement durable, l’étude de l’état et de l’évolution des paysages
constitue un enjeu majeur pour comprendre et résoudre les problèmes environnementaux. Dans cette
optique, les recherches conduites par l’UMR DYNAFOR portent sur les relations entre les processus
écologiques et les patrons spatiaux. Elles ont pour but de comprendre comment la configuration et
la composition du paysage influent sur la biodiversité.
Pour aborder ces questions, il est nécessaire de disposer d’une cartographie détaillée des éléments
qui composent le paysage. «Détaillée» signifie qu’il est important d’obtenir une cartographie à
plusieurs niveaux: après avoir cartographié une forêt, il est nécessaire de cartographier les différentes
espèces arborées ainsi que le bois mort sur pied, au sol. Un autre exemple peut être donné pour
les prairies où le type (permanent, temporaire . . . ) ainsi que la composition sont des variables
spatialisées à extraire.
Bien que ces données spatiales soient indispensables à de nombreux modèles socio-écologiques, il
n’existe pas encore de cartographie pour l’ensemble de ces éléments aux échelles locales. La BDTopo
de l’IGN, qui correspond à la base de données cartographique nationale, n’intègre pas de couche «
végétation » détaillée. La réalisation de cette cartographie constitue donc un enjeu important pour
l’étude des écosystèmes.
Les capteurs satellitaires multispectraux à haute résolution spatiale permettent l’identification
spatiale de ces objets. Mais leur résolution spectrale n’autorise pas une analyse fine des espèces
végétales, des différents stades phénologiques ou de la constitution des sols. De plus la faible répétivité
temporelle (temps de revisite d’un site) ne permet un suivi inter-annuel important.
Par leurs très hautes résolutions spatiale et spectrale (échantillonnage du spectre des longueurs
d’onde en plusieurs centaines de bandes spectrales), les capteurs hyperspectraux améliorent de
manière significative les capacités de la télédétection dans ce domaine. Il est possible de remonter précisément aux espèces végétales ainsi qu’à l’état phytosanitaire des éléments semi-naturels
observés. De même, l’avènement des séries temporelles d’images satellitaires (par exemple fournies
par la nouvelle constellation de satellites Sentinel-2 CNES) permet d’accéder à une information
phénologique très utile pour caractériser la réponse des paysages aux changements climatiques.
Ainsi, les images actuelles à grande dimension spectrale et temporelle sont à même de fournir des
informations précieuses sur l’état et l’évolution des paysages observés. Cependant, l’analyse de ces
images est rendue délicate par la grande dimension spectrale et/ou temporelle des données. Pour un
1
pixel, des centaines de variables spectrales ou des dizaines de variables temporelles sont disponibles.
Il existe une forte corrélation naturelle entre ces variables et donc une redondance de l’information.
Cette redondance perturbe les algorithmes classiques de traitement qui ont été pensés et définis pour
des données de taille réduite (quelques variables spectrales ou temporelles).
Ce flux massif d’informations générées rend incontournable la mise en place de stratégies intelligentes pour le traitement informatique. La finalité de ce stage sera double:
1. obtenir des traitements robustes (classification, inversion, estimation . . . ) à la dimension des
données,
2. permettre l’extraction de variables temporelles et/ou spectrales interprétables, i.e., expliquant
au mieux les résultats obtenus.
De plus, ces deux étapes seront réalisées en un seul et même traitement, et non pas en plusieurs
étapes comme cela est habituellement réalisé.
Travail
Puisque les données ont une nature physique (temps, longueurs d’ondes), il est important que les
algorithmes prennent en compte cette nature pour essayer d’extraire plus d’informations sur les
phénomènes observés.
Les objectifs de ce stage sont donc :
1. Etudier les performances des algorithmes parcimonieux existants sur des données multitemporelles et hyperspectrales. Comparer les résultats aux méthodes actuelles, notamment celles
développées à l’UMR DYNAFOR.
2. Analyser les variables extraites par les traitements. En particulier :
(a) Dans le cadre de la classification de séries temporelles, est-il est possible de relier les dates
retournées aux événements climatiques de l’année considérée (sécheresses, hydrométrie. . . ).
(b) Dans le cadre de la classification d’images hyperspectrales, est-il est possible de relier les
bandes spectrales extraites aux espèces détectées, à leurs diversités ainsi qu’à leurs stades
phénologiques.
3. Etendre les méthodes à des modèles non linéaires. Il a été montré que les approches non linéaires
pouvaient donner de meilleurs résultats. Cependant, l’extension des méthodes parcimonieuses
à des modèles non linéaires n’est pas immédiate. Une approche envisagée est l’utilisation de
méthodes à noyaux, qui permettent de transformer des algorithmes linéaires en algorithmes
non linéaires.
Ce stage présente deux caractères innovant: l’extraction de variables, dont la nature physique est
préservée, durant le traitement et le passage au non linéaire de certains modèles. D’un point de vu
applicatif, ces méthodes permettront:
• La production de cartes thématiques (occupation des sols, détection d’objets thématiques,
détection des infrastructures agro-écologique, surveillance des indices phytographiques. . . ) à
partir des images complexes de télédétection (série multitemporelle ou image hyperspectrale).
• L’extraction de variables caractérisant les phénomènes analysés, à mettre en relation avec les
cartes thématiques.
2
Calendrier prévisionnel
Du 03/2014 au 08/2014:
• Synthèse bibliographique des méthodes disponibles sur les modèles linéaires et non linéaires,
• Développement d’une approche non linéaire pour la classification d’images,
• Implémentation des méthodes retenues et tests sur les données disponibles à DYNAFOR,
• Valorisation et diffusion des résultats.
Profil
Le candidat doit avoir des compétences en statistiques et/ou en machine learning. Une expérience
en programmation (C/C++, matlab ou équivalent) ainsi qu’en traitement d’images est un plus. Une
bonne maitrise de l’anglais est requise.
Le stage durera entre 5 et 6 mois, à partir de Février/Mars. Il sera situé à l’ENSAT INP Toulouse,
rattaché à l’Université de Toulouse et à l’INRA. Le montant de la gratification sera d’environ 440 e
par mois.
Contact
[email protected], +33(0)5 34 32 39 22, fauvel.mathieu.free.fr
3
Téléchargement