4 Observation des surfaces continentales par télédétection

publicité
4
Cartographie de l’occupation des sols à
partir d’images optiques
Jordi Inglada
CESBIO, 18 av. Edouard Belin, bpi 2801, 31401 Toulouse cedex 9, France
4.1. Introduction
Ce chapitre traite dela production de cartes d’occupation des sols à partir
d’imagerie optique. Après une introduction au sujet, les différents types de données
utilisées sont présentés. Les types d’imagerie sont décrits en termes de leurs
résolutions spatiale, spectrale et temporelle. Outre les données de référence que la
cartographie d’occupation du sol requiert pour l’étalonnage des méthodes, les
approches de traitement qui permettent de transformer les pixels des images en
information cartographique puis l’étape incontournable de leur validation
thématique et spatiale sont explicitées. Au cœur de ce chapitre, se placent les
méthodes d’extraction de primitives et les algorithmes de classification les plus
fréquents. Quelques exemples d’application sont illustrés par les cartes d’occupation
des sols qui en ont été produites.
4.1.1.La cartographie par imagerie de télédétection
La production de cartes a été, de longue date, l‘objectif premier des techniques
de télédétection, dès ses débuts photographiques par des moyens aéroportés, ce qui
4
Observation des surfaces continentales par télédétection : Agriculture et Forêt
sollicitait l’interprétation visuelle des photographies aériennes par des cartographes
aguerris [GIR 10]. L’avènement des satellites d’observation de la Terre, avec leur
revisite systématique et leur couverture de grandes surfaces, a permis d’envisager la
production systématique d’images interprétées, voire la production opérationnelle de
cartes.
Il convient de commencer par définir ce qu’est une carte. L’objectif d’une carte
est de permettre une compréhension synthétique et pertinente d’un espace
géographique. La carte constitue ainsi une représentation concise (donc simplifiée),
tout autant qu’efficace (contenant les éléments essentiels et en respectant les règles
de sémiologie graphique) de la nature physique, politique ou sociale de l’espace
choisi.
L’imagerie de télédétection permet d’appréhender des objets physiques,
biologiques et morphologiques qui résultent de facteurs physiques tout autant
qu’humains. Ces objets sont appréhendés par l’analyse de l’occupation des sols qui
désigne la couverture physique (y compris dans ses aspects biologiques, notamment
la végétation) de la surface des terres émergées, décrite aussi en termes de types
d’usages des terres par les sociétés humaines. On parlera aussi de paysage, à travers
lequel on visera à identifier et caractériser des types homogènes de milieux. On
visera ainsi à distinguer les zones artificialisées (bâti, infrastructures), les zones
agricoles, les forêts, les landes, les zones humides, etc.
A la différence des cartes topographiques, qui servent à se repérer dans l’espace,
tout en délivrant certaines de ces informations sur les usages des sols, l’enjeu
principal des cartes d’occupation des sols est de délimiter, d’inventorier et de
comprendre les évolutions et les tendances des typologies de zones au cours du
temps (le changement de forêt en zone artificialisée, par exemple) afin d’en
expliquer les déterminismes et d’en prévoir le devenir. Les cartes d’occupation des
sols constituent donc un outil essentiel pour l’aménagement du territoire ou
l’analyse du changement climatique. Elles sont aussi utilisées en entrée de modèles
décrivant les processus environnementaux (hydrologie, climat, cycles de l’eau et du
carbone).
4.1.2.Occupation et utilisation des sols
Le terme "occupation des sols" englobe souvent 2 aspects différents:
l’occupation proprement dite c’est-à-dire la présence d’objets physiques ou
biologiques identifiés et l’utilisation des sols, c’est-à-dire les usages et les fonctions
de ces objets.
D’un côté, dans certaines applications, on s’intéresse à la vue physionomique du
terrain. On parle alors d’occupation des sols (land cover en anglais). On vise ici à
distinguer les éléments qui forment la structure du paysage sans essayer d’en
Cartographie de l’occupation des sols à partir d’images optiques
identifier la fonction. Dans ce cas, par exemple, une zone agricole ne sera pas
identifiée comme telle, mais plutôt en tant que végétation herbacée ou sol nu
dépendant de son état au moment de la production de la carte.
De l’autre, il est souvent nécessaire d’adopter un point de vue anthropique sur le
paysage, afin de prendre en compte la fonction ou le type d’usage qui est fait de
l’espace. On parle alors d’utilisation des sols (land use en anglais). Dans ces cas,
même si la couverture physique est la même, on souhaitera distinguer par exemple
une zone industrielle d’une zone commerciale, ou un terrain de sport d’une prairie.
Cette distinction, qui est très importante du point de vue de l’utilisateur des
cartes, n’a pas beaucoup d’incidence sur les méthodologies employées pour leur
production. Nous la laisserons donc de côté dans la suite du chapitre.
4.1.3. Les nomenclatures
La légende d’une carte d’occupation des sols est la liste des catégories
cartographiées (classes thématiques). La légende est spécifique à une échelle de
restitution cartographique au format papier (rapport entre une distance sur la carte et
la distance réelle sur le terrain): la classe « bâtiment » ne peut apparaître qu’à des
échelles très fines (c’est-à-dire grandes, telles que 1/10000), mais la classe « zone
urbaine » a moins de sens à ces mêmes échelles. Les objets du paysage peuvent
donc être regroupés selon des classes différentes en fonction de l’application, de
l’échelle, de l’emprise géographique de la carte, des données (imagerie) utilisées
pour la produire mais aussi du thématicien producteur de la carte, de son champ
d’expertise, du budget et du temps alloués pour collecter des références de terrain ou
encore des utilisateurs ou du commanditaire de la carte [LEG 96]. Cependant, la
réalité physique est indépendante de la carte et elle peut être organisée en une
nomenclature ou classification. Ainsi, tandis que la légende de la carte est
déterminée par l’échelle et le type de donnée utilisée,la nomenclature est
indépendante de l’échelle et des ressources utilisées pour produire la carte.
La plupart des nomenclatures sont hiérarchiques, ce qui leur permet d’être
thématiquement exhaustives, comme d’en dériver des légendes spécifiques de façon
cohérente. Ces hiérarchies de classes peuvent être constituées a priori ou a
posteriori. On parle de nomenclature a priori quand on part de concepts abstraits
que l’on détaille au fur et à mesure que l’on descend dans la hiérarchie des classes.
Dans le cas a posteriori, on part de classes concrètes que l’on regroupe de façon
ascendante. Le tableau 4.Error! Reference source not found. présente un exemple
de nomenclature hiérarchique. A partir de cette nomenclature, on peut définir une
légende pour une carte en choisissant le niveau de détail souhaité pour chaque
branche de la hiérarchie. Par exemple, on pourrait choisir une hiérarchie simplifiée
pour des applications forestières (Tableau 4.2).
4
Observation des surfaces continentales par télédétection : Agriculture et Forêt
Niveau dans la hiérarchie
1
2
3
4
5
6
Végétation
Terrestre
Agricole
Annuelle
Hiver
Blé,
Orge
Colza
Eté
Maïs
Tournesol
Riz
Mixte
Autres céréales
Autres oléagineux
Protéagineux
Semences
Légumineuses
Fourrage
Légumes fleurs
Semi
naturel
Naturel
Pluriannuelle
Gel
Prairies temporaires
Canne à sucre
Pérenne
herbacée
ligneuse
Prairies
Vergers
Vignes
Fruits à coque
Oliviers
Autre arboriculture
Caducs
Hêtre
Chêne caduc
Autres feuillus
Persistants
Résineux
Estives landes
Forêts
Feuillus
Mixtes
Ligneux bas
Pelouses
Aquatique
Non
végétation
terrestre
Naturelle
Surfaces
Minérales
Artificielle Bâti
Routes
Aquatique Eau
7
Cours d’eau
Eau libre
Neige
Glace
Tableau 4.1.Exemple de nomenclature hiérarchique.
Pin sylvestre
Autres pins
Sapin pectine
Autres résineux
Chêne persistant
Cartographie de l’occupation des sols à partir d’images optiques
Végétation
Terrestre Agricole
Semi naturel
Naturel
Forêts
Caducs
Hêtre
Chêne caduc
Autres feuillus
Persistants
Résineux
Pin sylvestre
Autres pins
Sapin pectine
Autres résineux
Feuillus
Chêne persistant
Mixtes
Ligneux bas
Pelouses
Aquatique
Non végétation
Tableau 4.2.Exemple de hiérarchie de classes simplifiée.
Cette hiérarchie peut ensuite être aplatie pour élaborer la légende de la carte en
choisissant le niveau le plus détaillé pour chaque branche de la nomenclature:
1. non forêt
2. hêtre
3. chêne caduc
4. autres feuillus
5. pin sylvestre
6. autres pins
7. sapin pectiné
8. autres résineux
9. chêne persistant
10. forêts mixtes
Un des problèmes fréquemment rencontrés par les utilisateurs de cartes
d’occupation des sols est l’impossibilité de comparer facilement des cartes utilisant
des nomenclatures différentes. Afin d’améliorer cette situation, des nomenclatures
standardisées ont été proposées. En Europe, la nomenclature Corine Land-Cover a
été conçue en 1985. Elle propose une nomenclature hiérarchisée en 3 niveaux (5
4
Observation des surfaces continentales par télédétection : Agriculture et Forêt
classes, 15 classes et 44 classes) pour des cartographies au 1/100 000e construites à
partir de données satellitaires et selon un seuil surfacique minimal de 15 ou 25
hectares selon les thèmes.
Une autre initiative de ce type est le système LCCS (Land Cover Classification
System) proposé par la FAO (l’organisation des Nations unies pour l’agriculture et
l’alimentation). Il s’agit d’un système qui permet de construire des nomenclatures
hiérarchiques qui peuvent être spécifiques à une application, tout en restant
comparables à certains niveaux de détails.
4.1.4. Détection de changements d’occupation des sols
L’imagerie satellitaire, combinée à des techniques de traitements de données,
permet de produire rapidement des cartes d’occupation des sols. Grâce à la revisite
fréquente des satellites, ces cartes peuvent être produites de façon fréquente afin de
permettre l’étude des évolutions des surfaces observées.
Le fait de disposer des cartes représentant des états précédents, facilite la
production de nouvelles cartes. On peut ainsi travailler de façon incrémentale,
analyser les différences et même faire des prévisions sur les évolutions à venir. Ces
approches s’appuient sur des techniques spécifiques.
4.2. Les données en entrée
Nous présentons dans cette section les types de jeux de données d’imagerie de
télédétection qui peuvent être utilisés pour la production de cartes d’occupation des
sols. La disponibilité d’un type de donnée ou d’un autre dépend de plusieurs
facteurs:
– économique : certains types d’images ont un coût financier élevé ;
–
du problème à traiter : certains des phénomènes à cartographier nécessitent
des données particulières ;
–
technologiques : le traitement de certains types de données requiert des
moyens de calcul importants (grosses séries temporelles couvrant de grandes
surfaces) ;
–
compétences : certaines modalités d’imagerie sous-tendent des
connaissances pointues en physique de la mesure, ainsi que des
connaissances thématiques de chacun des milieux cartographiés (urbains,
agricoles, forestiers, aquatiques).
Au-delà des images, des données de référence seront nécessaires. On appelle
donnée de référence la connaissance de l’occupation du sol sur un point du territoire
Cartographie de l’occupation des sols à partir d’images optiques
à un instant donné. On utilise souvent le terme vérité terrain, qui est facile à
comprendre, mais qui est inapproprié, car la donnée dite « de référence » est parfois
obtenue sans aller sur le terrain, et elle peut ne pas être vraie (elle peut contenir des
erreurs ou des biais).
La donnée de référence est nécessaire, a minima, pour évaluer la qualité de la
carte produite. Elle est souvent utilisée pour étalonner les méthodes de production
automatique.
4.2.1. Types d’imagerie
En fonction des besoins de cartographie, le choix des images à utiliser peut
varier. Nous présentons ici 3 scénarios pour illustrer ces choix.
4.2.1.1. Mono-date
Une image satellitaire optique à très haute résolution spatiale (THRS) de type
Pléiades HR ou SPOT6 peut parfois suffire à réaliser une cartographie précise pour
certains besoins. En effet, l’imagerie optique offrant des résolutions spatiales
proches du mètre, voire inférieures, donne accès à la reconnaissance des principales
structures du paysage (routes, bâtiments, cours d’eau, etc.). Pour des raisons de
disponibilité de la donnée, l’approche mono-date a été la plus fréquemment utilisée.
La disponibilité d’au moins une bande spectrale dans le proche infrarouge (PIR)
permet aussi de détecter la végétation de façon relativement robuste à la date de
prise de vue, mais cette unique date est insuffisante pour caractériser la végétation
susceptible de se développer à une date ultérieure, dans la zone étudiée.
Ce type d’imagerie peut donc être utile pour la cartographie des infrastructures,
l’étalement urbain, les morphologies urbaines, que caractérisent principalement leur
forme et leur agencement relatif. Dès lors, une seule image couvrant la zone
d’intérêt suffit. La figure 4.Error! Reference source not found. montre un extrait
d’une image à très haute résolution spatiale (environ 50 cm par pixel, résultat de la
fusion de la bande panchromatique échantillonnée à 50 cm et des bandes
multispectrales échantillonnées à 2 m).
Dans le domaine aéroporté, des données hypespectrales avec des dizaines de
bandes spectrales dans les domaines du visible, infrarouge et thermique sont aussi
fréquemment utilisées.
4
Observation des surfaces continentales par télédétection : Agriculture et Forêt
Figure4.1.Extrait d’une image Pléiades HR sur le quartier de Rangueil à Toulouse (France),
latitude 43.5699°N, longitude 1.4551°E, affichage en couleurs naturelles RVB.
4.2.1.2. Multi-temporel
A la différence des infrastructures et de la plupart des zones anthropisées, les
milieux cultivés et les milieux dits « naturels » sont souvent caractérisés par leur
comportement temporel régulier. La végétation naturelle a des cycles réguliers le
long des saisons. Dans le cas des zones agricoles, des ruptures de ce comportement
(successions de cultures, opérations culturales) viennent s’y superposer.
Pour aller au-delà de la distinction végétation - non végétation, l’imagerie à une
seule date ne suffit pas. On rentre ici dans le domaine du multi-temporel, qui va de
l’utilisation de 2 acquisitions par an (par exemple une image d’été et une image
d’hiver pour distinguer les forêts de persistants des forêts de caducs), jusqu’aux
techniques qu’on commence à appeler hyper-temporelles, où l’on se rapproche
d’une fréquence d’acquisition de l’ordre de la journée.
Des systèmes d’observation comme SPOT Végétation (résolution d’1km pour
une couverture globale chaque jour) ou MODIS (résolution de 250m à 1km avec
aussi une revisite journalière) ont été utilisés avec succès pour réaliser des
cartographies à des échelles continentales voire globales. Cependant, leur faible
résolution spatiale ne permet pas la production de cartes suffisamment détaillées que
Cartographie de l’occupation des sols à partir d’images optiques
ce soit en finesse spatiale ou thématique, même si des approches de désagrégation de
pixels mixtes ont été proposées [BEN 08].
Les systèmes comme LANDSAT et tout récemment SENTINEL-2 offrent des
revisites de l’ordre de quelques jours, mais avec des résolutions décamétriques, ce
qui est un très bon compromis pour mettre en évidence des comportements
temporels tout en ayant accès à des détails du paysage.
Si la résolution spatiale de ces données n’est guère appropriée pour la
cartographie des réseaux routiers fins ou pour la caractérisation des morphologies
urbaines, ces données sont en revanche très utiles pour la cartographie des
écosystèmes (zones humides, etc.), des types de cultures au niveau des parcelles
agricoles ou des essences forestières avec des niveaux élevés de détail thématique.
La figure 4.Error! Reference source not found. montre une série temporelle
d’images acquises par le satellite taïwanais Formosat-2 (revisite théorique de 2 jours
sur la zone imagée, résolution de 8 m et 4 bandes spectrales dans le visible et le
proche infrarouge). Avec ce type de données, on peut observer de façon précise
l’évolution du paysage agricole et donc distinguer différents types de cultures grâce
à leur phénologie et les pratiques agricoles qui y sont liées. On observe par exemple
l’émergence des cultures d’hiver à partir du mois de janvier et surtout en février : ce
sont les champs en rouge, car l’affichage utilise une composition couleur de type
RVB=(vert, rouge, proche infrarouge).
2005-11-16
2005-11-20
2005-11-28
2005-12-04
2005-12-08
2005-12-12
4
Observation des surfaces continentales par télédétection : Agriculture et Forêt
2005-12-16
2005-12-29
2006-01-10
2006-01-18
2006-01-22
2006-02-16
Figure 4.2. Extrait d’une image Pléiades HR sur le quartier de Rangueil à Toulouse
(France), latitude 43.5699°N, longitude 1.4551°E, affichage en couleurs naturelles RVB.
4.2.1.3. Multi-modalités
Dans certaines applications, les types d’occupation des sols à cartographier sont
difficiles à caractériser avec un seul type d’imagerie. Par exemple, en plus de la
revisite temporelle présentée dans la section précédente, il peut être utile d’avoir de
la THRS pour lever les ambiguïtés sur certains types d’objets. Un autre exemple est
celui des classes qui ne peuvent être distinguées qu’avec une revisite temporelle très
fine qui ne peut être atteinte qu’avec des capteurs de moyenne ou basse résolution
spatiale (distinction blé/orge), mais cette faible résolution spatiale ne permet pas de
réaliser des cartographies au niveau de la parcelle.
Dans ces cas, la cartographie peut être réalisée en utilisant de façon conjointe
plusieurs modalités d’imagerie, par exemple couplage optique/radar pour
discriminer les opérations culturales en sols nus agricoles [VAU 14]. A l’heure
actuelle, ces utilisations sont rares et souvent très spécialisées sur des
problématiques scientifiques particulières.
Pour le lecteur intéressé, il sera utile de consulter les travaux de thèse de
Florence Laporterie sur la fusion d’images de résolutions différentes [LAP 02] et
Cartographie de l’occupation des sols à partir d’images optiques
d’Amandine Robin sur la classification et la détection de changements en utilisant
conjointement des images à haute résolution spatiale et à haute fréquence temporelle
[ROB 07].
4.2.2. Données de référence pour l’étalonnage et la validation
Pour que les cartes d’occupation des sols puissent être diffusées à des
utilisateurs, il faut en connaître la qualité. Cette qualité doit être quantifiée à l’aide
d’indicateurs standardisés et acceptés par les utilisateurs (cf. §4.Error! Reference
source not found.).
Il est pour cela nécessaire de disposer de données de référence dont la qualité a
été vérifiée. Ces données correspondent par exemple à des endroits précis pour
lesquels on connaît la classe d’occupation des sols au moment de l’acquisition des
images utilisées pour produire la carte d’occupation des sols. Ce type de données est
indispensable, non seulement en sortie de traitement, pourcalculer des indicateurs
statistiques de validité des résultats de traitements, mais aussi en entrée pour ajuster
le modèle d’interprétation ou de calibration, ou d’étalonnage, de l’algorithme de
traitement. En effet, la plupart d’algorithmes de classification ont de paramètres qui
doivent être choisis judicieusement et ce choix est souvent fait par apprentissage
automatique. On utilise donc des données de référence pour réaliser cet
apprentissage. Dans ce cas, il est important de séparer les données de référence en
deux ensembles disjoints : l’ensemble d’apprentissage et l’ensemble de validation.
Ceci est nécessaire afin d’éliminer tout biais statistique dans la validation. Le ratio
entre la quantité d’échantillons pour la validation et ceux pour l’apprentissage est
souvent de moitié, mais si les données sont limitées, on peut utiliser plus
d’échantillons pour l’apprentissage afin d’obtenir de meilleurs résultats.
Si l’origine des données de référence peut être diverse, il faut néanmoins que
leur précision soit supérieure à celle visée par la carte. Dans le cas contraire, il n’est
pas possible de produire une validation fiable. Dans le meilleur des cas, il est
préférable de recourir à des campagnes d’observation sur le terrain pour constituer
ces bases de données de référence, utiles non seulement à l’étalonnage, mais aussi à
la validation. Sur de vastes surfaces, les relevés de terrain assortis de leur position
géographique précise doivent être réalisés au plus proche de la prise de vue et
mobilisent plusieurs personnes [VAU 14b]. Le dispositif d’échantillonnage des
relevés terrain doit être raisonné au mieux afin de disposer d’observations
spatialement et thématiquement représentatives.
Du fait de ces contraintes budgétaires, logistiques, et de stratégie
d’échantillonnage, le recours à des données d’observation de terrain n’est hélas pas
toujours mis en œuvre.Les données de référence reposent alors parfois uniquement
sur la photo-interprétation. Cette procédure repose sur une interprétation visuelle
4
Observation des surfaces continentales par télédétection : Agriculture et Forêt
d’images (éventuellement assistée de certaines techniques algorithmiques). On
préfère cette approche dans les cas où les campagnes terrain sont coûteuses, voire
impossibles. Cependant, la photo-interprétation, sauf dans des cas particuliers,
aboutit à des données de référence qui peuvent contenir des erreurs d’étiquetage des
échantillons. En revanche, la photo-interprétation permet de couvrir des zones
beaucoup plus vastes que les déplacements sur le terrain. Enfin, dans certains cas,
l’identification de certaines classes par photo-interprétation, telles que les cultures
annuelles, est tout simplement impossible.
Au-delà de l’utilisation de ces données de référence pour la validation des cartes
produites, on peut les utiliser pour l’étalonnage des algorithmes de production des
cartes eux-mêmes.
En fonction du choix de la méthode de classification (cf. §4.3.3) le besoin de
données de référence pour l’apprentissage sera plus ou moins important. Il est donc
primordial d’anticiper ces besoins lors de l’organisation des campagnes terrain. La
stratégie et le protocole d’échantillonnage (nombre d’échantillons ; dispositif
d’échantillonnage) sont une étape clé anticipant l’apprentissage et la validation, mais
ces questions ne peuvent pas être abordées ici [GIR 10].
4.3. Les approches de production de cartes d’occupation des sols
Dans cette partie, différentes étapes qui constituent une chaîne de production de
cartes d’occupation des sols sont développées. Avant d’aborder les algorithmes de
traitement, nous présentons les techniques de validation des cartes.
4.3.1.La validation des cartes
4.3.1.1. Les 4 étapes de la validation
La façon de valider des cartes d’occupation des sols a beaucoup évolué depuis
les années 1980 pour aboutir à un ensemble de pratiques acceptées actuellement par
la communauté des télédétecteurs.
Les premières cartes d’occupation des sols étaient souvent validées de façon
qualitative et visuelle, du fait qu’il n’y avait pas d’utilisations opérationnelles
associées, mais aussi dû au fait qu’elles avaient des nomenclatures simplifiées et des
résolutions spatiales très grossières. A partir du moment où la résolution et les
nomenclatures se sont affinées, il a fallu mettre en place des critères quantitatifs.
Dans les années 1980, il était difficile d’accéder à des données de validation
spatialisées et l’on s’appuyait surtout sur des statistiques agrégées au niveau de
grands territoires. La seule validation quantitative applicable alors était la
Cartographie de l’occupation des sols à partir d’images optiques
comparaison des pourcentages des surfaces couverts par chaque classe. Il n’y avait
donc pas de validation au niveau des pixels des cartes.
Quand les données de validation spatialisées ont été disponibles plus facilement
et que l’importance de la validation spatialisée a été comprise par les utilisateurs, on
a commencé à utiliser des pourcentages de pixels bien classés, soit toutes classes
confondues, soit par classe d’occupation des sols.
A l’heure actuelle, il est courant d’aller plus loin dans la validation et d’analyser
aussi quelles sont les confusions les plus fréquentes entre les classes d’occupation.
Pour ce faire, on utilise la matrice de confusion et des indices dérivés de celle-ci.
4.3.1.2. La matrice de confusion et les indices dérivés
En classification, on appelle matrice de confusion ou tableau de contingence un
tableau à 2 entrées, où les lignes représentent les vraies classes des échantillons de
référence et les colonnes représentent les classes attribuées dans la carte pour ces
mêmes échantillons. Ainsi, la case correspondant à la ligne i et à la colonne j
contientle nombre d’échantillons de la classe i qui sont classés comme appartenant à
la classe j dans la carte.
Par exemple, dans la matrice de confusion illustrée en Tableau 4.3, 25 pixels de
bâti sont correctement classés et il y en a 10 qui sont incorrectement classés comme
étant des sols nus.
Bâti
Forêt
Eau
Pelouses
Sols nus
Précision
Bâti
25
2
4
2
9
0.59
Forêt
1
50
2
8
4
0.76
Eau
4
3
47
3
5
0.75
Pelouses
5
10
0
33
5
0.62
Sols nus
10
2
3
3
38
0.67
Rappel
0.55
0.74
0.83
0.67
0.62
Tableau 4.3.Exemple d’une matrice de confusion.
A partir de la matrice de confusion, il est utile de calculer des mesures de
performance qui en font un résumé. La mesure la plus fréquente est la précision
globale (OA pour OverallAccuracy en anglais) qui correspond à la somme de la
diagonale divisée par la somme totale:
4
Observation des surfaces continentales par télédétection : Agriculture et Forêt
r
∑ nii
OA =
[4.1]
i=1
r r
∑ ∑ nij
i=1j=1
oùr représente le nombre de classes, nij est le nombre de pixels. Il existe aussi
des mesures qui sont calculées par classe d’occupation des sols. La plus fréquente
est la précision utilisateur (UA, user’saccuracy), qui correspond à la fraction des
pixels classés dans une classe et qui y appartiennent vraiment:
r n
ii
[4.2]
UAi = ∑
j=1 nij
et la précision du producteur (PA, producer’saccuracy) ou rappel qui correspond
à la fraction des pixels de référence d’une classe qui sont correctement classés dans
l’image:
r n
ii
[4.3]
PAi = ∑
j=1 nji
L’information donnée par ces 2 métriques est complémentaire et permet de
détecter des sur-classements ou des sous-classements. Ces métriques peuvent aussi
être calculées globalement en faisant la moyenne sur toutes les classes:
PA =
1 r
∑ PA
r i=1 i
[4.4]
UA =
1 r
∑ UA
r i=1 i
[4.5]
On utilise aussi souvent le FScore, qui correspond à la moyenne harmonique
entre les 2 métriques précédentes:
FScore =
2 × UA × PA
UA + PA
[4.6]
Il est difficile de donner une interprétation générale des valeurs numériques de
ces indices, mais en général, on vise des précisions globales supérieures à 80% et
des valeurs de FScore global supérieures à 0.75. Au niveau des classes individuelles,
on accepte souvent que certaines classes minoritaires soint classées avec moins de
précision, mais il s’agit ici d’un choix de l’utilisateur qui dépend du contexte
applicatif.
Cartographie de l’occupation des sols à partir d’images optiques
4.3.1.3. Validation par pixel ou par objet
Habituellement, les cartes d’occupation des sols sont validées en calculant des
métriques sur des pixels. Ainsi, les métriques présentées dans la section précédente,
sont basées sur une matrice de confusion issue d’un comptage de pixels.
Pour l’imagerie à très haute résolution spatiale (THRS)et pour certaines
nomenclatures d’occupation du sol (celles qui contiennent des objets composites,
par exemple), il peut être plus adapté d’utiliser des métriques spécifiques. En effet, à
ces résolutions fines, il peut exister des décalages géométriques entre la donnée de
référence utilisée pour la validation et l’imagerie utilisée pour le traitement. Ces
décalages sont souvent dus à des objets qui ont une élévation par rapport au sol
(effet de parallaxe). C’est aussi le cas pour les objets qui sont simplifiés dans la
donnée de référence (les routes représentées par leur axe central). Plusieurs
stratégies existent pour prendre en compte la présence d’objets dans les images:
1. Au lieu de réaliser un échantillonnage aléatoire des pixels de référence
disponibles pour la validation, l’échantillonnage peut être fait en prenant en
compte la taille surfacique des objets, de façon à ce que la matrice de
confusion soit représentative de la scène cartographiée.
2. On peut aussi utiliser des métriques basées sur des comparaisons de forme et
des distances d’ensemble, comme ls distances de Haussdorf ou de Fréchet.
3. Enfin, on peut utiliser des mesures spécifiques à la comparaison de
segmentations, comme les métriques de Hoover [HOO 96].
Cependant, à l’heure actuelle, il n’existe pas d’approche communément acceptée
dans la communauté pour la validation basée sur les objets, au même titre que les
approches pixel.
4.3.2. Extraction de primitives
Nous nous intéressons ici à la transformation des données de type image en
information pertinente pour les algorithmes de classification.
Les algorithmes de classification permettent d’attribuer une classe d’occupation
des sols à chaque objet (pixel ou région) présent sur la zone étudiée. Nous pourrions
donner à ces algorithmes tout simplement les valeurs des pixels (ou des suites des
valeurs dans le cas de séries temporelles d’images). Cependant, cette approche se
montre peu efficace dès lors que les classes d’occupation des sols à distinguer sont
complexes ou très similaires entre elles. Il est donc souvent nécessaire de
transformer la donnée image brute de façon à faciliter le travail de l’algorithme de
classification. Cette transformation est appelée extraction de primitives.
4
Observation des surfaces continentales par télédétection : Agriculture et Forêt
En fonction du type de donnée image disponible et de la nomenclature de classes
visées, différents types de primitives pourront être extraites.
4.3.2.1. Indices radiométriques
Les indices radiométriques (ou néo-canaux) sont des grandeurs calculées à partir
de combinaisons des valeurs des différents canaux pour un même objet (pixel ou
région). Dans le cas de l’imagerie optique, les réflectances dans les différentes
bandes spectrales (bleu, vert, rouge, proche infrarouge, etc.) sont utilisées. Le calcul
d’indices radiométriques requiert donc au préalable la correction atmosphérique des
images i.e. le passage des valeurs brutes de comptes numériques à des valeurs de
réflectance de surface. Ceci peut se faire au moyen de modèles de transfert radiatif
(tels que MODTRAN, ATCOR) ou bien de mesures de réflectance au sol
synchrones de la prise de vue.
Ces indices radiométriques servent à mettre en évidence des propriétés
particulières des surfaces observées. Par exemple, dans le cas de l’imagerie optique
multispectrale, la présence de végétation peut être mise en évidence en utilisant les
bandes rouge et proche infrarouge, car la végétation a des valeurs élevées de
réflectance dans le PIR et faibles dans le rouge. Ainsi, des indices de végétation
comme le NDVI (NormalisedDifferenceVegetation Index) ont été proposés:
NDVI =
PIR − R
PIR + R
[4.7]
Où PIR, réflectance dans le proche infra-rouge ; R, réflectance dans le rouge.
L’indice de NDVI est proche de 1 pour des surfaces fortement végétalisées alors
qu’il est proche de 0, voire négatif, pour des surfaces sans végétation. On comprend
donc que si l’objectif est de différencier les surfaces végétalisées du reste, le travail
de l’algorithme de classification sera plus simple si l’information en entrée est
exprimée en valeurs de NDVI que si elle l’est en valeurs de réflectance dans les
différentes bandes spectrales.
La littérature propose un grand nombre d’indices de végétation (chapitre Baret,
Tome2)qui utilisent d’autres combinaisons de bandes spectrales pour corriger
certaines limitations du NDVI (phénomène de saturation lié à la normalisation) ou
pour prendre en compte l’information contenue dans d’autres bandes spectrales
[FER 09].
Au-delà des indices de végétation, d’autres combinaisons de bandes spectrales
permettent de mettre en évidence d’autres types de surfaces. Il existe ainsi des
indices pour l’eau, les sols nus, le bâti, etc.
Cartographie de l’occupation des sols à partir d’images optiques
4.3.2.2. Statistiques locales
Le indices présentés dans le paragraphe précédent sont calculés pour chaque
pixel de l’image ou éventuellement en réalisant la moyenne au sein d’une région
dans le cas des approches dites objet. Ils ne nous renseignent donc pas sur
l’organisation spatiale de l’information dans l’image. Souvent, pour distinguer
certains types d’occupation des sols, la valeur individuelle des pixels ou la moyenne
au sein d’une région ne suffisent pas. Par exemple, pour distinguer une végétation
homogène (pelouse) d’une végétation hétérogène (friche, lande), une information sur
la variabilité spatiale est nécessaire.
Une façon simple de mettre en évidence cette variabilité est de calculer la
variance des valeurs autour de chaque pixel de l’image. En général, les moments
statistiques jusqu’à l’ordre 4 (moyenne, variance, asymétrie et kurtosis) peuvent être
utiles. Par exemple, pour une grandeur x (réflectance dans une bande spectrale,
NDVI, etc.) le moment d’ordre p dans un voisinage (fenêtre) de taille N×M pixels
peut être calculé comme ceci:
μp =
N M
1
∑ ∑ (x(i,j) − μ1 )p
N × M i=1j=1
[4.8]
etμ est tout simplement la moyenne dans la fenêtre.
1
Ces moments statistiques donnent un premier niveau d’information concernant
l’organisation spatiale dans les images. Pour une description plus fine de cette
organisation spatiale, des coefficients de texture peuvent être aussi calculés (voir
pages 183-190 de [TUP 14]).
4.3.2.3. Primitives temporelles
Certaines classes d’occupation des sols ne peuvent être distinguées qu’à partir de
leur dynamique temporelle. C’est notamment le cas des différents types de
végétation : forêts de persistants par rapport à forêts caducifoliées, cultures d’été par
rapport aux cultures d’hiver, etc. Dans ces cas simples, un choix judicieux des dates
d’observation (une image en hiver et une image en été, par exemple) peut suffire à
séparer les classes. Souvent, on s’intéresse à des distinctions plus subtiles, comme
par exemple le maïs et le tournesol (2 cultures d’été en France) ou le hêtre et le
chêne caduc. Dans ces cas, un choix a priori des dates d’observation est difficile et
on préfère travailler avec des séries temporelles d’images à haute résolution
temporelle. La description d’un pixel n’est plus alors donnée par le NDVI en été et
en hiver, mais plutôt par la série de valeurs de NDVI pour chaque acquisition
disponible, une fois par mois en moyenne.
4
Observation des surfaces continentales par télédétection : Agriculture et Forêt
De la même façon que pour les indices radiométriques, on passe d’une
représentation de bas niveau (vecteur de réflectances) à une représentation plus
proche du niveau d’abstraction souhaité pour l’interprétation (contenu de végétation,
présence d’eau), l’information temporelle peut aussi être résumée par des primitives
pertinentes.
La première approche à laquelle on peut penser est celle de l’extraction de
statistiques: pour un pixel pour lequel on dispose d’une série temporelle, on peut
calculer la moyenne de la série ainsi que les moments statistiques d’ordre supérieur.
On peut aussi calculer d’autres descripteurs typiques des séries temporelles dans
d’autres domaines du traitement du signal (coefficients de Fourier, transformée en
ondelettes, etc.) [HLA 05].
Ces techniques sont de portée très générale et peuvent être utiles, mais dans le
cas de la télédétection pour l’observation de la Terre, nous disposons de
connaissances a priori sur le comportement des surfaces qui nous permettent de
développer des indices spécifiques. Par exemple, nous savons que les surfaces ayant
une dynamique importante et régulière correspondent à la végétation. Dans ce cas,
nous pouvons nous concentrer sur la description de la séquence temporelle des
valeurs d’un indice de végétation et décrire ce profil temporel à un niveau de
représentation approprié. Il est ainsi habituel de décrire la végétation par quelques
paramètres fondamentaux qui peuvent être dérivés d’un profil temporel de NDVI: la
date de démarrage du cycle (émergence pour une culture semée, débourrage pour la
forêt), la vitesse de croissance, la date de maturité, la durée de la maturité, la date de
sénescence, la vitesse de sénescence et la date de récolte (pour les cultures). Une
façon habituelle de modéliser le cycle annuel de la végétation est d’utiliser une
fonction double sigmoïde:
(x) = A(f1 (x) − f2 (x)) + B = A(
1
1+
ex0 −x
x1
−
1
1+
ex2 −x
)+B
[4.9]
x3
dont la représentation graphique est donnée sur la figure 4.Error! Reference
source not found. pour des valeurs x0=75, x1=7, x2=250, x3=10, A=0.95 et B=0.1.
L’interprétation de ces paramètres est la suivante :








x1 et x3 sont respectivement les pentes montante et descendante
x0 et x2 sont les dates des pentes maximales
A est l’amplitude du profil
B est sa valeur minimum
t0 est la date d’émergence ou de démarrage de la végétation
t1 est la date de maturité de la végétation
t2 est le début de la sénescence
t3 est la date de fin de sénescence
Cartographie de l’occupation des sols à partir d’images optiques
A partir des paramètres de la double sigmoïde, il est facile d’estimer les dates
pertinentes. Par exemple, la date de démarrage (t0), peut être obtenue en calculant la
pente montante, puis son intersection avec la valeur minimale du profil:
t0 =
mx0 − g(x0 )
g(x0 )
= x0 − '
m
g (x0 )
[4.10]
De façon analogue, on peut obtenir la date de maturité:
t1 =
A + B − (g(x0 ) − g ' (x0 )x0 )
g ' (x0 )
[4.11]
Les autres dates clés s’obtiennent de façon analogue. La seule difficulté réside
dans l’estimation des paramètres de la double sigmoïde à partir de la série
temporelle d’indice de végétation. Ce problème peut être résolu en utilisant des
bibliothèques numériques pour l’ajustement de fonctions paramétriques par
optimisation.
Figure 4.3. Modélisation du cycle végétatif par une double sigmoïde. Evolution d’un indice
de végétation générique (NDVI par exemple) en fonction du jour de l’année.
4.3.2.4. Données exogènes
Nous avons vu dans les paragraphes précédents comment transformer la donnée
image en information pertinente pour la mise en évidence des caractéristiques des
différentes surfaces observées. L’objectif de cette étape de transformation était de
rendre plus simple la tâche des algorithmes de production de cartes d’occupation des
sols.
4
Observation des surfaces continentales par télédétection : Agriculture et Forêt
Toujours dans cet objectif, on peut utiliser toute information disponible en
dehors des images et qui pourrait être susceptible de contribuer à la séparation des
classes d’occupation des sols. On sait par exemple que l’altitude ou l’exposition au
soleil d’une surface a une incidence sur le type de végétation qui peut s’y
développer. Ces mêmes paramètres sont corrélés à la présence d’habitations ou de
routes. Le type de sol joue aussi un rôle important en termes de types de végétation
(profondeur du sol, réserve en eau utile pour la végétation, richesse en éléments
minéraux, etc). Le climat local est aussi déterminant pour la présence de certaines
classes d’occupation des sols.
Si ces informations sont disponibles de façon spatialisée, c’est-à-dire sous forme
de cartes, elles peuvent être utilisées comme primitives au même titre que les indices
calculés à partir des images. Il est donc fréquent d’utiliser des modèles numériques
de terrain (MNT) pour calculer l’altitude, la pente et l’exposition de chaque pixel. Le
MNT est une donnée disponible presque sur tout point du globe grâce à des missions
spatiales comme SRTM ou ASTER. Les cartes pédologiques donnant des
informations sur le type de sol sont moins facilement disponibles et donc moins
souvent utilisées. Les informations climatiques (des synthèses saisonnières ou
annuelles de température, rayonnement, pluviométrie, dérivées de données
météorologiques) sont plus ou moins facilement disponibles en fonction de l’échelle
cartographique visée.
Au-delà de ces informations sur des grandeurs physiques, il est possible
d’utiliser d’autres informations fournies par des systèmes d’informations
géographiques. On peut classer dans cette catégorie des informations comme la
distance à une route ou à une zone d’habitations (pour, selon le cas, distinguer entre
végétation naturelle et parcelle agricole), la distance à des surfaces en eau (pour
évaluer la probabilité qu’une zone agricole soit irriguée), la densité de population,
etc.
4.3.2.5. Sélection de primitives
Parmi l’ensemble de primitives qu’il est possible de calculer, toutes ne sont pas
utiles et certaines redondantes. Un grand nombre de primitives pour la production
d’une carte d’occupation des sols peut être problématique à 2 titres. D’abord, le
temps de calcul peut être important pour la production de ces primitives, mais aussi
ensuite, dans la procédure de fabrication des cartes où de grands volumes de
données devront être utilisés. Le deuxième problème peut se présenter dans
l’utilisation de certains algorithmes de classification de données dont la qualité peut
baisser de façon notable quand les échantillons à classer sont caractérisés par un
grand nombre d’attributs.Il est donc utile de bien sélectionner les primitives à
fournir à l’algorithme de classification. La difficulté réside alors dans l’obtention de
l’ensemble minimal de primitives à même de conserver un maximum d’informations
Cartographie de l’occupation des sols à partir d’images optiques
pertinentes. Plusieurs approches pour la sélection de primitives sont pour cela
envisageables.
La première approche consiste à produire plusieurs cartes d’occupation des sols
avec différents sous-ensembles de primitives puis en comparer les métriques de
validation (§4.3.1). Le problème de cette approche est son coût souvent rédhibitoire.
En effet, une recherche exhaustive de toutes les combinaisons de primitives peut être
impossible à mettre en œuvre. Il faut donc approcher le problème différemment.
Une autre façon de déterminer la pertinence d’une primitive est de regarder son
degré de corrélation avec les classes d’occupation des sols. On peut, par exemple,
analyser la variance d’une primitive en regroupant les échantillons par classes. Par
exemple, si la variance du NDVI calculée sur un ensemble quelconque de pixels est
plus élevée que la variance calculée par classe, les pixels de végétation peuvent être
utilisés sans être mélangés aux pixels de non-végétation. De façon plus formelle, on
peut utiliser le rapport de corrélation:
η2 (I|J) =
Var(I) − Var(E[I|J])
Var(I)
[4.12]
qui indique comment la variance d’une primitive Var(I) diminue quand on limite
le calcul aux échantillons de la classe J, Var(E[I|J]). En faisant ce calcul pour toutes
les classes, on peut utiliser le rapport de corrélation moyen pour identifier les
primitives qui apportent le plus d’information: ce sont celles pour lesquelles le
rapport de corrélation est le plus élevé.
Parmi les primitives les plus pertinentes, certaines peuvent s’avérer redondantes.
Par exemple, les indices de végétation sont souvent très pertinents, mais 2 indices de
végétation différents fournissent des informations trèsproches. La redondance entre
les primitives peut être mesurée au moyen d’un coefficient de corrélation ou de toute
autre mesure de dépendance statistique.
Une limite des approches de sélection uni-variées (appliquées à chaque primitive
individuellement) est qu’elles ne prennent pas en compte l’utilité des combinaisons
de plusieurs primitives. En effet, 2 primitives prises isolément peuvent être peu
utiles, mais leur utilisation conjointe peut être très performante. Dans ces cas, des
techniques basées sur l’analyse en composantes principales [LEB 06] peuvent être
intéressantes.
Enfin, des techniques très sophistiquées basées sur l’ajout progressif ou la
soustraction séquentielle de primitives existent, mais elles sont très spécialisées et ne
peuvent être traitées dans cet ouvrage. Pour plus de détails, le lecteur peut consulter
[DRE 08], pages 55 à 67.
4
Observation des surfaces continentales par télédétection : Agriculture et Forêt
4.3.3. Méthodes de classification
Le cœur du processus de production de cartes d’occupation des sols est l’étape
de classification. Cette étape consiste à attribuer à chaque pixel ou région de l’image
la classe d’occupation des sols pertinente. Cette attribution est une fonction de

décision F qui utilise le vecteur de primitives  pour inférer la classe C:

F : C
[4.13]
Toute la difficulté de la procédure réside dans la construction de la fonction F
qui permet d’obtenir une faible erreur de classification au sens des métriques
présentées dans la section 4.Error! Reference source not found..
Si dans certains cas extrêmement simples les classifieurs peuvent être construits
de façon experte, la plupart des problèmes nécessitent des méthodes automatiques
qui réalisent un apprentissage sur les données. Les rares cas où l’algorithme de
classification peut être construit manuellement sont rencontrés lorsque les classes à
cartographier sont peu nombreuses et facilement séparables. Dans ces cas, on peut
construire des arbres de décision simples ou des petits ensembles de règles opérant
sur des seuillages de primitives. Par exemple:
–
si le NDVI moyen du mois d’avril est inférieur à 0.3, il s’agit d’une culture
d’été ;
–
sinon, si le NDVI moyen des mois de février et juillet est supérieur à 0.6,
alors, c’est une forêt ;
–
etc.
On comprend aisément que ce type d’approche sera long et fastidieux à mettre en
œuvre pour un nombre de classes supérieur à 4 ou 5. Il sera aussi très difficile de
déterminer les valeurs des seuils de façon fiable. Dans la pratique, même pour des
cas relativement simples, on se tourne vers des méthodes d’apprentissage
automatique.
Une description détaillée de la théorie de l’apprentissage automatique pour la
classification n’est pas envisageable dans ce chapitre. Le lecteur pourra consulter
des ouvrages spécialisés comme [COM 10] et [AMI 15] pour un traitement
approfondi de ce sujet. Un traitement plus synthétique dans le cadre du traitement
d’images de télédétection est proposé dans le chapitre 5 de [TUP 14]. Nous nous
limiterons ici à détailler les grands principes permettant de guider le choix des
approches.
Les méthodes de classification sont divisées en deux grandes familles, les
méthodes assistées ou « supervisées » (anglicisme dérivé de l’anglais
« supervised ») et celles non assistées ou« non supervisées » (« unsupervised »).
Cartographie de l’occupation des sols à partir d’images optiques
Nous appellerons individus les pixels ou les régions à classer. Ces individus sont
caractérisés par des vecteurs de primitives.
Les méthodes non supervisées, aussi appelées méthodes de clustering, travaillent
sur les valeurs des primitives de façon à regrouper les individus par similarité. Les
groupes ainsi obtenus forment les clusters. Une fois que ces clusters sont obtenus, la
donnée de référence peut être utilisée pour les classer (leur attribuer une
sémantique). On obtient ainsi les classes. Dans le cas où il y a plus de clusters que
de classes d’occupation des sols, on regroupe les clusters pour lesquels il n’y a pas
de donnée de référence avec les clusters classés les plus proches.
La différence entre les diverses méthodes de classification non supervisées réside
dans le type de mesure de similarité utilisée pour regrouper les individus, mais aussi
dans des contraintes supplémentaires que l’on ajoute pour éviter certains
regroupements. Ainsi, dans l’algorithme des k-moyennes (« k-means »), la similarité
entre les individus est mesurée à l’aide de la distance euclidienne sur le vecteur de
primitives Θ avec la contrainte additionnelle de minimiser la variance des individus
au sein d’un cluster tout en maximisant la distance entre le centre des clusters. Il
existe aussi des méthodes statistiques qui utilisent les densités de probabilité, comme
l’algorithme EM(« Expectation Maximisation », anglais pour maximisation de
l’espérance mathématique [COM 10]).
Ce type de méthode est très facile à mettre en œuvre. Cependant, il n’y a aucune
garantie sur le fait que les clusters obtenus correspondent aux groupes thématiques
recherchés. En effet, certains regroupements d’individus peuvent contenir plusieurs
groupes thématiques, ou un même groupe peut être représenté par plusieurs clusters.
Si ce dernier point ne pose pas de problème majeur, le premier ne peut pas être
corrigé de façon sûre. On peut toujours appliquer l’algorithme en recherchant un
nombre croissant de clusters, mais la séparation des classes au terme de cette
recherche n’est pas garantie.
Une façon de s’assurer que tous les groupes thématiques d’occupation des sols
sont pris en compte par l’algorithme de classification, est d’utiliser la connaissance
sur l’appartenance de chaque individu à une classe donnée pendant l’apprentissage.
C’est ce qui est fait dans les méthodes supervisées. Dans ce type de méthodes, on
cherche directement à construire la fonction de décision qui sépare au mieux les
individus en fonction de leur classe d’appartenance. Ce sont donc des méthodes plus
performantes que les méthodes non supervisées, mais elles ont besoin de plus de
données de référence et nécessitent davantage de maîtrise thématique (connaissance
et observation des sites de référence) et technique (géoréférencement des sites,
construction des noyaux d’apprentissage). En effet, dans le cas des méthodes non
supervisées, il suffit de quelques échantillons de référence pour étiqueter les clusters
(utilisation a posteriori de la donnée de référence). Dans les méthodes supervisées,
tous les échantillons utilisés pour l’apprentissage doivent être étiquetés.
4
Observation des surfaces continentales par télédétection : Agriculture et Forêt
Parmi les algorithmes de classification supervisée les plus utilisés pour la
production de cartes d’occupation des sols, on peut répertorier les forêts d’arbres
aléatoires (RandomForests (RF)) [GEN 10], les séparateurs à vaste marge ou
machines à support de vecteur (SVM ou Support Vector Machines) [LOU 08],
[CHA 11] ou les réseaux de neurones de type perceptron multi-couches[COM 10] et
les approches par maximum de vraisemblance [CHA 11].
Le choix entre une approche supervisée ou non supervisée est souvent déterminé
par la quantité et la qualité des données de référence disponibles. Si celles-ci sont
rares et de qualité faible (haute probabilité que les individus soient mal étiquetés), on
choisira des méthodes non supervisées. Si les données de référence sont de bonne
qualité mais en faible quantité, on choisira des approches de type SVM. Ces
méthodes sont aussi très robustes quand le nombre de primitives utilisées est élevé.
Si nous disposons d’une grande quantité de données de référence, mais qu’elles
contiennent un niveau de bruit élevé, les méthodes de type RF sont souvent plus
performantes. Les réseaux de neurones ont souvent besoin d’une quantité très élevée
de données d’apprentissage, ce qui en limite leur application en télédétection. Les
méthodes par maximum de vraisemblance, très utilisées avant l’apparition des SVM
et les RF, sont toujours appliquées quand le nombre de primitives est réduit.
Depuis quelques années, on voit apparaître l’utilisation de méthodes semisupervisées qui combinent les 2 familles d’approches et qui sont utilisables dans les
cas où les données de référence sont peu disponibles [VAN 09].
Même si l’on peut donner des recommandations générales sur le choix des
méthodes en fonction du type de données disponibles, on préférera comparer
plusieurs approches pour un même problème avant de faire un choix définitif.
Enfin, il est toujours possible d’utiliser plusieurs méthodes de classification et
d’en combiner les résultats. L’approche la plus simple consiste à appliquer une règle
de vote majoritaire: la classe attribuée à chaque individu sera celle qui a été produite
par la majorité des classifieurs utilisés. D’autres approches de fusion plus
sophistiquées prenant en compte les performances individuelles de chaque
classifieur peuvent être utilisées [BLO 94], [MOR 13].
Un autre post-traitement souvent utilisé après la classification est la
régularisation spatiale. Il s’agit d’appliquer des règles de cohérence spatiale pour
réduire le nombre de pixels mal classés. Une version simple de ce traitement
consiste à remplacer la classe des pixels isolés (appartenant à une classe non
représentée dans leur voisinage proche) par la classe majoritaire dans leur voisinage.
Des techniques plus complexes prenant en compte les corrélations spatiales entre les
classes ou les formes des objets peuvent aussi être utilisées.
Cartographie de l’occupation des sols à partir d’images optiques
4.3.4. Détection de changements
L’un des avantages principaux de la télédétection spatiale par rapport à d’autres
approches pour la cartographie est la possibilité de répéter les observations de façon
fréquente avec le même point de vue. Ceci permet donc la réalisation de cartes
d’occupation des sols à des intervalles réguliers donnant ainsi une profondeur
temporelle très utile pour beaucoup d’applications.
Dans le cas des cartes d’occupation des sols, des comparaisons entre cartes
produites avec des données acquises àdes périodes différentes permettent d’analyser
les changements d’occupation des sols. Ainsi, dans le cas de l’étude de l’étalement
urbain, on pourra comparer la couche bâti ou route entre 2 cartes produites à 2 ou 3
ans d’intervalle. Dans le cas de l’enfrichement des anciennes terres agricoles, des
cartes séparées de5 ou 10 ans seront utiles. Dans certains territoires ou pour
certaines classes d’occupation des sols, des fréquences plus élevées peuvent être
nécessaires (catastrophes naturelles, pays à forte croissance démographique). Dans
la plupart des cas, en plus de l’écart temporel entre 2 cartes, la date de référence par
rapport à laquelle on compare les changements est aussi très importante. Il paraît
donc qu’une production de cartes d’occupation des sols avec une fréquence annuelle
peut être utile à la plupart des applications.
L’approche habituelle pour le suivi des changements d’occupation des sols est
celle de la comparaison post-classification (CPC). Cette approche consiste à
cartographier les classes de changement. Ainsi, le résultat est une carte dont la
nomenclature représente les transitions entre les classes à l’instant t et celles à
l’instant t+1: agricole vers urbain, forêt vers agricole, etc.
4.4. Exemples d’application
Dans cette partie sont présentés des exemples de cartes d’occupation des sols
produites par classification d’images satellitaires.
4.4.1. Cartographie générique de l’occupation des sols
Par cartographie générique, nous entendons celle qui utilise une nomenclature
qui n’est pas spécifique à une application particulière. Ce type de cartes convient à
beaucoup d’usages où le besoin réside dans la connaissance de l’étendue et la
localisation des grandes familles d’occupation des sols. Les différents types de
cartes d’OS générique se distinguent principalement par la résolution spatiale (dont
le choix détermine la taille des objets qu’il est envisageable de détecter) et l’étendue
de la zone cartographiée. Souvent, il faut trouver un compromis entre ces 2
caractéristiques. Nous donnons ici 2 exemples qui montrent ces compromis.
4
Observation des surfaces continentales par télédétection : Agriculture et Forêt
4.4.1.1. Mono-date à haute résolution
Cet exemple illustre l’utilisation d’une image Pléiades HR multi-spectrale(2.80
m de résolution échantillonnée à 2 m, et 4 bandes spectrales visible et proche
infrarouge). L’imagerie à haute résolution est nécessaire pour distinguer des objets
fins comme les routes et les haies (arborées ou arbustives). En revanche, comme
expliqué dans la section 4., il est difficile et coûteux d’obtenir plusieurs images sur
la même zone à des dates différentes pour mettre en évidence le comportement
temporel des surfaces. Dans ce cas, il est donc difficile de distinguer les forêts
d’arbres caducs de celles d’arbres au feuillage persistant. De même, il n’est pas
possible de caractériser les surfaces agricoles de façon précise au niveau de la classe
de culture, car elles sont caractérisées par une succession de couverts végétatifs et
sols nus.
Afin d’obtenir différentes classes de végétation, les primitives de texture
(similaires aux statistiques locales présentées plus haut) sont très pertinentes sur de
l’imagerie HR. En complément des primitives spectrales, elles permettent de
distinguer végétation herbacée, arbustive et arborée.
La figure 4.Error! Reference source not found. illustre le type de résultat que
l’on peut obtenir avec ce type d’approche. On remarque la finesse de la détection des
éléments du paysage. Le FScore moyen pour cette carte est de 0.77.
Cartographie de l’occupation des sols à partir d’images optiques
Figure 4.4. Occupation des sols générique à partir d’imagerie mono-date HR. Illustration
extraite de [GRE 14] sur la zone de Tarbes (France), latitude 43.2218°N, longitude
0.1197°E.
4.4.1.2. Multi-date à moyenne résolution
Certaines classes de végétation peuvent être distinguées grâce à leur
comportement temporel. Pour cela, il faut utiliser des séries d’images couvrant au
moins une période de 12 mois de façon à observer un cycle végétatif complet. Les
satellites offrant une revisite temporelle systématique ont des résolutions spatiales
décamétriques.
Cette approche est illustrée ici en utilisant des images LANDSAT acquises de
janvier à décembre 2010 avec une revisite d’environ 16 jours. La revisite
systématique permet aussi d’avoir des images sur des grandes étendues. L’exemple
choisi ici couvre tout le massif des Pyrénées (France) et son piémont sur une surface
de 500 km × 200 km.
La nomenclature choisie ici (Figure 4.Error! Reference source not found.)
reflète la dynamique temporelle, car elle distingue cultures d’été, d’hiver et
ligneuses (permanentes), les prairies et 2 types de forêt. Ces dernières sont classées
en fonction de leur phénologie et non pas en fonction du type de feuille comme
c’était le cas de l’exemple mono-date précédent. En revanche, en raison de la faible
résolution spatiale (30 m), les éléments fins du paysage (routes, haies, etc.) sont
absents de la carte. La précision globale de cet exemple est de 0.75.
L’arrivée de nouveaux satellites, comme par exemple la famille des Sentinelles
de l’Agence spatiale européenne, tel que SENTINEL-2, avec des résolutions
spatiales de 10 met des revisites temporelles de 5 jours, devrait permettre d’aller
plus loin dans la qualité et le détail des cartes produites.
Enfin, il faut noter qu’il est envisageable de combiner l’approche mono-date à
haute résolution spatiale et l’approche multi-temporelle afin de produire des cartes
4
Observation des surfaces continentales par télédétection : Agriculture et Forêt
plus détaillées. Ceci nécessite cependant un travail délicat de mise en cohérence des
données (notamment la superposition géométrique).
Figure 4.5.Carte d’occupation des sols produite à partir d’une année d’acquisitions
LANDSAT sur la zone des Pyrénées. (France), latitude 43.2732°N, longitude 0.5246°E.
4.4.2. Cartographie détaillée des cultures agricoles
Les deux exemples ci-dessus ont illustré la cartographie générique de
l’occupation des sols. Pour certaines applications, des cartes avec une nomenclature
très détaillée pour certaines familles de classes d’occupation des sols sont
nécessaires, tandis que beaucoup d’autres classes de la nomenclature générique
peuvent être ignorées.
Afin d’illustrer ce cas d’utilisation, nous choisissons ici la cartographie des
surfaces agricoles. Dans ce cas, toutes les surfaces non agricoles peuvent être
regroupées, mais à l’intérieur des surfaces agricoles, on souhaite connaître le type
exact de culture pour chaque parcelle. Plus précisément, l’objectif est de produire
une cartographie des cultures annuelles principales dans la zone (blé, orge, colza,
maïs et tournesol). Pour arriver à ce degré de finesse (dans l’exemple précédent ces
5 classes étaient regroupées en 2), il faut:
–
une haute résolution spatiale pour bien distinguer chaque parcelle agricole ;
–
une haute résolution temporelle pour bien caractériser les périodes de
croissance, maturité et sénescence de chaque culture.
Cependant, cela ne suffit souvent pas, car des cultures comme le blé d’hiver et
l’orge d’hiver sont très similaires à tous les niveaux. Dans ce cas, il faut introduire
de l’information a priori dans le processus de classification, en vérifiant que les
variétés considérées sont séparables morphologiquement sur le terrain. Une culture
implantée une année sur une parcelle est en principe choisie en fonction des cultures
Cartographie de l’occupation des sols à partir d’images optiques
implantées les années précédentes (rotation des cultures). Si cette connaissance est
disponible, elle peut être utilisée comme primitive en entrée du classifieur.
La figure 4.Error! Reference source not found. montre une carte de cultures
obtenue à partir de données Formosat[OSM 15]. La carte a été produite en utilisant
une année d’acquisitions Formosat-2 (2012, 8 m de résolution et 4 bandes spectrales
dans le visible et le proche infrarouge). Les primitives utilisées pour la classification
sont des indices spectraux pour chaque date ainsi que des informations sur les
cultures présentes sur chaque parcelle les 3 années précédentes. La précision globale
de la carte est de 85%.
Figure 4.6. Carte des cultures annuelles en 2012 produite à partir d’une année d’acquisitions
Formosat-2 sur un site couvrant 400 km² au sud-ouest de Toulouse (France), latitude
43.4509°N, longitude 1.1501°N. Le blé est en jaune, le maïs est en rouge, l’orge est en vert, le
colza est en violet et le tournesol est en marron. Les zones blanches correspondent à des
surfaces non agricoles.
Ce qu’il faut retenir
Les cartes d’occupation des sols sont nécessaires à diverses fins qui vont de
l’aménagement du territoire jusqu’à leur utilisation dans des modèles
4
Observation des surfaces continentales par télédétection : Agriculture et Forêt
décrivant les processus environnementaux (cycle de l’eau, climat).
La légende de la carte d’occupation des sols (choix des classes) doit être
adaptée à l’application thématique visée. Pour atteindre une bonne qualité, la
carte d’occupation des sols est produite à partir de données d’imagerie
appropriées en termes de résolutions spatiale, spectrale et temporelle. Diverses
méthodes d’apprentissage automatique permettent aujourd’hui de produire
cette carte. Elles requièrent des données de référence pour être étalonnées et
validées. La disponibilité, la qualité et la représentativité thématique et
spatiale des données de référence ne doivent pas être négligées pour ce faire.
Les nouvelles missions à hautes résolutions spatiale, temporelle et spectrale
comme SENTINEL-2 devraient permettre d’atteindre des niveaux de qualité
inédits jusqu’à maintenant. La combinaison de ces données de façon
ponctuelle avec de l’imagerie à très haute résolution spatiale est susceptible de
permettre d‘affiner certains thèmes de la carte (urbain dense, haies, petits
cours d’eau).
Bibliographie
[AMI 15] AMINI M.R.,«Apprentissage machine. De la théorie à la pratique. Concepts
fondamentaux en Machine Learning», Eyrolles, 272 p., 2015.
[BEN 08] BENHADJ I., «Observation spatiale de l’irrigation d’agrosystèmes semi-arides et
Gestion durable de la ressource en eau en plaine de Marrakech», PhD thesis, Université
de Toulouse III - Paul Sabatier, 2008.
[BLO 94] BLOCH I., MAITRE H., «Fusion de données en traitement d’images : modèles
d’information et décisions»,Traitement du signal, 11(6), 435–446, 1994.
[CHA 11] CHARRIER C.,«Modélisation statistique et classification par apprentissage pour la
qualité des images»,Habilitation à diriger des recherches, Université de Caen, 2011.
[COR 10] CORNUEJOLS C., MICLET L.,«Apprentissage artificiel. Concepts et algorithmes»,
Eyrolles, ISBN: 978-2-212-12471-2, 830 p., 2010.
[DRE 08]DREYFUS G., MARTINEZ J.M., SAMUELIDES M., GORDON M.B., BADRAN F., THIRIA
S.,«Apprentissage statistique. Réseaux de neurones - Cartes topologiques - Machines à
vecteurs supports», Eyrolles, 448 p., 2008.
[FER 09] FERET J.B., «Apport de la modélisation pour l’estimation de la teneur en pigments
foliaires par télédétection»,PhD thesis, Université Pierre et Marie Curie, Paris, 2009.
[GEN 10]GENUER R.,«Forêts aléatoires: aspects théoriques, sélection de variables et
applications»,PhD thesis, Université Paris Sud - Paris XI, 2010.
[GRE 14] GRESSIN A.,«Mise à jour d’une base de données d’occupation du sol à grande
échelle en milieux naturels à partir d’une image satellite THR»,PhD thesis, Université
René Descartes - Paris V, 2014.
Cartographie de l’occupation des sols à partir d’images optiques
[HLA 05] Hlawatsch F., Auger F., Editors. «Temps-fréquence: concepts et outils»,Hermès
Paris, 2005.
[HOO 96] Hoover A., Jean-Baptiste G., Jiang X., Flynn P. J.,Bunke H., Goldgof D.B., ...,
Fisher R.B., «An experimental comparison of range image segmentation
algorithms»,IEEE Transactions on Pattern Analysis and Machine Intelligence, 18(7), p.
673-689, 1996.
[LAP 02] LAPORTERIE F., «Représentations hierarchiques d’images avec des pyramides
morphologiques»,PhD thesis, Université de Toulouse III - Paul Sabatier, 2002.
[LEB 06] LEBART L., PIRON M., MORINEAU A.,«Statistique exploratoire multidimensionnelle.
Visualisation et inférence en fouille de données», Sciences Sup.,Dunod, 480 p., 2006.
[LOU 08] LOUSTAU S.,«Performances statistiques de méthodes à noyaux»,PhD thesis,
Université de Provence - Aix-Marseille I, 2008.
[MOR 13] MORVANT E.,«Apprentissage de vote de majorité pour la classification supervisée
et l’adaptation de domaine: approches PAC-Bayésiennes et combinaison de
similarités»,PhD thesis, Aix-Marseille Université, 2013.
[OSM 15] OSMAN J.,«Connaissances expertes et modélisation pour l’exploitation d’images
d’observation de la Terre à haute résolution spatiale, spectrale et temporelle»,PhD thesis,
Université de Toulouse III - Paul Sabatier, 2015.
[POU 10] POULAIN V.,«Fusion d’images optique et radar à haute résolution pour la mise à
jour de bases de données cartographiques», PhD thesis, Université de Toulouse - INPT,
2010.
[ROB 07] ROBIN A.,«Détection de changements et classification sous-pixeliques en imagerie
satellitaire: Application au suivi temporel des surfaces continentales»,PhD thesis,
Université Paris 5 Descartes, 2007.
[TUP 14] TUPIN F., NICOLAS J.M., INGLADA J., Editors,«Imagerie de télédétection»,Traité IC2,
série Signal et Image, Editions Lavoisier, Paris, 369 p., 2014.
[VAN 09] VANDEWALLE V.,«Estimation et sélection en classification semi-supervisée», PhD
thesis, Université des Sciences et Technologie de Lille - Lille I, 2009.
[GIR 10] GIRARD M.C., GIRARD C.M.,«Traitement des données de télédétection»,Dunod, 573
p., 2010.
[LEG 96] LEGROS J.P., «Cartographie des sols : de l'analyse spatiale à la gestion des
territoires», Lausanne : Presses polytechniques et universitaires romandes, 1996.
[VAU 14a] VAUDOUR E., BAGHDADI N., GILLIOT J.M.,«Mapping tillage operations over a
peri-urban region using combined SPOT4 and ASAR/ENVISAT images»,International
Journal of Applied Earth Observation and Geoinformation, 28(1), p. 43-59, 2014.
[VAU 14b] VAUDOUR E., NOIROT-COSSON P.E., MEMBRIVE O.,«Apport des images
satellitaires de très haute résolution spatiale Pléiades à la caractérisation des cultures et
des opérations culturales en début de saison»,Revue française de photogrammétrie et de
télédétection, 208, p. 97-103, 2014.
Téléchargement