Écologie numérique - EPFL moodle service

publicité
Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1
1/26
Master SIE – Sciences et Ingénierie de l’Environnement
Écologie numérique
Alexandre Buttler
Laboratoire des systèmes écologiques
EPFL – ENAC – ISTE – ECOS
[email protected]
Objectifs du cours
l
Comprendre le principe de l’analyse des données
multidimensionnelles
l
l
l
Savoir choisir parmi les méthodes en fonction
l
l
l
l
Analyse des données écologiques ou environnementales
Modélisation statistique des interactions écologiques
De leurs domaines d’application
Des données disponibles
De la problématique et des objectifs de l’étude
Savoir utiliser les méthodes et interpréter les résultats
l
l
Alternance cours théoriques – exercices pratiques (
Projet final basé sur une étude de cas
Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1
)
2
2/26
Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1
Plan du cours
1. Données écologiques multidimensionnelles
Objets, descripteurs, codage et transformations
2. Matrices d’association
Mesures de ressemblance entre objets et de dépendance entre
descripteurs
3. Classification non supervisée
Analyse des discontinuités : les techniques de groupement hiérarchique et
non hiérarchique
4. Classification supervisée
Arbres de classification et de régression
5. Ordination d’un tableau
Analyse des gradients : les techniques d’ordination en espace réduit
6. Ordination de plusieurs tableaux
Analyse de co-inertie, ordination sous contrainte
Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1
3
1. Données écologiques multidimensionnelles
Écologie numérique
A. Buttler
1. Données écologiques
multidimensionnelles
Quels sont les objectifs de l’écologie
numérique ?
Comment explorer et modéliser les
discontinuités et les gradients dans la
structure des données ?
Comment organiser les objets et descripteurs
à analyser ?
Pourquoi et comment coder et transformer
les données ?
Les données générées par les études écologiques et environnementales sont nombreuses,
hétérogènes et généralement fortement interdépendantes (p.ex. dans une même liste d’espèces
relevées dans un site, deux espèces biologiques peuvent indiquer une écologie semblable, et donc
être corrélées, avec une information en partie redondante).
Dans ce premier chapitre d’introduction, nous aborderons la question de l’analyse des données
multidimensionnelles, ses contraintes, ses objectifs et les grandes familles de méthodes utilisées
en écologie numérique.
Nous verrons comment sont représentées les données sous forme de matrices.
Nous traiterons enfin du problème de la transformation des données, qui est un préalable
important à l’analyse statistique.
Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1
3/26
1.1. Objectifs de l’écologie numérique
Qu’est-ce que l’écologie numérique ?
l
l
l
l
l
« Domaine de l’écologie quantitative qui traite de
l’analyse numérique des complexes de données »
(Legendre & Legendre 1998)
Concerne au départ surtout l’écologie des
communautés biologiques (synécologie)
Domaines d’application de plus en plus variés
Méthodes numériques originales, souvent développées
par des écologues
Méthodes adaptées aux données multidimensionnelles
l
l
Touchant au domaine des statistiques multivariées
Souvent sans référence à des distributions théoriques
Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1
5
Les écologues ont développé (et continuent à développer) des méthodes souvent très
sophistiquées pour le traitement numérique des données, souvent peu connues et utilisées par les
statisticiens. Au départ, ces méthodes ont le plus souvent été conçues pour analyser les
discontinuités et les gradients dans les communautés biologiques (assemblages d’espèces
végétales ou animales dans les écosystèmes), mais elles sont aussi, et de plus en plus, appliquées
à d’autres domaines des sciences naturelles (chimie, génétique…) ou humaines (sociologie,
économie, psychologie…). Leur portée très générale et leur puissance expliquent leur succès
dans les domaines d’application du data mining et des statistiques multivariées.
Pour rappel, quelques définitions utiles:
Statistique: “ensemble de méthodes scientifiques à partir desquelles on recueille, organise,
résume, présente et analyse des données, et qui permettent d’en tirer des conclusions et de
prendre des décisions judicieuses” (Spiegel, 1985).
- Statistique descriptive: discipline de la statistique qui a pour but de décrire les données
recueillies lors d’un échantillonnage ou d’une expérimentation, sans tirer de conclusions pour la
population statistique.
- Statistique inférentielle ou inductive: discipline qui s’attache, à l’aide de tests statistiques
effectués sur un échantillon représentatif, à tirer des conclusions valables pour la population
statistique, en tenant pour acquis l’applicabilité de certaines lois de probabilité. Le but des
statistiques inférentielles classiques est souvent de comparer deux populations, sur la base des
échantillons prélevés dans l'une et l'autre des populations; ou encore de comparer une population
concrète, échantillonnée, à une population théorique ou hypothétique. Pour cela on utilise des
tests statistiques qui peuvent s'appuyer sur l'estimation de paramètres de la population, tels la
moyenne ou l'écart-type (c'est le cas des statistiques paramétriques) ou non (statistiques non
paramétriques):
-- Statistique paramétrique: dont les tests s’appuient sur l’estimation de paramètres de
la population (tels la moyenne, l’écart-type...), qui sont comparés à des distributions théoriques
(Gauss, t de Student, etc.) supposées valides pour les populations étudiées. Rarement applicable
en écologie.
-- Statistique non-paramétrique: dont les tests ne nécessitent pas l’estimation de
4/26
Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1
paramètres de la population. Moins contraignante, quelquefois applicable en écologie des
communautés.
Biostatistique ou biométrie: application des méthodes de la statistique à la biologie. Dans la
pratique, le domaine multivariable (cf. plus bas) n’est pas inclus dans cette définition.
Ecologie numérique: “domaine de l’écologie quantitative qui traite de l’analyse numérique des
complexes de données (surtout dans un contexte synécologique)” (Legendre et Legendre, 1998).
La plupart des méthodes sont multivariables 1 ou multidimensionnelles, c’est-à-dire traitent en
bloc de tableaux de données où chaque observation, chaque élément d’échantillonnage est défini
par plusieurs variables: abondances d’espèces, mesures de climat, etc... Contrairement à la
biométrie, l’écologie numérique “(...) combine systématiquement les méthodes statistiques
appropriées à l’écologie avec des techniques numériques non statistiques (groupements, etc.),
ceci très souvent sans référence à des distributions théoriques (tests statistiques)” (Legendre et
Legendre, 1998).
Elément ou unité d’échantillonnage: élément de base d’un échantillonnage, sur lequel on
mesure des caractéristiques (variables): mensurations, nombres d’individus de différentes
espèces, caractéristiques physico-chimiques. etc.
Echantillon: ensemble d’éléments d’échantillonnage, constituant un sous-ensemble de la
population statistique.
Population statistique: collection d’éléments possédant au moins une caractéristique commune
et exclusive, permettant de l’identifier et de la distinguer sans ambiguïté de toute autre, de
laquelle on extrait un échantillon et sur laquelle portent les inférences, inductions ou conclusions
statistiques (p. ex. une unité taxonomique, la végétation d’une tourbière, etc.).
Variable: caractéristique mesurée ou observée sur chacun des éléments de l’échantillon
(variables propres: nombre d’individus, masse, etc.) ou sur des entités pré-définies qui se
rattachent aux unités d’échantillonnage (variables associées: distance à la première habitation,
température ambiante, etc.).
Paramètre: caractéristique quantitative qui permet une représentation condensée de
l’information contenue dans un ou plusieurs ensembles de données. Il s’agit d’un concept
mathématique! Ex.: moyenne, écart-type, diversité...
Aléatoire: fondé sur le hasard. L’échantillonnage aléatoire est le seul à même de fournir une
image non biaisée, soit représentative, de la population statistique. Il existe plusieurs plans
d’échantillonnage aléatoire (simple, par degrés, stratifié, systématique...).
Représentatif: en théorie de l’échantillonnage, ce terme est synonyme d’aléatoire!
Echantillonnage à choix raisonné: très en vogue en écologie de terrain, non aléatoire, consiste
souvent à choisir les éléments d’échantillonnage en fonction de leur position particulière sur un
gradient, pour vérifier si les variables étudiées sont corrélées significativement avec celle qui
définit le gradient. Un tel plan ne peut répondre à aucune autre question que celle-là, et
uniquement par oui ou non. En effet, l’échantillon ainsi sélectionné n’est pas représentatif de la
population. Par exemple, si l’on décide d’échantillonner la végétation le long d’un gradient
hydrique visible sur le terrain pour vérifier si la végétation se comporte de façon conforme au
gradient, il ne faudrait pas utiliser ces mêmes données de végétation pour mettre en évidence les
relations avec le sol dont on aurait encore pris des échantillons sur le même transect. En effet, il
se pourrait que les changements dans le sol ne suivent pas le gradient qui vaut pour la
végétation et que la relation sol-végétation s’exprime selon un autre axe écologique; la relation
ainsi mise en évidence serait fortement biaisée par l’échantillonnage. Notons encore que des
analyses poussées (p.ex. analyses factorielles) ne révèlent souvent que la structure de
l’échantillonnage, ce qui constitue alors un résultat trivial.
Une autre approche de l’échantillonnage à choix raisonné consiste à prélever des éléments dans
des zones du milieu étudié considérées comme importantes (on parle alors d’échantillonnage
préférentiel). Les zones importantes étant choisies en fonction de l’expérience du chercheur,
1
On rencontre souvent en français le terme “multivarié”. Il s’agit d’une traduction maladroite de l’anglais
“multivariate”, inappropriée car “variate” signifie “variable aléatoire” et non “varié”. On préférera donc en français
les termes “multivariable” ou “multidimensionnel”.
Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1
5/26
l’échantillonnage peut apporter beaucoup d’information descriptive, mais toute interprétation
basée sur d’autres variables que celles qui ont déterminé le choix des stations, c’est-à-dire
l’itinéraire d’échantillonnage, est compromise par la non-représentativité de l’échantillon, et
souvent l’ambiguïté des choix opérés par le chercheur (par exemple l’omission des surfaces avec
une végétation intermédiaire et moins bien « typée », mais qui ont pourtant aussi une
signification écologique à l’échelle de la population statistique).
La place de l’écologie numérique doit se concevoir globalement, en tant qu’élément à part
entière d’un plan de recherche, et non comme outil de dernière minute appliqué aux résultats
“parce que ça se fait”. L’écologie numérique constitue un support méthodologique lors de la
conception d’une recherche. A ce stade, son intervention se comprend, d’une part, en relation
avec les principes fondamentaux de la statistique générale, afin d’assurer que la recherche
projetée permet bien de répondre aux questions posées de manière univoque et valide (ce qui
n’est pas trivial!), et d’autre part afin d’élaborer dès le départ un plan intégrant les analyses
nécessaires en tenant compte de leurs exigences sur le plan de la collecte de données. La
statistique et l’écologie numérique doivent donc permettre d’optimiser le plan, avec un minimum
d’efforts gaspillés. Un plan conçu “au pif” aboutit invariablement à un gaspillage d’efforts et à
des résultats sujets à caution faute de rigueur méthodologique.
L’écologie numérique est également un ensemble d’outils d’analyse dont les diverses
techniques sont autant de manières complémentaires d’explorer les nombreuses facettes d’un
ensemble de données, et d’en tirer des conclusions non triviales (sinon, quel besoin de ces
méthodes?). Attention, il ne s’agit nullement d’une “prothèse intellectuelle” destinée à se
substituer à la réflexion écologique, mais bien d’un outil subordonné à cette réflexion, et dont les
éléments doivent être appliqués chacun dans un but parfaitement défini et compris. L’application
“bateau” d’une recette d’analyse préfabriquée à n’importe quel ensemble de données est le
parfait contre-exemple de cette démarche.
Des réflexions plus approfondies sur la place de la statistique et de l’écologie numérique dans
la recherche en biologie et en écologie peuvent être trouvées chez Legendre et Legendre (1998),
chap. 1, et surtout Scherrer (1984), chap. 2.
Il y a quatre façons possibles d’utiliser les données écologiques (biologiques ou/et
environnementales).
Approches possibles d’un problème
écologique
l
communauté
environnement
1. Description
séparée de la
communauté et du
milieu
l
l
l
l
Texture et
composition
spécifique
Structure spatiale
Variations
temporelles
Approche inductive
Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1
6
6/26
Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1
Dans le premier cas, on procède à une analyse séparée des deux ensembles de données : celles
qui concernent les communautés biologiques et (éventuellement) celles qui concernent les
descripteurs de leur environnement. Dans ce cas, on ne procède pas nécessairement à un
échantillonnage conjoint et exhaustif de chaque communauté et de son environnement.
Cette approche conduit à une mise en relation qualitative et intuitive, et éventuellement à des
inférences de l’un à partir des connaissances de l’autre. Par exemple, en utilisant les valeurs
écologiques indicatrices des plantes (bioindication) pour prédire le statut nutritionnel du sol. Ces
mises en relation sont aussi le fruit d’a priori. Cette approche est souvent critiquée et considérée
comme une approche scientifique molle (et donc hasardeuse), même si elle se justifie dans un
contexte connu et lorsqu’elle est utilisée par des personnes expérimentées.
Exemple : relevés floristiques ou faunistiques dans différentes parcelles d’une forêt; mesures de
quelques variables environnementales pour caractériser l’écologie de certaines stations
(profondeur du sol, pH, lumière…).
Cette approche observationnelle est qualifiée d’inductive: les structures sont extraites de
chaque ensemble de données sans hypothèse préalable et les explications sont dérivées de ces
données par généralisation des faits observés.
Approches possibles d’un problème
écologique (suite)
l
2. Description des
états simultanés de
la communauté et du
milieu
l
communauté
environnement
l
l
Corrélations entre les
données biologiques
et environnementales
Pas de modèle
explicatif
Approche inductive
Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1
7
Dans le deuxième cas, les données biologiques et environnementales sont prélevées
simultanément aux mêmes endroits et l’interprétation combinée. On recherche des liens entre les
deux ensembles de données correspondant aux mêmes objets.
Il s’agit encore généralement d’une approche observationnelle inductive : les corrélations sont
calculées à partir des données sans hypothèse causale préalable. En particulier, on ne suppose
pas a priori que les variables environnementales sont la cause de la composition de la
communauté. Cette approche conduit à des modèles quantitatifs empiriques non explicatifs,
basés sur l'analyse statistique, corrélative, des données (donc analyse plus objective). En
analyse spatiale, on peut par exemple superposer des couches d’information pour analyser par
exemple la co-occurrence des types de sols avec certains types de végétation.
Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1
7/26
Approches possibles d’un problème
écologique (suite) l 3. Étude de l’influence
unilatérale du milieu
(variables explicatives) sur
la communauté (réponse
biologique)
l
communauté
environnement
l
Régression : données
biologiques versus
environnementales
Modèle empirique explicatif
l
l
l
Observationnel prévisionnel
(causalité implicite), statique
Expérimental prédictif,
(causalité explicite), cinétique
Approche déductive
Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1
8
Dans le troisième cas, les variables environnementales (variables indépendantes) sont
supposées déterminer une réponse de la communauté biologique (variables aléatoires
dépendantes). Comme dans le cas précédent, les données sont prélevées dans les mêmes sites,
mais on distingue ici implicitement les causes (variables environnementales explicatives) des
effets (variables biologiques réponses).
Typiquement, l’approche est déductive : des hypothèses sont posées au départ et on cherche à
établir un modèle empirique explicatif. Si l’étude est observationnelle, on tente de stratifier
l’échantillonnage de manière à optimiser la distribution des variables environnementales. Le
modèle est alors prévisionnel, statique, avec une causalité implicite. Dans un contexte
expérimental et manipulatif, on s’efforce de séparer et de contrôler les variables
environnementales (traitements) et de tenir compte de l’hétérogénéité (blocs). Dans ce dernier
cas, l’approche est de nature expérimentale et conduit à des modèles cinétiques prédictifs, ou
interviennent explicitement les causes des changements. Par exemple, en agronomie ou en
écophysiologie, on fait souvent des cultures de plantes sur des substrats différents, par exemple
des sols aux teneurs nutritives variées.
8/26
Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1
Approches possibles d’un problème
écologique (suite)
l
communauté
environnement
4. Étude des
interactions
réciproques entre le
milieu et la
communauté
l
l
Approche systémique
des processus
Modèle théorique
prédictif (causalité
explicite), dynamique
Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1
9
Dans le quatrième cas, on tient compte de la complexité des interactions écologiques dans le
système et on s’intéresse davantage aux processus. Les données sont utilisées pour calibrer ou
pour valider un modèle théorique. L’approche est dynamique : l’état du système est déterminé
par son changement sous l’influence des interactions réciproques entre la communauté et son
environnement.
Cette approche complexe relève de la modélisation causale dynamique en contexte de
simulation. On y intègre les effets feedbacks, par exemple des plantes sur le sol, après que le sol
ait lui-même influencé les plantes. Si la modélisation est ici d’un apport essentiel, c’est que
l’expérimentation in situ demande souvent trop de temps pour laisser les processus s’exprimer.
Cette dernière approche n’est pas abordée par l’écologie numérique mais est plutôt du domaine
de la modélisation dynamique des systèmes écologiques (« écologie théorique »).
Approches possibles d’un problème
écologique (suite)
l
L’écologie numérique concerne seulement les
approches 1, 2 et 3
l
l
Avec ou sans test d’hypothèses
Modèles éventuels basés en priorité sur les
données (empiriques)
l
l
l
Recherche de structures dans les données
Interprétation des structures
Dans le cadre d’études descriptives, comparatives
ou expérimentales
Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1
10
Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1
9/26
1.2. Recherche de structures dans les données
Objets et descripteurs
l
Objets = observations
l
l
Relevés, stations, prélèvements, unités d’échantillonnage
(objects, sites, cases, sampling units)
Descripteurs = variables observées ou mesurées
l
Variables biologiques
l
l
l
Variables environnementales
l
l
Espèces, avec leurs abondances (ou leurs attributs)
Mesures d’activité
Température, pH, type de sol…
Variables spatiales
l
Coordonnées géographiques
Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1
11
Les données écologiques sont organisées selon le principe d’une base de données avec des
tables d’observations (les objets) organisées en plusieurs rubriques ou champs (les descripteurs
ou variables). Par principe, l'objet correspond à la variable définie a priori, c'est-à-dire celle
que l'on peut choisir et dont on peut, théoriquement, multiplier les réalisations à l'infini. Chaque
objet est décrit par une ou plusieurs séries de "descripteurs", de diverses natures selon l’étude
(biologique, physique, chimique, géologique). Ces derniers sont liés au propos de l'étude et ne
peuvent être choisis (p. ex. espèces à disposition dans les différents sites examinés).
Les communautés biologiques sont typiquement décrites par une table dont les objets sont les
relevés et les descripteurs sont les abondances des espèces dans chaque site (on a ainsi une liste
d’espèces établies dans un certain nombre de sites), codées de manière homogène. On notera
qu'une espèce peut figurer comme descripteur dans l'inventaire d'une station, ou constituer l'objet
dans une étude taxonomique faisant appel à d’autres descripteurs (p.ex. morphologiques).
Les variables environnementales sont ordinairement réunies dans une table séparée, beaucoup
plus hétérogène que la précédente (mesurées sur les mêmes objets).
Enfin, une table des localisations spatiales (coordonnées géographiques) est souvent associée
aux deux premières (localisation des mêmes objets). Elle permet notamment de faire le lien avec
un Système d’Information Géographique ou d’explorer la structure spatiale des données (ces
aspects ne seront pas développés dans ce cours).
10/26
Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1
Le complexe des données écologiques
l
Multidimensionnalité
l
l
l
l
Chaque objet est décrit par plusieurs descripteurs
Il doit donc être représenté selon autant de
dimensions
Représentation graphique directe impossible au delà
de 3 dimensions !
Buts des analyses multivariées
l
l
Réduire la dimensionnalité des données
Dégager les grandes tendances de la variation des
données (gradients, groupes) pour les rendre
interprétables
Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1
12
Données
à 1 dimension:
Données multidimensionnelles
multidimensionnelles:
Données
unidimensionnelles
Données
Relevés
1 2 3 4 5 6
Relevés
1 2 3 4 5 6
Espèce 1 1 4 2 1 6 3
Espèce 1
Espèce 1
Espèce 2
Espèce 3
Espèce 4
1
2
1
3
4
5
4
1
2
1
3
6
1
3
1
5
6
5
2
6
3
6
2
2
0
Données
à 2 dimensions:
Données
bidimensionnelles
Espèce n 1 6 3 2 2 4
Relevés
1 2 3 4 5 6
Espèce 1 1 4 2 1 6 3
Espèce 2 2 5 1 3 5 6
Espèce 2
Espèce 3
?
Espèce 2
Espèce 1
Espèce 4
Espèce 1
Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1
Espèce n
12’
D'une façon générale, l'écologue est confronté à des données complexes liées à sa science
empirique de terrain. Cette complexité relève:
- de la grande variabilité des variables étudiées (beaucoup d’espèces !; à combien de
descripteurs faut-il s’arrêter quand on analyse un sol ?), chaque objet donnant une réalité
à facettes multiples.
- des interactions complexes entre variables explicatives et variables dépendantes (voir
exemple 1 ci-dessous),
- de l'incertitude quant aux causes des corrélations entre variables. Par exemple, les
fluctuations communes de deux variables peuvent être dues à un lien indépendant de
chacune d’entre-elle avec une troisième variable (voir exemple 2 ci-dessous).
Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1
11/26
Exemple 1: L'abondance et la production des espèces végétales d'un site sont dépendants de
l'azote, dont la forme assimilable dépend de l'oxygène, lequel induit l'activité microbienne
nécessaire à la nitrification. La présence d'oxygène dans l'atmosphère du sol dépend du niveau de
la nappe qui à son tour influence le potentiel rédox du sol. Par conséquent,
- de nombreux facteurs biotiques et abiotiques agissent simultanément et en relation
partielle, voire avec des changements dans le temps (p. ex. variation de l’activité
microbienne selon la saison) et l'espace (p. ex. selon la position dans le profil de sol).
- la cause de la production est difficile à cerner (est-ce le taux d'azote, le niveau de la
nappe, l'intensité de l'aération ou encore une action combinée?).
Exemple 2 : Dans une analyse chimique de l’eau de nappe dans le sol, le carbone organique et le
fer ferreux (filtré) sont corrélés, mais ceci résulte de leur opposition à l’oxygène dissous et au
potentiel rédox (Eh) plus que de l’action complexante du carbone organique sur le fer.
Ceci confirme l'importance d'un plan de travail pour l'optimisation de la recherche: il faut avoir
des idées claires de ce qu'on veut, ainsi qu'une idée (hypothèse) des réponses attendues et des
interactions dans le système.
Chaque table décrit un même objet à partir de plusieurs variables, qui représentent autant de
dimensions dans l’espace des descripteurs. L’écologie numérique utilise deux stratégies visant à
réduire la dimensionnalité des données (simplifier leur vision pour l’interprétation, dégager les
grandes tendances de leur variabilité):
1. regrouper les objets ou les descripteurs présentant des similitudes (groupement);
2. représenter les relations entre objets ou descripteurs dans un nombre réduit de dimensions
(ordination en espace réduit).
On serait tenté d’utiliser une troisième solution, qui pourrait paraître plus simple : isoler les
variables de manière à se situer dans le contexte familier des statistiques univariées. Plusieurs
bonnes raisons militent en défaveur de ce choix.
Limites des modèles statistiques
unidimensionnels
l
Isolement d’une variable réponse
l
l
Agrégation des variables de la communauté
l
l
Ex. : régression entre l’abondance d’une espèce (y) et la
température (x) dans n stations
Ex. : régression multiple entre le nombre d’espèces (y) et p
variables environnementales (x1…xm) dans n stations
Problèmes avec l’utilisation de ces méthodes en
contexte multidimensionnel
l
Utilisation partielle des données
l
l
l
Choix des espèces à sélectionner
Perte d’information en cas d’agrégation
Les réponses des différentes espèces sont dépendantes entre
elles
l
l
Les tests et modèles statistiques classiques sont invalides
Ces variables doivent être considérées ensemble
Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1
13
Dans un modèle statistique univarié, on considère une seule variable réponse (variable
dépendante aléatoire). On peut par exemple tenter de prédire l’abondance de chaque espèce
isolément, à l’aide d’une série de modèles de régression linéaire simple (une seule variable
environnementale) ou multiple (plusieurs variables explicatives) ajustés aux données.
Cette démarche étant très fastidieuse si le nombre d’espèces est élevé, on est contraint d’utiliser
un nombre restreint (et arbitraire) d’espèces. Plus grave encore, les réponses des différentes
12/26
Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1
espèces aux conditions environnementales ne peuvent pas être considérées comme
indépendantes les unes des autres, puisque les espèces interagissent dans la communauté : ces
réponses multiples doivent donc être analysées ensemble et non séparément, en utilisant des
méthodes statistiques multivariables.
Recherche d’une structure dans les
données
l
Classement manuel d’un
tableau de données
(diagonalisation)
l
l
Permutation des lignes
(espèces) et des colonnes
(relevés) pour mettre en
évidence des discontinuités
ou un gradient de
ressemblance
Problèmes fréquents
l
l
Discontinuités floues
Plusieurs gradients
R1
R2
R3
R4
S1
1
1
0
0
S2
0
1
0
0
S3
0
0
1
0
S4
1
0
1
1
R2
R1
R4
R3
S2
1
0
0
0
S1
1
1
0
0
S4
0
1
1
1
S3
0
0
0
1
Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1
14
Traditionnellement, le processus de diagonalisation est à la base du tri manuel d’un tableau de
relevés floristiques ou faunistiques : on cherche à rassembler les valeurs les plus grandes (ici 1 =
présence) à proximité de la diagonale du tableau.
Si plusieurs gradients de ressemblance sont présents dans les données (ce qui est généralement
le cas), il existera plusieurs solutions de diagonalisation et la séparation des groupes de relevés
ou d’espèces restera imparfaite.
Tout l’art de l’écologie numérique consiste à utiliser des méthodes multivariables pour
découvrir les structures floues et complexes cachées dans les données.
Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1
13/26
Les méthodes multivariées en écologie
numérique
l
Exploration de la
structure des données
(approche
descriptive, non
supervisée)
l
l
Recherche de
discontinuités :
groupement
(clustering, class
discovery)
Recherche de
gradients : ordination
R1
Sp1
Sp2
R4
R6
R8
R2
Sp4
Sp3
R9
Sp6
Sp5
R5
R3
R7
Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1
15
Dans ce contexte exploratoire, les méthodes non supervisées (heuristiques) sont privilégiées.
On ne se base sur aucun modèle ou hypothèse préalable et on cherche à découvrir les structures
discontinues (groupes) ou continues (gradients) par l’application de deux grandes familles de
méthodes, respectivement les groupements (classification automatique) et les ordinations en
espace réduit.
Les méthodes multivariées en écologie
numérique (suite)
l
Modélisation statistique à
partir des données
(approche explicative,
supervisée)
l
l
l
Analyse directe des
discontinuités : arbres de
classification et de régression
(tree-based class prediction)
Analyse directe des gradients :
ordination canonique
Tests d’hypothèses : test de
Mantel
R1
Sp1
Sp2
F1
R4
R6
R8
R9
Sp5
R5
F2
Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1
Sp4
R2
F3
Sp3
F4
Sp6
R3
R7
16
Mais décrire une structure ne suffit pas : les méthodes supervisées permettent d’expliquer les
structures observées. Ici, on cherche à calibrer et à tester un modèle statistique multivarié liant
les données « espèces » et « environnement », en postulant généralement que les structures des
premières sont « expliquées » par les deuxièmes.
14/26
Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1
Dans ces méthodes, les données « espèces » sont contraintes de s’exprimer en fonction des
données « environnement », que ce soit dans le contexte continu de l’ordination sous contrainte
ou dans le contexte discontinu des arbres de décision.
Toutes ces méthodes feront l’objet des chapitres suivants de ce cours.
1.3. Logiciels et ouvrages de référence
Tous les exercices de ce cours se feront exclusivement avec R et quelques-unes de ses librairies
spécialisées.
Logiciels
l
R 2.5.1 pour Windows, Mac OS X ou Linux
l
l
l
Calcul matriciel, statistiques multivariées, groupement, ordination, etc.
Logiciel statistique polyvalent, open source, clone de S-Plus
Librairies dédiées à l’écologie numérique: vegan (Oksanen), ade4 (Chessel), …
l
l
l
l
CANOCO 4.5 pour Windows (3.1 pour Mac OS 9)
l
l
Ordination sans ou avec contrainte
Logiciel commercial de référence (Ter Braak)
l
l
l
l
Visualisation de données, analyses univariées et multivariées (ordination), séries temporelles
Logiciel commercial interfacé avec R
l
http://www.brodgar.com/brodgar.htm
MVSP 3.1 pour Windows
l
l
Ordination sans (ou avec) contrainte, groupement, indices de diversité
Logiciel commercial, simple à utiliser
l
l
http://www.plant.dlo.nl/default.asp?section=products&page=/products/canoco/right.htm
http://www.microcomputerpower.com
Brodgar 2.5.2 pour Windows
l
l
http://stat.ethz.ch/CRAN/
http://cc.oulu.fi/~jarioksa/softhelp/vegan.html
http://pbil.univ-lyon1.fr/R/rplus/
http://www.kovcomp.com/mvsp/index.html
Progiciel R 4.0d10 pour Mac OS 9 (ou Mac OS X en environnement Classic)
l
l
Matrices d’association, groupement sans ou avec contrainte, test de Mantel, graphes d’ordinations
Domaine public, développement inachevé (Legendre)
l
http://www.bio.umontreal.ca/Casgrain/en/labo/R/v4/telecharger.html
Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1
17
Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1
15/26
1.4. Représentation et transformation des données
Types de descripteurs écologiques
l
Binaires (booléens, qualitatifs à deux modalités)
l
Multiples
l Non ordonnés (nominales, qualitatifs multiclasses)
•
•
l
Ex. : présence (1) ou absence (0) d’une espèce
Ex. : type de sol, appartenance à un groupe (p. ex. suite à une analyse)
Ordonnés
l
Semi-quantitatifs (ordinaux)
•
•
l
Ex. : faible – moyen – fort (codé 1 2 3)
Ex. : code de dominance d’une espèce (r + 1 2 3 4 5)
Quantitatifs (cardinaux)
l
Discrets
•
l
Ex. : nombre d’individus d’une espèce (abondance s.s.)
Continus
•
Ex. : biomasse, altitude
Synthétiques (complexes)
l
•
•
Ex. : fréquence relative d’une espèce
Ex. : rapport C/N de la matière organique
Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1
19
Cette liste hiérarchique donne un aperçu la diversité des variables utilisées en écologie.
Paradoxalement, le langage R que nous utiliserons pour nos analyses ne distingue que deux types
de variables (vecteurs) : numeric (descripteurs quantitatifs discrets, continus ou synthétiques)
et factor (descripteurs binaires, qualitatifs ou semi-quantitatifs). Cependant, loin d’être une
limitation, cette simple distinction offre une grande souplesse dans la gestion des variables,
comme nous le verrons avec les exemples.
Représentation matricielle des
données
Matrice de données Ynp
l
l
l
l
n vecteurs objets x1…xn en lignes
p vecteurs descripteurs y1…yp en
colonnes (variables)
n x p valeurs yij à l’intersection des
lignes et des colonnes (scalaires)
Ynp
Données généralement réparties
en trois matrices
l
l
l
l
Les objets (lignes) sont communs
aux trois matrices (même
dimension n, même ordre, mêmes
étiquettes)
Matrice « espèces » Ynp
Matrice « environnement » Xnp’
Matrice « spatiale » Znp’’
Notation matricielle
⎡ y11
⎢y
21
Y = yij = ⎢
⎢ yi1
⎢
⎢⎣ yn1
y12
y22
y1 j
y2 j
yi 2
yn 2
yij
ynj
y1
y2
[ ]
yj
y1 p ⎤
y2 p ⎥⎥
yip ⎥
⎥
ynp ⎥⎦
x1
x2
xi
xn
Vecteurs objets
l
Objets (i = 1 à n)
Descripteurs (j = 1 à p)
yp
Vecteurs descripteurs
Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1
20
Même si nous limiterons au minimum indispensable les développements mathématiques dans
ce cours qui se veut essentiellement pratique, il faut savoir que les méthodes de l’écologie
numérique sont essentiellement basées sur l’algèbre linéaire et le calcul matriciel.
16/26
Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1
La notation conventionnelle appliquée aux matrices sera utilisée tout au long du cours,
notamment dans les équations et le langage R. En particulier, les objets correspondent toujours
aux lignes (première dimension de la matrice) et les variables aux colonnes (deuxième
dimension de la matrice).
Exemple de matrice « espèces »
n = 20 objets relevés
p = 30 descripteurs espèces (codes de dominance)
Belper
Empnig
Junbuf
Junart
Airpra
Elepal
Rumace
Viclat
Brarut
x2
3
0
0
0
0
0
0
0
0
x13
0
0
3
0
0
0
0
0
0
x4
2
0
0
0
0
0
0
0
2
x16
0
0
0
3
0
8
0
0
4
x6
0
0
0
0
0
0
6
0
6
x1
0
0
0
0
0
0
0
0
0
x8
0
0
0
4
0
4
0
0
2
x5
2
0
0
0
0
0
5
0
2
x17
0
0
0
0
2
0
0
0
0
x15
0
0
0
3
0
5
0
0
4
x10
2
0
0
0
0
0
0
1
2
x11
0
0
0
0
0
0
0
2
4
x9
0
0
4
4
0
0
2
0
2
x18
2
0
0
0
0
0
0
1
6
x3
2
0
0
0
0
0
0
0
2
…
…
Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1
21
Ce tableau est un exemple classique d’une matrice « espèces » de relevés de prairies
(végétation des dunes en Hollande, traité dans Jongman et al., 1987).
La dominance de chaque espèce végétale (colonne) dans chaque relevé (ligne) est codée par
une variable semi-quantitative entre 1 et 9 : ces classes représentent une série géométrique
basée sur le recouvrement. Le code 0 signifie l’absence de l’espèce. On remarque que la
proportion de zéros dans cette matrice est importante, ce qui est habituel dans les tableaux
d’abondance d’espèces : elle est la conséquence de la diversité β ou diversité intercommunautés. On aurait tout aussi bien pu avoir cette table d’espèces avec seulement des
présences/absences (variables binaires, ou qualitatives multiclasses à deux modalités, 0/1).
Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1
17/26
Exemple de matrice « environnement »
n = 20 objets relevés
p’ = 5 descripteurs environnementaux (de différents types)
A1
Moisture
Management
Use
Manure
x2
3.5
1
BF
Haypastu
2
x13
6
5
SF
Haypastu
3
x4
4.2
2
SF
Haypastu
4
x16
5.7
5
SF
Pasture
3
x6
4.3
1
HF
Haypastu
2
x1
2.8
1
SF
Haypastu
4
x8
4.2
5
HF
Pasture
3
x5
6.3
1
HF
Hayfield
2
x17
4
2
NM
Hayfield
0
x15
11.5
5
NM
Haypastu
0
x10
3.3
2
BF
Hayfield
1
x11
3.5
1
BF
Pasture
1
x9
3.7
4
HF
Hayfield
1
x18
4.6
1
NM
Hayfield
0
x3
4.3
2
SF
Haypastu
4
…
Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1
22
Les mêmes sites ont fait l’objet d’observations sur les conditions environnementales,
consignées dans une deuxième table liée à la précédente par les identificateurs des lignes, qui
sont triées dans le même ordre. On constate que cette matrice (ou plus exactement cette data
frame dans le langage R) contient différents types de variables :
1. A1 (épaisseur de l’horizon A1 du sol) est une variable quantitative continue ;
2. Manure (fertilisation) est une variable quantitative discrète.
3. Moisture (humidité du sol) et Manure (fertilisation) sont des variables semiquantitatives (ordinales) codées par des nombres entiers ;
4. Management (mode de gestion) est une variable qualitative multiclasse (nominale) avec
codage alphanumérique (BF : biological farming, HF : hobby farming, NM : nature
conservation management, SF : standard farming).
5. Use (utilisation) est une variable qualitative multiclasse (nominale) ordonnée à trois
niveaux : Hayfield < Haypastu < Pasture. L’ordre des modalités représente
grossièrement l’importance de l’utilisation d’une prairie comme pâturage par rapport à
l’utilisation comme prairie de fauche.
Le codage alphanumérique est conseillé pour les variables nominales (non-ordered factors
dans le langage R), alors qu’un codage numérique est préférable pour les variables ordinales,
qui peuvent alors être considérées comme numeric ou ordered factor au choix de l’utilisateur.
Mais d’autres options sont possibles, comme pour Use dans cet exemple.
18/26
Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1
Codage des variables qualitatives
l
Codage d’une variable qualitative multiclasse en
plusieurs variables binaires
l
l
l
Générer v - 1 variables binaires (dummy variables) à partir d’une
variable qualitative à v modalités (v > 2)
Une des 4 variables binaires peut être éliminée (n’importe
laquelle) car il n’y a que 3 variables indépendantes
Exemple :
1 descripteur qualitatif
4 descripteurs binaires (dummy variables)
Modalités
Codes
arbitraires
Calcosol
Brunisol
Neoluvisol
Calcisol
Calcosol
1
1
0
0
0
Brunisol
2
0
1
0
0
Neoluvisol
3
0
0
1
0
Calcisol
4
0
0
0
1
Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1
23
Ce tableau illustre trois manières de coder une variable qualitative multiclasse : (1) en toutes
lettres (première colonne), (2) avec des codes numériques arbitraires (deuxième colonne) ou (3)
avec quatre (ou trois) variables binaires ou dummy variables. L’option (2) est dangereuse car si
l’on ne prend pas la précaution de spécifier la variable comme factor, elle sera considérée
comme une variable quantitative dans les analyses, ce qui n’a aucun sens dans ce cas ! Pour
spécifier une variable y codée par des nombres comme une variable qualitative non ordonnée
dans R :
y = as.factor(y, ordered = FALSE)
Pour les analyses qui requièrent des données quantitatives, comme la plupart des techniques
d’ordination, chaque variable nominale multiclasse doit être transformée (3) en une série de
variables binaires (dummy variables). Dans la plupart des analyses effectuées dans R, il n’est pas
nécessaire de supprimer une dummy variable redondante (l’une d’elles sera automatiquement
ignorée si nécessaire), sauf si l’on veut éviter que le programme élimine arbitrairement une
modalité que l’on souhaite conserver.
Ce codage en dummy variables est parfois fait automatiquement par certaines fonctions qui le
nécessitent (voir Chapitre 5), sans qu’il soit nécessaire de créer une nouvelle data frame.
Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1
19/26
Exemple de matrice « environnement » après
codage des variables qualitatives
n = 20 objets relevés
p’ = 10 descripteurs environnementaux (de différents types)
A1
Moisture
Manure
Hayfield
Haypastu
Pasture
BF
HF
NM
SF
x2
3.5
1
3
0
1
0
1
0
0
0
x13
6
4
4
0
1
0
0
0
0
1
x4
4.2
2
5
0
1
0
0
0
0
1
x16
5.7
4
4
0
0
1
0
0
0
1
x6
4.3
1
3
0
1
0
0
1
0
0
x1
2.8
1
5
0
1
0
0
0
0
1
x8
4.2
4
4
0
0
1
0
1
0
0
x5
6.3
1
3
1
0
0
0
1
0
0
x17
4
2
1
1
0
0
0
0
1
0
x15
11.5
4
1
0
1
0
0
0
1
0
x10
3.3
2
2
1
0
0
1
0
0
0
x11
3.5
1
2
0
0
1
1
0
0
0
x9
3.7
3
2
1
0
0
0
1
0
0
x18
4.6
1
1
1
0
0
0
0
1
0
x3
4.3
2
5
0
1
0
0
0
0
1
…
Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1
24
Dans cet exemple, la variable Use a été recodée en trois variables binaires (en rouge) et la
variable Management en quatre variables binaires (en vert).
Notons que l’information concernant l’ordre des modalités de la variable Use est perdue. Si
l’on voulait la conserver, il faudrait plutôt considérer cette variable comme numeric (une seule
colonne dans ce cas) :
Use.num = numeric(20)
Use.num[Use == "Hayfield"] = 1
Use.num[Use == "Haypastu"] = 2
Use.num[Use == "Pasture"] = 3
Une autre possibilité serait de recoder cette variable en deux variables binaires Hayfield et
Pasture seulement en considérant la modalité Haypastu comme la réalisation simultanée
des modalités Hayfield et Pasture :
Hayfield = numeric(20)
Hayfield[Use == "Hayfield"] = 1
Hayfield[Use == "Haypastu"] = 1
Pasture = numeric(20)
Pasture[Use == "Pasture"] = 1
Pasture[Use == "Haypastu"] = 1
20/26
Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1
Transformation simple des données
l
Rendre quantitatifs des descripteurs semiquantitatifs
l
l
Rendre binaires des descripteurs quantitatifs
l
l
Transformation en classes
Améliorer la distribution des descripteurs
l
l
l
l
Ex. : transformation des abondances d’espèces en
présence-absence (codage 1-0)
Rendre qualitatifs ou semi-quantitatif des
descripteurs quantitatifs
l
l
Ex. : transformations des codes de dominance en
recouvrements moyens
(1) Transformation par la racine carrée
(2) Transformation par le logarithme
(3) Transformation par l’arcsinus (recommandé
pour les proportions)
yiʹ = yi + c
(1)
yiʹ = ln( yi + c)
(2)
yiʹ = arcsin yi
(3)
Rendre linéaires les descripteurs entre eux (2)
Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1
25
Pour conserver la proportionnalité entre les valeurs d’un descripteur semi-quantitatif, on peut
remplacer les codes de rang des classes (1, 2, 3, …) par la valeur centrale des classes dans la
mesure d’origine et le traiter comme une variable continue. Cette substitution n’apporte
cependant aucun gain de précision. Dans l’exemple ci-dessus, il s’agirait de remplacer les codes
de 1 à 9 par la valeur centrale des intervalles de recouvrement (%) des espèces. Rendre
quantitatives des données d’un degré de précision moindre n’est en principe admis que dans un
cas comme celui-ci, lorsque l’on part du pourcentage de recouvrement (estimation quantitative)
sur le terrain. Mais d’une manière générale, il faut éviter de redonner une précision artificielle (et
donc forcément en partie arbitraire) à des données qui en sont dépourvues.
Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1
21/26
• Transformation d’un descripteur quantitatif (teneur en oxygène)
recodé en descripteur semi-quantitatif à intervalles égaux
• Utile pour la comparaison avec un descripteur semi-quantitatif de
précision inférieure (nappe, catégorie de rang, intervalles inégaux)
• Les deux descripteurs peuvent éventuellement être traités comme des
descripteurs quantitatifs
Nappe, catégorie de rang
1 (>100 cm)
rang 1
Teneur en oxygène (mg/l)
0.1, 0.2, 1, 2, 3, 4 ,
2 (20-100 cm)
3 (0-20 cm)
rang 2
5,
6,
rang 3
7,
Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1
8,
9, 10, 11, 12,
25’’
La transformation de descripteurs continus en classes équidistantes peut être utile pour la
comparaison avec des descripteurs d’une précision inférieure, par exemple des descripteurs
semi-quantitatifs, ou quand la précision des mesures ne permet de reconnaître qu'un petit nombre
de classes distinctes de la métrique. Ces descripteurs peuvent alors toujours être traités comme
des descripteurs quantitatifs. Mais des données quantitatives divisées en classes non
équidistantes (par exemple pour faciliter la prise de données) devraient être utilisées comme des
variables semi-quantitatives.
Pour les descripteurs quantitatifs, différentes transformations sont souvent utiles voire
nécessaires selon les analyses prévues. Les simples transformations affectent chaque valeur
isolément et uniformément (1 à 3), alors que les standardisations tiennent compte du maximum,
du minimum, de la moyenne et/ou de l’écart-type de la variable selon les lignes-objets ou/et les
colonnes-descripteurs (4 à 11).
Parmi les transformations simples des données, la transformation par la racine carrée ou par
le logarithme (à base quelconque) sont souvent utilisées. Elles permettent souvent d’améliorer la
normalité des distributions de fréquences des données et l’homogénéité de leurs variances
(homoscedasticité), lesquelles devraient être indépendantes des moyennes, conditions requises
pour certaines analyses et tests statistiques. La condition de la normalité des données doit
absolument être remplie lors de l’utilisation des tests statistiques paramétriques. En revanche, les
méthodes multivariables, qui souvent ne nécessitent pas ces tests, supportent des écarts à la
normalité. Il n’en demeure pas moins que dans un tel cas, les résultats peuvent en être fortement
marqués (p. ex. une analyse en composantes principales dont le premier axe représente
essentiellement la variance liée à un objet très différent). L’examen graphique de la distribution
des fréquences (histogramme) des divers descripteurs renseigne sur le comportement des
variables. Il existe des techniques pour tester la normalité des données, et d'autres pour trouver la
meilleure fonction de normalisation.
Ces transformations donnent également moins de poids aux valeurs extrêmes (ex. cas d’une
espèce localement très abondante).
22/26
Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1
Les quelques règles suivantes s’appliquent pour l’utilisation de la constante c dans la formule
(2) :
- Si les données sont en partie < 0 ou nulles, il faut leur faire subir une translation puisque
le logarithme d’une valeur négative n’est pas défini.
- Si on a des données y > 0, alors la translation n'est pas nécessaire.
- Si les données sont fractionnaires entre 0 et 1, on peut multiplier par une constante c
appropriée si on ne veut pas que la variable transformée contienne des valeurs négatives.
- Si les donnés sont > 0 ou nulles, il convient de choisir une constante c qui soit de même
ordre de grandeur que les variables de la valeur à transformer. Pour les dénombrements
d'espèces, ceci conduit à c=1.
- Le choix d'une base n'a pas d'incidence sur le pouvoir normalisateur, puisque le passage
d'une base à l'autre est un simple changement d'échelle. L’usage général est le log naturel
(ln).
Dans le cas de variables représentant des pourcentages ou des proportions (variables bornées
entre 0 et 1), la transformation par l’arcsinus est préconisée, notamment avant d’effectuer des
régressions pour éviter de prédire des valeurs négatives ou supérieures à 100%, bien que
l’interprétation des analyses effectuées après cette transformation soit souvent délicate.
Rendre les données linéaires entre-elles peut être une nécessité méthodologique. Par exemple,
diverses méthodes d'analyses se basent sur la corrélation ou la covariance linéaire. Toutefois,
pour la clarté de l’interprétation, la transformation non linéaire doit trouver une justification dans
la théorie biologique, et ne pas uniquement se faire pour des raisons de convenance
mathématique.
Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1
23/26
Standardisation des descripteurs
l
Rendre comparables des
descripteurs mesurés dans des
unités différentes
l
(4) Cadrage des valeurs entre 0 et 1
ou entre -1 et 1 (ranging)
l
l
(5) Centrage et réduction
(standardization, z-scores)
l
l
l
Pour des valeurs positives ou nulles
et si le zéro n’est pas arbitraire,
choisir la première formule
Moyenne = 0
Écart-type = 1
(6) Transformation en valeurs
relatives (proportions par
descripteur, species profiles)
l
l
Somme par descripteur = 1
Profils d’espèces : les différences
d’abondance entre les espèces
d’une même communauté ne sont
pas conservées !
yiʹ =
yi
ymax
yiʹ =
zi =
yi − y
sy
yijʹ =
yij
n
∑ yij
=
yi − ymin
ymax − ymin
(4)
(5)
yij
y+ j
(6)
i =1
Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1
26
Afin de rendre comparables des descripteurs quantitatifs hétérogènes mesurés dans des
unités différentes, comme c’est généralement le cas pour les variables environnementales
(température, pH, altitude…), il est nécessaire de les standardiser.
La première méthode consiste à les cadrer dans un intervalle généralement compris entre 0 et 1
ou entre -1 et 1, tout en respectant la proportionnalité des valeurs à l’intérieur de chaque variable.
Si les valeurs brutes sont positives ou nulles et que la valeur 0 n’est pas arbitraire (ex : absence
d’une espèce) et doit donc être conservée, il suffit de les diviser par la valeur maximale. Si le 0
est arbitraire (ex : température) ou s’il existe des valeurs négatives, la deuxième formule doit être
utilisée.
Une transformation couramment utilisée consiste en un centrage et une réduction des données
(standardisation sensu stricto) de manière à ce que la moyenne soit égale à 0 et la variance (et
donc l’écart-type) soit égale à 1. Les données ainsi centrées-réduites, aussi appelées z-scores,
sont directement comparables car elles perdent toute référence à l’unité de mesure d’origine.
Les données d’abondance d’espèces, même si elles sont homogènes, au sens ou elles
s’expriment dans les mêmes unités dans la matrice (nombre d’individus, densité, recouvrement,
fréquence, biomasse, etc.), peuvent être standardisées selon le même principe. En particulier, il
est possible de transformer les abondances de manière à ce que les données expriment les
contributions relatives de chaque objet à l’abondance de l’espèce, en la divisant par la somme
des abondances de l’espèce dans tous les sites. On obtient ainsi des profils d’espèces (species
profiles) ou abondances relatives par espèce. Dans ce cas, les différences d’abondance entre les
espèces d’une même communauté ne sont plus prises en compte. Cette stratégie est préconisée
quand on s’intéresse en priorité aux espèces et qu’on veut comparer leurs préférences
écologiques (séparation de niche).
24/26
Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1
Standardisation des objets
l
Rendre comparables des objets dont
les descripteurs ont des valeurs très
différentes
l
(7) Transformation en valeurs relatives
(proportions par objet, site profiles)
l
l
l
(8) Transformation de Hellinger
l
l
Somme par objet = 1
Profils de sites : les différences
d’abondance d’une espèce entre les sites
ne sont pas conservées !
Recommandée pour ignorer les absences
dans une matrice espèces
yijʹ =
yij
l
Chaque valeur est divisée par la norme
(longueur) du vecteur objet
La norme de chaque vecteur objet est
ajustée à 1
yi +
∑ yij
(7)
j =1
yijʹ =
(9) Normalisation des vecteurs objets
l
yij
=
p
yijʹ =
Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1
yij
(8)
yi +
yij
p
2
ij
∑y
(9)
j =1
27
Dans le cas d’une matrice « espèces » où les descripteurs sont tous comparables (même unité
de mesure ou codage), il est parfois utile de standardiser les vecteurs objets (plutôt que les
descripteurs) de manière à ce que leur total (7 et 8) ou leur norme (9) soit identique.
La méthode la plus simple est de considérer les profils de sites (site profiles) ou abondances
relatives par objet. Il suffit de diviser chaque abondance par la somme des abondances de
toutes les espèces observées dans le même site. Cette approche est utile quand on s’intéresse
avant tout aux objets et quand l’étude est orientée sur la composition spécifique des
communautés biologiques, par exemple dans un objectif de biomonitoring (détection de
changements dans l’environnement). Les différences d’abondance d’une espèce entre les sites ne
sont alors pas prises en compte et les espèces ne peuvent plus être comparées entre elles.
La transformation de Hellinger se calcule par la racine carrée des abondances relatives par
objet. Elle est particulièrement recommandée pour préparer les données à une analyse directe des
gradients basée sur la distance euclidienne (voir Chapitres 2 et 6).
La normalisation des vecteurs objets est fréquemment utilisée pour comparer les
communautés biologiques avec la distance de corde (voir Chapitre 2).
Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1
25/26
Double standardisation
l
Standardisation conjointe des
objets et des descripteurs
l
l
l
(10) Transformation par la métrique
du Chi-carré
(11) Transformation par la distance du
Chi-carré
Double transformation de Wisconsin
Les descripteurs sont d’abord cadrés entre
0 et 1 (4) et les objets sont ensuite
transformés en profils d’espèces (7)
l
l
l
yijʹ =
S’appliquent à des données
€
homogènes et positives ou nulles
(matrice « espèces »)
Les variations de richesse
spécifique entre objets et les
variations d’abondance entre
espèces sont ignorées !
yij
yi + y+ j
y ijʹ = y ++
yij
y ij
y i+ y + j
(10)
(11)
valeur du descripteur j dans
l’objet i
somme des valeurs de tous
les descripteurs dans le
relevé i
somme des valeurs du
descripteur j dans tous les
objets
somme des valeurs de tous
les descripteurs dans tous
les objets
yi+
y+j
y++
Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1
28
La double standardisation des objets et des descripteurs (double profile) combine les
avantages et les inconvénients des standardisations simples. C’est un compromis entre les études
orientées vers les communautés et celles orientées vers les espèces qui supprime les effets des
variations de richesse parmi les sites et des variations d’abondance parmi les espèces. Les
analyses basées sur de telles transformations ne considèrent pas l’absence d’une espèce comme
une information (voir Chapitres 2 et 5).
Exemple des données Dune (matrice
« espèces »)
Simple species transformation
By-species standardization
6
1.5
5
1.0
4
0.5
3
0.0
2
-0.5
1
-1.0
0
raw data
sqrt
log
max
By-site standardization
0.6
z-scores
species profile
Double standardization
0.8
0.5
0.6
0.4
0.3
0.4
0.2
0.2
0.1
0.0
0.0
rel
Hellinger
normalized
Chi-square
Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1
Wisconsin
29
L’application de ces transformations à la matrice « espèces » des données Dune permet
d’illustrer leur effet sur les valeurs d’abondance d’une espèce fréquente (ici Brachythecium
rutabulum). On remarque que la transformation par la racine carrée améliore la distribution de la
variable, ainsi que la standardisation de Hellinger. La distribution dissymétrique est conservée
26/26
Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1
dans les données centrées-réduites ou normalisées, et aggravée dans les données doublement
standardisées.
Exemple des données Dune (matrice
« environnement »)
4
3
0
0
1
2
Nombre d'objets
6
4
2
Nombre d'objets
5
6
Simple transformation
8
Données brutes
2
4
6
8
10
12
1.0
1.5
2.0
ln(A1)
Transformation en variable qualitative
Boxplots par classe
2.5
2.2
1.4
1.8
ln(A1)
4
3
2
0
1.0
1
Nombre d'objets
5
6
A1 (épaisseur)
[2.8,3.5]
(3.5,4.2]
(4.2,5.73]
Classes d'épaisseur
(5.73,11.5]
[2.8,3.5]
(3.5,4.2]
(4.2,5.73] (5.73,11.5]
Classes d'épaisseur
Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1
30
Pour transformer une variable quantitative (ici la variable A1 représentant l’épaisseur de
l’horizon A1) en variable qualitative (factor en langage R) :
env$A1f = factor(cut(env$A1, breaks=unique(quantile(env$A1,
seq(0,1,length=5))), include=T))
À moins de spécifier cette variable comme ordered factor (ajouter l’argument ordered =
TRUE dans la fonction cut), l’information sur le rang des valeurs est perdue. Cette série de
graphiques illustre l’efficacité de cette transformation par rapport à une simple transformation
par la racine carrée :
par(mfrow=c(2,2))
hist(env$A1, col="bisque", right=F, main="Données brutes",
xlab="A1 (épaisseur)", ylab="Nombre d'objets")
hist(log(env$A1), col="bisque", right=F, main="Simple transformation",
xlab="ln(A1)", ylab="Nombre d'objets")
barplot(table(env$A1f), col=terrain.colors(4),
main="Transformation en variable qualitative",
xlab="Classes d'épaisseur", ylab="Nombre d'objets")
boxplot(log(env$A1) ~ env$A1f, col=terrain.colors(4), varwidth=T,
xlab="Classes d'épaisseur", ylab="ln(A1)", main="Boxplots par classe")
Les exemples de ce chapitre et des suivants sont essentiellement appliqués aux données Dune.
Le code R détaillé pour ce Chapitre est contenu dans le fichier d’analyse Dune1.R du dossier
R:\ECOS\EcoNum\Worked Examples\Dune.
Téléchargement