Master SIE Notes du cours Écologie numérique Collectif A. Buttler et F. Gillet Chapitre 1 1/26
Écologie numérique
Alexandre Buttler
Laboratoire des systèmes écologiques
EPFL – ENAC – ISTE – ECOS
Master SIE – Sciences et Ingénierie de l’Environnement
Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1 2
Objectifs du cours
lComprendre le principe de l’analyse des données
multidimensionnelles
lAnalyse des données écologiques ou environnementales
lModélisation statistique des interactions écologiques
lSavoir choisir parmi les méthodes en fonction
lDe leurs domaines d’application
lDes données disponibles
lDe la problématique et des objectifs de l’étude
lSavoir utiliser les méthodes et interpréter les résultats
lAlternance cours théoriques – exercices pratiques ( )
lProjet final basé sur une étude de cas
2/26 Master SIE Notes du cours Écologie nurique Collectif A. Buttler et F. Gillet Chapitre 1
Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1 3
Plan du cours
1. Données écologiques multidimensionnelles
Objets, descripteurs, codage et transformations
2. Matrices d’association
Mesures de ressemblance entre objets et de dépendance entre
descripteurs
3. Classification non supervisée
Analyse des discontinuités : les techniques de groupement hiérarchique et
non hiérarchique
4. Classification supervisée
Arbres de classification et de régression
5. Ordination d’un tableau
Analyse des gradients : les techniques d’ordination en espace réduit
6. Ordination de plusieurs tableaux
Analyse de co-inertie, ordination sous contrainte
1. Données écologiques multidimensionnelles
1. Données écologiques
multidimensionnelles
Quels sont les objectifs de l’écologie
numérique ?
Comment explorer et modéliser les
discontinuités et les gradients dans la
structure des données ?
Comment organiser les objets et descripteurs
à analyser ?
Pourquoi et comment coder et transformer
les données ?
Écologie numérique
A. Buttler
Les données générées par les études écologiques et environnementales sont nombreuses,
hétérogènes et généralement fortement interdépendantes (p.ex. dans une même liste d’espèces
relevées dans un site, deux espèces biologiques peuvent indiquer une écologie semblable, et donc
être corrélées, avec une information en partie redondante).
Dans ce premier chapitre d’introduction, nous aborderons la question de l’analyse des données
multidimensionnelles, ses contraintes, ses objectifs et les grandes familles de méthodes utilisées
en écologie numérique.
Nous verrons comment sont représentées les données sous forme de matrices.
Nous traiterons enfin du problème de la transformation des données, qui est un préalable
important à l’analyse statistique.
Master SIE Notes du cours Écologie numérique Collectif A. Buttler et F. Gillet Chapitre 1 3/26
1.1. Objectifs de l’écologie numérique
Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1 5
Qu’est-ce que l’écologie numérique ?
l« Domaine de l’écologie quantitative qui traite de
l’analyse numérique des complexes de données »
(Legendre & Legendre 1998)
lConcerne au départ surtout l’écologie des
communautés biologiques (synécologie)
lDomaines d’application de plus en plus variés
lMéthodes numériques originales, souvent développées
par des écologues
lMéthodes adaptées aux données multidimensionnelles
lTouchant au domaine des statistiques multivariées
lSouvent sans référence à des distributions théoriques
Les écologues ont développé (et continuent à développer) des méthodes souvent très
sophistiquées pour le traitement numérique des données, souvent peu connues et utilisées par les
statisticiens. Au départ, ces méthodes ont le plus souvent été conçues pour analyser les
discontinuités et les gradients dans les communautés biologiques (assemblages d’espèces
végétales ou animales dans les écosystèmes), mais elles sont aussi, et de plus en plus, appliquées
à d’autres domaines des sciences naturelles (chimie, génétique…) ou humaines (sociologie,
économie, psychologie…). Leur portée très générale et leur puissance expliquent leur succès
dans les domaines d’application du data mining et des statistiques multivariées.
Pour rappel, quelques définitions utiles:
Statistique: “ensemble de méthodes scientifiques à partir desquelles on recueille, organise,
résume, présente et analyse des données, et qui permettent d’en tirer des conclusions et de
prendre des décisions judicieuses” (Spiegel, 1985).
- Statistique descriptive: discipline de la statistique qui a pour but de décrire les données
recueillies lors d’un échantillonnage ou d’une expérimentation, sans tirer de conclusions pour la
population statistique.
- Statistique inférentielle ou inductive: discipline qui s’attache, à l’aide de tests statistiques
effectués sur un échantillon représentatif, à tirer des conclusions valables pour la population
statistique, en tenant pour acquis l’applicabilité de certaines lois de probabilité. Le but des
statistiques inférentielles classiques est souvent de comparer deux populations, sur la base des
échantillons prélevés dans l'une et l'autre des populations; ou encore de comparer une population
concrète, échantillonnée, à une population théorique ou hypothétique. Pour cela on utilise des
tests statistiques qui peuvent s'appuyer sur l'estimation de paramètres de la population, tels la
moyenne ou l'écart-type (c'est le cas des statistiques paramétriques) ou non (statistiques non
paramétriques):
-- Statistique paramétrique: dont les tests s’appuient sur l’estimation de paramètres de
la population (tels la moyenne, l’écart-type...), qui sont comparés à des distributions théoriques
(Gauss, t de Student, etc.) supposées valides pour les populations étudiées. Rarement applicable
en écologie.
-- Statistique non-paramétrique: dont les tests ne nécessitent pas l’estimation de
4/26 Master SIE Notes du cours Écologie nurique Collectif A. Buttler et F. Gillet Chapitre 1
paramètres de la population. Moins contraignante, quelquefois applicable en écologie des
communautés.
Biostatistique ou biométrie: application des méthodes de la statistique à la biologie. Dans la
pratique, le domaine multivariable (cf. plus bas) n’est pas inclus dans cette définition.
Ecologie numérique: “domaine de l’écologie quantitative qui traite de l’analyse numérique des
complexes de données (surtout dans un contexte synécologique)” (Legendre et Legendre, 1998).
La plupart des méthodes sont multivariables 1 ou multidimensionnelles, c’est-à-dire traitent en
bloc de tableaux de données chaque observation, chaque élément d’échantillonnage est défini
par plusieurs variables: abondances d’espèces, mesures de climat, etc... Contrairement à la
biométrie, l’écologie numérique “(...) combine systématiquement les méthodes statistiques
appropriées à l’écologie avec des techniques numériques non statistiques (groupements, etc.),
ceci très souvent sans référence à des distributions théoriques (tests statistiques)” (Legendre et
Legendre, 1998).
Elément ou unité d’échantillonnage: élément de base d’un échantillonnage, sur lequel on
mesure des caractéristiques (variables): mensurations, nombres d’individus de différentes
espèces, caractéristiques physico-chimiques. etc.
Echantillon: ensemble d’éléments d’échantillonnage, constituant un sous-ensemble de la
population statistique.
Population statistique: collection d’éléments possédant au moins une caractéristique commune
et exclusive, permettant de l’identifier et de la distinguer sans ambiguïté de toute autre, de
laquelle on extrait un échantillon et sur laquelle portent les inférences, inductions ou conclusions
statistiques (p. ex. une unité taxonomique, la végétation d’une tourbière, etc.).
Variable: caractéristique mesurée ou observée sur chacun des éléments de l’échantillon
(variables propres: nombre d’individus, masse, etc.) ou sur des entités pré-définies qui se
rattachent aux unités d’échantillonnage (variables associées: distance à la première habitation,
température ambiante, etc.).
Paramètre: caractéristique quantitative qui permet une représentation condensée de
l’information contenue dans un ou plusieurs ensembles de données. Il s’agit d’un concept
mathématique! Ex.: moyenne, écart-type, diversité...
Aléatoire: fondé sur le hasard. L’échantillonnage aléatoire est le seul à même de fournir une
image non biaisée, soit représentative, de la population statistique. Il existe plusieurs plans
d’échantillonnage aléatoire (simple, par degrés, stratifié, systématique...).
Représentatif: en théorie de l’échantillonnage, ce terme est synonyme d’aléatoire!
Echantillonnage à choix raisonné: très en vogue en écologie de terrain, non aléatoire, consiste
souvent à choisir les éléments d’échantillonnage en fonction de leur position particulière sur un
gradient, pour vérifier si les variables étudiées sont corrélées significativement avec celle qui
définit le gradient. Un tel plan ne peut répondre à aucune autre question que celle-là, et
uniquement par oui ou non. En effet, l’échantillon ainsi sélectionné n’est pas représentatif de la
population. Par exemple, si l’on décide d’échantillonner la végétation le long d’un gradient
hydrique visible sur le terrain pour vérifier si la végétation se comporte de façon conforme au
gradient, il ne faudrait pas utiliser ces mêmes données de végétation pour mettre en évidence les
relations avec le sol dont on aurait encore pris des échantillons sur le même transect. En effet, il
se pourrait que les changements dans le sol ne suivent pas le gradient qui vaut pour la
végétation et que la relation sol-végétation s’exprime selon un autre axe écologique; la relation
ainsi mise en évidence serait fortement biaisée par l’échantillonnage. Notons encore que des
analyses poussées (p.ex. analyses factorielles) ne révèlent souvent que la structure de
l’échantillonnage, ce qui constitue alors un résultat trivial.
Une autre approche de l’échantillonnage à choix raisonné consiste à prélever des éléments dans
des zones du milieu étudié considérées comme importantes (on parle alors d’échantillonnage
préférentiel). Les zones importantes étant choisies en fonction de l’expérience du chercheur,
1 On rencontre souvent en français le terme “multivarié”. Il s’agit d’une traduction maladroite de l’anglais
“multivariate”, inappropriée car “variate” signifie “variable aléatoire” et non “varié”. On préférera donc en français
les termes “multivariable” ou “multidimensionnel”.
Master SIE Notes du cours Écologie numérique Collectif A. Buttler et F. Gillet Chapitre 1 5/26
l’échantillonnage peut apporter beaucoup d’information descriptive, mais toute interprétation
basée sur d’autres variables que celles qui ont déterminé le choix des stations, c’est-à-dire
l’itinéraire d’échantillonnage, est compromise par la non-représentativité de l’échantillon, et
souvent l’ambiguïté des choix opérés par le chercheur (par exemple l’omission des surfaces avec
une végétation intermédiaire et moins bien « typée », mais qui ont pourtant aussi une
signification écologique à l’échelle de la population statistique).
La place de l’écologie numérique doit se concevoir globalement, en tant qu’élément à part
entière d’un plan de recherche, et non comme outil de dernière minute appliqué aux résultats
“parce que ça se fait”. L’écologie numérique constitue un support méthodologique lors de la
conception d’une recherche. A ce stade, son intervention se comprend, d’une part, en relation
avec les principes fondamentaux de la statistique générale, afin d’assurer que la recherche
projetée permet bien de répondre aux questions posées de manière univoque et valide (ce qui
n’est pas trivial!), et d’autre part afin d’élaborer dès le départ un plan intégrant les analyses
nécessaires en tenant compte de leurs exigences sur le plan de la collecte de données. La
statistique et l’écologie numérique doivent donc permettre d’optimiser le plan, avec un minimum
d’efforts gaspillés. Un plan conçu “au pif” aboutit invariablement à un gaspillage d’efforts et à
des résultats sujets à caution faute de rigueur méthodologique.
L’écologie numérique est également un ensemble d’outils d’analyse dont les diverses
techniques sont autant de manières complémentaires d’explorer les nombreuses facettes d’un
ensemble de données, et d’en tirer des conclusions non triviales (sinon, quel besoin de ces
méthodes?). Attention, il ne s’agit nullement d’une “prothèse intellectuelle” destinée à se
substituer à la réflexion écologique, mais bien d’un outil subordonné à cette réflexion, et dont les
éléments doivent être appliqués chacun dans un but parfaitement défini et compris. L’application
“bateau” d’une recette d’analyse préfabriquée à n’importe quel ensemble de données est le
parfait contre-exemple de cette démarche.
Des réflexions plus approfondies sur la place de la statistique et de l’écologie numérique dans
la recherche en biologie et en écologie peuvent être trouvées chez Legendre et Legendre (1998),
chap. 1, et surtout Scherrer (1984), chap. 2.
Il y a quatre façons possibles d’utiliser les données écologiques (biologiques ou/et
environnementales).
Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1 6
Approches possibles d’un problème
écologique
l1. Description
séparée de la
communauté et du
milieu
lTexture et
composition
spécifique
lStructure spatiale
lVariations
temporelles
lApproche inductive
communauté environnement
1 / 26 100%