Écologie numérique - EPFL moodle service

Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1 1/26

Écologie numérique

Alexandre Buttler

Laboratoire des systèmes écologiques

EPFL – ENAC – ISTE – ECOS

[email protected]h

Master SIE – Sciences et Ingénierie de l’Environnement

Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1 2

Objectifs du cours

lComprendre le principe de l’analyse des données

multidimensionnelles

lAnalyse des données écologiques ou environnementales

lModélisation statistique des interactions écologiques

lSavoir choisir parmi les méthodes en fonction

lDe leurs domaines d’application

lDes données disponibles

lDe la problématique et des objectifs de l’étude

lSavoir utiliser les méthodes et interpréter les résultats

lAlternance cours théoriques – exercices pratiques ( )

lProjet final basé sur une étude de cas

2/26 Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1

Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1 3

Plan du cours

1. Données écologiques multidimensionnelles

Objets, descripteurs, codage et transformations

2. Matrices d’association

Mesures de ressemblance entre objets et de dépendance entre

descripteurs

3. Classification non supervisée

Analyse des discontinuités : les techniques de groupement hiérarchique et

non hiérarchique

4. Classification supervisée

Arbres de classification et de régression

5. Ordination d’un tableau

Analyse des gradients : les techniques d’ordination en espace réduit

6. Ordination de plusieurs tableaux

Analyse de co-inertie, ordination sous contrainte

1. Données écologiques multidimensionnelles

1. Données écologiques

multidimensionnelles

Quels sont les objectifs de l’écologie

numérique ?

Comment explorer et modéliser les

discontinuités et les gradients dans la

structure des données ?

Comment organiser les objets et descripteurs

à analyser ?

Pourquoi et comment coder et transformer

les données ?

Écologie numérique

A. Buttler

Les données générées par les études écologiques et environnementales sont nombreuses,

hétérogènes et généralement fortement interdépendantes (p.ex. dans une même liste d’espèces

relevées dans un site, deux espèces biologiques peuvent indiquer une écologie semblable, et donc

être corrélées, avec une information en partie redondante).

Dans ce premier chapitre d’introduction, nous aborderons la question de l’analyse des données

multidimensionnelles, ses contraintes, ses objectifs et les grandes familles de méthodes utilisées

en écologie numérique.

Nous verrons comment sont représentées les données sous forme de matrices.

Nous traiterons enfin du problème de la transformation des données, qui est un préalable

important à l’analyse statistique.

Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1 3/26

1.1. Objectifs de l’écologie numérique

Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1 5

Qu’est-ce que l’écologie numérique ?

l« Domaine de l’écologie quantitative qui traite de

l’analyse numérique des complexes de données »

(Legendre & Legendre 1998)

lConcerne au départ surtout l’écologie des

communautés biologiques (synécologie)

lDomaines d’application de plus en plus variés

lMéthodes numériques originales, souvent développées

par des écologues

lMéthodes adaptées aux données multidimensionnelles

lTouchant au domaine des statistiques multivariées

lSouvent sans référence à des distributions théoriques

Les écologues ont développé (et continuent à développer) des méthodes souvent très

sophistiquées pour le traitement numérique des données, souvent peu connues et utilisées par les

statisticiens. Au départ, ces méthodes ont le plus souvent été conçues pour analyser les

discontinuités et les gradients dans les communautés biologiques (assemblages d’espèces

végétales ou animales dans les écosystèmes), mais elles sont aussi, et de plus en plus, appliquées

à d’autres domaines des sciences naturelles (chimie, génétique…) ou humaines (sociologie,

économie, psychologie…). Leur portée très générale et leur puissance expliquent leur succès

dans les domaines d’application du data mining et des statistiques multivariées.

Pour rappel, quelques définitions utiles:

Statistique: “ensemble de méthodes scientifiques à partir desquelles on recueille, organise,

résume, présente et analyse des données, et qui permettent d’en tirer des conclusions et de

prendre des décisions judicieuses” (Spiegel, 1985).

- Statistique descriptive: discipline de la statistique qui a pour but de décrire les données

recueillies lors d’un échantillonnage ou d’une expérimentation, sans tirer de conclusions pour la

population statistique.

- Statistique inférentielle ou inductive: discipline qui s’attache, à l’aide de tests statistiques

effectués sur un échantillon représentatif, à tirer des conclusions valables pour la population

statistique, en tenant pour acquis l’applicabilité de certaines lois de probabilité. Le but des

statistiques inférentielles classiques est souvent de comparer deux populations, sur la base des

échantillons prélevés dans l'une et l'autre des populations; ou encore de comparer une population

concrète, échantillonnée, à une population théorique ou hypothétique. Pour cela on utilise des

tests statistiques qui peuvent s'appuyer sur l'estimation de paramètres de la population, tels la

moyenne ou l'écart-type (c'est le cas des statistiques paramétriques) ou non (statistiques non

paramétriques):

-- Statistique paramétrique: dont les tests s’appuient sur l’estimation de paramètres de

la population (tels la moyenne, l’écart-type...), qui sont comparés à des distributions théoriques

(Gauss, t de Student, etc.) supposées valides pour les populations étudiées. Rarement applicable

en écologie.

-- Statistique non-paramétrique: dont les tests ne nécessitent pas l’estimation de

4/26 Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1

paramètres de la population. Moins contraignante, quelquefois applicable en écologie des

communautés.

Biostatistique ou biométrie: application des méthodes de la statistique à la biologie. Dans la

pratique, le domaine multivariable (cf. plus bas) n’est pas inclus dans cette définition.

Ecologie numérique: “domaine de l’écologie quantitative qui traite de l’analyse numérique des

complexes de données (surtout dans un contexte synécologique)” (Legendre et Legendre, 1998).

La plupart des méthodes sont multivariables 1 ou multidimensionnelles, c’est-à-dire traitent en

bloc de tableaux de données où chaque observation, chaque élément d’échantillonnage est défini

par plusieurs variables: abondances d’espèces, mesures de climat, etc... Contrairement à la

biométrie, l’écologie numérique “(...) combine systématiquement les méthodes statistiques

appropriées à l’écologie avec des techniques numériques non statistiques (groupements, etc.),

ceci très souvent sans référence à des distributions théoriques (tests statistiques)” (Legendre et

Legendre, 1998).

Elément ou unité d’échantillonnage: élément de base d’un échantillonnage, sur lequel on

mesure des caractéristiques (variables): mensurations, nombres d’individus de différentes

espèces, caractéristiques physico-chimiques. etc.

Echantillon: ensemble d’éléments d’échantillonnage, constituant un sous-ensemble de la

population statistique.

Population statistique: collection d’éléments possédant au moins une caractéristique commune

et exclusive, permettant de l’identifier et de la distinguer sans ambiguïté de toute autre, de

laquelle on extrait un échantillon et sur laquelle portent les inférences, inductions ou conclusions

statistiques (p. ex. une unité taxonomique, la végétation d’une tourbière, etc.).

Variable: caractéristique mesurée ou observée sur chacun des éléments de l’échantillon

(variables propres: nombre d’individus, masse, etc.) ou sur des entités pré-définies qui se

rattachent aux unités d’échantillonnage (variables associées: distance à la première habitation,

température ambiante, etc.).

Paramètre: caractéristique quantitative qui permet une représentation condensée de

l’information contenue dans un ou plusieurs ensembles de données. Il s’agit d’un concept

mathématique! Ex.: moyenne, écart-type, diversité...

Aléatoire: fondé sur le hasard. L’échantillonnage aléatoire est le seul à même de fournir une

image non biaisée, soit représentative, de la population statistique. Il existe plusieurs plans

d’échantillonnage aléatoire (simple, par degrés, stratifié, systématique...).

Représentatif: en théorie de l’échantillonnage, ce terme est synonyme d’aléatoire!

Echantillonnage à choix raisonné: très en vogue en écologie de terrain, non aléatoire, consiste

souvent à choisir les éléments d’échantillonnage en fonction de leur position particulière sur un

gradient, pour vérifier si les variables étudiées sont corrélées significativement avec celle qui

définit le gradient. Un tel plan ne peut répondre à aucune autre question que celle-là, et

uniquement par oui ou non. En effet, l’échantillon ainsi sélectionné n’est pas représentatif de la

population. Par exemple, si l’on décide d’échantillonner la végétation le long d’un gradient

hydrique visible sur le terrain pour vérifier si la végétation se comporte de façon conforme au

gradient, il ne faudrait pas utiliser ces mêmes données de végétation pour mettre en évidence les

relations avec le sol dont on aurait encore pris des échantillons sur le même transect. En effet, il

se pourrait que les changements dans le sol ne suivent pas le gradient qui vaut pour la

végétation et que la relation sol-végétation s’exprime selon un autre axe écologique; la relation

ainsi mise en évidence serait fortement biaisée par l’échantillonnage. Notons encore que des

analyses poussées (p.ex. analyses factorielles) ne révèlent souvent que la structure de

l’échantillonnage, ce qui constitue alors un résultat trivial.

Une autre approche de l’échantillonnage à choix raisonné consiste à prélever des éléments dans

des zones du milieu étudié considérées comme importantes (on parle alors d’échantillonnage

préférentiel). Les zones importantes étant choisies en fonction de l’expérience du chercheur,

1 On rencontre souvent en français le terme “multivarié”. Il s’agit d’une traduction maladroite de l’anglais

“multivariate”, inappropriée car “variate” signifie “variable aléatoire” et non “varié”. On préférera donc en français

les termes “multivariable” ou “multidimensionnel”.

Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1 5/26

l’échantillonnage peut apporter beaucoup d’information descriptive, mais toute interprétation

basée sur d’autres variables que celles qui ont déterminé le choix des stations, c’est-à-dire

l’itinéraire d’échantillonnage, est compromise par la non-représentativité de l’échantillon, et

souvent l’ambiguïté des choix opérés par le chercheur (par exemple l’omission des surfaces avec

une végétation intermédiaire et moins bien « typée », mais qui ont pourtant aussi une

signification écologique à l’échelle de la population statistique).

La place de l’écologie numérique doit se concevoir globalement, en tant qu’élément à part

entière d’un plan de recherche, et non comme outil de dernière minute appliqué aux résultats

“parce que ça se fait”. L’écologie numérique constitue un support méthodologique lors de la

conception d’une recherche. A ce stade, son intervention se comprend, d’une part, en relation

avec les principes fondamentaux de la statistique générale, afin d’assurer que la recherche

projetée permet bien de répondre aux questions posées de manière univoque et valide (ce qui

n’est pas trivial!), et d’autre part afin d’élaborer dès le départ un plan intégrant les analyses

nécessaires en tenant compte de leurs exigences sur le plan de la collecte de données. La

statistique et l’écologie numérique doivent donc permettre d’optimiser le plan, avec un minimum

d’efforts gaspillés. Un plan conçu “au pif” aboutit invariablement à un gaspillage d’efforts et à

des résultats sujets à caution faute de rigueur méthodologique.

L’écologie numérique est également un ensemble d’outils d’analyse dont les diverses

techniques sont autant de manières complémentaires d’explorer les nombreuses facettes d’un

ensemble de données, et d’en tirer des conclusions non triviales (sinon, quel besoin de ces

méthodes?). Attention, il ne s’agit nullement d’une “prothèse intellectuelle” destinée à se

substituer à la réflexion écologique, mais bien d’un outil subordonné à cette réflexion, et dont les

éléments doivent être appliqués chacun dans un but parfaitement défini et compris. L’application

“bateau” d’une recette d’analyse préfabriquée à n’importe quel ensemble de données est le

parfait contre-exemple de cette démarche.

Des réflexions plus approfondies sur la place de la statistique et de l’écologie numérique dans

la recherche en biologie et en écologie peuvent être trouvées chez Legendre et Legendre (1998),

chap. 1, et surtout Scherrer (1984), chap. 2.

Il y a quatre façons possibles d’utiliser les données écologiques (biologiques ou/et

environnementales).

Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1 6

Approches possibles d’un problème

écologique

l1. Description

séparée de la

communauté et du

milieu

lTexture et

composition

spécifique

lStructure spatiale

lVariations

temporelles

lApproche inductive

communauté environnement

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

Écologie numérique - EPFL moodle service

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Écologie numérique - EPFL moodle service

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib