Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1 1/26 Master SIE – Sciences et Ingénierie de l’Environnement Écologie numérique Alexandre Buttler Laboratoire des systèmes écologiques EPFL – ENAC – ISTE – ECOS [email protected] Objectifs du cours l Comprendre le principe de l’analyse des données multidimensionnelles l l l Savoir choisir parmi les méthodes en fonction l l l l Analyse des données écologiques ou environnementales Modélisation statistique des interactions écologiques De leurs domaines d’application Des données disponibles De la problématique et des objectifs de l’étude Savoir utiliser les méthodes et interpréter les résultats l l Alternance cours théoriques – exercices pratiques ( Projet final basé sur une étude de cas Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1 ) 2 2/26 Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1 Plan du cours 1. Données écologiques multidimensionnelles Objets, descripteurs, codage et transformations 2. Matrices d’association Mesures de ressemblance entre objets et de dépendance entre descripteurs 3. Classification non supervisée Analyse des discontinuités : les techniques de groupement hiérarchique et non hiérarchique 4. Classification supervisée Arbres de classification et de régression 5. Ordination d’un tableau Analyse des gradients : les techniques d’ordination en espace réduit 6. Ordination de plusieurs tableaux Analyse de co-inertie, ordination sous contrainte Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1 3 1. Données écologiques multidimensionnelles Écologie numérique A. Buttler 1. Données écologiques multidimensionnelles Quels sont les objectifs de l’écologie numérique ? Comment explorer et modéliser les discontinuités et les gradients dans la structure des données ? Comment organiser les objets et descripteurs à analyser ? Pourquoi et comment coder et transformer les données ? Les données générées par les études écologiques et environnementales sont nombreuses, hétérogènes et généralement fortement interdépendantes (p.ex. dans une même liste d’espèces relevées dans un site, deux espèces biologiques peuvent indiquer une écologie semblable, et donc être corrélées, avec une information en partie redondante). Dans ce premier chapitre d’introduction, nous aborderons la question de l’analyse des données multidimensionnelles, ses contraintes, ses objectifs et les grandes familles de méthodes utilisées en écologie numérique. Nous verrons comment sont représentées les données sous forme de matrices. Nous traiterons enfin du problème de la transformation des données, qui est un préalable important à l’analyse statistique. Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1 3/26 1.1. Objectifs de l’écologie numérique Qu’est-ce que l’écologie numérique ? l l l l l « Domaine de l’écologie quantitative qui traite de l’analyse numérique des complexes de données » (Legendre & Legendre 1998) Concerne au départ surtout l’écologie des communautés biologiques (synécologie) Domaines d’application de plus en plus variés Méthodes numériques originales, souvent développées par des écologues Méthodes adaptées aux données multidimensionnelles l l Touchant au domaine des statistiques multivariées Souvent sans référence à des distributions théoriques Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1 5 Les écologues ont développé (et continuent à développer) des méthodes souvent très sophistiquées pour le traitement numérique des données, souvent peu connues et utilisées par les statisticiens. Au départ, ces méthodes ont le plus souvent été conçues pour analyser les discontinuités et les gradients dans les communautés biologiques (assemblages d’espèces végétales ou animales dans les écosystèmes), mais elles sont aussi, et de plus en plus, appliquées à d’autres domaines des sciences naturelles (chimie, génétique…) ou humaines (sociologie, économie, psychologie…). Leur portée très générale et leur puissance expliquent leur succès dans les domaines d’application du data mining et des statistiques multivariées. Pour rappel, quelques définitions utiles: Statistique: “ensemble de méthodes scientifiques à partir desquelles on recueille, organise, résume, présente et analyse des données, et qui permettent d’en tirer des conclusions et de prendre des décisions judicieuses” (Spiegel, 1985). - Statistique descriptive: discipline de la statistique qui a pour but de décrire les données recueillies lors d’un échantillonnage ou d’une expérimentation, sans tirer de conclusions pour la population statistique. - Statistique inférentielle ou inductive: discipline qui s’attache, à l’aide de tests statistiques effectués sur un échantillon représentatif, à tirer des conclusions valables pour la population statistique, en tenant pour acquis l’applicabilité de certaines lois de probabilité. Le but des statistiques inférentielles classiques est souvent de comparer deux populations, sur la base des échantillons prélevés dans l'une et l'autre des populations; ou encore de comparer une population concrète, échantillonnée, à une population théorique ou hypothétique. Pour cela on utilise des tests statistiques qui peuvent s'appuyer sur l'estimation de paramètres de la population, tels la moyenne ou l'écart-type (c'est le cas des statistiques paramétriques) ou non (statistiques non paramétriques): -- Statistique paramétrique: dont les tests s’appuient sur l’estimation de paramètres de la population (tels la moyenne, l’écart-type...), qui sont comparés à des distributions théoriques (Gauss, t de Student, etc.) supposées valides pour les populations étudiées. Rarement applicable en écologie. -- Statistique non-paramétrique: dont les tests ne nécessitent pas l’estimation de 4/26 Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1 paramètres de la population. Moins contraignante, quelquefois applicable en écologie des communautés. Biostatistique ou biométrie: application des méthodes de la statistique à la biologie. Dans la pratique, le domaine multivariable (cf. plus bas) n’est pas inclus dans cette définition. Ecologie numérique: “domaine de l’écologie quantitative qui traite de l’analyse numérique des complexes de données (surtout dans un contexte synécologique)” (Legendre et Legendre, 1998). La plupart des méthodes sont multivariables 1 ou multidimensionnelles, c’est-à-dire traitent en bloc de tableaux de données où chaque observation, chaque élément d’échantillonnage est défini par plusieurs variables: abondances d’espèces, mesures de climat, etc... Contrairement à la biométrie, l’écologie numérique “(...) combine systématiquement les méthodes statistiques appropriées à l’écologie avec des techniques numériques non statistiques (groupements, etc.), ceci très souvent sans référence à des distributions théoriques (tests statistiques)” (Legendre et Legendre, 1998). Elément ou unité d’échantillonnage: élément de base d’un échantillonnage, sur lequel on mesure des caractéristiques (variables): mensurations, nombres d’individus de différentes espèces, caractéristiques physico-chimiques. etc. Echantillon: ensemble d’éléments d’échantillonnage, constituant un sous-ensemble de la population statistique. Population statistique: collection d’éléments possédant au moins une caractéristique commune et exclusive, permettant de l’identifier et de la distinguer sans ambiguïté de toute autre, de laquelle on extrait un échantillon et sur laquelle portent les inférences, inductions ou conclusions statistiques (p. ex. une unité taxonomique, la végétation d’une tourbière, etc.). Variable: caractéristique mesurée ou observée sur chacun des éléments de l’échantillon (variables propres: nombre d’individus, masse, etc.) ou sur des entités pré-définies qui se rattachent aux unités d’échantillonnage (variables associées: distance à la première habitation, température ambiante, etc.). Paramètre: caractéristique quantitative qui permet une représentation condensée de l’information contenue dans un ou plusieurs ensembles de données. Il s’agit d’un concept mathématique! Ex.: moyenne, écart-type, diversité... Aléatoire: fondé sur le hasard. L’échantillonnage aléatoire est le seul à même de fournir une image non biaisée, soit représentative, de la population statistique. Il existe plusieurs plans d’échantillonnage aléatoire (simple, par degrés, stratifié, systématique...). Représentatif: en théorie de l’échantillonnage, ce terme est synonyme d’aléatoire! Echantillonnage à choix raisonné: très en vogue en écologie de terrain, non aléatoire, consiste souvent à choisir les éléments d’échantillonnage en fonction de leur position particulière sur un gradient, pour vérifier si les variables étudiées sont corrélées significativement avec celle qui définit le gradient. Un tel plan ne peut répondre à aucune autre question que celle-là, et uniquement par oui ou non. En effet, l’échantillon ainsi sélectionné n’est pas représentatif de la population. Par exemple, si l’on décide d’échantillonner la végétation le long d’un gradient hydrique visible sur le terrain pour vérifier si la végétation se comporte de façon conforme au gradient, il ne faudrait pas utiliser ces mêmes données de végétation pour mettre en évidence les relations avec le sol dont on aurait encore pris des échantillons sur le même transect. En effet, il se pourrait que les changements dans le sol ne suivent pas le gradient qui vaut pour la végétation et que la relation sol-végétation s’exprime selon un autre axe écologique; la relation ainsi mise en évidence serait fortement biaisée par l’échantillonnage. Notons encore que des analyses poussées (p.ex. analyses factorielles) ne révèlent souvent que la structure de l’échantillonnage, ce qui constitue alors un résultat trivial. Une autre approche de l’échantillonnage à choix raisonné consiste à prélever des éléments dans des zones du milieu étudié considérées comme importantes (on parle alors d’échantillonnage préférentiel). Les zones importantes étant choisies en fonction de l’expérience du chercheur, 1 On rencontre souvent en français le terme “multivarié”. Il s’agit d’une traduction maladroite de l’anglais “multivariate”, inappropriée car “variate” signifie “variable aléatoire” et non “varié”. On préférera donc en français les termes “multivariable” ou “multidimensionnel”. Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1 5/26 l’échantillonnage peut apporter beaucoup d’information descriptive, mais toute interprétation basée sur d’autres variables que celles qui ont déterminé le choix des stations, c’est-à-dire l’itinéraire d’échantillonnage, est compromise par la non-représentativité de l’échantillon, et souvent l’ambiguïté des choix opérés par le chercheur (par exemple l’omission des surfaces avec une végétation intermédiaire et moins bien « typée », mais qui ont pourtant aussi une signification écologique à l’échelle de la population statistique). La place de l’écologie numérique doit se concevoir globalement, en tant qu’élément à part entière d’un plan de recherche, et non comme outil de dernière minute appliqué aux résultats “parce que ça se fait”. L’écologie numérique constitue un support méthodologique lors de la conception d’une recherche. A ce stade, son intervention se comprend, d’une part, en relation avec les principes fondamentaux de la statistique générale, afin d’assurer que la recherche projetée permet bien de répondre aux questions posées de manière univoque et valide (ce qui n’est pas trivial!), et d’autre part afin d’élaborer dès le départ un plan intégrant les analyses nécessaires en tenant compte de leurs exigences sur le plan de la collecte de données. La statistique et l’écologie numérique doivent donc permettre d’optimiser le plan, avec un minimum d’efforts gaspillés. Un plan conçu “au pif” aboutit invariablement à un gaspillage d’efforts et à des résultats sujets à caution faute de rigueur méthodologique. L’écologie numérique est également un ensemble d’outils d’analyse dont les diverses techniques sont autant de manières complémentaires d’explorer les nombreuses facettes d’un ensemble de données, et d’en tirer des conclusions non triviales (sinon, quel besoin de ces méthodes?). Attention, il ne s’agit nullement d’une “prothèse intellectuelle” destinée à se substituer à la réflexion écologique, mais bien d’un outil subordonné à cette réflexion, et dont les éléments doivent être appliqués chacun dans un but parfaitement défini et compris. L’application “bateau” d’une recette d’analyse préfabriquée à n’importe quel ensemble de données est le parfait contre-exemple de cette démarche. Des réflexions plus approfondies sur la place de la statistique et de l’écologie numérique dans la recherche en biologie et en écologie peuvent être trouvées chez Legendre et Legendre (1998), chap. 1, et surtout Scherrer (1984), chap. 2. Il y a quatre façons possibles d’utiliser les données écologiques (biologiques ou/et environnementales). Approches possibles d’un problème écologique l communauté environnement 1. Description séparée de la communauté et du milieu l l l l Texture et composition spécifique Structure spatiale Variations temporelles Approche inductive Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1 6 6/26 Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1 Dans le premier cas, on procède à une analyse séparée des deux ensembles de données : celles qui concernent les communautés biologiques et (éventuellement) celles qui concernent les descripteurs de leur environnement. Dans ce cas, on ne procède pas nécessairement à un échantillonnage conjoint et exhaustif de chaque communauté et de son environnement. Cette approche conduit à une mise en relation qualitative et intuitive, et éventuellement à des inférences de l’un à partir des connaissances de l’autre. Par exemple, en utilisant les valeurs écologiques indicatrices des plantes (bioindication) pour prédire le statut nutritionnel du sol. Ces mises en relation sont aussi le fruit d’a priori. Cette approche est souvent critiquée et considérée comme une approche scientifique molle (et donc hasardeuse), même si elle se justifie dans un contexte connu et lorsqu’elle est utilisée par des personnes expérimentées. Exemple : relevés floristiques ou faunistiques dans différentes parcelles d’une forêt; mesures de quelques variables environnementales pour caractériser l’écologie de certaines stations (profondeur du sol, pH, lumière…). Cette approche observationnelle est qualifiée d’inductive: les structures sont extraites de chaque ensemble de données sans hypothèse préalable et les explications sont dérivées de ces données par généralisation des faits observés. Approches possibles d’un problème écologique (suite) l 2. Description des états simultanés de la communauté et du milieu l communauté environnement l l Corrélations entre les données biologiques et environnementales Pas de modèle explicatif Approche inductive Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1 7 Dans le deuxième cas, les données biologiques et environnementales sont prélevées simultanément aux mêmes endroits et l’interprétation combinée. On recherche des liens entre les deux ensembles de données correspondant aux mêmes objets. Il s’agit encore généralement d’une approche observationnelle inductive : les corrélations sont calculées à partir des données sans hypothèse causale préalable. En particulier, on ne suppose pas a priori que les variables environnementales sont la cause de la composition de la communauté. Cette approche conduit à des modèles quantitatifs empiriques non explicatifs, basés sur l'analyse statistique, corrélative, des données (donc analyse plus objective). En analyse spatiale, on peut par exemple superposer des couches d’information pour analyser par exemple la co-occurrence des types de sols avec certains types de végétation. Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1 7/26 Approches possibles d’un problème écologique (suite) l 3. Étude de l’influence unilatérale du milieu (variables explicatives) sur la communauté (réponse biologique) l communauté environnement l Régression : données biologiques versus environnementales Modèle empirique explicatif l l l Observationnel prévisionnel (causalité implicite), statique Expérimental prédictif, (causalité explicite), cinétique Approche déductive Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1 8 Dans le troisième cas, les variables environnementales (variables indépendantes) sont supposées déterminer une réponse de la communauté biologique (variables aléatoires dépendantes). Comme dans le cas précédent, les données sont prélevées dans les mêmes sites, mais on distingue ici implicitement les causes (variables environnementales explicatives) des effets (variables biologiques réponses). Typiquement, l’approche est déductive : des hypothèses sont posées au départ et on cherche à établir un modèle empirique explicatif. Si l’étude est observationnelle, on tente de stratifier l’échantillonnage de manière à optimiser la distribution des variables environnementales. Le modèle est alors prévisionnel, statique, avec une causalité implicite. Dans un contexte expérimental et manipulatif, on s’efforce de séparer et de contrôler les variables environnementales (traitements) et de tenir compte de l’hétérogénéité (blocs). Dans ce dernier cas, l’approche est de nature expérimentale et conduit à des modèles cinétiques prédictifs, ou interviennent explicitement les causes des changements. Par exemple, en agronomie ou en écophysiologie, on fait souvent des cultures de plantes sur des substrats différents, par exemple des sols aux teneurs nutritives variées. 8/26 Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1 Approches possibles d’un problème écologique (suite) l communauté environnement 4. Étude des interactions réciproques entre le milieu et la communauté l l Approche systémique des processus Modèle théorique prédictif (causalité explicite), dynamique Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1 9 Dans le quatrième cas, on tient compte de la complexité des interactions écologiques dans le système et on s’intéresse davantage aux processus. Les données sont utilisées pour calibrer ou pour valider un modèle théorique. L’approche est dynamique : l’état du système est déterminé par son changement sous l’influence des interactions réciproques entre la communauté et son environnement. Cette approche complexe relève de la modélisation causale dynamique en contexte de simulation. On y intègre les effets feedbacks, par exemple des plantes sur le sol, après que le sol ait lui-même influencé les plantes. Si la modélisation est ici d’un apport essentiel, c’est que l’expérimentation in situ demande souvent trop de temps pour laisser les processus s’exprimer. Cette dernière approche n’est pas abordée par l’écologie numérique mais est plutôt du domaine de la modélisation dynamique des systèmes écologiques (« écologie théorique »). Approches possibles d’un problème écologique (suite) l L’écologie numérique concerne seulement les approches 1, 2 et 3 l l Avec ou sans test d’hypothèses Modèles éventuels basés en priorité sur les données (empiriques) l l l Recherche de structures dans les données Interprétation des structures Dans le cadre d’études descriptives, comparatives ou expérimentales Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1 10 Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1 9/26 1.2. Recherche de structures dans les données Objets et descripteurs l Objets = observations l l Relevés, stations, prélèvements, unités d’échantillonnage (objects, sites, cases, sampling units) Descripteurs = variables observées ou mesurées l Variables biologiques l l l Variables environnementales l l Espèces, avec leurs abondances (ou leurs attributs) Mesures d’activité Température, pH, type de sol… Variables spatiales l Coordonnées géographiques Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1 11 Les données écologiques sont organisées selon le principe d’une base de données avec des tables d’observations (les objets) organisées en plusieurs rubriques ou champs (les descripteurs ou variables). Par principe, l'objet correspond à la variable définie a priori, c'est-à-dire celle que l'on peut choisir et dont on peut, théoriquement, multiplier les réalisations à l'infini. Chaque objet est décrit par une ou plusieurs séries de "descripteurs", de diverses natures selon l’étude (biologique, physique, chimique, géologique). Ces derniers sont liés au propos de l'étude et ne peuvent être choisis (p. ex. espèces à disposition dans les différents sites examinés). Les communautés biologiques sont typiquement décrites par une table dont les objets sont les relevés et les descripteurs sont les abondances des espèces dans chaque site (on a ainsi une liste d’espèces établies dans un certain nombre de sites), codées de manière homogène. On notera qu'une espèce peut figurer comme descripteur dans l'inventaire d'une station, ou constituer l'objet dans une étude taxonomique faisant appel à d’autres descripteurs (p.ex. morphologiques). Les variables environnementales sont ordinairement réunies dans une table séparée, beaucoup plus hétérogène que la précédente (mesurées sur les mêmes objets). Enfin, une table des localisations spatiales (coordonnées géographiques) est souvent associée aux deux premières (localisation des mêmes objets). Elle permet notamment de faire le lien avec un Système d’Information Géographique ou d’explorer la structure spatiale des données (ces aspects ne seront pas développés dans ce cours). 10/26 Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1 Le complexe des données écologiques l Multidimensionnalité l l l l Chaque objet est décrit par plusieurs descripteurs Il doit donc être représenté selon autant de dimensions Représentation graphique directe impossible au delà de 3 dimensions ! Buts des analyses multivariées l l Réduire la dimensionnalité des données Dégager les grandes tendances de la variation des données (gradients, groupes) pour les rendre interprétables Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1 12 Données à 1 dimension: Données multidimensionnelles multidimensionnelles: Données unidimensionnelles Données Relevés 1 2 3 4 5 6 Relevés 1 2 3 4 5 6 Espèce 1 1 4 2 1 6 3 Espèce 1 Espèce 1 Espèce 2 Espèce 3 Espèce 4 1 2 1 3 4 5 4 1 2 1 3 6 1 3 1 5 6 5 2 6 3 6 2 2 0 Données à 2 dimensions: Données bidimensionnelles Espèce n 1 6 3 2 2 4 Relevés 1 2 3 4 5 6 Espèce 1 1 4 2 1 6 3 Espèce 2 2 5 1 3 5 6 Espèce 2 Espèce 3 ? Espèce 2 Espèce 1 Espèce 4 Espèce 1 Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1 Espèce n 12’ D'une façon générale, l'écologue est confronté à des données complexes liées à sa science empirique de terrain. Cette complexité relève: - de la grande variabilité des variables étudiées (beaucoup d’espèces !; à combien de descripteurs faut-il s’arrêter quand on analyse un sol ?), chaque objet donnant une réalité à facettes multiples. - des interactions complexes entre variables explicatives et variables dépendantes (voir exemple 1 ci-dessous), - de l'incertitude quant aux causes des corrélations entre variables. Par exemple, les fluctuations communes de deux variables peuvent être dues à un lien indépendant de chacune d’entre-elle avec une troisième variable (voir exemple 2 ci-dessous). Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1 11/26 Exemple 1: L'abondance et la production des espèces végétales d'un site sont dépendants de l'azote, dont la forme assimilable dépend de l'oxygène, lequel induit l'activité microbienne nécessaire à la nitrification. La présence d'oxygène dans l'atmosphère du sol dépend du niveau de la nappe qui à son tour influence le potentiel rédox du sol. Par conséquent, - de nombreux facteurs biotiques et abiotiques agissent simultanément et en relation partielle, voire avec des changements dans le temps (p. ex. variation de l’activité microbienne selon la saison) et l'espace (p. ex. selon la position dans le profil de sol). - la cause de la production est difficile à cerner (est-ce le taux d'azote, le niveau de la nappe, l'intensité de l'aération ou encore une action combinée?). Exemple 2 : Dans une analyse chimique de l’eau de nappe dans le sol, le carbone organique et le fer ferreux (filtré) sont corrélés, mais ceci résulte de leur opposition à l’oxygène dissous et au potentiel rédox (Eh) plus que de l’action complexante du carbone organique sur le fer. Ceci confirme l'importance d'un plan de travail pour l'optimisation de la recherche: il faut avoir des idées claires de ce qu'on veut, ainsi qu'une idée (hypothèse) des réponses attendues et des interactions dans le système. Chaque table décrit un même objet à partir de plusieurs variables, qui représentent autant de dimensions dans l’espace des descripteurs. L’écologie numérique utilise deux stratégies visant à réduire la dimensionnalité des données (simplifier leur vision pour l’interprétation, dégager les grandes tendances de leur variabilité): 1. regrouper les objets ou les descripteurs présentant des similitudes (groupement); 2. représenter les relations entre objets ou descripteurs dans un nombre réduit de dimensions (ordination en espace réduit). On serait tenté d’utiliser une troisième solution, qui pourrait paraître plus simple : isoler les variables de manière à se situer dans le contexte familier des statistiques univariées. Plusieurs bonnes raisons militent en défaveur de ce choix. Limites des modèles statistiques unidimensionnels l Isolement d’une variable réponse l l Agrégation des variables de la communauté l l Ex. : régression entre l’abondance d’une espèce (y) et la température (x) dans n stations Ex. : régression multiple entre le nombre d’espèces (y) et p variables environnementales (x1…xm) dans n stations Problèmes avec l’utilisation de ces méthodes en contexte multidimensionnel l Utilisation partielle des données l l l Choix des espèces à sélectionner Perte d’information en cas d’agrégation Les réponses des différentes espèces sont dépendantes entre elles l l Les tests et modèles statistiques classiques sont invalides Ces variables doivent être considérées ensemble Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1 13 Dans un modèle statistique univarié, on considère une seule variable réponse (variable dépendante aléatoire). On peut par exemple tenter de prédire l’abondance de chaque espèce isolément, à l’aide d’une série de modèles de régression linéaire simple (une seule variable environnementale) ou multiple (plusieurs variables explicatives) ajustés aux données. Cette démarche étant très fastidieuse si le nombre d’espèces est élevé, on est contraint d’utiliser un nombre restreint (et arbitraire) d’espèces. Plus grave encore, les réponses des différentes 12/26 Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1 espèces aux conditions environnementales ne peuvent pas être considérées comme indépendantes les unes des autres, puisque les espèces interagissent dans la communauté : ces réponses multiples doivent donc être analysées ensemble et non séparément, en utilisant des méthodes statistiques multivariables. Recherche d’une structure dans les données l Classement manuel d’un tableau de données (diagonalisation) l l Permutation des lignes (espèces) et des colonnes (relevés) pour mettre en évidence des discontinuités ou un gradient de ressemblance Problèmes fréquents l l Discontinuités floues Plusieurs gradients R1 R2 R3 R4 S1 1 1 0 0 S2 0 1 0 0 S3 0 0 1 0 S4 1 0 1 1 R2 R1 R4 R3 S2 1 0 0 0 S1 1 1 0 0 S4 0 1 1 1 S3 0 0 0 1 Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1 14 Traditionnellement, le processus de diagonalisation est à la base du tri manuel d’un tableau de relevés floristiques ou faunistiques : on cherche à rassembler les valeurs les plus grandes (ici 1 = présence) à proximité de la diagonale du tableau. Si plusieurs gradients de ressemblance sont présents dans les données (ce qui est généralement le cas), il existera plusieurs solutions de diagonalisation et la séparation des groupes de relevés ou d’espèces restera imparfaite. Tout l’art de l’écologie numérique consiste à utiliser des méthodes multivariables pour découvrir les structures floues et complexes cachées dans les données. Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1 13/26 Les méthodes multivariées en écologie numérique l Exploration de la structure des données (approche descriptive, non supervisée) l l Recherche de discontinuités : groupement (clustering, class discovery) Recherche de gradients : ordination R1 Sp1 Sp2 R4 R6 R8 R2 Sp4 Sp3 R9 Sp6 Sp5 R5 R3 R7 Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1 15 Dans ce contexte exploratoire, les méthodes non supervisées (heuristiques) sont privilégiées. On ne se base sur aucun modèle ou hypothèse préalable et on cherche à découvrir les structures discontinues (groupes) ou continues (gradients) par l’application de deux grandes familles de méthodes, respectivement les groupements (classification automatique) et les ordinations en espace réduit. Les méthodes multivariées en écologie numérique (suite) l Modélisation statistique à partir des données (approche explicative, supervisée) l l l Analyse directe des discontinuités : arbres de classification et de régression (tree-based class prediction) Analyse directe des gradients : ordination canonique Tests d’hypothèses : test de Mantel R1 Sp1 Sp2 F1 R4 R6 R8 R9 Sp5 R5 F2 Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1 Sp4 R2 F3 Sp3 F4 Sp6 R3 R7 16 Mais décrire une structure ne suffit pas : les méthodes supervisées permettent d’expliquer les structures observées. Ici, on cherche à calibrer et à tester un modèle statistique multivarié liant les données « espèces » et « environnement », en postulant généralement que les structures des premières sont « expliquées » par les deuxièmes. 14/26 Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1 Dans ces méthodes, les données « espèces » sont contraintes de s’exprimer en fonction des données « environnement », que ce soit dans le contexte continu de l’ordination sous contrainte ou dans le contexte discontinu des arbres de décision. Toutes ces méthodes feront l’objet des chapitres suivants de ce cours. 1.3. Logiciels et ouvrages de référence Tous les exercices de ce cours se feront exclusivement avec R et quelques-unes de ses librairies spécialisées. Logiciels l R 2.5.1 pour Windows, Mac OS X ou Linux l l l Calcul matriciel, statistiques multivariées, groupement, ordination, etc. Logiciel statistique polyvalent, open source, clone de S-Plus Librairies dédiées à l’écologie numérique: vegan (Oksanen), ade4 (Chessel), … l l l l CANOCO 4.5 pour Windows (3.1 pour Mac OS 9) l l Ordination sans ou avec contrainte Logiciel commercial de référence (Ter Braak) l l l l Visualisation de données, analyses univariées et multivariées (ordination), séries temporelles Logiciel commercial interfacé avec R l http://www.brodgar.com/brodgar.htm MVSP 3.1 pour Windows l l Ordination sans (ou avec) contrainte, groupement, indices de diversité Logiciel commercial, simple à utiliser l l http://www.plant.dlo.nl/default.asp?section=products&page=/products/canoco/right.htm http://www.microcomputerpower.com Brodgar 2.5.2 pour Windows l l http://stat.ethz.ch/CRAN/ http://cc.oulu.fi/~jarioksa/softhelp/vegan.html http://pbil.univ-lyon1.fr/R/rplus/ http://www.kovcomp.com/mvsp/index.html Progiciel R 4.0d10 pour Mac OS 9 (ou Mac OS X en environnement Classic) l l Matrices d’association, groupement sans ou avec contrainte, test de Mantel, graphes d’ordinations Domaine public, développement inachevé (Legendre) l http://www.bio.umontreal.ca/Casgrain/en/labo/R/v4/telecharger.html Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1 17 Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1 15/26 1.4. Représentation et transformation des données Types de descripteurs écologiques l Binaires (booléens, qualitatifs à deux modalités) l Multiples l Non ordonnés (nominales, qualitatifs multiclasses) • • l Ex. : présence (1) ou absence (0) d’une espèce Ex. : type de sol, appartenance à un groupe (p. ex. suite à une analyse) Ordonnés l Semi-quantitatifs (ordinaux) • • l Ex. : faible – moyen – fort (codé 1 2 3) Ex. : code de dominance d’une espèce (r + 1 2 3 4 5) Quantitatifs (cardinaux) l Discrets • l Ex. : nombre d’individus d’une espèce (abondance s.s.) Continus • Ex. : biomasse, altitude Synthétiques (complexes) l • • Ex. : fréquence relative d’une espèce Ex. : rapport C/N de la matière organique Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1 19 Cette liste hiérarchique donne un aperçu la diversité des variables utilisées en écologie. Paradoxalement, le langage R que nous utiliserons pour nos analyses ne distingue que deux types de variables (vecteurs) : numeric (descripteurs quantitatifs discrets, continus ou synthétiques) et factor (descripteurs binaires, qualitatifs ou semi-quantitatifs). Cependant, loin d’être une limitation, cette simple distinction offre une grande souplesse dans la gestion des variables, comme nous le verrons avec les exemples. Représentation matricielle des données Matrice de données Ynp l l l l n vecteurs objets x1…xn en lignes p vecteurs descripteurs y1…yp en colonnes (variables) n x p valeurs yij à l’intersection des lignes et des colonnes (scalaires) Ynp Données généralement réparties en trois matrices l l l l Les objets (lignes) sont communs aux trois matrices (même dimension n, même ordre, mêmes étiquettes) Matrice « espèces » Ynp Matrice « environnement » Xnp’ Matrice « spatiale » Znp’’ Notation matricielle ⎡ y11 ⎢y 21 Y = yij = ⎢ ⎢ yi1 ⎢ ⎢⎣ yn1 y12 y22 y1 j y2 j yi 2 yn 2 yij ynj y1 y2 [ ] yj y1 p ⎤ y2 p ⎥⎥ yip ⎥ ⎥ ynp ⎥⎦ x1 x2 xi xn Vecteurs objets l Objets (i = 1 à n) Descripteurs (j = 1 à p) yp Vecteurs descripteurs Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1 20 Même si nous limiterons au minimum indispensable les développements mathématiques dans ce cours qui se veut essentiellement pratique, il faut savoir que les méthodes de l’écologie numérique sont essentiellement basées sur l’algèbre linéaire et le calcul matriciel. 16/26 Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1 La notation conventionnelle appliquée aux matrices sera utilisée tout au long du cours, notamment dans les équations et le langage R. En particulier, les objets correspondent toujours aux lignes (première dimension de la matrice) et les variables aux colonnes (deuxième dimension de la matrice). Exemple de matrice « espèces » n = 20 objets relevés p = 30 descripteurs espèces (codes de dominance) Belper Empnig Junbuf Junart Airpra Elepal Rumace Viclat Brarut x2 3 0 0 0 0 0 0 0 0 x13 0 0 3 0 0 0 0 0 0 x4 2 0 0 0 0 0 0 0 2 x16 0 0 0 3 0 8 0 0 4 x6 0 0 0 0 0 0 6 0 6 x1 0 0 0 0 0 0 0 0 0 x8 0 0 0 4 0 4 0 0 2 x5 2 0 0 0 0 0 5 0 2 x17 0 0 0 0 2 0 0 0 0 x15 0 0 0 3 0 5 0 0 4 x10 2 0 0 0 0 0 0 1 2 x11 0 0 0 0 0 0 0 2 4 x9 0 0 4 4 0 0 2 0 2 x18 2 0 0 0 0 0 0 1 6 x3 2 0 0 0 0 0 0 0 2 … … Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1 21 Ce tableau est un exemple classique d’une matrice « espèces » de relevés de prairies (végétation des dunes en Hollande, traité dans Jongman et al., 1987). La dominance de chaque espèce végétale (colonne) dans chaque relevé (ligne) est codée par une variable semi-quantitative entre 1 et 9 : ces classes représentent une série géométrique basée sur le recouvrement. Le code 0 signifie l’absence de l’espèce. On remarque que la proportion de zéros dans cette matrice est importante, ce qui est habituel dans les tableaux d’abondance d’espèces : elle est la conséquence de la diversité β ou diversité intercommunautés. On aurait tout aussi bien pu avoir cette table d’espèces avec seulement des présences/absences (variables binaires, ou qualitatives multiclasses à deux modalités, 0/1). Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1 17/26 Exemple de matrice « environnement » n = 20 objets relevés p’ = 5 descripteurs environnementaux (de différents types) A1 Moisture Management Use Manure x2 3.5 1 BF Haypastu 2 x13 6 5 SF Haypastu 3 x4 4.2 2 SF Haypastu 4 x16 5.7 5 SF Pasture 3 x6 4.3 1 HF Haypastu 2 x1 2.8 1 SF Haypastu 4 x8 4.2 5 HF Pasture 3 x5 6.3 1 HF Hayfield 2 x17 4 2 NM Hayfield 0 x15 11.5 5 NM Haypastu 0 x10 3.3 2 BF Hayfield 1 x11 3.5 1 BF Pasture 1 x9 3.7 4 HF Hayfield 1 x18 4.6 1 NM Hayfield 0 x3 4.3 2 SF Haypastu 4 … Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1 22 Les mêmes sites ont fait l’objet d’observations sur les conditions environnementales, consignées dans une deuxième table liée à la précédente par les identificateurs des lignes, qui sont triées dans le même ordre. On constate que cette matrice (ou plus exactement cette data frame dans le langage R) contient différents types de variables : 1. A1 (épaisseur de l’horizon A1 du sol) est une variable quantitative continue ; 2. Manure (fertilisation) est une variable quantitative discrète. 3. Moisture (humidité du sol) et Manure (fertilisation) sont des variables semiquantitatives (ordinales) codées par des nombres entiers ; 4. Management (mode de gestion) est une variable qualitative multiclasse (nominale) avec codage alphanumérique (BF : biological farming, HF : hobby farming, NM : nature conservation management, SF : standard farming). 5. Use (utilisation) est une variable qualitative multiclasse (nominale) ordonnée à trois niveaux : Hayfield < Haypastu < Pasture. L’ordre des modalités représente grossièrement l’importance de l’utilisation d’une prairie comme pâturage par rapport à l’utilisation comme prairie de fauche. Le codage alphanumérique est conseillé pour les variables nominales (non-ordered factors dans le langage R), alors qu’un codage numérique est préférable pour les variables ordinales, qui peuvent alors être considérées comme numeric ou ordered factor au choix de l’utilisateur. Mais d’autres options sont possibles, comme pour Use dans cet exemple. 18/26 Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1 Codage des variables qualitatives l Codage d’une variable qualitative multiclasse en plusieurs variables binaires l l l Générer v - 1 variables binaires (dummy variables) à partir d’une variable qualitative à v modalités (v > 2) Une des 4 variables binaires peut être éliminée (n’importe laquelle) car il n’y a que 3 variables indépendantes Exemple : 1 descripteur qualitatif 4 descripteurs binaires (dummy variables) Modalités Codes arbitraires Calcosol Brunisol Neoluvisol Calcisol Calcosol 1 1 0 0 0 Brunisol 2 0 1 0 0 Neoluvisol 3 0 0 1 0 Calcisol 4 0 0 0 1 Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1 23 Ce tableau illustre trois manières de coder une variable qualitative multiclasse : (1) en toutes lettres (première colonne), (2) avec des codes numériques arbitraires (deuxième colonne) ou (3) avec quatre (ou trois) variables binaires ou dummy variables. L’option (2) est dangereuse car si l’on ne prend pas la précaution de spécifier la variable comme factor, elle sera considérée comme une variable quantitative dans les analyses, ce qui n’a aucun sens dans ce cas ! Pour spécifier une variable y codée par des nombres comme une variable qualitative non ordonnée dans R : y = as.factor(y, ordered = FALSE) Pour les analyses qui requièrent des données quantitatives, comme la plupart des techniques d’ordination, chaque variable nominale multiclasse doit être transformée (3) en une série de variables binaires (dummy variables). Dans la plupart des analyses effectuées dans R, il n’est pas nécessaire de supprimer une dummy variable redondante (l’une d’elles sera automatiquement ignorée si nécessaire), sauf si l’on veut éviter que le programme élimine arbitrairement une modalité que l’on souhaite conserver. Ce codage en dummy variables est parfois fait automatiquement par certaines fonctions qui le nécessitent (voir Chapitre 5), sans qu’il soit nécessaire de créer une nouvelle data frame. Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1 19/26 Exemple de matrice « environnement » après codage des variables qualitatives n = 20 objets relevés p’ = 10 descripteurs environnementaux (de différents types) A1 Moisture Manure Hayfield Haypastu Pasture BF HF NM SF x2 3.5 1 3 0 1 0 1 0 0 0 x13 6 4 4 0 1 0 0 0 0 1 x4 4.2 2 5 0 1 0 0 0 0 1 x16 5.7 4 4 0 0 1 0 0 0 1 x6 4.3 1 3 0 1 0 0 1 0 0 x1 2.8 1 5 0 1 0 0 0 0 1 x8 4.2 4 4 0 0 1 0 1 0 0 x5 6.3 1 3 1 0 0 0 1 0 0 x17 4 2 1 1 0 0 0 0 1 0 x15 11.5 4 1 0 1 0 0 0 1 0 x10 3.3 2 2 1 0 0 1 0 0 0 x11 3.5 1 2 0 0 1 1 0 0 0 x9 3.7 3 2 1 0 0 0 1 0 0 x18 4.6 1 1 1 0 0 0 0 1 0 x3 4.3 2 5 0 1 0 0 0 0 1 … Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1 24 Dans cet exemple, la variable Use a été recodée en trois variables binaires (en rouge) et la variable Management en quatre variables binaires (en vert). Notons que l’information concernant l’ordre des modalités de la variable Use est perdue. Si l’on voulait la conserver, il faudrait plutôt considérer cette variable comme numeric (une seule colonne dans ce cas) : Use.num = numeric(20) Use.num[Use == "Hayfield"] = 1 Use.num[Use == "Haypastu"] = 2 Use.num[Use == "Pasture"] = 3 Une autre possibilité serait de recoder cette variable en deux variables binaires Hayfield et Pasture seulement en considérant la modalité Haypastu comme la réalisation simultanée des modalités Hayfield et Pasture : Hayfield = numeric(20) Hayfield[Use == "Hayfield"] = 1 Hayfield[Use == "Haypastu"] = 1 Pasture = numeric(20) Pasture[Use == "Pasture"] = 1 Pasture[Use == "Haypastu"] = 1 20/26 Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1 Transformation simple des données l Rendre quantitatifs des descripteurs semiquantitatifs l l Rendre binaires des descripteurs quantitatifs l l Transformation en classes Améliorer la distribution des descripteurs l l l l Ex. : transformation des abondances d’espèces en présence-absence (codage 1-0) Rendre qualitatifs ou semi-quantitatif des descripteurs quantitatifs l l Ex. : transformations des codes de dominance en recouvrements moyens (1) Transformation par la racine carrée (2) Transformation par le logarithme (3) Transformation par l’arcsinus (recommandé pour les proportions) yiʹ = yi + c (1) yiʹ = ln( yi + c) (2) yiʹ = arcsin yi (3) Rendre linéaires les descripteurs entre eux (2) Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1 25 Pour conserver la proportionnalité entre les valeurs d’un descripteur semi-quantitatif, on peut remplacer les codes de rang des classes (1, 2, 3, …) par la valeur centrale des classes dans la mesure d’origine et le traiter comme une variable continue. Cette substitution n’apporte cependant aucun gain de précision. Dans l’exemple ci-dessus, il s’agirait de remplacer les codes de 1 à 9 par la valeur centrale des intervalles de recouvrement (%) des espèces. Rendre quantitatives des données d’un degré de précision moindre n’est en principe admis que dans un cas comme celui-ci, lorsque l’on part du pourcentage de recouvrement (estimation quantitative) sur le terrain. Mais d’une manière générale, il faut éviter de redonner une précision artificielle (et donc forcément en partie arbitraire) à des données qui en sont dépourvues. Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1 21/26 • Transformation d’un descripteur quantitatif (teneur en oxygène) recodé en descripteur semi-quantitatif à intervalles égaux • Utile pour la comparaison avec un descripteur semi-quantitatif de précision inférieure (nappe, catégorie de rang, intervalles inégaux) • Les deux descripteurs peuvent éventuellement être traités comme des descripteurs quantitatifs Nappe, catégorie de rang 1 (>100 cm) rang 1 Teneur en oxygène (mg/l) 0.1, 0.2, 1, 2, 3, 4 , 2 (20-100 cm) 3 (0-20 cm) rang 2 5, 6, rang 3 7, Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1 8, 9, 10, 11, 12, 25’’ La transformation de descripteurs continus en classes équidistantes peut être utile pour la comparaison avec des descripteurs d’une précision inférieure, par exemple des descripteurs semi-quantitatifs, ou quand la précision des mesures ne permet de reconnaître qu'un petit nombre de classes distinctes de la métrique. Ces descripteurs peuvent alors toujours être traités comme des descripteurs quantitatifs. Mais des données quantitatives divisées en classes non équidistantes (par exemple pour faciliter la prise de données) devraient être utilisées comme des variables semi-quantitatives. Pour les descripteurs quantitatifs, différentes transformations sont souvent utiles voire nécessaires selon les analyses prévues. Les simples transformations affectent chaque valeur isolément et uniformément (1 à 3), alors que les standardisations tiennent compte du maximum, du minimum, de la moyenne et/ou de l’écart-type de la variable selon les lignes-objets ou/et les colonnes-descripteurs (4 à 11). Parmi les transformations simples des données, la transformation par la racine carrée ou par le logarithme (à base quelconque) sont souvent utilisées. Elles permettent souvent d’améliorer la normalité des distributions de fréquences des données et l’homogénéité de leurs variances (homoscedasticité), lesquelles devraient être indépendantes des moyennes, conditions requises pour certaines analyses et tests statistiques. La condition de la normalité des données doit absolument être remplie lors de l’utilisation des tests statistiques paramétriques. En revanche, les méthodes multivariables, qui souvent ne nécessitent pas ces tests, supportent des écarts à la normalité. Il n’en demeure pas moins que dans un tel cas, les résultats peuvent en être fortement marqués (p. ex. une analyse en composantes principales dont le premier axe représente essentiellement la variance liée à un objet très différent). L’examen graphique de la distribution des fréquences (histogramme) des divers descripteurs renseigne sur le comportement des variables. Il existe des techniques pour tester la normalité des données, et d'autres pour trouver la meilleure fonction de normalisation. Ces transformations donnent également moins de poids aux valeurs extrêmes (ex. cas d’une espèce localement très abondante). 22/26 Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1 Les quelques règles suivantes s’appliquent pour l’utilisation de la constante c dans la formule (2) : - Si les données sont en partie < 0 ou nulles, il faut leur faire subir une translation puisque le logarithme d’une valeur négative n’est pas défini. - Si on a des données y > 0, alors la translation n'est pas nécessaire. - Si les données sont fractionnaires entre 0 et 1, on peut multiplier par une constante c appropriée si on ne veut pas que la variable transformée contienne des valeurs négatives. - Si les donnés sont > 0 ou nulles, il convient de choisir une constante c qui soit de même ordre de grandeur que les variables de la valeur à transformer. Pour les dénombrements d'espèces, ceci conduit à c=1. - Le choix d'une base n'a pas d'incidence sur le pouvoir normalisateur, puisque le passage d'une base à l'autre est un simple changement d'échelle. L’usage général est le log naturel (ln). Dans le cas de variables représentant des pourcentages ou des proportions (variables bornées entre 0 et 1), la transformation par l’arcsinus est préconisée, notamment avant d’effectuer des régressions pour éviter de prédire des valeurs négatives ou supérieures à 100%, bien que l’interprétation des analyses effectuées après cette transformation soit souvent délicate. Rendre les données linéaires entre-elles peut être une nécessité méthodologique. Par exemple, diverses méthodes d'analyses se basent sur la corrélation ou la covariance linéaire. Toutefois, pour la clarté de l’interprétation, la transformation non linéaire doit trouver une justification dans la théorie biologique, et ne pas uniquement se faire pour des raisons de convenance mathématique. Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1 23/26 Standardisation des descripteurs l Rendre comparables des descripteurs mesurés dans des unités différentes l (4) Cadrage des valeurs entre 0 et 1 ou entre -1 et 1 (ranging) l l (5) Centrage et réduction (standardization, z-scores) l l l Pour des valeurs positives ou nulles et si le zéro n’est pas arbitraire, choisir la première formule Moyenne = 0 Écart-type = 1 (6) Transformation en valeurs relatives (proportions par descripteur, species profiles) l l Somme par descripteur = 1 Profils d’espèces : les différences d’abondance entre les espèces d’une même communauté ne sont pas conservées ! yiʹ = yi ymax yiʹ = zi = yi − y sy yijʹ = yij n ∑ yij = yi − ymin ymax − ymin (4) (5) yij y+ j (6) i =1 Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1 26 Afin de rendre comparables des descripteurs quantitatifs hétérogènes mesurés dans des unités différentes, comme c’est généralement le cas pour les variables environnementales (température, pH, altitude…), il est nécessaire de les standardiser. La première méthode consiste à les cadrer dans un intervalle généralement compris entre 0 et 1 ou entre -1 et 1, tout en respectant la proportionnalité des valeurs à l’intérieur de chaque variable. Si les valeurs brutes sont positives ou nulles et que la valeur 0 n’est pas arbitraire (ex : absence d’une espèce) et doit donc être conservée, il suffit de les diviser par la valeur maximale. Si le 0 est arbitraire (ex : température) ou s’il existe des valeurs négatives, la deuxième formule doit être utilisée. Une transformation couramment utilisée consiste en un centrage et une réduction des données (standardisation sensu stricto) de manière à ce que la moyenne soit égale à 0 et la variance (et donc l’écart-type) soit égale à 1. Les données ainsi centrées-réduites, aussi appelées z-scores, sont directement comparables car elles perdent toute référence à l’unité de mesure d’origine. Les données d’abondance d’espèces, même si elles sont homogènes, au sens ou elles s’expriment dans les mêmes unités dans la matrice (nombre d’individus, densité, recouvrement, fréquence, biomasse, etc.), peuvent être standardisées selon le même principe. En particulier, il est possible de transformer les abondances de manière à ce que les données expriment les contributions relatives de chaque objet à l’abondance de l’espèce, en la divisant par la somme des abondances de l’espèce dans tous les sites. On obtient ainsi des profils d’espèces (species profiles) ou abondances relatives par espèce. Dans ce cas, les différences d’abondance entre les espèces d’une même communauté ne sont plus prises en compte. Cette stratégie est préconisée quand on s’intéresse en priorité aux espèces et qu’on veut comparer leurs préférences écologiques (séparation de niche). 24/26 Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1 Standardisation des objets l Rendre comparables des objets dont les descripteurs ont des valeurs très différentes l (7) Transformation en valeurs relatives (proportions par objet, site profiles) l l l (8) Transformation de Hellinger l l Somme par objet = 1 Profils de sites : les différences d’abondance d’une espèce entre les sites ne sont pas conservées ! Recommandée pour ignorer les absences dans une matrice espèces yijʹ = yij l Chaque valeur est divisée par la norme (longueur) du vecteur objet La norme de chaque vecteur objet est ajustée à 1 yi + ∑ yij (7) j =1 yijʹ = (9) Normalisation des vecteurs objets l yij = p yijʹ = Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1 yij (8) yi + yij p 2 ij ∑y (9) j =1 27 Dans le cas d’une matrice « espèces » où les descripteurs sont tous comparables (même unité de mesure ou codage), il est parfois utile de standardiser les vecteurs objets (plutôt que les descripteurs) de manière à ce que leur total (7 et 8) ou leur norme (9) soit identique. La méthode la plus simple est de considérer les profils de sites (site profiles) ou abondances relatives par objet. Il suffit de diviser chaque abondance par la somme des abondances de toutes les espèces observées dans le même site. Cette approche est utile quand on s’intéresse avant tout aux objets et quand l’étude est orientée sur la composition spécifique des communautés biologiques, par exemple dans un objectif de biomonitoring (détection de changements dans l’environnement). Les différences d’abondance d’une espèce entre les sites ne sont alors pas prises en compte et les espèces ne peuvent plus être comparées entre elles. La transformation de Hellinger se calcule par la racine carrée des abondances relatives par objet. Elle est particulièrement recommandée pour préparer les données à une analyse directe des gradients basée sur la distance euclidienne (voir Chapitres 2 et 6). La normalisation des vecteurs objets est fréquemment utilisée pour comparer les communautés biologiques avec la distance de corde (voir Chapitre 2). Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1 25/26 Double standardisation l Standardisation conjointe des objets et des descripteurs l l l (10) Transformation par la métrique du Chi-carré (11) Transformation par la distance du Chi-carré Double transformation de Wisconsin Les descripteurs sont d’abord cadrés entre 0 et 1 (4) et les objets sont ensuite transformés en profils d’espèces (7) l l l yijʹ = S’appliquent à des données € homogènes et positives ou nulles (matrice « espèces ») Les variations de richesse spécifique entre objets et les variations d’abondance entre espèces sont ignorées ! yij yi + y+ j y ijʹ = y ++ yij y ij y i+ y + j (10) (11) valeur du descripteur j dans l’objet i somme des valeurs de tous les descripteurs dans le relevé i somme des valeurs du descripteur j dans tous les objets somme des valeurs de tous les descripteurs dans tous les objets yi+ y+j y++ Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1 28 La double standardisation des objets et des descripteurs (double profile) combine les avantages et les inconvénients des standardisations simples. C’est un compromis entre les études orientées vers les communautés et celles orientées vers les espèces qui supprime les effets des variations de richesse parmi les sites et des variations d’abondance parmi les espèces. Les analyses basées sur de telles transformations ne considèrent pas l’absence d’une espèce comme une information (voir Chapitres 2 et 5). Exemple des données Dune (matrice « espèces ») Simple species transformation By-species standardization 6 1.5 5 1.0 4 0.5 3 0.0 2 -0.5 1 -1.0 0 raw data sqrt log max By-site standardization 0.6 z-scores species profile Double standardization 0.8 0.5 0.6 0.4 0.3 0.4 0.2 0.2 0.1 0.0 0.0 rel Hellinger normalized Chi-square Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1 Wisconsin 29 L’application de ces transformations à la matrice « espèces » des données Dune permet d’illustrer leur effet sur les valeurs d’abondance d’une espèce fréquente (ici Brachythecium rutabulum). On remarque que la transformation par la racine carrée améliore la distribution de la variable, ainsi que la standardisation de Hellinger. La distribution dissymétrique est conservée 26/26 Master SIE – Notes du cours Écologie numérique – Collectif A. Buttler et F. Gillet – Chapitre 1 dans les données centrées-réduites ou normalisées, et aggravée dans les données doublement standardisées. Exemple des données Dune (matrice « environnement ») 4 3 0 0 1 2 Nombre d'objets 6 4 2 Nombre d'objets 5 6 Simple transformation 8 Données brutes 2 4 6 8 10 12 1.0 1.5 2.0 ln(A1) Transformation en variable qualitative Boxplots par classe 2.5 2.2 1.4 1.8 ln(A1) 4 3 2 0 1.0 1 Nombre d'objets 5 6 A1 (épaisseur) [2.8,3.5] (3.5,4.2] (4.2,5.73] Classes d'épaisseur (5.73,11.5] [2.8,3.5] (3.5,4.2] (4.2,5.73] (5.73,11.5] Classes d'épaisseur Écologie numérique - Collectif A. Buttler et F. Gillet - Chap. 1 30 Pour transformer une variable quantitative (ici la variable A1 représentant l’épaisseur de l’horizon A1) en variable qualitative (factor en langage R) : env$A1f = factor(cut(env$A1, breaks=unique(quantile(env$A1, seq(0,1,length=5))), include=T)) À moins de spécifier cette variable comme ordered factor (ajouter l’argument ordered = TRUE dans la fonction cut), l’information sur le rang des valeurs est perdue. Cette série de graphiques illustre l’efficacité de cette transformation par rapport à une simple transformation par la racine carrée : par(mfrow=c(2,2)) hist(env$A1, col="bisque", right=F, main="Données brutes", xlab="A1 (épaisseur)", ylab="Nombre d'objets") hist(log(env$A1), col="bisque", right=F, main="Simple transformation", xlab="ln(A1)", ylab="Nombre d'objets") barplot(table(env$A1f), col=terrain.colors(4), main="Transformation en variable qualitative", xlab="Classes d'épaisseur", ylab="Nombre d'objets") boxplot(log(env$A1) ~ env$A1f, col=terrain.colors(4), varwidth=T, xlab="Classes d'épaisseur", ylab="ln(A1)", main="Boxplots par classe") Les exemples de ce chapitre et des suivants sont essentiellement appliqués aux données Dune. Le code R détaillé pour ce Chapitre est contenu dans le fichier d’analyse Dune1.R du dossier R:\ECOS\EcoNum\Worked Examples\Dune.