1 - Institut de Mathématiques de Toulouse

publicité
Modèles statistiques non linéaires mixtes pour données de comptage : application
Bayésienne au cas de la relation entre bois mort et diversité saproxylique
Stage proposé par
Frédéric Gosselin & Christophe Bouget
IRSTEA, Nogent-sur-Vernisson
02 38 95 03 58
[email protected]
Jérémy Piffady & Kris Van-Looy
IRSTEA, Lyon-Villeurbanne
04 72 20 86 23
[email protected]
Les indicateurs de biodiversité sont souvent proposés et/ou mis à l’épreuve à partir d’analyses statistiques plus ou
moins élaborées mettant en relation l’indicateur et différentes mesures de biodiversité. Même si les modèles statistiques
incorporent de plus en plus souvent la structure spatiale du jeu de données, une hypothèse très fréquente en écologie est que
la relation entre l’indicateur et la biodiversité est constante dans l’espace – ce qui implique statistiquement des relations trop
optimistes sur le plan de la significativité statistique (Schielzeth, H., and W. Forstmeier. 2009). Des premiers essais pour lever
cette hypothèse dans un contexte fréquentiste ou dans un contexte Bayésien de relation non-linéaire se sont soldés par un
échec, lié à la non convergence des modèles (relation entre volume de bois mort et biodiversité saproxylique). Des pistes
existent pour estimer ces modèles dans le cadre Bayésien des modèles hiérarchiques. L’objet de ce stage est de les explorer, à la
fois en écologie terrestre et aquatique. Les indicateurs testés seront différentes métriques associées au bois mort (écologie
terrestre) et aux ripisylves (écologie aquatique).
Ces indicateurs sont souvent mis en regard de variables de biodiversité – souvent un nombre d’espèces – pour mieux
cerner leur pertinence. La mise en relation entre indicateurs et mesures de biodiversité se fait généralement à travers des
modèles statistiques cherchant à expliquer les variations de la métrique de biodiversité par celles de l’indicateur – en
incorporant le cas échéant d’autres facteurs de la niche (Zilliox & Gosselin, 2014). Nous avons déjà commencé à mener ce type
de travaux pour des indicateurs associés à l’ouverture/fermeture du peuplement, le nombre d’essences d’arbres (Barbier et al.,
2009 ; Zilliox & Gosselin, 2014) ou le volume de bois mort ou d’autres indicateurs associés au bois mort (Bouget et al., 2013,
2014). Cette mise en relation se complique quelque peu quand on souhaite envisager des formes non-linéaires de relation
(Bouget et al. In Prep. ; Gosselin et al. In Prep.), a priori plus pertinentes sur un plan écologique ou pour le transfert aux
gestionnaires (fonctions seuil). Nous envisageons ici de développer des relations espèces-ressources (SRRs), analogues aux
relations aire-espèces de la biogéographie insulaire.
L’étude de la relation entre indicateurs et biodiversité se complique encore quand nous souhaitons inclure une
structure probabiliste cohérente avec la nature des données (Gosselin, 2011b), et enfin quand on envisage une relation entre
métrique de biodiversité et indicateur qui varie dans l’espace (Schielzeth & Forstmeier, 2009). C’est un point sur lequel nous
avons récemment buté (Bouget et al. In Prep. ; Gosselin et al. In Prep), réussissant à estimer correctement des modèles nonlinéaires homothétiques les uns des autres d’un massifs à l’autre (Bouget et al. In Prep. ; effet aléatoire uniquement sur
l’intercept) mais ne réussissant pas à obtenir des modèles statistiques convergents dans le cas de modèles non-linéaires
« complètement » variables (intercept et paramètre(s) d’intensité de la relation) dans l’espace (que ce soit avec des techniques
fréquentistes ou des techniques Bayésiennes). Or, comme le soulignent Schielzeth & Forstmeier, 2009, dans le cas où ces
relations sont effectivement variables dans l’espace (ou entre individus), utiliser un modèle à paramètres constants donne une
mauvaise estimation de l’intervalle de confiance, ce qui peut impliquer des estimateurs trop précis. C’est ce que nous avons
observé dans le projet GNB, où certains des meilleurs modèles étaient des modèles linéaires variables d’un massif forestier à
l’autre (Gosselin et al., In prep.). La prise en compte d’une forme de courbe non-linéaire entre individus est une pratique
courante – voire centrale – en épidémiologie ou en pharmacocinétique (Pillai et al., 2005). Il serait souhaitable que nous
disposions de ce type d’outils en écologie, avec des distributions de probabilités adaptées (données de comptage notamment).
De fait, Bolker et al. (2013) proposent des exemples d’implémentation de modèles non-linéaires pour l’écologie mais les deux
seuls modèles avec pente aléatoire sont soit des modèles avec distribution de probabilité gaussienne, soit une distribution
binomiale et une fonction de lien peu non-linéaire, au contraire des fonctions que nous envisageons d’estimer.
Ce stage visera à évaluer la capacité de différents outils informatiques pour estimer des relations non-linéaires variables dans
l’espace et incorporant des distributions de probabilité de comptage. Une approche par simulation pourra être envisagée sur un
cas numériquement simple (cf. par exemple Saas & Gosselin, 2014a). L’essentiel de l’approche sera néanmoins développée
autour de jeux de données réels en comparant plusieurs méthodes d’estimation. Nous testerons deux ou trois plateformes
informatiques pour ce faire, parmi : le logiciel WinBugs appelé à partir de R ; le logiciel Stan appelé à partir de R ; et un
algorithme MCMC adaptatif en cours de développement à Nogent sur Vernisson (autour de Miasojedow et al., 2013 & Gregory,
2011). Nous comparerons ces méthodes par des estimations répétées à partir de valeurs de départ différentes sur lesquelles
seront analysées (i) leurs convergences ; (ii) la stabilité de l’estimation ; (iii) des p-valeurs d’ajustement (cf. Gosselin, 2011a).
### Profil souhaité du candidat(e) :
Pour effectuer ce stage, nous recherchons un étudiant en stage de Master 2 de bio-statistiques, statistiques appliquées ou
mathématiques appliquées avec une bonne formation en statistiques ou un étudiant en stage d'école d'ingénieur avec une
bonne formation en statistiques. Des étudiants en écologie, motivés par les aspects statistiques plus fondamentaux, peuvent
aussi proposer leur candidature. Les qualités et compétences souhaitées sont :
- intérêt pour la thématique écologique
- bonnes connaissances en statistiques Bayésiennes et fréquentistes
- bonne connaissance du logiciel R
- formé aux méthodes scientifiques (bibliographie, hypothèses…)
- bonnes capacités rédactionnelles et relationnelles
- anglais nécessaire
### Conditions matérielles
Le montant de la rémunération est de 436,05 euros mensuels. Le stage sera effectué à Nogent-sur-Vernisson où un accueil dans
des chambres étudiantes est possible sur le domaine des Barres (suivant disponibilité), pour un montant d’environ 100 euros
mensuels. Un ou deux déplacements défrayés à Lyon sont également envisagés.
Bibliographie:
Barbier, S., R. Chevalier, P. Loussot, L. Bergès and F. Gosselin, 2009. Improving biodiversity indicators of sustainable forest
management: tree genus abundance rather than tree genus richness and dominance for understory vegetation in French
lowland oak hornbeam forests. Forest Ecology and Management, 258( ), S176-S186.
Bolker, B. M., B. Gardner, M. Maunder, C. W. Berg, M. Brooks et al., 2013. Strategies for fitting nonlinear ecological models in R,
AD Model Builder, and BUGS. Methods in Ecology and Evolution, 4(6), 501-512.
Bouget, C., G. Parmain, O. Gilg, Th. Noblecourt, B. Nusillard et al., 2014. Does a set-aside conservation strategy help the
restoration of old-growth forest attributes and recolonization by saproxylic beetles? Animal Conservation.
Bouget, C., L. Larrieu, B. Nusillard and G. Parmain, 2013. In search of the best local habitat drivers for saproxylic beetle diversity
in temperate deciduous forests. Biodiversity & Conservation, 22(9), 2111-2130.
Bouget, C, Gosselin, F. & Brin, A. (In Prep.) Empirical shape of the relationship between deadwood and associated biodiversity an investigation using Species-Area Relationships (SARs) models
Gosselin, F., 2011a. A New Calibrated Bayesian Internal Goodness-of-Fit Method: Sampled Posterior p-values as Simple and
General p-values that Allow Double Use of the Data. Plos One, 6(3), e14770.
Gosselin, F., 2011b. Propositions pour améliorer l'équipement biométrique du détective écologique. Application à la
modélisation de la relation entre gestion forestière et biodiversité. HDR Thesis, Université Pierre et Marie Curie, Paris.
Gosselin, F., Paillet, Y., Gosselin, M. et al. In Prep. Rapport du projet de recherche GNB 5Gestion, Naturalité, Biodivesité.
Gregory, P. C., 2011. Bayesian exoplanet tests of a new method for MCMC sampling in highly correlated model parameter
spaces. Monthly Notices of the Royal Astronomical Society, 410(1), 94-110.
Miasojedow, B., E. Moulines and M. Vihola, 2013. An adaptive parallel tempering algorithm. Journal of Computational and
Graphical Statistics, 22(3), 649-664.
Pillai, G., F. Mentré and J. L. Steimer, 2005. Non-linear mixed effects modeling - From methodology and software development
to driving implementation in drug development science. Journal of Pharmacokinetics and Pharmacodynamics, 32(2), 161-183.
Saas, Y. and F. Gosselin, 2014. Simulation-based comparative analysis of spatial count regression methods on regularly and
irregularly-spaced locations. Ecography.
Schielzeth, H. and W. Forstmeier, 2009. Conclusions beyond support: Overconfident estimates in mixed models. Behavioral
Ecology, 20(2), 416-420.
Zilliox, C. and F. Gosselin, 2014. Tree species diversity and abundance as indicators of understory diversity in French mountain
forests: Variations of the relationship in geographical and ecological space. Forest Ecology and Management, 321, 105-116.
Téléchargement