Modèles statistiques non linéaires mixtes pour données de comptage : application Bayésienne au cas de la relation entre bois mort et diversité saproxylique Stage proposé par Frédéric Gosselin & Christophe Bouget IRSTEA, Nogent-sur-Vernisson 02 38 95 03 58 [email protected] Jérémy Piffady & Kris Van-Looy IRSTEA, Lyon-Villeurbanne 04 72 20 86 23 [email protected] Les indicateurs de biodiversité sont souvent proposés et/ou mis à l’épreuve à partir d’analyses statistiques plus ou moins élaborées mettant en relation l’indicateur et différentes mesures de biodiversité. Même si les modèles statistiques incorporent de plus en plus souvent la structure spatiale du jeu de données, une hypothèse très fréquente en écologie est que la relation entre l’indicateur et la biodiversité est constante dans l’espace – ce qui implique statistiquement des relations trop optimistes sur le plan de la significativité statistique (Schielzeth, H., and W. Forstmeier. 2009). Des premiers essais pour lever cette hypothèse dans un contexte fréquentiste ou dans un contexte Bayésien de relation non-linéaire se sont soldés par un échec, lié à la non convergence des modèles (relation entre volume de bois mort et biodiversité saproxylique). Des pistes existent pour estimer ces modèles dans le cadre Bayésien des modèles hiérarchiques. L’objet de ce stage est de les explorer, à la fois en écologie terrestre et aquatique. Les indicateurs testés seront différentes métriques associées au bois mort (écologie terrestre) et aux ripisylves (écologie aquatique). Ces indicateurs sont souvent mis en regard de variables de biodiversité – souvent un nombre d’espèces – pour mieux cerner leur pertinence. La mise en relation entre indicateurs et mesures de biodiversité se fait généralement à travers des modèles statistiques cherchant à expliquer les variations de la métrique de biodiversité par celles de l’indicateur – en incorporant le cas échéant d’autres facteurs de la niche (Zilliox & Gosselin, 2014). Nous avons déjà commencé à mener ce type de travaux pour des indicateurs associés à l’ouverture/fermeture du peuplement, le nombre d’essences d’arbres (Barbier et al., 2009 ; Zilliox & Gosselin, 2014) ou le volume de bois mort ou d’autres indicateurs associés au bois mort (Bouget et al., 2013, 2014). Cette mise en relation se complique quelque peu quand on souhaite envisager des formes non-linéaires de relation (Bouget et al. In Prep. ; Gosselin et al. In Prep.), a priori plus pertinentes sur un plan écologique ou pour le transfert aux gestionnaires (fonctions seuil). Nous envisageons ici de développer des relations espèces-ressources (SRRs), analogues aux relations aire-espèces de la biogéographie insulaire. L’étude de la relation entre indicateurs et biodiversité se complique encore quand nous souhaitons inclure une structure probabiliste cohérente avec la nature des données (Gosselin, 2011b), et enfin quand on envisage une relation entre métrique de biodiversité et indicateur qui varie dans l’espace (Schielzeth & Forstmeier, 2009). C’est un point sur lequel nous avons récemment buté (Bouget et al. In Prep. ; Gosselin et al. In Prep), réussissant à estimer correctement des modèles nonlinéaires homothétiques les uns des autres d’un massifs à l’autre (Bouget et al. In Prep. ; effet aléatoire uniquement sur l’intercept) mais ne réussissant pas à obtenir des modèles statistiques convergents dans le cas de modèles non-linéaires « complètement » variables (intercept et paramètre(s) d’intensité de la relation) dans l’espace (que ce soit avec des techniques fréquentistes ou des techniques Bayésiennes). Or, comme le soulignent Schielzeth & Forstmeier, 2009, dans le cas où ces relations sont effectivement variables dans l’espace (ou entre individus), utiliser un modèle à paramètres constants donne une mauvaise estimation de l’intervalle de confiance, ce qui peut impliquer des estimateurs trop précis. C’est ce que nous avons observé dans le projet GNB, où certains des meilleurs modèles étaient des modèles linéaires variables d’un massif forestier à l’autre (Gosselin et al., In prep.). La prise en compte d’une forme de courbe non-linéaire entre individus est une pratique courante – voire centrale – en épidémiologie ou en pharmacocinétique (Pillai et al., 2005). Il serait souhaitable que nous disposions de ce type d’outils en écologie, avec des distributions de probabilités adaptées (données de comptage notamment). De fait, Bolker et al. (2013) proposent des exemples d’implémentation de modèles non-linéaires pour l’écologie mais les deux seuls modèles avec pente aléatoire sont soit des modèles avec distribution de probabilité gaussienne, soit une distribution binomiale et une fonction de lien peu non-linéaire, au contraire des fonctions que nous envisageons d’estimer. Ce stage visera à évaluer la capacité de différents outils informatiques pour estimer des relations non-linéaires variables dans l’espace et incorporant des distributions de probabilité de comptage. Une approche par simulation pourra être envisagée sur un cas numériquement simple (cf. par exemple Saas & Gosselin, 2014a). L’essentiel de l’approche sera néanmoins développée autour de jeux de données réels en comparant plusieurs méthodes d’estimation. Nous testerons deux ou trois plateformes informatiques pour ce faire, parmi : le logiciel WinBugs appelé à partir de R ; le logiciel Stan appelé à partir de R ; et un algorithme MCMC adaptatif en cours de développement à Nogent sur Vernisson (autour de Miasojedow et al., 2013 & Gregory, 2011). Nous comparerons ces méthodes par des estimations répétées à partir de valeurs de départ différentes sur lesquelles seront analysées (i) leurs convergences ; (ii) la stabilité de l’estimation ; (iii) des p-valeurs d’ajustement (cf. Gosselin, 2011a). ### Profil souhaité du candidat(e) : Pour effectuer ce stage, nous recherchons un étudiant en stage de Master 2 de bio-statistiques, statistiques appliquées ou mathématiques appliquées avec une bonne formation en statistiques ou un étudiant en stage d'école d'ingénieur avec une bonne formation en statistiques. Des étudiants en écologie, motivés par les aspects statistiques plus fondamentaux, peuvent aussi proposer leur candidature. Les qualités et compétences souhaitées sont : - intérêt pour la thématique écologique - bonnes connaissances en statistiques Bayésiennes et fréquentistes - bonne connaissance du logiciel R - formé aux méthodes scientifiques (bibliographie, hypothèses…) - bonnes capacités rédactionnelles et relationnelles - anglais nécessaire ### Conditions matérielles Le montant de la rémunération est de 436,05 euros mensuels. Le stage sera effectué à Nogent-sur-Vernisson où un accueil dans des chambres étudiantes est possible sur le domaine des Barres (suivant disponibilité), pour un montant d’environ 100 euros mensuels. Un ou deux déplacements défrayés à Lyon sont également envisagés. Bibliographie: Barbier, S., R. Chevalier, P. Loussot, L. Bergès and F. Gosselin, 2009. Improving biodiversity indicators of sustainable forest management: tree genus abundance rather than tree genus richness and dominance for understory vegetation in French lowland oak hornbeam forests. Forest Ecology and Management, 258( ), S176-S186. Bolker, B. M., B. Gardner, M. Maunder, C. W. Berg, M. Brooks et al., 2013. Strategies for fitting nonlinear ecological models in R, AD Model Builder, and BUGS. Methods in Ecology and Evolution, 4(6), 501-512. Bouget, C., G. Parmain, O. Gilg, Th. Noblecourt, B. Nusillard et al., 2014. Does a set-aside conservation strategy help the restoration of old-growth forest attributes and recolonization by saproxylic beetles? Animal Conservation. Bouget, C., L. Larrieu, B. Nusillard and G. Parmain, 2013. In search of the best local habitat drivers for saproxylic beetle diversity in temperate deciduous forests. Biodiversity & Conservation, 22(9), 2111-2130. Bouget, C, Gosselin, F. & Brin, A. (In Prep.) Empirical shape of the relationship between deadwood and associated biodiversity an investigation using Species-Area Relationships (SARs) models Gosselin, F., 2011a. A New Calibrated Bayesian Internal Goodness-of-Fit Method: Sampled Posterior p-values as Simple and General p-values that Allow Double Use of the Data. Plos One, 6(3), e14770. Gosselin, F., 2011b. Propositions pour améliorer l'équipement biométrique du détective écologique. Application à la modélisation de la relation entre gestion forestière et biodiversité. HDR Thesis, Université Pierre et Marie Curie, Paris. Gosselin, F., Paillet, Y., Gosselin, M. et al. In Prep. Rapport du projet de recherche GNB 5Gestion, Naturalité, Biodivesité. Gregory, P. C., 2011. Bayesian exoplanet tests of a new method for MCMC sampling in highly correlated model parameter spaces. Monthly Notices of the Royal Astronomical Society, 410(1), 94-110. Miasojedow, B., E. Moulines and M. Vihola, 2013. An adaptive parallel tempering algorithm. Journal of Computational and Graphical Statistics, 22(3), 649-664. Pillai, G., F. Mentré and J. L. Steimer, 2005. Non-linear mixed effects modeling - From methodology and software development to driving implementation in drug development science. Journal of Pharmacokinetics and Pharmacodynamics, 32(2), 161-183. Saas, Y. and F. Gosselin, 2014. Simulation-based comparative analysis of spatial count regression methods on regularly and irregularly-spaced locations. Ecography. Schielzeth, H. and W. Forstmeier, 2009. Conclusions beyond support: Overconfident estimates in mixed models. Behavioral Ecology, 20(2), 416-420. Zilliox, C. and F. Gosselin, 2014. Tree species diversity and abundance as indicators of understory diversity in French mountain forests: Variations of the relationship in geographical and ecological space. Forest Ecology and Management, 321, 105-116.