F. Gosselin

publicité
Des modèles statistiques non-linéaires à effets mixtes
et leurs extensions
pour analyser la réponse de « la » biodiversité à des
variables écologiques
Frédéric Gosselin
[email protected]
Cemagref
Equipe Biodiversité et Gestion des Forêts de Plaine
Nogent-sur-Vernisson
F. Gosselin
Contexte
-> Engagement des sociétés contemporaines à enrayer le taux
d’extinction d’espèces (actuellement env. 100 à 1000 fois plus fort que
le rythme d’extinction « normal »), d’habitats, de gènes….
… à travers différents accords internationaux (exemple : Convention
internationale sur la biodiversité).
F. Gosselin
Contexte
-> De gros efforts pour identifier les espèces les plus menacées (par
exemple: UICN);
outils quantitatifs associés: modèles probabilistes d’extinction de
populations
F. Gosselin
Contexte
-> Des efforts en cours pour évaluer les tendances et les réponses à
la gestion d’espèces plus communes;
outils quantitatifs associés: modèles démographiques ou modèles
statistiques.
F. Gosselin
But général de notre équipe
-> A partir d’estimations sur le terrain d’abondance ou de présence
d’espèces (herbacées, insectes…), relier :
– l’abondance ou la présence d’espèces…
à des variables associées à la gestion forestière (ex: volume de bois
mort, composition en essences…)…
… et pouvoir les comparer entre études (visée ultime de métaanalyses).
F. Gosselin
But général de notre équipe
-> Approche le plus souvent observationnelle et synchronique ; parfois
expérimentale.
-> Approche basée sur des hypothèses a priori sur :
(i) le meilleur modèle écologique (comparaison de modèles) ;
Et
(ii) le sens voire la magnitude des effets (tests…).
F. Gosselin
Nature des données
-> Nos variables à expliquer sont des données d’abondance, de
richesse ou de présence :
– elles sont positives ;
– elles contiennent le plus souvent beaucoup de zéros (jusqu’à
95%) et contiennent souvent quelques points très aberrants ;
– elles peuvent être continues (ou pseudo-continues) ou
discrètes ;
– elles sont structurées dans l’espace.
F. Gosselin
Nature des données
2
residual
0
5
-2
0
-5
residual
10
15
4
-> Illustration : points aberrants / distribution non normale :
-2
0
quantiles of standard normal
2
-2
0
quantiles of standard normal
2
F. Gosselin
Modèles statistiques envisagés
-> Calage de modèles multi-espèces :
ys,ijk=f(bs,xs,ijk)+es,i*ws,ijk+es,ij*ws,ijk+es,ijk*ws,ijk
où s est l’indice correspondant aux espèces et où on suppose –
provisoirement – l’indépendance entre espèces (i.e. entre es,… et es’,…).
But: tester des théories / hypothèses au niveau du cortège d’espèces.
F. Gosselin
Modèles statistiques envisagés
-> Nécessité de la non-linéarité :
1 – pour forcer la valeur prédite à être positive : exemples :
f(b,xijk) = exp(b1*x1,ijk)
ou:
f(b,xijk) = log(exp(b*xijk)+1)
F. Gosselin
Modèles statistiques envisagés
-> Utilisation de la non-linéarité :
2 – pour permettre des liens non-linéaires aux variables
écologiques (ex: modèle gaussien de réponse de l’abondance d’un
espèce à la position sur un gradient écologique) :
f(b,xijk) = exp(-(x1,ijk- b1)2/ b22 + b3)
F. Gosselin
Modèles statistiques envisagés
-> Nécessité d’effets aléatoires – ou de structure marginale – pour
rendre compte des corrélations entre observations :
– mesures répétées au même endroit (ex: piégeage d’insectes
à différentes saisons) ;
et/ou – structure spatiale emboîtée du plan d’échantillonnage.
 Effets aléatoires additifs ou multiplicatifs ?
 Quelle distribution de probabilité ?
 Dans le cas additif: Effets aléatoires hétéroscédastiques ?
F. Gosselin
Modèles statistiques envisagés
-> Envisager d’incorporer de l’hétéroscédasticité, notamment de lien
assez fort entre variance résiduelle et valeur prédite.
 Hétéroscédasticité optimisée dans le modèle ou à l’extérieur ?
 Hétéroscédasticité vs pas hétéroscédasticité ?
-> Distributions de probabilité : gaussienne vs distributions sur
données discrètes vs distributions sur données strictement positives.
F. Gosselin
Voie de recherche n°1: rester en gaussien !
-> Robustesse du gaussien et méfiance vis-à-vis des modèles de la
famille exponentielle impliquant un lien rigide variance – moyenne (ex:
Poisson, négative binomiale), sur la base d’un travail de simulation de:
White, G. C. and Bennetts, R. E. 1996. Analysis of frequency count data
using the negative binomial distribution. - Ecology 77: 2549-2557
F. Gosselin
Voie de recherche n°1: rester en gaussien !
-> Résultats de White & Bennetts (1996):
F. Gosselin
Voie de recherche n°1: rester en gaussien !
-> Résultats de White & Bennetts (1996):
F. Gosselin
Voie de recherche n°1: rester en gaussien !
-> Poursuivre le travail de White & Bennetts (1996) dans notre cadre
de travail – hiérarchique, non-linéaire, hétéroscédastique – et en
généralisant à la régression avec co-variables.
 La distribution gaussienne est-elle toujours robuste dans ces
nouvelles conditions ?
F. Gosselin
Voie de recherche n°2: distributions plus naturelles !
-> Notamment mélange binomiale – distribution de proba sur R+*.
 Choix des lois dans le modèle ou à l’extérieur du modèle
(diagnostics) ?
 Comparaison par rapport aux modèles gaussiens.
F. Gosselin
Voie de recherche n°2: distributions plus naturelles !
Comparer (via simulation) dans un contexte hiérarchique,
distribution normale, distributions de la famille exponentielle et
mélange binomiale / autre chose (gamma, log-normale, normale…),
avec les objectifs :
– bonnes erreurs de type I et II ;
– outils de comparaisons de modèles ;
– bonnes distributions des valeurs prédites.
F. Gosselin
Problèmes numériques à régler
-> Trouver une solution numérique plus souple que S-plus/nlme
et plus rapide/fiable que winbugs pour pouvoir caler des modèles de
structures variées sur des gros jeux de données.
Piste: MCMC en C++.
F. Gosselin
Voie de recherche n°1: rester en gaussien !
-> Résultats de White & Bennetts (1996):
– 64 tirages au sort selon une binomiale négative dans 4
populations, soit de paramètres égaux, soit de paramètres différents
(m et/ou k);
– calage d’une ANOVA (homoscédastique), de glm poissoniens
et de modèles basés sur la négative binomiale, avec des effets
« population »;
Téléchargement