UFR SCIENCES ET MODELISATION UNIVERSITE DE BORDEAUX 2 ACADEMIE DE BORDEAUX MASTER INGENIERIE MATHEMATIQUE, STATISTIQUE ET ECONOMIQUE, SPECIALITE STATISTIQUE ET FIABILITE MODÉLISATION DE LA RÉPARTITION DE LA PRÉSENCE D’ESPÈCES VÉGÉTALES DE CHAINES MONTAGNEUSES ET COMPARAISON DE LEUR GRADIENT ALTITUDINAL PAR MÉTHODE DE BOOTSTRAP Rapport de stage de première année présenté en septembre 2010 par Eyermann Audrey Stage effectué à l’Unité Mixte de Recherche « Biodiversité, Gènes et Communautés » Bâtiment B8, Avenue des Facultés Laboratoire Ecologie des Communautés 33405 Talence REMERCIEMENTS Je tiens à remercier Annabel Porté, enseignant chercheur au Laboratoire Biogeco, pour m’avoir accueilli au sein de ce laboratoire et m’ayant permis de découvrir le domaine de l’écologie des communautés. Je remercie également Vincent Couallier, Maître de Conférence à l’Université Bordeaux 2, pour m’avoir offert la possibilité d’effectuer ce stage et m’avoir guidé dans mon travail. Je tiens à remercier enfin l’ensemble du personnel du laboratoire pour leurs conseils et leur sympathie. SOMMAIRE SOMMAIRE ...................................................................................................................................... 4 INTRODUCTION ...................................................................................................................................... 5 PARTIE I : Présentation de la structure d’accueil ..................................................................................... 7 I. Thèmes de recherche de la structure d’accueil ................................................................... 7 II. Organigramme du laboratoire .............................................................................................. 8 PARTIE II : Présentation de l’étude du gradient altitudinal d’espèces végétales dans une chaîne montagneuse .............................................................................................................................. 9 I. Contexte général de l’étude ................................................................................................... 9 II. Intérêt de l’étude des gradients altitudinaux ..................................................................... 12 III. Etudes antérieures portant sur les variations de distribution d’espèces le long d’un gradient altitudinal ................................................................................................................ 14 PARTIE III : Données et méthodes statistiques........................................................................................ 16 I. Présentation des données de l’étude .................................................................................. 16 II. Méthodes de l’analyse statistique ........................................................................................ 20 PARTIE IV : Résultats de l’analyse .............................................................................................................. 33 I. Ajustements de la répartition de la présence des espèces de feuillus à l’aide des modèles logistique, HOF IV et HOF V............................................................................ 33 II. Obtention de la valeur de l’optimum du gradient altitudinal des espèces végétales et de son intervalle de confiance ........................................................................................ 36 DISCUSSION ET CONCLUSION ............................................................................................................ 45 BIBLIOGRAPHIE .................................................................................................................................... 47 TABLE DES FIGURES ET TABLEAUX ................................................................................................ 50 TABLE DES ANNEXES ............................................................................................................................. 52 ANNEXES .................................................................................................................................... 54 TABLE DES MATIERES ............................................................................................................................ 77 INTRODUCTION Les changements climatiques de ces dernières années préoccupent les écologistes de par leur rapidité et leur amplitude. En effet ils auraient des conséquences plus ou moins importantes sur les niches écologiques des espèces végétales, notamment dans les domaines montagneux. De nombreuses études ont montré que l’analyse du gradient altitudinal d’une espèce permettrait de mettre en évidence l’influence du facteur climatique sur les écosystèmes au cours du temps notamment en comparant la valeur de l’altitude où l’espèce est la plus abondante pour deux périodes données. C’est dans le but d’évaluer l’adaptation des espèces végétales aux modifications du facteur climatique que le laboratoire Biogeco travaille sur les données de l’inventaire forestier espagnol qui a recensé au cours de l’année 1995 et en 2007 les espèces de feuillus présentes à chaque altitude de la chaîne des Pyrénées et du système ibérique. Ainsi pour l’étude du gradient altitudinal de chaque espèce ont été notées les altitudes où elles sont présentes pour chaque inventaire et pour chaque localisation. L’étude, qui va suivre, porte uniquement sur les données de cinq espèces de feuillus qui sont le chêne vert (Quercus ilex), le chêne liège (Quercus suber), le chêne sessile (Quercus petraea), le chêne faginé (Quercus faginea), et le hêtre européen (Fagus sylvatica). Le choix de ces espèces repose sur le fait qu’elles appartiennent à la famille des fagacées. Ce sont des espèces méditerranéennes pour les deux premières et des espèces des régions tempérées pour les autres, l’hypothèse de départ étant de montrer que les changements climatiques influent plus sur les niches écologiques des espèces des régions tempérées. L’objectif de notre étude est de modéliser la répartition de la présence de chaque espèce pour les deux chaînes montagneuses afin d’obtenir les optimums des gradients altitudinaux des feuillus pour chaque inventaire et de les comparer, ceci dans le but de montrer l’existence de l’influence du facteur climatique sur les écosystèmes. Dans un premier temps, nous allons présenter la structure d’accueil où j’ai effectué mon stage qui est le laboratoire Biogeco, qui est l'unité Mixte de Recherches « Biodiversité, Gènes et Communautés » chargé d’analyser la diversité biologique. 5 Dans un deuxième temps, nous définirons le contexte général de l’étude puis l’intérêt du gradient altitudinal des espèces végétales dans le domaine de l’écologie, ainsi que les études antérieures effectuées reposant sur son utilisation. Puis une brève présentation des données sur lesquelles reposent notre analyse sera effectuée. Ensuite nous définirons les outils et différentes méthodes statistiques mis en œuvre lors de notre analyse pour répondre à notre problématique. Enfin nous ajusterons les données des deuxième et troisième inventaires forestiers espagnols à l’aide d’une procédure d’optimisation, afin de modéliser la répartition de la présence des espèces de feuillus et ceci à l’aide des modèles logistiques, HOF IV et HOF V. Cette première étape permet d’obtenir une première estimation du paramètre d’intérêt à savoir l’optimum du gradient altitudinal de chaque espèce mais elle ne nous permet pas d’obtenir les intervalles de confiance et d’effectuer un test de comparaison des optimums des deux inventaires. Nous mettrons donc en place la méthode de bootstrap pour résoudre ce problème et définir si le facteur climatique joue un rôle sur les niches écologiques des cinq espèces d’intérêt. 6 PARTIE I : PRESENTATION DE LA STRUCTURE D’ACCUEIL I. THEMES DE RECHERCHE DE LA STRUCTURE D’ACCUEIL L’UMR (Unité Mixte de Recherches) BIOGECO, situé à Bordeaux et signifiant « Biodiversité, Gènes et Communautés », fait partie de l’Institut National de Recherche Agronomique (INRA) et a été créée en janvier 2003. Le programme de recherche de l’UMR est « orienté vers l’analyse des mécanismes régissant l’évolution de la diversité à différents niveaux hiérarchiques (communautés, espèces, populations, gènes) dans une perspective de gestion durable des ressources et des milieux » (site de Biogeco). Pour répondre à cet objectif, les thèmes de recherches sont orientés autour de 5 grands axes : la description et organisation de la diversité ; la dynamique et évolution de la diversité ; l’impact anthropique sur la diversité ; le rôle fonctionnel de la diversité et sa valorisation. Ainsi l’UMR est composée de quatre équipes et d’une unité de recherche expérimentale située à Pierroton : - l’équipe de Génétique et Amélioration des arbres forestiers (responsable R. Petit) étudie la diversité génétique et l'amélioration des arbres. - l’équipe d'Entomologie Forestière (responsable H. Jactel) travaille sur le Pin maritime et étudie les relations arbres – insectes et le rôle de la biodiversité sur la résistance aux ravageurs. - l’équipe de Pathologie Forestière (responsable C Robin) développe des recherches sur les champignons parasites et leurs interactions avec leurs hôtes, comme facteur de la biodiversité des écosystèmes. - l’équipe d’Ecologie des Communautés (responsable B Touzard) définit les stratégies fonctionnelles des espèces végétales et leurs interactions au sein des communautés herbacées et ligneuses en relation avec les changements environnementaux. - l'unité expérimentale (responsable P. Pastuszka) gère le domaine forestier de la station, installe les dispositifs expérimentaux et réalise les mesures ainsi que les récoltes d'échantillons. 7 Mon stage a été effectué au sein du laboratoire d’Ecologie des Communautés, dont nous allons présenter l’organigramme. II. ORGANIGRAMME DU LABORATOIRE Responsable du laboratoire et maître de conférence : Blaize Touzard Professeurs : Techniciens : Didier Alard Chantal Helou Richard Michalet Yann Guengant Directeur de recherche : Doctorants : Michel Mench Caroline Bresson Chargé de recherche : Ingénieur d’étude : Laurent Lamarque Annabel Porté Régis Burlett Jean-Baptiste Lamy Brice Giffard Cassandre Gaudnik Morgane Urli Jean-Paul Maalouf Aliaksandr Kolbas Elena Hego 8 PARTIE II : PRESENTATION DE L’ETUDE DU GRADIENT ALTITUDINAL D’ESPECES VEGETALES DANS UNE CHAINE MONTAGNEUSE I. CONTEXTE GENERAL DE L’ETUDE Un écosystème est une unité fonctionnelle au sein de laquelle les plantes, les animaux et l’habitat interagissent sous forme d’échange d’énergie mais également de matière. Les différents organismes formant la biocénose qui sont la faune et la flore, échangent avec leur environnement, appelé biotope, et permettent le développement et le maintien de la vie. L’écosystème englobe la notion de niche écologique, définie par l’ensemble des ressources et conditions environnementales (biotiques ou abiotiques) nécessaires au développement d’une espèce. Ces ressources résident dans les paramètres physico – chimiques (climat, eau, minéraux etc.), qui sont spécifiques à chaque milieu, mais également biologiques décrivant la cohabilitation ou la compétition entre les différentes espèces de ce milieu. Les paramètres influant sur les modifications de la structure d’une niche écologique sont nombreux : variation de pH, de nutriments…cependant actuellement le facteur climatique est le plus important. En effet, de nos jours les écosystèmes sont soumis à de nombreux agents perturbants d’origine anthropologique (IPCC 2007) tels que les pollutions chimiques (détergents, pesticides…) et l’augmentation des gaz à effets de serre (figure 1). Ceci a pour conséquence d’entraîner un réchauffement climatique rapide, la température de l’air augmentant sur le dernier siècle au rythme de 0.75°C par an (figure 2). 9 Figure 1 : Changements dans les concentrations atmosphériques de gaz carbonique (CO2), de méthane (CH4) et d’oxyde nitreux (N2O) ces 1000 dernières années. (IPCC 2007) (Les trois relevés montrent les effets de la croissance déjà importante mais qui ne fait que se renforcer des émissions anthropiques pendant l'ère industrielle.) 10 Figure 2 : Variations année par année (courbe gris foncé) et variations moyennes sur 50 ans (courbe bleue) de la température moyenne à la surface dans l'hémisphère Nord au cours des 1000 dernières années (écarts à la moyenne de 1961-1990). (IPCC 2007) (A noter que la rapidité et la durée du réchauffement, au cours du XXe siècle, ont été beaucoup plus élevées qu'au cours de n'importe lequel des neuf siècles précédents.) L’étude des écosystèmes et de leurs modifications suite à ce type de perturbations rapides représente donc un intérêt particulier dans la préservation de la planète (Davis et Shaw 2001, Davis et al 2005, Botkin et al 2007). De nombreuses études ont modélisé l’évolution des aires de répartition potentielle des espèces sous l’hypothèse d’un changement climatique rapide (Skyes, M.T. et al, 1996 ; Box, E.O. et al, 1999 ; Badeau, V. et al, 2004 ; Iverson, L.R. et al, 2004 ; Thuiller, W. 2003 ; Guisan, A. et Thuillier, W. 2005). Selon Thuiller et al (2005), en 2080, la biodiversité européenne chuterait ainsi de 27% à 42% selon le scénario climatique utilisé. Ces chiffres sont valables pour l’Europe entière cependant les régions méditerranéennes et montagnardes se révèleraient plus sensibles que les autres. Il est intéressant de présenter la principale méthode utilisée pour l’étude des modifications des niches écologiques des espèces végétales des régions montagneuses en réponse aux changements climatiques. 11 II. INTERET DE L’ETUDE DES GRADIENTS ALTITUDINAUX Très récemment, des équipes de recherche se sont intéressées aux conséquences liées aux variations de certains facteurs environnementaux sur les écosystèmes en étudiant la distribution des espèces végétales le long de gradients, notamment d’altitude (Lenoir et al. 2009, Kelly et Goulden 2008). En effet, un gradient d’altitude définit une zone où la variation des températures est très forte (-0.6 °C par 100 m d’augmentation d’altitude, Vitasse 2009) mais sur une distance courte et peu étendue en latitude, minimisant ainsi les variations d’autres facteurs environnementaux (pluies, photopériode, etc.). Ainsi son étude permet de mettre en évidence la répartition d’une espèce le long d’un gradient de température, mais elle permet également d’étudier l’évolution de l’espèce au cours du temps suivant le déplacement de sa niche écologique engendré par une modification type augmentation de température dans le cadre du réchauffement climatique. Les conséquences des changements climatiques sur la répartition des espèces le long d’un gradient peuvent être de nature différente (figure 3, Breshear et al. 2008) : sa disparition à la limite inférieure du gradient par mortalité, avec son remplacement ou non à une altitude donnée par une autre espèce ; son extension vers des altitudes supérieures, au-delà ou non de sa limite supérieure actuelle. Ces modifications peuvent ainsi conduire à une diminution de la largeur de la gamme d’altitudes couvertes par l’espèce et à une augmentation de l’altitude optimale de sa présence. La forme de la distribution du gradient altitudinal d’une espèce végétale s’en trouverait alors modifiée. 12 Figure 3 : Exemples théoriques de type de déplacements de la distribution d’espèce le long d’un gradient d’altitude en réponse au réchauffement climatique. (Breshear et al. 2008) (Les trois types de changements de distribution possibles sont : ‘‘Lean,’’ la largeur de l’aire reste constante mais l’optimum se décale ; ‘‘March,’’ l’ensemble de la distribution se déplace en altitude ; ‘‘Crash,’’ la mortalité a lieu sur l’ensemble de l’aire.) Pour confirmer l’influence des changements climatiques au sein de la niche écologique, il faudrait mettre en parallèle à cette étude les données concernant les fluctuations de ce facteur. Par ailleurs, peu d’études de terrain sur le gradient altitudinal existent mais une équipe espagnole a mis en évidence une élévation de l’aire de répartition du hêtre (Fagus sylvatica) (Peñuelas et Boada 2003, Jump et Peñuelas 2006, Jump et al 2006a, b, Peñuelas et al 2007). L’analyse, qui suit, reposera uniquement sur l’obtention du gradient optimal d’une espèce donnée et à sa comparaison pour deux périodes données. 13 III. ETUDES ANTERIEURES PORTANT SUR LES VARIATIONS DE DISTRIBUTION D’ESPECES LE LONG D’UN GRADIENT ALTITUDINAL Nous allons présenter deux études récentes qui ont cherché à quantifier, à partir de données de terrain, le mouvement de l’aire de répartition d’espèces végétales le long de gradients d’altitude. A. Etude de J. Lenoir, J.C. Gégout, P.A. Marquet, P. de Ruffray et H. Brisse 2009 L’analyse de cette équipe de chercheurs repose sur l’étude de la distribution de la probabilité de présence d’une espèce végétale à une altitude donnée afin de déterminer si les espèces restreintes aux domaines montagneux ont été sensibles aux modifications de température au cours du temps. Lenoir montre que l’année 1985 constitue un pallier où une dérive des températures commence à être observée. Ainsi son analyse est basée sur les changements des valeurs de l’optimum du gradient d’altitude d’une espèce sur deux périodes : « 1905 – 1985 » et « 1986 – 2005 ». Pour ce faire, il utilise une régression logistique afin d’obtenir l’altitude où la probabilité de présence d’une espèce est maximale appelée également « élévation optimum ». L’étude de la réponse des espèces repose donc sur la différence des optimums d’élévation. Les résultats, qu’il obtient, sont les suivants : la tendance générale du gradient altitudinal a augmenté significativement et la largeur de sa distribution pour chaque espèce ne diffère pas significativement pour les deux périodes d’étude, impliquant un déplacement de la gamme. Par ailleurs, l’optimum du gradient d’altitude d’une espèce peut se voir soit diminué, soit augmenté. Néanmoins il en ressort que les espèces issues de niches écologiques possédant les mêmes propriétés présentent des réponses similaires aux changements climatiques. B. Etude de A. Kelly et M. Goulden 2008 Kelly et Goulden ont étudié le gradient d’altitude des espèces végétales recouvrant les massifs montagneux de Santa Rosa (Californie, USA) à plus de 2 000 m sur une période de 30 ans. Ils montrent, tout comme Lenoir, que les valeurs du gradient altitudinal de chaque espèce seraient de plus en plus importantes au cours du temps, mais en conservant leur gamme initiale. Néanmoins la tendance centrale des distributions ne se trouve pas simplement augmentée mais déplacée vers le haut, proportionnellement aux écarts de températures constatés sur cette période, changeant ainsi la forme de la distribution du gradient. 14 Ce dernier résultat conforte l’hypothèse de certains écologistes selon laquelle la valeur de la tendance centrale de la distribution du gradient d’altitude d’une espèce doit augmenter et ceci proportionnellement au réchauffement climatique mais en considérant un retard dans le temps. C. Méthodes mathématiques employées pour mettre en évidence les modifications de distribution des espèces Les études présentées ci – dessus mettent en jeu des méthodes de modélisation des données pour obtenir le gradient optimal de la distribution. L’équipe de Lenoir a procédé à l’ajustement de la distribution du gradient altitudinal des espèces étudiées à l’aide de régression logistique, alors que Kelly et Goulden ont effectué la modélisation de la couverture moyenne de l’ensemble des espèces dans une région donnée. D’une part dans le cas de Lenoir, les modèles sont tous des régressions logistiques, soit correspondant à des distributions symétriques de l’espèce le long du gradient, alors que nous savons que ces distributions sont souvent asymétriques (Huisman et al 1993). Sur 262 espèces, 79 ont des distributions asymétriques soit 30% ; et parmi les espèces ligneuses (arbres, arbustes), sur 28 espèces, 17 espèces ont des distributions asymétriques soit plus de 60% (Lawesson et Oksanen 2002). D’autre part, kelly et Goulden n’ont pas modélisé la distribution du gradient altitudinal de chaque espèce, ils ont étudié l’évolution de la répartition de l’ensemble des espèces. Ces deux études posent donc deux problèmes majeurs. Dans un premier temps, il n’y a pas de prise en compte de l’asymétrie qui induit des erreurs dans l’estimation des paramètres de la distribution de l’espèce, notamment dans l’estimation de l’optimum. Dans un deuxième temps, ces études n’ont pas utilisé de tests permettant de trancher si le déplacement de chaque espèce le long d’un gradient altitudinal est significatif ou non. Pour pouvoir obtenir des résultats fiables quant à l’influence du facteur climatique sur la répartition d’une espèce végétale dans une chaîne montagneuse, il faut ajuster sa distribution le long d’un gradient altitudinal à l’aide d’un modèle adapté (symétrique ou asymétrique) ; estimer les paramètres de cette distribution, notamment l’optimum ; et pouvoir tester l’égalité de l’optimum du gradient altitudinal de chaque espèce définie pour deux périodes données, ce que nous allons faire au cours de cette étude. 15 PARTIE III : I. DONNEES ET METHODES STATISTIQUES PRESENTATION DES DONNEES DE L’ETUDE Les données, utilisées pour notre étude, correspondent à celles répertoriées lors de deux inventaires forestiers espagnols, qui ont eu lieu en 1995 et en 2007 respectivement notés SFI2 et SFI3 et qui correspondent au deuxième et au troisième passage de l’inventaire forestier international espagnol (« SFI » : Spanish Forest Inventory). Chaque SFI correspond à un échantillonnage d’arbres effectué selon une grille systématique de placettes permanentes où l’on mesure la présence d’espèce pour un intervalle de temps de 12 ans. L’ensemble de la surface forestière est ainsi échantillonnée sur une grille carrée de 1 km de côté. Chaque placette est localisée par ses coordonnées géographiques UMT (Universal Transverse Mercator). Au total 205416 placettes sont suivies. Pour chaque inventaire, on a sélectionné deux zones d’étude où ont été effectués les relevés : le système ibérique et les Pyrénées. Pour chaque chaîne montagneuse a été notée l’altitude exacte de chaque placette où ont été observée la présence ou non de plusieurs espèces d’arbres. Nous ne citerons que les 5 espèces de feuillus auxquelles nous allons nous intéresser pour la suite de notre étude : Chêne sessile, Quercus petraea (code s42) Chêne faginé, Quercus faginea (code s44) Chêne vert, Quercus ilex (code s45) Chêne liège, Quercus suber (code s46) Hêtre européen, Fagus sylvatica (code s71) Les bases de données initiales sont au nombre de quatre : PYRSFI2, PYRSFI3, SISTIBSFI2 et SISTIBSFI3, qui regroupent respectivement les données concernant les Pyrénées pour le deuxième et troisième inventaire espagnol et celles obtenues dans le système ibérique au cours de ces deux mêmes inventaires. Les observations de ces bases correspondent aux différentes placettes, appelées « PLOTCODE », dont on spécifie le numéro et qui sont dupliquées autant de fois qu’il y a d’espèces présentes. Chaque table se présente alors de la manière suivante : 16 Tableau 1 : Extrait de la PYRSFI2 initiale contenant les données des Pyrénées pour le deuxième inventaire PLOTCODE COORX COORY HUSO ESPECIE SFI2 ALT 80001 402000 4684000 31 37 1 1961 80001 402000 4684000 31 22 1 1961 80002 400000 4683000 31 74 1 1723 80002 400000 4683000 31 78 1 1723 80002 400000 4683000 31 91 1 1723 80002 400000 4683000 31 76 1 1723 80002 400000 4683000 31 21 1 1723 80002 400000 4683000 31 22 1 1723 80003 401000 4683000 31 22 1 1702 80003 401000 4683000 31 91 1 1702 80003 401000 4683000 31 21 1 1702 80003 401000 4683000 31 37 1 1702 80004 402000 4683000 31 21 1 1481 80004 402000 4683000 31 43 1 1481 80004 402000 4683000 31 91 1 1481 80005 400000 4682000 31 91 1 1393 80005 400000 4682000 31 78 1 1393 80005 400000 4682000 31 43 1 1393 80005 400000 4682000 31 71 1 1393 Ces tables, telles qu’elles se présentent, ne sont pas exploitables. Nous les avons donc transformées à l’aide du logiciel Excel et de l’outil « Tableaux croisés dynamiques » afin d’obtenir des tables regroupant des données binaires décrivant la présence ou l’absence de chaque espèce d’intérêt à une altitude donnée, c’est-à-dire pour chaque placette, comme nous le montre l’exemple ci-dessous : 17 Tableau 2 : Extrait de la table PYRSFI2 modifiée PLOTCODE s42 80001 80002 80003 80004 80005 s44 0 0 0 0 0 s45 0 0 0 0 0 s46 0 0 0 0 0 s71 0 0 0 0 0 altitude 0 0 0 0 1 1961 1723 1702 1481 1393 Une fois les tables de données pour chaque inventaire et par localisation obtenues, nous les avons importées dans SAS® (version 9.1 pour Windows, Cary, NC, USA). A noter que nous avons supprimé de la base de données PYRSFI2 l’observation concernant la placette, dont le numéro est 172491, car celle-ci a été mal saisie (altitude égale à – 9999 m) et fausserait les résultats statistiques. Nous avons créé dans SAS® une nouvelle variable « altitudec » correspondant aux classes d’altitude auxquelles appartiennent chaque placette, ce qui nous a permis ensuite de calculer la probabilité de présence de chaque espèce étudiée par classe d’altitude, inventaire et localisation. C’est cette probabilité que nous allons chercher à modéliser dans la suite de l’étude afin de pouvoir déterminer le gradient optimal de chaque espèce sur les deux périodes. Pour faciliter l’analyse nous avons créé des tables pour chaque espèce. Nous avons obtenu ainsi 20 tables de données, que nous avons stocké dans la librairie « especes » et qui se présentent de la manière suivante : 18 Tableau 3 : Table especes.s42pyrsfi2 contenant les données concernant le chêne sessile pour le deuxième inventaire espagnol effectué dans les Pyrénées. (A noter que ce tableau présente le nombre de placettes où l’espèce est soit présente, soit absente. L’altitude donnée correspond à la valeur centrale des classes d’altitude où ont été effectués les prélèvements de données.) Altitude 50 150 250 350 450 550 650 750 850 950 1050 1150 1250 1350 1450 1550 1650 1750 1850 1950 2050 2150 2250 2350 2450 Absence Présence Nombre Probabilité de de total de de présence l'espèce l'espèce placettes 198 21 219 0,0959 509 40 549 0,0729 410 37 447 0,0828 368 39 407 0,0958 561 51 612 0,0833 788 63 851 0,0740 932 113 1045 0,1081 881 133 1014 0,1312 717 171 888 0,1926 651 135 786 0,1718 545 123 668 0,1841 448 125 573 0,2182 350 58 408 0,1422 346 63 409 0,1540 290 52 342 0,1520 278 26 304 0,0855 246 12 258 0,0465 208 2 210 0,0095 173 2 175 0,0114 135 0 135 0,0000 91 0 91 0,0000 63 0 63 0,0000 24 0 24 0,0000 6 0 6 0,0000 4 0 4 0,0000 Ce sont les données de ces tables appelées « échantillons » dans la suite de l’étude que nous allons modéliser en vue d’obtenir le gradient optimal de chaque espèce pour les deux inventaires et par localisation. Par ailleurs pour chaque espèce étudiée, chaque zone d’étude et chaque inventaire, on dispose ainsi d’un minimum de 40 placettes selon l’espèce et d’un maximum d’environ 5700 placettes (tableau 4). On remarque que ce nombre diffère nettement selon l’espèce et sa localisation. 19 Tableau 4 : Nombre de placettes présentant l’espèce étudiée, par zone d’étude et inventaire forestier Espèce Zone d’étude Nb. placettes SFI2 Pyrénées Système ibérique Pyrénées Système ibérique Pyrénées Système ibérique Pyrénées Système ibérique Pyrénées Système ibérique Quercus petraea Quercus faginea Quercus ilex Quercus suber Fagus sylvatica Nb. placettes SFI3 1266 43 3293 2581 5274 5341 989 81 808 484 724 53 2029 2854 5274 5697 912 75 925 469 Avant d’effectuer l’analyse statistique qui nous permettra de répondre à notre problématique, nous allons présenter l’ensemble des méthodes et outils statistiques utilisés au cours de l’étude en vue d’étudier la différence entre les gradients altitudinaux d’une espèce pour les deux inventaires. II. METHODES DE L’ANALYSE STATISTIQUE A. Estimation ponctuelle L’estimation ponctuelle repose sur la mise en place d’un modèle statistique s’ajustant aux données et à l’obtention des valeurs des paramètres de ce modèle. Il est donc nécessaire dans un premier temps de définir la notion de modèle statistique, puis la méthode d’estimation par maximum de vraisemblance qui est la plus couramment utilisée et enfin la « méthode delta » qui s’applique dans le cadre de modèles non – linéaire. Enfin nous allons définir ce que sont les intervalles de confiance d’un paramètre. B. Modèle statistique On considère Ω, , ℙ un espace de probabilité et , un espace borélien. 20 ,…, On dit que l’ensemble des variables aléatoires réelles aléatoire … ∈ pour On définit alors une mesure sur , ∈ dans ∈ , de ∈ où est la famille . , si : dans le cas continu, admet une probabilité ∈ Θ ⊂ , admet une densité, pour tout intervalle 1 . . Cette mesure est appelée la . Ainsi on a le modèle statistique La loi de probabilité Si ,…, tel que tel que : , ∈ Θ , Θ est l’espace des paramètres et suivante : et est une application de Ω ⟶ . Les réalisations de chaque variable sont ∶ loi de probabilité de si représente un vecteur dans le cas discret. alors le modèle statistique est dit paramétrique sinon il est non paramétrique. C. Fonction de vraisemblance On définit la fonction de vraisemblance , , . , La fonction de vraisemblance est la variable aléatoire alors on peut conclure que la probabilité Si pour , de la manière suivante : max que permettant de maximiser cette et on définit l’estimateur du maximum de max vraisemblance par . est plus grande pour ainsi cette fonction nous permet de calculer l’estimateur probabilité. Pour ce faire on utilise , où ∈ . A noter que l’estimateur du maximum de vraisemblance peut ne pas exister ou bien ne pas être unique. Si l’on considère que les variables aléatoires distribuées (i.i.d) alors la vraisemblance de ∏ , … sont indépendantes et identiquement s’écrit également de la manière suivante : . Afin de faciliter les calculs permettant d’estimer vraisemblance suivante : ln ln ∏ , ∑ , on définit la fonction de log – ln , , ce qui est permis par la propriété de monotonie de la fonction logarithme. 21 D. Estimation par maximum de vraisemblance Pour obtenir l’estimateur et dans le cas d’un modèle régulier, on utilise l’équation 0 et on vérifie suivante : 0, où respectivement le gradient et la hessienne de ln ln ∶ ⟶ , ∶ , , ⟶ ∶ , et sont appelées avec : ⟶ et , . E. Information de Fisher On mesure la quantité d’information apportée par un – échantillon sur le paramètre avec l’information de Fisher qui est positive ou nulle (si elle existe) : I Si le domaine de définition de ne dépend pas de alors I Sous les conditions de régularité, on a : suivante : ↝ 0, et alors , On obtient alors l’intervalle de confiance de 1.96 avec ↝ , , ↝ . . → 0, d’où on tire l’approximation , , . suivant : . F. Méthode delta La méthode d’estimation des paramètres d’un modèle présentée ci – dessus est facilement mise en œuvre pour des modèles simples. Cependant il existe une autre approche pour estimer les paramètres d’une fonction plus complexe : la « méthode delta ». Cette méthode utilise une approximation linéaire de la fonction grâce aux séries de Taylor. On définit où est une fonction dérivable d’ordre et existe. Alors pour une constante , la série de Taylor est définie de la manière suivante : ∑ ! On a la statistique . d’un paramètre suppose qu’un estimateur de la statistique qui dépend de la taille est la fonction de l’échantillon et on . 22 → On a la propriété √ Si est deux fois différentiable en 0, . alors la série de Taylor de → est définie et on obtient √ 0, au voisinage de . Comme et dépend de , paramètre inconnu alors la variance asymptotique est inconnue. Pour définir l’intervalle de confiance de √ ↝ 0,1 d’où 1.96 du paramètre 1 et log la fonction définie par 5%. avec √ Pour exemple, on définit l’estimateur . On sait que , on utilise la propriété suivante : de succès sur , alors épreuves et appelée logit. On a . Soit . En utilisant la « méthode delta », la variance asymptotique du logit pour l’échantillon est égale au produit entre la variance de √ qui est log avec le carré de log → La normalité asymptotique de 0, d’où : . approche la normalité asymptotique de log . La variance asymptotique correspond à la variance de la distribution qui approche la vraie distribution, mais ce n’est pas une approximation de la variance de la vraie (pas très clair). G. Méthodes basiques de limites de confiance La valeur estimée des paramètres d’un modèle est le plus souvent accompagnée d’un intervalle de confiance qui est défini par l’ensemble des valeurs que peut prendre le paramètre avec un certain degré de confiance. Soit l’estimateur d’un scalaire . On cherche un intervalle bilatéral de cet estimateur avec un risque d’erreur . est supposé continu. Les quantiles de et L’intervalle bilatéral 1 sont alors notés 2 a pour limites sont noté par et et : . . 23 On applique l’approximation normale de confiance approchées suivantes : Si 0, à ce qui nous donne les limites , Φ avec 1 α . est l’estimateur du maximum de vraisemblance alors la variance approchée obtenue à partir de la fonction de log – vraisemblance et . S’il n’y a pas de paramètres de nuisance alors en utilisant la réciprocité de l’information de Fisher observée, on a : ou (estimation attendue de l’information deFisher) avec . S’il existe des paramètres de nuisance, alors on utilise l’inverse de Plus généralement si est donné par une équation, ou de . peut être calculée à l’aide de la « méthode delta ». est difficile à obtenir théoriquement, le bootstrap Si l’approximation de la variance paramétrique peut être utilisé. Cela suppose des simulations à partir du modèle d’ajustement avec une valeur de paramètre . Si les estimateurs du biais et de la variance, estimés à partir de l’échantillon, sont alors et , . Nous allons maintenant définir ce qu’est la méthode d’estimation par bootstrap. H. Présentation du bootstrap Le but du bootstrap est de trouver la loi de probabilité d’une statistique, qui est l’estimateur d’un paramètre , afin de calculer l’intervalle de confiance de ce dernier. a. Méthode générale On dispose d’un échantillon de individus suivant une distribution (inconnue) dont on veut obtenir une estimation soit par un modèle paramétrique connu qui ajuste assez bien les données, soit par la distribution empirique On tire des données. échantillons de taille estimations du paramètre : , ,…, et on obtient à partir de chaque échantillon les . On peut alors obtenir une estimation de la variance ∑ ̅ , avec ̅ ∑ : . 24 La distribution de la statistique valeurs observées , ,… , est alors estimé par de la variable puisqu’elle dépend des de la loi de distribution. b. Deux types de bootstrap Le bootstrap paramétrique est utilisé lorsque l’on dispose d’un modèle mathématique particulier et que l’on ajuste les paramètres , où le paramètre d’intérêt On estime par le modèle est fonction de . ajustant les données puis on simule ensuite échantillons de taille , indépendants les uns des autres, qui regroupent des réalisations de la distribution . On obtient alors ∗, ∗, … ∗ qui sont les valeurs simulées de la statistique que l’on veut estimer. Le bootstrap non paramétrique est utilisé si l’on dispose des observations iid. Cependant il peut être utilisé lorsque l’on connait le modèle pour vérifier la robustesse des résultats fournis par l’analyse paramétrique. Cette méthode repose sur la mise en place de la fonction empirique de répartition selon , où est une approximation de . On génère alors et on obtient ensuite ,… ∗, pour créer les ∗, … échantillons de taille ∗. Pour ce faire on utilise les données originales échantillons en tirant avec remise éléments parmi les observations. Cette méthode est également appelée méthode de rééchantillonnage car on reconstruit un ensemble d’échantillons en partant de celui de départ et elle est adéquate pour l’obtention de l’estimation d’un paramètre. En général, le nombre de simulations pour les deux types de bootstrap doit être compris entre 1000 et 5000 simulations. c. Intervalles de confiance Nous pouvons calculer l’intervalle de confiance, appelé « t – bootstrapé », de n’importe quel paramètre en bootstrapant la statistique correspondante. Nous n’avons pas besoin de condition sur la population ou de connaissance spéciale sur la distribution de l’échantillon de la statistique. Ces intervalles fonctionnent bien si la distribution du paramètre bootstrapé est approximativement normale. Soit intervalle de confiance de la statistique du paramètre recherché , alors pour obtenir un , on peut utiliser la propriété ↝ ̅, ̂ . Cependant il faut vérifier la normalité des estimations obtenues de la statistique par le bootstrap à l’aide d’un histogramme et d’un q – qplot. A noter que si la distribution de il faut ajusté la distribution du bootstrap des n’est pas une loi normale alors . 25 Dans le cas d’une loi normale l’intervalle de confiance du paramètre ̅ liberté et ∗ ̂ avec le quantile d’ordre ̂ l’écart – type estimé de est : de la loi de Student pour 1 degrés de à partir du des données du bootstrap. Il existe un second type d’intervalle de confiance appelé « Bootstrap percentile confidence interval » qui fonctionne bien si la distribution de l’échantillon est approximativement normale et possède un très faible biais, ou bien est sans biais. En effet, si la statistique n’a pas de biais, la distribution de l’échantillon est centrée sur la valeur réelle du paramètre. Nous pouvons alors obtenir un intervalle de confiance à 95% en marquant les 95% centraux de la distribution d’échantillonnage. Les valeurs critiques sont centrées autour de la valeur centrale à 95%. Ainsi l’intervalle de confiance est construit en prenant comme bornes les centiles à 2.5% et 97.5% de la distribution du bootstrap. A noter que les intervalles sont d’autant plus précis que le biais est petit, ce que l’on peut vérifier avec un q – qplot. d. Test de signification utilisant les tests de permutations Les tests de significativité permettent de vérifier si l’effet observé, ici la différence entre deux optimums, est produit « par chance » intervenant lors de la sélection de l’échantillon. Si ce n’est pas le cas, nous mettons en évidence que l’effet observé dans l’échantillon reflète l’influence d’un facteur dans la population. Le test de permutation se déroule en plusieurs étapes, la première étant le choix de la statistique qui mesure l’effet que l’on veut montrer. La deuxième réside dans la construction de la distribution d’échantillonnage, qui doit se faire à l’aide d’un tirage aléatoire sans remise. Enfin nous localisons la statistique observée sur la distribution et nous concluons que si une valeur est placée au centre de celle – ci alors elle peut être facilement attribuée au hasard contrairement à une valeur de statistique placée en queue de distribution qui mettrait en évidence la présence d’un facteur influant. L’hypothèse nulle H0 est définie par l’absence de l’effet dans la population : . Les tests basés sur le rééchantillonnage ne changent pas du raisonnement des tests classiques, leur probabilité critique est obtenue par calculs sur les nouveaux échantillons (cf. ci – dessous) et sont par conséquent utilisés là où les tests classiques ne peuvent l’être. 26 Nous désirons dans le cadre de notre étude de tester s’il existe une modification dans la valeur de l’optimum entre deux périodes, ainsi la statistique d’intérêt est l’optimum du gradient d’altitude. Nous calculons alors , ,… , où et et , des deux échantillons ,… et sont les échantillons des données initiales correspondant respectivement aux données du deuxième et du troisième inventaire espagnol. Nous combinons ensuite l’ensemble , ,… , des , ,… observations de ces deux échantillons d’obtenir . Nous tirons alors sans remise dans cet échantillon ∗ et valeurs avec de créer deux échantillons simulés, respectivement répétée afin et ∗. Cette étape est fois. A chaque simulation nous calculons les nouveaux estimateurs de l’optimum du gradient pour chaque échantillon et nous obtenons la différence entre nous calculons ∗ nous rejetons l’hypothèse nulle H0 où ∗ ∗ . Si ∗ ∗ et ou si ∗ ∗. Enfin 1 alors . I. Modélisation de la répartition altitudinale des espèces par les modèles de Huisman, Olff et Fresco : modèles de HOF a. Objectifs La modélisation de la répartition altitudinale d’une espèce représente un outil efficace pour évaluer les modifications de la niche écologique de cette espèce au cours du temps. En effet, elle permet d’estimer les paramètres du modèle et par conséquent d’obtenir l’optimum de présence de l’espèce la long du gradient d’altitude pour une période donnée. L’étude de la répartition altitudinale et sa modélisation doivent être effectuées à l’aide de modèles adaptés à des données positives puisque l’on s’intéresse, comme dans le cas de l’étude de Lenoir, à la distribution de la probabilité de présence d’une espèce à une altitude donnée (cas de données binaires). Ainsi plusieurs approches peuvent être utilisées : la régression logistique qui est inclue dans les modèles linéaires généralisés (« Generalized Linear Model »), les modèles non - linéaire ou encore les modèles de Huisman, Olff et Fresco appelés modèles de HOF. Les premiers types de modèles correspondent à des distributions symétriques alors que les modèles non – linéaires peuvent ajuster des données de manière à obtenir une distribution symétrique mais également asymétrique. Les modèles de HOF regroupent les deux cas. 27 La répartition spatiale des organismes n’est pas obligatoirement une distribution symétrique mais bien au contraire elle tend à être asymétrique. La modélisation par modèles de HOF du comportement des espèces est alors l’outil le plus robuste, parmi les méthodes d’ajustement, pour estimer les paramètres d’un modèle et les caractéristiques des niches écologiques des différentes espèces de plantes. De plus les modèles de HOF définissent un maximum imposé s’adaptant aux données écologiques puisqu’elles correspondent soit à un pourcentage, soit à une probabilité. b. Présentation des modèles de HOF Les modèles de Huisman, Olff et Fresco sont au nombre de cinq, dont la complexité est croissante et notée I, II, III, IV et V. Ces modèles sont adaptés à la modélisation du gradient d’altitude d’une espèce puisqu’ils s’adaptent à des données positives possédant un maximum . Chaque modèle est propre à une situation donnée, c’est-à-dire à l’allure de la distribution du gradient d’altitude (figure 4). Figure 4 : Ensemble des 5 modèles de HOF (Modèle I : pas de tendance ; Modèle II : tendance croissante avec atteinte de la valeur maximale ; Modèle III : tendance croissante ou décroissante ; Modèle IV : courbe de réponse symétrique ; Modèle V : courbe de réponse asymétrique) 28 La méthode, permettant de choisir un modèle approprié aux données, consiste à ajuster le modèle I avec ces dernières dans un premier temps, puis à ajouter un paramètre lorsque ce dernier permet d’expliquer significativement une part de la variation observée, ce qui est similaire à la méthode d’obtention d’un modèle en régression linéaire multiple. Ainsi pour obtenir le modèle le mieux adapté aux données, il faut comparer les ajustements de chaque modèle et conserver le plus significatif, ceci peut être réalisé à l’aide du critère d’Akaike que nous décrirons par la suite. Les différents modèles HOF sont les suivants : Modèle I : Modèle II : Modèle III : Modèle IV : Modèle V : est la réponse (variable expliquée, ici la probabilité de présence d’une espèce), (variable explicative, ici l’altitude), , , et sont les paramètres estimés et mais également la valeur maximale ( 1 si fréquence et est le facteur est une constante 100 si pourcentage). Les modèles IV et V sont ceux dont la complexité est la plus importante faisant intervenir deux termes logistiques dont un décrit l’accroissement de la courbe et l’autre décrit une diminution des valeurs de . c. Ajustement des modèles Dans le cas de l’étude d’une variable quantitative continue, l’ajustement des modèles s’effectue à l’aide de méthodes de régression linéaire ou non – linéaire par la méthode des moindres carrés et dans le cas d’une variable binaire l’ajustement repose sur la méthode de régression logistique par la méthode du maximum de vraisemblance. 29 La régression non – linéaire est un type de modélisation permettant d’obtenir les paramètres pour l’ajustement d’un modèle à des données continues quantitatives. Il n’existe pas de solution analytique pour résoudre ce problème, mais l’on peut soit utiliser une méthode d’optimisation, soit utiliser la « méthode delta ». Dans le domaine écologique, les données sont souvent binaires : présence ( absence ( 1) et 0) et l’étude porte sur la probabilité que l’espèce soit présente ou non. C’est cette probabilité que l’on veut estimer et dont on veut ajuster le modèle. Pour ce faire on utilise la régression logistique. Dans le cadre des modèles de HOF, les paramètres des modèles I et II peuvent être estimés par une régression logistique alors que les paramètres des modèles III, IV et V par une régression non – linéaire. Les modèles HOF permettent d’ajuster les données observées le long du gradient d’altitude de chaque espèce, en fournissant ainsi de nombreuses informations sur les modifications de sa niche écologique. Cependant ces modèles, du fait du nombre de paramètres important à estimer, sont difficiles à analyser statistiquement. J. Comparaison de modèles statistiques à l’aide du critère d’Akaike L’ajustement des données d’un échantillon peut être effectué à l’aide de divers modèles et l’on cherche celui qui permet d’estimer au mieux le phénomène et d’effectuer des prédictions. Le choix du modèle est donc une étape importante dans la modélisation. Le critère d’Akaike constitue une méthode simple de comparaison de plusieurs modèles ajustés à de mêmes données. Ce critère repose sur la construction d’un indice de performance et possède l’avantage de permettre la comparaison de modèles indépendants ne constituant pas des sous – modèles les uns des autres. L’objectif dans la comparaison est de conserver le modèle dont le critère d’Akaike a la plus petite valeur. Ce critère, appelé critère d’information d’Akaike, noté « AIC » (Akaike Information Criterion), est défini de manière générale de la façon suivante : nombre de paramètres,et 2 2 , avec le est la valeur maximisée de la fonction de vraisemblance du modèle estimée. 30 Si l’on suppose que les erreurs du modèles suivent une loi normale et sont indépendamment distribuées alors le critère s’écrit : 2 , avec ∑ ̂ qui est la somme des carrés résiduelle (« residual sum of square »). Le premier terme représente la complexité du modèle alors que le deuxième définit sa performance puisque plus il ajuste bien les données moins la somme des carrés résiduelle sera importante. Dans le logiciel SAS®, le critère d’Akaike utilisé est celui défini par la log – vraisemblance puisque la proc nlmixed repose sur une méthode d’ajustement des données par la méthode du maximum de vraisemblance. Nous allons présenter maintenant les principaux points de cette procédure. K. Procédure d’ajustement dans le logiciel SAS L’ensemble de l’analyse a été effectuée à l’aide du logiciel SAS® dont les étapes clés du code sont présentées dans l’annexe A. De plus, le risque de première espèce choisit pour l’ensemble de l’étude est 5%. La procédure que nous allons utiliser au cours de l’analyse est la proc nlmixed, qui est une procédure d’ajustement des données à l’aide de modèles non linéaires mixtes, c’est-à-dire des modèles possédant à la fois des effets aléatoires et des effets fixes (bien que dans notre étude, il n’y ait pas de variable à effet aléatoire). Cette procédure permet de définir une distribution conditionnelle aux données afin de déterminer les effets aléatoires. Les paramètres du modèle sont estimés avec l’objectif de maximiser leur vraisemblance ce qui met en œuvre différentes méthodes d’optimisation telle que la méthode quasi – Newtonnienne. Les estimations de leur erreur standard sont basées sur la dérivée seconde de la fonction de vraisemblance. Ceci est permis grâce à plusieurs méthodes, nous pouvons citer la « méthode delta ». Ainsi une fois le modèle estimé, une estimation des paramètres non aléatoires et l’obtention de leur écart – type peut être obtenu. La procédure nécessite que l’on définisse le modèle d’ajustement dont on souhaite estimer les paramètres et qu’on leur donne une valeur initiale. De plus, nous devons également expliciter la distribution des valeurs observées. L’estimation d’un paramètre complémentaire peut être également effectuée lorsque l’on explicite son expression algébrique en fonction des autres paramètres estimés. 31 L’ensemble des méthodes et outils statistiques nécessaires à la résolution de notre problématique mis en place, nous allons présenter maintenant l’ensemble des résultats obtenus. 32 PARTIE IV : RESULTATS DE L’ANALYSE La première étape de notre analyse consiste à choisir le meilleur modèle d’ajustement des données, qui correspondent aux probabilités de présence de chaque espèce d’intérêt dans les différentes classes d’altitude où se situent les placettes de l’inventaire espagnol, parmi le modèle logistique, le modèle HOF IV et le modèle HOF V. Dans un deuxième temps, nous nous attacherons à obtenir les valeurs estimées des optimums altitudinaux de chaque espèce pour SFI2 et SFI3 par estimation sur nos données mais aussi par la méthode bootstrap, qui nous permettra alors de calculer des intervalles de confiance pour ces paramètres. Enfin nous effectuerons le test des permutations nous permettant de comparer la valeur des optimums d’une même espèce pour les deux périodes d’échantillonnage. I. AJUSTEMENTS DE LA REPARTITION DE LA PRESENCE DES ESPECES DE FEUILLUS A L’AIDE DES MODELES LOGISTIQUE, HOF IV ET HOF V La proc nlmixed nous a permis d’ajuster chaque échantillon de données à l’aide des trois modèles précités. Néanmoins pour définir de façon objective celui qui ajuste le mieux les données de chaque espèce d’arbres pour les deux inventaires et pour chacune des localisations, nous avons utilisé le critère d’information d’Akaike. En effet nous choisissons le modèle dont le critère AIC a la plus faible valeur pour le même ensemble de données (tableau 5). Tableau 5 : Critère AIC obtenu par la modélisation des données des Pyrénées. (Les caractères en gras indiquent le modèle retenu car le plus parcimonieux, selon le critère AIC) Pyrénées SFI2 Régression HOF IV HOF V logistique Quercus petraea Quercus faginea Quercus ilex Quercus suber Fagus sylvatica 235,2 239,2 140 148,9 122,8 229,2 228,8 187,5 73,6 137,3 158,3 183,1 166,1 75,5 139,3 Pyrénées SFI3 Régression HOF IV HOF V logistique 172,3 151 135,2 157,1 135,3 166,9 180 202,3 83,1 157,7 139,4 160,7 153,3 85,1 158,9 Nous remarquons que pour une même espèce, les données concernant la probabilité de présence sont ajustées par un même modèle pour les deux inventaires sauf pour le Quercus faginea. 33 Les données du deuxième et du troisième inventaire pour cette espèce sont ajustées respectivement à l’aide d’un modèle HOF V et d’une régression logistique. Cependant pour pouvoir comparer par la suite les valeurs des optimums de SFI2 et SFI3 et dans la mesure où la valeur de AIC diffère peu entre le modèle de régression logistique et HOF V pour le troisième inventaire, nous décidons de conserver l’ajustement des données du Quercus faginea par le modèle HOF V pour les deux périodes. Par ailleurs, l’ajustement des données par le modèle logistique est celui choisi pour le Quercus ilex et le Fagus sylvatica, le modèle HOF IV ajuste les données du Quercus suber alors que le modèle HOF V est adapté à celles du Quercus petraea comme nous le montre les figures 5 et 6. Figure 5 : Ajustement de la probabilité de présence du Quercus petraea de SFI2 dans les Pyrénées Figure 6 : Ajustement de la probabilité de présence du Quercus petraea de SFI3 dans les Pyrénées 34 A noter que pour vérifier le choix des modèles, nous avons tracé les courbes d’ajustement des données pour les différentes espèces à l’aide des trois modèles et nous les avons vérifiés (annexe B). De la même façon que pour les Pyrénées, nous comparons ensuite le critère AIC obtenu par la modélisation des données prélevées dans le système ibérique, dont les valeurs sont présentées dans le tableau 6. Tableau 6 : Critère AIC obtenu par la modélisation des données du système ibérique (Les caractères en gras indiquent le modèle retenu car le plus parcimonieux, selon le critère AIC) Quercus petraea Quercus faginea Quercus ilex Quercus suber Fagus sylvatica Système ibérique SFI2 Système ibérique SFI3 Régression Régression HOF IV HOF V HOF IV HOF V logistique logistique 39,7 39,6 41,5 52,4 52,1 52,6 104 123,3 124,7 129,5 139,8 130,5 197,2 185 175,2 169,5 173,9 171,6 64,7 58,3 60,3 62 55,4 57,4 102,5 86,7 79,1 97,1 82 74,6 Le modèle de régression logistique ajuste le mieux les données du Quercus faginea avec le critère AIC le plus faible, alors que le modèle HOF IV est le mieux adapté aux échantillons de données concernant le Quercus petraea et le Quercus suber. Le modèle HOF V est utilisé uniquement pour le Fagus sylvatica et pour les données du deuxième inventaire du Quercus ilex. En ce qui concerne cette espèce, le modèle de régression logistique est celui dont la valeur du critère AIC est la plus faible pour le troisième inventaire. Comme pour le Quercus faginea situé dans les Pyrénées, on décide de conserver l’ajustement par modèle HOF V pour les données des deux inventaires car la valeur du critère d’Akaike est presque identique pour les deux modèles. Nous avons donc déterminé le modèle le mieux adapté à chaque échantillon de données à l’aide du critère d’information. Les courbes d’ajustement nous permettent par ailleurs de confirmer le choix de ces modélisations (annexe C). Ainsi l’étape suivante consiste à effectuer l’estimation du paramètre d’intérêt qui est l’optimum de la répartition de la présence des espèces dans les Pyrénées et dans le système ibérique. 35 II. OBTENTION DE LA VALEUR DE L’OPTIMUM DU GRADIENT ALTITUDINAL DES ESPECES VEGETALES ET DE SON INTERVALLE DE CONFIANCE L’objectif écologique de l’étude étant de montrer qu’il existe des facteurs influant sur les changements des propriétés des niches écologiques de chaque espèce, nous cherchons à comparer les valeurs des optimums des gradients d’altitude sur les deux inventaires espagnols. Cependant lors de la modélisation des gradients d’altitude des espèces d’intérêt de notre étude, nous avons rencontré un problème majeur présenté ci –dessous. A. Méthode d’optimisation du gradient altitudinal par la modélisation des données La méthode la plus simple, permettant d’obtenir l’optimum d’une fonction, consiste à calculer la dérivée de cette fonction et à chercher la valeur de la variable en laquelle la dérivée s’annule. Dans le cadre de notre étude, l’obtention de l’optimum du gradient altitudinal a consisté à exprimer la dérivée de la fonction du modèle le plus ajusté aux données de chaque espèce et à obtenir l’altitude pour laquelle cette espèce est la plus abondante le long du gradient. Dans le cas de la régression logistique, la dérivée de la fonction s’exprime de la façon suivante : , où représente l’altitude. Ainsi nous avons calculé la valeur de l’optimum altitudinal à partir de l’expression suivante: . Dans le cas du modèle d’ajustement HOF IV, la dérivée de la fonction est alors défini par : est , et l’optimum du gradient . Cependant lorsque la distribution du gradient d’altitude d’une espèce est modélisée par le modèle HOF V, il ne nous est pas possible de déterminer directement la valeur de son optimum puisque la dérivée de la fonction du modèle n’admet aucune solution à l’équation : = 0. Par conséquent on ne peut pas pour ce modèle appliquer les méthodes de l’estimation ponctuelle usuelle telle que la méthode d’estimation par maximum de vraisemblance ou encore la « méthode delta ». 36 Cependant connaissant la valeur numérique des paramètres (estimateurs des paramètres obtenus par proc nlmixed), nous avons pu obtenir l’optimum du gradient à l’aide de la proc model de SAS®, qui utilise des méthodes d’optimisation que nous ne développerons pas ici, mais aucun intervalle de confiance ne peut alors être calculé. Les valeurs des optimums du gradient altitudinal de chaque espèce et pour chaque inventaire ainsi que leur intervalle de confiance, lorsqu’il est possible de le calculer, sont regroupées dans le tableau 7. Tableau 7 : Optimums et intervalles de confiance du gradient d’altitude obtenus à partir de la modélisation des données Espèces Localisations Inventaires Modèles Optimums Quercus petraea Quercus faginea Quercus ilex Quercus suber Fagus sylvatica Pyrénées Système ibérique Pyrénées Système ibérique Pyrénées Système ibérique Pyrénées Système ibérique Pyrénées Système ibérique SFI2 SFI3 SFI2 SFI3 SFI2 SFI3 SFI2 SFI3 SFI2 SFI3 SFI2 SFI3 SFI2 SFI3 SFI2 SFI3 SFI2 SFI3 SFI2 SFI3 HOF V HOF IV HOF V Régression logistique Régression logistique HOF V HOF IV HOF IV Régression logistique HOF V 1196 1232 1368 1681 670 832 1068 1094 370 392 927 952 170 167 527 496 1330 1296 1529 1528 Intervalles de confiance Limite Limite inférieure supérieure . . . . 1234 1501 1262 2100 . . 816 849 1053 1082 1080 1108 326 414 348 436 . . . . 155 186 151 184 471 584 444 548 1304 1357 1272 1320 . . . . Nous constatons que certaines espèces possèdent des valeurs d’optimum de gradient très faible, comme le Quercus suber dont la valeur optimal pour le deuxième inventaire dans les Pyrénées est de 170 m alors que pour la même période et la même localisation certaines espèces ont des valeurs très importante, nous pouvons citer le Fagus sylvatica avec un optimum de 1330 m. 37 B. Méthode bootstrap pour l’obtention de la valeur optimale du gradient d’altitude de chaque espèce Pour pouvoir répondre à notre problématique, nous avons mis en place la méthode du bootstrap non paramétrique permettant d’obtenir les estimations des optimums du gradient altitudinal de chaque espèce ainsi que leur intervalle de confiance. Deux types d’intervalles de confiance de l’optimum du gradient ont pu être construits à l’aide de la méthode du bootstrap : les intervalles t – bootstrapés et les intervalles des percentiles. Au préalable, nous avons vérifié pour chaque espèce la normalité de la distribution bootstrapée du paramètre à l’aide d’un histogramme et également d’un q – qplot. En effet, le q – qplot (« quantile – quantile plot ») permet de comparer deux distributions. On trace les points dont les coordonnées correspondent respectivement pour l’axe des abscisses et des ordonnées aux valeurs des quantiles de la première distribution (la théorique, ici loi normale) et aux quantiles de la deuxième distribution qui est celle obtenue par ajustement sur les données. La droite tracée sur le graphique a pour équation y = x et correspond aux points que l’on obtiendrait dans le cas où les deux distributions seraient identiques. Ainsi plus les points sont proches de la droite, plus l’on peut affirmer que la distribution des données bootstrapées est une loi normale. Le nombre de simulations effectuées à partir de chaque échantillon est de 5000 et pour chaque itération le paramètre d’intérêt est estimé à partir du modèle d’ajustement des données choisi précédemment par ajustement sur les données (logistique, HOF IV ou HOF V). a. Données du deuxième inventaire dans les Pyrénées Les résultats sont détaillés pour l’une des espèces d’intérêt : Quercus petraea. Les données ont été bootstrapées 5000 fois et pour chaque nouvel échantillon, nous avons estimé les différents paramètres du modèle d’ajustement HOF V et obtenu par conséquent l’optimum. 38 La distribution des estimations des optimums obtenues semble être normale (figure 7), ce qui a été vérifié par à l’aide d’un q-qplot (figure 8) : Quercus petraeasfi2 1100 1000 900 800 Effectif 700 600 500 400 300 200 100 0 1 0 2 0 1 0 5 0 1 0 8 0 1 1 1 0 1 1 4 0 1 1 7 0 1 2 0 0 1 2 3 0 1 2 6 0 1 2 9 0 1 3 2 0 1 3 5 0 1 3 8 0 1 4 1 0 1 4 4 0 1 4 7 0 1 5 0 0 1 5 3 0 1 5 6 0 1 5 9 0 1 6 2 0 1 6 5 0 1 6 8 0 1 7 1 0 1 7 4 0 1 7 7 0 1 8 0 0 O ptim um Figure 7 : Histogramme des optimums du gradient d’altitude de Quercus Petraea estimés pour chaque échantillon du bootstrap Quercus petraeasfi2 1800 O ptim um 1600 1400 1200 1000 -4 -2 0 2 4 Q uantilesdelaloi norm ale Figure 8 : Q – qplot des quantiles de la loi normale et des valeurs de l’optimum La valeur de l’estimation de notre paramètre d’intérêt correspond à la moyenne de la distribution bootstrapée. Ainsi l’optimum altitudinal du chêne sessile (Quercus petraea) dans les Pyrénées lors du deuxième inventaire est de 1197 m. Cette valeur est tout à fait cohérente avec celle obtenue lors de l’estimation des paramètres effectuée sur les données initiales (1196 m, tableau 7). 39 De la même manière pour chaque espèce, nous avons vérifié les hypothèses de normalité de la distribution du paramètre estimé (annexe D) et nous avons calculé les intervalles de confiance qui sont notés dans le tableau 8 (dois – je conserver les deux types d’intervalles ? lequel vous semble le plus juste ?) : Tableau 8 : Estimations de la valeur du paramètre et de son intervalle de confiance pour les espèces végétales des Pyrénées du deuxième inventaire SFI 2 Pyrénées Espèces Quercus petraea Quercus faginea Quercus ilex Quercus suber Fagus sylvatica Intervalles de confiance Percentiles t-bootstrapés Paramètres Ecart Moyenne 2,50% 97,50% Borne inférieure Borne supérieure type 1198 60,05 1085 1302 1074 1322 681 38,46 642 774 601 760 364 40,47 265 424 281 448 167 32,92 96 187 100 235 1329 18,88 1295 1370 1290 1368 Les intervalles de confiance t – bootstrapés ont été obtenus en utilisant le quantile de la loi de Student pour un risque 5% et 1 24. A noter que nous avons rencontré un problème lors de l’estimation des paramètres de certains échantillons bootstrapés. En effet, nous obtenons dans certains cas soit des valeurs négatives pour le gradient d’altitude, soit des valeurs supérieures à 2450 m alors qu’aucune parcelle, où les données ont été prélevées, ne se situe à une altitude plus importante. Cela est du à une mauvaise optimisation du paramètre lors de l’appel de la proc nlmixed puisque pour certaines itérations il n’y a pas de convergence vers le paramètre souhaité. Nous avons donc décidé, pour ces tirages bootstrap, de ne pas inclure les paramètres estimés et l’optimum du gradient correspondant dans la table permettant d’obtenir la distribution de l’optimum. (est – ce correct d’exclure des valeurs inférieures à 0 et supérieures à l’altitude max ?) Ceci est réalisé également pour la méthode de bootstrap appliquée aux échantillons du troisième inventaire pour les Pyrénées et pour les données du système ibérique. Les estimations de l’altitude optimum de chaque espèce sont très proches de celles obtenues par ajustement sur les données initiales. Ainsi nous pouvons justifier que les intervalles de confiance du paramètre recherché, au risque de 5%, sont corrects. 40 b. Données du troisième inventaire dans les Pyrénées Nous avons déterminé les valeurs des optimums d’altitude et construit leurs intervalles de confiance des cinq espèces végétales présentes dans les Pyrénées pour le troisième inventaire de la même façon que précédemment. De même, une vérification de la normalité des distributions de l’optimum du gradient bootstrapées (annexe E) indique que la normalité est justifiée pour les cinq espèces ; nous obtenons alors les intervalles de confiance suivants (tableau 9) : Tableau 9 : Estimations de la valeur du paramètre et de son intervalle de confiance pour les espèces végétales des Pyrénées du troisième inventaire Intervalles de confiance SFI 3 Pyrénées Paramètres Espèces Moyenne Quercus petraea Quercus faginea Quercus ilex Quercus suber Fagus sylvatica 1240 833 393 165 1295 Percentiles t-bootstrapés Ecart 2,50% 97,50% Borne inférieure Borne supérieure type 78,77 1104 1422 1077 1403 17,72 798 869 796 870 23,34 347 438 345 441 33,41 88 192 96 234 17,66 1260 1330 1259 1331 Les optimums obtenus à l’aide du bootstrap sont à nouveau très proches de ceux obtenus sur les données réelles, ce qui justifie l’exactitude de nos intervalles de confiance. c. Données du deuxième inventaire dans le système ibérique On traite les données du deuxième inventaire du système ibérique selon la même méthode que celle utilisée pour les données des Pyrénées. La normalité et un faible biais des distributions bootstrapés (annexe F) sont vérifiés, nous obtenons alors les intervalles de confiance obtenus suivants (tableau 10) : 41 Tableau 10 : Estimations de la valeur du paramètre et de son intervalle de confiance pour les espèces végétales du système ibérique du deuxième inventaire Intervalles de confiance SFI 2 Système ibérique Paramètres Espèces Moyenne Quercus petraea Quercus faginea Quercus ilex Quercus suber Fagus sylvatica 1365 1068 941 527 1546 Percentiles t-bootstrapés Ecart 2,50% 97,50% type 54,74 1236 1463 10,43 1050 1090 36,87 909 1047 40,16 453 594 58,06 1462 1718 Borne inférieure 1250 1047 864 444 1425 Borne supérieure 1479 1090 1017 611 1667 Les intervalles de confiance t – bootstrapés ont été obtenus en utilisant le quantile de la loi de Student pour un risque 5% et 1 20. Ici également, on constate que les optimums obtenus par bootstrap sont très proches de ceux obtenus par la modélisation des données et l’optimisation des paramètres puisque dans le cas du Quercus petraea, par exemple, on obtient des valeurs de l’optimum altitudinal de 1368 m et 1365 m par la proc nlmixed et par le bootstrap, respectivement. d. Données du troisième inventaire dans le système ibérique Enfin nous obtenons les intervalles de confiance (tableau 11) du gradient altitudinal optimum des espèces situées dans le système ibérique pour le troisième inventaire puisque la distribution du paramètre est normale (annexe G) : Tableau 11 : Estimations de la valeur du paramètre et de son intervalle de confiance pour les espèces végétales du système ibérique du troisième inventaire Intervalles de confiance SFI 3 Système ibérique Espèces Quercus petraea Quercus faginea Quercus ilex Quercus suber Fagus sylvatica Paramètres Moyenne 1667 1095 964 497 1545 Percentiles t-bootstrapés Ecart 2,50% 97,50% Borne inférieure type 203,94 1352 2153 1241 13,87 1072 1125 1067 33,8 933 1063 894 32,26 440 563 430 56,25 1459 1715 1427 Borne supérieure 2092 1124 1035 565 1661 42 Nous avons donc pu mettre en place à l’aide du bootstrap les intervalles de confiance du gradient altitudinal pour les différentes espèces. A noter que les valeurs des intervalles de confiance du paramètre d’intérêt bootstrapés sont proches de ceux obtenus par la modélisation des données effectués sans bootstrap lorsque leur calcul est possible, c’est-à-dire dans le cadre des modèles de régression logistique et de HOF IV. Cependant le principal objectif étant d’évaluer les conséquences du facteur climatique sur la niche écologique de chaque espèce, il est nécessaire de comparer les valeurs du gradient optimal d’une espèce pour les deux inventaires. C. Comparaison des gradients d’altitude des espèces végétales pour les deux inventaires Le test des permutations mis en place nous a permis de comparer les altitudes optimums pour chaque espèce végétale entre les deux périodes d’étude. Tout comme pour l’obtention des intervalles de confiance nous avons rencontré un problème lors de l’optimisation du paramètre d’intérêt au cours de certaines itérations du bootstrap. De ce fait, nous avons supprimé les observations concernant les estimations des paramètres qui ne sont pas correctes, c’est – à – dire lorsque le gradient d’altitude estimé, d’au moins un des deux échantillons que nous souhaitons comparer, est inférieur à 0 ou supérieur à 2500 m. La statistique du test des permutations ne portent alors que sur les paramètres valides.(vérifier si l’on peut faire cela) Les résultats obtenus, probabilité critique associée au test, par le test des permutations sont présentés dans le tableau 12. Tableau 12 : Probabilités critiques obtenues pour le test des permutations pour chaque espèce et par localisation Espèces Pyrénées Système ibérique Quercus petraea Quercus faginea 0,4223 0,1049 0,0993 0,0844 Quercus ilex 0,3105 0,2364 Quercus suber 0,5817 0,7357 Fagus sylvatica 0,8960 0,5121 43 Nous remarquons que toutes les probabilités critiques du test des permutations sont supérieures à 0.05. On ne rejette donc l’hypothèse H0 pour aucune espèce et on ne peut pas conclure qu’il existe une différence significative entre l’optimum d’altitude du deuxième inventaire avec celui du troisième inventaire pour toutes les espèces. Cependant il est intéressant de remarquer que les probabilités critiques obtenues pour le Quercus petraea et le Quercus faginea dans le système ibérique sont inférieures à 0.10, ainsi si l’on avait choisi un risque de première espèce 10%, on aurait rejeté l’hypothèse nulle et on aurait conclut qu’il existe un facteur influençant la modification de la niche écologique de ces espèces. Néanmoins au vu des estimations de l’optimum altitudinal obtenues sur les échantillons initiaux, une différence évidente entre les deux optimums apparaît seulement pour le Quercus petraea situé dans le système ibérique (tableau 13). Tableau 13 : Différence entre les optimums du gradient d'altitude entre SFI2 et SFI3 pour les Pyrénées et le système ibérique Espèce Système ibérique Pyrénées Quercus petraea 36 313 Quercus faginea 162 26 Quercus ilex 22 25 Quercus suber -3 -31 Fagus sylvatica -34 -1 44 DISCUSSION ET CONCLUSION L’étude de la répartition des espèces végétales, situées dans une zone montagneuse, le long d’un gradient d’altitude, repose sur la modélisation des données d’échantillonnage dans le but d’obtenir la valeur optimale de ce gradient. En effet, l’influence des modifications des facteurs climatiques de ces dernières années pourrait être mise en évidence lors de la comparaison des optimums du gradient sur deux périodes données. Pour étudier ce phénomène, les données, dont nous disposons, ont été prélevées au cours de deux inventaires effectués en Espagne dans la chaîne montagneuse des Pyrénées et dans celle du système ibérique avec un écart dans le temps de 12 ans. De plus seules les données de cinq espèces ont été étudiées à savoir celles du chêne sessile, du chêne faginé, du chêne vert, du chêne liège et du hêtre européen. Nous avons constaté lors de la modélisation que la distribution de la répartition de chaque espèce le long d’un gradient n’est pas toujours symétrique et tend à être asymétrique. Dans le cas d’une distribution symétrique, les données sont ajustées par le modèle logistique et le modèle HOF IV. Cependant pour ajuster une distribution des données asymétrique, il est nécessaire d’utiliser un des modèles défini par Huisman, Olff et Fresco qui s’adapte tout à fait à cette situation : le modèle HOF V. Néanmoins bien que ce dernier modèle soit défini et ses paramètres estimés au cours d’une procédure d’optimisation, nous ne pouvons pas déterminer les intervalles de confiance de l’optimum du gradient altitudinal. Ce qui est pourtant possible dans le cas des deux autres modèles appliqués. Par ailleurs, il ne nous ait pas possible de tester l’égalité de l’optimum du gradient évalué pour deux inventaires et ceci quel que soit le modèle. Pour résoudre ce problème, nous avons décidé d’appliquer une méthode par bootstrap aux données de chaque espèce pour l’obtention des valeurs de leur gradient d’altitude optimal mais également de l’intervalle de confiance de ce paramètre. La modélisation de chaque échantillon bootstrapé est effectuée à partir du modèle ajustant le mieux les données initiales dont le choix a été défini grâce au critère d’information d’Akaike. 45 Les valeurs des optimums des gradients altitudinaux obtenues, à partir de la méthode du bootstrap, sont tout à fait cohérentes avec celles issues de la modélisation des échantillons initiaux. De plus, pour chaque valeur nous obtenons deux types d’intervalles de confiance : « t – bootstrapés » et les intervalles reposant sur les percentiles de la distribution des valeurs de l’optimum bootstrapé. Cependant il est intéressant de se demander quel type d’intervalle de confiance est le plus fiable, ce que nous n’avons pas déterminé au cours de cette analyse. Quant à la comparaison des optimums des deux inventaires espagnols d’une espèce, nous avons mis en œuvre le test des permutations. Il en ressort qu’aucune différence significative ne peut être mise en évidence si l’on considère un risque de première espèce égale à 5%. Cela peut être justifié par le fait que les inventaires sont rapprochés dans le temps et que les niches écologiques n’ont pas encore connu de modifications conséquentes en 12 ans. Bien que les conséquences des modifications du facteur climatique ne sont pas clairement mises en évidence au cours de ce test, nous constatons cependant que l’altitude, où la présence du chêne sessile et du chêne faginé est la plus importante, tend à augmenter. On peut supposer qu’une analyse reposant sur l’étude de gradients optimums de deux périodes plus éloignées dans le temps permettrait d’établir plus clairement si il existe ou non réellement un changement au sein des niches écologiques de chaque espèce en réponse aux élévations de températures au cours du temps. 46 BIBLIOGRAPHIE L I VR E S ‐ Gilbert Saporta, Probabilités, Analyse des données et Statistiques, Edition Technip, 2ème édition revue et augmentée ‐ Alan Agresti, Categorical data analysis, Edition Wiley – Interscience, 2ème édition (à noter en anglais ou en francais ?) ‐ A.C Davison, D.V. Hinkley, Bootstrap Methods and their application, Edition Cambridge University Press ‐ P. McCullagh, J.A. Nelder, Generalized Linear Models, Edition Chapman & Hall/CRC, 2ème édition ARTICLES ‐ J. Huisman, H. Olff, L. F. M. Fresco, A hierarchical set of models for species response analysis, Journal of Vegetation Science 4 : 37 – 46 (IAVS Oppulus Press Uppsala, printed in Sweden), 1993 ‐ J. E.Lawesson, J. Oksanen, Niche characteristics of Danish woody species as derived from coenoclines, Journal of Vegetation Science 13 : 279 – 290 (IAVS Oppulus Press Uppsala, printed in Sweden), 2002 ‐ J. Lenoir, J. C. Gégout, P. A. Marquet, P. de Ruffray, H. Brisse, A significant upward shift in plant species optimum elevation during the 20th century, Science, Volume 320, 1768 (2008), DOI : 10.1126/science.1156831, 27 juin 2008 ‐ D. D. Breshears, T. E. Huxman, H. D. Adams, C. B. Zou, J. E. Davison, Vegetation synchronously leans upslope as climate warms, PNAS (Proceedings of the National Academy of Sciences), volume 105 N° 33, 19 août 2008 ‐ D.D. Boos, Introduction to the bootstrap world, Statistical Science, volume 17 N°2, 168 – 174, 2003 ‐ C. A. Field, A. H. Welsh, Bootstraping clustering data, Royal Statistical Society B, volume 3, 369 – 390, 2007 47 SITES INTERNET ‐ J. Oksanen, P. R. Minchin, Non – linear maximum likelihood estimation of beta and HOF response models, section hof3.pdf sur le site University of OULU. Consulté le 17 juin 2010. http://cc.oulu.fi/~jarioksa/softhelp/hof3.pdf ‐ A. Papanicolaou, Taylor approximation and the delta method, section TaylorAppDeltaMethod.pdf sur le site Stanford University. Consulté le 3 juin 2010. http://www.phidot.org/software/mark/docs/book/pdf/app_2.pdf ‐ The ‘Delta Method’…, section app_2.pdf sur le site www.phidot.org. Consulté le 2 juin 2010. http://www.phidot.org/software/mark/docs/book/pdf/app_2.pdf ‐ J. Xu, J. S. Long, Using the Delta Method to Construct Confidence Intervals for Predicted Probabilities, Rates, and Discrete Changes, section spost_deltaci.pdf sur le site Indiana University. Consulté le 3 juin 2010. http://www.indiana.edu/~jslsoc/stata/ci_computations/spost_deltaci.pdf ‐ Estimation de modèles non linéaires, section non_lin.pdf sut le site UCL Institut de statistique, biostatistique et sciences actuarielles. Consulté le 7 juin 2010. http://www.stat.ucl.ac.be/cours/stat2430/documents/non_lin.pdf ‐ La sélection de modèles, section chap5.pdf sur le site ESPCI. Consulté le 17 août 2010. http://www.neurones.espci.fr/Theses_PS/Stoppiglia_H/chap5.pdf ‐ Introduction aux modèles linéaires généralisés, section IntroMLG.pdf sur le site Agro Campus Ouest. Consulté le 30 août 2010. http://www.agrocampus-ouest.fr/math/causeur/PDF/IntroBiostatistics/IntroMLG.pdf ‐ N. Barker, A pratical introduction to the bootstrap using the SAS system, section pk02.pdf sur le site Lex Jansen’s homepage. Consulté le 18 juin 2010. http://www.lexjansen.com/phuse/2005/pk/pk02.pdf 48 ‐ Une introduction au bootstrap, section ch16.pdf sur le site IUMSP. Consulté le 02 juin 2010. http://www.iumsp.ch/Unites/us/Alfio/polybiostat/ch16.pdf ‐ C. J. Swanepoel, The teaching and pratical implementation of the non - parametric bootstrap, section 3g1_cswa.pdf sur le site Department of statistics, the University of Auckland. Consulté le 17 juin 2010. http://www.stat.auckland.ac.nz/~iase/publications/1/3g1_cswa.pdf ‐ D. L. Cassel, Don’t be loopy : re – sampling and simulation the SAS® way, section 183-2007.pdf sur le site SAS. Consulté le 15 juin 2010. http://www2.sas.com/proceedings/forum2007/183-2007.pdf ‐ T. Hesterberg, D. Moore, S. Monaghan, A. Clipson, R. Epstein, Bootstrap Methods and permutation tests, section moore14.pdf sur le site bcs.whfreeman. Consulté le 3 août 2010. http://bcs.whfreeman.com/ips5e/content/cat_080/pdf/moore14.pdf 49 TABLE DES FIGURES ET TABLEAUX Figure 1 : Changements dans les concentrations atmosphériques de gaz carbonique (CO2), de méthane (CH4) et d’oxyde nitreux (N2O) ces 1000 dernières années. (IPCC 2007) .... 10 Figure 2 : Variations année par année (courbe gris foncé) et variations moyennes sur 50 ans (courbe bleue) de la température moyenne à la surface dans l'hémisphère Nord au cours des 1000 dernières années (écarts à la moyenne de 1961-1990). (IPCC 2007) .... 11 Figure 3 : Exemples théoriques de type de déplacements de la distribution d’espèce le long d’un gradient d’altitude en réponse au réchauffement climatique. (Breshear et al. 2008)...... 13 Figure 4 : Ensemble des 5 modèles de HOF ......................................................................................... 28 Figure 5 : Ajustement de la probabilité de présence du Quercus petraea de SFI2 dans les Pyrénées 34 Figure 6 : Ajustement de la probabilité de présence du Quercus petraea de SFI3 dans les Pyrénées 34 Figure 7 : Histogramme des optimums du gradient d’altitude de Quercus Petraea estimés pour chaque échantillon du bootstrap ........................................................................................... 39 Figure 8 : Q – qplot des quantiles de la loi normale et des valeurs de l’optimum ............................ 39 50 Tableau 1 : Extrait de la PYRSFI2 initiale contenant les données des Pyrénées pour le deuxième inventaire ................................................................................................................................ 17 Tableau 2 : Extrait de la table PYRSFI2 modifiée................................................................................. 18 Tableau 3 : Table especes.s42pyrsfi2 contenant les données concernant le chêne sessile pour le deuxième inventaire espagnol effectué dans les Pyrénées. ............................................. 19 Tableau 4 : Nombre de placettes présentant l’espèce étudiée, par zone d’étude et inventaire forestier................................................................................................................................... 20 Tableau 5 : Critère AIC obtenu par la modélisation des données des Pyrénées. .............................. 33 Tableau 6 : Critère AIC obtenu par la modélisation des données du système ibérique ................... 35 Tableau 7 : Optimums et intervalles de confiance du gradient d’altitude obtenus à partir de la modélisation des données .................................................................................................... 37 Tableau 8 : Estimations de la valeur du paramètre et de son intervalle de confiance pour les espèces végétales des Pyrénées du deuxième inventaire ................................................. 40 Tableau 9 : Estimations de la valeur du paramètre et de son intervalle de confiance pour les espèces végétales des Pyrénées du troisième inventaire .................................................. 41 Tableau 10 : Estimations de la valeur du paramètre et de son intervalle de confiance pour les espèces végétales du système ibérique du troisième inventaire ...................................... 42 Tableau 11 : Estimations de la valeur du paramètre et de son intervalle de confiance pour les espèces végétales du système ibérique du troisième inventaire ...................................... 42 Tableau 12 : Probabilités critiques obtenues pour le test des permutations pour chaque espèce et par localisation ....................................................................................................................... 43 Tableau 13 : Différence entre les optimums du gradient d'altitude entre SFI2 et SFI3 pour les Pyrénées et le système ibérique ........................................................................................... 44 51 TABLE DES ANNEXES Annexe A : Programmes SAS ..................................................................................................................... 1 Annexe B : Ajustements de la probabilité de présence de chaque espèce pour les deux inventaires des Pyrénées........................................................................................................................... 13 Annexe C : Ajustements de la probabilité de présence de chaque espèce pour les deux inventaires du système ibérique .............................................................................................................. 15 Annexe D : Histogrammes et q – qplot des estimations des optimums du gradient altitudinal des données bootstrapées des espèces végétales des Pyrénées du deuxième inventaire ... 17 Annexe E : Histogrammes et q – qplot des estimations des optimums du gradient altitudinal des données bootstrapées des espèces végétales des Pyrénées du troisième inventaire .... 19 Annexe F : Histogrammes et q – qplot des estimations des optimums du gradient altitudinal des données bootstrapées des espèces végétales du système ibérique du deuxième inventaire ................................................................................................................................ 21 Annexe G : Histogrammes et q – qplot des estimations des optimums du gradient altitudinal des données bootstrapées des espèces végétales du système ibérique du troisième inventaire ................................................................................................................................ 23 52 ANNEXES Annexe A : Programmes SAS /******************************************/ /* PROGRAMME 1 */ /*A faire compiler en premier */ /******************************************/ /* Analyse de la base de données des gradients d'espèces d'arbres en Espagne */ /******************************************/ /* Création de 01-macros.sas */ /*---------------------------------------*/ /* Programme réalisé par AE le 15/06/10 */ /* Modifié le 16/09/2010 */ /******************************************/ options linesize = 75 pagesize = 66 nodate number; /* Appel de la librairie contenant les macros*/ libname macro "C:\Users\kinéto\Documents\COURS\master\M1\01STAG E\prog_dd\stock"; /*libname macro "C:\Documents and Settings\biogeco\Mes documents\01STAGE\prog_dd\stock";*/ /* Déclare que l'utilisation des macros se fait à partir de la librairie macro*/ options sasmstore = macro mstored; /* Appel de la librairie contenant la table de données*/ libname grad "C:\Users\kinéto\Documents\COURS\master\M1\01STAG E\prog_dd\tables\gradients_init"; /*libname grad 'C:\Documents and Settings\biogeco\Mes documents\01STAGE\prog_dd\tables\gradients_init'; */ /* Appel de la librairie contenant les tables par espèces*/ libname especes 'C:\Users\kinéto\Documents\COURS\master\M1\01STAG E\prog_dd\tables\especes'; /*libname especes 'C:\Documents and Settings\biogeco\Mes documents\01STAGE\prog_dd\tables\especes';*/ /* Appel de la librairie contenant les tables des intervalles de confiance de l'optimum de chaque espèce*/ libname ic 'C:\Users\kinéto\Documents\COURS\master\M1\01STAG E\prog_dd\tables\ic'; /*libname ic 'C:\Documents and Settings\biogeco\Mes documents\01STAGE\prog_dd\tables\ic';*/ /* Appel de la librairie contenant les résultats du test des permutations*/ libname test 'C:\Users\kinéto\Documents\COURS\master\M1\01STAG E\prog_dd\tables\test'; /*libname test 'C:\Documents and Settings\biogeco\Mes documents\01STAGE\prog_dd\tables\test';*/ /******************************************/ /*Creation de la macro procédure %importation*/ /*-------------------------------------------*/ /* Permet d'importer les tables de données excel en spécifiant la table de sortie SAS, le chemin d'accès et le nom de fichier, ainsi que la feuille du fichier contenant les données. */ /******************************************/ %macro importation(tab,fichier,feuille)/store; proc import OUT = &tab DATAFILE = &fichier DBMS = EXCEL REPLACE; SHEET = &feuille; GETNAMES = YES; MIXED = NO; SCANTEXT = YES; USEDATE = YES; SCANTIME = YES; run; %mend importation; /******************************************/ /* Creation de la macro procédure %classe */ /*-----------------------------------------*/ /*Permet de créer les classes d'altitude auxquelles chaque placette appartient. */ /******************************************/ %macro classe(tab)/store; data &tab; set &tab; if altitude ge 0 & altitude lt 100 then altitudec = 50; else if altitude ge 100 & altitude lt 200 then altitudec = 150; else if altitude ge 200 & altitude lt 300 then altitudec = 250; else if altitude ge 300 & altitude lt 400 then altitudec = 350; else if altitude ge 400 & altitude lt 500 then altitudec = 450; else if altitude ge 500 & altitude lt 600 then altitudec = 550; else if altitude ge 600 & altitude lt 700 then altitudec = 650; else if altitude ge 700 & altitude lt 800 then altitudec = 750; else if altitude ge 800 & altitude lt 900 then altitudec = 850; else if altitude ge 900 & altitude lt 1000 then altitudec = 950; else if altitude ge 1000 & altitude lt 1100 then altitudec = 1050; else if altitude ge 1100 & altitude lt 1200 then altitudec = 1150; else if altitude ge 1200 & altitude lt 1300 then altitudec = 1250; else if altitude ge 1300 & altitude lt 1400 then altitudec = 1350; else if altitude ge 1400 & altitude lt 1500 then altitudec = 1450; 1 else if altitude ge altitudec = 1550; else if altitude ge altitudec = 1650; else if altitude ge altitudec = 1750; else if altitude ge altitudec = 1850; else if altitude ge altitudec = 1950; else if altitude ge altitudec = 2050; else if altitude ge altitudec = 2150; else if altitude ge altitudec = 2250; else if altitude ge altitudec = 2350; else if altitude ge altitudec = 2450; run; %mend classe; 1500 & altitude lt 1600 then 1600 & altitude lt 1700 then 1700 & altitude lt 1800 then 1800 & altitude lt 1900 then 1900 & altitude lt 2000 then data &tabfin; merge l k essai1; drop percent; by altitudec; if absence = . then absence = 0; if presence = . then presence = 0; p = presence / (absence + presence); /*proba de présence calculée d'une première facon*/ /*p1 = presence / count; proba de présence*/ run; 2000 & altitude lt 2100 then %mend tabespece; 2100 & altitude lt 2200 then 2200 & altitude lt 2300 then 2300 & altitude lt 2400 then 2400 & altitude lt 2500 then /******************************************/ /* Creation de la macro procédure %tabespece */ /*-------------------------------------------*/ /* Permet de créer les tables par espèce et campagne afin d'effectuer le bootstrap */ /******************************************/ /******************************************/ /* Creation de la macro procédure %log */ /*--------------------------------------*/ /* Permet d'obtenir l'optimum du gradient en ajustant les données par une régression logistique */ /******************************************/ /* ajustement par max de vraisemblance du modèle logistique sur présence/abs*/ %macro log(fichier,table,nbiter,b0,b1,b2,var,totplot,tit re)/store; title &titre; ods output ParameterEstimates (persist) = par&var; %macro tabespece(tabcampagne,espece,tabfin)/store; /* Obtention du nombre de placettes avec présence ou absence de l'espèce étudiée*/ /* Création de la table essai*/ proc freq data = &tabcampagne noprint; table &espece * altitudec / chisq out = essai nocol norow nopercent; run; /* Obtention du nombre de placettes par altitude*/ /* Création de la table essai1*/ proc freq data = &tabcampagne noprint; table altitudec / chisq out = essai1 nocol norow nopercent; run; /* Création de la table permettant de calculer les probas pour s42*/ data l; set essai; where &espece = 0; keep altitudec absence; absence = count; run; data k; set essai; where &espece = 1; keep altitudec presence; presence = count; run; ods rtf file = "C:\Users\kinéto\Documents\COURS\master\M1\01STAG E\prog_dd\fit\&fichier"; proc nlmixed data = &table maxiter = &nbiter; /* initialisation des paramètres de la régression pour l'algorithme d'optimisation*/ parms beta0 = &b0 beta1 = &b1 beta2 = &b2; eta = beta0 + (altitudec / 10000) * beta1 + beta2 * ((altitudec ** 2) / 10000); expeta = exp(eta); /* probabilité de succès en fonction de l'altitude*/ p = expeta / (1 + expeta); /* spécifie le modèle de la variable expliquée en fonction des effets*/ model &var ~ binomial(&totplot,p); predict p out = res&var; /* obtention de l'optimum en fonction des paramètres obtenus par optimisation*/ estimate 'opt' - beta1 / 2 / beta2; run; data e; set res&var; residus = p - pred; label residus = "Résidus"; run; /* Porcédure de tri pour pouvoir effectuer le merge*/ proc sort data = l; by altitudec; run; /* Options des graphiques*/ goptions gunit = pct border cback = white colors = (black cyan gray lime blue green red yellow violet purple) ftext = 'Garamond/bo' ftitle = 'Garamond/it' htitle = 8 htext = 5; symbol1 v = dot c = black h = 2 pct i = none; axis2 label = ( "Quantiles de la loi normale") minor = none; proc sort data = k; by altitudec; run; proc univariate data = e; 2 qqplot residus / normal (mu = est sigma = est color = red) haxis = axis2; var residus; run; ods output close; ods rtf close; %mend log; /******************************************/ /*Creation de la macro procédure %graph_log */ /*---------------------------------------*/ /* Permet de tracer la courbe d'ajustement des données obtenue par une régression logistique */ /******************************************/ %macro graph_log(fichier,var,titre)/store; ods rtf file = "C:\Users\kinéto\Documents\COURS\master\M1\01STAG E\prog_dd\fit\&fichier"; data res&var; set res&var; label altitudec = 'Altitude'; label p = "Probabilité de présence"; run; /* Options des graphiques*/ goptions gunit = pct border cback = white colors = (black cyan gray lime blue green red yellow violet purple) ftext = 'Garamond/bo' ftitle = 'Garamond/it' htitle = 8 htext = 5; proc gplot data = res&var; title &titre; axis1 label = (angle = 90); plot (p pred) * altitudec / overlay vaxis = axis1; symbol1 v = triangle c = black h = 3 pct i = none; symbol2 v = dot c = blue h = 3 pct i = none; run; quit; ods rtf close; %mend graph_log; /******************************************/ /*Creation de la macro procédure %hof4 */ /*---------------------------------------------*/ /* Permet d'obtenir l'optimum du gradient en ajustant les données par le modèle 4 de HOF */ /******************************************/ %macro hof4(fichier,table,nbiter,a,b,c,var,totplot,titre )/store; parms a = &a b = &b c = &c; p = 1 / (1 + exp(a + b * altitudec)) / (1 + exp(c - b * altitudec)); model &var ~ binomial(&totplot,p); predict p out = resu&var; estimate 'opt' (c - a) / (2 * b); run; data e; set resu&var; residus = p - pred; label residus = "Résidus"; run; /* Options des graphiques*/ goptions gunit = pct border cback = white colors = (black cyan gray lime blue green red yellow violet purple) ftext = 'Garamond/bo' ftitle = 'Garamond/it' htitle = 8 htext = 5; symbol1 v = dot c = black h = 2 pct i = none; axis2 label = ( "Quantiles de la loi normale") minor = none; proc univariate data = e; qqplot residus / normal (mu = est sigma = est color = red) haxis = axis2; var residus; run; ods output close; ods rtf close; %mend hof4; /******************************************/ /*Creation de la macro procédure %graph_hof4 */ /*-------------------------------------------*/ /* Permet de tracer la courbe d'ajustement des données obtenue par le modèle 4 de HOF */ /******************************************/ %macro graph_hof4(fichier,var,titre)/store; ods rtf file = "C:\Users\kinéto\Documents\COURS\master\M1\01STAG E\prog_dd\fit\&fichier"; data resu&var; set resu&var; label altitudec = 'Altitude'; label p = "Probabilité de présence"; run; /* Options des graphiques*/ goptions gunit = pct border cback = white colors = (black cyan gray lime blue green red yellow violet purple) ftext = 'Garamond/bo' ftitle = 'Garamond/it' htitle = 8 htext = 5; title &titre; /* Création de la table de sortie des paramètres de l'ajustement par modèle HOF IV*/ ods output ParameterEstimates (persist) = Param&var; ods rtf file = "C:\Users\kinéto\Documents\COURS\master\M1\01STAG E\prog_dd\fit\&fichier"; /* Ajustement par max de vraisemblance du modèle HOF IV*/ proc nlmixed data = &table maxiter = &nbiter; proc gplot data = resu&var; title &titre; axis1 label = (angle = 90) ; plot (p pred) * altitudec / overlay vaxis = axis1 ; symbol1 v = triangle c = black h = 3 pct i = none; symbol2 v = dot c = blue h = 3 pct i = none; run; quit; ods rtf close; %mend graph_hof4; 3 /******************************************/ /*Creation de la macro procédure %hof5 */ /*--------------------------------------------*/ /*Permet d'obtenir l'optimum du gradient en ajustant les données par le modèle 5 de HOF */ /******************************************/ %macro hof5(fichier,table,nbiter,a,b,c,d,var,totplot,tit re)/store; solve x / solveprint out = opt&var; run; quit; %mend hof5; /******************************************/ /* Creation de la macro procédure %graph_hof5 */ /*-------------------------------------------*/ /* Permet de tracer la courbe d'ajustement des données obtenue par le modèle 5 de HOF */ /******************************************/ title &titre; /* Création de la table de sortie des paramètres de l'ajustement par modèle HOF IV*/ ods output ParameterEstimates (persist) = param&var; ods rtf file = "C:\Users\kinéto\Documents\COURS\master\M1\01STAG E\prog_dd\fit\&fichier"; /* Ajustement par max de vraisemblance du modèle HOF IV*/ proc nlmixed data = &table maxiter = &nbiter; parms a = &a b = &b c = &c d = &d; p = 1 /(1 + exp(a + b * altitudec)) / (1 + exp(c + d * altitudec)); model &var ~ binomial(&totplot,p); predict p out = resul&var; run; data e; set resul&var; residus = p - pred; label residus = "Résidus"; run; /* Options des graphiques*/ goptions gunit = pct border cback = white colors = (black cyan gray lime blue green red yellow violet purple) ftext = 'Garamond/bo' ftitle = 'Garamond/it' htitle = 8 htext = 5; symbol1 v = dot c = black h = 2 pct i = none; axis2 label = ( "Quantiles de la loi normale") minor = none; proc univariate data = e; qqplot residus / normal (mu = est sigma = est color = red) haxis = axis2; var residus; run; ods output close; ods rtf close; /* Obtention de la table contenant les paramètres a, b, c et d estimés*/ proc transpose data = param&var out = param&var; var estimate; run; data param&var; set param&var; drop _name_ _label_; rename col1 = a col2 = b col3 = c col4 = d; run; /* Obtention de l'estimation de l'optimum*/ proc model data = param&var noprint; eq.opt = - b * exp(a + b * x) * (1 + exp(c + d * x)) - d * exp(c + d * x) * (1 + exp(a + b * x)); %macro graph_hof5(fichier,var,titre)/store; ods rtf file = "C:\Users\kinéto\Documents\COURS\master\M1\01STAG E\prog_dd\fit\&fichier"; data resul&var; set resul&var; label altitudec = 'Altitude'; label p = "Probabilité de présence"; run; /* Options des graphiques*/ goptions gunit = pct border cback = white colors = (black cyan gray lime blue green red yellow violet purple) ftext = 'Garamond/bo' ftitle = 'Garamond/it' htitle = 8 htext = 5; proc gplot data = resul&var; title &titre; axis1 label = (angle = 90); plot (p pred) * altitudec / overlay vaxis = axis1 ; symbol1 v = triangle c = black h = 3 pct i = none; symbol2 v = dot c = blue h = 3 pct i = none; run; quit; ods rtf close; %mend graph_hof5; /******************************************/ /*Creation de la macro procédure %bootstrap_reg*/ /*--------------------------------------------*/ /*Méthode de bootstrap permettant d'obtenir l'estimation des paramètres a,b,c et optimum, ainsi que l'IC de l'optimum en utilisant le modèle HOF 4 */ /******************************************/ %macro bootstrap_reg (tabentree,nb_repet,beta0,beta1,beta2,iter,tab_ic ,fichier,titre,talpha)/store; title &titre; /* Cette option permet de stocker provisoirement la table sur laquelle le bootstrap est effectué afin*/ /* de faciliter la procédure.*/ sasfile &tabentree load; proc surveyselect data = &tabentree out = outboot /*table de sortie contenant les échantillons bootstrapés*/ method = urs /* La méthode urs signifie Unrestricted Random Sampling qui est en fait un tirage de nombres aléatoires avec remise.*/ samprate = 1 /* spécifie le taux d'échantillonnage*/ outhits /* indique le nombre de fois où l'individu a été tiré lors d'un même tirage*/ 4 rep = &nb_repet; /* Nombre de répétition*/ run; sasfile &tabentree close; /* Procédure d'optimisation des paramètres a, b, c et de l'optimum selon le modèle HOF 4 effectuée pour chaque échantillon bootstrapé*/ ods output ParameterEstimates (persist) = param; proc nlmixed data = outboot maxiter = &iter; /* initialisation des paramètres de la régression pour l'algorithme d'optimisation*/ parms beta0 = &beta0 beta1 = &beta1 beta2 = &beta2; eta = beta0 + (altitudec / 10000) * beta1 + beta2 * ((altitudec ** 2) / 10000); expeta = exp(eta); /* probabilité de succès en fonction de l'altitude*/ p = expeta / (1 + expeta); /* spécifie le modèle de la variable expliquée en fonction des effets*/ model presence ~ binomial(count,p); predict p out = resu; by replicate; /* obtention de l'optimum en fonction des paramètres obtenus par optimisation*/ estimate 'opt' - beta1 / 2 / beta2; run; ods output close; /* Obtention de la table contenant les estimations des paramètres a, b et c*/ proc transpose data = param out = estimation (keep = replicate _label_ col1 col2 col3); by replicate; run; /* Obtention de la table estimation contenant les paramètres a, b, c et opt*/ data estimation (drop = col1 col2 col3); set estimation; /*where _label_ = "Estimation";*/ /*à modifier lors de l'utilisation à BIOGECO*/ where _label_ = "Valeur estimée"; /*PC AUDREY*/ beta0 = col1; beta1 = col2; beta2 = col3; opt = - beta1 / 2 / beta2; run; data estimation; set estimation; where opt gt 0 and opt le 2500; label opt = 'Optimum'; run; ods rtf file = "C:\Users\kinéto\Documents\COURS\master\M1\01STAG E\prog_dd\bootstrap\&fichier"; /* Options des graphiques*/ goptions gunit = pct border cback = white colors = (black cyan gray lime blue green red yellow violet purple) ftext = 'Garamond/bo' ftitle = 'Garamond/it' htitle = 6 htext = 3; symbol1 v = dot c = black h = 2 pct i = none; axis1 label = (angle = 90 "Effectif"); axis2 label = ("Optimum"); axis3 label = ("Quantiles de la loi normale") /*minor = none*/; vbar opt / width = 10 levels = 8 nolegend raxis = axis1 gaxis = axis2; pattern c = orange; run; /* Vérification de la normalité de la répartition de la variable optimum ainsi que sa moyenne et ses quantiles permettant d'obtenir l'IC*/ proc univariate data = estimation normal alpha = 0.05 cibasic noprint; qqplot opt / normal (mu = est sigma = est color = red) haxis = axis3; var opt; output out = opt_est mean = moyenne std = ecart; output out = quantiles pctlpts = 1 to 100 by 0.5 pctlpre = P; run; ods rtf close; /* Obtention de l'intervalle de confiance de la moyenne sachant que dans le cadre du bootstrap, l'IC est équivalent à (nb_repet*(alpha/2)) -(nb_repet*(1-(alpha/2)))*/ data &tab_ic (keep = p2_5 p97_5 pl_t pu_t moyenne ecart);/*pl_norm pu_norm*/ retain p2_5 p97_5 pl_t pu_t moyenne ecart;/*pl_norm pu_norm*/ merge quantiles opt_est; /*pl_norm = moyenne - 1.96 * ecart;/*risque de 5%*/ /*pu_norm = moyenne + 1.96 * ecart;*/ pl_t = moyenne - &talpha * ecart;/*n-1 dl pour student au risque 5%*/ pu_t = moyenne + &talpha * ecart; run; %mend bootstrap_reg; /******************************************/ /*Creation de la macro procédure %bootstrap_hof4 */ /*------------------------------------------*/ /* Méthode de bootstrap permettant d'obtenir l'estimation des paramètres a,b,c et optimum, ainsi que l'IC de l'optimum en utilisant le modèle HOF 4 */ /******************************************/ %macro bootstrap_hof4 (tabentree,nb_repet,a,b,c,iter,tab_ic,fichier,tit re,talpha)/store; title &titre; /* Cette option permet de stocker provisoirement la table sur laquelle le bootstrap est effectué afin*/ /* de faciliter la procédure.*/ sasfile &tabentree load; proc surveyselect data = &tabentree out = outboot /*table de sortie contenant les échantillons bootstrapés*/ method = urs /* La méthode urs signifie Unrestricted Random Sampling qui est en fait un tirage de nombres aléatoires avec remise.*/ samprate = 1 /* spécifie le taux d'échantillonnage*/ outhits /* indique le nombre de fois où l'individu a été tiré lors d'un même tirage*/ rep = &nb_repet; /* Nombre de répétition*/ run; sasfile &tabentree close; /* Histogramme de l'optimum*/ proc gchart data = estimation; 5 /* Procédure d'optimisation des paramètres a, b, c et de l'optimum selon le modèle HOF 4 effectuée pour chaque échantillon bootstrapé*/ ods output ParameterEstimates (persist) = Param; proc nlmixed data = outboot maxiter = 500; parms a = &a b = &b c = &c; p = 1 / (1 + exp(a + b * altitudec)) / (1 + exp(c - b * altitudec)); model presence ~ binomial(count,p); predict p out = resu; by Replicate; /* indique que l'on effectue la procédure pour chaque échantillon bootstrapé et contenu dans la table outboot*/ estimate 'opt' (c - a) / (2 * b); run; ods output close; /* Obtention de la table contenant les estimations des paramètres a, b et c*/ proc transpose data = param out = estimation (keep = replicate _label_ col1 col2 col3); by replicate; run; /* Obtention de la table estimation contenant les paramètres a, b, c et opt*/ data estimation (drop = col1 col2 col3); set estimation; /*where _label_ = "Estimation";*/ /*à modifier lors de l'utilisation à BIOGECO*/ where _label_ = "Valeur estimée"; /*PC AUDREY*/ a = col1; b = col2; c = col3; opt = (c - a) / (2 * b); run; data estimation; set estimation; where opt gt 0 and opt le 2500; run; ods rtf file = "C:\Users\kinéto\Documents\COURS\master\M1\01STAG E\prog_dd\bootstrap\&fichier"; /* Options des graphiques*/ goptions gunit = pct border cback = white colors = (black cyan gray lime blue green red yellow violet purple) ftext = 'Garamond/bo' ftitle = 'Garamond/it' htitle = 6 htext = 3; symbol1 v = dot c = black h = 2 pct i = none; axis1 label = (angle = 90 "Effectif"); axis2 label = ("Optimum"); axis3 label = ("Quantiles de la loi normale") /*minor = none*/; /* Histogramme de l'optimum*/ proc gchart data = estimation; vbar opt / width = 10 nolegend raxis = axis1 gaxis = axis2; pattern c = orange; run; /* Vérification de la normalité de la répartition de la variable optimum ainsi que sa moyenne et ses quantiles permettant d'obtenir l'IC*/ proc univariate data = estimation normal alpha = 0.05 cibasic noprint; qqplot opt / normal (mu = est sigma = est color = red) haxis = axis3; var opt; output out = opt_est mean = moyenne std = ecart; output out = quantiles pctlpts = 1 to 100 by 0.5 pctlpre = P; run; ods rtf close; /* Obtention de l'intervalle de confiance de la moyenne sachant que dans le cadre du bootstrap, l'IC est équivalent à (nb_repet*(alpha/2)) -(nb_repet*(1-(alpha/2)))*/ data &tab_ic (keep = p2_5 p97_5 pl_t pu_t moyenne ecart);/*pl_norm pu_norm*/ retain p2_5 p97_5 pl_t pu_t moyenne ecart;/*pl_norm pu_norm*/ merge quantiles opt_est; /*pl_norm = moyenne - 1.96 * ecart;/*risque de 5%*/ /*pu_norm = moyenne + 1.96 * ecart;*/ pl_t = moyenne - &talpha * ecart;/*n-1 dl pour student au risque 5%*/ pu_t = moyenne + &talpha * ecart; run; %mend bootstrap_hof4; /******************************************/ /* Creation de la macro procédure %bootstrap_hof5 */ /*--------------------------------------------*/ /*Méthode de bootstrap permettant d'obtenir l'estimation des paramètres a,b,c et optimum, ainsi que l'IC de l'optimum en utilisant le modèle HOF 5 */ /******************************************/ %macro bootstrap_hof5 (tabentree,nb_repet,a,b,c,d,iter,tab_ic,fichier,t itre,talpha)/store; title &titre; /* Cette option permet de stocker provisoirement la table sur laquelle le bootstrap est effectué afin*/ /* de faciliter la procédure.*/ sasfile &tabentree load; proc surveyselect data = &tabentree out = outboot /*table de sortie contenant les échantillons bootstrapés*/ method = urs /* La méthode urs signifie Unrestricted Random Sampling qui est en fait un tirage de nombres aléatoires avec remise.*/ samprate = 1 /* spécifie le taux d'échantillonnage*/ outhits /* indique le nombre de fois où l'individu a été tiré lors d'un même tirage*/ rep = &nb_repet; /* Nombre de répétition*/ run; sasfile &tabentree close; /* Procédure d'optimisation des paramètres a, b, c et de l'optimum selon le modèle HOF 4 effectuée pour chaque échantillon bootstrapé*/ ods output ParameterEstimates (persist) = param; proc nlmixed data = outboot maxiter = &iter; parms a = &a b = &b c = &c d = &d; p = 1 /(1 + exp(a + b * altitudec)) / (1 + exp(c + d * altitudec)); model presence ~ binomial(count,p); predict p out = resu; by replicate; run; ods output close; 6 /* Obtention de la table contenant les estimations des paramètres a, b et c*/ proc transpose data = param out = estimation (keep = replicate _label_ col1 col2 col3 col4); by replicate; run; /* Obtention de la table estimation contenant les paramètres a, b, c et opt*/ data estimation (drop = col1 col2 col3 col4); set estimation; /*where _label_ = "Estimation";*/ /*à modifier lors de l'utilisation à BIOGECO*/ where _label_ = "Valeur estimée"; /*PC AUDREY*/ a = col1; b = col2; c = col3; d=col4; run; data &tab_ic (keep = p2_5 p97_5 pl_t pu_t moyenne ecart);/*pl_norm pu_norm*/ retain p2_5 p97_5 pl_t pu_t moyenne ecart;/*pl_norm pu_norm*/ merge quantiles opt_est; /*pl_norm = moyenne - 1.96 * ecart;/*risque de 5%*/ /*pu_norm = moyenne + 1.96 * ecart;*/ pl_t = moyenne - &talpha * ecart;/*n-1 dl pour student, avec n = 25 au risque 5% pour les Pyrénées, changer la valeur dans le cas du système ibérique car n = 21*/ pu_t = moyenne + &talpha * ecart; run; %mend bootstrap_hof5; proc model data = estimation noprint; eq.opt = - b * exp(a + b * x) * (1 + exp(c + d * x)) - d * exp(c + d * x) * (1 + exp(a + b * x)); solve x / solveprint out = optimum; run; quit; /******************************************/ /*Creation de la macro procédure %test_reg */ /*-----------------------------------------*/ /* Méthode de test bootstrap permettant de comparer les optimums des distributions d'une même espèce pour deux inventaires. */ /******************************************/ data optimum; set optimum; where x gt 0 and x le 2500; label x = "Optimum"; run; %macro test_reg(tabsfi2,tabsfi3,nb_repet,beta0,beta1,bet a2,iter,diff,stat_test)/store; ods rtf file = "C:\Users\kinéto\Documents\COURS\master\M1\01STAG E\prog_dd\bootstrap\&fichier"; /* Options des graphiques*/ goptions gunit = pct border cback = white colors = (black cyan gray lime blue green red yellow violet purple) ftext = 'Garamond/bo' ftitle = 'Garamond/it' htitle = 6 htext = 3; symbol1 v = dot c = black h = 2 pct i = none; axis1 label = (angle = 90 "Effectif"); axis2 label = ("Optimum") minor = none; axis3 label = ("Quantiles de la loi normale") /*minor = none*/; /* Histogramme de l'optimum*/ proc gchart data = optimum; vbar x / width = 10 nolegend raxis = axis1 gaxis = axis2; pattern c = orange; run; /* Vérification de la normalité de la répartition de la variable optimum ainsi que sa moyenne et ses quantiles permettant d'obtenir l'IC*/ proc univariate data = optimum normal alpha = 0.05 cibasic noprint; qqplot x / normal (mu = est sigma = est color = red) haxis = axis3; var x; output out = opt_est mean = moyenne std = ecart; output out = quantiles pctlpts = 1 to 100 by 0.5 pctlpre = P; run; ods rtf close; /* Obtention de l'intervalle de confiance de la moyenne sachant que dans le cadre du bootstrap, l'IC est équivalent à (nb_repet*(alpha/2)) -(nb_repet*(1-(alpha/2)))*/ /* Création des tables provisoires des données de chaque espèces pour chaque inventaire contenant la variable spécifiant le numéro de l'inventaire.*/ data tab1; set &tabsfi2; sfi2 = 2; run; data tab2; set &tabsfi3; sfi3 = 3; run; /* Création de la table regroupant les deux inventaires de chaque espèce*/ data combine (drop = sfi2 sfi3); set tab1 tab2; if sfi2 eq 2 then sfi = 2; else if sfi3 eq 3 then sfi = 3; /*variable sfi du numéro de l'inventaire*/ run; /* Tirage aléatoire et sans remise des données de l'échantillon regroupé afin de créer le premier échantillon nécessaire au test bootstrap avec permutations.*/ /* option samprate spécifie le taux d'échantillonnage, ici même nombre d'obs pour chaque inventaire donc taux = 50%*/ proc surveyselect data = combine out = ech1 method = srs samprate = 50 rep = &nb_repet; run; /* option samprate spécifie le taux d'échantillonnage, on cherche à obtenir la table initiale mais répétée nb_repet fois pour pouvoir ensuite obtenir celle de l'achantillon 2 à l'aide du merge.*/ proc surveyselect data = combine out = combine method = srs samprate = 100 rep = &nb_repet; run; 7 /* Création de l'indicateur numéro permettant de distinguer les données aléatoires du premier échantillon.*/ data ech1; set ech1; retain numero 1; run; /* On trie les données du premier échantillon et de l'échantillon regroupé par inventaire, par classe d'altitude et par nombre de parcelles ù l'espèce est présente afin de pouvoir effectuer un merge par la suite pour l'obtention des données du second échantillon.*/ proc sort data = ech1; by replicate sfi altitudec presence; run; proc sort data = combine; by replicate sfi altitudec presence; run; /* On regroupe les deux échantillons afin de pouvoir ensuite distinguer le second échantillon bootstrap permettant la mise en place du test bootstrap.*/ data global; merge ech1 combine; by replicate sfi altitudec presence; if numero ne 1 then numero = 0; run; /* Obtention du second échantillon bootstrapé*/ data ech2; set global; where numero eq 0; run; /* Obtention de la table contenant les paramètres a, b, c et d du modèle HOF 5 ajustant les données bootstrapées de l'échantillon 1 pour chaque itération.*/ ods output ParameterEstimates (persist) = param_ech1; proc nlmixed data = ech1 maxiter = &iter; parms beta0 = &beta0 beta1 = &beta1 beta2 = &beta2; eta = beta0 + (altitudec/10000) * beta1 + beta2 * ((altitudec**2)/10000); expeta = exp(eta); p = expeta / (1 + expeta); model presence ~ binomial(count,p); predict p out = resu; by replicate; estimate 'opt' - beta1 / 2 / beta2; run; ods output close; /* Mise en place de la table permettant d'obtenir pour chaque itération du bootstrap les paramètres du modèle d'ajustement ainsi que l'optimum correspondant.*/ proc transpose data = param_ech1 out = param_ech1; var estimate; by replicate; run; /* Obtention de l'estimation de l'optimum*/ data opt_ech1 (drop = col1 col2 col3); set param_ech1; /*where _label_ = "Estimation";*/ /*à modifier lors de l'utilisation à BIOGECO*/ where _label_ = "Valeur estimée"; /*PC AUDREY*/ beta0 = col1; beta1 = col2; beta2 = col3; opt = - beta1 / 2 / beta2; run; /* Création de la variable obs et x1 correspondant à l'optimum de chaque échantillon de bootstrap.*/ data opt_ech1 (drop = opt beta0 beta1 beta2); set opt_ech1; retain obs 0; opt1 = opt; obs + 1; run; /* Obtention de la table contenant les paramètres a, b, c et d du modèle HOF 5 ajustant les données bootstrapées de l'échantillon 2 pour chaque itération.*/ ods output ParameterEstimates (persist) = param_ech2; proc nlmixed data = ech2 maxiter = &iter; parms beta0 = &beta0 beta1 = &beta1 beta2 = &beta2; eta = beta0 + (altitudec/10000) * beta1 + beta2 * ((altitudec**2)/10000); expeta = exp(eta); p = expeta / (1 + expeta); model presence ~ binomial(count,p); predict p out = resu; by replicate; estimate 'opt' - beta1 / 2 / beta2; run; ods output close; /* Mise en place de la table permettant d'obtenir pour chaque itération du bootstrap les paramètres du modèle d'ajustement ainsi que l'optimum correspondant.*/ proc transpose data = param_ech2 out = param_ech2; var estimate; by replicate; run; /* Obtention de l'estimation de l'optimum*/ data opt_ech2 (drop = col1 col2 col3); set param_ech2; /*where _label_ = "Estimation";*/ /*à modifier lors de l'utilisation à BIOGECO*/ where _label_ = "Valeur estimée"; /*PC AUDREY*/ beta0 = col1; beta1 = col2; beta2 = col3; opt = - beta1 / 2 / beta2; run; /* Création de la variable obs et x1 correspondant à l'optimum de chaque échantillon de bootstrap.*/ data opt_ech2 (drop = opt beta0 beta1 beta2); set opt_ech2; retain obs 0; opt2 = opt; obs + 1; run; /* Obtention de la variable stat correspondant à la différence entre les optimums obtenus pour les deux échantillons issus du bootstrap, et créationde la variable sup qui est égale à 1 si la différence entre les deux optimums est supérieure à celle des échantillons initiaux, ou égale à 0 sinon.*/ data compare; merge opt_ech1 opt_ech2; 8 by obs; stat = opt2 - opt1; diffopt = &diff; if stat gt diffopt then sup = 1; else if stat lt diffopt then sup = 0; run; data compare; set compare; if (opt1 le 0 or opt1 gt 2500) or (opt2 le 0 or opt2 gt 2500) then delete; run; proc univariate data = compare noprint; qqplot stat / normal (mu = est sigma = est color = red); run; /* Création de la table stat_test contenant le nombre de fois où la différence entre les optimums issus du bootstrap sont supérieurs à celle des optimums des échantillons initiaux.*/ proc univariate data = compare noprint; var sup; output out = &stat_test nobs = n_obs sum = eff; run; /* Obtention de la table contenant la probabilité que la différence entre les échantillons bootstrapés soient supérieurs à celle initiale.*/ /* Si cette probabilité est inférieure à (alpha / 2) ou bien supérieure à (1 - (alpha / 2)) alors on rejette H0 d'égalité des distributions (un traitement n'a pas d'effet par exemple). Ici si l'on ne rejette pas H0 alors on conclut que les optimums ne sont pas significativement différents au risque alpha.*/ data &stat_test; set &stat_test; p_test = (1 + eff) / (n_obs + 1); p_test1 = eff / n_obs; run; %mend test_reg; /******************************************/ /* Creation de la macro procédure %test_hof4 */ /*--------------------------------------------*/ /*Méthode de test bootstrap permettant de comparer les optimums des distributions d'une même espèce pour deux inventaires. */ /******************************************/ %macro test_hof4(tabsfi2,tabsfi3,nb_repet,a,b,c,iter,dif f,stat_test)/store; /* Création des tables provisoires des données de chaque espèces pour chaque inventaire contenant la variable spécifiant le numéro de l'inventaire.*/ data tab1; set &tabsfi3; sfi2 = 2; run; data tab2; set &tabsfi2; sfi3 = 3; run; /* Création de la table regroupant les deux inventaires de chaque espèce*/ data combine (drop = sfi2 sfi3); set tab1 tab2; if sfi2 eq 2 then sfi = 2; else if sfi3 eq 3 then sfi = 3; /*variable sfi du numéro de l'inventaire*/ run; /* Tirage aléatoire et sans remise des données de l'échantillon regroupé afin de créer le premier échantillon nécessaire au test bootstrap avec permutations.*/ /* option samprate spécifie le taux d'échantillonnage, ici même nombre d'obs pour chaque inventaire donc taux = 50%*/ proc surveyselect data = combine out = ech1 method = srs samprate = 50 rep = &nb_repet; run; /* option samprate spécifie le taux d'échantillonnage, on cherche à obtenir la table initiale mais répétée nb_repet fois pour pouvoir ensuite obtenir celle de l'achantillon 2 à l'aide du merge.*/ proc surveyselect data = combine out = combine method = srs samprate = 100 rep = &nb_repet; run; /* Création de l'indicateur numéro permettant de distinguer les données aléatoires du premier échantillon.*/ data ech1; set ech1; retain numero 1; run; /* On trie les données du premier échantillon et de l'échantillon regroupé par inventaire, par classe d'altitude et par nombre de parcelles ù l'espèce est présente afin de pouvoir effectuer un merge par la suite pour l'obtention des données du second échantillon.*/ proc sort data = ech1; by replicate sfi altitudec presence; run; proc sort data = combine; by replicate sfi altitudec presence; run; /* On regroupe les deux échantillons afin de pouvoir ensuite distinguer le second échantillon bootstrap permettant la mise en place du test bootstrap.*/ data global; merge ech1 combine; by replicate sfi altitudec presence; if numero ne 1 then numero = 0; run; /* Obtention du second échantillon bootstrapé*/ data ech2; set global; where numero eq 0; run; /* Obtention de la table contenant les paramètres a, b, c et d du modèle HOF 5 ajustant les données bootstrapées de l'échantillon 1 pour chaque itération.*/ ods output ParameterEstimates (persist) = param_ech1; proc nlmixed data = ech1 maxiter = &iter; parms a = &a b = &b c = &c; 9 p = 1 / (1 + exp(a + b * altitudec)) / (1 + exp(c - b * altitudec)); model presence ~ binomial(count,p); predict p out = resul_ech1; by replicate; estimate 'opt' (c - a) / (2 * b); run; ods output close; /* Mise en place de la table permettant d'obtenir pour chaque itération du bootstrap les paramètres du modèle d'ajustement ainsi que l'optimum correspondant.*/ proc transpose data = param_ech1 out = opt_ech1 (keep = replicate _label_ col1 col2 col3); by replicate; run; /* Obtention de la table estimation contenant les paramètres a, b, c et opt*/ data opt_ech1 (drop = col1 col2 col3); set opt_ech1; /*where _label_ = "Estimation";*/ /*à modifier lors de l'utilisation à BIOGECO*/ where _label_ = "Valeur estimée"; /*PC AUDREY*/ a = col1; b = col2; c = col3; opt = (c - a) / (2 * b); run; /* Création de la variable obs et x1 correspondant à l'optimum de chaque échantillon de bootstrap.*/ data opt_ech1 (drop = opt a b c); set opt_ech1; retain obs 0; opt1 = opt; obs + 1; run; /* Obtention de la table contenant les paramètres a, b, c et d du modèle HOF 5 ajustant les données bootstrapées de l'échantillon 1 pour chaque itération.*/ ods output ParameterEstimates (persist) = param_ech2; proc nlmixed data = ech2 maxiter = &iter; parms a = &a b = &b c = &c; p = 1 / (1 + exp(a + b * altitudec)) / (1 + exp(c - b * altitudec)); model presence ~ binomial(count,p); predict p out = resul_ech2; by replicate; run; ods output close; /* Mise en place de la table permettant d'obtenir pour chaque itération du bootstrap les paramètres du modèle d'ajustement ainsi que l'optimum correspondant.*/ proc transpose data = param_ech2 out = opt_ech2 (keep = replicate _label_ col1 col2 col3); by replicate; run; /* Obtention de la table estimation contenant les paramètres a, b, c et opt*/ data opt_ech2 (drop = col1 col2 col3); set opt_ech2; /*where _label_ = "Estimation";*/ /*à modifier lors de l'utilisation à BIOGECO*/ where _label_ = "Valeur estimée"; /*PC AUDREY*/ a = col1; b = col2; c = col3; opt = (c - a) / (2 * b); run; /* Création de la variable obs et x1 correspondant à l'optimum de chaque échantillon de bootstrap.*/ data opt_ech2 (drop = opt a b c); set opt_ech2; retain obs 0; opt2 = opt; obs + 1; run; /* Obtention de la variable stat correspondant à la différence entre les optimums obtenus pour les deux échantillons issus du bootstrap, et créationde la variable sup qui est égale à 1 si la différence entre les deux optimums est supérieure à celle des échantillons initiaux, ou égale à 0 sinon.*/ data compare; merge opt_ech1 opt_ech2; by obs; stat = opt2 - opt1; diffopt = &diff; if stat gt diffopt then sup = 1; else if stat lt diffopt then sup = 0; run; data compare; set compare; if (opt1 le 0 or opt1 gt 2500) or (opt2 le 0 or opt2 gt 2500) then delete; run; proc univariate data = compare noprint; qqplot stat / normal (mu = est sigma = est color = red); run; /* Création de la table stat_test contenant le nombre de fois où la différence entre les optimums issus du bootstrap sont supérieurs à celle des optimums des échantillons initiaux.*/ proc univariate data = compare noprint; var sup; output out = &stat_test nobs = n_obs sum = eff; run; /* Obtention de la table contenant la probabilité que la différence entre les échantillons bootstrapés soient supérieurs à celle initiale.*/ /* Si cette probabilité est inférieure à (alpha / 2) ou bien supérieure à (1 - (alpha / 2)) alors on rejette H0 d'égalité des distributions (un traitement n'a pas d'effet par exemple). Ici si l'on ne rejette pas H0 alors on conclut que les optimums ne sont pas significativement différents au risque alpha.*/ data &stat_test; set &stat_test; p_test = (1 + eff) / (n_obs + 1); p_test1 = eff / n_obs; run; %mend test_hof4; /******************************************/ /* Creation de la macro procédure %test_hof5 */ /*--------------------------------------------*/ /* Méthode de test bootstrap permettant de comparer les optimums des distributions d'une même espèce pour deux inventaires. */ /******************************************/ 10 %macro test_hof5(tabsfi2,tabsfi3,nb_repet,a,b,c,d,iter,d iff,stat_test)/store; /* Création des tables provisoires des données de chaque espèces pour chaque inventaire contenant la variable spécifiant le numéro de l'inventaire.*/ data tab1; set &tabsfi2; sfi2 = 2; run; data tab2; set &tabsfi3; sfi3 = 3; run; /* Création de la table regroupant les deux inventaires de chaque espèce*/ data combine (drop = sfi2 sfi3); set tab1 tab2; if sfi2 eq 2 then sfi = 2; else if sfi3 eq 3 then sfi = 3; /*variable sfi du numéro de l'inventaire*/ run; /* Tirage aléatoire et sans remise des données de l'échantillon regroupé afin de créer le premier échantillon nécessaire au test bootstrap avec permutations.*/ /* option samprate spécifie le taux d'échantillonnage, ici même nombre d'obs pour chaque inventaire donc taux = 50%*/ proc surveyselect data = combine out = ech1 method = srs samprate = 50 rep = &nb_repet; run; /* option samprate spécifie le taux d'échantillonnage, on cherche à obtenir la table initiale mais répétée nb_repet fois pour pouvoir ensuite obtenir celle de l'achantillon 2 à l'aide du merge.*/ proc surveyselect data = combine out = combine method = srs samprate = 100 rep = &nb_repet; run; /* Création de l'indicateur numéro permettant de distinguer les données aléatoires du premier échantillon.*/ data ech1; set ech1; retain numero 1; run; /* On trie les données du premier échantillon et de l'échantillon regroupé par inventaire, par classe d'altitude et par nombre de parcelles ù l'espèce est présente afin de pouvoir effectuer un merge par la suite pour l'obtention des données du second échantillon.*/ proc sort data = ech1; by replicate sfi altitudec presence; run; proc sort data = combine; by replicate sfi altitudec presence; run; /* On regroupe les deux échantillons afin de pouvoir ensuite distinguer le second échantillon bootstrap permettant la mise en place du test bootstrap.*/ data global; merge ech1 combine; by replicate sfi altitudec presence; if numero ne 1 then numero = 0; run; /* Obtention du second échantillon bootstrapé*/ data ech2; set global; where numero eq 0; run; /* Obtention de la table contenant les paramètres a, b, c et d du modèle HOF 5 ajustant les données bootstrapées de l'échantillon 1 pour chaque itération.*/ ods output ParameterEstimates (persist) = param_ech1; proc nlmixed data = ech1 maxiter = &iter; parms a = &a b = &b c = &c d = &d; p = 1 /(1 + exp(a + b * altitudec)) / (1 + exp(c + d * altitudec)); model presence ~ binomial(count,p); predict p out = resul_ech1; by replicate; run; ods output close; /* Mise en place de la table permettant d'obtenir pour chaque itération du bootstrap les paramètres du modèle d'ajustement ainsi que l'optimum correspondant.*/ proc transpose data = param_ech1 out = param_ech1; var estimate; by replicate; run; data param_ech1; set param_ech1; drop _name_ _label_; rename col1 = a col2 = b col3 = c col4 = d; run; /* Obtention de l'estimation de l'optimum*/ proc model data = param_ech1; eq.opt = - b * exp(a + b * x) * (1 + exp(c + d * x)) - d * exp(c + d * x) * (1 + exp(a + b * x)); solve x / solveprint out = opt_ech1; run; quit; /* Création de la variable obs et x1 correspondant à l'optimum de chaque échantillon de bootstrap.*/ data opt_ech1 (drop = x a b c d); set opt_ech1; retain obs 0; x1 = x; obs + 1; run; /* Obtention de la table contenant les paramètres a, b, c et d du modèle HOF 5 ajustant les données bootstrapées de l'échantillon 1 pour chaque itération.*/ ods output ParameterEstimates (persist) = param_ech2; proc nlmixed data = ech2 maxiter = 500; parms a = &a b = &b c = &c d = &d; p = 1 /(1 + exp(a + b * altitudec)) / (1 + exp(c + d * altitudec)); model presence ~ binomial(count,p); 11 predict p out = resul_ech2; by replicate; run; ods output close; /* Mise en place de la table permettant d'obtenir pour chaque itération du bootstrap les paramètres du modèle d'ajustement ainsi que l'optimum correspondant.*/ proc transpose data = param_ech2 out = param_ech2; var estimate; by replicate; run; data param_ech2; set param_ech2; drop _name_ _label_; rename col1 = a col2 = b col3 = c col4 = d; run; var sup; output out = &stat_test nobs = n_obs sum = eff; run; /* Obtention de la table contenant la probabilité que la différence entre les échantillons bootstrapés soient supérieurs à celle initiale.*/ /* Si cette probabilité est inférieure à (alpha / 2) ou bien supérieure à (1 - (alpha / 2)) alors on rejette H0 d'égalité des distributions (un traitement n'a pas d'effet par exemple). Ici si l'on ne rejette pas H0 alors on conclut que les optimums ne sont pas significativement différents au risque alpha.*/ data &stat_test; set &stat_test; p_test = (1 + eff) / (n_obs + 1); p_test1 = eff / n_obs; run; %mend test_hof5; /* Obtention de l'estimation de l'optimum*/ proc model data = param_ech2 noprint; eq.opt = - b * exp(a + b * x) * (1 + exp(c + d * x)) - d * exp(c + d * x) * (1 + exp(a + b * x)); solve x / solveprint out = opt_ech2; run; quit; /* Création de la variable obs et x2 correspondant à l'optimum de chaque échantillon de bootstrap.*/ data opt_ech2 (drop = x a b c d); set opt_ech2; retain obs 0; x2 = x; obs + 1; run; /* Obtention de la variable stat correspondant à la différence entre les optimums obtenus pour les deux échantillons issus du bootstrap, et créationde la variable sup qui est égale à 1 si la différence entre les deux optimums est supérieure à celle des échantillons initiaux, ou égale à 0 sinon.*/ data compare; merge opt_ech1 opt_ech2; by obs; stat = x2 - x1; diffopt = &diff; if stat gt diffopt then sup = 1; else if stat lt diffopt then sup = 0; run; data compare; set compare; if (x1 le 0 or x1 gt 2500) or (x2 le 0 or x2 gt 2500) then delete; run; proc univariate data = compare noprint; qqplot stat / normal (mu = est sigma = est color = red); run; /* Création de la table stat_test contenant le nombre de fois où la différence entre les optimums issus du bootstrap sont supérieurs à celle des optimums des échantillons initiaux.*/ proc univariate data = compare noprint; 12 Annexe B : Ajustements de la probabilité de présence de chaque espèce pour les deux inventaires des Pyrénées 13 14 Annexe C : Ajustements de la probabilité de présence de chaque espèce pour les deux inventaires du système ibérique 15 16 Annexe D : Histogrammes et q – qplot des estimations des optimums du gradient altitudinal des données bootstrapées des espèces végétales des Pyrénées du deuxième inventaire Quercus fagineasfi2 Quercus fagineasfi2 3000 1200 1000 2000 O ptim um Effectif 800 1000 600 400 200 0 1 2 0 1 6 0 2 0 0 2 4 0 2 8 0 3 2 0 3 6 0 4 0 0 4 4 0 4 8 0 5 2 0 5 6 0 6 0 0 6 4 0 6 8 0 7 2 0 7 6 0 8 0 0 8 4 0 8 8 0 9 2 0 9 6 0 1 0 0 0 0 -4 -2 0 2 4 2 4 2 4 Q uantilesdelaloi norm ale O ptim um Quercus ilexsfi2 Quercus ilexsfi2 3000 600 500 2000 Effectif O ptim um 400 300 200 1000 100 0 0 120 180 240 300 360 420 480 -4 540 -2 0 Q uantilesdelaloi norm ale O ptim um Quercus suber sfi2 Quercus suber sfi2 4000 700 600 3000 400 2000 opt Effectif 500 300 1000 200 100 0 1 5 4 5 7 5 1 0 5 1 3 5 1 6 5 1 9 5 2 2 5 2 5 5 2 8 5 3 1 5 3 4 5 3 7 5 4 0 5 opt M IDPO IN T 4 3 5 4 6 5 4 9 5 5 2 5 5 5 5 5 8 5 6 1 5 6 4 5 6 7 5 0 -4 -2 0 Q uantilesdelaloi norm ale 17 Fagus sylvaticasfi2 Fagus sylvaticasfi2 3000 1500 1450 Effectif O ptim um 2000 1400 1350 1000 1300 1250 0 1245 1275 1305 1335 1365 O ptim um 1395 1425 1455 -4 -2 0 2 4 Q uantilesdelaloi norm ale 18 Annexe E : Histogrammes et q – qplot des estimations des optimums du gradient altitudinal des données bootstrapées des espèces végétales des Pyrénées du troisième inventaire Quercus petraeasfi3 Quercus petraeasfi3 900 2000 800 1800 700 1600 500 O ptim um Effectif 600 400 300 1400 1200 200 100 1000 0 9 1 1 1 9 0 0 0 0 2 5 8 0 0 0 1 1 1 0 1 1 4 0 1 1 7 0 1 2 0 0 1 2 3 0 1 2 6 0 1 2 9 0 1 3 2 0 1 3 5 0 1 3 8 0 1 4 1 0 1 4 4 0 1 4 7 0 1 5 0 0 1 5 3 0 1 5 6 0 1 5 9 0 1 6 2 0 1 6 5 0 1 6 8 0 1 7 1 0 1 7 4 0 1 7 7 0 1 8 0 0 800 -4 -2 0 2 4 2 4 2 4 Q uantilesdelaloi norm ale O ptim um Quercus fagineasfi3 Quercus fagineasfi3 3000 900 875 2000 Effectif O ptim um 850 825 800 1000 775 750 0 760 780 800 820 840 860 880 -4 900 -2 0 Q uantilesdelaloi norm ale O ptim um Quercus ilexsfi3 Quercus ilexsfi3 4000 550 500 450 O ptim um Effectif 3000 2000 400 350 300 1000 250 200 0 200 250 300 350 400 O ptim um 450 500 550 -4 -2 0 Q uantilesdelaloi norm ale 19 Quercus suber sfi3 Quercus suber sfi3 4000 800 600 2000 opt Effectif 3000 1000 400 200 0 1 5 4 7 5 5 1 1 0 3 5 5 1 1 6 9 5 5 2 2 2 2 5 8 5 5 5 3 3 1 4 5 5 3 4 7 0 5 5 4 4 3 6 5 5 4 5 9 2 5 5 5 5 5 8 5 5 6 6 1 4 5 5 6 7 7 0 5 5 0 7 3 5 -4 -2 0 2 4 2 4 Q uantilesdelaloi norm ale opt M IDPO IN T Fagus sylvaticasfi3 Fagus sylvaticasfi3 3000 1400 1350 Effectif O ptim um 2000 1300 1250 1000 1200 1150 0 1188 1213 1238 1263 1288 O ptim um 1313 1338 1363 -4 -2 0 Q uantilesdelaloi norm ale 20 Annexe F : Histogrammes et q – qplot des estimations des optimums du gradient altitudinal des données bootstrapées des espèces végétales du système ibérique du deuxième inventaire Quercus petraeasfi2 Quercus petraeasfi2 3000 2500 2250 2000 opt Effectif 2000 1750 1000 1500 1250 0 1 0 2 0 1 0 8 0 1 1 4 0 1 2 0 0 1 2 6 0 1 3 2 0 1 3 8 0 1 4 4 0 1 5 0 0 1 5 6 0 1 6 2 0 1 6 8 0 1 7 4 0 1 8 0 0 1 8 6 0 1 9 2 0 1 9 8 0 2 0 4 0 2 1 0 0 2 1 6 0 2 2 2 0 2 2 8 0 2 3 4 0 1000 -4 -2 0 2 4 2 4 2 4 Q uantilesdelaloi norm ale opt M IDPO IN T Quercus fagineasfi2 Quercus fagineasfi2 5000 1200 1150 4000 O ptim um Effectif 1100 3000 1050 2000 1000 1000 950 900 0 945 975 1005 1035 1065 1095 1125 -4 1155 -2 0 Q uantilesdelaloi norm ale O ptim um Quercus ilexsfi2 Quercus ilexsfi2 3000 1400 1300 1200 O ptim um Effectif 2000 1000 1100 1000 900 800 0 7 7 7 7 8 8 8 8 9 9 9 9 1 1 3 6 8 1 3 6 8 1 3 6 8 0 3 8 3 8 3 8 3 8 3 8 3 8 1 3 1 0 3 8 1 0 6 3 O ptim um 1 0 8 8 1 1 1 3 1 1 3 8 1 1 6 3 1 1 8 8 1 2 1 3 1 2 3 8 1 2 6 3 1 2 8 8 1 3 1 3 1 3 3 8 700 -4 -2 0 Q uantilesdelaloi norm ale 21 Quercus suber sfi2 Quercus suber sfi2 3000 1400 1200 2000 opt Effectif 1000 800 1000 600 400 0 2 4 0 2 3 8 2 0 0 3 4 6 0 0 0 4 4 4 8 0 0 5 5 6 2 6 0 0 0 0 6 6 4 8 0 0 7 7 2 6 0 0 8 8 0 4 0 0 8 9 8 2 0 0 9 1 6 0 0 0 0 1 0 4 0 1 0 8 0 1 1 2 0 1 1 6 0 1 2 0 0 200 -4 -2 0 2 4 2 4 Q uantilesdelaloi norm ale opt M IDPO IN T Fagus sylvaticasfi2 Fagus sylvaticasfi2 3000 2000 1750 O ptim um Effectif 2000 1000 1500 1250 1000 0 7 5 0 8 8 0 5 0 0 9 9 0 5 0 0 1 0 0 0 1 0 5 0 1 1 0 0 1 1 5 0 1 2 0 0 1 2 5 0 1 3 0 0 1 3 5 0 1 4 0 0 O ptim um 1 4 5 0 1 5 0 0 1 5 5 0 1 6 0 0 1 6 5 0 1 7 0 0 1 7 5 0 1 8 0 0 1 8 5 0 1 9 0 0 1 9 5 0 750 -4 -2 0 Q uantilesdelaloi norm ale 22 Annexe G : Histogrammes et q – qplot des estimations des optimums du gradient altitudinal des données bootstrapées des espèces végétales du système ibérique du troisième inventaire Quercus petraeasfi3 Quercus petraeasfi3 700 2500 600 2250 2000 400 1750 opt Effectif 500 300 1500 200 1250 100 1000 0 9 1 1 1 6 0 0 1 0 2 8 4 0 0 0 1 2 0 0 1 2 6 0 1 3 2 0 1 3 8 0 1 4 4 0 1 5 0 0 1 5 6 0 1 6 2 0 1 6 8 0 1 7 4 0 1 8 0 0 1 8 6 0 1 9 2 0 1 9 8 0 2 0 4 0 2 1 0 0 2 1 6 0 2 2 2 0 2 2 8 0 2 3 4 0 2 4 0 0 2 4 6 0 2 5 2 0 750 -4 -2 0 2 4 2 4 2 4 Q uantilesdelaloi norm ale opt M IDPO IN T Quercus fagineasfi3 Quercus fagineasfi3 4000 1200 1175 1150 O ptim um Effectif 3000 2000 1125 1100 1075 1050 1000 1025 1000 0 1013 1038 1063 1088 1113 1138 1163 -4 1188 -2 0 Q uantilesdelaloi norm ale O ptim um Quercus ilexsfi3 Quercus ilexsfi3 3000 1400 1300 O ptim um Effectif 2000 1000 1200 1100 1000 0 9 1 0 9 3 0 9 5 0 9 7 0 9 9 0 1 0 1 0 1 0 3 0 1 0 5 0 1 0 7 0 1 0 9 0 1 1 1 0 1 1 3 0 1 1 5 0 1 1 7 0 O ptim um 1 1 9 0 1 2 1 0 1 2 3 0 1 2 5 0 1 2 7 0 1 2 9 0 1 3 1 0 1 3 3 0 1 3 5 0 1 3 7 0 900 -4 -2 0 Q uantilesdelaloi norm ale 23 Quercus suber sfi3 700 600 500 opt Effectif Quercus suber sfi3 2000 1900 1800 1700 1600 1500 1400 1300 1200 1100 1000 900 800 700 600 500 400 300 200 100 0 400 300 200 1 2 5 1 5 0 1 7 5 2 0 0 2 2 5 2 5 0 2 7 5 3 0 0 4 7 5 4 5 0 4 2 5 4 0 0 3 7 5 3 5 0 3 2 5 5 0 0 5 2 5 5 5 0 5 7 5 6 0 0 6 2 5 6 5 0 100 6 7 5 -4 -2 0 2 4 2 4 Q uantilesdelaloi norm ale opt M IDPO IN T Fagus sylvaticasfi3 Fagus sylvaticasfi3 3000 2250 2000 2000 O ptim um Effectif 1750 1000 1500 1250 1000 0 9 5 0 1 0 0 0 1 0 5 0 1 1 0 0 1 1 5 0 1 2 0 0 1 2 5 0 1 3 0 0 1 3 5 0 1 4 0 0 1 4 5 0 1 5 0 0 1 5 5 0 1 6 0 0 O ptim um 1 6 5 0 1 7 0 0 1 7 5 0 1 8 0 0 1 8 5 0 1 9 0 0 1 9 5 0 2 0 0 0 2 0 5 0 2 1 0 0 750 -4 -2 0 Q uantilesdelaloi norm ale 24 TABLE DES MATIERES SOMMAIRE ...................................................................................................................................... 4 INTRODUCTION ...................................................................................................................................... 5 PARTIE I : Présentation de la structure d’accueil ..................................................................................... 7 I. Thèmes de recherche de la structure d’accueil ................................................................... 7 II. Organigramme du laboratoire .............................................................................................. 8 PARTIE II : Présentation de l’étude du gradient altitudinal d’espèces végétales dans une chaîne montagneuse .............................................................................................................................. 9 I. Contexte général de l’étude ................................................................................................... 9 II. Intérêt de l’étude des gradients altitudinaux ..................................................................... 12 III. Etudes antérieures portant sur les variations de distribution d’espèces le long d’un gradient altitudinal ................................................................................................................ 14 A. Etude de J. Lenoir, J.C. Gégout, P.A. Marquet, P. de Ruffray et H. Brisse 2009 ...... 14 B. Etude de A. Kelly et M. Goulden 2008 ........................................................................... 14 C. Méthodes mathématiques employées pour mettre en évidence les modifications de distribution des espèces ...................................................................................................... 15 PARTIE III : Données et méthodes statistiques........................................................................................ 16 I. Présentation des données de l’étude .................................................................................. 16 II. Méthodes de l’analyse statistique ........................................................................................ 20 A. Estimation ponctuelle ......................................................................................................... 20 B. Modèle statistique................................................................................................................ 20 C. Fonction de vraisemblance ................................................................................................ 21 D. Estimation par maximum de vraisemblance ................................................................... 22 E. Information de Fisher ........................................................................................................ 22 Méthode delta ...................................................................................................................... 22 F. G. Méthodes basiques de limites de confiance ..................................................................... 23 H. Présentation du bootstrap .................................................................................................. 24 a. Méthode générale ............................................................................................................ 24 b. Deux types de bootstrap ................................................................................................ 25 c. Intervalles de confiance.................................................................................................. 25 d. Test de signification utilisant les tests de permutations ............................................ 26 I. Modélisation de la répartition altitudinale des espèces par les modèles de Huisman, Olff et Fresco : modèles de HOF ......................................................................................................... 27 a. Objectifs ........................................................................................................................... 27 b. Présentation des modèles de HOF............................................................................... 28 c. Ajustement des modèles ................................................................................................ 29 J. Comparaison de modèles statistiques à l’aide du critère d’Akaike ................................. 30 K. Procédure d’ajustement dans le logiciel SAS ................................................................... 31 PARTIE IV : Résultats de l’analyse .............................................................................................................. 33 I. Ajustements de la répartition de la présence des espèces de feuillus à l’aide des modèles logistique, hof iv et hof v ..................................................................................... 33 II. Obtention de la valeur de l’optimum du gradient altitudinal des espèces végétales et de son intervalle de confiance ............................................................................................. 36 A. Méthode d’optimisation du gradient altitudinal par la modélisation des données .... 36 B. Méthode bootstrap pour l’obtention de la valeur optimale du gradient d’altitude de chaque espèce ...................................................................................................................... 38 a. Données du deuxième inventaire dans les Pyrénées .................................................. 38 b. Données du troisième inventaire dans les Pyrénées .................................................. 41 c. Données du deuxième inventaire dans le système ibérique ...................................... 41 d. Données du troisième inventaire dans le système ibérique ...................................... 42 C. Comparaison des gradients d’altitude des espèces végétales pour les deux inventaires ................................................................................................................................................ 43 DISCUSSION ET CONCLUSION ............................................................................................................ 45 BIBLIOGRAPHIE .................................................................................................................................... 47 TABLE DES FIGURES ET TABLEAUX ................................................................................................ 50 TABLE DES ANNEXES ............................................................................................................................. 52 ANNEXES .................................................................................................................................... 53 TABLE DES MATIERES ............................................................................................................................ 77