Comparaison de modèles de régression logistique utilisés pour l’analyse de données recueillies dans le cadre d’études de type cas-témoins appariés sur le déplacement animal Mémoire Benjamin Beauregard Maîtrise en statistiques Maître ès sciences (M.Sc.) Québec, Canada © Benjamin Beauregard, 2013 Résumé L’étude de la sélection des ressources en fonction du déplacement des animaux est un sujet qui intéresse plusieurs chercheurs en écologie, qui cherchent à prédire comment les ressources disponibles influencent le déplacement des animaux dans un environnement hétérogène. Pour ce faire, une stratégie souvent utilisée consiste à comparer les caractéristiques des lieux visités à celles des lieux disponibles mais non visités à différents instants. Comme l’étendue du territoire des lieux disponibles est généralement imposant, un échantillonnage aléatoire des lieux non-visités devient pratiquement inévitable. Toutefois, une méthode d’échantillonnage non adéquate peut induire un biais dans les inférences. L’échantillonnage des lieux non-visités peut se faire selon une étude longitudinale cas-témoins appariée dont la variable réponse prend la valeur 1 dans le cas d’une ressource sélectionnée et la valeur 0 dans le cas contraire. Un modèle de régression logistique peut donc être ajusté aux données. L’objectif de ce mémoire est d’étudier les avantages et les limites de divers modèles de régression logistique, tout particulièrement le modèle à effets mixtes, dans le cadre d’études cas-témoins appariées. Une étude de simulation ainsi que l’analyse de données réelles nous a permis de comparer les inférences obtenues par le modèle mixte à ceux d’un modèle à effets fixes. Les conclusions observables indiquent que les modèles mixtes sont plus performants que les modèles fixes lorsque le type d’environnement est "homogène" et "très homogène" avec une faible force de sélection, mais rarement dans d’autres situations. iii Table des matières Résumé iii Table des matières v Liste des tableaux vii Liste des figures ix Remerciements xi 1 2 La régression logistique 1.1 Notation générale . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Fondements de la régression logistique . . . . . . . . . . . . . . . . 1.3 La régression logistique standard avec données indépendantes . . . 1.4 La régression logistique conditionnelle avec données indépendantes 1.5 La régression logistique avec données corrélées . . . . . . . . . . . 1.6 Régression logistique conditionnelle avec données corrélées . . . . La sélection des ressources 2.1 Notation . . . . . . . . . . . . . . . . . . 2.2 Écriture du modèle . . . . . . . . . . . . 2.3 Fonction de vraisemblance conditionnelle 2.4 Échantillonnage des lieux témoins . . . . 2.5 Étude de Forester . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 4 4 6 9 15 . . . . . 21 22 22 23 25 26 3 La régression logistique conditionnelle mixte 3.1 Notation de la régression logistique conditionnelle mixte avec données corrélées . . . 3.2 Écriture du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Hétérogénéité des individus et l’influence de l’environnement sur la sélection des lieux 3.4 Estimations des paramètres et inférences . . . . . . . . . . . . . . . . . . . . . . . . 3.5 Exemple de Duchesne et al. (2010) . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 31 32 33 34 34 36 4 Modèle mixte appliqué aux simulations de Forester et al. (2009) 4.1 Modèle à effets aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Constats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 38 39 42 5 Application d’un modèle mixte au jeu de données sur les bisons 43 v 5.1 6 Étude sur les bisons de Craiu et al. (2008) . . . . . . . . . . . . . . . . . . . . . . . Conclusion 43 47 Bibliographie 49 A Résultats des simulations 51 B Code R 69 vi Liste des tableaux 1.1 1.2 1.3 3.1 3.2 5.1 Coefficients de régression obtenus avec la méthode GEE (matrice de corrélation de travail de type "indépendante") . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Coefficients de régression obtenus avec la méthode GEE par Stokes et al. (2000) (matrice de corrélation de travail de type "non structurée") . . . . . . . . . . . . . . . . . . . . . Résultats du modèle de régression logistique conditionnelle avec la méthode GEE appliqué aux données sur les bisons de Craiu et al. (2008) . . . . . . . . . . . . . . . . . . . 15 15 19 La fonction de sélection des ressources obtenue avec un modèle à effets fixes par Duchesne et al. (2010). Les intervalles sont à 95%. . . . . . . . . . . . . . . . . . . . . . . La fonction de sélection des ressources obtenue avec un modèle à effets aléatoires pour le type "terres agricoles" par Duchesne et al. (2010). Les intervalles sont à 95%. . . . . . . 35 Résultats de l’analyse des données sur les bisons de Craiu et al. (2008), avec une distribution supposée normale pour le coefficient de régression de la variable "prairie" . . . . 44 A.1 Exponentiel - β = 0 et paramètre d’étendue : 0, 1× la moyenne des déplacements observés par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.2 Exponentiel - β = 0 et paramètre d’étendue : 1× la moyenne des déplacements observés par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.3 Exponentiel - β = 0 et paramètre d’étendue : 5× la moyenne des déplacements observés par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.4 Exponentiel - β = 0 et paramètre d’étendue : 10× la moyenne des déplacements observés par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.5 Exponentiel - β = 0.5 et paramètre d’étendue : 0.1× la moyenne des déplacements observés par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.6 Exponentiel - β = 0.5 et paramètre d’étendue : 1× la moyenne des déplacements observés par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.7 Exponentiel - β = 0.5 et paramètre d’étendue : 5× la moyenne des déplacements observés par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.8 Exponentiel - β = 0.5 et paramètre d’étendue : 10× la moyenne des déplacements observés par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.9 Exponentiel - β = 1 et paramètre d’étendue : 0.1× la moyenne des déplacements observés par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.10 Exponentiel - β = 1 et paramètre d’étendue : 1× la moyenne des déplacements observés par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.11 Exponentiel - β = 1 et paramètre d’étendue : 5× la moyenne des déplacements observés par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 52 52 53 53 54 54 55 55 56 56 57 vii A.12 Exponentiel - β = 1 et paramètre d’étendue : 10× la moyenne des déplacements observés par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.13 Exponentiel - β = 2 et paramètre d’étendue : 0.1× la moyenne des déplacements observés par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.14 Exponentiel - β = 2 et paramètre d’étendue : 1× la moyenne des déplacements observés par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.15 Exponentiel - β = 2 et paramètre d’étendue : 5× la moyenne des déplacements observés par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.16 Exponentiel - β = 2 et paramètre d’étendue : 10× la moyenne des déplacements observés par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.17 Weibull - β = 0 et paramètre d’étendue : 0, 1× la moyenne des déplacements observés par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.18 Weibull - β = 0 et paramètre d’étendue : 1× la moyenne des déplacements observés par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.19 Weibull - β = 0 et paramètre d’étendue : 5× la moyenne des déplacements observés par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.20 Weibull - β = 0 et paramètre d’étendue : 10× la moyenne des déplacements observés par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.21 Weibull - β = 0.5 et paramètre d’étendue : 0.1× la moyenne des déplacements observés par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.22 Weibull - β = 0.5 et paramètre d’étendue : 1× la moyenne des déplacements observés par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.23 Weibull - β = 0.5 et paramètre d’étendue : 5× la moyenne des déplacements observés par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.24 Weibull - β = 0.5 et paramètre d’étendue : 10× la moyenne des déplacements observés par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.25 Weibull - β = 1 et paramètre d’étendue : 0.1× la moyenne des déplacements observés par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.26 Weibull - β = 1 et paramètre d’étendue : 1× la moyenne des déplacements observés par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.27 Weibull - β = 1 et paramètre d’étendue : 5× la moyenne des déplacements observés par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.28 Weibull - β = 1 et paramètre d’étendue : 10× la moyenne des déplacements observés par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.29 Weibull - β = 2 et paramètre d’étendue : 0.1× la moyenne des déplacements observés par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.30 Weibull - β = 2 et paramètre d’étendue : 1× la moyenne des déplacements observés par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.31 Weibull - β = 2 et paramètre d’étendue : 5× la moyenne des déplacements observés par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.32 Weibull - β = 2 et paramètre d’étendue : 10× la moyenne des déplacements observés par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . viii 57 58 58 59 59 60 60 61 61 62 62 63 63 64 64 65 65 66 66 67 67 Liste des figures 2.1 2.2 Environnements de Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . Résultats de Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 30 ix Remerciements Mes remerciements vont à toutes les personnes qui, par leurs encouragements, leur positivisme et leur soutien ont contribué directement ou indirectement à la réalisation de mon mémoire. Je n’aurais toutefois pu y parvenir sans l’appui et le dévouement constant de mon directeur de maîtrise, monsieur Thierry Duchesne, professeur au Département de mathématiques et de statistique de l’Université Laval. Je lui témoigne toute ma reconnaissance et je le remercie pour son entière disponibilité, ses judicieux conseils et sa grande connaissance, qui m’ont permis de persévérer tout au long de ma rédaction. De plus, je tiens grandement à remercier les professeurs Louis-Paul Rivest et Claude Bélisle pour leurs nombreuses suggestions qui m’ont amené à améliorer globalement le contenu de mon mémoire. Mon mémoire représente une grande réussite personnelle pour laquelle j’ai dû concilier mes responsabilités professionnelles et familiales. Je tiens donc à souligner le soutien et la compréhension de ma conjointe Caroline, de mes soeurs, de mes frères ainsi que de mes parents. Ils ont cru en moi. Ils représentent les fondations de mes études supérieures. Je partage avec eux ma fiereté d’avoir relevé ce défi. Je remercie particulièrement mon frère Sébastien pour le nombre incalculable de fois où il m’a aidé en informatique et en statistique. Je dédie mon mémoire de maîtrise à mes deux fils, Gabriel et Mathis, pour qui j’ai une admiration profonde et un amour inconditionnel. xi Introduction L’étude du comportement des animaux en fonction de leur environnement est un sujet d’importance en écologie. L’objectif premier est de déterminer l’influence qu’ont les composantes de l’environnement sur les individus, pour lesquels les chercheurs soient mieux en mesure de comprendre les interactions entre l’individu et son milieu. Plusieurs chercheurs ont analysé la sélection des ressources selon le déplacement des individus, tels que Forester et al. (2009), Craiu et al. (2008) et Craiu et al. (2011). Une approche populaire est de comparer les caractéristiques des lieux visités par les individus à celles de lieux supposés disponibles, mais non visités (Manly et al. (2002)). Dans ce type d’étude, on connait généralement les lieux visités. Par contre, ce n’est pas le cas pour les lieux non-visités, pour lesquels un échantillonnage aléatoire est requis. Toutefois, un échantillonnage non adéquat de ces lieux peut induire un biais dans les inférences (Forester et al. (2009)). En attribuant la valeur 1 aux lieux visités et la valeur 0 aux lieux non-visités, un modèle de régression logistique peut être ajusté aux données afin de déterminer les ressources les plus recherchées par les individus. Dans les études de sélection des ressources, un même individu peut être observé à plusieurs reprises. Par conséquent, les données pour ce même individu sont fort probablement corrélées. Par ailleurs, dans ce type d’études, les interactions entre l’individu et son milieu peuvent être importantes (Boyce et al. (2003)) et l’hétérogénéité dans la disponibilité des ressources propre à chacun des individus peut affecter les inférences. Ainsi, dans le cadre d’une étude de sélection des ressources où une corrélation intra-individu et une hétérogénéité inter-individus sont probablement existantes, le traitement des données peut nécessiter l’emploi d’un modèle de régression logistique pouvant traiter les données corrélées. Ce mémoire porte donc sur l’association entre la sélection des ressources et le déplacement des individus. Plus spécifiquement, nous illustrons le cheminement statistique qui nous a menés à appliquer un modèle mixte à une étude longitudinale du déplacement animal. Au chapitre 2, la théorie de divers modèles de régression logistique est présentée. Les forces et les faiblesses des modèles quand ils sont utilisés pour les études de sélection des ressources y sont décrites. Des exemples réels d’applications sont également détaillés. Le chapitre 3 est entièrement consacré à l’étude de Forester et al. (2009). Ces chercheurs ont démontré, 1 à partir d’une étude de simulation, l’importance de bien choisir la méthode d’échantillonnage des lieux non visités et de tenir compte de cette méthode dans les inférences. Au chapitre 4, le modèle de régression logistique mixte est introduit. Ce modèle permet de traiter les données corrélées en plus de tenir compte d’une variabilité inter-individus dans la sélection des ressources. Comme au chapitre 2, sa théorie ainsi qu’un exemple d’application sont présentés. L’étude de Forester et al. (2009) a démontré l’impact sur les inférences d’un échantillonnage non adéquat des lieux non-visités. Toutefois, ils n’ont pas considéré dans leur analyse une corrélation intra-individu ni une hétérogénéité inter-individus dans la sélection des ressources. Pour cette raison, leur modèle de simulation a été repris, au chapitre 5, afin d’ajuster aux données un modèle mixte et de comparer les résultats obtenus avec ce modèle à ceux de leur étude. Au chapitre 6, le modèle mixte a été ajusté au jeu de données réel sur les bisons du Parc national de Prince Albert considéré par Craiu et al. (2008). L’objectif est de voir si le modèle mixte s’ajuste bien aux données et si les interprétations des coefficients de régression sont modifiées. 2 Chapitre 1 La régression logistique Ce chapitre introduit les modèles de régression logistique standard et conditionnel. Ceux-ci sont présentés dans deux contextes différents, soit celui où les données sont indépendantes et celui où les données sont corrélées, comme dans les expériences où plusieurs observations sont recueillies sur une même unité expérimentale. La section 2.1 définit la notation générale employée dans ce chapitre. À la section 2.2, les hypothèses de base sur lesquelles s’appuie la régression logistique sont énumérées. La section 2.3 considère la régression logistique standard avec données indépendantes. Après une brève présentation du modèle, on y discute de l’estimation des paramètres. La section 2.4 décrit la régression logistique conditionnelle dans le cadre d’une étude cas-témoins appariée. Une généralisation de la régression logistique qui tient compte d’une corrélation entre les mesures prises sur un même individu est présentée à la section 2.5. La section 2.6 se penche sur la régression logistique conditionnelle avec données corrélées et présente un bref aperçu de la régression logistique conditionnelle mixte. 1.1 Notation générale 1. i représente le ie individu, où i = 1, . . . , n ; 2. Yi est la valeur pour l’individu i de la variable dépendante qui prend comme valeur 1 lors d’un succès, 0 lors d’un échec ; 3. x0i = (1, xi1 , . . . , xip0 ) est le vecteur des variables indépendantes de l’individu i ; 4. xi j représente la je variable indépendante du ie individu, où j = 1, . . . , p0 ; 5. πi dénote la probabilité de succès (Yi = 1) chez l’individu i lors d’un essai ; 6. ηi est le prédicteur linéaire qui sert à modéliser la moyenne de la variable dépendante en fonction des valeurs des variables indépendantes de l’individu i ; 7. β 0 = (β0 , β1 , . . . , β p0 ) est le vecteur des coefficients de régression. 3 1.2 Fondements de la régression logistique Le modèle de régression logistique est un membre de la famille des modèles linéaires généralisés. Les hypothèses sur lesquelles il s’appuie sont les suivantes : 1. Sachant xi , Yi suit une distribution provenant de la famille exponentielle, soit la loi binomiale, Yi ∼ Binomiale(mi , πi ) ; dans ce mémoire, nous ne considérons que le cas mi = 1 ∀i. 2. Le prédicteur linéaire est défini par ηi = x0i β . 3. La fonction de lien donnant la relation entre E [Yi |xi ] et le prédicteur linéaire que nous considérons est celle qui est la plus communément utilisée, c’est-à-dire la fonction de lien logit : ηi = log 1.3 E [Yi |xi ] 1 − E [Yi |xi ] ⇔ E [Yi |xi ] = exp(ηi ) . 1 + exp(ηi ) (1.1) La régression logistique standard avec données indépendantes Le modèle de régression logistique standard avec données indépendantes est souvent utilisé, en pratique, afin d’évaluer l’impact de facteurs sur une variable réponse binaire. Il se base sur la prémisse que les observations sont indépendantes entre elles. 1.3.1 Écriture du modèle pour l’individu i ( Soit Yi = 1, si succès 0, sinon. On définit µi = E [Yi |xi ], où µi = 0 × P[Yi = 0|xi ] + 1 × P[Yi = 1|xi ] = P[Yi = 1|xi ] = πi . (1.2) À partir de l’équation (1.2) et du lien logit, tel qu’exprimé à l’équation (1.1), on a que πi = exp(β0 + β1 xi1 + · · · + β p0 xip0 ) exp(x0i β ) = . 0 1 + exp(xi β ) 1 + exp(β0 + β1 xi1 + · · · + β p0 xip0 ) (1.3) Tel qu’on peut le déduire de (1.3), les paramètres du vecteur β s’interprètent de la façon suivante : 1. Si β j > 0, la probabilité d’obtenir un succès, P[Yi = 1|xi ], augmente si xi j croît et que la valeur de toutes les autres variables de xi demeure inchangée. Si β j < 0, la probabilité de succès diminue lorsque xi j augmente et que la valeur de toutes les autres variables de xi reste inchangée. Si β j = 0, alors la variable xi j n’a aucun effet sur la probabilité de succès. 2. Si β j 6= 0, la cote d’un succès, représentée par πi /(1 − πi ), est multipliée par exp(β j ) si xi j croît d’une unité et que la valeur de toutes les autres variables de xi demeure inchangée. À noter que le terme exp(β j ) est le rapport de cotes, soit le quotient de la cote de l’événement Yi = 1 lorsque xi j = x + 1 sur cette cote quand xi j = x. 4 1.3.2 Estimation des paramètres par la méthode du maximum de vraisemblance Selon l’équation (1.3), les paramètres à estimer sont les éléments du vecteur β . La méthode la plus commune pour estimer la valeur de ces paramètres lorsque nous sommes en présence de n observations indépendantes, soit (Y1 , x1 ), . . . , (Yn , xn ), est la méthode du maximum de vraisemblance. Elle consiste, en premier lieu, à définir la fonction de vraisemblance, soit la fonction de probabilité conjointe de Y1 , . . . ,Yn . Celle-ci est obtenue à partir de la fonction de probabilité de chaque observation individuelle en considérant l’hypothèse que les observations sont indépendantes. La fonction de probabilité pour l’observation i est fβ (yi ; xi ) = πiyi (1 − πi )1−yi , yi = 0, 1, (1.4) et donc la fonction de probabilité conjointe de l’échantillon observé sera n yi 1−yi L(β ; y, x) = ∏ πi (1 − πi ) . (1.5) i=1 Il s’en suit que la fonction de log-vraisemblance est donnée par l (β ; y, x) = log{L(β ; y, x)} n = n ∑ yi log(πi ) + ∑ (1 − yi ) log(1 − πi ) i=1 n = i=1 n ∑ log(1 − πi ) + ∑ yi log i=1 i=1 π i . 1 − πi (1.6) La deuxième étape est de calculer la dérivée de la log-vraisemblance, que l’on appelle fonction de score : n π i ∑ log(1 − πi ) + yi log 1 − πi i=1 n ∂ n log(1 − πi ) = ∑ yi x i + ∂ β i∑ i=1 =1 n = ∑ xi yi − πi . ∂ ∂ l (β ; y, x) = ∂β ∂β (1.7) (1.8) (1.9) i=1 = ηi = x0i β . Selon la définition de πi , l’équation (1.9) est obtenue en déduisant que log(1 − πi ) = log 1+exp1 (xi β ) . La transition de (1.7) à (1.8) est la conséquence de log πi 1−πi Pour obtenir les estimateurs, il ne reste qu’à poser l’équation (1.9) égale à 0, n ∑ xi (yi − πi ) = 0, (1.10) i=1 et résoudre pour les éléments de β . Sous un lien logit, πi = exp (x0i β )/ 1 + exp (x0i β ) , l’équation (1.10) ne peut se résoudre en β avec une solution analytique. Une méthode itérative, telle que la méthode de Newton, permet de solutionner ce problème (voir les pages 114 à 116 du livre de McCullagh 5 et Nelder (1989)). La valeur de β qui maximise (1.5) et qui résout (1.10) est notée βb. La variance de βb est obtenue en considérant les dérivées secondes de l (β ; y, x), soit n n ∂ n ∂ ∂ 2 l (β ; y, x) ∂ = ( y − π ) = − πi x ( y − π ) = xi j x i i i j i i i j ∑ ∑ ∑ 2 ∂ β j i=1 ∂βj ∂βj ∂βj i=1 i=1 exp(β 0 xi ) ∂ ∂ β j 1 + exp(β 0 xi ) i=1 xi j exp (β 0 xi ) = −xi j (1 + exp(β 0 xi ))2 n = − ∑ xi j n = − ∑ xi2j πi (1 − πi ) i=1 et, par un raisonnement similaire, n ∂ 2 l (β ; y, x) = − ∑ xi j xil πi (1 − πi ). ∂ β j ∂ βl i=1 L’élément en position ( j, l ) de la matrice d’information observée est −∂ 2 l (β ; y, x)/∂ β j ∂ βl évalué en c (βb), qui est un estimateur convergent de Var(βb) β = βb. On pose l’inverse de cette matrice égale à Var (Hosmer et Lemeshow (2000)). 1.4 La régression logistique conditionnelle avec données indépendantes Plusieurs recherches ont pour objectif l’étude du comportement animal dans un environnement hétérogène. Dans les études de Craiu et al. (2008) et Duchesne et al. (2010), à chaque moment préalablement défini, les données du lieu visité par chaque animal ont été recueillies grâce à des colliers GPS. Dans un modèle de régression logistique, ces lieux visités correspondent à un succès (Yi = 1). Pour chacun d’entre eux, les caractéristiques géographiques peuvent être compilées, correspondant au vecteur des variables indépendantes xi . Ainsi, à ce stade, nous possédons uniquement l’information sur les lieux visités. Aucun modèle de régression ne peut s’appliquer aux données, car chacun des lieux a la particularité que Yi égale 1. Afin d’obtenir des lieux pour lesquels Yi = 0, nous devons procéder à un échantillonnage de lieux non visités. Pour ce faire, diverses méthodes d’échantillonnage seront présentées au chapitre 3. De l’information a priori connue introduit un aspect dit "rétrospectif" dans les données. Dans le type d’études décrites ci-dessus, la valeur de Y est connue avant même le début de l’expérience et ce sont les valeurs de x qui sont aléatoires. Par conséquent, l’analyse des données devra se faire par une méthode permettant de considérer de l’information a priori connue et le mode d’échantillonnage des lieux non visités dans l’ajustement du modèle et les inférences sur les éléments de β . Craiu et al. (2008), Duchesne et al. (2010) et plusieurs autres chercheurs qui s’intéressent à l’étude du comportement animal réalisent donc des études que l’on appelle cas-témoins appariées. Ce type 6 d’étude consiste, dans le cadre de l’étude du comportement animal, à échantillonner des lieux pour lesquels Yi = 1 et de les apparier à un ensemble de lieux pour lesquels Yi = 0. On mesure ensuite les valeurs des variables explicatives, xi , des lieux sélectionnés. Nous utiliserons la terminologie suivante. Strate : Une strate est un groupe de lieux appariés. Échantillonnage stratifié 1 : C : Un échantillon stratifié 1 : C est tel que dans toute strate, le nombre de cas (Y = 1) est 1 et le nombre de témoins (Y = 0) est C. Ainsi, sous ce type d’échantillonnage, chaque strate compte 1 lieu visité et C lieux non visités, pour un total de C + 1 lieux. Étant donné l’information initialement disponible d’une étude cas-témoins appariée, l’utilisation de méthodes d’inférence standards telles que décrites à la section 2.3 pour le modèle de régression logistique ne sont pas appropriées. En effet, ces méthodes ont été développées pour un modèle dit "prospectif" où Yi est aléatoire et xi est fixée, et donc ne permettent pas de tenir compte de l’aspect rétrospectif de l’échantillonnage des lieux non visités dans l’ajustement du modèle et dans l’interprétation des β j . Pour nos besoins, nous devrons donc modifier les méthodes d’inférence en utilisant une approche dite de régression logistique conditionnelle. 1.4.1 Notation de la régression logistique conditionnelle 1. k est le numéro de la strate d’appariement, où k = 1, . . . , K ; 2. i représente le ie lieu d’une strate, où i = 1, . . . , nk ; 3. Y k constitue le vecteur des variables dépendantes de la strate k, soit Y 0k = (Yk1 , . . . ,Yknk ) ; 4. xki est le vecteur des variables indépendantes du lieu i de la strate k ; 5. β 0 = (β1 , . . . , β p0 ) est le vecteur des coefficients de régression. 1.4.2 Écriture du modèle La régression logistique conditionnelle fait intervenir le même type de données que la régression logistique standard. En effet, pour le lieu i de la ke strate, on a ( 1, lieu i de la strate k est visité Yki = 0, sinon. Soit (Yki , x0ki ), où x0ki = (xki1 , ..., xkip0 ). L’hypothèse de base du modèle de régression logistique conditionnelle est que dans l’ensemble des lieux disponibles d’où les données seront tirées, πki = P[Yki = 1|xki , αk ] = exp(αk + β 0 xki ) . 1 + exp(αk + β 0 xki ) (1.11) Le terme αk est communément appelé "variable de stratification" ou "effet de strate". Il permet de tenir compte du fait que lorsque des observations sont appariées, les règles d’appariement peuvent induire une certaine corrélation entre les observations d’une même strate. 7 1.4.3 Estimation des paramètres par la méthode du maximum de vraisemblance conditionnelle Dans le contexte où la somme des Yki est déterminée pour chaque strate avant même de recueillir les données, la méthode qui sera privilégiée pour estimer β sera la méthode du maximum de vraisemblance conditionnelle. La première étape de cette méthode est d’obtenir toutes les combinaisons possibles que Y k peut prendre dans une strate, étant donné le mode d’échantillonnage. Par exemple, prenons le cas d’un modèle stratifié 1 : 2, soit 1 succès et 2 échecs par strate. Voici les valeurs que peut prendre Y 0k : (1,0,0) ;(0,1,0) ;(0,0,1) . En général, avec un plan d’échantillonnage stratifié 1 : C, on a que Y k peut prendre C + 1 valeurs possibles, puisque C+1 (C + 1)! = = C + 1. 1 C!1! (1.12) La seconde étape consiste à définir la fonction de vraisemblance conditionnelle d’une strate pour un modèle stratifié 1 : C. Celle-ci peut s’écrire comme étant la probabilité d’observer le vecteur (Yk1 ,Yk2 , . . . ,Yknk )0 sachant qu’il ne peut y avoir qu’un et un seul Yki = 1 dans ce vecteur. Dénotons par l’indice z l’une des C + 1 valeurs possibles de Y k . Sans perte de généralité, supposons que la première observation de la strate, Yk1 , est celle pour laquelle y = 1, donc Y 0k = (1, 0, . . . , 0). La vraisemblance pour la strate k est donnée par C +1 Lk (β ) = P Yk1 = 1,Yk2 = 0, ...,Yknk = 0xk , ∑ Ykz = 1 . (1.13) z=1 Dans le cas où C + 1 = 2, l’équation (1.13) devient 2 P Yk1 = 1,Yk2 = 0xk , ∑ Ykz = 1 = z=1 où 2 P ∑ Ykz = 1xk = z=1 (1.14) exp(αk + β 0 xk1 ) 1 0 1 + exp(αk + β xk1 ) 1 + exp(αk + β 0 xk2 ) (1.15) exp(αk + β 0 xk1 ) + exp(αk + β 0 xk2 ) . [1 + exp(αk + β 0 xk1 )][1 + exp(αk + β 0 xk2 )] (1.16) P[Yk1 = 1,Yk2 = 0|xk ] = et P[Yk1 = 1,Yk2 = 0|xk ] , P ∑2z=1 Ykz = 1xk En substituant les équations (1.15) et (1.16) dans l’équation (1.14) et en réduisant le facteur commun exp (αk ) [1+exp(αk +β 0 xk1 )][1+exp(αk +β 0 xk2 )] du numérateur et du dénominateur, on obtient exp (β 0 xk1 ) Lk (β ) = . exp (β 0 xk1 ) + exp (β 0 xk2 ) (1.17) Dans le cas général du modèle stratifié 1 : C, l’équation (1.17) se généralise et permet d’obtenir la fonction de vraisemblance pour la ke strate, Lk ( β ) = 8 exp (β 0 xk1 ) . C +1 ∑z=1 exp (β 0 xkz ) (1.18) Finalement, pour obtenir la fonction de vraisemblance pour tout l’échantillon en supposant l’indépendance entre les strates, il suffit de multiplier toutes les fonctions de vraisemblance des strates individuelles, exp (β 0 xk1 ) . C +1 0 k=1 ∑z=1 exp (β xkz ) K K L(β ) = ∏ Lk (β ) = ∏ k =1 La log-vraisemblance découlant de l’équation (1.19) est " K l (β ) = ∑ β 0 xk1 − log k =1 C +1 ∑ exp (β 0 xkz ) (1.19) # z=1 et la fonction de score est # " K ∑Cz=+11 xkz exp (β 0 xkz ) ∂ l (β ) U (β ) = . = ∑ xk1 − C+1 ∂β ∑z=1 exp (β 0 xkz ) k =1 (1.20) On remarque que le côté droit de l’équation (1.20) correspond à la fonction de score de vraisemblance partielle permettant d’estimer les coefficients de régression pour un modèle de Cox stratifié (Hosmer et Lemeshow (2000)). Puisque plusieurs logiciels permettent d’ajuster un modèle de Cox stratifié, la régression logistique conditionnelle est facile à appliquer en pratique. 1.5 La régression logistique avec données corrélées Fréquemment, dans les études du comportement animal, un même individu est observé à plus d’une reprise. Bien que l’hypothèse d’indépendance entre les individus soit raisonnable, les valeurs de la variable réponse pour un même individu sont fort probablement corrélées. On peut donc s’attendre à ce qu’une possible corrélation intra-individu existe. Avec des données longitudinales, les inférences des modèles de régression logistique standard et conditionnelle décrites respectivement aux sections 2.3 et 2.4 ne sont pas appropriées. En effet, cellesci se basent sur l’hypothèse d’indépendance entre les observations et entre les strates. Elles ne permettent donc pas de tenir compte d’une possible corrélation intra-individu. Ainsi, les inférences sur les β j pourraient s’avérer erronées. Afin de tenir compte de cette possible dépendance, on doit utiliser des modèles de régression logistique pouvant traiter des données corrélées. 1.5.1 Notation de la régression logistique avec données corrélées 1. n est le nombre d’individus de l’étude ; 2. Y i représente le vecteur des variables dépendantes du ie individu, soit Y i = (Yi1 , . . . ,Yini )0 , avec j = 1, ..., ni , où ni représente le nombre de mesures prises sur l’individu i ; 3. le nombre total d’observations est défini par ∑ni=1 ni = N ; 4. xi correspond à la matrice des variables indépendantes pour l’individu i, où xi = (xi1 , . . . , xini )0 ; 5. µi j (β ) est l’espérance de Yi j sachant xi j pour l’individu i. 9 1.5.2 Écriture du modèle La présente section introduit la méthode des équations d’estimation généralisées (GEE) permettant d’effectuer des inférences robustes sur le paramètre β dans la situation où les observations prises sur un même individu sont dépendantes entre elles (Yi j est dépendante de Yi j0 ∀ j 6= j0 ). Toutefois, les individus demeurent indépendants entre eux (Y i est indépendant de Y i0 ∀i 6= i0 ). Les équations d’estimation généralisées sont utilisées afin que les estimés des β j et leurs estimateurs de variances et covariances tiennent compte d’une possible corrélation intra-individu, sans pour autant que l’on ait besoin de spécifier correctement cette corrélation. Nous discuterons d’une approche basée sur les modèles mixtes qui, elle, implique une modélisation spécifique de la dépendance, au chapitre 4. Nous utilisons une matrice symétrique communément appelée "matrice de corrélation de travail", notée Ri (α ) et qui est définie ci-dessous, où α est le vecteur des paramètres de corrélation à estimer, 1 1 corr (Yi1 ,Yi2 |xi1 , xi2 ) Ri (α ) = corr (Yi |xi ) = .. .. . . corr (Yi1 ,Yini |xi1 , xini ) . . . corr (Yi(ni −1) ,Yini |xi(ni −1) , xini ) 1 . L’idée est d’essayer de spécifier la vraie structure de corrélation des Y i . Dans le cas où nous spécifions une mauvaise structure de corrélation, les inférences sur β seront tout de même valides. Si la structure de corrélation est bonne, alors les inférences seront plus précises. La structure de la matrice de corrélation de travail Ri (α ) est en lien avec le plan d’expérience et le type d’association possible entre les observations d’un individu. Voici quelques structures communes pour Ri (α ). 1. La matrice de corrélation ayant la structure de type "indépendante" correspond à l’absence de corrélation entre Yi j et Yi j0 , ∀ j 6= j0 , 1 0 ... 0 0 1 0 ... . Ri = 0 0 1 . . . .. .. . . . . . . . . 2. La structure de type "échangeable" indique que la corrélation entre deux observations d’un même individu est la même et égale à une valeur α pour toute paire d’observations, 1 α α 1 Ri (α ) = α α .. .. . . 10 α ... ... . 1 ... .. .. . . α 3. La structure de type "non structuré" permet à la corrélation entre les observations d’un même individu de différer pour toutes les paires d’observations, 1 α1,2 ... α1,ni .. .. α . 1 . 1,2 Ri (α ) = . .. .. .. . . αni −1,ni α1,ni . . . αni −1,ni 1 . 4. La structure "auto-régressive d’ordre 1" considère que la corrélation entre deux observations d’un même individu diminue de manière géométrique lorsque les observations se distancent (| j − j0 | augmente) dans le temps (ou l’espace), 1 α . . . α ni −1 .. .. α . 1 . Ri (α ) = . . . .. .. .. α n −1 α i ... α 1 . Équations d’estimation sous l’indépendance Afin d’introduire le concept des équations d’estimation généralisées, considérons l’hypothèse possiblement erronée d’indépendance entre les observations d’un même individu. Dénotons l’estimateur de β sous l’hypothèse d’indépendance par βb . Sous cette hypothèse, on peut définir la matrice de ind p corrélation Ri (α ) comme étant la matrice de type "indépendante" de taille ni × ni . Nous pouvons donc obtenir βbind p en maximisant la fonction de vraisemblance (1.5). Le résultat est la valeur de β qui résout le système d’équations suivant : n Uindep (β ) = ∑ x0i 4i Y i − µi (β ) = 0, (1.21) i=1 où 4i est une matrice diagonale de taille ni × ni dont les éléments sur la diagonale sont ∂ Θi j /∂ ηi j où 0 j = 1, . . . , ni et avec Θi j le paramètre canonique de la famille exponentielle et µi (β ) = µi1 (β ), ..., µini (β ) . πi ; en isolant πi , on Soulignons que le paramètre canonique de la loi binomiale est Θi j = log 1−π i obtient exp(Θi j ) = πi 1−πi ⇒ πi = exp(Θi j ) . 1+exp(Θi j ) Selon l’équation (1.1) de la section 2.2, on trouve que Θi j = ηi j , et donc ∂ Θi j /∂ ηi j = 1. À partir du système d’équations (1.21) et en supposant l’hypothèse d’indépendance vraie, on peut √ démontrer que n(βb − β ) converge en distribution vers la loi normale de moyenne nulle et de ind p variance n V =n ∑ x0i 4i Ai 4i x0i !−1 , (1.22) i=1 11 πi1 (1 − πi1 ) 0 ... 0 .. . πi2 (1 − πi2 ) 0 .. . 0 ... où Ai = 0 0 .. . 0 πini (1 − πini ) . Équations d’estimation généralisées Le concept d’équations d’estimation généralisées est en fait une généralisation du système d’équations (1.21), où une corrélation intra-individu autre que l’indépendance pour Ri (α ) peut être intégrée. La matrice de variance pour les observations Y i est alors donnée par 1/2 V i = φ A1/2 i Ri (α )Ai . (1.23) Dans l’équation (1.23), les paramètres α et φ (paramètre de surdispersion) sont inconnus. Selon Liang et Zeger (1986), on peut les estimer à partir des résidus de Pearson qui sont définis comme suit : Yi j − µi j ri j = p Var (Yi j ) et obtenir l’estimé du paramètre φ par φb = n ni 1 ∑ ri2j . N − ( p0 + 1) i∑ =1 j =1 L’estimation du paramètre α dépend de la forme choisie pour Ri (α ). Le lecteur peut, par exemple, consulter l’aide de la procédure GENMOD de SAS pour voir les formules des estimateurs pour chacune des structures de corrélation mentionnées précédemment. Pour estimer β , on trouve la valeur de β qui résout le système d’équations d’estimation généralisées N U corr (β ) = ∑ (Ai 4i xi )0V −1 i Y i − µ i (β ) = 0. i=1 Pour ce faire, on a recours à l’algorithme itératif suivant. Algorithme de la méthode GEE b i = φbAi 4i xi et Vb i = φbA1/2 Ri (α b )Ai1/2 . Soit D i (0) 1. Calculer βbind p et poser βb = βbind p . 2. Poser m = 1. (m−1) 3. Calculer les résidus de Pearson à partir de βb . b 4. Estimer α 12 (m) et φb(m) en fonction des résidus de Pearson. (1.24) (m) 5. Calculer βb à partir de l’équation (m) (m−1) βb = βb + N 0 ∑ DbiVb i Dbi −1 i=1 N (m−1) 0 −1 b b b ) = 0, ∑ DiV i Y i − µ i (β i=1 (m) b i et Vb i sont évaluées en β = βb . où D 6. Poser m = m + 1. On itère les étapes 2 à 7 jusqu’à ce que la différence entre βb (m) βb = βb . (m) et βb (m−1) soit négligeable et on pose Estimation de la matrice de variances-covariances Une fois βb obtenu, il nous est maintenant possible d’estimer sa matrice de variances-covariances. Si la matrice Ri (α ) est correctement spécifiée, la matrice de variances-covariances de βb s’estime de façon convergente par Vt = N 0 −1 ∑ DbiVb i Dbi −1 . i=1 Cependant, la matrice Ri (α ) ne reflète possiblement pas la véritable structure de corrélation de Y i . Pour remédier à ce problème, on corrige, de façon empirique, la matrice Vt en prenant l’estimateur "sandwich" robuste N 0 −1 0 b −1 b b b b b Vs = Vt ∑ DiV i {Y i − µ i (β )}{Y i − µ i (β )} V i Di Vt . (1.25) i=1 Plus la matrice Ri (α ) est proche de la vraie matrice, plus les inférences seront efficaces. L’estimateur βb obtenu par la méthode des GEE est approximativement de loi normale de moyenne β et de variance Vs , en autant que la fonction µi j (β ) soit correctement spécifiée. Ainsi, des inférences de type Wald peuvent être effectuées sur les éléments de βb. Par exemple, pour le test H0 : β = β 0 b contre H1 : β 6= β 0 , on pose w = (βb − β 0 )0 V−1 s (β − β 0 ) et sous H0 , w suit approximativement une loi du khi-deux à p degrés de liberté. 1.5.3 Exemple Stokes et al. (2000) Deux traitements contre les troubles respiratoires ont été testés sur n = 111 patients recrutés aléatoirement dans deux centres hospitaliers (Stokes et al. (2000)). Pour chacun des patients, on mesure la variable réponse, soit le statut respiratoire, (0 pour un "mauvais" statut et 1 pour un "bon" statut). Soit yi j la valeur de la variable réponse pour le ie patient à la je visite où l’on mesure le statut respiratoire, j = 1, . . . , 4. À noter que même si la majorité des variables explicatives demeure constante à chaque visite, l’indice j a été conservé par souci de cohérence avec la notation employée à la section 5.1. Le vecteur des variables explicatives est donc x0i j = (1, xi j1 , . . . , xi j5 ), où, lors de la visite j, xi j1 représente l’âge du patient i ; xi j2 est le sexe du patient i (égal à 0 si le patient est un homme, 1 sinon) ; xi j3 13 correspond au traitement reçu par le patient i (égal à 0 si le traitement est le placebo, 1 sinon) ; xi j4 indique le statut respiratoire de base du patient i (égal à 0 si le statut respiratoire de base est mauvais, 1 sinon) et xi j5 est l’hôpital d’où est recruté le patient i (égal à 0 si c’est le centre 1, 1 sinon). Un modèle de régression logistique a été considéré et a été ajusté avec la méthode GEE. Voici respecb ) ; la matrice des tivement la matrice de corrélation de travail de type "non structuré" estimée, Ri (α covariances de β̂ basée sur le modèle, Vt et l’estimateur "sandwich" robuste, Vs , obtenus avec une structure de type "non structuré" tel qu’utilisée par Stokes et al. (2000). 1 0.3351 0.2140 0.2953 0.3351 1 0.4429 0.3581 . Ri (α̂ ) = 0.2140 0.4429 1 0.3964 0.2953 0.3581 0.3964 1 Vt = Vs = 0.22781 −0.06479 −0.009243 −0.006374 −0.004407 −0.05334 0.02915 −0.009243 0.0008109 0.11454 −0.02431 −0.000969 −0.02014 . −0.006374 0.03195 −0.02431 0.17381 −0.001237 0.01644 −0.004407 −0.000209 −0.000969 −0.001237 0.0001571 0.0000404 −0.05334 0.02915 −0.02014 0.01644 0.0000404 0.11631 −0.06479 0.11158 0.0008109 0.20868 −0.05925 0.0000558 0.03195 −0.000209 −0.004454 −0.004046 −0.05198 0.03267 0.0000558 −0.01566 0.12335 −0.04417 −0.000397 −0.02014 . −0.004454 0.05751 −0.04417 0.19432 −0.002242 0.03981 −0.004046 −0.000835 −0.000397 −0.002242 0.0001654 −0.0004 −0.05198 0.03267 −0.03537 0.03981 −0.0004 0.11839 −0.05925 0.11940 −0.01566 0.05751 −0.000835 Les estimés β̂ obtenus à partir des matrices de corrélation de travail de type "indépendante" et de type "non structuré" sont présentés respectivement aux tableaux 1.1 et 1.2. À noter que pour le test sur un seul coefficient βi , la statistique du test de Wald (fréquemment dénoté z) est donnée par z = (βbi − 0)/(écart-type robuste de βbi ) et le seuil observé est 2P[N (0, 1) > |z|]. D’après les estimations des paramètres du vecteur α de la matrice de corrélation de travail de type b sont assez rap"non structuré", une corrélation intra-individu semble exister. Toutefois, les valeurs α prochées l’une de l’autre, pouvant suggérer une structure de type "échangeable". L’impact de la corrélation intra-individu semble se refléter dans l’estimation de la matrice des covariances de β̂ . En effet, l’estimateur "sandwich" robuste Vs et la matrice des covariances de β̂ basé sur le modèle, Vt , affichent des corrélations parfois divergentes. Cependant, cela a eu peu de répercussions sur les estimés β̂ et 14 TABLE 1.1: Coefficients de régression obtenus avec la méthode GEE (matrice de corrélation de travail de type "indépendante") Paramètres Ordonnée Âge Sexe Traitement Statut de base Hôpital Estimés -0.8561 -0.0188 0.1368 1.2654 1.8457 0.6495 Écart-type Naïf Robuste 0.3351 0.4564 0.0088 0.0130 0.2933 0.4402 0.2350 0.3467 0.2393 0.3460 0.2383 0.3532 Statistique de Wald -1.88 -1.45 0.31 3.65 5.33 1.84 Seuil observé 0.0607 0.1480 0.7560 0.0003 <0.0001 0.0660 TABLE 1.2: Coefficients de régression obtenus avec la méthode GEE par Stokes et al. (2000) (matrice de corrélation de travail de type "non structurée") Paramètres Ordonnée Âge Sexe Traitement Statut de base Hôpital Estimés -0.8882 -0.0175 0.1128 1.2442 1.8981 0.6558 Écart-type Naïf Robuste 0.3351 0.4568 0.0088 0.0129 0.2933 0.4408 0.2350 0.3455 0.2393 0.3441 0.2383 0.3512 Statistique de Wald -1.94 -1.36 0.26 3.60 5.52 1.87 Seuil observé 0.0519 0.1728 0.7981 0.0003 <0.0001 0.0619 leur écart-type robuste. De plus, les estimés βb et leurs variances-covariances obtenus sous la matrice de corrélation de travail de type "indépendante" sont pratiquement identiques à ceux obtenus avec la matrice de type "non structuré". Par ailleurs, le fait de ne pas corriger les écarts-types pour tenir compte de la corrélation intra-individu aurait mené à une sous-estimation de ceux-ci. Le test de type Wald suggère que le traitement a une influence significative sur le statut respiratoire des patients (variable réponse). Pour cette covariable, la valeur de β̂ indique que le traitement augmente la probabilité qu’un patient ait un "bon" statut. Lorsqu’un patient reçoit le traitement, on estime que la cote de succès est multipliée par exp (1.2442) = 3.47. 1.6 Régression logistique conditionnelle avec données corrélées Dans le cadre d’une étude longitudinale cas-témoins appariée, Craiu et al. (2008) ont observé les déplacements de mêmes animaux à plusieurs reprises et ont comparé les lieux visités à des lieux non visités obtenus en fonction d’un échantillonnage stratifié 1 : 10. Contrairement au modèle de régression logistique conditionnelle présenté à la section 2.4, l’hypothèse d’indépendance entre les strates n’était pas raisonnable. En effet, la sélection d’un lieu au temps t et celui au temps t + 1 risquent d’être corrélés pour un même individu. Quant au modèle de régression logistique avec données corrélées décrit à la section 2.5, celui-ci est un modèle "prospectif" ne permettant pas de considérer l’information a priori connue lorsque la variable réponse est fixée avant même le début de l’échantillonnage. Par 15 conséquent, afin de tenir compte à la fois de la dépendance entre les strates d’un même individu et de l’aspect "rétrospectif" d’une étude longitudinale cas-témoins appariée, un modèle de régression logistique conditionnelle avec données corrélées construit avec la méthode des GEE est utilisé. Les avantages de la méthode GEE (variance robuste, estimateurs toujours valides lors d’une mauvaise spécification de la matrice de corrélation des observations) peuvent ainsi être exploités. 1.6.1 Notation pour la régression logistique conditionnelle avec données corrélées 1. n est le nombre d’individus de l’étude, i = 1, . . . , n ; 2. K (i) représente le nombre de strates du ie individu, k = 1, . . . , K (i) ; (i) (i) (i) (i) (i) 3. Y k dénote le vecteur de la variable dépendante de la ke strate du ie individu, où Y k = Yk1 , . . . ,Ykl , . . . ,Yk(C+1) avec l = 1, . . . , (C + 1) ; (i) 4. X k est la matrice, de taille (C + 1) × p, des variables indépendantes de la ke strate du ie individu, (1) (i) (i) (i)0 (i) 0 (i) (i) avec xkl = xkl1 , . . . , xkl p et X k = xk1 , . . . , xkl , . . . , xk(C+1) 1.6.2 Écriture du modèle ( (i) Soit Ykl = 1, lieu visité 0, lieu non visité. Le modèle de régression logistique conditionnelle avec données corrélées se base sur les hypothèses suivantes : (i) 1. avant d’échantillonner les lieux non visités, on fixe ∑Cl =+11 Ykl = 1 ∀i, k ; 2. on suppose l’indépendance entre les individus. Encore une fois, l’indice z représente l’une des C + 1 combinaisons possibles, composées d’une seule (i) valeur de 1 et de C valeurs de 0, que peut prendre le vecteur Y k . On a que pour une strate (i) Lk C +1 (i) (i) β ∑ Ykl = 1, xkl = l =1 (C +1) où ∑z=1 (i) (i) exp ∑Cl =+11 β 0 xkl Ykl (C +1) (i) (i) 0 ∑z=1 exp ∑Cl =+11 β xkl vzl (i) , (1.26) (c) (i) représente la somme sur tous les vecteurs possibles vz tels que vzl ∈ {0, 1} et ∑Cl =+11 vzl = (i) 1. Prenons par exemple le cas d’une étude cas-témoins 1 : 2. Les vecteurs possibles de vz sont donc (1,0,0)’ ; (0,1,0)’ ;(0,0,1)’. (i) Afin de pallier à la singularité de la matrice de variances-covariances des Y k en raison de la contrainte (i) linéaire ∑Cl =+11 Ykl = 1, on peut récrire l’équation (1.26) en omettant la première observation, tel que ∗(i) (i) (i) démontré par Craiu et al. (2008). En effet, si l’on définit xkl = xkl − xk1 avec l 6= 1, le vecteur des variables explicatives "réduit", alors ∗(i) Lk 16 ∗(i) β |xkl ∗(i) (i) ≡ exp ∑Cl =+21 β 0 xkl Ykl (C +1) ∗(i) (i) 0 ∑z=1 exp ∑Cl =+21 β xkl vzl = (i) Lk C +1 (i) (i) β ∑ Ykl = 1, xkl . l =1 (1.27) 0 1.6.3 Lien avec la méthode GEE L’hypothèse de dépendance entre les strates d’un même individu fait qu’on ne peut obtenir sa contribution à la vraisemblance à partir de l’équation (1.27), et donc de définir les équations à résoudre pour estimer β . Néanmoins, commençons par supposer que les strates d’un même individu sont indépendantes. De (1.27), on a que pour la log-vraisemblance et la fonction de score avec le vecteur des variables explicatives "réduit" pour l’ensemble des individus sont données respectivement par " !# ∗(i) l ∗(i) (β |xkl ) = C +1 " U (β ) = C +1 ∑ ∑ " ∑ C +1 exp z=1 ∗(i) (i) xkl Ykl − i=2 i,k = (C +1) l =2 i,k ∗ ∗(i) (i) Ykl − log ∑ ∑ β xkl ∗(i) (i) vzl ∑ β xkl l =2 (C +1) ∗(i) (i) ∗(i) (i) ∑z=1 xkl vzl exp ∑Cl =+21 β xkl vzl (C +1) ∗(i) (i) ∑z=1 exp ∑Cl =+21 β xkl vzl # # C +1 (i) ∑ ∑ x∗kl {Ykl (i) − µ kl (β )} , l =2 i,k (i) (i) où le théorème 1 à la page suivante indique que µ kl est l’espérance conditionnelle de Ykl . Sous l’hypothèse d’indépendance entre les strates, le système d’équations à résoudre permettant d’obtenir βb est U ∗ (β ) = 0. (1.28) Lorsqu’il existe une corrélation entre les strates d’un même individu, une meilleure robustesse dans les inférences sur β est requise. Une possibilité est d’écrire l’équation (1.28) sous la forme des GEE. Il sera donc utile de définir les variables à nouveau : 0 0 Y (1) , . . . ,Y (n) (i) 0 (i) 0 = Y 1 , . . . ,Y K (i) ∀i = 1, . . . , n Y0 = où Y (i) 0 (i)0 (i) (i) Yk2 , . . . ,Yk(C+1) " # C +1 (i) µ (β ) = E Y ∑ Ykl = 1; X ∗kl l =1 " # C +1 (i) (i) (i) ∗ µ (β ) = E Y ∑ Ykl = 1; X kl , l =1 Yk = où X ∗kl = x∗k1 , . . . , x∗k(C+1) . Le théorème qui suit est démontré par Craiu et al. (2008). Théorème 1. Soit D(i) = ∂ µ (i) (β )/∂ β 0 la matrice des dérivées du vecteur des moyennes condition (i) nelles de l’individu i de taille ∑Kk=1 (C + 1) − 1 × p et (i) (C +1) (i) V ind pendante = Var Y (i) | ∑l =1 Ykl = 1; X ∗kl . Alors, n U ind pendante (β ) = ∑D (i) −1 (i) V independante (i) (i) Y − µ (β ) (1.29) i=1 17 où (C +1) (C +1) β x∗kl vzl µ (β ) = , (C +1) (C +1) ∑z=1 exp ∑l =2 β x∗kl vzl ∑z=1 vzl exp ∑l =2 (i) (C +1) µ (im) (β ) = (C +1) β x∗kl vzk (C +1) ∑z=1 exp ∑Cl =+21 β x∗kl vzl ∑z=1 vzl vzm exp ∑l =2 (1.30) ∀i 6= m. (i) (1.31) (i) et V independante est une matrice bloc diagonale. Les éléments en position (i, j) de V independante sont si i et j ne proviennent pas de la même strate 0, Vij = µi (1 − µi ), si i = j µi j − µi µ j , i 6= j, i et j proviennent de la même strate. La variance robuste de l’estimateur βb résolvant l’équation (1.28), notée V g , est donnée par Vg = n ∑D (i) 0 −1 (i) V ind pendante D(i) −1 i=1 n −1 (i) 0 (i) Y − µ (i) ( β ) × ∑ D(i) V ind pendante i=1 × Y (i) (i) − µ (β ) 0 −1 (i) V ind pendante D(i) n −1 (i) −1 (i) (i) 0 × ∑D V ind pendante D (1.32) i=1 que l’on évalue en β =βb. 1.6.4 Exemple de Craiu et al. (2008) L’étude des bisons du Parc national de Prince Albert présentée par Craiu et al. (2008) a pour but d’investiguer les relations entre la répartition d’une population de bisons et les caractéristiques de leur environnement. L’expérience a été réalisée sur neuf bisons munis d’un collier GPS localisés à chaque heure à raison de deux jours par semaine sur une période de trois mois. Une étude longitudinale cas-témoins appariée a été effectuée, où chaque lieu visité par un bison (Y = 1), par intervalle d’une heure, est apparié à 10 lieux non visités (Y = 0). Ces derniers ont été échantillonnés aléatoirement dans un cercle de rayon de 300 mètres centré autour du lieu observé. Ce rayon permet de capturer 85% des distances de l’ensemble des déplacements observés. Par ailleurs, les covariables du modèle correspondent aux caractéristiques géographiques de l’environnement. En se basant sur une image satellite Landstat TM, la zone à l’étude a été subdivisée en 7 catégories : les terres agricoles, les prairies, les regroupements de conifères, les regroupements d’arbres à feuilles caduques, les plans d’eau, la zone riveraine et les routes. Un modèle de régression logistique conditionnelle avec données corrélées a été retenu pour l’analyse afin de respecter l’aspect "rétrospectif" de l’étude et de considérer la possibilité d’une corrélation intra-individu. 18 Dans le modèle de régression cas-témoins appariée, les 9 bisons sont représentés par l’indice i = 1, ..., 9. On dénombre au total 624 strates par individu, soit 2 jours × 24 heures × 13 semaines. Craiu et al. (2008) se sont intéressés aux différents types d’habitats des bisons : 7 types d’habitats ont été codés avec 6 variables indicatrices avec les regroupements d’arbres à feuilles caduques comme catégorie de référence, en plus de la proportion de prairies dans un cercle de 300 mètres ("P300"), une variable continue, et à l’interaction entre cette dernière proportion et le type d’habitat "Prairies", notée "Prairies_int". Les différents types d’habitats ainsi que les variables "P300" et "Prairies_int" constituent le vecteur x des variables indépendantes. La méthode des GEE a été appliquée aux données de Craiu et al. (2008) à l’intérieur d’un modèle de régression logistique conditionnelle avec données corrélées. La matrice de corrélation de travail de type "indépendante" a été utilisée, tel que suggéré par Craiu et al. (2008). Le tableau 1.3 fournit les résultats du modèle de régression : la 1re colonne identifie le type d’environnement ; la 2e affiche la valeur des β̂ j ; la 3e donne l’écart-type des β̂ j en supposant une corrélation intra-individu nulle ; la 4e donne les seuils observés obtenus, par le test de Wald sous l’hypothèse d’indépendance (p-value naive) ; la 5e est l’écart-type des β̂ j qui considère une corrélation intra-individu et la 6e colonne donne les seuils observés pour le test de Wald qui utilise l’estimateur de la variance robuste (p-value robuste). TABLE 1.3: Résultats du modèle de régression logistique conditionnelle avec la méthode GEE appliqué aux données sur les bisons de Craiu et al. (2008) q q ˆ ˆ β̂ j Variables Var p-value naive Var p-value robuste I β̂ Robusteβ̂ j P300 Prairies Prairies_int Conifères Plans d’eau Riverains Zones agricoles Routes 0.644 1.464 -0.904 -0.539 -0.164 -0.566 1.213 0.875 0.252 0.065 0.246 0.061 0.093 0.281 0.413 0.106 j 0.0106 <0.0001 0.0002 <0.0001 0.0793 0.0440 0.0033 <0.0001 0.336 0.118 0.424 0.100 0.159 0.240 0.092 0.163 0.0558 <0.0001 0.0328 <0.0001 0.3031 0.0184 <0.0001 <0.0001 Les résultats présenté au tableau 1.3 révèlent que les déplacements des individus ne sont pas totalement aléatoires. Relativement aux regroupements d’arbres à feuilles caduques, les bisons sont davantage attirés par les "zones agricoles" et les "routes". Également, la force de sélection des "prairies" diminue lorsque la proportion des prairies ("Prairies_int") est dense à l’intérieur du cercle de 300 mètres. De plus, les bisons sont plus attirés par les regroupements d’arbres à feuilles caduques que par les "plans d’eau", les "conifères" et les "zones riveraines". L’interprétation de l’attrait des "plans d’eau" varie si l’on tient compte ou non de la corrélation intraindividu. En effet, le seuil observé "naïf" permet de considérer cette covariable significative au seuil de 10%, ce qui n’est pas le cas avec le seuil observé robuste. 19 1.6.5 Contrainte d’interprétation de βb causée par l’utilisation de la méthode GEE Tel que discuté aux sections 2.5 et 2.6, la corrélation intra-individu peut être considérée dans les inférences grâce à la méthode GEE. Cependant, cette méthode fournit des estimés des coefficients de régression qui représentent l’effet d’un changement dans les variables indépendantes sur la valeur moyenne des Y dans la population, soit une approche marginale. De plus, elle ne modélise pas explicitement l’hétérogénéité dans le comportement inter-individus. Au chapitre suivant, nous verrons que dans le cas d’études du déplacement animal, cette approche marginale possède des lacunes, ce qui nous incitera, au chapitre 4, à introduire une approche conditionnelle basée sur un modèle mixte pour effectuer la régression logistique conditionnelle. 20 Chapitre 2 La sélection des ressources La sélection des ressources par un animal se définit en fonction du comportement de ce dernier vis-àvis la disponibilité des ressources à sa disposition. Elle nous renseigne donc sur les ressources les plus recherchées chez l’animal. Par exemple, si 50% des localisations observées pour un animal sont dans les marais, mais que les marais ne représentent que 10% de son domaine vital, on pourra conclure que cet animal a une préférence pour ce type d’habitat puisqu’il s’y retrouve plus souvent que ce à quoi on s’attendait sous une sélection d’habitat aléatoire. Plusieurs études ont analysé ce sujet pour un troupeau d’animaux, telle que l’étude de Boyce et al. (2003), de même que pour des animaux individuels, par exemple l’étude de Craiu et al. (2011). Pour ce faire, elles comparent les lieux visités aux lieux disponibles non visités par chaque individu (Thomas et Taylor (2006)). Ce chapitre discute des études du déplacement des animaux en fonction de la sélection des lieux visités et de l’échantillonnage des lieux non visités. De ce fait, il est nécessaire d’introduire les concepts de fonction de sélection des ressources et de fonction de sélection des déplacements. Tout d’abord, la fonction de sélection des ressources, notée RSF, est proportionnelle à la probabilité qu’un lieu soit visité étant donné les caractéristiques qui le composent. Elle permet ainsi de prédire les ressources les plus susceptibles d’attirer l’animal. Elle se définit ainsi : Définition 2.1. La RSF est proportionnelle à la probabilité que l’animal visite un lieu étant donné les caractéristiques de ce lieu ; c’est-à-dire qu’il exite une constante q telle que RSF = qP[ lieu est visité| les caractéristiques de ce lieu]. Quant à la fonction de sélection des déplacements, notée SSF, elle a été introduite par Fortin et al. (2005). Son objectif est d’expliquer ou de prédire le déplacement d’un animal en incorporant simultanément les caractéristiques du déplacement (angle, distance, énergie à déployer, danger le long du trajet, etc.) et l’information sur les ressources disponibles au bout du déplacement. De ce fait, contrairement à la RSF, elle permet de tenir compte des caractéristiques du trajet de déplacement entre deux lieux. 21 Les paramètres d’une SSF peuvent être estimés à partir d’un modèle de régression logistique conditionnelle avec données indépendantes sous un étude cas-témoins appariée en associant à chaque lieu visité plusieurs lieux non visités, aussi appelés "lieux témoins", dans le domaine des lieux disponibles. Forester et al. (2009) présentent trois méthodes d’échantillonnage de ces lieux témoins en fonction de l’emplacement du lieu visité. Selon l’étude de Forester et al. (2009), un échantillonnage non adéquat des lieux témoins peut induire un biais dans l’inférence sur les coefficients de régression d’une SSF. 2.1 Notation 1. i = 1, . . . , n dénote l’animal ; 2. a indique le lieu où se trouve l’animal au temps t ; 3. a0 indique le lieu où se trouvait l’animal au temps t − 1 ; 4. b est le prochain lieu visité par l’animal au temps t + 1 ; 5. Da représente l’ensemble des lieux disponibles que l’animal peut visiter à partir du lieu a dans un pas de temps donné, soit le domaine des lieux disponibles ; 6. X représente les caractéristiques d’un lieu et constitue le vecteur des variables indépendantes ; 7. H est le nombre de lieux témoins échantillonnés que l’animal aurait pu visiter à partir du lieu a; 8. T i correspond au vecteur des temps où la localisation de l’animal i est observée, où Ti 0 = (ti1 , . . . ,tiGi ) avec g = 1, . . . , Gi . 2.2 Écriture du modèle En se basant sur les travaux de Rhodes et al. (2005), pour un animal qui a visité les lieux a0 et a respectivement aux temps t − 1 et t, on peut modéliser la densité de probabilité qu’il se trouvera au lieu b ε Da au temps t + 1 par φ (a0 , a, b; θ )ω{X (b); β } , lεDa φ (a0 , a, l; θ )ω{X (l ); β }dl f (b|a, a0 , X (b)) = R (2.1) où X (b) représente les caractéristiques du lieu b. La densité (2.1) est proportionnelle au produit de la RSF, représentée par ω{X (l ); β }, et d’un noyau de déplacement indépendant des ressources, noté φ (a0 , a, l; θ ). Ce dernier décrit le mouvement d’un animal dans un environnement homogène en fonction de la distance parcourue et de l’angle de pivotement. Il représente ainsi la probabilité qu’un animal se déplace du lieu a au lieu b en l’absence de sélection de ressources. L’hypothèse la plus fréquente consiste à définir la RSF sous une forme log-linéaire, ω{X (b); β } = exp{X (b)0 β }. 22 (2.2) Quant au noyau de déplacement indépendant des ressources, on peut lui attacher une forme paramétrique ou non paramétrique, selon la disponibilité des données ou l’état de nos connaissances. Forester et al. (2009) suggèrent une distribution de Weibull de paramètres (ν, λ ), dont la fonction de densité est donnée par le numérateur de l’équation (2.3), pour la distance qui sépare le lieu a du lieu b et une loi uniforme sur l’intervalle [0, 2π ] pour l’ange de pivotement, et l’indépendance entre l’angle et la distance. Cette spécification mène au noyau de déplacement φ (a0 , a, b; θ ) = νλ (λ rab )ν−1 exp[−(λ rab )ν ] , 2πrab θ = (ν, λ ), (2.3) où rab correspond à la distance qui sépare le lieu a du lieu b. À noter que Forester et al. (2009) définissent la SSF comme étant le produit de la RSF et du noyau de déplacement, soit le numérateur de l’équation (2.1). 2.3 Fonction de vraisemblance conditionnelle Le calcul de la vraisemblance totale permettant d’estimer les paramètres β et θ nécessite d’évaluer l’intégrale au dénominateur de l’équation (2.1). Rhodes et al. (2005) mentionnent que cette intégrale risque d’être difficile à évaluer si Da est large. Par ailleurs, peu importe l’étendue de Da , la résolution de l’intégrale requiert l’emploi d’une méthode numérique pour plusieurs spécifications de φ , ω ou X. La difficulté d’évaluation de cette intégrale a amené Forester et al. (2009) à développer une fonction de vraisemblance conditionnelle basée sur un échantillonnage de lieux témoins. À noter qu’afin d’alléger l’écriture de certaines équations, la dépendance sur a0 sera omise. Pour tenir compte de la méthode d’échantillonnage des lieux témoins, on définit un ensembe de lieux non ordonnés s = {l0 , l1 , . . . , lH } contenant H lieux témoins échantillonnés à l’intérieur de D̃a , où D̃a ⊇ Da , selon une méthode d’échantillonnage prédéterminée et un lieu visité b autour du lieu de départ a à un pas de temps donné. En fonction de la méthode d’échantillonnage, la densité du vecteur s sachant a, b et les caractéristiques de l’environnement est donnée par (Forester et al. (2009)) u(s|b, a, X ) = 1 φ ∗ (a, b; κ ) (H − 1)! ∏ φ ∗ (a, l; κ ), (2.4) lεs où φ ∗ correspond à un noyau de déplacement indépendant des ressources, mais dépendant de l’angle de pivotement et de la distance à parcourir dénotés par κ. En somme, φ ∗ est une distribution connue définie par l’utilisateur qui approxime la distribution inconnue φ . 23 La probabilité conditionnelle d’observer l’animal au lieu b sachant s, a et X est donc P[lieu = b|s, a, X ] = = = = f (b|a, X )u(s|b, a, X ) ∑lεs f (l|a, X )u(s|l, a, X ) 1 f (b|a, X ) φ ∗ (a,b;θ (H − 1)! ∏lεs φ ∗ (a, l; κ ) ) 1 (H − 1)! ∏vεs φ ∗ (a, v; κ ) ∑lεs f (l|a, X ) φ ∗ (a,l;κ ) f (b|a, X )/φ ∗ (a, b; κ ) ∑lεs f (l|a, X )/φ ∗ (a, l; κ ) φ (a, b; θ ) exp{X (b)0 β }/φ ∗ (a, b; κ ) . ∑lεs φ (a, l; θ ) exp{X (l )0 β }/φ ∗ (a, b; κ ) (2.5) (2.6) (2.7) (2.8) L’équation (2.5) est le résultat du théorème de Bayes impliquant les fonctions de densité du lieu b et de l’ensemble des lieux s provenant des équations (2.1) et (2.4). Le passage de l’équation (2.6) à l’équation (2.7) est dû aux termes communs (H − 1)! ∏lεs φ ∗ (a, l; κ ) du numérateur et de chaque terme du dénominateur. En développant la fonction f (·) de l’équation (2.7), l’intégrale sur tout le domaine des lieux disponibles de l’équation (2.1) se retrouve au numérateur et au dénominateur, nous permettant ainsi de l’annuler afin d’obtenir l’expression (2.8). Voici une version réorganisée de l’équation (2.8) : P[lieu = b; s, a, X ] = exp[X (b)0 β + log{φ (a, b; θ )/φ ∗ (a, b; κ )}] . ∑lεS exp[X (l )0 β + log{φ (a, l; θ )/φ ∗ (a, l; κ )}] (2.9) Il est important de choisir D̃a ⊇ Da . Si ce n’est pas le cas, il peut arriver que le lieu b soit à l’extérieur de D̃a . Par conséquent, φ (a, b; θ )/φ ∗ (a, b; κ ) devient infinie, car φ ∗ = 0. À partir de l’équation (2.9), on constate que lorsque que φ ∗ est proportionnelle à φ , alors le terme φ (a, b; θ )/φ ∗ (a, b; κ ) est constant et son log s’annule. Dans ce cas, l’équation (2.9) se simplifie à P[lieu = b; s, a, X ] = exp{X (b)0 β } , ∑lεs exp{X (l )0 β } (2.10) ce qui correspond à la vraisemblance de la régression logistique conditionnelle avec données indépendantes pour un échantillonnage de type cas-témoins 1 : H. En effet, l’équation (2.10) correspond à l’équation de la vraisemblance pour une strate si b ε s (équation (1.18) du chapitre 2) où, pour le lieu b, on a y = 1 et, pour les H lieux témoins, on a y = 0. Par conséquent, considérant le vecteur du temps de déplacement T i de l’animal i, β peut être estimé en maximisant la fonction de vraisemblance de la régression logistique conditionnelle pour l’ensemble de l’échantillon, i L(β ) = Πni=1 ΠG d =1 exp{X (bid )0 β } , ∑lεsid exp{X (l )0 β } (2.11) où bid et sid sont respectivement les lieux visités et l’ensemble des lieux échantillonnés pour l’individu i au temps tid . 24 Le modèle de régression logistique conditionnelle avec données indépendantes n’a cependant pas la propriété de tenir compte dans son inférence du plan d’échantillonnage des lieux témoins. Par conséquent, lorsque φ (a, b; θ )/φ ∗ (a, b; κ ), que nous appellerons le poids d’échantillonnage, dépend de la distance à parcourir pour atteindre le lieu b à partir du lieu a, alors l’estimateur β̂ peut être biaisé dû à l’impact sur la vraisemblance de φ (a, b; θ )/φ ∗ (a, b; κ ). Cependant, lorsque φ ∗ est connu et que φ est préalablement défini, il est possible d’estimer β et θ en incluant le poids d’échantillonnage φ (a, b; θ )/φ ∗ (a, b; κ ) dans l’équation (2.11), par exemple sous la forme d’un terme d’offset log{φ (a, bid ; θ )/φ ∗ (a, bid ; κ )} : i L(β ) = Πni=1 ΠG d =1 2.4 exp[X (bid )0 β + log{φ (a, bid ; θ )/φ ∗ (a, bid ; κ )}] . ∑lεsid exp[X (l )0 β + log{φ (a, l; θ )/φ ∗ (a, l; κ )}] (2.12) Échantillonnage des lieux témoins Comme Forester et al. (2009) l’ont fait, nous considérons trois modes d’échantillonnage des lieux témoins. 1. L’échantillonnage uniforme sélectionne de façon aléatoire les lieux témoins à l’intérieur d’un cercle D̃a , de rayon r, autour du lieu a. Chaque lieu a la même probabilité de sélection. Par exemple, à partir du lieu a, les lieux témoins pourraient être échantillonnés aléatoirement dans un cercle de rayon v qui inclut 80% des distances parcourues observées chez les animaux. 2. L’échantillonnage empirique se base sur la distribution empirique conjointe des distances parcourues et des angles de pivotement observés chez les animaux : on sélectionne avec remise une paire constituée d’une distance et d’un angle dans l’ensemble des déplacements observés chez les individus. 3. L’échantillonnage paramétrique se base sur une distribution connue φ ∗ (a0 , a, b; κ ), avec support D̃a , qui est régie par le paramètre κ, où D̃a et κ sont définis par l’utilisateur. Le but est de choisir un φ ∗ proche de ce que l’on croit être φ . Par exemple, φ ∗ (a, b; κ ) peut être la loi exponentielle ayant comme paramètre κ −1 égal à deux fois la moyenne des distances des déplacements observés combinée à la loi uniforme sur [0, 2π ] pour les angles. 2.4.1 Utilisation de la régression logistique conditionnelle avec données indépendantes Bien que l’équation (2.12) tienne compte du plan d’échantillonnage des lieux témoins, il est toujours possible d’utiliser la régression logistique conditionnelle avec données indépendantes, pourvu que le poids d’échantillonnage φ /φ ∗ ait une forme simple. Par exemple, si φ et φ ∗ sont des exponentielles de moyennes respectives (1/θ ) et (1/κ ), alors log{φ (a, l; θ )/φ ∗ (a, l; κ )} = (κ −θ )ral + log(θ /κ ). Ainsi, l’équation (2.12) devient i L(β ) = Πni=1 ΠG d =1 (θ /κ ) exp[X (bid )0 β + (κ − θ )ral ] . ∑lεsid (θ /κ ) exp[X (l )0 β + (κ − θ )ral + log(θ /κ )] 25 La distance ral entre le lieu a et le lieu témoin lεs devient une covariable du modèle avec comme coefficient de régression (κ − θ ), et la constante θ /κ n’a aucune influence sur les inférences sur β . Forester et al. (2009) proposent, étant donné la distribution inconnue de φ , de modéliser sous une forme paramétrique et sans hypothèse directe sur φ le rapport φ /φ ∗ en tant qu’une fonction loglinéaire de ral , log{φ (a, ral ; θ )/φ ∗ (a, ral ; κ )} = θ ral . (2.13) Des modèles plus riches pour log{φ (a, ral ; θ )/φ ∗ (a, ral ; κ )} peuvent être construits en incluant comme 2 ou en considérant d’autres fonctions non linéaires pour r . Une autre solution est de covariable ral al faire appel à une fonction spline linéaire sur ral (Harrell (2001)) : log{φ (a, ral ; θ )/φ ∗ (a, ral ; κ )} = θ0 ral + θ1 (ral − τ1 )+ + . . . + θH (ral − τq )+ , (2.14) où u+ = u si u > 0 et 0 sinon, et les q noeuds τ1 , . . . , τq sont spécifiés par l’utilisateur, comme par exemple q quantiles de la distribution empirique des distances parcourues. 2.5 Étude de Forester Forester et al. (2009) ont examiné la performance des modèles donnés aux équations (2.13) et (2.14) ainsi que les conséquences d’omettre le poids d’échantillonnage φ (a, b; θ )/φ ∗ (a, b; κ ) dans l’estimation des paramètres β à partir du modèle de régression logistique conditionnelle avec données indépendantes. Pour ce faire, ils ont simulé le déplacement d’animaux sur différentes cartes d’environnement, X (b), et sous diverses forces de sélection (différentes valeurs de β ). Chaque lieu visité a été apparié à plusieurs lieux témoins dans le cadre d’un échantillonnage cas-témoins apparié selon diverses spécifications de φ ∗ . Par conséquent, ils ont pu comparer les biais dans les inférences sur β . 2.5.1 Génération des environnements Afin d’analyser le comportement de l’animal en fonction des ressources disponibles, quatre environ nements ont été générés et ont été représentés sur une carte cartésienne X (x, y) : x, y = 1, . . . , 1024 , où X (x, y) est une valeur réelle qui représente une caractéristique du lieu ayant les coordonnées (x, y). Les ressources disponibles X (x, y) sur ces cartes ont été simulées selon un champ aléatoire gaussien (Gaussian random field, GRF) de moyenne 0 et de variance 1 basé sur une fonction de covariance exponentielle (Stein (1999)) ayant comme paramètre d’étendue (0.1; 1; 5 et 10) fois la moyenne des distances parcourues (µ = 21) du noyau de déplacement indépendant des ressources. Les quatre environnements montrant les valeurs de X (b) sont présentés à la figure 2.1. On remarque que plus le paramètre d’étendue est élevé, plus les regroupements d’une même ressource sont visibles (l’environnement devient plus homogène). 26 F IGURE 2.1: Les quatre environnements utilisés par Forester et al. (2009) pour leurs simulations. Le paramètre d’étendue de chaque environnement est (0.1, 1, 5 et 10) fois la moyenne des distances parcourues. 2.5.2 Modèle de déplacement Une fois les environnements générés, il faut simuler les déplacements de l’animal à partir de l’un des deux noyaux de déplacement illustrés aux équations (2.15) et (2.16) et selon l’un des quatre degrés, β = {0; 0.5; 1; 2}, de sélection de la ressource X de la RSF (équation (2.2)). Le premier noyau de déplacement est donné par φ1 (a, b) = λ1 exp(−λ1 rab ) , 2πrab (2.15) et le second est donné par ν1 λ2 (λ2 rab )ν1 −1 exp{−(λ2 rab )ν1 } 2πrab ν2 λ3 (λ3 rab )ν2 −1 exp{−(λ3 rab )ν2 } + 0, 29 . 2πrab φ2 (a, b) = 0, 71 (2.16) Les paramètres de φ1 et φ2 ont été déterminés par Forester et al. (2009). Ils les ont choisis de telle sorte que la distance moyenne entre le lieu a et le lieu b soit d’environ 21 unités sur la carte. Plus précisément, ils ont choisi λ1 = 1/21, λ2 = 1/14, λ3 = 1/42, ν1 = 1, 22 et ν2 = 1, 01. 27 Pour simuler un déplacement du lieu a au lieu b, 2000 lieux tirés d’une distribution centrée au lieu a ont été échantillonnés. Les coordonnées cartésiennes de ces lieux sont calculées ainsi : px = ax + r p sin(u p ) et py = ay + r p cos(u p ), où (ax , ay ) sont les coordonnées du lieu a, ( px , py ) sont les coordonnées du lieu simulé p, r p est la distance à parcourir entre les lieux a et p suivant la fonction de densité φ p (r p ) = λl exp(−λl r p ) avec λl = 1/45 et u p est un tir provenant d’une distribution uniforme sur [0, 2π ). Le lieu b est tiré parmi ces 2000 lieux avec probabilité d’échantillonnage P(b) = φ (a, p)ω{X ( p)}/φ p (r p ) . ∑ p0 εP φ (a, p0 )ω{X ( p0 )}/φ p (r0p ) (2.17) Rappelons que ω{X ( p)} est la fonction de sélection des ressources et que, selon l’équation (2.2), ω{X ( p)} = exp{X ( p)β } où β est un scalaire pouvant prendre comme valeur (0, 0.5, 1, 2) et X peut représenter, par exemple, la biomasse disponible à une localisation ou la présence d’un prédateur. Un lieu de départ pour chacun de 100 animaux a été choisi aléatoirement dans un carré au centre de la carte et dont la superficie est 1/9 de celle de la carte. Pour chaque animal, 30 déplacements basés sur le modèle (2.17) sont simulés. Ce procédé a été répété 1000 fois. En somme, la simulation de Forester et al. (2009) est basée sur 1000 réplicats de 3000 déplacements chacun. 2.5.3 Analyse Pour chaque réplicat, un modèle cas-témoins apparié 1 : 20 sous les trois méthodes d’échantillonnage des lieux témoins (uniforme, empirique et paramétrique) est appliqué. Après avoir généré trois ensembles de lieux témoins pour chaque lieu visité par animal, un modèle de régression logistique conditionnelle avec données indépendantes est ajusté à chacun des 1000 échantillons de la simulation. Trois modèles sont utilisés : 1. Modèle nul (sans tenir compte de la distance) : w{X (l )} = exp{βx X (l )} 2. Modèle distance (fonction linéaire de la distance ; réfère au modèle (2.13)) : w{X (l )} = exp{βx X (l ) + βal ral } 3. Modèle spline (fonction non linéaire de la distance ; réfère au modèle (2.14)) : w{X (l )} = exp{βx X (l ) + θ1 (ral − τq1 )+ + θ2 (ral − τq2 )+ + θ3 (ral − τq3 )+ } où q j est le je quartile de la longueur des déplacements observés pour un réplicat donné. 2.5.4 Constats L’étude de Forester et al. (2009) a permis de démontrer que le type d’échantillonnage des lieux témoins et le modèle utilisé peuvent influencer le biais et la variabilité de l’estimateur β̂x . L’échantillonnage uniforme produit des estimateurs biaisés lorsque βx 6= 0. Le biais est réduit sous le modèle "distance". De plus, par rapport aux deux autres méthodes d’échantillonnage, les estimateurs obtenus ont une plus grande variabilité. Toutefois, l’échantillonnage uniforme identifie bien l’absence de sélection des ressources quand βx = 0. 28 L’échantillonnage empirique produit des estimateurs biaisés lorsque la valeur de βx est grande. Ce biais est moindre sous le modèle "spline". Ainsi, lorsque βx = 2 les modèles "nul" et "distance" donnent des estimateurs biaisés, spécialement dans le cas où l’environnement est très hétérogène (paramètre d’étendue petit), car φ ∗ s’éloigne de φ . Lorsque βx ≤ 1, alors les estimateurs sont peu biaisés. L’échantillonnage empirique est optimal lorsque βx = 0, car dans ce cas φ ∗ = φ . L’échantillonnage paramétrique fournit des estimateurs avec un biais plus important que l’échantillonnage empirique lorsque βx est grand. Toutefois, ce biais est largement réduit sous les modèles "distance" et "spline" en autant que, pour ce dernier, φ suive une distribution exponentielle. Ceci est également vrai lorsque βx = 2 et que le paramètre d’étendue est élevé : le modèle "distance" produit des estimés acceptables ainsi que le modèle "spline" lorsque φ est exponentielle. Dans le cas où βx ≤ 1 et que φ suit une distribution exponentielle, alors les modèles "distance" et "spline" perfoment bien étant donné que log{φ /φ ∗ } est exact. Pour tous les modèles, l’échantillonnage paramétrique permet de bien identifier l’absence de sélection des ressources quand βx = 0. En résumé, l’échantillonnage uniforme produit particulièrement des estimateurs biaisés. Cela pourrait s’expliquer, en partie, par le choix arbitraire du rayon du cercle centré au lieu a qui ne pourrait pas être approprié pour contenir l’ensemble des déplacements potentiels. Les échantillonnages empirique et paramétrique évitent à l’utilisateur de définir arbitrairement le territoire des lieux disponibles. De plus, ils performent mieux que l’échantillonnage uniforme. Toutefois, un biais plus élevé est observé lorsque βx est grand. Généralement, ce biais peut être réduit en considérant les modèles "distance" et "spline". À noter que les résultats des simulations de Forester et al. (2009) sont présentés à la figure 2.2. 2.5.5 Extension du modèle Forester et al. (2009) utilisent un modèle de régression logistique conditionnelle avec données indépendantes, tel que vu à la section 2.4 du chapitre 2. Cependant, ce type de modèle ne permet pas de tenir compte de la corrélation intra-individu qui pourrait découler du fait que chaque individu n’a pas accès aux mêmes types d’habitats. Également, les inférences sont marginales sur Y et ne permettent peut-être donc pas de considérer de potentielles interactions entre l’individu et son milieu. Tel que mentionné à la section 2.6.5 du chapitre 2, le chapitre 4 introduit le modèle multinomial mixte qui permettra d’inférer au niveau de l’individu tout en tenant compte de la corrélation intra-individu. 29 F IGURE 2.2: Les résultats des simulations de Forester et al. (2009) pour les 1000 réplicats sont présentés de la façon suivante : l’axe des abscisses représente la valeur du paramètre d’étendue, l’axe des ordonnées situé à droite indique les valeurs de β à estimer, l’axe des ordonnées situé à gauche donne l’écart entre β̂ et β . L’entête de chaque colonne indique le modèle et la méthode d’échantillonnage des lieux témoins utilisés. Les graphiques a) et b) présentent les résultats pour des déplacements simulés respectivement sous le noyau exponentiel et un mélange de lois de Weibull. 30 Chapitre 3 La régression logistique conditionnelle mixte Les modèles à effets fixes produisent des inférences marginales. Par rapport à l’étude de la sélection des habitats, ils font également l’hypothèse que la sélection des ressources est homogène entre les individus et que le niveau de la préférence d’un lieu A à un lieu B n’est pas influencé par les autres lieux disponibles. Si la sélection n’est pas homogène, alors les modèles à effets fixes vont donner des inférences sur le comportement moyen de la population et ne permettra pas de quantifier l’hétérogénéité que les individus montrent dans leur sélection des ressources. Dans ces cas, un modèle marginal peut entraner des conclusions moins intéressantes, peut-être même erronées (Duchesne et al. (2010)). L’ajout d’effets aléatoires permet de bâtir des inférences au niveau de l’individu. Ces modèles ont donc de meilleures chances de tenir compte de l’hétérogénéité inter-individus. Dans ce chapitre, nous considérons le modèle de régression logistique conditionnelle mixte, que nous obtiendrons à l’aide de la théorie microéconomique appelée théorie des "utilités aléatoires" (Cooper et Millspaugh (1999)). Un autre modèle similaire obtenu par échantillonnage rétrospectif du modèle de régression logistique mixte sera discuté au chapitre 5. 3.1 Notation de la régression logistique conditionnelle mixte avec données corrélées 1. i représente le ie animal à l’étude, où i = 1, . . . , n ; 2. U désigne une variable aléatoire communément appelée "utilité" ; 3. t = 1, . . . , Ti représentent les temps d’observation des localisations de l’animal ; 4. j indique le je lieu disponible du domaine des lieux disponibles, où j = 1, . . . , J ; 5. xi jt est le vecteur des variables explicatives du je lieu au temps t du ie individu, où xi jt = (xi jt1 , . . . , xi jt p )0 ; 31 6. β est le vecteur des coefficients de régression, où β = (β1 , . . . , β p )0 ; 7. bi est le vecteur des effets aléatoires au niveau de l’individu i, où bi = (bi1 , . . . , bip )0 ; 8. zi jt comprend des valeurs fixes, généralement un sous-ensemble de xi jt , permettant de spécifier la structure des effets aléatoires, où zi jt = (zi jt1 , . . . , zi jtq )0 ; 9. µ i jt est l’espérance conditionnelle de Yi jt ; 10. εi jt représente l’erreur aléatoire, pour l’utilité du lieu j, pour l’animal i au temps t. 3.2 Écriture du modèle On suppose une valeur de l’utilité U assignée par l’animal à chacun des j lieux disponibles au temps t. Cette valeur représente, en quelques sortes, la force d’attraction d’un lieu pour l’animal. Celui avec la plus grande valeur, parmi les lieux disponibles, de U sera visité par l’individu. Cette valeur assignée par l’animal i au lieu j au temps t est déterminée par la formule suivante : Ui jt = x0i jt β + z0i jt bi + εi jt , (3.1) où bi et εi jt sont des variables aléatoires indépendantes. On suppose une loi de densité f (b, θ ) pour les bi et on considère que les εi jt sont indépendants et identiquement distribués selon la loi des valeurs extrêmes, dont la densité est donnée par fε (x) = exp (−x) exp − e−x , −∞ < x < ∞. Supposons que le lieu j = 1 obtienne la plus grande valeur de U parmi les J lieux disponibles (Ui1t > Ui jt , ∀ j 6= 1). Alors, on pose Yi1t = 1 et Yi jt = 0, ∀ j 6= 1. La probabilité que le lieu j = 1 soit visité sous la condition que les effets aléatoires b sont indépendants et identiquement distribués selon la densité f (b, θ ), où θ est un vecteur de paramètres inconnus, est donnée par P{Ui1t > max(Ui2t , . . . ,UiJt )} = P(Ui1t > Ui2t ,Ui1t > Ui3t , . . . ,Ui1t > UiJt ). 32 En conditionnant sur Ui1t et b, on a que Z ∞ Z ∞ P(Ui2t < x, . . . ,UiJt < x)e−(x−µ i1t ) e− exp{−(x−µ i1t )} f (b, θ )dxdb −∞ −∞ ( ) Z ∞ Z ∞ J = ... ∏ e− exp [−(x−µ i jt )] e−(x−µ i1t ) e− exp[−(x−µ i1t )] f (b, θ )dxdb = = ... −∞ −∞ Z ∞ Z ∞ ... −∞ −∞ j =2 −(x−µ i1t ) e (Z −∑Jj=1 exp [−(x−µ i jt )] f (b, θ )dxdb e ) ∑Jj=1 e−µ i jt −(x−µ ) −∑Jj=1 exp [−(x−µi jt )] i1t e = ... dx f (b, θ )db −µ e J −∞ −∞ −∞ ∑ j =1 e i jt ( ) Z ∞ Z ∞ Z ∞ J J e−µ i1t exp [ − ( x−µ )] − i jt = ... dx f (b, θ )db ∑ e−(x−µ i jt ) e ∑ j=1 −µ J −∞ −∞ ∑ j =1 e i jt −∞ j =1 Z ∞ = = Z ∞ ∞ exp{µ i1t } f (b, θ )db J −∞ −∞ ∑ j =1 exp{µ i jt } Z ∞ Z ∞ exp{x0i1t β + z0i1t b} f (b, θ )db. ... J 0 0 −∞ −∞ ∑ j =1 exp{xi jt β + zi jt b} Z ∞ Z ∞ ... (3.2) L’équation (3.2) donne la probabilité que le lieu j = 1 soit visité. En comparaison avec cette même probabilité utilisée par Forester et al. (2009) au chapitre 3, soit l’équation (2.8), les deux équations affichent une structure similaire. Cependant, ici , on ne fait pas intervenir le poids d’échantillonnage des lieux témoins dans nos inférences, mais plutôt des effets aléatoires qui expliquent la corrélation intra-individu en ce qui a trait à la force d’attraction des lieux. Dans le cas où tous les b = 0 avec probabilité 1, l’équation (3.2) est réduite à P{Ui1t > max(Ui2t , . . . ,UiJt )} = exp(x0i1t β ) , ∑Jj=1 exp(x0i jt β ) (3.3) soit l’équation de la régression logistique conditionnelle avec données indépendantes (1.18). 3.3 Hétérogénéité des individus et l’influence de l’environnement sur la sélection des lieux Comme mentionné plus tôt dans ce chapitre, les modèles à effets fixes se basent sur l’hypothèse de sélection homogène des ressources entre les individus. Les modèles à effets aléatoires ne sont, quant à eux, pas contraints par cette hypothèse. En effet, ajouter un effet aléatoire au niveau de l’individu nous permet de considérer une corrélation intra-individu ainsi que de permettre à chaque individu de répondre différemment à une variation dans les variables explicatives, comme c’est le cas lorsque l’ensemble des lieux disponibles diffère d’un individu à l’autre. 33 3.4 Estimations des paramètres et inférences Selon l’écriture du modèle exprimée aux équations (3.1) et (3.2) et en considérant que j = 1 donne la valeur de U la plus élevée ∀i,t, les valeurs des paramètres β et θ sont estimées en maximisant la fonction de vraisemblance K L (β , θ ) = ∏ i=1 −∞ exp{x0i1t β + z0i1t b} f (b, θ )db. ∏ J 0 0 −∞ t =1 ∑ j =1 exp{xi jt β + zi jt b} Z ∞ Ti Z ∞ ... (3.4) L’équation (3.4) est une fonction de vraisemblance valide (Duchesne et al. (2010)). Par conséquent, les inférences traditionnelles sur β telles que l’intervalle de confiance de type Wald basé sur l’inverse de la matrice d’information de Fisher observée ou le test du rapport des vraisemblances peuvent être appliquées. Cependant, la fonction de vraisemblance peut être difficile à évaluer, car les intégrales ne peuvent s’évaluer de façon analytique. Bhat (2001) propose une méthode d’intégration numérique basée sur les nombres quasi-aléatoires de Halton (Halton (1960)). Pour vérifier la pertinence de complexifier le modèle avec des effets aléatoires, on peut comparer le modèle avec effets aléatoires à celui avec effets fixes par le test du rapport des vraisemblances. Soit r = 2(l1 − l0 ), où l1 représente la log-vraisemblance maximisée du modèle avec effets aléatoires et l0 la log-vraisemblance maximisée du modèle avec effets fixes. Le modèle à effets fixes est un cas particulier du modèle à effets aléatoires où les paramètres de variances et covariances de f (b, θ ) sont égaux à 0. Étant donné que la valeur 0 se situe sur la frontière de l’espace paramétrique pour les variances, le seuil observé associé à la statistique du rapport des vraisemablances, r, ne peut se calculer à l’aide d’une distribution du khi-deux usuelle, mais plutôt à partir d’un mélange de lois du khi-deux dépendant des structures de covariances des modèles sous H0 et H1 (Verbeke et Molenberghs (2000)). Un exemple de ce type de calcul est donné à la section 4.5. 3.5 Exemple de Duchesne et al. (2010) L’expérience a été menée lors des printemps de 2005 à 2008 (9 mars au 31 mai 2005, 1er mars au 31 mai 2006 et 2007, 1er mars au 10 mars 2008) sur 24 femelles choisies parmi 385 bisons présents dans le parc national de Prince Albert. Ces femelles ont été suivies grâce à des colliers GPS. Les lieux visités à 6h00 et à 18h00 de chaque jour ont été notés. Chaque lieu visité est apparié à 10 lieux témoins échantillonnés uniformément dans un cercle centré autour du lieu visité et de rayon couvrant plus de 90% de l’ensemble des distances parcourues entre deux lieux visités. L’environnement des bisons est composé à 85% de forêts, à 10% de prairies et à 5% de plans d’eau et se situe à la bordure de terres agricoles où certains individus s’aventurent. Duchesne et al. (2010) ont partitionné cet environnement en 6 types : 1. Prairie : inclut les domaines près des lacs et des rivières dominés par des graminées, plantes herbacées et les carex ; 34 2. Riverain : est composé en grande partie d’arbustes et est situé près des ruisseaux et des rivières ; 3. Forêt : composée de feuillus, conifères et de peuplements mixtes ; 4. Eau : constitué que de plans d’eau ; 5. Route : comprend les zones situées à moins de 15 mètres d’un sentier ou d’une route ; 6. Terres agricoles : se sont les terres agricoles. Des modèles de régression logistique conditionnelle à effets fixes et à effets aléatoires ont été ajustés dans le but de comparer les estimés des coefficients de sélection. Le type d’environnement a donc été codé à l’aide de 5 variables indicatrices, avec la "forêt" comme modalité de référence. Les modèles comptent un nombre de déplacements déterminé par la formule suivante : 2 mesures × le nombre de jours pour les printemps de 2005 à 2008. Le vecteur de la variable dépendante pour un temps d’ob+1 servation d’un animal est assujeti à la condition suivante : ∑10 j =1 Yi jt = 1∀i, où i représente l’animal, j correspond aux lieux et t est le temps d’observation. Quant au modèle à effets aléatoires, Duchesne et al. (2010) ont supposé que la préférence des "terres agricoles" varie d’un individu à l’autre, car ce type n’est disponible qu’en bordure de l’environnement et n’est donc pas toujours accessible à tous les animaux à un pas de temps donné. Ainsi, un effet aléatoire a été ajouté au modèle pour le type "terres agricoles". Cet effet est supposé suivre une loi normale de moyenne 0 et de variance σ 2 . Voici les fonctions de sélection des ressources obtenues par Duchesne et al. (2010) avec le modèle à effets fixes (tableau 3.1) et le modèle à effets aléatoires (tableau 3.2). Les intervalles de confiance à 95% de type Wald se calculent par βb ± 1.96×l’écart-type de βb . w w TABLE 3.1: La fonction de sélection des ressources obtenue avec un modèle à effets fixes par Duchesne et al. (2010). Les intervalles sont à 95%. Paramètres Prairie Eau Riverain Route Terres agricoles Estimés 2.024 0.399 -0.315 0.942 0.348 Erreur standard 0.046 0.094 0.163 0.143 0.118 Intervalle de confiance 1.934 ;2.114 0.215 ;0.583 -0.635 ;0.005 0.663 ;1.222 0.117 ;0.579 TABLE 3.2: La fonction de sélection des ressources obtenue avec un modèle à effets aléatoires pour le type "terres agricoles" par Duchesne et al. (2010). Les intervalles sont à 95%. Paramètres Prairie Eau Riverain Route Terres agricoles (aléatoire) Estimés 2.024 0.401 -0.301 0.953 -0.275 Erreur standard 0.046 0.094 0.163 0.143 0.377 Intervalle de confiance 1.934 ;2.114 0.217 ;0.585 -0.620 ;0.018 0.673 ;1.233 -1.014 ;0.464 Les résultats des RSF pour les deux modèles indiquent que les femelles bisons préfèrent les types "prairies", "eau" et "routes" par rapport au type "forêt". Toutefois, la RSF du modèle à effets fixes 35 affiche une préférence généralisée pour les terres agricoles par rapport à la forêt, alors que celle du modèle à effets aléatoires n’indique pas de préférence entre ces deux types. D’après le test du rapport des vraisemblances, la RSF du modèle à effets aléatoires est mieux adaptée à la situation que celle du modèle à effets fixes : r = 2 × {−5930.033 − (−5947.846)} = 35.626, donc le seuil observé, obtenu par l’équation 0.5P[ χ12 > 35.626] + 0.5P[ χ02 > 35.626], est inférieur à 0.0001 (Duchesne et al. (2010)). Elle révèle donc une importante hétérogénéité dans la sélection du type "terres agricoles" par les différents individus. 3.6 Discussion Dans l’exemple considéré par Duchesne et al. (2010), le test du rapport des vraisemblances indique que le modèle à effets aléatoires semble requis pour bien modéliser l’hétérogénéité dans les préférences des individus. Ceci peut être dû au fait que les préférences varient de façon importante d’un individu à l’autre. Mais une partie de cette variabilité inter-individus est peut-être explicable par le fait que la disponibilité des différents types d’habitats varie entre les individus. Au chapitre suivant, nous considérons cette question en reprenant l’étude de Forester et al. (2009), en simulant des déplacements à partir du même modèle, mais en ajoutant des effets aléatoires aux modèles ajustés aux données. 36 Chapitre 4 Modèle mixte appliqué aux simulations de Forester et al. (2009) Au chapitre 3, Forester et al. (2009) ont signalé l’importance de considérer la méthode d’échantillonnage des lieux témoins dans la vraisemblance d’un modèle de régression logistique conditionnelle avec données indépendantes, telle qu’exprimée à l’équation (2.12), car cet échantillonnage peut introduire un biais dans les inférences sur β . Cependant, leur vraisemblance n’intègre pas une possible variabilité inter-individus dans la sélection des lieux causée par le fait que chaque animal a un lieu de départ distinct, et donc une disponibilité des ressources différente. On peut présumer, du moins dans le cas d’un environnement homogène où des regroupements de ressources de même type sont observés, qu’il est prudent de tenir compte de l’hétérogénéité dans la sélection des ressources en ajoutant des effets aléatoires dans le modèle de régression. En effet, l’ensemble des ressources qui composent l’environnement risquent de ne pas être accessibles, dans un pas de temps donné, pour chaque animal. Dans le cas d’un environnement hétérogène, une grande diversité des ressources est disponible à proximité du lieu visité par un animal. Ainsi, on peut penser, pour ce type d’environnement, que la variabilité inter-individus dans la sélection des ressources sera plus faible et, par conséquent, que le modèle à effets fixes s’adaptera bien aux données. Afin de tenir compte de la variabilité inter-individus dans la sélection des lieux visités, les simulations de Forester et al. (2009) ont été refaites, mais les données ont été analysées avec des modèles qui permettent à la force de sélection des ressources de varier d’un animal à l’autre. Cet exercice a pour but de comparer les résultats obtenus et ainsi de déterminer quel type de modèle s’applique mieux aux données par rapport au biais, à la variabilité et à l’erreur quadratique moyenne. À noter que les résultats complets sont présentés sous forme de tableaux à l’annexe A. Ce chapitre détaille la méthode utilisée pour ajuster un modèle mixte aux données. On y présente aussi les principaux constats des comparaisons entre les modèles fixes et mixtes. 37 4.1 Modèle à effets aléatoires La fonction de vraisemblance de l’équation (3.4) est numériquement difficile à évaluer. De plus, elle ne correspond pas exactement au cas où l’on échantillonne de manière rétrospective dans une population générée par un modèle logistique mixte. Craiu et al. (2011) ont calculé la vraisemblance appropriée à cette situation et ont proposé une procédure d’estimation des coefficients d’un modèle de régression logistique mixte en deux étapes. Ils ont implanté leur méthode dans la procédure "TS.estim" de la librairie "TwoStepCLogit" du logiciel R. Cette procédure approxime de façon stable et efficace les estimateurs du maximum de vraisemblance ainsi que leur matrice de variances-covariances dans le cadre d’un modèle de régression logistique conditionnelle mixte. Dans ce type de modèle, le dénominateur de chaque strate qui contribue à la vraisemblance conditionnelle nous oblige à évaluer une intégrale complexe ayant plusieurs dimensions amenant souvent des problèmes de convergence. Même si dans les simulations de Forester et al. (2009) la somme des Y est égale à 1 pour chaque strate, la méthode de Craiu et al. (2011) est très flexible et peut s’appliquer à des données dont la somme des Y est plus grande que 1 par strate comme l’illustre l’exemple suivant. Supposons que le nombre de Y = 1 dans chaque strate est 2 et le nombre de Y = 0 est 3, soit une étude cas-témoins 2 : 3. Pour obtenir 2 cas à chaque temps t où t = 1, . . . , 4, deux individus sont suivis simultanément. Sous un lien logit, la probabilité conditionnelle que le lieu j soit visité (yt j = 1) ou non (yt j = 0) par l’un des 2 individus au temps t avec un effet aléatoire au niveau de l’individu, noté b, est P[Yt j = yt j |xt j , b] = exp {yt j (β 0 xt j + b0 zt j )} 1 + exp {yt j (β 0 xt j + b0 zt j )} , (4.1) où zt j est le vecteur des variables indépendantes ayant un effet aléatoire. La vraisemblance est alors donnée par Z Z ... 4 5 ∏ ∏ P[Yt j = yt j ; xt j , b] f (b, θ )db. (4.2) t =1 j =1 Les équations (4.1) et (4.2) ne tiennent pas compte du mode d’échantillonnage. En considérant l’aspect "rétrospectif" de la régression logistique conditionnelle et en conditionnant sur ∑5j=1 Yt j = 2, ∀t, la contribution de l’individu à la vraisemblance devient 5 l (β , θ |xt , yt ) = P Y t = yt X t = xt , ∑ Yt j = 2 j =1 P[Y t = yt |X t = xt ] = P[∑5j=1 Yt j = 2; X t = xt ] R = R . . . ∏t4=1 ∏5j=1 P[Yt j = yt j |X t = xt , b] f (b, θ )db R . . . ∏t4=1 P[∑5j=1 Yt j = 2; X t = xt , b] f (b, θ )db R . (4.3) Le dénominateur de l’équation (4.3) a comme argument une somme de (52) = 10 termes correspondant aux vecteurs de longeur 5 avec 2 cas et 3 témoins qui est multiplié par le nombre de temps t = 4. La procédure utilisée par Craiu et al. (2011) comporte 2 étapes. La première étape estime les 38 paramètres β séparément pour chaque paire d’individus par maximum de vraisemblance dans le cas de la régression logistique conditionnelle avec données indépendantes. La seconde étape utilise un algorithme d’espérance-maximisation (EM) de Dempster et al. (1977) pour estimer les paramètres au niveau de la population. Par ailleurs, afin de complètement spécifier un modèle mixte, il faut habituellement choisir la structure de la matrice de covariances inter-individus des effets aléatoires. Dans nos simulations, comme dim(bi ) = 1, nous avons tout simplement pris Var(bi )= σ 2 . 4.2 Constats Les simulations de l’étude de Forester et al. (2009) ont été répliquées pour toutes les combinaisons entre le noyau de déplacement de formes "exponentielle" et "mélange de lois de Weibull", les quatre forces de sélection des ressources et les quatre valeurs du paramètre d’étendue. Ainsi, 32 combinaisons de ces paramètres ont été considérées. Toutes ont été simulées trois fois afin d’apparier les lieux visités à un ensemble de lieux témoins selon l’une des trois méthodes d’échantillonnage suivantes : "uniforme", "empirique", "paramétrique". Les modèles de régression logistique conditionnelle "nul" et "distance" ont été ajustés à chaque échantillon simulé avec et sans effet aléatoire devant la variable X qui représente l’environnement. Un coup ces paramètres fixés, les données ont été simulées exactement de la même façon qu’à la section 2.5. Les constats de cette section se concentrent sur la performance des modèles à effets mixtes par rapport aux modèles à effets fixes en fonction des divers environnements de Forester et al. (2009) illustrés à la figure 2.1. 4.2.1 Environnement extrêmement hétérogène Un environnement considéré comme étant extrêmement hétérogène est associé au paramètre d’étendue égal à 0.1× la longueur moyenne des déplacements observés par Forester et al. (2009) (µ = 21 unités). Ce type d’environnement est illustré dans le coin supérieur gauche de la figure 2.1. Noyau de déplacement exponentiel Selon l’erreur quadratique moyenne, l’absence de sélection des ressources (βx = 0) est mieux prédite par les modèles mixtes que par les modèles fixes. En effet, le biais et la variabilité dans les valeurs de βˆx sont légèrement réduits. Toutefois, en présence d’une force de sélection non nulle (βx > 0), les modèles mixtes perdent de leur efficacité. Sous le modèle "distance", l’erreur quadratique moyenne indique que les modèles fixes ont un biais plus faible que celui des modèles mixtes. Également, pour le type de modèle "nul", l’échantillonnage "empirique" de même que l’échantillonnage "paramétrique" sous une force de sélection élevée (βx = 2), les modèles mixtes sont moins précis. Une exception est toutefois observée pour l’échantillonnage "uniforme" sous le modèle "nul". 39 Noyau de déplacement mélange de lois Weibull Les valeurs de βˆx obtenues sont moins variables dans un modèle mixte que dans un modèle fixe, excepté pour les échantillonnages "uniforme" et "empirique" sous le modèle "distance" pour une grande force de sélection (βx = 2). Toutefois, l’erreur quadratique moyenne permet de conclure que les modèles mixtes sont moins performants pour le type de modèle "distance" et avec l’échantillonnage "empirique" sous le modèle "nul" en comparaison avec les modèles fixes. Ils sont cependant plus précis sous le modèle "nul" avec les échantillonnages "uniforme" et "paramétrique". 4.2.2 Environnement hétérogène Un environnement dit "hétérogène" est construit à partir du paramètre d’étendue = 1 × µ. Ce type d’environnement est présenté dans le coin supérieur droit de la figure 2.1. Noyau de déplacement exponentiel Les modèles mixtes se comportent différemment en fonction du type de modèle ("nul" ou "distance"). Pour le type de modèle "distance", ils sont pratiquement aussi efficaces que les modèles fixes. En effet, le biais et l’erreur quadratique moyenne de leurs estimés βˆx sont faiblement supérieurs à ceux du modèle fixe. Toutefois, leur variabilité est légèrement moindre. Ce n’est cependant pas ce qui est observable dans le cas du modèle "nul" : les modèles mixtes produisent des estimateurs moins biaisés et moins variables, exceptés pour l’échantillonnage "empirique" de même que pour l’échantillonnage "paramétrique" sous une force de sélection βx = 2. Ainsi, les modèles mixtes sont généralement mieux adaptés aux données sous le modèle "nul", mais leur précision est inférieure sous le modèle "distance" par rapport aux modèles fixes. Noyau de déplacement mélange de lois Weibull L’absence de sélection des ressources est mieux prédite par les modèles mixtes dans le cas du modèle "nul" et par les modèles fixes sous le modèle "distance". En règle générale, en présence d’une force de sélection (βx > 0), les modèles mixtes produisent des estimateurs βˆx davantage biaisés et variables que les modèles fixes. Toutefois, on a que les modèles mixtes sont plus performants pour l’échantillonnage "paramétrique" sous βx = 0.5 et 1 ainsi que pour l’échantillonnage "uniforme" sous le modèle "nul" sous une forte force de sélection (βx = 1 et 2). 4.2.3 Environnement homogène Dans le cas où le paramètre d’étendue est égal à 5µ, l’environnement s’homogénéise. Un exemple est montré dans le coin inférieur gauche de la figure 2.1. 40 Noyau de déplacement exponentiel Les modèles mixtes ne se distinguent pas des modèles fixes pour le type de modèle "distance", et ce, peu importe la force de sélection. Cependant, la situation est différente sous le modèle "nul". En effet, le biais a tendance à être réduit sous une force de sélection faible (0 et 0.5) et à être augmenté sous une force de sélection élevée (βx = 1 et 2) par un modèle mixte par rapport à un modèle fixe. Toutefois, la variabilité dans les βˆx est peu affectée. Ainsi, l’erreur quadratique moyenne privilégie les modèles mixtes aux modèles fixes pour une force de sélection faible et l’inverse pour une forte force de sélection. Noyau de déplacement mélange de lois Weibull Les comparaisons entre les modèles mixtes et les modèles fixes mènent à des constats variant selon la force de sélection dans un environnement homogène. En effet, l’erreur quadratique moyenne est plus petite chez les modèles mixtes pour le type de modèle "nul" et plus grande sous le modèle "distance" lorsqu’il y a absence de sélection des ressources ; elle diminue sous les deux modèles ("nul" et "distance") lorsque βx = 0.5 ; elle devient plus élevée sous le modèle "nul" et plus faible sous le modèle "distance" lorsque la force de sélection est βx = 1 et 2. Ce comportement est semblable en ce qui a trait au biais. 4.2.4 Environnement très homogène Dans l’environnement que nous considérons très homogène, le paramètre d’étendue est égal à 10µ. En règle générale, une plus grande distance à parcourir sépare deux lieux n’ayant pas la même ressource. L’image du coin inférieur droit de la figure 2.1 présente ce type d’environnement. Noyau de déplacement exponentiel Pour le type de modèle "distance", les modèles mixtes sont moins appropriés que les modèles fixes : le biais, la variabilité et l’erreur quadratique moyenne dans les estimeurs βˆx sont plus élevés chez les modèles mixtes. Sous le modèle "nul", sous une force de sélection faible (βx = 0 et 0.5) les modèles mixtes affichent des biais inférieurs à ceux des modèles fixes ; le contraire se produit sous une force de sélection élevée (βx = 1 et 2). Toutefois, pour une force de sélection βx = 2, l’échantillonnage "uniforme" sous un modèle "nul" est moins biaisé et plus précis selon l’erreur quadratique moyenne dans le cas du modèle mixte. Noyau de déplacement mélange de lois Weibull De manière générale, les valeurs de βˆx obtenues par les modèles mixtes sont moins biaisés que celles des modèles fixes, outre pour l’échantillonnage "empirique". Cependant, la variabilité est augmentée, sauf dans le cas de l’échantillonnage "empirique", pour le type de modèle "nul". 41 4.3 Discussion D’après les constats ci-dessus, certaines tendances sont observables. En premier lieu, de manière générale, les modèles mixtes précisent mieux l’absence de sélection des ressources que les modèles fixes. En second lieu, on remarque des tendances qui varient en fonction du type d’environnement, du type de modèle ("nul" et "distance") et de la force de sélection. Dans les environnements dits "hétérogène" et "très hétérogène", une grande diversité de ressources est généralement accessible pour un pas de temps donné. La variabilité inter-individus dans la sélection des ressources risque donc d’être faible. Tel que supposé, nos résultats nous permettent d’affirmer que les modèles à effets fixes sont mieux adaptés à ces environnements que les modèles à effets mixtes. Dans les environnements dits "homogène" et "très homogène", la disponibilité des ressources peut différer d’un animal à l’autre. De ce fait, la variabilité inter-individus dans la sélection des ressources risque d’être un facteur à surveiller. Toutefois, les résultats obtenus proposent des conclusions qui diffèrent selon le type de modèle ("nul" et "distance") et la force de sélection. 1. Les modèles à effets fixes s’adaptent généralement mieux lorsque la covariable "distance" est considérée. En tenant compte de la distance entre deux lieux, on atténue l’effet de la disponibilité des ressources qui peut différer d’un animal à l’autre. Cela permet donc de réduire la variabilité inter-individus dans l’estimateur de la sélection des ressources. 2. Dans le cas du modèle "nul", les modèles à effets mixtes performent mieux que les modèles à effets fixes lorsque la sélection des ressources est faible (βx = 0 et 0.5), comme on aurait pu s’y attendre. Par contre, on observe le contraire lorsque la sélection des ressources est élevée (βx = 1 et 2). On peut spéculer que ceci est dû au fait que les ressources ayant les plus fortes valeurs associées à une force de sélection élevée vont attirer l’animal peu importe le type d’environnement. 42 Chapitre 5 Application d’un modèle mixte au jeu de données sur les bisons L’étude de Craiu et al. (2008) sur les bisons du Parc national de Prince Albert, en Saskatchewan au Canada, a utilisé un modèle à effets fixes et les inférences ont été obtenues par la méthode GEE. Cette analyse ne permet toutefois pas de quantifier l’hétérogénéité inter-individus dans la sélection des ressources. Tel qu’exposé dans l’étude de Duchesne et al. (2010) et les comparaisons effectuées au chapitre 5, une variabilité inter-individus dans la sélection des lieux visités peut faire varier les conclusions. Il serait donc intéressant de vérifier l’effet de cette variabilité. Le jeu de données de Craiu et al. (2008) a donc été analysé à nouveau avec un modèle mixte. Ainsi, tel qu’au chapitre 5, nous serons en mesure de comparer les résultats obtenus avec le modèle mixte à ceux du modèle fixe et de constater si l’ajout d’un effet aléatoire dans le modèle de régression modifie les résultats. 5.1 Étude sur les bisons de Craiu et al. (2008) L’étude de Craiu et al. (2008) a déjà été présentée à la section 2.6.4 du chapitre 2. Cette section est donc un rappel des principaux éléments de leur étude. Leur objectif était d’analyser la dispersion des individus par rapport aux caractéristiques de l’environnement du Parc national de Prince Albert (53°44’Nord, 106°40’Ouest). Ce parc est composé à 85% de forêts, à 10% de prairies et à 5% de plans d’eau. Des terres agricoles entourent ce parc et peuvent être accessibles aux bisons. Selon une image Landstat TM satellite, l’environnement étudié a été divisé en 7 catégories : les terres agricoles, les prairies, les regroupements de conifères, les regroupements d’arbres à feuilles caduques, les plans d’eau, la zone riveraine et les routes. La cueillette des données s’est déroulée pendant 13 semaines, du 2 septembre 2005 au 2 décembre 2005. En tout, neuf bisons ont été suivis grâce à un collier GPS. À chaque semaine, pendant deux jours consécutifs, les lieux visités à chaque heure ont été prélevés suivi d’un repos de 5 jours avant la prochaine prise de mesures de 48 heures. 43 Chaque lieu visité a été apparié à 10 lieux témoins. Ceux-ci ont été échantillonnés aléatoirement à l’intérieur d’un cercle de 300 mètres de rayon et centré en chaque lieu visité. Ce rayon de 300 mètres capture 85% des distances de déplacement observées dans un intervalle de 1 heure. À cause du mauvais fonctionnement d’un des neuf colliers GPS, 3 périodes de 48 heures n’ont pu être observées. Un modèle de régression logistique pour une étude cas-témoins appariée 1 : 10 a été utilisé. Le vecteur des variables indépendantes est constitué des 7 catégories d’environnement : 6 d’entres elles ont été codifiées sous une forme d’indicatrices binaires et la catégorie des regroupements d’arbres à feuilles caduques constitue la catégorie de référence ; la proportion de prairies dans un cercle de 300 mètres ("P300") et l’interaction entre la proportion de prairies et la catégorie d’environnement "prairie" ont également été incluses dans le modèle ("Prairie_int"). L’application d’un modèle mixte par la procédure "Ts.estim" de la librairie "TwoStepCLogit" du logiciel R au jeu de données de Craiu et al. (2008) n’est pas possible avec la totalité des variables explicatives. En effet, un problème de matrices singulières survient. Pour pallier à ce problème, après quelques essais, un regroupement, que l’on nommera "Environnement", des catégories d’environnement "regroupements de conifères", "zone riveraine", "plans d’eau", "terres agricoles" et "routes" est nécessaire. Étant donné que sous un modèle fixe la force de sélection de l’environnement "prairie" diminue lorsque la proportion de prairies augmente, il est intéressant de vérifier si cette diminution n’est pas justifiée par une variabilité inter-individus non considérée. On a donc ajouté un effet aléatoire à la catégorie d’environnement "prairie". Ainsi, le vecteur des variables indépendantes à l’étude est maintenant composé des catégories d’environnement : la proportion de prairies dans un cercle de 300 mètres ("P300"), les prairies, l’interaction entre "P300" et les prairies et, pour finir, l’"Environnement". 5.1.1 Résultats Les résultats obtenus sont présentés au tableau 5.1. La première colonne identifie les variables indépendantes ; la deuxième colonne contient les données pour le modèle à effets fixes avec la méthode GEE, soit la valeur des coefficients de régression, l’écart-type robuste et l’intervalle de confiance à 95% ; la troisième colonne renferme les mêmes informations que la deuxième colonne, mais pour le modèle à effets mixtes. TABLE 5.1: Résultats de l’analyse des données sur les bisons de Craiu et al. (2008), avec une distribution supposée normale pour le coefficient de régression de la variable "prairie" P300 Prairie Prairie_int Environnement Modèle à effets fixes Estimé SE 95% IC 0.736 0.323 0.104 ;1.369 1.488 0.118 1.257 ; 1.719 -1.016 0.419 -1.837 ; -0.195 -0.258 0.088 -0.430 ; -0.086 Modèle à effets mixtes Estimé SE 95% IC 1.080 0.285 0.521 ; 1.639 1.748 0.354 1.054 ; 2.442 -2.061 0.130 -2.315 ; -1.807 -0.192 0.054 -0.298 ; -0.086 À noter que la variance inter-individus de l’effet aléatoire (σ 2 =Var(bi )) est estimée à 0.9481. 44 5.1.2 Constats Le modèle mixte semble indiquer qu’il existe une importante hétérogénéité dans la sélection de l’environnement "prairie" à l’intérieur de la population des bisons, avec une valeur proche de 1 pour l’estimé du paramètre σ 2 . Le fait de tenir compte de cette variabilité inter-individus a augmenté l’estimé de la force d’attration de l’environnement "prairie", mais également sa variabilité. De plus, cette hétérogénéité a eu un effet direct sur l’interaction "Prairie_int". Celle-ci est devenue plus importante. La force d’attraction de l’environnement "prairie" a largement diminué sous le modèle mixte par rapport au modèle fixe lorsque la proportion de prairies est dense à l’intérieur d’un cercle de 300 mètres. 45 Chapitre 6 Conclusion Dans ce mémoire, nous avons expliqué le raisonnement qui nous a mené à comparer les estimateurs des coefficients de régression de modèles à effets fixes à ceux de modèles à effets mixtes dans le cadre d’études du déplacement animal. Ainsi, nous avons exposé les forces et les faiblesses de divers modèles de régression logistique pouvant être utilisés afin de décrire la sélection des ressources par des individus. Les modèles de régression logistique considèrent la variable réponse comme étant binaire. Cela permet de les appliquer aux données d’études cas-témoins appariées où le cas est dénoté par la valeur 1 et les témoins par la valeur 0. Cependant, certains modèles, tel que le modèle standard et celui avec données corrélées, ont un aspect dit "prospectif" ne permettant pas de tenir compte de la valeur de la variable réponse qui est a priori connue dans les études cas-témoins. Dans le contexte d’une étude de la sélection des ressources où un même individu est observé à plusieurs reprises, certains modèles ne peuvent traiter avec des données corrélées, comme le modèle standard et le modèle conditionnel. De plus, les modèles du chapitre 2 ne fournissent que des inférences marginales. De surcroît, ils ne modélisent pas explicitement l’hétérogénéité dans le comportement inter-individus. Par conséquent, d’importantes interactions entre l’individu et son milieu peuvent être négligées (Boyce et al. (2003)). Ceci nous a mené à postuler que ces modèles risquent de ne pas bien s’adapter aux données et que le modèle mixte peut devenir une alternative intéressante. L’étude de Forester et al. (2009), détaillée au chapitre 3, conclut que le biais dans les estimateurs de βb dépend de la méthode d’échantillonnage des lieux témoins, de la force de sélection des ressources et du modèle utilisé. Ils ont constaté que le mode d’échantillonnage "uniforme" identifie bien l’absence de sélection. Toutefois, en présence d’une force de sélection non nulle, il produit des estimateurs biaisés. Par rapport aux échantillonnages "empirique" et "paramétrique", le mode d’échantillonnage "uniforme" est le moins performant. Quant au mode d’échantillonnage "empirique", il produit des estimateurs biaisés lorsque la force de sélection est élevée. Toutefois, ce biais est moindre que celui obtenu avec l’échantillonnage "paramétrique". Par ailleurs, pour l’ensemble des méthodes d’échantillonnage, le biais est généralement réduit sous les modèles "distance" et "spline". 47 L’étude de Duchesne et al. (2010), illustrée au chapitre 4, a montré l’importance d’un modèle mixte quant à la modélisation de l’hétérogénéité dans la sélection inter-individus des ressources. Ils ont constaté que l’ajout d’un effet aléatoire à la variable "terres agricoles" modifie l’interprétation de celleci. En effet, le modèle fixe indique une préférence pour cet environnement par rapport à la "forêt" alors que le modèle mixte détecte une forte hétérogénéité dans la façon dont les individus sélectionnent cet habitat, allant de l’évitement à une forte sélection. Au chapitre 5, l’application de modèles mixtes aux données de Forester et al. (2009) a permis de constater que ceux-ci sont moins performants que les modèles fixes lorsque l’environnement est "hétérogène" ou "très hétérogène". Également, ils s’adaptent généralement moins bien aux données sous le modèle "distance" et lorsque la force de sélection est élevée que les modèles fixes. Toutefois, dans un environnement "homogène" ou "très homogène", les modèles mixtes performent mieux que les modèles fixes lorsque la force de sélection est faible. Au chapitre 6, un modèle mixte a été ajusté aux données de Craiu et al. (2008) et a révélé une importante hétérogénéité inter-individus dans la sélection de l’environnement "prairie". Le fait de considérer cette variabilité inter-individus a eu pour effet d’augmenter notre estimation de la force d’attraction de l’environnement "prairie" et de diminuer l’estimé de cette force en présence d’une forte proportion de prairies à l’intérieur d’un rayon de 300 mètres. Les modèles à effets mixtes ne garantissent pas une meilleure précision dans les inférences que les modèles à effets fixes. Ils permettent néanmoins que ces inférences ne soient pas uniquement marginales. Bien que ce type de modèles de régression soit "jeune" par rapport à celui des modèles purement à effets fixes, ils offrent divers avantages qui leur permettent d’être des outils importants pour la recherche en écologie (Duchesne et al. (2010)). D’autres analyses pourraient être intéressantes à explorer, telles que le déplacement des individus dans un territoire déjà occupé par une autre espèce ou le déplacement des individus selon les saisons. 48 Bibliographie B HAT, C. R. (2001). Quasi-random maximum simulated likelihood estimation of the mixed multinomial logit model. Transportation Research Part B : Methodological, 35:677–693. B OYCE, M. S., M AO, J. S., M ERRILL, E. H., F ORTIN, D., T URNER, M. G., F RYXELL, J. et T UR CHIN , P. (2003). Scale and heterogeneity in habitat selection by elk in Yellowstone national park. Ecoscience, 10:421–431. C OOPER, A. B. et M ILLSPAUGH, J. J. (1999). The application of discrete choice models to wildlife resouce selection studies. Ecology, 80:566–575. C RAIU, R. V., D UCHESNE, T. et F ORTIN, D. (2008). Inference methods for conditional logistic regression model with longitudinal data. Biometrical Journal, 50:97–109. C RAIU, R. V., D UCHESNE, T., F ORTIN, D. et BAILLARGEON, S. (2011). Conditional logistic regression with longitudinal follow-up and individual-level random coefficients : A stable and efficient two-step estimation method. Journal of Computational and Graphical Statistics, 20:767–784. D EMPSTER, A. P., L AIRD, N. M. et RUBIN, D. B. (1977). Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society Series B, 39:1–38. D UCHESNE, T., F ORTIN, D. et C OURBIN, N. (2010). Mixed conditional logistic regression for habitat selection studies. Journal of Animal Ecology, 79:548–555. F ORESTER, J. D., K UNG, H. et R ATHOUZ, P. J. (2009). Accounting for animal movement in estimation of resource selection functions : Sampling and data analysis. Ecology, 90:3554–3565. F ORTIN, D., B EYER, H. L., B OYCE, M. S., S MITH, D. W., D UCHESNE, T. et M AO, J. S. (2005). Wolves influence elk movements : Behavior shapes a trophic cascade in Yellowstone national park. Ecology, 86:1320–1330. H ALTON, J. H. (1960). On the efficiency of certain quasi-random sequences of points in evaluating multi-dimensional integrals. Numerische Mathematik, 2:84–90. H ARRELL, F. E. (2001). Regression Modeling Strategies : With Applications to Linear Models, Logistic Regression, and Survival Analysis. Springer, New York. 49 H OSMER, D. W. et L EMESHOW, S. (2000). Applied Logistic Regression, Second edition. John Wiley and Sons, New York. L IANG, K. et Z EGER, S. (1986). Longitudinal data analysis using generalized linear models. Biometrika, 73:13–22. M ANLY, B. F., M CDONALD, L. L., T HOMAS, D. L., M ACDONALD, T. L. et E RICKSON, W. P. (2002). Resources Selection by Animals : Statistical Design and Analysis for Field Studies, Second edition. Chapman and Hall, New York. M C C ULLAGH, P. et N ELDER, J. A. (1989). Generalized Linear Models, Second edition. Chapman and Hall, London. R HODES, J. R., M C A LPINE, C. A., L UNNEY, D. et P OSSINGHAM, H. P. (2005). A spatially explicit habitat selection model incorporating home range behavior. Ecology, 86:1199–1205. S TEIN, M. L. (1999). Interpolation of Spatial Data : Some Theory for Kriging. Springer, New York. S TOKES, M. E., DAVIS, C. S. et KOCH, G. G. (2000). Categorical Data Analysis Using the SAS System, Second edition. SAS Institute Inc., Cary (NC). T HOMAS, D. L. et TAYLOR, E. J. (2006). Study designs and tests for comparing resource use and availability. Journal Of Wildlife Management, 70:324–336. V ERBEKE, G. et M OLENBERGHS, G. (2000). Linear Mixed Models for Longitudinal Data. Springer, New York. 50 Annexe A Résultats des simulations Les tableaux suivants présentent la valeur moyenne de l’estimateur βx , soit β̂¯ , basée sur 1000 réplicats et obtenue à l’aide de modèles de régression logistique conditionnelle. La première colonne identifie le type de modèle ("nul" et "distance") ajusté aux données. La deuxième indique la méthode d’échantillonnage des lieux témoins utilisée. La troisième colonne distingue le type de modèle ("réplique de Forester", "modèle mixte") réalisée. Les autres colonnes fournissent respectivement la valeur moyenne, la variabilité, l’erreur quadratique moyenne, le 2.5e percentile, le 97.5e percentile pour les 1000 valeurs de βˆx . Les résultats sont présentés pour les deux noyaux de déplacements fournis par Forester et al. (2009). 51 TABLE A.1: Exponentiel - β = 0 et paramètre d’étendue : 0, 1× la moyenne des déplacements observés par Forester et al. (2009) Modèle Échantillon Uniforme Nul Empirique Paramétrique Uniforme Distance Empirique Paramétrique Modèle Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte β̂¯ -3.50E-3 -3.28E-3 1.46E-4 9.88E-5 -5.24E-4 -2.79E-4 -8.47E-4 -6.20E-4 -1.46E-4 1.42E-4 4.23E-5 2.85E-4 Var 4.29E-4 4.25E-4 3.72E-4 3.68E-4 3.90E-4 3.85E-4 4.43E-4 4.28E-4 3.72E-4 3.69E-4 3.72E-4 3.66E-4 EQM 4.41E-4 4.35E-4 3.72E-4 3.68E-4 3.90E-4 3.85E-4 4.44E-4 4.29E-4 3.72E-4 3.69E-4 3.72E-4 3.66E-4 2,5e c -0.0433 -0.0426 -0.0366 -0.0360 -0.0388 -0.0385 -0.0409 -0.0395 -0.0366 -0.0361 -0.0363 -0.0363 97,5e c 0.0384 0.0387 0.0385 0.0385 0.0398 0.0397 0.0425 0.0419 0.0385 0.0385 0.0384 0.0381 TABLE A.2: Exponentiel - β = 0 et paramètre d’étendue : 1× la moyenne des déplacements observés par Forester et al. (2009) Modèle Échantillon Uniforme Nul Empirique Paramétrique Uniforme Distance Empirique Paramétrique 52 Modèle Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte β̂¯ -3.43E-2 -3.17E-2 -1.30E-4 8.21E-4 -7.08E-3 -6.11E-3 -6.26E-4 1.89E-4 -1.32E-4 8.33E-4 3.26E-5 8.97E-4 Var 1.31E-3 1.28E-3 5.43E-4 5.29E-4 6.96E-4 6.76E-4 6.42E-4 6.32E-4 5.44E-4 5.46E-4 5.38E-4 5.38E-4 EQM 2.49E-3 2.29E-3 5.43E-4 5.30E-4 7.46E-4 7.13E-4 6.42E-4 6.32E-4 5.44E-4 5.47E-4 5.38E-4 5.39E-4 2,5e c -0.1067 -0.1049 -0.0465 -0.0457 -0.0574 -0.0561 -0.0484 -0.0475 -0.0467 -0.0457 -0.0464 -0.0457 97,5e c 0.0327 0.0318 0.0441 0.0443 0.0419 0.0418 0.0495 0.0480 0.0441 0.0443 0.0426 0.0441 TABLE A.3: Exponentiel - β = 0 et paramètre d’étendue : 5× la moyenne des déplacements observés par Forester et al. (2009) Modèle Échantillon Uniforme Nul Empirique Paramétrique Uniforme Distance Empirique Paramétrique Modèle Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte β̂¯ -1.29E-2 -1.12E-2 -7.67E-4 1.02E-3 -4.09E-2 -3.62E-2 -1.16E-3 -1.16E-3 -7.80E-4 -1.76E-4 -2.73E-4 2.33E-4 Var 3.48E-3 3.58E-3 1.45E-3 1.40E-3 1.62E-3 1.62E-3 1.68E-3 1.70E-3 1.45E-3 1.48E-3 1.48E-3 1.52E-3 EQM 2.01E-2 1.61E-2 1.45E-3 1.41E-3 3.29E-3 2.93E-3 1.68E-3 1.71E-3 1.45E-3 1.48E-3 1.48E-3 1.52E-3 2,5e c -2.43E-1 -2.27E-1 -0.0763 -0.0733 -0.1179 -0.1134 -0.0768 -0.0774 -0.0761 -0.0767 -0.0753 -0.0751 97,5e c -0.0175 0.0048 0.0734 0.0744 0.0375 0.0427 0.0788 0.0801 0.0733 0.0737 0.0765 0.0757 TABLE A.4: Exponentiel - β = 0 et paramètre d’étendue : 10× la moyenne des déplacements observés par Forester et al. (2009) Modèle Échantillon Uniforme Nul Empirique Paramétrique Uniforme Distance Empirique Paramétrique Modèle Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte β̂¯ -1.20E-1 -1.17E-1 -5.31E-4 -8.17E-4 -3.95E-2 -3.91E-2 -4.62E-4 -3.30E-3 -5.23E-4 -2.57E-3 -2.37E-4 -2.77E-3 Var 6.22E-3 6.89E-3 2.57E-3 2.50E-3 2.79E-3 2.83E-3 2.91E-3 2.95E-3 2.57E-3 2.60E-3 2.58E-3 2.63E-3 EQM 2.06E-2 2.05E-2 2.57E-3 2.50E-3 4.35E-3 4.36E-3 2.91E-3 2.96E-3 2.57E-3 2.61E-3 2.58E-3 2.64E-3 2,5e c -0.2743 -0.2815 -0.0955 -0.0952 -0.1412 -0.1427 -0.0998 -0.1039 -0.0958 -0.1002 -0.0975 -0.1002 97,5e c 0.0336 0.0438 0.1009 0.0974 0.0640 0.0634 0.1082 0.1072 0.1011 0.0991 0.0991 0.1007 53 TABLE A.5: Exponentiel - β = 0.5 et paramètre d’étendue : 0.1× la moyenne des déplacements observés par Forester et al. (2009) Modèle Échantillon Uniforme Nul Empirique Paramétrique Uniforme Distance Empirique Paramétrique Modèle Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte β̂¯ 0.5360 0.5321 0.4953 0.4914 0.5184 0.5145 0.4993 0.4903 0.4961 0.4923 0.4999 0.4951 Var 4.98E-4 4.88E-4 3.83E-4 3.76E-4 4.29E-4 4.19E-4 4.94E-4 4.83E-4 3.87E-4 3.84E-4 4.04E-4 3.97E-4 EQM 1.79E-3 1.52E-3 4.06E-4 4.49E-4 7.68E-4 6.29E-4 4.94E-4 5.77E-4 4.03E-4 4.43E-4 4.04E-4 4.20E-4 2,5e c 0.4909 0.4872 0.4560 0.4530 0.4780 0.4744 0.4532 0.4446 0.4568 0.4536 0.4608 0.4569 97,5e c 0.5798 0.5753 0.5330 0.5287 0.5581 0.5539 0.5419 0.5314 0.5341 0.5295 0.5386 0.5338 TABLE A.6: Exponentiel - β = 0.5 et paramètre d’étendue : 1× la moyenne des déplacements observés par Forester et al. (2009) Modèle Échantillon Uniforme Nul Empirique Paramétrique Uniforme Distance Empirique Paramétrique 54 Modèle Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte β̂¯ 0.5896 0.5897 0.4946 0.4883 0.5361 0.5308 0.5007 0.4909 0.4974 0.4924 0.5000 0.4942 Var 1.33E-3 1.33E-3 5.68E-4 5.52E-4 7.31E-4 7.12E-4 6.97E-4 6.90E-4 5.88E-4 5.90E-4 6.01E-4 5.93E-4 EQM 9.35E-3 9.37E-3 5.97E-4 6.89E-4 2.03E-3 1.66E-3 6.98E-4 7.73E-4 5.94E-4 6.48E-4 6.01E-4 6.27E-4 2,5e c 0.5204 0.5189 0.4470 0.4421 0.4817 0.4776 0.4484 0.4400 0.4485 0.4442 0.4506 0.4453 97,5e c 0.6626 0.6614 0.5432 0.5360 0.5890 0.5834 0.5544 0.5455 0.5468 0.5417 0.5500 0.5431 TABLE A.7: Exponentiel - β = 0.5 et paramètre d’étendue : 5× la moyenne des déplacements observés par Forester et al. (2009) Modèle Échantillon Uniforme Nul Empirique Paramétrique Uniforme Distance Empirique Paramétrique Modèle Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte β̂¯ 0.3701 0.4074 0.4976 0.4922 0.4476 0.4515 0.5021 0.4949 0.4969 0.4939 0.5020 0.4987 Var 3.80E-3 3.97E-3 1.69E-3 1.64E-3 1.82E-3 1.84E-3 1.83E-3 1.84E-3 1.68E-3 1.70E-3 1.66E-3 1.68E-3 EQM 2.07E-2 1.25E-2 1.70E-3 1.70E-3 4.57E-3 4.19E-3 1.84E-3 1.87E-3 1.69E-3 1.74E-3 1.66E-3 1.68E-3 2,5e c 0.2449 0.2841 0.4137 0.4085 0.3650 0.3689 0.4178 0.4119 0.4135 0.4095 0.4224 0.4178 97,5e c 0.4843 0.5275 0.5724 0.5670 0.5320 0.5365 0.5796 0.5738 0.5715 0.5694 0.5791 0.5783 TABLE A.8: Exponentiel - β = 0.5 et paramètre d’étendue : 10× la moyenne des déplacements observés par Forester et al. (2009) Modèle Échantillon Uniforme Nul Empirique Paramétrique Uniforme Distance Empirique Paramétrique Modèle Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte β̂¯ 0.3752 0.4117 0.4945 0.4875 0.4362 0.4401 0.4995 0.4895 0.4941 0.4883 0.4988 0.4925 Var 6.57E-3 7.46E-3 2.89E-3 2.84E-3 2.98E-3 3.03E-3 3.24E-3 3.28E-3 2.88E-3 2.95E-3 2.88E-3 2.95E-3 EQM 2.22E-2 1.53E-2 2.92E-3 2.99E-3 7.05E-3 6.62E-3 3.24E-3 3.39E-3 2.91E-3 3.08E-3 2.88E-3 3.01E-3 2,5e c 0.2180 0.2416 0.3917 0.3855 0.3309 0.3318 0.3905 0.3826 0.3915 0.3829 0.3939 0.3876 97,5e c 0.5396 0.5872 0.5969 0.5881 0.5431 0.5480 0.6125 0.5995 0.5962 0.5918 0.6043 0.6016 55 TABLE A.9: Exponentiel - β = 1 et paramètre d’étendue : 0.1× la moyenne des déplacements observés par Forester et al. (2009) Modèle Échantillon Uniforme Nul Empirique Paramétrique Uniforme Distance Empirique Paramétrique Modèle Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte β̂¯ 1.1031 1.0898 0.9418 0.9316 1.0415 1.0287 0.9992 0.9769 0.9535 0.9443 0.9986 0.9858 Var 5.38E-4 5.23E-4 2.84E-4 2.78E-4 4.16E-4 4.02E-4 5.67E-4 5.63E-4 3.06E-4 3.07E-4 3.91E-4 3.82E-4 EQM 1.12E-2 8.60E-3 3.68E-3 4.96E-3 2.13E-3 1.23E-3 5.68E-4 1.10E-3 2.47E-3 3.41E-3 3.94E-4 5.84E-4 2,5e c 1.0564 1.0434 0.9070 0.8972 1.0013 0.9879 0.9523 0.9278 0.9177 0.9088 0.9589 0.9460 97,5e c 1.1482 1.1348 0.9757 0.9653 1.0790 1.0663 1.0441 1.0206 0.9876 0.9796 1.0351 1.0217 TABLE A.10: Exponentiel - β = 1 et paramètre d’étendue : 1× la moyenne des déplacements observés par Forester et al. (2009) Modèle Échantillon Uniforme Nul Empirique Paramétrique Uniforme Distance Empirique Paramétrique 56 Modèle Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte β̂¯ 1.1878 1.1823 0.9542 0.9405 1.0442 1.0287 0.9993 0.9764 0.9741 0.9676 0.9992 0.9876 Var 1.58E-3 1.70E-3 4.94E-4 4.82E-4 6.00E-4 5.87E-4 8.21E-4 8.30E-4 5.43E-4 5.65E-4 5.95E-4 6.12E-4 EQM 3.68E-2 3.49E-2 2.59E-3 4.03E-3 2.55E-3 1.41E-3 8.22E-4 1.39E-3 1.22E-3 1.62E-3 5.96E-4 7.67E-4 2,5e c 1.1150 1.1069 0.9071 0.8950 0.9965 0.9830 0.9450 0.9208 0.9263 0.9184 0.9529 0.9401 97,5e c 1.2714 1.2649 0.9995 0.9840 1.0925 1.0776 1.0568 1.0309 1.0186 1.0136 1.0469 1.0348 TABLE A.11: Exponentiel - β = 1 et paramètre d’étendue : 5× la moyenne des déplacements observés par Forester et al. (2009) Modèle Échantillon Uniforme Nul Empirique Paramétrique Uniforme Distance Empirique Paramétrique Modèle Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte β̂¯ 1.0206 1.0426 0.9918 0.9792 0.9689 0.9643 0.9981 0.9851 0.9879 0.9858 0.9991 0.9941 Var 3.46E-3 3.79E-3 1.49E-3 1.43E-3 1.68E-3 1.60E-3 1.76E-3 1.77E-3 1.48E-3 1.49E-3 1.44E-3 1.44E-3 EQM 3.88E-3 5.60E-3 1.55E-3 1.87E-3 2.65E-3 2.87E-3 1.77E-3 2.00E-3 1.62E-3 1.70E-3 1.44E-3 1.48E-3 2,5e c 0.9116 0.9234 0.9203 0.9093 0.8912 0.8883 0.9195 0.9021 0.9171 0.9137 0.9273 0.9213 97,5e c 1.1298 1.1571 1.0742 1.0596 1.0499 1.0412 1.0828 1.0690 1.0703 1.0663 1.0749 1.0700 TABLE A.12: Exponentiel - β = 1 et paramètre d’étendue : 10× la moyenne des déplacements observés par Forester et al. (2009) Modèle Échantillon Uniforme Nul Empirique Paramétrique Uniforme Distance Empirique Paramétrique Modèle Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte β̂¯ 1.0831 1.1206 0.9914 0.9763 0.9668 0.9637 1.0003 0.9881 0.9878 0.9830 1.0008 0.9953 Var 6.34E-3 7.36E-3 2.67E-3 2.62E-3 2.64E-3 2.64E-3 2.92E-3 3.05E-3 2.62E-3 2.74E-3 2.57E-3 2.72E-3 EQM 1.33E-2 2.19E-2 2.75E-3 3.18E-3 3.74E-3 3.95E-3 2.92E-3 3.19E-3 2.77E-3 3.03E-3 2.57E-3 2.74E-3 2,5e c 0.9407 0.9612 0.8858 0.8714 0.8695 0.8633 0.8873 0.8736 0.8835 0.8780 0.8998 0.8931 97,5e c 1.2468 1.2993 1.0904 1.0748 1.0706 1.0682 1.1083 1.0937 1.0853 1.0826 1.0983 1.0948 57 TABLE A.13: Exponentiel - β = 2 et paramètre d’étendue : 0.1× la moyenne des déplacements observés par Forester et al. (2009) Modèle Échantillon Uniforme Nul Empirique Paramétrique Uniforme Distance Empirique Paramétrique Modèle Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte β̂¯ 2.2919 2.2050 1.4797 1.4507 2.0074 1.9478 1.9944 1.8907 1.6095 1.5873 1.9901 1.9365 Var 1.90E-3 1.67E-3 4.82E-4 4.74E-4 9.39E-4 8.72E-4 2.51E-3 2.86E-3 6.99E-4 1.25E-3 1.07E-3 1.02E-3 EQM 8.71E-2 4.37E-2 2.71E-1 3.02E-1 9.93E-4 3.60E-3 2.54E-3 1.48E-2 1.53E-1 1.72E-1 1.17E-3 5.05E-3 2,5e c 2.2105 2.1289 1.4365 1.4092 1.9512 1.8940 1.9010 1.7921 1.5609 1.5377 1.9292 1.8789 97,5e c 2.3821 2.2897 1.5214 1.4927 2.0670 2.0060 2.0956 1.9954 1.6635 1.6398 2.0549 2.0001 TABLE A.14: Exponentiel - β = 2 et paramètre d’étendue : 1× la moyenne des déplacements observés par Forester et al. (2009) Modèle Échantillon Uniforme Nul Empirique Paramétrique Uniforme Distance Empirique Paramétrique 58 Modèle Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte β̂¯ 2.1081 2.0866 1.7926 1.7577 2.0153 1.9702 1.9973 1.9170 1.8609 1.8529 1.9945 1.9608 Var 3.43E-3 2.78E-3 1.11E-3 1.08E-3 1.31E-3 1.24E-3 2.43E-3 2.46E-3 1.37E-3 1.40E-3 1.42E-3 1.40E-3 EQM 01.51E-2 1.03E-2 4.41E-2 5.98E-2 1.55E-3 2.13E-3 2.44E-3 9.34E-3 2.07E-2 2.30E-2 1.45E-3 2.93E-3 2,5e c 2.0045 1.9889 1.7285 1.6930 1.9455 1.9005 1.8994 1.8204 1.7887 1.7827 1.9224 1.8899 97,5e c 2.2239 2.1923 1.8577 1.8251 2.0881 2.0425 2.0938 2.0160 1.9360 1.9267 2.0735 2.0367 TABLE A.15: Exponentiel - β = 2 et paramètre d’étendue : 5× la moyenne des déplacements observés par Forester et al. (2009) Modèle Échantillon Uniforme Nul Empirique Paramétrique Uniforme Distance Empirique Paramétrique Modèle Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte β̂¯ 1.4202 1.5408 1.8981 1.8607 1.8233 1.8017 1.9988 1.9537 1.8579 1.8680 1.9976 1.9817 Var 4.69E-3 5.09E-3 2.17E-3 2.11E-3 2.80E-3 2.64E-3 2.88E-3 2.91E-3 2.02E-3 2.15E-3 2.11E-3 2.14E-3 EQM 0.3409 0.2159 0.0126 0.0215 0.0340 0.0420 0.0029 0.0051 0.0222 0.0196 0.0021 0.0025 2,5e c 1.2924 1.4104 1.8070 1.7702 1.7231 1.7007 1.8932 1.8498 1.7715 1.7738 1.9067 1.8904 97,5e c 1.5606 1.6851 1.9878 1.9476 1.9305 1.9052 2.1065 2.0611 1.9456 1.9653 2.0870 2.0715 TABLE A.16: Exponentiel - β = 2 et paramètre d’étendue : 10× la moyenne des déplacements observés par Forester et al. (2009) Modèle Échantillon Uniforme Nul Empirique Paramétrique Uniforme Distance Empirique Paramétrique Modèle Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte β̂¯ 1.6500 1.7147 1.9509 1.9212 1.8446 1.8259 1.9989 1.9648 1.9231 1.9237 1.9991 1.9834 Var 8.78E-3 8.87E-3 3.70E-3 3.63E-3 4.18E-3 4.03E-3 4.67E-3 4.60E-3 3.59E-3 3.72E-3 3.78E-3 3.87E-3 EQM 1.31E-1 9.03E-2 6.17E-3 9.84E-3 2.83E-2 3.45E-2 4.67E-3 5.84E-3 9.50E-3 9.54E-3 3.78E-3 4.15E-3 2,5e c 1.4578 1.5241 1.8312 1.8044 1.7153 1.7013 1.8732 1.8387 1.8080 1.8131 1.8774 1.8636 97,5e c 1.8292 1.8942 2.0690 2.0344 1.9713 1.9456 2.1351 2.0971 2.0380 2.0373 2.1160 2.1007 59 TABLE A.17: Weibull - β = 0 et paramètre d’étendue : 0, 1× la moyenne des déplacements observés par Forester et al. (2009) Modèle Échantillon Uniforme Nul Empirique Paramétrique Uniforme Distance Empirique Paramétrique Modèle Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte β̂¯ -5.85E-3 -5.68E-3 -8.28E-5 1.25E-4 -5.59E-4 -3.14E-4 4.81E-4 7.23E-4 -8.25E-5 1.50E-4 1.67E-4 3.99E-4 Var 4.55E-4 4.49E-4 3.81E-4 3.75E-4 4.11E-4 4.07E-4 4.82E-4 4.82E-4 3.81E-4 3.78E-4 3.85E-4 3.80E-4 EQM 4.90E-4 4.81E-4 3.81E-4 3.75E-4 4.11E-4 4.07E-4 4.83E-4 4.82E-4 3.81E-4 3.78E-4 3.85E-4 3.80E-4 2,5e c -0.0465 -0.0456 -0.0376 -0.0370 -0.0399 -0.0394 -0.0431 -0.0431 -0.0376 -0.0371 -0.0381 -0.0367 97,5e c 0.0388 0.0383 0.0417 0.0414 0.0421 0.0423 0.0410 0.0428 0.0417 0.0415 0.0409 0.0404 TABLE A.18: Weibull - β = 0 et paramètre d’étendue : 1× la moyenne des déplacements observés par Forester et al. (2009) Modèle Échantillon Uniforme Nul Empirique Paramétrique Uniforme Distance Empirique Paramétrique 60 Modèle Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte β̂¯ -5.72E-2 -5.32E-2 -8.59E-4 7.41E-5 7.33E-3 -6.56E-3 2.66E-4 1.32E-3 -8.63E-4 1.31E-4 -1.30E-4 9.15E-4 Var 1.52E-3 1.51E-3 5.50E-4 5.39E-4 7.57E-4 7.46E-4 7.22E-4 7.43E-4 5.50E-4 5.52E-4 5.96E-4 6.00E-4 EQM 4.80E-3 4.35E-3 5.51E-4 5.39E-4 8.11E-4 7.89E-4 7.22E-4 7.45E-4 5.51E-4 5.52E-4 5.96E-4 6.01E-4 2,5e c -0.1313 -0.1273 -0.0448 -0.0441 -0.0619 -0.0616 -0.0531 -0.0527 -0.0449 -0.0439 -0.0481 -0.0468 97,5e c 0.0180 0.0207 0.0475 0.0476 0.0493 0.0498 0.0507 0.0554 0.0475 0.0491 0.0504 0.0526 TABLE A.19: Weibull - β = 0 et paramètre d’étendue : 5× la moyenne des déplacements observés par Forester et al. (2009) Modèle Échantillon Uniforme Nul Empirique Paramétrique Uniforme Distance Empirique Paramétrique Modèle Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte β̂¯ -1.99E-1 -1.65E-1 -1.43E-3 8.58E-4 -3.63E-2 -3.14E-2 5.28E-3 6.53E-3 -1.46E-3 1.54E-4 4.00E-3 5.91E-3 Var 4.32E-3 4.83E-3 1.43E-3 1.40E-3 1.70E-3 1.73E-3 1.90E-3 2.00E-3 1.44E-3 1.48E-3 1.60E-3 1.63E-3 EQM 4.40E-2 3.21E-2 1.43E-3 1.40E-3 3.02E-3 2.72E-3 1.94E-3 2.05E-3 1.44E-3 1.48E-3 1.61E-3 1.67E-3 2,5e c -0.3300 -0.3020 -0.0758 -0.0729 -0.1124 -0.1087 -0.0760 -0.0803 -0.0757 -0.0718 -0.0758 -0.0731 97,5e c -0.0791 -0.0365 0.0722 0.0737 0.0412 0.0485 0.0886 0.0923 0.0720 0.0759 0.0836 0.0852 TABLE A.20: Weibull - β = 0 et paramètre d’étendue : 10× la moyenne des déplacements observés par Forester et al. (2009) Modèle Échantillon Uniforme Nul Empirique Paramétrique Uniforme Distance Empirique Paramétrique Modèle Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte β̂¯ -2.19E-1 -2.25E-1 -9.86E-4 9.25E-4 -3.60E-2 -3.45E-2 5.53E-3 -4.17E-3 9.80E-4 -2.29E-3 5.73E-3 4.50E-3 Var 7.29E-3 8.95E-3 2.73E-3 2.67E-3 3.18E-3 3.23E-3 3.67E-3 3.77E-3 2.73E-3 2.79E-3 3.02E-3 2.98E-3 EQM 5.52E-3 5.95E-3 2.73E-3 2.67E-3 4.48E-3 4.43E-3 3.70E-3 3.79E-3 2.73E-3 2.80E-3 3.05E-3 3.00E-3 2,5e c -0.3775 -0.4024 -0.1053 -0.1037 -0.1484 -0.1466 -0.1140 -0.1150 -0.1050 -0.1097 -0.1023 -0.1023 97,5e c -0.0587 -0.0453 0.1057 0.1058 0.0769 0.0814 0.1228 0.1243 0.1066 0.1064 0.1154 0.1114 61 TABLE A.21: Weibull - β = 0.5 et paramètre d’étendue : 0.1× la moyenne des déplacements observés par Forester et al. (2009) Modèle Échantillon Uniforme Nul Empirique Paramétrique Uniforme Distance Empirique Paramétrique Modèle Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte β̂¯ 0.5310 0.5272 0.4959 0.4922 0.5140 0.5102 0.4896 0.4787 0.4963 0.4926 0.4952 0.4905 Var 4.87E-4 4.67E-4 3.79E-4 3.71E-4 4.25E-4 4.14E-4 5.65E-4 5.60E-4 3.81E-4 3.76E-4 3.96E-4 3.86E-4 EQM 1.45E-3 1.22E-3 3.96E-4 4.33E-4 6.22E-4 5.18E-4 6.73E-4 1.01E-3 3.95E-4 4.31E-4 4.19E-4 4.77E-4 2,5e c 0.4875 0.4838 0.4581 0.4548 0.4764 0.4709 0.4443 0.4342 0.4587 0.4542 0.4563 0.4521 97,5e c 0.5749 0.5700 0.5338 0.5298 0.5567 0.5516 0.5363 0.5258 0.5343 0.5306 0.5334 0.5284 TABLE A.22: Weibull - β = 0.5 et paramètre d’étendue : 1× la moyenne des déplacements observés par Forester et al. (2009) Modèle Échantillon Uniforme Nul Empirique Paramétrique Uniforme Distance Empirique Paramétrique 62 Modèle Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte β̂¯ 0.5841 0.5875 0.4944 0.4883 0.5490 0.5370 0.5052 0.4917 0.4956 0.4906 0.5057 0.4995 Var 1.55E-3 1.56E-3 5.68E-4 5.49E-4 7.70E-4 7.50E-4 7.68E-4 7.67E-4 5.76E-4 5.81E-4 6.31E-4 6.29E-4 EQM 8.63E-3 9.21E-3 5.99E-4 6.87E-4 2.53E-4 2.12E-4 7.95E-4 8.36E-4 5.96E-4 6.69E-4 6.63E-4 6.30E-4 2,5e c 0.5079 0.5106 0.4468 0.4410 0.4905 0.4864 0.4478 0.4367 0.4476 0.4419 0.4573 0.4513 97,5e c 0.6579 0.6617 0.5436 0.5365 0.5946 0.5895 0.5581 0.5447 0.5455 0.5428 0.5548 0.5510 TABLE A.23: Weibull - β = 0.5 et paramètre d’étendue : 5× la moyenne des déplacements observés par Forester et al. (2009) Modèle Échantillon Uniforme Nul Empirique Paramétrique Uniforme Distance Empirique Paramétrique Modèle Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte β̂¯ 0.3545 0.4138 0.4965 0.4923 0.4670 0.4717 0.5203 0.5085 0.4958 0.4957 0.5182 0.5139 Var 4.35E-3 4.84E-3 1.51E-3 1.47E-3 1.75E-3 1.76E-3 2.04E-3 2.05E-3 1.49E-3 1.53E-3 1.60E-3 1.62E-3 EQM 2.25E-2 1.23E-2 1.52E-3 1.53E-3 2.85E-3 2.56E-3 2.45E-3 2.12E-3 1.51E-3 1.55E-3 1.93E-3 1.82E-3 2,5e c 0.2255 0.2749 0.4199 0.4172 0.3829 0.3834 0.4337 0.4247 0.4191 0.4189 0.4443 0.4386 97,5e c 0.4854 0.5483 0.5722 0.5672 0.5480 0.5549 0.6107 0.5989 0.5708 0.5722 0.5967 0.5936 TABLE A.24: Weibull - β = 0.5 et paramètre d’étendue : 10× la moyenne des déplacements observés par Forester et al. (2009) Modèle Échantillon Uniforme Nul Empirique Paramétrique Uniforme Distance Empirique Paramétrique Modèle Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte β̂¯ 0.2679 0.2945 0.4927 0.4889 0.4544 0.4597 0.5207 0.5034 0.4925 0.4891 0.5189 0.5094 Var 8.57E-3 1.18E-2 2.61E-3 2.53E-3 2.84E-3 2.90E-3 3.48E-3 3.56E-3 2.58E-3 2.72E-3 2.77E-3 2.83E-3 EQM 6.24E-2 5.40E-2 2.66E-3 2.66E-3 4.91E-3 4.53E-3 3.91E-3 3.58E-3 2.64E-3 2.84E-3 3.13E-3 2.92E-3 2,5e c 0.0970 0.0927 0.3905 0.3898 0.3533 0.3561 0.4055 0.3822 0.3908 0.3865 0.4123 0.4103 97,5e c 0.4542 0.5023 0.5967 0.5902 0.5587 0.5780 0.6432 0.6241 0.5962 0.5902 0.6243 0.6176 63 TABLE A.25: Weibull - β = 1 et paramètre d’étendue : 0.1× la moyenne des déplacements observés par Forester et al. (2009) Modèle Échantillon Uniforme Nul Empirique Paramétrique Uniforme Distance Empirique Paramétrique Modèle Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte β̂¯ 1.0880 1.0749 0.9540 0.9437 1.0279 1.0155 0.9802 0.9542 0.9593 0.9500 0.9859 0.9733 Var 6.41E-4 6.14E-4 3.36E-4 3.26E-4 4.60E-4 4.42E-4 7.97E-4 8.02E-4 3.47E-4 3.41E-4 4.41E-4 4.31E-4 EQM 8.39E-3 6.22E-3 2.46E-3 3.50E-3 1.24E-3 6.81E-4 1.19E-4 2.90E-4 2.01E-4 2.84E-3 6.38E-4 1.15E-3 2,5e c 1.0400 1.0273 0.9194 0.9094 0.9888 0.9774 0.9281 0.9012 0.9234 0.9151 0.9458 0.9340 97,5e c 1.1378 1.1234 0.9892 0.9784 1.0693 1.0570 1.0330 1.0096 0.9950 0.9859 1.0279 1.0136 TABLE A.26: Weibull - β = 1 et paramètre d’étendue : 1× la moyenne des déplacements observés par Forester et al. (2009) Modèle Échantillon Uniforme Nul Empirique Paramétrique Uniforme Distance Empirique Paramétrique 64 Modèle Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte β̂¯ 1.2072 1.2145 0.9639 0.9498 1.0623 1.0479 1.0107 0.9773 0.9729 0.9640 1.0070 0.9918 Var 1.79E-3 1.82E-3 6.07E-4 5.92E-4 7.48E-4 7.11E-3 1.18E-3 1.18E-3 6.46E-4 6.56E-4 7.14E-4 7.10E-4 EQM 4.47E-2 4.78E-2 1.91E-3 3.11E-3 4.63E-3 3.00E-3 1.29E-3 1.69E-3 1.38E-3 1.95E-3 7.64E-4 7.77E-4 2,5e c 1.2874 1.1359 0.9172 0.9034 1.0122 0.9985 0.9472 0.9122 0.9262 0.9156 0.9588 0.9431 97,5e c 1.3617 1.2948 1.0115 0.9972 1.1148 1.1009 1.0809 1.0440 1.0236 1.0151 1.0598 1.0461 TABLE A.27: Weibull - β = 1 et paramètre d’étendue : 5× la moyenne des déplacements observés par Forester et al. (2009) Modèle Échantillon Uniforme Nul Empirique Paramétrique Uniforme Distance Empirique Paramétrique Modèle Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte β̂¯ 0.8957 0.9802 0.9912 0.9789 0.9720 0.9727 1.0362 1.0124 0.9843 0.9855 1.0305 1.0211 Var 4.70E-3 5.29E-3 1.72E-3 1.65E-3 1.99E-3 2.03E-3 2.41E-3 2.51E-3 1.66E-3 1.73E-3 1.79E-3 1.86E-3 EQM 1.56E-3 5.68E-3 1.80E-3 2.10E-3 2.78E-3 2.78E-3 3.73E-3 2.66E-3 1.90E-3 1.94E-3 2.72E-3 2.31E-3 2,5e c 0.7664 0.8470 0.9048 0.8968 0.8811 0.8791 0.9354 0.9129 0.8992 0.9020 0.9472 0.9313 97,5e c 1.0298 1.1243 1.0740 1.0605 1.0618 1.0634 1.1285 1.1061 1.0659 1.0697 1.1182 1.1057 TABLE A.28: Weibull - β = 1 et paramètre d’étendue : 10× la moyenne des déplacements observés par Forester et al. (2009) Modèle Échantillon Uniforme Nul Empirique Paramétrique Uniforme Distance Empirique Paramétrique Modèle Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte β̂¯ 0.7210 0.7874 0.9902 0.9801 0.9473 0.9535 1.0454 1.0131 0.9858 0.9840 1.0400 1.0233 Var 1.22E-2 1.81E-2 3.21E-3 3.11E-3 3.40E-3 3.52E-3 4.59E-3 4.78E-3 3.09E-3 3.37E-3 3.37E-3 3.50E-3 EQM 9.00E-2 6.34E-2 3.30E-3 3.50E-3 6.18E-3 5.68E-3 6.65E-3 4.95E-3 3.29E-3 3.63E-3 4.97E-3 4.04E-3 2,5e c 0.5006 0.5170 0.8804 0.8705 0.8312 0.8326 0.9151 0.8847 0.8776 0.8759 0.9214 0.9061 97,5e c 0.9297 1.0444 1.0963 1.0838 1.0557 1.0618 1.1768 1.1516 1.0906 1.0951 1.1518 1.1365 65 TABLE A.29: Weibull - β = 2 et paramètre d’étendue : 0.1× la moyenne des déplacements observés par Forester et al. (2009) Modèle Échantillon Uniforme Nul Empirique Paramétrique Uniforme Distance Empirique Paramétrique Modèle Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte β̂¯ 2.2616 2.1755 1.4856 1.4596 1.9608 1.9060 1.9661 1.8602 1.5610 1.5453 1.9410 1.8877 Var 1.71E-3 1.56E-3 4.49E-4 4.52E-4 8.90E-4 8.34E-4 2.97E-3 4.13E-3 5.66E-4 6.61E-4 9.48E-4 9.15E-4 EQM 7.02E-2 3.24E-2 2.65E-1 2.93E-1 2.42E-3 9.67E-3 4.12E-3 2.37E-2 1.93E-1 2.07E-1 4.43E-3 1.35E-2 2,5e c 2.1865 2.1051 1.4439 1.4174 1.9071 1.8523 1.8593 1.7449 1.5146 1.4967 1.8836 1.8319 97,5e c 2.3443 2.2586 1.5270 1.5023 2.0235 1.9638 2.0807 1.9989 1.6075 1.5946 2.0035 1.9480 TABLE A.30: Weibull - β = 2 et paramètre d’étendue : 1× la moyenne des déplacements observés par Forester et al. (2009) Modèle Échantillon Uniforme Nul Empirique Paramétrique Uniforme Distance Empirique Paramétrique 66 Modèle Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte β̂¯ 2.3120 2.2926 1.7776 1.7447 1.9908 1.9471 2.0146 1.9096 1.8233 1.8154 1.9795 1.9406 Var 2.79E-3 2.51E-3 9.66E-4 9.48E-4 1.11E-3 1.09E-3 2.96E-3 3.55E-3 1.08E-3 1.14E-3 1.25E-3 1.26E-3 EQM 1.13E-1 8.81E-2 5.04E-2 6.61E-2 1.20E-3 3.89E-3 3.17E-3 1.17E-2 3.23E-2 3.51E-2 1.67E-3 4.79E-3 2,5e c 2.2288 2.1973 1.7145 1.6849 1.9245 1.8821 1.9092 1.7990 1.7602 1.7520 1.9106 1.8711 97,5e c 2.4362 2.3919 1.8397 1.8056 2.0518 2.0096 2.1200 2.0347 1.8895 1.8845 2.0458 2.0086 TABLE A.31: Weibull - β = 2 et paramètre d’étendue : 5× la moyenne des déplacements observés par Forester et al. (2009) Modèle Échantillon Uniforme Nul Empirique Paramétrique Uniforme Distance Empirique Paramétrique Modèle Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte β̂¯ 1.9576 2.0791 1.9496 1.9153 2.0144 1.9864 2.0941 2.0310 1.9248 1.9311 2.0601 2.0344 Var 7.36E-3 7.85E-3 2.57E-3 2.49E-3 3.00E-3 2.87E-3 4.34E-3 4.31E-3 2.55E-3 2.66E-3 2.68E-3 2.72E-3 EQM 9.15E-3 1.41E-2 5.11E-3 9.67E-3 3.20E-3 3.06E-3 1.32E-2 5.28E-3 8.20E-3 7.42E-3 6.29E-3 3.90E-3 2,5e c 1.7993 1.9068 1.8486 1.8165 1.9076 1.8763 1.9695 1.9098 1.8258 1.8303 1.9520 1.9259 97,5e c 2.1374 2.2567 2.0487 2.0133 2.1199 2.0873 2.2314 2.1720 2.0244 2.0296 2.1608 2.1351 TABLE A.32: Weibull - β = 2 et paramètre d’étendue : 10× la moyenne des déplacements observés par Forester et al. (2009) Modèle Échantillon Uniforme Nul Empirique Paramétrique Uniforme Distance Empirique Paramétrique Modèle Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte Forester Mixte β̂¯ 1.5056 1.6391 1.9637 1.9338 1.9540 1.9444 2.1129 2.0423 1.9389 1.9511 2.0864 2.0540 Var 2.38E-2 3.74E-2 3.95E-3 3.80E-3 4.32E-3 4.33E-3 5.98E-3 5.93E-3 3.73E-3 3.97E-3 4.09E-3 4.15E-3 EQM 2.68E-1 1.68E-1 5.27E-3 8.19E-3 6.44E-3 7.43E-3 1.87E-2 7.72E-3 7.46E-3 6.36E-3 1.15E-2 6.79E-3 2,5e c 1.2107 1.2711 1.8407 1.8112 1.8242 1.8155 1.9660 1.8898 1.8193 1.8264 1.9588 1.9245 97,5e c 1.7879 1.9815 2.0850 2.0526 2.0836 2.0812 2.2689 2.1919 2.0558 2.0786 2.2145 2.1781 67 Annexe B Code R Ce code R nécessite l’installation et le chargement des packages "RandomFields", "Survival" et "TwoStepCLogit". library(RandomFields) #Générer les environnements library(survival) #Appliquer un modèle régression logistique conditionnelle library(TwoStepCLogit) #Ajouter des effets aléatoires dans le modèle i<-100 #Nombre d’individus j<-30 #Nombre de déplacements par individu s<-2000 #Nombre de lieux potentiels k<-20 #Nombre de lieux témoins lambda1<-1/21 lambda2<-14 lambda3<-42 lambdar<-1/45 v1<-1.22 v2<-1.01 beta<-c(0,0.5,1,2) replique<-1000 #Nombre de réplicats scale1<-0.1 ∗ 21 scale2<-1 ∗ 21 scale3<-5 ∗ 21 scale4<-10 ∗ 21 scale_r<-scale1 #Choix du paramètre d’étendue #########Générer l’environnement########### model<-"exponential" mean<-0 variance<-1 69 nugget<-0 step<-1 #Dimension de la carte d’environnement# x<-seq(1,1024,step) y<-seq(1,1024,step) f1 <- GaussRF(x=x, y=y, model=model, grid=TRUE, param=c(mean, variance, nugget, scale_r)) #########Noyau de déplacement######### phi1<-function(r) (lambda1 ∗ exp(−lambda1 ∗ r ))/(2 ∗ pi ∗ r ) #Noyau exponentielle phi_r<-function(r) (lambdar ∗ exp(−lambdar ∗ r ))/(2 ∗ pi ∗ r ) #########Matrice des résultats des modèles de régression######### reg_unif_distanceR<-matrix(0,nrow=1,ncol=2)#Forester-uniforme-Modèle distance reg_emp_distanceR<-matrix(0,nrow=1,ncol=2)#Forester-empirique-Modèle distance reg_param_distanceR<-matrix(0,nrow=1,ncol=2)#Forester-paramétrique-Modèle distance reg_unif_nulR<-matrix(0,nrow=1,ncol=1)#Forester-uniforme-Modèle nul reg_emp_nulR<-matrix(0,nrow=1,ncol=1)#Forester-empirique-Modèle nul reg_param_nulR<-matrix(0,nrow=1,ncol=1)#Forester-paramétrique-Modèle nul TS_unif_distanceR<-matrix(0,nrow=1,ncol=2)#TS-uniforme-Modèle distance TS_emp_distanceR<-matrix(0,nrow=1,ncol=2)#TS-empirique-Modèle distance TS_param_distanceR<-matrix(0,nrow=1,ncol=2)#TS-paramétrique-Modèle distance TS_unif_nulR<-matrix(0,nrow=1,ncol=1)#TS-uniforme-Modèle nul TS_emp_nulR<-matrix(0,nrow=1,ncol=1)#TS-empirique-Modèle nul TS_param_nulR<-matrix(0,nrow=1,ncol=1)#TS-paramétrique-Modèle nul #########Exécution des 1000 réplicats######### replicat<-0 lieux_depart<-matrix(nrow=i∗j,ncol=2,0) while(replicat<replique) x0<-sample(341 :683,size=i,replace=T)#Coordonnée de départ sur l’axe des x (dans le 1/9 de l’environnement) y0<-sample(341 :683,size=i,replace=T)#Coordonnée de départ sur l’axe des y (dans le 1/9 de l’environnement) #########Exécution des 30 déplacements par individu######### temps<-0 Resultats<-matrix(nrow=i*j,ncol=10,0)#Matrice des lieux visités et des lieux témoins while(temps<j) #####Pour chaque lieu disponible##### r<-matrix(rexp(i∗s,rate=lambdar),ncol=i,nrow=s)#Distance u<-matrix(runif(i∗s,min=0,max=2 ∗ π),ncol=i,nrow=s)#Angle Px<-matrix(rep(x0,s),ncol=i,nrow=s,byrow=T)+r ∗ sin(u)#Coordonnées en x Py<-matrix(rep(y0,s),ncol=i,nrow=s,byrow=T)+r ∗ cos(u)#Coordonnées en y 70 Px<-abs(Px)#Coordonnée négative, exemple : −34 devient +34 Px<-(1024 − (Px − 1024)) ∗ (Px > 1024) + (Px) ∗ (Px <= 1024)#Coordonnée supérieure à 1024, exemple : 1034 devient 1014 Px<-(1 + (1 − Px)) ∗ ((Px >= 0)&(Px < 1)) + Px ∗ (Px >= 1)#Coordonnée entre 0 et 1, exempl : 0.45 devient 1.45 Py<-abs(Py) Py<-(1024 − (Py − 1024)) ∗ (Py > 1024) + (Py) ∗ (Py <= 1024) Py<-(1 + (1 − Py)) ∗ ((Py >= 0)&(Py < 1)) + Py ∗ (Py >= 1) value_visite<-f1[cbind(rep(Px),rep(Py))] value_map<-exp(matrix(value_visite∗beta[1],ncol=i))#RSF en fonction de β numerateur<-phi1(r)∗value_map/phi_r(r) denominateur<-matrix(rep(colSums(numerateur),each=s),ncol=i) probabilites<-numerateur/denominateur#Probabilité de sélection du lieu visité #####Sélection du lieu visité##### p<-0 visit<-rep(0,i) for (p in 1 :i) visit[p]<-sample(1 :nrow(probabilites), 1,prob=probabilites[,p]) p<-p+1 departx<-matrix(rep(x0,each=s),ncol=1) departy<-matrix(rep(y0,each=s),ncol=1) pointx<-matrix(Px,ncol=1) pointy<-matrix(Py,ncol=1) distance<-matrix(r,ncol=1) angle<-matrix(u,ncol=1) value_visite<-matrix(value_visite,ncol=1) nombre<-c(1 :i ∗ s − s) #####Matrice des lieux visités pour les 100 individus##### visite=visit + nombre lieux_visites<-cbind(matrix(c(1 :i),ncol=1),temps+1,pointx[visite],pointy[visite], departx[visite],departy[visite],distance[visite],angle[visite],value_visite[visite],1) lieux_departs<-cbind(x0,y0) for (qq in 1 :i) Resultats[qq∗j+temps−j+1,]<-lieux_visites[qq,] for (qq in 1 :i) lieux_depart[qq∗j+temps−j+1,]<-lieux_departs[qq,] #####Nouveau déplacement##### temps<-temps+1 x0<-lieux_visites[,3] y0<-lieux_visites[,4] 71 #########Échantillonnage uniforme des lieux témoins######### dmax<-1.2∗max(Resultats[,7]) ra<-matrix(runif(k∗i∗j,min=0,max=dmax),ncol=i∗j,nrow=k) ua<-matrix(runif(k∗i∗j,min=0,max=2 ∗ π),ncol=i*j,nrow=k) x<-matrix(rep(Resultats[,3],k),ncol=i∗j,nrow=k,byrow=T)+ra∗ sin(ua) y<-matrix(rep(Resultats[,4],k),ncol=i∗j,nrow=k,byrow=T)+ra∗ cos(ua) x<-abs(x) x<-(1024 − (x − 1024)) ∗ (x > 1024) + (x) ∗ (x <= 1024) x<-(1 + (1 − x)) ∗ ((x >= 0)&(x < 1)) + x ∗ (x >= 1) y<-abs(y) y<-(1024 − (y − 1024)) ∗ (y > 1024) + (y) ∗ (y <= 1024) y<-(1 + (1 − y)) ∗ ((y >= 0)&(y < 1)) + y ∗ (y >= 1) Coord_temoins<-cbind(matrix(x,ncol=1),matrix(y,ncol=1)) ressource1<-f1[Coord_temoins] Echantillon_uniforme<-rbind(Resultats[,c(1,2,3,4,7,9,10)],cbind(rep(1 :i,each=j∗k), rep(1 :j,each=k),Coord_temoins,matrix(ra,ncol=1),ressource1,0)) Uniforme<-Echantillon_uniforme[order(Echantillon_uniforme[,1],Echantillon_uniforme[,2]),] #########Échantillonnage empirique des lieux témoins######### r_u<-Resultats[sample(1 :(i∗j),size=k∗i∗j,replace=T),c(7,8)] x2<-matrix(rep(lieux_depart[,1],k),ncol=i∗j,nrow=k,byrow=T)+r_u[,1]∗ sin(r_u[, 2]) y2<-matrix(rep(lieux_depart[,2],k),ncol=i∗j,nrow=k,byrow=T)+r_u[,1]∗ cos(r_u[, 2]) #Reprendre la procédure employée dans l’échantillonnage uniforme des lieux témoins et l’appliquer à l’échantillonnage empirique.# Empirique<-Echantillon_empirique[order(Echantillon_empirique[,1], Echantillon_empirique[,2]),] #########Échantillonnage paramétrique des lieux témoins######### moy_length<-mean(Resultats[,7]) parametric_r<-matrix(rexp(n=k∗i∗j,rate=1/(2∗moy_length)),ncol=i∗j,nrow=k) parametric_u<-matrix(runif(n=k∗i∗j,min=0,max=2 ∗ π),ncol=i∗j,nrow=k) #Reprendre la procédure employée dans l’échantillonnage uniforme des lieux témoins et l’appliquer à l’échantillonnage paramétrique.# Parametrique<-Echantillon_parametrique[order(Echantillon_parametrique[,1], Echantillon_parametrique[,2]),] 72 ####Régression logistique conditionnelle - Modèle "Nul" - Échantillonnage uniforme#### replicat<-replicat+1 statut<-Uniforme[,7] stratum=(Uniforme[,1]−1)*j+Uniforme[,2] clust=Uniforme[,1] predictor<-Uniforme[,6] temps_echec<-rep(1,i∗j∗(k+1)) reg_unif_nul_b1<-coxph(Surv(temps_echec,statut) predictor + strata(stratum) + cluster(clust),robust=T) reg_unif_nulR<-reg_unif_nul_b1$coefficients ####Ajout d’effet aléatoire dans le modèle - Modèle "Distance" - Échantillonnage uniforme#### twostepclogit=cbind(statut,stratum, clust,predictor,ral) TS_unif_distance <- Ts.estim(formula = statut predictor + ral + strata(stratum) + cluster(clust), data = twostepclogit, random = predictor + ral, all.m.1=TRUE, D="UN(1)") TS_unif_distanceR<-TS_unif_distance$beta Il est possible d’obtenir les coefficients des autres modèles en se référant au code précédent. Répéter le code en modifiant les valeurs de β en changeant la valeur du paramètre "beta" dans la variable "value_map" et du paramètre d’étendue en modifiant la ligne de code "scale_r<-scale1". 73