Comparaison de modèles de régression logistique utilisés pour l

publicité
Comparaison de modèles de régression logistique
utilisés pour l’analyse de données recueillies
dans le cadre d’études de type cas-témoins
appariés sur le déplacement animal
Mémoire
Benjamin Beauregard
Maîtrise en statistiques
Maître ès sciences (M.Sc.)
Québec, Canada
© Benjamin Beauregard, 2013
Résumé
L’étude de la sélection des ressources en fonction du déplacement des animaux est un sujet qui intéresse plusieurs chercheurs en écologie, qui cherchent à prédire comment les ressources disponibles
influencent le déplacement des animaux dans un environnement hétérogène. Pour ce faire, une stratégie souvent utilisée consiste à comparer les caractéristiques des lieux visités à celles des lieux disponibles mais non visités à différents instants. Comme l’étendue du territoire des lieux disponibles
est généralement imposant, un échantillonnage aléatoire des lieux non-visités devient pratiquement
inévitable. Toutefois, une méthode d’échantillonnage non adéquate peut induire un biais dans les inférences. L’échantillonnage des lieux non-visités peut se faire selon une étude longitudinale cas-témoins
appariée dont la variable réponse prend la valeur 1 dans le cas d’une ressource sélectionnée et la valeur
0 dans le cas contraire. Un modèle de régression logistique peut donc être ajusté aux données.
L’objectif de ce mémoire est d’étudier les avantages et les limites de divers modèles de régression logistique, tout particulièrement le modèle à effets mixtes, dans le cadre d’études cas-témoins appariées.
Une étude de simulation ainsi que l’analyse de données réelles nous a permis de comparer les inférences obtenues par le modèle mixte à ceux d’un modèle à effets fixes. Les conclusions observables
indiquent que les modèles mixtes sont plus performants que les modèles fixes lorsque le type d’environnement est "homogène" et "très homogène" avec une faible force de sélection, mais rarement dans
d’autres situations.
iii
Table des matières
Résumé
iii
Table des matières
v
Liste des tableaux
vii
Liste des figures
ix
Remerciements
xi
1
2
La régression logistique
1.1 Notation générale . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Fondements de la régression logistique . . . . . . . . . . . . . . . .
1.3 La régression logistique standard avec données indépendantes . . .
1.4 La régression logistique conditionnelle avec données indépendantes
1.5 La régression logistique avec données corrélées . . . . . . . . . . .
1.6 Régression logistique conditionnelle avec données corrélées . . . .
La sélection des ressources
2.1 Notation . . . . . . . . . . . . . . . . . .
2.2 Écriture du modèle . . . . . . . . . . . .
2.3 Fonction de vraisemblance conditionnelle
2.4 Échantillonnage des lieux témoins . . . .
2.5 Étude de Forester . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
3
4
4
6
9
15
.
.
.
.
.
21
22
22
23
25
26
3
La régression logistique conditionnelle mixte
3.1 Notation de la régression logistique conditionnelle mixte avec données corrélées . . .
3.2 Écriture du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3 Hétérogénéité des individus et l’influence de l’environnement sur la sélection des lieux
3.4 Estimations des paramètres et inférences . . . . . . . . . . . . . . . . . . . . . . . .
3.5 Exemple de Duchesne et al. (2010) . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.6 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
31
32
33
34
34
36
4
Modèle mixte appliqué aux simulations de Forester et al. (2009)
4.1 Modèle à effets aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Constats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
38
39
42
5
Application d’un modèle mixte au jeu de données sur les bisons
43
v
5.1
6
Étude sur les bisons de Craiu et al. (2008) . . . . . . . . . . . . . . . . . . . . . . .
Conclusion
43
47
Bibliographie
49
A Résultats des simulations
51
B Code R
69
vi
Liste des tableaux
1.1
1.2
1.3
3.1
3.2
5.1
Coefficients de régression obtenus avec la méthode GEE (matrice de corrélation de travail
de type "indépendante") . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Coefficients de régression obtenus avec la méthode GEE par Stokes et al. (2000) (matrice
de corrélation de travail de type "non structurée") . . . . . . . . . . . . . . . . . . . . .
Résultats du modèle de régression logistique conditionnelle avec la méthode GEE appliqué aux données sur les bisons de Craiu et al. (2008) . . . . . . . . . . . . . . . . . . .
15
15
19
La fonction de sélection des ressources obtenue avec un modèle à effets fixes par Duchesne et al. (2010). Les intervalles sont à 95%. . . . . . . . . . . . . . . . . . . . . . .
La fonction de sélection des ressources obtenue avec un modèle à effets aléatoires pour le
type "terres agricoles" par Duchesne et al. (2010). Les intervalles sont à 95%. . . . . . .
35
Résultats de l’analyse des données sur les bisons de Craiu et al. (2008), avec une distribution supposée normale pour le coefficient de régression de la variable "prairie" . . . .
44
A.1 Exponentiel - β = 0 et paramètre d’étendue : 0, 1× la moyenne des déplacements observés
par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.2 Exponentiel - β = 0 et paramètre d’étendue : 1× la moyenne des déplacements observés
par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.3 Exponentiel - β = 0 et paramètre d’étendue : 5× la moyenne des déplacements observés
par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.4 Exponentiel - β = 0 et paramètre d’étendue : 10× la moyenne des déplacements observés
par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.5 Exponentiel - β = 0.5 et paramètre d’étendue : 0.1× la moyenne des déplacements observés par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.6 Exponentiel - β = 0.5 et paramètre d’étendue : 1× la moyenne des déplacements observés
par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.7 Exponentiel - β = 0.5 et paramètre d’étendue : 5× la moyenne des déplacements observés
par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.8 Exponentiel - β = 0.5 et paramètre d’étendue : 10× la moyenne des déplacements observés par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.9 Exponentiel - β = 1 et paramètre d’étendue : 0.1× la moyenne des déplacements observés
par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.10 Exponentiel - β = 1 et paramètre d’étendue : 1× la moyenne des déplacements observés
par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.11 Exponentiel - β = 1 et paramètre d’étendue : 5× la moyenne des déplacements observés
par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
52
52
53
53
54
54
55
55
56
56
57
vii
A.12 Exponentiel - β = 1 et paramètre d’étendue : 10× la moyenne des déplacements observés
par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.13 Exponentiel - β = 2 et paramètre d’étendue : 0.1× la moyenne des déplacements observés
par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.14 Exponentiel - β = 2 et paramètre d’étendue : 1× la moyenne des déplacements observés
par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.15 Exponentiel - β = 2 et paramètre d’étendue : 5× la moyenne des déplacements observés
par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.16 Exponentiel - β = 2 et paramètre d’étendue : 10× la moyenne des déplacements observés
par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.17 Weibull - β = 0 et paramètre d’étendue : 0, 1× la moyenne des déplacements observés
par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.18 Weibull - β = 0 et paramètre d’étendue : 1× la moyenne des déplacements observés par
Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.19 Weibull - β = 0 et paramètre d’étendue : 5× la moyenne des déplacements observés par
Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.20 Weibull - β = 0 et paramètre d’étendue : 10× la moyenne des déplacements observés par
Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.21 Weibull - β = 0.5 et paramètre d’étendue : 0.1× la moyenne des déplacements observés
par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.22 Weibull - β = 0.5 et paramètre d’étendue : 1× la moyenne des déplacements observés par
Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.23 Weibull - β = 0.5 et paramètre d’étendue : 5× la moyenne des déplacements observés par
Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.24 Weibull - β = 0.5 et paramètre d’étendue : 10× la moyenne des déplacements observés
par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.25 Weibull - β = 1 et paramètre d’étendue : 0.1× la moyenne des déplacements observés par
Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.26 Weibull - β = 1 et paramètre d’étendue : 1× la moyenne des déplacements observés par
Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.27 Weibull - β = 1 et paramètre d’étendue : 5× la moyenne des déplacements observés par
Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.28 Weibull - β = 1 et paramètre d’étendue : 10× la moyenne des déplacements observés par
Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.29 Weibull - β = 2 et paramètre d’étendue : 0.1× la moyenne des déplacements observés par
Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.30 Weibull - β = 2 et paramètre d’étendue : 1× la moyenne des déplacements observés par
Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.31 Weibull - β = 2 et paramètre d’étendue : 5× la moyenne des déplacements observés par
Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.32 Weibull - β = 2 et paramètre d’étendue : 10× la moyenne des déplacements observés par
Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
viii
57
58
58
59
59
60
60
61
61
62
62
63
63
64
64
65
65
66
66
67
67
Liste des figures
2.1
2.2
Environnements de Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . .
Résultats de Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
30
ix
Remerciements
Mes remerciements vont à toutes les personnes qui, par leurs encouragements, leur positivisme et
leur soutien ont contribué directement ou indirectement à la réalisation de mon mémoire. Je n’aurais
toutefois pu y parvenir sans l’appui et le dévouement constant de mon directeur de maîtrise, monsieur Thierry Duchesne, professeur au Département de mathématiques et de statistique de l’Université
Laval. Je lui témoigne toute ma reconnaissance et je le remercie pour son entière disponibilité, ses
judicieux conseils et sa grande connaissance, qui m’ont permis de persévérer tout au long de ma
rédaction.
De plus, je tiens grandement à remercier les professeurs Louis-Paul Rivest et Claude Bélisle pour leurs
nombreuses suggestions qui m’ont amené à améliorer globalement le contenu de mon mémoire.
Mon mémoire représente une grande réussite personnelle pour laquelle j’ai dû concilier mes responsabilités professionnelles et familiales. Je tiens donc à souligner le soutien et la compréhension de
ma conjointe Caroline, de mes soeurs, de mes frères ainsi que de mes parents. Ils ont cru en moi. Ils
représentent les fondations de mes études supérieures. Je partage avec eux ma fiereté d’avoir relevé ce
défi. Je remercie particulièrement mon frère Sébastien pour le nombre incalculable de fois où il m’a
aidé en informatique et en statistique.
Je dédie mon mémoire de maîtrise à mes deux fils, Gabriel et Mathis, pour qui j’ai une admiration
profonde et un amour inconditionnel.
xi
Introduction
L’étude du comportement des animaux en fonction de leur environnement est un sujet d’importance en
écologie. L’objectif premier est de déterminer l’influence qu’ont les composantes de l’environnement
sur les individus, pour lesquels les chercheurs soient mieux en mesure de comprendre les interactions
entre l’individu et son milieu.
Plusieurs chercheurs ont analysé la sélection des ressources selon le déplacement des individus, tels
que Forester et al. (2009), Craiu et al. (2008) et Craiu et al. (2011). Une approche populaire est de
comparer les caractéristiques des lieux visités par les individus à celles de lieux supposés disponibles,
mais non visités (Manly et al. (2002)). Dans ce type d’étude, on connait généralement les lieux visités.
Par contre, ce n’est pas le cas pour les lieux non-visités, pour lesquels un échantillonnage aléatoire est
requis. Toutefois, un échantillonnage non adéquat de ces lieux peut induire un biais dans les inférences
(Forester et al. (2009)). En attribuant la valeur 1 aux lieux visités et la valeur 0 aux lieux non-visités,
un modèle de régression logistique peut être ajusté aux données afin de déterminer les ressources les
plus recherchées par les individus.
Dans les études de sélection des ressources, un même individu peut être observé à plusieurs reprises.
Par conséquent, les données pour ce même individu sont fort probablement corrélées. Par ailleurs,
dans ce type d’études, les interactions entre l’individu et son milieu peuvent être importantes (Boyce
et al. (2003)) et l’hétérogénéité dans la disponibilité des ressources propre à chacun des individus
peut affecter les inférences. Ainsi, dans le cadre d’une étude de sélection des ressources où une corrélation intra-individu et une hétérogénéité inter-individus sont probablement existantes, le traitement
des données peut nécessiter l’emploi d’un modèle de régression logistique pouvant traiter les données
corrélées.
Ce mémoire porte donc sur l’association entre la sélection des ressources et le déplacement des individus. Plus spécifiquement, nous illustrons le cheminement statistique qui nous a menés à appliquer
un modèle mixte à une étude longitudinale du déplacement animal. Au chapitre 2, la théorie de divers
modèles de régression logistique est présentée. Les forces et les faiblesses des modèles quand ils sont
utilisés pour les études de sélection des ressources y sont décrites. Des exemples réels d’applications
sont également détaillés.
Le chapitre 3 est entièrement consacré à l’étude de Forester et al. (2009). Ces chercheurs ont démontré,
1
à partir d’une étude de simulation, l’importance de bien choisir la méthode d’échantillonnage des
lieux non visités et de tenir compte de cette méthode dans les inférences. Au chapitre 4, le modèle de
régression logistique mixte est introduit. Ce modèle permet de traiter les données corrélées en plus de
tenir compte d’une variabilité inter-individus dans la sélection des ressources. Comme au chapitre 2,
sa théorie ainsi qu’un exemple d’application sont présentés.
L’étude de Forester et al. (2009) a démontré l’impact sur les inférences d’un échantillonnage non
adéquat des lieux non-visités. Toutefois, ils n’ont pas considéré dans leur analyse une corrélation
intra-individu ni une hétérogénéité inter-individus dans la sélection des ressources. Pour cette raison,
leur modèle de simulation a été repris, au chapitre 5, afin d’ajuster aux données un modèle mixte et de
comparer les résultats obtenus avec ce modèle à ceux de leur étude. Au chapitre 6, le modèle mixte a
été ajusté au jeu de données réel sur les bisons du Parc national de Prince Albert considéré par Craiu
et al. (2008). L’objectif est de voir si le modèle mixte s’ajuste bien aux données et si les interprétations
des coefficients de régression sont modifiées.
2
Chapitre 1
La régression logistique
Ce chapitre introduit les modèles de régression logistique standard et conditionnel. Ceux-ci sont présentés dans deux contextes différents, soit celui où les données sont indépendantes et celui où les
données sont corrélées, comme dans les expériences où plusieurs observations sont recueillies sur une
même unité expérimentale.
La section 2.1 définit la notation générale employée dans ce chapitre. À la section 2.2, les hypothèses
de base sur lesquelles s’appuie la régression logistique sont énumérées. La section 2.3 considère la
régression logistique standard avec données indépendantes. Après une brève présentation du modèle,
on y discute de l’estimation des paramètres. La section 2.4 décrit la régression logistique conditionnelle dans le cadre d’une étude cas-témoins appariée. Une généralisation de la régression logistique
qui tient compte d’une corrélation entre les mesures prises sur un même individu est présentée à la
section 2.5. La section 2.6 se penche sur la régression logistique conditionnelle avec données corrélées
et présente un bref aperçu de la régression logistique conditionnelle mixte.
1.1
Notation générale
1. i représente le ie individu, où i = 1, . . . , n ;
2. Yi est la valeur pour l’individu i de la variable dépendante qui prend comme valeur 1 lors d’un
succès, 0 lors d’un échec ;
3. x0i = (1, xi1 , . . . , xip0 ) est le vecteur des variables indépendantes de l’individu i ;
4. xi j représente la je variable indépendante du ie individu, où j = 1, . . . , p0 ;
5. πi dénote la probabilité de succès (Yi = 1) chez l’individu i lors d’un essai ;
6. ηi est le prédicteur linéaire qui sert à modéliser la moyenne de la variable dépendante en fonction des valeurs des variables indépendantes de l’individu i ;
7. β 0 = (β0 , β1 , . . . , β p0 ) est le vecteur des coefficients de régression.
3
1.2
Fondements de la régression logistique
Le modèle de régression logistique est un membre de la famille des modèles linéaires généralisés. Les
hypothèses sur lesquelles il s’appuie sont les suivantes :
1. Sachant xi , Yi suit une distribution provenant de la famille exponentielle, soit la loi binomiale,
Yi ∼ Binomiale(mi , πi ) ; dans ce mémoire, nous ne considérons que le cas mi = 1 ∀i.
2. Le prédicteur linéaire est défini par ηi = x0i β .
3. La fonction de lien donnant la relation entre E [Yi |xi ] et le prédicteur linéaire que nous considérons est celle qui est la plus communément utilisée, c’est-à-dire la fonction de lien logit :
ηi = log
1.3
E [Yi |xi ]
1 − E [Yi |xi ]
⇔ E [Yi |xi ] =
exp(ηi )
.
1 + exp(ηi )
(1.1)
La régression logistique standard avec données indépendantes
Le modèle de régression logistique standard avec données indépendantes est souvent utilisé, en pratique, afin d’évaluer l’impact de facteurs sur une variable réponse binaire. Il se base sur la prémisse
que les observations sont indépendantes entre elles.
1.3.1
Écriture du modèle pour l’individu i
(
Soit Yi =
1,
si succès
0,
sinon.
On définit µi = E [Yi |xi ], où
µi = 0 × P[Yi = 0|xi ] + 1 × P[Yi = 1|xi ] = P[Yi = 1|xi ] = πi .
(1.2)
À partir de l’équation (1.2) et du lien logit, tel qu’exprimé à l’équation (1.1), on a que
πi =
exp(β0 + β1 xi1 + · · · + β p0 xip0 )
exp(x0i β )
=
.
0
1 + exp(xi β )
1 + exp(β0 + β1 xi1 + · · · + β p0 xip0 )
(1.3)
Tel qu’on peut le déduire de (1.3), les paramètres du vecteur β s’interprètent de la façon suivante :
1. Si β j > 0, la probabilité d’obtenir un succès, P[Yi = 1|xi ], augmente si xi j croît et que la valeur de
toutes les autres variables de xi demeure inchangée. Si β j < 0, la probabilité de succès diminue
lorsque xi j augmente et que la valeur de toutes les autres variables de xi reste inchangée. Si
β j = 0, alors la variable xi j n’a aucun effet sur la probabilité de succès.
2. Si β j 6= 0, la cote d’un succès, représentée par πi /(1 − πi ), est multipliée par exp(β j ) si xi j croît
d’une unité et que la valeur de toutes les autres variables de xi demeure inchangée. À noter que
le terme exp(β j ) est le rapport de cotes, soit le quotient de la cote de l’événement Yi = 1 lorsque
xi j = x + 1 sur cette cote quand xi j = x.
4
1.3.2
Estimation des paramètres par la méthode du maximum de vraisemblance
Selon l’équation (1.3), les paramètres à estimer sont les éléments du vecteur β . La méthode la plus
commune pour estimer la valeur de ces paramètres lorsque nous sommes en présence de n observations
indépendantes, soit (Y1 , x1 ), . . . , (Yn , xn ), est la méthode du maximum de vraisemblance. Elle consiste,
en premier lieu, à définir la fonction de vraisemblance, soit la fonction de probabilité conjointe de
Y1 , . . . ,Yn . Celle-ci est obtenue à partir de la fonction de probabilité de chaque observation individuelle
en considérant l’hypothèse que les observations sont indépendantes. La fonction de probabilité pour
l’observation i est
fβ (yi ; xi ) = πiyi (1 − πi )1−yi ,
yi = 0, 1,
(1.4)
et donc la fonction de probabilité conjointe de l’échantillon observé sera
n yi
1−yi
L(β ; y, x) = ∏ πi (1 − πi )
.
(1.5)
i=1
Il s’en suit que la fonction de log-vraisemblance est donnée par
l (β ; y, x) = log{L(β ; y, x)}
n
=
n
∑ yi log(πi ) + ∑ (1 − yi ) log(1 − πi )
i=1
n
=
i=1
n
∑ log(1 − πi ) + ∑ yi log
i=1
i=1
π i
.
1 − πi
(1.6)
La deuxième étape est de calculer la dérivée de la log-vraisemblance, que l’on appelle fonction de
score :
n
π i
∑ log(1 − πi ) + yi log 1 − πi
i=1
n
∂ n
log(1 − πi )
= ∑ yi x i +
∂ β i∑
i=1
=1
n
= ∑ xi yi − πi .
∂
∂
l (β ; y, x) =
∂β
∂β
(1.7)
(1.8)
(1.9)
i=1
= ηi = x0i β . Selon la définition de πi ,
l’équation (1.9) est obtenue en déduisant que log(1 − πi ) = log 1+exp1 (xi β ) .
La transition de (1.7) à (1.8) est la conséquence de log
πi
1−πi
Pour obtenir les estimateurs, il ne reste qu’à poser l’équation (1.9) égale à 0,
n
∑ xi (yi − πi ) = 0,
(1.10)
i=1
et résoudre pour les éléments de β . Sous un lien logit, πi = exp (x0i β )/ 1 + exp (x0i β ) , l’équation
(1.10) ne peut se résoudre en β avec une solution analytique. Une méthode itérative, telle que la méthode de Newton, permet de solutionner ce problème (voir les pages 114 à 116 du livre de McCullagh
5
et Nelder (1989)). La valeur de β qui maximise (1.5) et qui résout (1.10) est notée βb. La variance de
βb est obtenue en considérant les dérivées secondes de l (β ; y, x), soit
n
n
∂ n
∂
∂ 2 l (β ; y, x)
∂
=
(
y
−
π
)
=
−
πi
x
(
y
−
π
)
=
xi j
x
i
i
i
j
i
i
i
j
∑
∑
∑
2
∂ β j i=1
∂βj
∂βj
∂βj
i=1
i=1
exp(β 0 xi )
∂
∂ β j 1 + exp(β 0 xi )
i=1
xi j exp (β 0 xi )
= −xi j
(1 + exp(β 0 xi ))2
n
= − ∑ xi j
n
= − ∑ xi2j πi (1 − πi )
i=1
et, par un raisonnement similaire,
n
∂ 2 l (β ; y, x)
= − ∑ xi j xil πi (1 − πi ).
∂ β j ∂ βl
i=1
L’élément en position ( j, l ) de la matrice d’information observée est −∂ 2 l (β ; y, x)/∂ β j ∂ βl évalué en
c (βb), qui est un estimateur convergent de Var(βb)
β = βb. On pose l’inverse de cette matrice égale à Var
(Hosmer et Lemeshow (2000)).
1.4
La régression logistique conditionnelle avec données indépendantes
Plusieurs recherches ont pour objectif l’étude du comportement animal dans un environnement hétérogène. Dans les études de Craiu et al. (2008) et Duchesne et al. (2010), à chaque moment préalablement
défini, les données du lieu visité par chaque animal ont été recueillies grâce à des colliers GPS. Dans
un modèle de régression logistique, ces lieux visités correspondent à un succès (Yi = 1). Pour chacun d’entre eux, les caractéristiques géographiques peuvent être compilées, correspondant au vecteur
des variables indépendantes xi . Ainsi, à ce stade, nous possédons uniquement l’information sur les
lieux visités. Aucun modèle de régression ne peut s’appliquer aux données, car chacun des lieux a
la particularité que Yi égale 1. Afin d’obtenir des lieux pour lesquels Yi = 0, nous devons procéder
à un échantillonnage de lieux non visités. Pour ce faire, diverses méthodes d’échantillonnage seront
présentées au chapitre 3.
De l’information a priori connue introduit un aspect dit "rétrospectif" dans les données. Dans le type
d’études décrites ci-dessus, la valeur de Y est connue avant même le début de l’expérience et ce sont les
valeurs de x qui sont aléatoires. Par conséquent, l’analyse des données devra se faire par une méthode
permettant de considérer de l’information a priori connue et le mode d’échantillonnage des lieux non
visités dans l’ajustement du modèle et les inférences sur les éléments de β .
Craiu et al. (2008), Duchesne et al. (2010) et plusieurs autres chercheurs qui s’intéressent à l’étude
du comportement animal réalisent donc des études que l’on appelle cas-témoins appariées. Ce type
6
d’étude consiste, dans le cadre de l’étude du comportement animal, à échantillonner des lieux pour
lesquels Yi = 1 et de les apparier à un ensemble de lieux pour lesquels Yi = 0. On mesure ensuite les
valeurs des variables explicatives, xi , des lieux sélectionnés. Nous utiliserons la terminologie suivante.
Strate : Une strate est un groupe de lieux appariés.
Échantillonnage stratifié 1 : C : Un échantillon stratifié 1 : C est tel que dans toute strate, le nombre
de cas (Y = 1) est 1 et le nombre de témoins (Y = 0) est C. Ainsi, sous ce type d’échantillonnage,
chaque strate compte 1 lieu visité et C lieux non visités, pour un total de C + 1 lieux.
Étant donné l’information initialement disponible d’une étude cas-témoins appariée, l’utilisation de
méthodes d’inférence standards telles que décrites à la section 2.3 pour le modèle de régression logistique ne sont pas appropriées. En effet, ces méthodes ont été développées pour un modèle dit
"prospectif" où Yi est aléatoire et xi est fixée, et donc ne permettent pas de tenir compte de l’aspect
rétrospectif de l’échantillonnage des lieux non visités dans l’ajustement du modèle et dans l’interprétation des β j . Pour nos besoins, nous devrons donc modifier les méthodes d’inférence en utilisant une
approche dite de régression logistique conditionnelle.
1.4.1
Notation de la régression logistique conditionnelle
1. k est le numéro de la strate d’appariement, où k = 1, . . . , K ;
2. i représente le ie lieu d’une strate, où i = 1, . . . , nk ;
3. Y k constitue le vecteur des variables dépendantes de la strate k, soit Y 0k = (Yk1 , . . . ,Yknk ) ;
4. xki est le vecteur des variables indépendantes du lieu i de la strate k ;
5. β 0 = (β1 , . . . , β p0 ) est le vecteur des coefficients de régression.
1.4.2
Écriture du modèle
La régression logistique conditionnelle fait intervenir le même type de données que la régression
logistique standard. En effet, pour le lieu i de la ke strate, on a
(
1, lieu i de la strate k est visité
Yki =
0, sinon.
Soit (Yki , x0ki ), où x0ki = (xki1 , ..., xkip0 ). L’hypothèse de base du modèle de régression logistique conditionnelle est que dans l’ensemble des lieux disponibles d’où les données seront tirées,
πki = P[Yki = 1|xki , αk ] =
exp(αk + β 0 xki )
.
1 + exp(αk + β 0 xki )
(1.11)
Le terme αk est communément appelé "variable de stratification" ou "effet de strate". Il permet de tenir
compte du fait que lorsque des observations sont appariées, les règles d’appariement peuvent induire
une certaine corrélation entre les observations d’une même strate.
7
1.4.3
Estimation des paramètres par la méthode du maximum de vraisemblance
conditionnelle
Dans le contexte où la somme des Yki est déterminée pour chaque strate avant même de recueillir
les données, la méthode qui sera privilégiée pour estimer β sera la méthode du maximum de vraisemblance conditionnelle. La première étape de cette méthode est d’obtenir toutes les combinaisons
possibles que Y k peut prendre dans une strate, étant donné le mode d’échantillonnage. Par exemple,
prenons le cas d’un modèle stratifié 1 : 2, soit 1 succès et 2 échecs par strate. Voici les valeurs que peut
prendre Y 0k : (1,0,0) ;(0,1,0) ;(0,0,1) . En général, avec un plan d’échantillonnage stratifié 1 : C, on a
que Y k peut prendre C + 1 valeurs possibles, puisque
C+1
(C + 1)!
=
= C + 1.
1
C!1!
(1.12)
La seconde étape consiste à définir la fonction de vraisemblance conditionnelle d’une strate pour
un modèle stratifié 1 : C. Celle-ci peut s’écrire comme étant la probabilité d’observer le vecteur
(Yk1 ,Yk2 , . . . ,Yknk )0 sachant qu’il ne peut y avoir qu’un et un seul Yki = 1 dans ce vecteur. Dénotons par
l’indice z l’une des C + 1 valeurs possibles de Y k . Sans perte de généralité, supposons que la première
observation de la strate, Yk1 , est celle pour laquelle y = 1, donc Y 0k = (1, 0, . . . , 0). La vraisemblance
pour la strate k est donnée par
C +1
Lk (β ) = P Yk1 = 1,Yk2 = 0, ...,Yknk = 0xk , ∑ Ykz = 1 .
(1.13)
z=1
Dans le cas où C + 1 = 2, l’équation (1.13) devient
2
P Yk1 = 1,Yk2 = 0xk , ∑ Ykz = 1 =
z=1
où
2
P ∑ Ykz = 1xk =
z=1
(1.14)
exp(αk + β 0 xk1 )
1
0
1 + exp(αk + β xk1 ) 1 + exp(αk + β 0 xk2 )
(1.15)
exp(αk + β 0 xk1 ) + exp(αk + β 0 xk2 )
.
[1 + exp(αk + β 0 xk1 )][1 + exp(αk + β 0 xk2 )]
(1.16)
P[Yk1 = 1,Yk2 = 0|xk ] =
et
P[Yk1 = 1,Yk2 = 0|xk ]
,
P ∑2z=1 Ykz = 1xk
En substituant les équations (1.15) et (1.16) dans l’équation (1.14) et en réduisant le facteur commun
exp (αk )
[1+exp(αk +β 0 xk1 )][1+exp(αk +β 0 xk2 )]
du numérateur et du dénominateur, on obtient
exp (β 0 xk1 )
Lk (β ) =
.
exp (β 0 xk1 ) + exp (β 0 xk2 )
(1.17)
Dans le cas général du modèle stratifié 1 : C, l’équation (1.17) se généralise et permet d’obtenir la
fonction de vraisemblance pour la ke strate,
Lk ( β ) =
8
exp (β 0 xk1 )
.
C +1
∑z=1 exp (β 0 xkz )
(1.18)
Finalement, pour obtenir la fonction de vraisemblance pour tout l’échantillon en supposant l’indépendance entre les strates, il suffit de multiplier toutes les fonctions de vraisemblance des strates
individuelles,
exp (β 0 xk1 )
.
C +1
0
k=1 ∑z=1 exp (β xkz )
K
K
L(β ) = ∏ Lk (β ) = ∏
k =1
La log-vraisemblance découlant de l’équation (1.19) est
"
K
l (β ) =
∑
β 0 xk1 − log
k =1
C +1
∑ exp (β 0 xkz )
(1.19)
#
z=1
et la fonction de score est
#
"
K
∑Cz=+11 xkz exp (β 0 xkz )
∂ l (β )
U (β ) =
.
= ∑ xk1 − C+1
∂β
∑z=1 exp (β 0 xkz )
k =1
(1.20)
On remarque que le côté droit de l’équation (1.20) correspond à la fonction de score de vraisemblance
partielle permettant d’estimer les coefficients de régression pour un modèle de Cox stratifié (Hosmer
et Lemeshow (2000)). Puisque plusieurs logiciels permettent d’ajuster un modèle de Cox stratifié, la
régression logistique conditionnelle est facile à appliquer en pratique.
1.5
La régression logistique avec données corrélées
Fréquemment, dans les études du comportement animal, un même individu est observé à plus d’une
reprise. Bien que l’hypothèse d’indépendance entre les individus soit raisonnable, les valeurs de la
variable réponse pour un même individu sont fort probablement corrélées. On peut donc s’attendre à
ce qu’une possible corrélation intra-individu existe.
Avec des données longitudinales, les inférences des modèles de régression logistique standard et
conditionnelle décrites respectivement aux sections 2.3 et 2.4 ne sont pas appropriées. En effet, cellesci se basent sur l’hypothèse d’indépendance entre les observations et entre les strates. Elles ne permettent donc pas de tenir compte d’une possible corrélation intra-individu. Ainsi, les inférences sur
les β j pourraient s’avérer erronées. Afin de tenir compte de cette possible dépendance, on doit utiliser
des modèles de régression logistique pouvant traiter des données corrélées.
1.5.1
Notation de la régression logistique avec données corrélées
1. n est le nombre d’individus de l’étude ;
2. Y i représente le vecteur des variables dépendantes du ie individu, soit Y i = (Yi1 , . . . ,Yini )0 , avec
j = 1, ..., ni , où ni représente le nombre de mesures prises sur l’individu i ;
3. le nombre total d’observations est défini par ∑ni=1 ni = N ;
4. xi correspond à la matrice des variables indépendantes pour l’individu i, où xi = (xi1 , . . . , xini )0 ;
5. µi j (β ) est l’espérance de Yi j sachant xi j pour l’individu i.
9
1.5.2
Écriture du modèle
La présente section introduit la méthode des équations d’estimation généralisées (GEE) permettant
d’effectuer des inférences robustes sur le paramètre β dans la situation où les observations prises
sur un même individu sont dépendantes entre elles (Yi j est dépendante de Yi j0 ∀ j 6= j0 ). Toutefois,
les individus demeurent indépendants entre eux (Y i est indépendant de Y i0 ∀i 6= i0 ). Les équations
d’estimation généralisées sont utilisées afin que les estimés des β j et leurs estimateurs de variances
et covariances tiennent compte d’une possible corrélation intra-individu, sans pour autant que l’on
ait besoin de spécifier correctement cette corrélation. Nous discuterons d’une approche basée sur les
modèles mixtes qui, elle, implique une modélisation spécifique de la dépendance, au chapitre 4.
Nous utilisons une matrice symétrique communément appelée "matrice de corrélation de travail",
notée Ri (α ) et qui est définie ci-dessous, où α est le vecteur des paramètres de corrélation à estimer,


1

1
 corr (Yi1 ,Yi2 |xi1 , xi2 )
Ri (α ) = corr (Yi |xi ) = 
..
..

.
.

corr (Yi1 ,Yini |xi1 , xini ) . . . corr (Yi(ni −1) ,Yini |xi(ni −1) , xini ) 1


.


L’idée est d’essayer de spécifier la vraie structure de corrélation des Y i . Dans le cas où nous spécifions
une mauvaise structure de corrélation, les inférences sur β seront tout de même valides. Si la structure
de corrélation est bonne, alors les inférences seront plus précises.
La structure de la matrice de corrélation de travail Ri (α ) est en lien avec le plan d’expérience et le
type d’association possible entre les observations d’un individu. Voici quelques structures communes
pour Ri (α ).
1. La matrice de corrélation ayant la structure de type "indépendante" correspond à l’absence de
corrélation entre Yi j et Yi j0 , ∀ j 6= j0 ,

1 0
...
0



 0 1 0 ... 

.
Ri = 

0
0
1
.
.
.


.. .. . . . .
.
.
. .
2. La structure de type "échangeable" indique que la corrélation entre deux observations d’un
même individu est la même et égale à une valeur α pour toute paire d’observations,

1
α

 α 1
Ri (α ) = 
 α α

.. ..
. .
10
α
...


... 
.
1 ... 

.. ..
.
.
α
3. La structure de type "non structuré" permet à la corrélation entre les observations d’un même
individu de différer pour toutes les paires d’observations,

1
α1,2
...
α1,ni

..
..
 α
.
1
.
 1,2
Ri (α ) =  .
..
..
 ..
.
.
αni −1,ni

α1,ni . . . αni −1,ni
1




.


4. La structure "auto-régressive d’ordre 1" considère que la corrélation entre deux observations
d’un même individu diminue de manière géométrique lorsque les observations se distancent
(| j − j0 | augmente) dans le temps (ou l’espace),

1
α . . . α ni −1

..
..
 α
.
1
.

Ri (α ) =  .
.
.
 ..
.. ..
α

n
−1
α i
... α
1




.


Équations d’estimation sous l’indépendance
Afin d’introduire le concept des équations d’estimation généralisées, considérons l’hypothèse possiblement erronée d’indépendance entre les observations d’un même individu. Dénotons l’estimateur
de β sous l’hypothèse d’indépendance par βb . Sous cette hypothèse, on peut définir la matrice de
ind p
corrélation Ri (α ) comme étant la matrice de type "indépendante" de taille ni × ni . Nous pouvons
donc obtenir βbind p en maximisant la fonction de vraisemblance (1.5). Le résultat est la valeur de β qui
résout le système d’équations suivant :
n
Uindep (β ) =
∑ x0i 4i
Y i − µi (β ) = 0,
(1.21)
i=1
où 4i est une matrice diagonale de taille ni × ni dont les éléments sur la diagonale sont ∂ Θi j /∂ ηi j où
0
j = 1, . . . , ni et avec Θi j le paramètre canonique de la famille exponentielle et µi (β ) = µi1 (β ), ..., µini (β ) .
πi
; en isolant πi , on
Soulignons que le paramètre canonique de la loi binomiale est Θi j = log 1−π
i
obtient exp(Θi j ) =
πi
1−πi
⇒ πi =
exp(Θi j )
.
1+exp(Θi j )
Selon l’équation (1.1) de la section 2.2, on trouve que
Θi j = ηi j , et donc ∂ Θi j /∂ ηi j = 1.
À partir du système d’équations (1.21) et en supposant l’hypothèse d’indépendance vraie, on peut
√
démontrer que n(βb
− β ) converge en distribution vers la loi normale de moyenne nulle et de
ind p
variance
n
V =n
∑ x0i 4i Ai 4i x0i
!−1
,
(1.22)
i=1
11

πi1 (1 − πi1 )
0
...
0
..
.
πi2 (1 − πi2 )
0
..
.
0
...



où Ai = 


0

0
..
.
0
πini (1 − πini )



.


Équations d’estimation généralisées
Le concept d’équations d’estimation généralisées est en fait une généralisation du système d’équations
(1.21), où une corrélation intra-individu autre que l’indépendance pour Ri (α ) peut être intégrée. La
matrice de variance pour les observations Y i est alors donnée par
1/2
V i = φ A1/2
i Ri (α )Ai .
(1.23)
Dans l’équation (1.23), les paramètres α et φ (paramètre de surdispersion) sont inconnus. Selon Liang
et Zeger (1986), on peut les estimer à partir des résidus de Pearson qui sont définis comme suit :
Yi j − µi j
ri j = p
Var (Yi j )
et obtenir l’estimé du paramètre φ par
φb =
n ni
1
∑ ri2j .
N − ( p0 + 1) i∑
=1 j =1
L’estimation du paramètre α dépend de la forme choisie pour Ri (α ). Le lecteur peut, par exemple,
consulter l’aide de la procédure GENMOD de SAS pour voir les formules des estimateurs pour chacune des structures de corrélation mentionnées précédemment.
Pour estimer β , on trouve la valeur de β qui résout le système d’équations d’estimation généralisées
N
U corr (β ) =
∑ (Ai 4i xi )0V −1
i
Y i − µ i (β ) = 0.
i=1
Pour ce faire, on a recours à l’algorithme itératif suivant.
Algorithme de la méthode GEE
b i = φbAi 4i xi et Vb i = φbA1/2 Ri (α
b )Ai1/2 .
Soit D
i
(0)
1. Calculer βbind p et poser βb = βbind p .
2. Poser m = 1.
(m−1)
3. Calculer les résidus de Pearson à partir de βb
.
b
4. Estimer α
12
(m)
et φb(m) en fonction des résidus de Pearson.
(1.24)
(m)
5. Calculer βb à partir de l’équation
(m)
(m−1)
βb = βb
+
N
0
∑ DbiVb i Dbi
−1
i=1
N
(m−1) 0 −1 b
b
b
) = 0,
∑ DiV i Y i − µ i (β
i=1
(m)
b i et Vb i sont évaluées en β = βb .
où D
6. Poser m = m + 1.
On itère les étapes 2 à 7 jusqu’à ce que la différence entre βb
(m)
βb = βb .
(m)
et βb
(m−1)
soit négligeable et on pose
Estimation de la matrice de variances-covariances
Une fois βb obtenu, il nous est maintenant possible d’estimer sa matrice de variances-covariances. Si la
matrice Ri (α ) est correctement spécifiée, la matrice de variances-covariances de βb s’estime de façon
convergente par
Vt =
N
0 −1
∑ DbiVb i Dbi
−1
.
i=1
Cependant, la matrice Ri (α ) ne reflète possiblement pas la véritable structure de corrélation de Y i .
Pour remédier à ce problème, on corrige, de façon empirique, la matrice Vt en prenant l’estimateur
"sandwich" robuste
N
0 −1
0 b −1 b
b
b
b
b
Vs = Vt ∑ DiV i {Y i − µ i (β )}{Y i − µ i (β )} V i Di Vt .
(1.25)
i=1
Plus la matrice Ri (α ) est proche de la vraie matrice, plus les inférences seront efficaces.
L’estimateur βb obtenu par la méthode des GEE est approximativement de loi normale de moyenne β
et de variance Vs , en autant que la fonction µi j (β ) soit correctement spécifiée. Ainsi, des inférences
de type Wald peuvent être effectuées sur les éléments de βb. Par exemple, pour le test H0 : β = β
0
b
contre H1 : β 6= β 0 , on pose w = (βb − β 0 )0 V−1
s (β − β 0 ) et sous H0 , w suit approximativement une loi
du khi-deux à p degrés de liberté.
1.5.3
Exemple Stokes et al. (2000)
Deux traitements contre les troubles respiratoires ont été testés sur n = 111 patients recrutés aléatoirement dans deux centres hospitaliers (Stokes et al. (2000)). Pour chacun des patients, on mesure la
variable réponse, soit le statut respiratoire, (0 pour un "mauvais" statut et 1 pour un "bon" statut). Soit
yi j la valeur de la variable réponse pour le ie patient à la je visite où l’on mesure le statut respiratoire,
j = 1, . . . , 4. À noter que même si la majorité des variables explicatives demeure constante à chaque
visite, l’indice j a été conservé par souci de cohérence avec la notation employée à la section 5.1. Le
vecteur des variables explicatives est donc x0i j = (1, xi j1 , . . . , xi j5 ), où, lors de la visite j, xi j1 représente
l’âge du patient i ; xi j2 est le sexe du patient i (égal à 0 si le patient est un homme, 1 sinon) ; xi j3
13
correspond au traitement reçu par le patient i (égal à 0 si le traitement est le placebo, 1 sinon) ; xi j4
indique le statut respiratoire de base du patient i (égal à 0 si le statut respiratoire de base est mauvais,
1 sinon) et xi j5 est l’hôpital d’où est recruté le patient i (égal à 0 si c’est le centre 1, 1 sinon).
Un modèle de régression logistique a été considéré et a été ajusté avec la méthode GEE. Voici respecb ) ; la matrice des
tivement la matrice de corrélation de travail de type "non structuré" estimée, Ri (α
covariances de β̂ basée sur le modèle, Vt et l’estimateur "sandwich" robuste, Vs , obtenus avec une
structure de type "non structuré" tel qu’utilisée par Stokes et al. (2000).

1
0.3351 0.2140 0.2953



 0.3351
1
0.4429 0.3581 
.

Ri (α̂ ) = 

0.2140
0.4429
1
0.3964


0.2953 0.3581 0.3964
1






Vt = 










Vs = 




0.22781
−0.06479
−0.009243 −0.006374 −0.004407
−0.05334


0.02915 

−0.009243 0.0008109
0.11454
−0.02431 −0.000969 −0.02014 

.
−0.006374
0.03195
−0.02431
0.17381
−0.001237 0.01644 

−0.004407 −0.000209 −0.000969 −0.001237 0.0001571 0.0000404 

−0.05334
0.02915
−0.02014
0.01644
0.0000404
0.11631
−0.06479
0.11158
0.0008109
0.20868
−0.05925
0.0000558
0.03195
−0.000209
−0.004454 −0.004046 −0.05198


0.03267 

0.0000558 −0.01566
0.12335
−0.04417 −0.000397 −0.02014 

.
−0.004454
0.05751
−0.04417
0.19432
−0.002242 0.03981 

−0.004046 −0.000835 −0.000397 −0.002242 0.0001654 −0.0004 

−0.05198
0.03267
−0.03537
0.03981
−0.0004
0.11839
−0.05925
0.11940
−0.01566
0.05751
−0.000835
Les estimés β̂ obtenus à partir des matrices de corrélation de travail de type "indépendante" et de type
"non structuré" sont présentés respectivement aux tableaux 1.1 et 1.2.
À noter que pour le test sur un seul coefficient βi , la statistique du test de Wald (fréquemment dénoté
z) est donnée par z = (βbi − 0)/(écart-type robuste de βbi ) et le seuil observé est 2P[N (0, 1) > |z|].
D’après les estimations des paramètres du vecteur α de la matrice de corrélation de travail de type
b sont assez rap"non structuré", une corrélation intra-individu semble exister. Toutefois, les valeurs α
prochées l’une de l’autre, pouvant suggérer une structure de type "échangeable". L’impact de la corrélation intra-individu semble se refléter dans l’estimation de la matrice des covariances de β̂ . En effet,
l’estimateur "sandwich" robuste Vs et la matrice des covariances de β̂ basé sur le modèle, Vt , affichent
des corrélations parfois divergentes. Cependant, cela a eu peu de répercussions sur les estimés β̂ et
14
TABLE 1.1: Coefficients de régression obtenus avec la méthode GEE (matrice de corrélation de travail
de type "indépendante")
Paramètres
Ordonnée
Âge
Sexe
Traitement
Statut de base
Hôpital
Estimés
-0.8561
-0.0188
0.1368
1.2654
1.8457
0.6495
Écart-type
Naïf Robuste
0.3351
0.4564
0.0088
0.0130
0.2933
0.4402
0.2350
0.3467
0.2393
0.3460
0.2383
0.3532
Statistique de Wald
-1.88
-1.45
0.31
3.65
5.33
1.84
Seuil observé
0.0607
0.1480
0.7560
0.0003
<0.0001
0.0660
TABLE 1.2: Coefficients de régression obtenus avec la méthode GEE par Stokes et al. (2000) (matrice
de corrélation de travail de type "non structurée")
Paramètres
Ordonnée
Âge
Sexe
Traitement
Statut de base
Hôpital
Estimés
-0.8882
-0.0175
0.1128
1.2442
1.8981
0.6558
Écart-type
Naïf Robuste
0.3351
0.4568
0.0088
0.0129
0.2933
0.4408
0.2350
0.3455
0.2393
0.3441
0.2383
0.3512
Statistique de Wald
-1.94
-1.36
0.26
3.60
5.52
1.87
Seuil observé
0.0519
0.1728
0.7981
0.0003
<0.0001
0.0619
leur écart-type robuste. De plus, les estimés βb et leurs variances-covariances obtenus sous la matrice
de corrélation de travail de type "indépendante" sont pratiquement identiques à ceux obtenus avec
la matrice de type "non structuré". Par ailleurs, le fait de ne pas corriger les écarts-types pour tenir
compte de la corrélation intra-individu aurait mené à une sous-estimation de ceux-ci.
Le test de type Wald suggère que le traitement a une influence significative sur le statut respiratoire des
patients (variable réponse). Pour cette covariable, la valeur de β̂ indique que le traitement augmente
la probabilité qu’un patient ait un "bon" statut. Lorsqu’un patient reçoit le traitement, on estime que
la cote de succès est multipliée par exp (1.2442) = 3.47.
1.6
Régression logistique conditionnelle avec données corrélées
Dans le cadre d’une étude longitudinale cas-témoins appariée, Craiu et al. (2008) ont observé les déplacements de mêmes animaux à plusieurs reprises et ont comparé les lieux visités à des lieux non
visités obtenus en fonction d’un échantillonnage stratifié 1 : 10. Contrairement au modèle de régression logistique conditionnelle présenté à la section 2.4, l’hypothèse d’indépendance entre les strates
n’était pas raisonnable. En effet, la sélection d’un lieu au temps t et celui au temps t + 1 risquent d’être
corrélés pour un même individu. Quant au modèle de régression logistique avec données corrélées décrit à la section 2.5, celui-ci est un modèle "prospectif" ne permettant pas de considérer l’information
a priori connue lorsque la variable réponse est fixée avant même le début de l’échantillonnage. Par
15
conséquent, afin de tenir compte à la fois de la dépendance entre les strates d’un même individu et
de l’aspect "rétrospectif" d’une étude longitudinale cas-témoins appariée, un modèle de régression
logistique conditionnelle avec données corrélées construit avec la méthode des GEE est utilisé. Les
avantages de la méthode GEE (variance robuste, estimateurs toujours valides lors d’une mauvaise
spécification de la matrice de corrélation des observations) peuvent ainsi être exploités.
1.6.1
Notation pour la régression logistique conditionnelle avec données corrélées
1. n est le nombre d’individus de l’étude, i = 1, . . . , n ;
2. K (i) représente le nombre de strates du ie individu, k = 1, . . . , K (i) ;
(i)
(i)
(i)
(i)
(i)
3. Y k dénote le vecteur de la variable dépendante de la ke strate du ie individu, où Y k = Yk1 , . . . ,Ykl , . . . ,Yk(C+1)
avec l = 1, . . . , (C + 1) ;
(i)
4. X k est la matrice, de taille (C + 1) × p, des variables indépendantes de la ke strate du ie individu,
(1)
(i)
(i)
(i)0
(i) 0
(i)
(i)
avec xkl = xkl1 , . . . , xkl p et X k = xk1 , . . . , xkl , . . . , xk(C+1)
1.6.2
Écriture du modèle
(
(i)
Soit Ykl
=
1,
lieu visité
0, lieu non visité.
Le modèle de régression logistique conditionnelle avec données corrélées se base sur les hypothèses
suivantes :
(i)
1. avant d’échantillonner les lieux non visités, on fixe ∑Cl =+11 Ykl = 1 ∀i, k ;
2. on suppose l’indépendance entre les individus.
Encore une fois, l’indice z représente l’une des C + 1 combinaisons possibles, composées d’une seule
(i)
valeur de 1 et de C valeurs de 0, que peut prendre le vecteur Y k . On a que pour une strate
(i)
Lk
C +1
(i)
(i)
β ∑ Ykl = 1, xkl =
l =1
(C +1)
où ∑z=1
(i) (i) exp ∑Cl =+11 β 0 xkl Ykl
(C +1)
(i) (i) 0
∑z=1 exp ∑Cl =+11 β xkl vzl
(i)
,
(1.26)
(c)
(i)
représente la somme sur tous les vecteurs possibles vz tels que vzl ∈ {0, 1} et ∑Cl =+11 vzl =
(i)
1. Prenons par exemple le cas d’une étude cas-témoins 1 : 2. Les vecteurs possibles de vz sont donc
(1,0,0)’ ; (0,1,0)’ ;(0,0,1)’.
(i)
Afin de pallier à la singularité de la matrice de variances-covariances des Y k en raison de la contrainte
(i)
linéaire ∑Cl =+11 Ykl = 1, on peut récrire l’équation (1.26) en omettant la première observation, tel que
∗(i)
(i)
(i)
démontré par Craiu et al. (2008). En effet, si l’on définit xkl = xkl − xk1 avec l 6= 1, le vecteur des
variables explicatives "réduit", alors
∗(i)
Lk
16
∗(i) β |xkl
∗(i) (i) ≡
exp ∑Cl =+21 β 0 xkl Ykl
(C +1)
∗(i) (i) 0
∑z=1 exp ∑Cl =+21 β xkl vzl
=
(i)
Lk
C +1
(i)
(i)
β ∑ Ykl = 1, xkl .
l =1
(1.27)
0
1.6.3
Lien avec la méthode GEE
L’hypothèse de dépendance entre les strates d’un même individu fait qu’on ne peut obtenir sa contribution à la vraisemblance à partir de l’équation (1.27), et donc de définir les équations à résoudre
pour estimer β . Néanmoins, commençons par supposer que les strates d’un même individu sont indépendantes. De (1.27), on a que pour la log-vraisemblance et la fonction de score avec le vecteur des
variables explicatives "réduit" pour l’ensemble des individus sont données respectivement par
"
!#
∗(i)
l ∗(i) (β |xkl ) =
C +1
"
U (β ) =
C +1
∑ ∑
"
∑
C +1
exp
z=1
∗(i) (i)
xkl Ykl −
i=2
i,k
=
(C +1)
l =2
i,k
∗
∗(i) (i)
Ykl − log
∑ ∑ β xkl
∗(i) (i)
vzl
∑ β xkl
l =2
(C +1) ∗(i) (i)
∗(i) (i) ∑z=1 xkl vzl exp ∑Cl =+21 β xkl vzl
(C +1)
∗(i) (i) ∑z=1 exp ∑Cl =+21 β xkl vzl
#
#
C +1
(i)
∑ ∑ x∗kl {Ykl
(i)
− µ kl (β )} ,
l =2
i,k
(i)
(i)
où le théorème 1 à la page suivante indique que µ kl est l’espérance conditionnelle de Ykl .
Sous l’hypothèse d’indépendance entre les strates, le système d’équations à résoudre permettant d’obtenir βb est
U ∗ (β ) = 0.
(1.28)
Lorsqu’il existe une corrélation entre les strates d’un même individu, une meilleure robustesse dans
les inférences sur β est requise. Une possibilité est d’écrire l’équation (1.28) sous la forme des GEE.
Il sera donc utile de définir les variables à nouveau :
0
0
Y (1) , . . . ,Y (n)
(i) 0
(i) 0
=
Y 1 , . . . ,Y K (i) ∀i = 1, . . . , n
Y0 =
où Y (i)
0
(i)0
(i)
(i)
Yk2 , . . . ,Yk(C+1)
" #
C +1
(i)
µ (β ) = E Y ∑ Ykl = 1; X ∗kl
l =1
"
#
C +1
(i)
(i)
(i) ∗
µ (β ) = E Y ∑ Ykl = 1; X kl ,
l =1
Yk
=
où X ∗kl = x∗k1 , . . . , x∗k(C+1) . Le théorème qui suit est démontré par Craiu et al. (2008).
Théorème 1. Soit D(i) = ∂ µ (i) (β )/∂ β 0 la matrice des dérivées du vecteur des moyennes condition (i)
nelles de l’individu i de taille ∑Kk=1 (C + 1) − 1 × p et
(i)
(C +1) (i)
V ind pendante = Var Y (i) | ∑l =1 Ykl = 1; X ∗kl . Alors,
n
U ind pendante (β ) =
∑D
(i)
−1
(i)
V independante
(i)
(i)
Y − µ (β )
(1.29)
i=1
17
où
(C +1)
(C +1)
β x∗kl vzl
µ (β ) =
,
(C +1)
(C +1)
∑z=1 exp ∑l =2 β x∗kl vzl
∑z=1 vzl exp ∑l =2
(i)
(C +1)
µ (im) (β ) =
(C +1)
β x∗kl vzk
(C +1)
∑z=1 exp ∑Cl =+21 β x∗kl vzl
∑z=1 vzl vzm exp ∑l =2
(1.30)
∀i 6= m.
(i)
(1.31)
(i)
et V independante est une matrice bloc diagonale. Les éléments en position (i, j) de V independante sont

si i et j ne proviennent pas de la même strate

 0,
Vij =
µi (1 − µi ), si i = j


µi j − µi µ j , i 6= j, i et j proviennent de la même strate.
La variance robuste de l’estimateur βb résolvant l’équation (1.28), notée V g , est donnée par
Vg =
n
∑D
(i) 0
−1
(i)
V ind pendante D(i)
−1
i=1
n
−1 (i)
0
(i)
Y − µ (i) ( β )
× ∑ D(i) V ind pendante
i=1
× Y
(i)
(i)
− µ (β )
0
−1
(i)
V ind pendante D(i)
n
−1 (i) −1
(i)
(i) 0
× ∑D
V ind pendante D
(1.32)
i=1
que l’on évalue en β =βb.
1.6.4
Exemple de Craiu et al. (2008)
L’étude des bisons du Parc national de Prince Albert présentée par Craiu et al. (2008) a pour but
d’investiguer les relations entre la répartition d’une population de bisons et les caractéristiques de leur
environnement. L’expérience a été réalisée sur neuf bisons munis d’un collier GPS localisés à chaque
heure à raison de deux jours par semaine sur une période de trois mois.
Une étude longitudinale cas-témoins appariée a été effectuée, où chaque lieu visité par un bison
(Y = 1), par intervalle d’une heure, est apparié à 10 lieux non visités (Y = 0). Ces derniers ont été
échantillonnés aléatoirement dans un cercle de rayon de 300 mètres centré autour du lieu observé. Ce
rayon permet de capturer 85% des distances de l’ensemble des déplacements observés. Par ailleurs,
les covariables du modèle correspondent aux caractéristiques géographiques de l’environnement. En
se basant sur une image satellite Landstat TM, la zone à l’étude a été subdivisée en 7 catégories :
les terres agricoles, les prairies, les regroupements de conifères, les regroupements d’arbres à feuilles
caduques, les plans d’eau, la zone riveraine et les routes. Un modèle de régression logistique conditionnelle avec données corrélées a été retenu pour l’analyse afin de respecter l’aspect "rétrospectif" de
l’étude et de considérer la possibilité d’une corrélation intra-individu.
18
Dans le modèle de régression cas-témoins appariée, les 9 bisons sont représentés par l’indice i =
1, ..., 9. On dénombre au total 624 strates par individu, soit 2 jours × 24 heures × 13 semaines. Craiu
et al. (2008) se sont intéressés aux différents types d’habitats des bisons : 7 types d’habitats ont
été codés avec 6 variables indicatrices avec les regroupements d’arbres à feuilles caduques comme
catégorie de référence, en plus de la proportion de prairies dans un cercle de 300 mètres ("P300"),
une variable continue, et à l’interaction entre cette dernière proportion et le type d’habitat "Prairies",
notée "Prairies_int". Les différents types d’habitats ainsi que les variables "P300" et "Prairies_int"
constituent le vecteur x des variables indépendantes. La méthode des GEE a été appliquée aux données
de Craiu et al. (2008) à l’intérieur d’un modèle de régression logistique conditionnelle avec données
corrélées. La matrice de corrélation de travail de type "indépendante" a été utilisée, tel que suggéré
par Craiu et al. (2008).
Le tableau 1.3 fournit les résultats du modèle de régression : la 1re colonne identifie le type d’environnement ; la 2e affiche la valeur des β̂ j ; la 3e donne l’écart-type des β̂ j en supposant une corrélation
intra-individu nulle ; la 4e donne les seuils observés obtenus, par le test de Wald sous l’hypothèse d’indépendance (p-value naive) ; la 5e est l’écart-type des β̂ j qui considère une corrélation intra-individu
et la 6e colonne donne les seuils observés pour le test de Wald qui utilise l’estimateur de la variance
robuste (p-value robuste).
TABLE 1.3: Résultats du modèle de régression logistique conditionnelle avec la méthode GEE appliqué aux données sur les bisons de Craiu et al. (2008)
q
q
ˆ
ˆ
β̂ j
Variables
Var
p-value naive
Var
p-value robuste
I β̂
Robusteβ̂
j
P300
Prairies
Prairies_int
Conifères
Plans d’eau
Riverains
Zones agricoles
Routes
0.644
1.464
-0.904
-0.539
-0.164
-0.566
1.213
0.875
0.252
0.065
0.246
0.061
0.093
0.281
0.413
0.106
j
0.0106
<0.0001
0.0002
<0.0001
0.0793
0.0440
0.0033
<0.0001
0.336
0.118
0.424
0.100
0.159
0.240
0.092
0.163
0.0558
<0.0001
0.0328
<0.0001
0.3031
0.0184
<0.0001
<0.0001
Les résultats présenté au tableau 1.3 révèlent que les déplacements des individus ne sont pas totalement
aléatoires. Relativement aux regroupements d’arbres à feuilles caduques, les bisons sont davantage
attirés par les "zones agricoles" et les "routes". Également, la force de sélection des "prairies" diminue
lorsque la proportion des prairies ("Prairies_int") est dense à l’intérieur du cercle de 300 mètres. De
plus, les bisons sont plus attirés par les regroupements d’arbres à feuilles caduques que par les "plans
d’eau", les "conifères" et les "zones riveraines".
L’interprétation de l’attrait des "plans d’eau" varie si l’on tient compte ou non de la corrélation intraindividu. En effet, le seuil observé "naïf" permet de considérer cette covariable significative au seuil
de 10%, ce qui n’est pas le cas avec le seuil observé robuste.
19
1.6.5
Contrainte d’interprétation de βb causée par l’utilisation de la méthode GEE
Tel que discuté aux sections 2.5 et 2.6, la corrélation intra-individu peut être considérée dans les inférences grâce à la méthode GEE. Cependant, cette méthode fournit des estimés des coefficients de
régression qui représentent l’effet d’un changement dans les variables indépendantes sur la valeur
moyenne des Y dans la population, soit une approche marginale. De plus, elle ne modélise pas explicitement l’hétérogénéité dans le comportement inter-individus. Au chapitre suivant, nous verrons que
dans le cas d’études du déplacement animal, cette approche marginale possède des lacunes, ce qui
nous incitera, au chapitre 4, à introduire une approche conditionnelle basée sur un modèle mixte pour
effectuer la régression logistique conditionnelle.
20
Chapitre 2
La sélection des ressources
La sélection des ressources par un animal se définit en fonction du comportement de ce dernier vis-àvis la disponibilité des ressources à sa disposition. Elle nous renseigne donc sur les ressources les plus
recherchées chez l’animal. Par exemple, si 50% des localisations observées pour un animal sont dans
les marais, mais que les marais ne représentent que 10% de son domaine vital, on pourra conclure
que cet animal a une préférence pour ce type d’habitat puisqu’il s’y retrouve plus souvent que ce à
quoi on s’attendait sous une sélection d’habitat aléatoire. Plusieurs études ont analysé ce sujet pour
un troupeau d’animaux, telle que l’étude de Boyce et al. (2003), de même que pour des animaux
individuels, par exemple l’étude de Craiu et al. (2011). Pour ce faire, elles comparent les lieux visités
aux lieux disponibles non visités par chaque individu (Thomas et Taylor (2006)).
Ce chapitre discute des études du déplacement des animaux en fonction de la sélection des lieux visités
et de l’échantillonnage des lieux non visités. De ce fait, il est nécessaire d’introduire les concepts de
fonction de sélection des ressources et de fonction de sélection des déplacements.
Tout d’abord, la fonction de sélection des ressources, notée RSF, est proportionnelle à la probabilité
qu’un lieu soit visité étant donné les caractéristiques qui le composent. Elle permet ainsi de prédire
les ressources les plus susceptibles d’attirer l’animal. Elle se définit ainsi :
Définition 2.1. La RSF est proportionnelle à la probabilité que l’animal visite un lieu étant donné les
caractéristiques de ce lieu ; c’est-à-dire qu’il exite une constante q telle que
RSF = qP[ lieu est visité| les caractéristiques de ce lieu].
Quant à la fonction de sélection des déplacements, notée SSF, elle a été introduite par Fortin et al.
(2005). Son objectif est d’expliquer ou de prédire le déplacement d’un animal en incorporant simultanément les caractéristiques du déplacement (angle, distance, énergie à déployer, danger le long du
trajet, etc.) et l’information sur les ressources disponibles au bout du déplacement. De ce fait, contrairement à la RSF, elle permet de tenir compte des caractéristiques du trajet de déplacement entre deux
lieux.
21
Les paramètres d’une SSF peuvent être estimés à partir d’un modèle de régression logistique conditionnelle avec données indépendantes sous un étude cas-témoins appariée en associant à chaque lieu
visité plusieurs lieux non visités, aussi appelés "lieux témoins", dans le domaine des lieux disponibles.
Forester et al. (2009) présentent trois méthodes d’échantillonnage de ces lieux témoins en fonction de
l’emplacement du lieu visité. Selon l’étude de Forester et al. (2009), un échantillonnage non adéquat
des lieux témoins peut induire un biais dans l’inférence sur les coefficients de régression d’une SSF.
2.1
Notation
1. i = 1, . . . , n dénote l’animal ;
2. a indique le lieu où se trouve l’animal au temps t ;
3. a0 indique le lieu où se trouvait l’animal au temps t − 1 ;
4. b est le prochain lieu visité par l’animal au temps t + 1 ;
5. Da représente l’ensemble des lieux disponibles que l’animal peut visiter à partir du lieu a dans
un pas de temps donné, soit le domaine des lieux disponibles ;
6. X représente les caractéristiques d’un lieu et constitue le vecteur des variables indépendantes ;
7. H est le nombre de lieux témoins échantillonnés que l’animal aurait pu visiter à partir du lieu
a;
8. T i correspond au vecteur des temps où la localisation de l’animal i est observée, où Ti 0 =
(ti1 , . . . ,tiGi ) avec g = 1, . . . , Gi .
2.2
Écriture du modèle
En se basant sur les travaux de Rhodes et al. (2005), pour un animal qui a visité les lieux a0 et a
respectivement aux temps t − 1 et t, on peut modéliser la densité de probabilité qu’il se trouvera au
lieu b ε Da au temps t + 1 par
φ (a0 , a, b; θ )ω{X (b); β }
,
lεDa φ (a0 , a, l; θ )ω{X (l ); β }dl
f (b|a, a0 , X (b)) = R
(2.1)
où X (b) représente les caractéristiques du lieu b. La densité (2.1) est proportionnelle au produit de
la RSF, représentée par ω{X (l ); β }, et d’un noyau de déplacement indépendant des ressources, noté
φ (a0 , a, l; θ ). Ce dernier décrit le mouvement d’un animal dans un environnement homogène en fonction de la distance parcourue et de l’angle de pivotement. Il représente ainsi la probabilité qu’un animal
se déplace du lieu a au lieu b en l’absence de sélection de ressources. L’hypothèse la plus fréquente
consiste à définir la RSF sous une forme log-linéaire,
ω{X (b); β } = exp{X (b)0 β }.
22
(2.2)
Quant au noyau de déplacement indépendant des ressources, on peut lui attacher une forme paramétrique ou non paramétrique, selon la disponibilité des données ou l’état de nos connaissances. Forester
et al. (2009) suggèrent une distribution de Weibull de paramètres (ν, λ ), dont la fonction de densité
est donnée par le numérateur de l’équation (2.3), pour la distance qui sépare le lieu a du lieu b et une
loi uniforme sur l’intervalle [0, 2π ] pour l’ange de pivotement, et l’indépendance entre l’angle et la
distance. Cette spécification mène au noyau de déplacement
φ (a0 , a, b; θ ) =
νλ (λ rab )ν−1 exp[−(λ rab )ν ]
,
2πrab
θ = (ν, λ ),
(2.3)
où rab correspond à la distance qui sépare le lieu a du lieu b. À noter que Forester et al. (2009)
définissent la SSF comme étant le produit de la RSF et du noyau de déplacement, soit le numérateur
de l’équation (2.1).
2.3
Fonction de vraisemblance conditionnelle
Le calcul de la vraisemblance totale permettant d’estimer les paramètres β et θ nécessite d’évaluer
l’intégrale au dénominateur de l’équation (2.1). Rhodes et al. (2005) mentionnent que cette intégrale
risque d’être difficile à évaluer si Da est large. Par ailleurs, peu importe l’étendue de Da , la résolution
de l’intégrale requiert l’emploi d’une méthode numérique pour plusieurs spécifications de φ , ω ou X.
La difficulté d’évaluation de cette intégrale a amené Forester et al. (2009) à développer une fonction de
vraisemblance conditionnelle basée sur un échantillonnage de lieux témoins. À noter qu’afin d’alléger
l’écriture de certaines équations, la dépendance sur a0 sera omise.
Pour tenir compte de la méthode d’échantillonnage des lieux témoins, on définit un ensembe de lieux
non ordonnés s = {l0 , l1 , . . . , lH } contenant H lieux témoins échantillonnés à l’intérieur de D̃a , où
D̃a ⊇ Da , selon une méthode d’échantillonnage prédéterminée et un lieu visité b autour du lieu de
départ a à un pas de temps donné. En fonction de la méthode d’échantillonnage, la densité du vecteur
s sachant a, b et les caractéristiques de l’environnement est donnée par (Forester et al. (2009))
u(s|b, a, X ) =
1
φ ∗ (a, b; κ )
(H − 1)! ∏ φ ∗ (a, l; κ ),
(2.4)
lεs
où φ ∗ correspond à un noyau de déplacement indépendant des ressources, mais dépendant de l’angle
de pivotement et de la distance à parcourir dénotés par κ. En somme, φ ∗ est une distribution connue
définie par l’utilisateur qui approxime la distribution inconnue φ .
23
La probabilité conditionnelle d’observer l’animal au lieu b sachant s, a et X est donc
P[lieu = b|s, a, X ] =
=
=
=
f (b|a, X )u(s|b, a, X )
∑lεs f (l|a, X )u(s|l, a, X )
1
f (b|a, X ) φ ∗ (a,b;θ
(H − 1)! ∏lεs φ ∗ (a, l; κ )
)
1
(H − 1)! ∏vεs φ ∗ (a, v; κ )
∑lεs f (l|a, X ) φ ∗ (a,l;κ
)
f (b|a, X )/φ ∗ (a, b; κ )
∑lεs f (l|a, X )/φ ∗ (a, l; κ )
φ (a, b; θ ) exp{X (b)0 β }/φ ∗ (a, b; κ )
.
∑lεs φ (a, l; θ ) exp{X (l )0 β }/φ ∗ (a, b; κ )
(2.5)
(2.6)
(2.7)
(2.8)
L’équation (2.5) est le résultat du théorème de Bayes impliquant les fonctions de densité du lieu b
et de l’ensemble des lieux s provenant des équations (2.1) et (2.4). Le passage de l’équation (2.6)
à l’équation (2.7) est dû aux termes communs (H − 1)! ∏lεs φ ∗ (a, l; κ ) du numérateur et de chaque
terme du dénominateur. En développant la fonction f (·) de l’équation (2.7), l’intégrale sur tout le
domaine des lieux disponibles de l’équation (2.1) se retrouve au numérateur et au dénominateur, nous
permettant ainsi de l’annuler afin d’obtenir l’expression (2.8).
Voici une version réorganisée de l’équation (2.8) :
P[lieu = b; s, a, X ] =
exp[X (b)0 β + log{φ (a, b; θ )/φ ∗ (a, b; κ )}]
.
∑lεS exp[X (l )0 β + log{φ (a, l; θ )/φ ∗ (a, l; κ )}]
(2.9)
Il est important de choisir D̃a ⊇ Da . Si ce n’est pas le cas, il peut arriver que le lieu b soit à l’extérieur de
D̃a . Par conséquent, φ (a, b; θ )/φ ∗ (a, b; κ ) devient infinie, car φ ∗ = 0. À partir de l’équation (2.9), on
constate que lorsque que φ ∗ est proportionnelle à φ , alors le terme φ (a, b; θ )/φ ∗ (a, b; κ ) est constant
et son log s’annule. Dans ce cas, l’équation (2.9) se simplifie à
P[lieu = b; s, a, X ] =
exp{X (b)0 β }
,
∑lεs exp{X (l )0 β }
(2.10)
ce qui correspond à la vraisemblance de la régression logistique conditionnelle avec données indépendantes pour un échantillonnage de type cas-témoins 1 : H. En effet, l’équation (2.10) correspond à
l’équation de la vraisemblance pour une strate si b ε s (équation (1.18) du chapitre 2) où, pour le lieu
b, on a y = 1 et, pour les H lieux témoins, on a y = 0. Par conséquent, considérant le vecteur du temps
de déplacement T i de l’animal i, β peut être estimé en maximisant la fonction de vraisemblance de la
régression logistique conditionnelle pour l’ensemble de l’échantillon,
i
L(β ) = Πni=1 ΠG
d =1
exp{X (bid )0 β }
,
∑lεsid exp{X (l )0 β }
(2.11)
où bid et sid sont respectivement les lieux visités et l’ensemble des lieux échantillonnés pour l’individu
i au temps tid .
24
Le modèle de régression logistique conditionnelle avec données indépendantes n’a cependant pas la
propriété de tenir compte dans son inférence du plan d’échantillonnage des lieux témoins. Par conséquent, lorsque φ (a, b; θ )/φ ∗ (a, b; κ ), que nous appellerons le poids d’échantillonnage, dépend de la
distance à parcourir pour atteindre le lieu b à partir du lieu a, alors l’estimateur β̂ peut être biaisé
dû à l’impact sur la vraisemblance de φ (a, b; θ )/φ ∗ (a, b; κ ). Cependant, lorsque φ ∗ est connu et
que φ est préalablement défini, il est possible d’estimer β et θ en incluant le poids d’échantillonnage φ (a, b; θ )/φ ∗ (a, b; κ ) dans l’équation (2.11), par exemple sous la forme d’un terme d’offset
log{φ (a, bid ; θ )/φ ∗ (a, bid ; κ )} :
i
L(β ) = Πni=1 ΠG
d =1
2.4
exp[X (bid )0 β + log{φ (a, bid ; θ )/φ ∗ (a, bid ; κ )}]
.
∑lεsid exp[X (l )0 β + log{φ (a, l; θ )/φ ∗ (a, l; κ )}]
(2.12)
Échantillonnage des lieux témoins
Comme Forester et al. (2009) l’ont fait, nous considérons trois modes d’échantillonnage des lieux
témoins.
1. L’échantillonnage uniforme sélectionne de façon aléatoire les lieux témoins à l’intérieur d’un
cercle D̃a , de rayon r, autour du lieu a. Chaque lieu a la même probabilité de sélection. Par
exemple, à partir du lieu a, les lieux témoins pourraient être échantillonnés aléatoirement dans
un cercle de rayon v qui inclut 80% des distances parcourues observées chez les animaux.
2. L’échantillonnage empirique se base sur la distribution empirique conjointe des distances parcourues et des angles de pivotement observés chez les animaux : on sélectionne avec remise une
paire constituée d’une distance et d’un angle dans l’ensemble des déplacements observés chez
les individus.
3. L’échantillonnage paramétrique se base sur une distribution connue φ ∗ (a0 , a, b; κ ), avec support
D̃a , qui est régie par le paramètre κ, où D̃a et κ sont définis par l’utilisateur. Le but est de choisir
un φ ∗ proche de ce que l’on croit être φ . Par exemple, φ ∗ (a, b; κ ) peut être la loi exponentielle
ayant comme paramètre κ −1 égal à deux fois la moyenne des distances des déplacements observés combinée à la loi uniforme sur [0, 2π ] pour les angles.
2.4.1
Utilisation de la régression logistique conditionnelle avec données
indépendantes
Bien que l’équation (2.12) tienne compte du plan d’échantillonnage des lieux témoins, il est toujours
possible d’utiliser la régression logistique conditionnelle avec données indépendantes, pourvu que le
poids d’échantillonnage φ /φ ∗ ait une forme simple. Par exemple, si φ et φ ∗ sont des exponentielles
de moyennes respectives (1/θ ) et (1/κ ), alors log{φ (a, l; θ )/φ ∗ (a, l; κ )} = (κ −θ )ral + log(θ /κ ).
Ainsi, l’équation (2.12) devient
i
L(β ) = Πni=1 ΠG
d =1
(θ /κ ) exp[X (bid )0 β + (κ − θ )ral ]
.
∑lεsid (θ /κ ) exp[X (l )0 β + (κ − θ )ral + log(θ /κ )]
25
La distance ral entre le lieu a et le lieu témoin lεs devient une covariable du modèle avec comme
coefficient de régression (κ − θ ), et la constante θ /κ n’a aucune influence sur les inférences sur β .
Forester et al. (2009) proposent, étant donné la distribution inconnue de φ , de modéliser sous une
forme paramétrique et sans hypothèse directe sur φ le rapport φ /φ ∗ en tant qu’une fonction loglinéaire de ral ,
log{φ (a, ral ; θ )/φ ∗ (a, ral ; κ )} = θ ral .
(2.13)
Des modèles plus riches pour log{φ (a, ral ; θ )/φ ∗ (a, ral ; κ )} peuvent être construits en incluant comme
2 ou en considérant d’autres fonctions non linéaires pour r . Une autre solution est de
covariable ral
al
faire appel à une fonction spline linéaire sur ral (Harrell (2001)) :
log{φ (a, ral ; θ )/φ ∗ (a, ral ; κ )} = θ0 ral + θ1 (ral − τ1 )+ + . . . + θH (ral − τq )+ ,
(2.14)
où u+ = u si u > 0 et 0 sinon, et les q noeuds τ1 , . . . , τq sont spécifiés par l’utilisateur, comme par
exemple q quantiles de la distribution empirique des distances parcourues.
2.5
Étude de Forester
Forester et al. (2009) ont examiné la performance des modèles donnés aux équations (2.13) et (2.14)
ainsi que les conséquences d’omettre le poids d’échantillonnage φ (a, b; θ )/φ ∗ (a, b; κ ) dans l’estimation des paramètres β à partir du modèle de régression logistique conditionnelle avec données
indépendantes. Pour ce faire, ils ont simulé le déplacement d’animaux sur différentes cartes d’environnement, X (b), et sous diverses forces de sélection (différentes valeurs de β ). Chaque lieu visité
a été apparié à plusieurs lieux témoins dans le cadre d’un échantillonnage cas-témoins apparié selon
diverses spécifications de φ ∗ . Par conséquent, ils ont pu comparer les biais dans les inférences sur β .
2.5.1
Génération des environnements
Afin d’analyser le comportement de l’animal en fonction des ressources disponibles, quatre environ
nements ont été générés et ont été représentés sur une carte cartésienne X (x, y) : x, y = 1, . . . , 1024 ,
où X (x, y) est une valeur réelle qui représente une caractéristique du lieu ayant les coordonnées (x, y).
Les ressources disponibles X (x, y) sur ces cartes ont été simulées selon un champ aléatoire gaussien
(Gaussian random field, GRF) de moyenne 0 et de variance 1 basé sur une fonction de covariance
exponentielle (Stein (1999)) ayant comme paramètre d’étendue (0.1; 1; 5 et 10) fois la moyenne des
distances parcourues (µ = 21) du noyau de déplacement indépendant des ressources. Les quatre environnements montrant les valeurs de X (b) sont présentés à la figure 2.1. On remarque que plus le
paramètre d’étendue est élevé, plus les regroupements d’une même ressource sont visibles (l’environnement devient plus homogène).
26
F IGURE 2.1: Les quatre environnements utilisés par Forester et al. (2009) pour leurs simulations.
Le paramètre d’étendue de chaque environnement est (0.1, 1, 5 et 10) fois la moyenne des distances
parcourues.
2.5.2
Modèle de déplacement
Une fois les environnements générés, il faut simuler les déplacements de l’animal à partir de l’un des
deux noyaux de déplacement illustrés aux équations (2.15) et (2.16) et selon l’un des quatre degrés,
β = {0; 0.5; 1; 2}, de sélection de la ressource X de la RSF (équation (2.2)). Le premier noyau de
déplacement est donné par
φ1 (a, b) =
λ1 exp(−λ1 rab )
,
2πrab
(2.15)
et le second est donné par
ν1 λ2 (λ2 rab )ν1 −1 exp{−(λ2 rab )ν1 }
2πrab
ν2 λ3 (λ3 rab )ν2 −1 exp{−(λ3 rab )ν2 }
+ 0, 29
.
2πrab
φ2 (a, b) = 0, 71
(2.16)
Les paramètres de φ1 et φ2 ont été déterminés par Forester et al. (2009). Ils les ont choisis de telle
sorte que la distance moyenne entre le lieu a et le lieu b soit d’environ 21 unités sur la carte. Plus
précisément, ils ont choisi λ1 = 1/21, λ2 = 1/14, λ3 = 1/42, ν1 = 1, 22 et ν2 = 1, 01.
27
Pour simuler un déplacement du lieu a au lieu b, 2000 lieux tirés d’une distribution centrée au
lieu a ont été échantillonnés. Les coordonnées cartésiennes de ces lieux sont calculées ainsi : px =
ax + r p sin(u p ) et py = ay + r p cos(u p ), où (ax , ay ) sont les coordonnées du lieu a, ( px , py ) sont les
coordonnées du lieu simulé p, r p est la distance à parcourir entre les lieux a et p suivant la fonction de
densité φ p (r p ) = λl exp(−λl r p ) avec λl = 1/45 et u p est un tir provenant d’une distribution uniforme
sur [0, 2π ). Le lieu b est tiré parmi ces 2000 lieux avec probabilité d’échantillonnage
P(b) =
φ (a, p)ω{X ( p)}/φ p (r p )
.
∑ p0 εP φ (a, p0 )ω{X ( p0 )}/φ p (r0p )
(2.17)
Rappelons que ω{X ( p)} est la fonction de sélection des ressources et que, selon l’équation (2.2),
ω{X ( p)} = exp{X ( p)β } où β est un scalaire pouvant prendre comme valeur (0, 0.5, 1, 2) et X peut
représenter, par exemple, la biomasse disponible à une localisation ou la présence d’un prédateur.
Un lieu de départ pour chacun de 100 animaux a été choisi aléatoirement dans un carré au centre de la
carte et dont la superficie est 1/9 de celle de la carte. Pour chaque animal, 30 déplacements basés sur
le modèle (2.17) sont simulés. Ce procédé a été répété 1000 fois. En somme, la simulation de Forester
et al. (2009) est basée sur 1000 réplicats de 3000 déplacements chacun.
2.5.3
Analyse
Pour chaque réplicat, un modèle cas-témoins apparié 1 : 20 sous les trois méthodes d’échantillonnage des lieux témoins (uniforme, empirique et paramétrique) est appliqué. Après avoir généré trois
ensembles de lieux témoins pour chaque lieu visité par animal, un modèle de régression logistique
conditionnelle avec données indépendantes est ajusté à chacun des 1000 échantillons de la simulation.
Trois modèles sont utilisés :
1. Modèle nul (sans tenir compte de la distance) :
w{X (l )} = exp{βx X (l )}
2. Modèle distance (fonction linéaire de la distance ; réfère au modèle (2.13)) : w{X (l )} = exp{βx X (l ) +
βal ral }
3. Modèle spline (fonction non linéaire de la distance ; réfère au modèle (2.14)) : w{X (l )} =
exp{βx X (l ) + θ1 (ral − τq1 )+ + θ2 (ral − τq2 )+ + θ3 (ral − τq3 )+ } où q j est le je quartile de la
longueur des déplacements observés pour un réplicat donné.
2.5.4
Constats
L’étude de Forester et al. (2009) a permis de démontrer que le type d’échantillonnage des lieux témoins
et le modèle utilisé peuvent influencer le biais et la variabilité de l’estimateur β̂x . L’échantillonnage
uniforme produit des estimateurs biaisés lorsque βx 6= 0. Le biais est réduit sous le modèle "distance".
De plus, par rapport aux deux autres méthodes d’échantillonnage, les estimateurs obtenus ont une
plus grande variabilité. Toutefois, l’échantillonnage uniforme identifie bien l’absence de sélection des
ressources quand βx = 0.
28
L’échantillonnage empirique produit des estimateurs biaisés lorsque la valeur de βx est grande. Ce
biais est moindre sous le modèle "spline". Ainsi, lorsque βx = 2 les modèles "nul" et "distance"
donnent des estimateurs biaisés, spécialement dans le cas où l’environnement est très hétérogène (paramètre d’étendue petit), car φ ∗ s’éloigne de φ . Lorsque βx ≤ 1, alors les estimateurs sont peu biaisés.
L’échantillonnage empirique est optimal lorsque βx = 0, car dans ce cas φ ∗ = φ .
L’échantillonnage paramétrique fournit des estimateurs avec un biais plus important que l’échantillonnage empirique lorsque βx est grand. Toutefois, ce biais est largement réduit sous les modèles "distance" et "spline" en autant que, pour ce dernier, φ suive une distribution exponentielle. Ceci est
également vrai lorsque βx = 2 et que le paramètre d’étendue est élevé : le modèle "distance" produit
des estimés acceptables ainsi que le modèle "spline" lorsque φ est exponentielle. Dans le cas où βx ≤ 1
et que φ suit une distribution exponentielle, alors les modèles "distance" et "spline" perfoment bien
étant donné que log{φ /φ ∗ } est exact. Pour tous les modèles, l’échantillonnage paramétrique permet
de bien identifier l’absence de sélection des ressources quand βx = 0.
En résumé, l’échantillonnage uniforme produit particulièrement des estimateurs biaisés. Cela pourrait
s’expliquer, en partie, par le choix arbitraire du rayon du cercle centré au lieu a qui ne pourrait pas
être approprié pour contenir l’ensemble des déplacements potentiels. Les échantillonnages empirique
et paramétrique évitent à l’utilisateur de définir arbitrairement le territoire des lieux disponibles. De
plus, ils performent mieux que l’échantillonnage uniforme. Toutefois, un biais plus élevé est observé
lorsque βx est grand. Généralement, ce biais peut être réduit en considérant les modèles "distance" et
"spline". À noter que les résultats des simulations de Forester et al. (2009) sont présentés à la figure
2.2.
2.5.5
Extension du modèle
Forester et al. (2009) utilisent un modèle de régression logistique conditionnelle avec données indépendantes, tel que vu à la section 2.4 du chapitre 2. Cependant, ce type de modèle ne permet pas de
tenir compte de la corrélation intra-individu qui pourrait découler du fait que chaque individu n’a pas
accès aux mêmes types d’habitats. Également, les inférences sont marginales sur Y et ne permettent
peut-être donc pas de considérer de potentielles interactions entre l’individu et son milieu.
Tel que mentionné à la section 2.6.5 du chapitre 2, le chapitre 4 introduit le modèle multinomial mixte
qui permettra d’inférer au niveau de l’individu tout en tenant compte de la corrélation intra-individu.
29
F IGURE 2.2: Les résultats des simulations de Forester et al. (2009) pour les 1000 réplicats sont présentés de la façon suivante : l’axe des abscisses représente la valeur du paramètre d’étendue, l’axe des
ordonnées situé à droite indique les valeurs de β à estimer, l’axe des ordonnées situé à gauche donne
l’écart entre β̂ et β . L’entête de chaque colonne indique le modèle et la méthode d’échantillonnage des
lieux témoins utilisés. Les graphiques a) et b) présentent les résultats pour des déplacements simulés
respectivement sous le noyau exponentiel et un mélange de lois de Weibull.
30
Chapitre 3
La régression logistique conditionnelle
mixte
Les modèles à effets fixes produisent des inférences marginales. Par rapport à l’étude de la sélection
des habitats, ils font également l’hypothèse que la sélection des ressources est homogène entre les
individus et que le niveau de la préférence d’un lieu A à un lieu B n’est pas influencé par les autres
lieux disponibles. Si la sélection n’est pas homogène, alors les modèles à effets fixes vont donner des
inférences sur le comportement moyen de la population et ne permettra pas de quantifier l’hétérogénéité que les individus montrent dans leur sélection des ressources. Dans ces cas, un modèle marginal
peut entraner des conclusions moins intéressantes, peut-être même erronées (Duchesne et al. (2010)).
L’ajout d’effets aléatoires permet de bâtir des inférences au niveau de l’individu. Ces modèles ont
donc de meilleures chances de tenir compte de l’hétérogénéité inter-individus. Dans ce chapitre, nous
considérons le modèle de régression logistique conditionnelle mixte, que nous obtiendrons à l’aide de
la théorie microéconomique appelée théorie des "utilités aléatoires" (Cooper et Millspaugh (1999)).
Un autre modèle similaire obtenu par échantillonnage rétrospectif du modèle de régression logistique
mixte sera discuté au chapitre 5.
3.1
Notation de la régression logistique conditionnelle mixte avec
données corrélées
1. i représente le ie animal à l’étude, où i = 1, . . . , n ;
2. U désigne une variable aléatoire communément appelée "utilité" ;
3. t = 1, . . . , Ti représentent les temps d’observation des localisations de l’animal ;
4. j indique le je lieu disponible du domaine des lieux disponibles, où j = 1, . . . , J ;
5. xi jt est le vecteur des variables explicatives du je lieu au temps t du ie individu, où xi jt =
(xi jt1 , . . . , xi jt p )0 ;
31
6. β est le vecteur des coefficients de régression, où β = (β1 , . . . , β p )0 ;
7. bi est le vecteur des effets aléatoires au niveau de l’individu i, où bi = (bi1 , . . . , bip )0 ;
8. zi jt comprend des valeurs fixes, généralement un sous-ensemble de xi jt , permettant de spécifier
la structure des effets aléatoires, où zi jt = (zi jt1 , . . . , zi jtq )0 ;
9. µ i jt est l’espérance conditionnelle de Yi jt ;
10. εi jt représente l’erreur aléatoire, pour l’utilité du lieu j, pour l’animal i au temps t.
3.2
Écriture du modèle
On suppose une valeur de l’utilité U assignée par l’animal à chacun des j lieux disponibles au temps
t. Cette valeur représente, en quelques sortes, la force d’attraction d’un lieu pour l’animal. Celui avec
la plus grande valeur, parmi les lieux disponibles, de U sera visité par l’individu. Cette valeur assignée
par l’animal i au lieu j au temps t est déterminée par la formule suivante :
Ui jt = x0i jt β + z0i jt bi + εi jt ,
(3.1)
où bi et εi jt sont des variables aléatoires indépendantes. On suppose une loi de densité f (b, θ ) pour
les bi et on considère que les εi jt sont indépendants et identiquement distribués selon la loi des valeurs
extrêmes, dont la densité est donnée par
fε (x) = exp (−x) exp − e−x , −∞ < x < ∞.
Supposons que le lieu j = 1 obtienne la plus grande valeur de U parmi les J lieux disponibles (Ui1t >
Ui jt , ∀ j 6= 1). Alors, on pose Yi1t = 1 et Yi jt = 0, ∀ j 6= 1. La probabilité que le lieu j = 1 soit visité sous
la condition que les effets aléatoires b sont indépendants et identiquement distribués selon la densité
f (b, θ ), où θ est un vecteur de paramètres inconnus, est donnée par
P{Ui1t > max(Ui2t , . . . ,UiJt )} = P(Ui1t > Ui2t ,Ui1t > Ui3t , . . . ,Ui1t > UiJt ).
32
En conditionnant sur Ui1t et b, on a que
Z ∞
Z ∞
P(Ui2t < x, . . . ,UiJt < x)e−(x−µ i1t ) e− exp{−(x−µ i1t )} f (b, θ )dxdb
−∞
−∞
(
)
Z ∞
Z ∞
J
=
...
∏ e− exp [−(x−µ i jt )] e−(x−µ i1t ) e− exp[−(x−µ i1t )] f (b, θ )dxdb
=
=
...
−∞
−∞
Z ∞
Z ∞
...
−∞
−∞
j =2
−(x−µ i1t )
e
(Z
−∑Jj=1 exp [−(x−µ i jt )]
f (b, θ )dxdb
e
)
∑Jj=1 e−µ i jt −(x−µ ) −∑Jj=1 exp [−(x−µi jt )]
i1t e
=
...
dx f (b, θ )db
−µ e
J
−∞
−∞
−∞ ∑ j =1 e i jt
(
)
Z ∞
Z ∞
Z ∞ J
J
e−µ i1t
exp
[
−
(
x−µ
)]
−
i jt
=
...
dx f (b, θ )db
∑ e−(x−µ i jt ) e ∑ j=1
−µ
J
−∞
−∞ ∑ j =1 e i jt −∞ j =1
Z ∞
=
=
Z ∞
∞
exp{µ i1t }
f (b, θ )db
J
−∞
−∞ ∑ j =1 exp{µ i jt }
Z ∞
Z ∞
exp{x0i1t β + z0i1t b}
f (b, θ )db.
...
J
0
0
−∞
−∞ ∑ j =1 exp{xi jt β + zi jt b}
Z ∞
Z ∞
...
(3.2)
L’équation (3.2) donne la probabilité que le lieu j = 1 soit visité. En comparaison avec cette même
probabilité utilisée par Forester et al. (2009) au chapitre 3, soit l’équation (2.8), les deux équations
affichent une structure similaire. Cependant, ici , on ne fait pas intervenir le poids d’échantillonnage
des lieux témoins dans nos inférences, mais plutôt des effets aléatoires qui expliquent la corrélation
intra-individu en ce qui a trait à la force d’attraction des lieux. Dans le cas où tous les b = 0 avec
probabilité 1, l’équation (3.2) est réduite à
P{Ui1t > max(Ui2t , . . . ,UiJt )} =
exp(x0i1t β )
,
∑Jj=1 exp(x0i jt β )
(3.3)
soit l’équation de la régression logistique conditionnelle avec données indépendantes (1.18).
3.3
Hétérogénéité des individus et l’influence de l’environnement sur
la sélection des lieux
Comme mentionné plus tôt dans ce chapitre, les modèles à effets fixes se basent sur l’hypothèse de
sélection homogène des ressources entre les individus. Les modèles à effets aléatoires ne sont, quant
à eux, pas contraints par cette hypothèse. En effet, ajouter un effet aléatoire au niveau de l’individu
nous permet de considérer une corrélation intra-individu ainsi que de permettre à chaque individu
de répondre différemment à une variation dans les variables explicatives, comme c’est le cas lorsque
l’ensemble des lieux disponibles diffère d’un individu à l’autre.
33
3.4
Estimations des paramètres et inférences
Selon l’écriture du modèle exprimée aux équations (3.1) et (3.2) et en considérant que j = 1 donne
la valeur de U la plus élevée ∀i,t, les valeurs des paramètres β et θ sont estimées en maximisant la
fonction de vraisemblance
K
L (β , θ ) = ∏
i=1 −∞
exp{x0i1t β + z0i1t b}
f (b, θ )db.
∏ J
0
0
−∞ t =1 ∑ j =1 exp{xi jt β + zi jt b}
Z ∞ Ti
Z ∞
...
(3.4)
L’équation (3.4) est une fonction de vraisemblance valide (Duchesne et al. (2010)). Par conséquent,
les inférences traditionnelles sur β telles que l’intervalle de confiance de type Wald basé sur l’inverse
de la matrice d’information de Fisher observée ou le test du rapport des vraisemblances peuvent être
appliquées. Cependant, la fonction de vraisemblance peut être difficile à évaluer, car les intégrales
ne peuvent s’évaluer de façon analytique. Bhat (2001) propose une méthode d’intégration numérique
basée sur les nombres quasi-aléatoires de Halton (Halton (1960)).
Pour vérifier la pertinence de complexifier le modèle avec des effets aléatoires, on peut comparer le
modèle avec effets aléatoires à celui avec effets fixes par le test du rapport des vraisemblances. Soit
r = 2(l1 − l0 ), où l1 représente la log-vraisemblance maximisée du modèle avec effets aléatoires et
l0 la log-vraisemblance maximisée du modèle avec effets fixes. Le modèle à effets fixes est un cas
particulier du modèle à effets aléatoires où les paramètres de variances et covariances de f (b, θ )
sont égaux à 0. Étant donné que la valeur 0 se situe sur la frontière de l’espace paramétrique pour
les variances, le seuil observé associé à la statistique du rapport des vraisemablances, r, ne peut se
calculer à l’aide d’une distribution du khi-deux usuelle, mais plutôt à partir d’un mélange de lois du
khi-deux dépendant des structures de covariances des modèles sous H0 et H1 (Verbeke et Molenberghs
(2000)). Un exemple de ce type de calcul est donné à la section 4.5.
3.5
Exemple de Duchesne et al. (2010)
L’expérience a été menée lors des printemps de 2005 à 2008 (9 mars au 31 mai 2005, 1er mars au
31 mai 2006 et 2007, 1er mars au 10 mars 2008) sur 24 femelles choisies parmi 385 bisons présents
dans le parc national de Prince Albert. Ces femelles ont été suivies grâce à des colliers GPS. Les lieux
visités à 6h00 et à 18h00 de chaque jour ont été notés. Chaque lieu visité est apparié à 10 lieux témoins
échantillonnés uniformément dans un cercle centré autour du lieu visité et de rayon couvrant plus de
90% de l’ensemble des distances parcourues entre deux lieux visités.
L’environnement des bisons est composé à 85% de forêts, à 10% de prairies et à 5% de plans d’eau et
se situe à la bordure de terres agricoles où certains individus s’aventurent. Duchesne et al. (2010) ont
partitionné cet environnement en 6 types :
1. Prairie : inclut les domaines près des lacs et des rivières dominés par des graminées, plantes
herbacées et les carex ;
34
2. Riverain : est composé en grande partie d’arbustes et est situé près des ruisseaux et des rivières ;
3. Forêt : composée de feuillus, conifères et de peuplements mixtes ;
4. Eau : constitué que de plans d’eau ;
5. Route : comprend les zones situées à moins de 15 mètres d’un sentier ou d’une route ;
6. Terres agricoles : se sont les terres agricoles.
Des modèles de régression logistique conditionnelle à effets fixes et à effets aléatoires ont été ajustés
dans le but de comparer les estimés des coefficients de sélection. Le type d’environnement a donc été
codé à l’aide de 5 variables indicatrices, avec la "forêt" comme modalité de référence. Les modèles
comptent un nombre de déplacements déterminé par la formule suivante : 2 mesures × le nombre de
jours pour les printemps de 2005 à 2008. Le vecteur de la variable dépendante pour un temps d’ob+1
servation d’un animal est assujeti à la condition suivante : ∑10
j =1 Yi jt = 1∀i, où i représente l’animal,
j correspond aux lieux et t est le temps d’observation. Quant au modèle à effets aléatoires, Duchesne
et al. (2010) ont supposé que la préférence des "terres agricoles" varie d’un individu à l’autre, car ce
type n’est disponible qu’en bordure de l’environnement et n’est donc pas toujours accessible à tous
les animaux à un pas de temps donné. Ainsi, un effet aléatoire a été ajouté au modèle pour le type
"terres agricoles". Cet effet est supposé suivre une loi normale de moyenne 0 et de variance σ 2 . Voici
les fonctions de sélection des ressources obtenues par Duchesne et al. (2010) avec le modèle à effets
fixes (tableau 3.1) et le modèle à effets aléatoires (tableau 3.2). Les intervalles de confiance à 95% de
type Wald se calculent par βb ± 1.96×l’écart-type de βb .
w
w
TABLE 3.1: La fonction de sélection des ressources obtenue avec un modèle à effets fixes par Duchesne et al. (2010). Les intervalles sont à 95%.
Paramètres
Prairie
Eau
Riverain
Route
Terres agricoles
Estimés
2.024
0.399
-0.315
0.942
0.348
Erreur standard
0.046
0.094
0.163
0.143
0.118
Intervalle de confiance
1.934 ;2.114
0.215 ;0.583
-0.635 ;0.005
0.663 ;1.222
0.117 ;0.579
TABLE 3.2: La fonction de sélection des ressources obtenue avec un modèle à effets aléatoires pour le
type "terres agricoles" par Duchesne et al. (2010). Les intervalles sont à 95%.
Paramètres
Prairie
Eau
Riverain
Route
Terres agricoles (aléatoire)
Estimés
2.024
0.401
-0.301
0.953
-0.275
Erreur standard
0.046
0.094
0.163
0.143
0.377
Intervalle de confiance
1.934 ;2.114
0.217 ;0.585
-0.620 ;0.018
0.673 ;1.233
-1.014 ;0.464
Les résultats des RSF pour les deux modèles indiquent que les femelles bisons préfèrent les types
"prairies", "eau" et "routes" par rapport au type "forêt". Toutefois, la RSF du modèle à effets fixes
35
affiche une préférence généralisée pour les terres agricoles par rapport à la forêt, alors que celle du
modèle à effets aléatoires n’indique pas de préférence entre ces deux types. D’après le test du rapport
des vraisemblances, la RSF du modèle à effets aléatoires est mieux adaptée à la situation que celle
du modèle à effets fixes : r = 2 × {−5930.033 − (−5947.846)} = 35.626, donc le seuil observé,
obtenu par l’équation 0.5P[ χ12 > 35.626] + 0.5P[ χ02 > 35.626], est inférieur à 0.0001 (Duchesne et al.
(2010)). Elle révèle donc une importante hétérogénéité dans la sélection du type "terres agricoles" par
les différents individus.
3.6
Discussion
Dans l’exemple considéré par Duchesne et al. (2010), le test du rapport des vraisemblances indique
que le modèle à effets aléatoires semble requis pour bien modéliser l’hétérogénéité dans les préférences des individus. Ceci peut être dû au fait que les préférences varient de façon importante d’un
individu à l’autre. Mais une partie de cette variabilité inter-individus est peut-être explicable par le fait
que la disponibilité des différents types d’habitats varie entre les individus. Au chapitre suivant, nous
considérons cette question en reprenant l’étude de Forester et al. (2009), en simulant des déplacements
à partir du même modèle, mais en ajoutant des effets aléatoires aux modèles ajustés aux données.
36
Chapitre 4
Modèle mixte appliqué aux simulations
de Forester et al. (2009)
Au chapitre 3, Forester et al. (2009) ont signalé l’importance de considérer la méthode d’échantillonnage des lieux témoins dans la vraisemblance d’un modèle de régression logistique conditionnelle
avec données indépendantes, telle qu’exprimée à l’équation (2.12), car cet échantillonnage peut introduire un biais dans les inférences sur β . Cependant, leur vraisemblance n’intègre pas une possible
variabilité inter-individus dans la sélection des lieux causée par le fait que chaque animal a un lieu de
départ distinct, et donc une disponibilité des ressources différente. On peut présumer, du moins dans
le cas d’un environnement homogène où des regroupements de ressources de même type sont observés, qu’il est prudent de tenir compte de l’hétérogénéité dans la sélection des ressources en ajoutant
des effets aléatoires dans le modèle de régression. En effet, l’ensemble des ressources qui composent
l’environnement risquent de ne pas être accessibles, dans un pas de temps donné, pour chaque animal. Dans le cas d’un environnement hétérogène, une grande diversité des ressources est disponible
à proximité du lieu visité par un animal. Ainsi, on peut penser, pour ce type d’environnement, que la
variabilité inter-individus dans la sélection des ressources sera plus faible et, par conséquent, que le
modèle à effets fixes s’adaptera bien aux données.
Afin de tenir compte de la variabilité inter-individus dans la sélection des lieux visités, les simulations
de Forester et al. (2009) ont été refaites, mais les données ont été analysées avec des modèles qui
permettent à la force de sélection des ressources de varier d’un animal à l’autre. Cet exercice a pour
but de comparer les résultats obtenus et ainsi de déterminer quel type de modèle s’applique mieux
aux données par rapport au biais, à la variabilité et à l’erreur quadratique moyenne. À noter que les
résultats complets sont présentés sous forme de tableaux à l’annexe A.
Ce chapitre détaille la méthode utilisée pour ajuster un modèle mixte aux données. On y présente aussi
les principaux constats des comparaisons entre les modèles fixes et mixtes.
37
4.1
Modèle à effets aléatoires
La fonction de vraisemblance de l’équation (3.4) est numériquement difficile à évaluer. De plus, elle ne
correspond pas exactement au cas où l’on échantillonne de manière rétrospective dans une population
générée par un modèle logistique mixte. Craiu et al. (2011) ont calculé la vraisemblance appropriée à
cette situation et ont proposé une procédure d’estimation des coefficients d’un modèle de régression
logistique mixte en deux étapes. Ils ont implanté leur méthode dans la procédure "TS.estim" de la
librairie "TwoStepCLogit" du logiciel R. Cette procédure approxime de façon stable et efficace les
estimateurs du maximum de vraisemblance ainsi que leur matrice de variances-covariances dans le
cadre d’un modèle de régression logistique conditionnelle mixte.
Dans ce type de modèle, le dénominateur de chaque strate qui contribue à la vraisemblance conditionnelle nous oblige à évaluer une intégrale complexe ayant plusieurs dimensions amenant souvent des
problèmes de convergence. Même si dans les simulations de Forester et al. (2009) la somme des Y est
égale à 1 pour chaque strate, la méthode de Craiu et al. (2011) est très flexible et peut s’appliquer à
des données dont la somme des Y est plus grande que 1 par strate comme l’illustre l’exemple suivant.
Supposons que le nombre de Y = 1 dans chaque strate est 2 et le nombre de Y = 0 est 3, soit une
étude cas-témoins 2 : 3. Pour obtenir 2 cas à chaque temps t où t = 1, . . . , 4, deux individus sont suivis
simultanément. Sous un lien logit, la probabilité conditionnelle que le lieu j soit visité (yt j = 1) ou
non (yt j = 0) par l’un des 2 individus au temps t avec un effet aléatoire au niveau de l’individu, noté
b, est
P[Yt j = yt j |xt j , b] =
exp {yt j (β 0 xt j + b0 zt j )}
1 + exp {yt j (β 0 xt j + b0 zt j )}
,
(4.1)
où zt j est le vecteur des variables indépendantes ayant un effet aléatoire. La vraisemblance est alors
donnée par
Z
Z
...
4
5
∏ ∏ P[Yt j = yt j ; xt j , b] f (b, θ )db.
(4.2)
t =1 j =1
Les équations (4.1) et (4.2) ne tiennent pas compte du mode d’échantillonnage. En considérant l’aspect
"rétrospectif" de la régression logistique conditionnelle et en conditionnant sur ∑5j=1 Yt j = 2, ∀t, la
contribution de l’individu à la vraisemblance devient
5
l (β , θ |xt , yt ) = P Y t = yt X t = xt , ∑ Yt j = 2
j =1
P[Y t = yt |X t = xt ]
=
P[∑5j=1 Yt j = 2; X t = xt ]
R
= R
. . . ∏t4=1 ∏5j=1 P[Yt j = yt j |X t = xt , b] f (b, θ )db
R
. . . ∏t4=1 P[∑5j=1 Yt j = 2; X t = xt , b] f (b, θ )db
R
.
(4.3)
Le dénominateur de l’équation (4.3) a comme argument une somme de (52) = 10 termes correspondant
aux vecteurs de longeur 5 avec 2 cas et 3 témoins qui est multiplié par le nombre de temps t =
4. La procédure utilisée par Craiu et al. (2011) comporte 2 étapes. La première étape estime les
38
paramètres β séparément pour chaque paire d’individus par maximum de vraisemblance dans le cas
de la régression logistique conditionnelle avec données indépendantes. La seconde étape utilise un
algorithme d’espérance-maximisation (EM) de Dempster et al. (1977) pour estimer les paramètres au
niveau de la population.
Par ailleurs, afin de complètement spécifier un modèle mixte, il faut habituellement choisir la structure de la matrice de covariances inter-individus des effets aléatoires. Dans nos simulations, comme
dim(bi ) = 1, nous avons tout simplement pris Var(bi )= σ 2 .
4.2
Constats
Les simulations de l’étude de Forester et al. (2009) ont été répliquées pour toutes les combinaisons
entre le noyau de déplacement de formes "exponentielle" et "mélange de lois de Weibull", les quatre
forces de sélection des ressources et les quatre valeurs du paramètre d’étendue. Ainsi, 32 combinaisons de ces paramètres ont été considérées. Toutes ont été simulées trois fois afin d’apparier les lieux
visités à un ensemble de lieux témoins selon l’une des trois méthodes d’échantillonnage suivantes :
"uniforme", "empirique", "paramétrique". Les modèles de régression logistique conditionnelle "nul"
et "distance" ont été ajustés à chaque échantillon simulé avec et sans effet aléatoire devant la variable X qui représente l’environnement. Un coup ces paramètres fixés, les données ont été simulées
exactement de la même façon qu’à la section 2.5.
Les constats de cette section se concentrent sur la performance des modèles à effets mixtes par rapport
aux modèles à effets fixes en fonction des divers environnements de Forester et al. (2009) illustrés à
la figure 2.1.
4.2.1
Environnement extrêmement hétérogène
Un environnement considéré comme étant extrêmement hétérogène est associé au paramètre d’étendue égal à 0.1× la longueur moyenne des déplacements observés par Forester et al. (2009) (µ = 21
unités). Ce type d’environnement est illustré dans le coin supérieur gauche de la figure 2.1.
Noyau de déplacement exponentiel
Selon l’erreur quadratique moyenne, l’absence de sélection des ressources (βx = 0) est mieux prédite
par les modèles mixtes que par les modèles fixes. En effet, le biais et la variabilité dans les valeurs
de βˆx sont légèrement réduits. Toutefois, en présence d’une force de sélection non nulle (βx > 0), les
modèles mixtes perdent de leur efficacité. Sous le modèle "distance", l’erreur quadratique moyenne
indique que les modèles fixes ont un biais plus faible que celui des modèles mixtes. Également, pour le
type de modèle "nul", l’échantillonnage "empirique" de même que l’échantillonnage "paramétrique"
sous une force de sélection élevée (βx = 2), les modèles mixtes sont moins précis. Une exception est
toutefois observée pour l’échantillonnage "uniforme" sous le modèle "nul".
39
Noyau de déplacement mélange de lois Weibull
Les valeurs de βˆx obtenues sont moins variables dans un modèle mixte que dans un modèle fixe, excepté pour les échantillonnages "uniforme" et "empirique" sous le modèle "distance" pour une grande
force de sélection (βx = 2). Toutefois, l’erreur quadratique moyenne permet de conclure que les modèles mixtes sont moins performants pour le type de modèle "distance" et avec l’échantillonnage
"empirique" sous le modèle "nul" en comparaison avec les modèles fixes. Ils sont cependant plus
précis sous le modèle "nul" avec les échantillonnages "uniforme" et "paramétrique".
4.2.2
Environnement hétérogène
Un environnement dit "hétérogène" est construit à partir du paramètre d’étendue = 1 × µ. Ce type
d’environnement est présenté dans le coin supérieur droit de la figure 2.1.
Noyau de déplacement exponentiel
Les modèles mixtes se comportent différemment en fonction du type de modèle ("nul" ou "distance").
Pour le type de modèle "distance", ils sont pratiquement aussi efficaces que les modèles fixes. En
effet, le biais et l’erreur quadratique moyenne de leurs estimés βˆx sont faiblement supérieurs à ceux
du modèle fixe. Toutefois, leur variabilité est légèrement moindre. Ce n’est cependant pas ce qui est
observable dans le cas du modèle "nul" : les modèles mixtes produisent des estimateurs moins biaisés
et moins variables, exceptés pour l’échantillonnage "empirique" de même que pour l’échantillonnage
"paramétrique" sous une force de sélection βx = 2. Ainsi, les modèles mixtes sont généralement mieux
adaptés aux données sous le modèle "nul", mais leur précision est inférieure sous le modèle "distance"
par rapport aux modèles fixes.
Noyau de déplacement mélange de lois Weibull
L’absence de sélection des ressources est mieux prédite par les modèles mixtes dans le cas du modèle
"nul" et par les modèles fixes sous le modèle "distance". En règle générale, en présence d’une force de
sélection (βx > 0), les modèles mixtes produisent des estimateurs βˆx davantage biaisés et variables que
les modèles fixes. Toutefois, on a que les modèles mixtes sont plus performants pour l’échantillonnage
"paramétrique" sous βx = 0.5 et 1 ainsi que pour l’échantillonnage "uniforme" sous le modèle "nul"
sous une forte force de sélection (βx = 1 et 2).
4.2.3
Environnement homogène
Dans le cas où le paramètre d’étendue est égal à 5µ, l’environnement s’homogénéise. Un exemple est
montré dans le coin inférieur gauche de la figure 2.1.
40
Noyau de déplacement exponentiel
Les modèles mixtes ne se distinguent pas des modèles fixes pour le type de modèle "distance", et
ce, peu importe la force de sélection. Cependant, la situation est différente sous le modèle "nul". En
effet, le biais a tendance à être réduit sous une force de sélection faible (0 et 0.5) et à être augmenté
sous une force de sélection élevée (βx = 1 et 2) par un modèle mixte par rapport à un modèle fixe.
Toutefois, la variabilité dans les βˆx est peu affectée. Ainsi, l’erreur quadratique moyenne privilégie les
modèles mixtes aux modèles fixes pour une force de sélection faible et l’inverse pour une forte force
de sélection.
Noyau de déplacement mélange de lois Weibull
Les comparaisons entre les modèles mixtes et les modèles fixes mènent à des constats variant selon la
force de sélection dans un environnement homogène. En effet, l’erreur quadratique moyenne est plus
petite chez les modèles mixtes pour le type de modèle "nul" et plus grande sous le modèle "distance"
lorsqu’il y a absence de sélection des ressources ; elle diminue sous les deux modèles ("nul" et "distance") lorsque βx = 0.5 ; elle devient plus élevée sous le modèle "nul" et plus faible sous le modèle
"distance" lorsque la force de sélection est βx = 1 et 2. Ce comportement est semblable en ce qui a
trait au biais.
4.2.4
Environnement très homogène
Dans l’environnement que nous considérons très homogène, le paramètre d’étendue est égal à 10µ. En
règle générale, une plus grande distance à parcourir sépare deux lieux n’ayant pas la même ressource.
L’image du coin inférieur droit de la figure 2.1 présente ce type d’environnement.
Noyau de déplacement exponentiel
Pour le type de modèle "distance", les modèles mixtes sont moins appropriés que les modèles fixes :
le biais, la variabilité et l’erreur quadratique moyenne dans les estimeurs βˆx sont plus élevés chez les
modèles mixtes. Sous le modèle "nul", sous une force de sélection faible (βx = 0 et 0.5) les modèles
mixtes affichent des biais inférieurs à ceux des modèles fixes ; le contraire se produit sous une force
de sélection élevée (βx = 1 et 2). Toutefois, pour une force de sélection βx = 2, l’échantillonnage
"uniforme" sous un modèle "nul" est moins biaisé et plus précis selon l’erreur quadratique moyenne
dans le cas du modèle mixte.
Noyau de déplacement mélange de lois Weibull
De manière générale, les valeurs de βˆx obtenues par les modèles mixtes sont moins biaisés que celles
des modèles fixes, outre pour l’échantillonnage "empirique". Cependant, la variabilité est augmentée,
sauf dans le cas de l’échantillonnage "empirique", pour le type de modèle "nul".
41
4.3
Discussion
D’après les constats ci-dessus, certaines tendances sont observables. En premier lieu, de manière
générale, les modèles mixtes précisent mieux l’absence de sélection des ressources que les modèles
fixes. En second lieu, on remarque des tendances qui varient en fonction du type d’environnement, du
type de modèle ("nul" et "distance") et de la force de sélection.
Dans les environnements dits "hétérogène" et "très hétérogène", une grande diversité de ressources est
généralement accessible pour un pas de temps donné. La variabilité inter-individus dans la sélection
des ressources risque donc d’être faible. Tel que supposé, nos résultats nous permettent d’affirmer que
les modèles à effets fixes sont mieux adaptés à ces environnements que les modèles à effets mixtes.
Dans les environnements dits "homogène" et "très homogène", la disponibilité des ressources peut
différer d’un animal à l’autre. De ce fait, la variabilité inter-individus dans la sélection des ressources
risque d’être un facteur à surveiller. Toutefois, les résultats obtenus proposent des conclusions qui
diffèrent selon le type de modèle ("nul" et "distance") et la force de sélection.
1. Les modèles à effets fixes s’adaptent généralement mieux lorsque la covariable "distance" est
considérée. En tenant compte de la distance entre deux lieux, on atténue l’effet de la disponibilité des ressources qui peut différer d’un animal à l’autre. Cela permet donc de réduire la
variabilité inter-individus dans l’estimateur de la sélection des ressources.
2. Dans le cas du modèle "nul", les modèles à effets mixtes performent mieux que les modèles
à effets fixes lorsque la sélection des ressources est faible (βx = 0 et 0.5), comme on aurait
pu s’y attendre. Par contre, on observe le contraire lorsque la sélection des ressources est élevée (βx = 1 et 2). On peut spéculer que ceci est dû au fait que les ressources ayant les plus
fortes valeurs associées à une force de sélection élevée vont attirer l’animal peu importe le type
d’environnement.
42
Chapitre 5
Application d’un modèle mixte au jeu de
données sur les bisons
L’étude de Craiu et al. (2008) sur les bisons du Parc national de Prince Albert, en Saskatchewan au
Canada, a utilisé un modèle à effets fixes et les inférences ont été obtenues par la méthode GEE.
Cette analyse ne permet toutefois pas de quantifier l’hétérogénéité inter-individus dans la sélection
des ressources. Tel qu’exposé dans l’étude de Duchesne et al. (2010) et les comparaisons effectuées
au chapitre 5, une variabilité inter-individus dans la sélection des lieux visités peut faire varier les
conclusions. Il serait donc intéressant de vérifier l’effet de cette variabilité. Le jeu de données de
Craiu et al. (2008) a donc été analysé à nouveau avec un modèle mixte. Ainsi, tel qu’au chapitre 5,
nous serons en mesure de comparer les résultats obtenus avec le modèle mixte à ceux du modèle fixe
et de constater si l’ajout d’un effet aléatoire dans le modèle de régression modifie les résultats.
5.1
Étude sur les bisons de Craiu et al. (2008)
L’étude de Craiu et al. (2008) a déjà été présentée à la section 2.6.4 du chapitre 2. Cette section est
donc un rappel des principaux éléments de leur étude. Leur objectif était d’analyser la dispersion
des individus par rapport aux caractéristiques de l’environnement du Parc national de Prince Albert
(53°44’Nord, 106°40’Ouest). Ce parc est composé à 85% de forêts, à 10% de prairies et à 5% de
plans d’eau. Des terres agricoles entourent ce parc et peuvent être accessibles aux bisons. Selon une
image Landstat TM satellite, l’environnement étudié a été divisé en 7 catégories : les terres agricoles,
les prairies, les regroupements de conifères, les regroupements d’arbres à feuilles caduques, les plans
d’eau, la zone riveraine et les routes.
La cueillette des données s’est déroulée pendant 13 semaines, du 2 septembre 2005 au 2 décembre
2005. En tout, neuf bisons ont été suivis grâce à un collier GPS. À chaque semaine, pendant deux
jours consécutifs, les lieux visités à chaque heure ont été prélevés suivi d’un repos de 5 jours avant la
prochaine prise de mesures de 48 heures.
43
Chaque lieu visité a été apparié à 10 lieux témoins. Ceux-ci ont été échantillonnés aléatoirement
à l’intérieur d’un cercle de 300 mètres de rayon et centré en chaque lieu visité. Ce rayon de 300
mètres capture 85% des distances de déplacement observées dans un intervalle de 1 heure. À cause du
mauvais fonctionnement d’un des neuf colliers GPS, 3 périodes de 48 heures n’ont pu être observées.
Un modèle de régression logistique pour une étude cas-témoins appariée 1 : 10 a été utilisé. Le vecteur
des variables indépendantes est constitué des 7 catégories d’environnement : 6 d’entres elles ont été
codifiées sous une forme d’indicatrices binaires et la catégorie des regroupements d’arbres à feuilles
caduques constitue la catégorie de référence ; la proportion de prairies dans un cercle de 300 mètres
("P300") et l’interaction entre la proportion de prairies et la catégorie d’environnement "prairie" ont
également été incluses dans le modèle ("Prairie_int").
L’application d’un modèle mixte par la procédure "Ts.estim" de la librairie "TwoStepCLogit" du logiciel R au jeu de données de Craiu et al. (2008) n’est pas possible avec la totalité des variables
explicatives. En effet, un problème de matrices singulières survient. Pour pallier à ce problème, après
quelques essais, un regroupement, que l’on nommera "Environnement", des catégories d’environnement "regroupements de conifères", "zone riveraine", "plans d’eau", "terres agricoles" et "routes" est
nécessaire. Étant donné que sous un modèle fixe la force de sélection de l’environnement "prairie"
diminue lorsque la proportion de prairies augmente, il est intéressant de vérifier si cette diminution
n’est pas justifiée par une variabilité inter-individus non considérée. On a donc ajouté un effet aléatoire
à la catégorie d’environnement "prairie". Ainsi, le vecteur des variables indépendantes à l’étude est
maintenant composé des catégories d’environnement : la proportion de prairies dans un cercle de 300
mètres ("P300"), les prairies, l’interaction entre "P300" et les prairies et, pour finir, l’"Environnement".
5.1.1
Résultats
Les résultats obtenus sont présentés au tableau 5.1. La première colonne identifie les variables indépendantes ; la deuxième colonne contient les données pour le modèle à effets fixes avec la méthode
GEE, soit la valeur des coefficients de régression, l’écart-type robuste et l’intervalle de confiance à
95% ; la troisième colonne renferme les mêmes informations que la deuxième colonne, mais pour le
modèle à effets mixtes.
TABLE 5.1: Résultats de l’analyse des données sur les bisons de Craiu et al. (2008), avec une distribution supposée normale pour le coefficient de régression de la variable "prairie"
P300
Prairie
Prairie_int
Environnement
Modèle à effets fixes
Estimé
SE
95% IC
0.736 0.323
0.104 ;1.369
1.488 0.118
1.257 ; 1.719
-1.016 0.419 -1.837 ; -0.195
-0.258 0.088 -0.430 ; -0.086
Modèle à effets mixtes
Estimé
SE
95% IC
1.080 0.285
0.521 ; 1.639
1.748 0.354
1.054 ; 2.442
-2.061 0.130 -2.315 ; -1.807
-0.192 0.054 -0.298 ; -0.086
À noter que la variance inter-individus de l’effet aléatoire (σ 2 =Var(bi )) est estimée à 0.9481.
44
5.1.2
Constats
Le modèle mixte semble indiquer qu’il existe une importante hétérogénéité dans la sélection de l’environnement "prairie" à l’intérieur de la population des bisons, avec une valeur proche de 1 pour l’estimé
du paramètre σ 2 . Le fait de tenir compte de cette variabilité inter-individus a augmenté l’estimé de la
force d’attration de l’environnement "prairie", mais également sa variabilité. De plus, cette hétérogénéité a eu un effet direct sur l’interaction "Prairie_int". Celle-ci est devenue plus importante. La force
d’attraction de l’environnement "prairie" a largement diminué sous le modèle mixte par rapport au
modèle fixe lorsque la proportion de prairies est dense à l’intérieur d’un cercle de 300 mètres.
45
Chapitre 6
Conclusion
Dans ce mémoire, nous avons expliqué le raisonnement qui nous a mené à comparer les estimateurs
des coefficients de régression de modèles à effets fixes à ceux de modèles à effets mixtes dans le
cadre d’études du déplacement animal. Ainsi, nous avons exposé les forces et les faiblesses de divers
modèles de régression logistique pouvant être utilisés afin de décrire la sélection des ressources par
des individus.
Les modèles de régression logistique considèrent la variable réponse comme étant binaire. Cela permet
de les appliquer aux données d’études cas-témoins appariées où le cas est dénoté par la valeur 1 et
les témoins par la valeur 0. Cependant, certains modèles, tel que le modèle standard et celui avec
données corrélées, ont un aspect dit "prospectif" ne permettant pas de tenir compte de la valeur de la
variable réponse qui est a priori connue dans les études cas-témoins. Dans le contexte d’une étude
de la sélection des ressources où un même individu est observé à plusieurs reprises, certains modèles
ne peuvent traiter avec des données corrélées, comme le modèle standard et le modèle conditionnel.
De plus, les modèles du chapitre 2 ne fournissent que des inférences marginales. De surcroît, ils ne
modélisent pas explicitement l’hétérogénéité dans le comportement inter-individus. Par conséquent,
d’importantes interactions entre l’individu et son milieu peuvent être négligées (Boyce et al. (2003)).
Ceci nous a mené à postuler que ces modèles risquent de ne pas bien s’adapter aux données et que le
modèle mixte peut devenir une alternative intéressante.
L’étude de Forester et al. (2009), détaillée au chapitre 3, conclut que le biais dans les estimateurs de βb
dépend de la méthode d’échantillonnage des lieux témoins, de la force de sélection des ressources et
du modèle utilisé. Ils ont constaté que le mode d’échantillonnage "uniforme" identifie bien l’absence
de sélection. Toutefois, en présence d’une force de sélection non nulle, il produit des estimateurs
biaisés. Par rapport aux échantillonnages "empirique" et "paramétrique", le mode d’échantillonnage
"uniforme" est le moins performant. Quant au mode d’échantillonnage "empirique", il produit des
estimateurs biaisés lorsque la force de sélection est élevée. Toutefois, ce biais est moindre que celui
obtenu avec l’échantillonnage "paramétrique". Par ailleurs, pour l’ensemble des méthodes d’échantillonnage, le biais est généralement réduit sous les modèles "distance" et "spline".
47
L’étude de Duchesne et al. (2010), illustrée au chapitre 4, a montré l’importance d’un modèle mixte
quant à la modélisation de l’hétérogénéité dans la sélection inter-individus des ressources. Ils ont
constaté que l’ajout d’un effet aléatoire à la variable "terres agricoles" modifie l’interprétation de celleci. En effet, le modèle fixe indique une préférence pour cet environnement par rapport à la "forêt" alors
que le modèle mixte détecte une forte hétérogénéité dans la façon dont les individus sélectionnent cet
habitat, allant de l’évitement à une forte sélection.
Au chapitre 5, l’application de modèles mixtes aux données de Forester et al. (2009) a permis de
constater que ceux-ci sont moins performants que les modèles fixes lorsque l’environnement est "hétérogène" ou "très hétérogène". Également, ils s’adaptent généralement moins bien aux données sous
le modèle "distance" et lorsque la force de sélection est élevée que les modèles fixes. Toutefois, dans
un environnement "homogène" ou "très homogène", les modèles mixtes performent mieux que les
modèles fixes lorsque la force de sélection est faible.
Au chapitre 6, un modèle mixte a été ajusté aux données de Craiu et al. (2008) et a révélé une importante hétérogénéité inter-individus dans la sélection de l’environnement "prairie". Le fait de considérer
cette variabilité inter-individus a eu pour effet d’augmenter notre estimation de la force d’attraction
de l’environnement "prairie" et de diminuer l’estimé de cette force en présence d’une forte proportion
de prairies à l’intérieur d’un rayon de 300 mètres.
Les modèles à effets mixtes ne garantissent pas une meilleure précision dans les inférences que les modèles à effets fixes. Ils permettent néanmoins que ces inférences ne soient pas uniquement marginales.
Bien que ce type de modèles de régression soit "jeune" par rapport à celui des modèles purement à effets fixes, ils offrent divers avantages qui leur permettent d’être des outils importants pour la recherche
en écologie (Duchesne et al. (2010)).
D’autres analyses pourraient être intéressantes à explorer, telles que le déplacement des individus dans
un territoire déjà occupé par une autre espèce ou le déplacement des individus selon les saisons.
48
Bibliographie
B HAT, C. R. (2001). Quasi-random maximum simulated likelihood estimation of the mixed multinomial logit model. Transportation Research Part B : Methodological, 35:677–693.
B OYCE, M. S., M AO, J. S., M ERRILL, E. H., F ORTIN, D., T URNER, M. G., F RYXELL, J. et T UR CHIN ,
P. (2003). Scale and heterogeneity in habitat selection by elk in Yellowstone national park.
Ecoscience, 10:421–431.
C OOPER, A. B. et M ILLSPAUGH, J. J. (1999). The application of discrete choice models to wildlife
resouce selection studies. Ecology, 80:566–575.
C RAIU, R. V., D UCHESNE, T. et F ORTIN, D. (2008). Inference methods for conditional logistic
regression model with longitudinal data. Biometrical Journal, 50:97–109.
C RAIU, R. V., D UCHESNE, T., F ORTIN, D. et BAILLARGEON, S. (2011). Conditional logistic regression with longitudinal follow-up and individual-level random coefficients : A stable and efficient
two-step estimation method. Journal of Computational and Graphical Statistics, 20:767–784.
D EMPSTER, A. P., L AIRD, N. M. et RUBIN, D. B. (1977). Maximum likelihood from incomplete data
via the EM algorithm. Journal of the Royal Statistical Society Series B, 39:1–38.
D UCHESNE, T., F ORTIN, D. et C OURBIN, N. (2010). Mixed conditional logistic regression for habitat
selection studies. Journal of Animal Ecology, 79:548–555.
F ORESTER, J. D., K UNG, H. et R ATHOUZ, P. J. (2009). Accounting for animal movement in estimation of resource selection functions : Sampling and data analysis. Ecology, 90:3554–3565.
F ORTIN, D., B EYER, H. L., B OYCE, M. S., S MITH, D. W., D UCHESNE, T. et M AO, J. S. (2005).
Wolves influence elk movements : Behavior shapes a trophic cascade in Yellowstone national park.
Ecology, 86:1320–1330.
H ALTON, J. H. (1960). On the efficiency of certain quasi-random sequences of points in evaluating
multi-dimensional integrals. Numerische Mathematik, 2:84–90.
H ARRELL, F. E. (2001). Regression Modeling Strategies : With Applications to Linear Models, Logistic Regression, and Survival Analysis. Springer, New York.
49
H OSMER, D. W. et L EMESHOW, S. (2000). Applied Logistic Regression, Second edition. John Wiley
and Sons, New York.
L IANG, K. et Z EGER, S. (1986). Longitudinal data analysis using generalized linear models. Biometrika, 73:13–22.
M ANLY, B. F., M CDONALD, L. L., T HOMAS, D. L., M ACDONALD, T. L. et E RICKSON, W. P. (2002).
Resources Selection by Animals : Statistical Design and Analysis for Field Studies, Second edition.
Chapman and Hall, New York.
M C C ULLAGH, P. et N ELDER, J. A. (1989). Generalized Linear Models, Second edition. Chapman
and Hall, London.
R HODES, J. R., M C A LPINE, C. A., L UNNEY, D. et P OSSINGHAM, H. P. (2005). A spatially explicit
habitat selection model incorporating home range behavior. Ecology, 86:1199–1205.
S TEIN, M. L. (1999). Interpolation of Spatial Data : Some Theory for Kriging. Springer, New York.
S TOKES, M. E., DAVIS, C. S. et KOCH, G. G. (2000). Categorical Data Analysis Using the SAS
System, Second edition. SAS Institute Inc., Cary (NC).
T HOMAS, D. L. et TAYLOR, E. J. (2006). Study designs and tests for comparing resource use and
availability. Journal Of Wildlife Management, 70:324–336.
V ERBEKE, G. et M OLENBERGHS, G. (2000). Linear Mixed Models for Longitudinal Data. Springer,
New York.
50
Annexe A
Résultats des simulations
Les tableaux suivants présentent la valeur moyenne de l’estimateur βx , soit β̂¯ , basée sur 1000 réplicats et obtenue à l’aide de modèles de régression logistique conditionnelle. La première colonne
identifie le type de modèle ("nul" et "distance") ajusté aux données. La deuxième indique la méthode
d’échantillonnage des lieux témoins utilisée. La troisième colonne distingue le type de modèle ("réplique de Forester", "modèle mixte") réalisée. Les autres colonnes fournissent respectivement la valeur
moyenne, la variabilité, l’erreur quadratique moyenne, le 2.5e percentile, le 97.5e percentile pour les
1000 valeurs de βˆx . Les résultats sont présentés pour les deux noyaux de déplacements fournis par
Forester et al. (2009).
51
TABLE A.1: Exponentiel - β = 0 et paramètre d’étendue : 0, 1× la moyenne des déplacements observés par Forester et al. (2009)
Modèle
Échantillon
Uniforme
Nul
Empirique
Paramétrique
Uniforme
Distance
Empirique
Paramétrique
Modèle
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
β̂¯
-3.50E-3
-3.28E-3
1.46E-4
9.88E-5
-5.24E-4
-2.79E-4
-8.47E-4
-6.20E-4
-1.46E-4
1.42E-4
4.23E-5
2.85E-4
Var
4.29E-4
4.25E-4
3.72E-4
3.68E-4
3.90E-4
3.85E-4
4.43E-4
4.28E-4
3.72E-4
3.69E-4
3.72E-4
3.66E-4
EQM
4.41E-4
4.35E-4
3.72E-4
3.68E-4
3.90E-4
3.85E-4
4.44E-4
4.29E-4
3.72E-4
3.69E-4
3.72E-4
3.66E-4
2,5e c
-0.0433
-0.0426
-0.0366
-0.0360
-0.0388
-0.0385
-0.0409
-0.0395
-0.0366
-0.0361
-0.0363
-0.0363
97,5e c
0.0384
0.0387
0.0385
0.0385
0.0398
0.0397
0.0425
0.0419
0.0385
0.0385
0.0384
0.0381
TABLE A.2: Exponentiel - β = 0 et paramètre d’étendue : 1× la moyenne des déplacements observés
par Forester et al. (2009)
Modèle
Échantillon
Uniforme
Nul
Empirique
Paramétrique
Uniforme
Distance
Empirique
Paramétrique
52
Modèle
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
β̂¯
-3.43E-2
-3.17E-2
-1.30E-4
8.21E-4
-7.08E-3
-6.11E-3
-6.26E-4
1.89E-4
-1.32E-4
8.33E-4
3.26E-5
8.97E-4
Var
1.31E-3
1.28E-3
5.43E-4
5.29E-4
6.96E-4
6.76E-4
6.42E-4
6.32E-4
5.44E-4
5.46E-4
5.38E-4
5.38E-4
EQM
2.49E-3
2.29E-3
5.43E-4
5.30E-4
7.46E-4
7.13E-4
6.42E-4
6.32E-4
5.44E-4
5.47E-4
5.38E-4
5.39E-4
2,5e c
-0.1067
-0.1049
-0.0465
-0.0457
-0.0574
-0.0561
-0.0484
-0.0475
-0.0467
-0.0457
-0.0464
-0.0457
97,5e c
0.0327
0.0318
0.0441
0.0443
0.0419
0.0418
0.0495
0.0480
0.0441
0.0443
0.0426
0.0441
TABLE A.3: Exponentiel - β = 0 et paramètre d’étendue : 5× la moyenne des déplacements observés
par Forester et al. (2009)
Modèle
Échantillon
Uniforme
Nul
Empirique
Paramétrique
Uniforme
Distance
Empirique
Paramétrique
Modèle
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
β̂¯
-1.29E-2
-1.12E-2
-7.67E-4
1.02E-3
-4.09E-2
-3.62E-2
-1.16E-3
-1.16E-3
-7.80E-4
-1.76E-4
-2.73E-4
2.33E-4
Var
3.48E-3
3.58E-3
1.45E-3
1.40E-3
1.62E-3
1.62E-3
1.68E-3
1.70E-3
1.45E-3
1.48E-3
1.48E-3
1.52E-3
EQM
2.01E-2
1.61E-2
1.45E-3
1.41E-3
3.29E-3
2.93E-3
1.68E-3
1.71E-3
1.45E-3
1.48E-3
1.48E-3
1.52E-3
2,5e c
-2.43E-1
-2.27E-1
-0.0763
-0.0733
-0.1179
-0.1134
-0.0768
-0.0774
-0.0761
-0.0767
-0.0753
-0.0751
97,5e c
-0.0175
0.0048
0.0734
0.0744
0.0375
0.0427
0.0788
0.0801
0.0733
0.0737
0.0765
0.0757
TABLE A.4: Exponentiel - β = 0 et paramètre d’étendue : 10× la moyenne des déplacements observés
par Forester et al. (2009)
Modèle
Échantillon
Uniforme
Nul
Empirique
Paramétrique
Uniforme
Distance
Empirique
Paramétrique
Modèle
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
β̂¯
-1.20E-1
-1.17E-1
-5.31E-4
-8.17E-4
-3.95E-2
-3.91E-2
-4.62E-4
-3.30E-3
-5.23E-4
-2.57E-3
-2.37E-4
-2.77E-3
Var
6.22E-3
6.89E-3
2.57E-3
2.50E-3
2.79E-3
2.83E-3
2.91E-3
2.95E-3
2.57E-3
2.60E-3
2.58E-3
2.63E-3
EQM
2.06E-2
2.05E-2
2.57E-3
2.50E-3
4.35E-3
4.36E-3
2.91E-3
2.96E-3
2.57E-3
2.61E-3
2.58E-3
2.64E-3
2,5e c
-0.2743
-0.2815
-0.0955
-0.0952
-0.1412
-0.1427
-0.0998
-0.1039
-0.0958
-0.1002
-0.0975
-0.1002
97,5e c
0.0336
0.0438
0.1009
0.0974
0.0640
0.0634
0.1082
0.1072
0.1011
0.0991
0.0991
0.1007
53
TABLE A.5: Exponentiel - β = 0.5 et paramètre d’étendue : 0.1× la moyenne des déplacements
observés par Forester et al. (2009)
Modèle
Échantillon
Uniforme
Nul
Empirique
Paramétrique
Uniforme
Distance
Empirique
Paramétrique
Modèle
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
β̂¯
0.5360
0.5321
0.4953
0.4914
0.5184
0.5145
0.4993
0.4903
0.4961
0.4923
0.4999
0.4951
Var
4.98E-4
4.88E-4
3.83E-4
3.76E-4
4.29E-4
4.19E-4
4.94E-4
4.83E-4
3.87E-4
3.84E-4
4.04E-4
3.97E-4
EQM
1.79E-3
1.52E-3
4.06E-4
4.49E-4
7.68E-4
6.29E-4
4.94E-4
5.77E-4
4.03E-4
4.43E-4
4.04E-4
4.20E-4
2,5e c
0.4909
0.4872
0.4560
0.4530
0.4780
0.4744
0.4532
0.4446
0.4568
0.4536
0.4608
0.4569
97,5e c
0.5798
0.5753
0.5330
0.5287
0.5581
0.5539
0.5419
0.5314
0.5341
0.5295
0.5386
0.5338
TABLE A.6: Exponentiel - β = 0.5 et paramètre d’étendue : 1× la moyenne des déplacements observés
par Forester et al. (2009)
Modèle
Échantillon
Uniforme
Nul
Empirique
Paramétrique
Uniforme
Distance
Empirique
Paramétrique
54
Modèle
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
β̂¯
0.5896
0.5897
0.4946
0.4883
0.5361
0.5308
0.5007
0.4909
0.4974
0.4924
0.5000
0.4942
Var
1.33E-3
1.33E-3
5.68E-4
5.52E-4
7.31E-4
7.12E-4
6.97E-4
6.90E-4
5.88E-4
5.90E-4
6.01E-4
5.93E-4
EQM
9.35E-3
9.37E-3
5.97E-4
6.89E-4
2.03E-3
1.66E-3
6.98E-4
7.73E-4
5.94E-4
6.48E-4
6.01E-4
6.27E-4
2,5e c
0.5204
0.5189
0.4470
0.4421
0.4817
0.4776
0.4484
0.4400
0.4485
0.4442
0.4506
0.4453
97,5e c
0.6626
0.6614
0.5432
0.5360
0.5890
0.5834
0.5544
0.5455
0.5468
0.5417
0.5500
0.5431
TABLE A.7: Exponentiel - β = 0.5 et paramètre d’étendue : 5× la moyenne des déplacements observés
par Forester et al. (2009)
Modèle
Échantillon
Uniforme
Nul
Empirique
Paramétrique
Uniforme
Distance
Empirique
Paramétrique
Modèle
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
β̂¯
0.3701
0.4074
0.4976
0.4922
0.4476
0.4515
0.5021
0.4949
0.4969
0.4939
0.5020
0.4987
Var
3.80E-3
3.97E-3
1.69E-3
1.64E-3
1.82E-3
1.84E-3
1.83E-3
1.84E-3
1.68E-3
1.70E-3
1.66E-3
1.68E-3
EQM
2.07E-2
1.25E-2
1.70E-3
1.70E-3
4.57E-3
4.19E-3
1.84E-3
1.87E-3
1.69E-3
1.74E-3
1.66E-3
1.68E-3
2,5e c
0.2449
0.2841
0.4137
0.4085
0.3650
0.3689
0.4178
0.4119
0.4135
0.4095
0.4224
0.4178
97,5e c
0.4843
0.5275
0.5724
0.5670
0.5320
0.5365
0.5796
0.5738
0.5715
0.5694
0.5791
0.5783
TABLE A.8: Exponentiel - β = 0.5 et paramètre d’étendue : 10× la moyenne des déplacements observés par Forester et al. (2009)
Modèle
Échantillon
Uniforme
Nul
Empirique
Paramétrique
Uniforme
Distance
Empirique
Paramétrique
Modèle
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
β̂¯
0.3752
0.4117
0.4945
0.4875
0.4362
0.4401
0.4995
0.4895
0.4941
0.4883
0.4988
0.4925
Var
6.57E-3
7.46E-3
2.89E-3
2.84E-3
2.98E-3
3.03E-3
3.24E-3
3.28E-3
2.88E-3
2.95E-3
2.88E-3
2.95E-3
EQM
2.22E-2
1.53E-2
2.92E-3
2.99E-3
7.05E-3
6.62E-3
3.24E-3
3.39E-3
2.91E-3
3.08E-3
2.88E-3
3.01E-3
2,5e c
0.2180
0.2416
0.3917
0.3855
0.3309
0.3318
0.3905
0.3826
0.3915
0.3829
0.3939
0.3876
97,5e c
0.5396
0.5872
0.5969
0.5881
0.5431
0.5480
0.6125
0.5995
0.5962
0.5918
0.6043
0.6016
55
TABLE A.9: Exponentiel - β = 1 et paramètre d’étendue : 0.1× la moyenne des déplacements observés
par Forester et al. (2009)
Modèle
Échantillon
Uniforme
Nul
Empirique
Paramétrique
Uniforme
Distance
Empirique
Paramétrique
Modèle
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
β̂¯
1.1031
1.0898
0.9418
0.9316
1.0415
1.0287
0.9992
0.9769
0.9535
0.9443
0.9986
0.9858
Var
5.38E-4
5.23E-4
2.84E-4
2.78E-4
4.16E-4
4.02E-4
5.67E-4
5.63E-4
3.06E-4
3.07E-4
3.91E-4
3.82E-4
EQM
1.12E-2
8.60E-3
3.68E-3
4.96E-3
2.13E-3
1.23E-3
5.68E-4
1.10E-3
2.47E-3
3.41E-3
3.94E-4
5.84E-4
2,5e c
1.0564
1.0434
0.9070
0.8972
1.0013
0.9879
0.9523
0.9278
0.9177
0.9088
0.9589
0.9460
97,5e c
1.1482
1.1348
0.9757
0.9653
1.0790
1.0663
1.0441
1.0206
0.9876
0.9796
1.0351
1.0217
TABLE A.10: Exponentiel - β = 1 et paramètre d’étendue : 1× la moyenne des déplacements observés
par Forester et al. (2009)
Modèle
Échantillon
Uniforme
Nul
Empirique
Paramétrique
Uniforme
Distance
Empirique
Paramétrique
56
Modèle
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
β̂¯
1.1878
1.1823
0.9542
0.9405
1.0442
1.0287
0.9993
0.9764
0.9741
0.9676
0.9992
0.9876
Var
1.58E-3
1.70E-3
4.94E-4
4.82E-4
6.00E-4
5.87E-4
8.21E-4
8.30E-4
5.43E-4
5.65E-4
5.95E-4
6.12E-4
EQM
3.68E-2
3.49E-2
2.59E-3
4.03E-3
2.55E-3
1.41E-3
8.22E-4
1.39E-3
1.22E-3
1.62E-3
5.96E-4
7.67E-4
2,5e c
1.1150
1.1069
0.9071
0.8950
0.9965
0.9830
0.9450
0.9208
0.9263
0.9184
0.9529
0.9401
97,5e c
1.2714
1.2649
0.9995
0.9840
1.0925
1.0776
1.0568
1.0309
1.0186
1.0136
1.0469
1.0348
TABLE A.11: Exponentiel - β = 1 et paramètre d’étendue : 5× la moyenne des déplacements observés
par Forester et al. (2009)
Modèle
Échantillon
Uniforme
Nul
Empirique
Paramétrique
Uniforme
Distance
Empirique
Paramétrique
Modèle
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
β̂¯
1.0206
1.0426
0.9918
0.9792
0.9689
0.9643
0.9981
0.9851
0.9879
0.9858
0.9991
0.9941
Var
3.46E-3
3.79E-3
1.49E-3
1.43E-3
1.68E-3
1.60E-3
1.76E-3
1.77E-3
1.48E-3
1.49E-3
1.44E-3
1.44E-3
EQM
3.88E-3
5.60E-3
1.55E-3
1.87E-3
2.65E-3
2.87E-3
1.77E-3
2.00E-3
1.62E-3
1.70E-3
1.44E-3
1.48E-3
2,5e c
0.9116
0.9234
0.9203
0.9093
0.8912
0.8883
0.9195
0.9021
0.9171
0.9137
0.9273
0.9213
97,5e c
1.1298
1.1571
1.0742
1.0596
1.0499
1.0412
1.0828
1.0690
1.0703
1.0663
1.0749
1.0700
TABLE A.12: Exponentiel - β = 1 et paramètre d’étendue : 10× la moyenne des déplacements observés par Forester et al. (2009)
Modèle
Échantillon
Uniforme
Nul
Empirique
Paramétrique
Uniforme
Distance
Empirique
Paramétrique
Modèle
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
β̂¯
1.0831
1.1206
0.9914
0.9763
0.9668
0.9637
1.0003
0.9881
0.9878
0.9830
1.0008
0.9953
Var
6.34E-3
7.36E-3
2.67E-3
2.62E-3
2.64E-3
2.64E-3
2.92E-3
3.05E-3
2.62E-3
2.74E-3
2.57E-3
2.72E-3
EQM
1.33E-2
2.19E-2
2.75E-3
3.18E-3
3.74E-3
3.95E-3
2.92E-3
3.19E-3
2.77E-3
3.03E-3
2.57E-3
2.74E-3
2,5e c
0.9407
0.9612
0.8858
0.8714
0.8695
0.8633
0.8873
0.8736
0.8835
0.8780
0.8998
0.8931
97,5e c
1.2468
1.2993
1.0904
1.0748
1.0706
1.0682
1.1083
1.0937
1.0853
1.0826
1.0983
1.0948
57
TABLE A.13: Exponentiel - β = 2 et paramètre d’étendue : 0.1× la moyenne des déplacements observés par Forester et al. (2009)
Modèle
Échantillon
Uniforme
Nul
Empirique
Paramétrique
Uniforme
Distance
Empirique
Paramétrique
Modèle
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
β̂¯
2.2919
2.2050
1.4797
1.4507
2.0074
1.9478
1.9944
1.8907
1.6095
1.5873
1.9901
1.9365
Var
1.90E-3
1.67E-3
4.82E-4
4.74E-4
9.39E-4
8.72E-4
2.51E-3
2.86E-3
6.99E-4
1.25E-3
1.07E-3
1.02E-3
EQM
8.71E-2
4.37E-2
2.71E-1
3.02E-1
9.93E-4
3.60E-3
2.54E-3
1.48E-2
1.53E-1
1.72E-1
1.17E-3
5.05E-3
2,5e c
2.2105
2.1289
1.4365
1.4092
1.9512
1.8940
1.9010
1.7921
1.5609
1.5377
1.9292
1.8789
97,5e c
2.3821
2.2897
1.5214
1.4927
2.0670
2.0060
2.0956
1.9954
1.6635
1.6398
2.0549
2.0001
TABLE A.14: Exponentiel - β = 2 et paramètre d’étendue : 1× la moyenne des déplacements observés
par Forester et al. (2009)
Modèle
Échantillon
Uniforme
Nul
Empirique
Paramétrique
Uniforme
Distance
Empirique
Paramétrique
58
Modèle
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
β̂¯
2.1081
2.0866
1.7926
1.7577
2.0153
1.9702
1.9973
1.9170
1.8609
1.8529
1.9945
1.9608
Var
3.43E-3
2.78E-3
1.11E-3
1.08E-3
1.31E-3
1.24E-3
2.43E-3
2.46E-3
1.37E-3
1.40E-3
1.42E-3
1.40E-3
EQM
01.51E-2
1.03E-2
4.41E-2
5.98E-2
1.55E-3
2.13E-3
2.44E-3
9.34E-3
2.07E-2
2.30E-2
1.45E-3
2.93E-3
2,5e c
2.0045
1.9889
1.7285
1.6930
1.9455
1.9005
1.8994
1.8204
1.7887
1.7827
1.9224
1.8899
97,5e c
2.2239
2.1923
1.8577
1.8251
2.0881
2.0425
2.0938
2.0160
1.9360
1.9267
2.0735
2.0367
TABLE A.15: Exponentiel - β = 2 et paramètre d’étendue : 5× la moyenne des déplacements observés
par Forester et al. (2009)
Modèle
Échantillon
Uniforme
Nul
Empirique
Paramétrique
Uniforme
Distance
Empirique
Paramétrique
Modèle
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
β̂¯
1.4202
1.5408
1.8981
1.8607
1.8233
1.8017
1.9988
1.9537
1.8579
1.8680
1.9976
1.9817
Var
4.69E-3
5.09E-3
2.17E-3
2.11E-3
2.80E-3
2.64E-3
2.88E-3
2.91E-3
2.02E-3
2.15E-3
2.11E-3
2.14E-3
EQM
0.3409
0.2159
0.0126
0.0215
0.0340
0.0420
0.0029
0.0051
0.0222
0.0196
0.0021
0.0025
2,5e c
1.2924
1.4104
1.8070
1.7702
1.7231
1.7007
1.8932
1.8498
1.7715
1.7738
1.9067
1.8904
97,5e c
1.5606
1.6851
1.9878
1.9476
1.9305
1.9052
2.1065
2.0611
1.9456
1.9653
2.0870
2.0715
TABLE A.16: Exponentiel - β = 2 et paramètre d’étendue : 10× la moyenne des déplacements observés par Forester et al. (2009)
Modèle
Échantillon
Uniforme
Nul
Empirique
Paramétrique
Uniforme
Distance
Empirique
Paramétrique
Modèle
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
β̂¯
1.6500
1.7147
1.9509
1.9212
1.8446
1.8259
1.9989
1.9648
1.9231
1.9237
1.9991
1.9834
Var
8.78E-3
8.87E-3
3.70E-3
3.63E-3
4.18E-3
4.03E-3
4.67E-3
4.60E-3
3.59E-3
3.72E-3
3.78E-3
3.87E-3
EQM
1.31E-1
9.03E-2
6.17E-3
9.84E-3
2.83E-2
3.45E-2
4.67E-3
5.84E-3
9.50E-3
9.54E-3
3.78E-3
4.15E-3
2,5e c
1.4578
1.5241
1.8312
1.8044
1.7153
1.7013
1.8732
1.8387
1.8080
1.8131
1.8774
1.8636
97,5e c
1.8292
1.8942
2.0690
2.0344
1.9713
1.9456
2.1351
2.0971
2.0380
2.0373
2.1160
2.1007
59
TABLE A.17: Weibull - β = 0 et paramètre d’étendue : 0, 1× la moyenne des déplacements observés
par Forester et al. (2009)
Modèle
Échantillon
Uniforme
Nul
Empirique
Paramétrique
Uniforme
Distance
Empirique
Paramétrique
Modèle
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
β̂¯
-5.85E-3
-5.68E-3
-8.28E-5
1.25E-4
-5.59E-4
-3.14E-4
4.81E-4
7.23E-4
-8.25E-5
1.50E-4
1.67E-4
3.99E-4
Var
4.55E-4
4.49E-4
3.81E-4
3.75E-4
4.11E-4
4.07E-4
4.82E-4
4.82E-4
3.81E-4
3.78E-4
3.85E-4
3.80E-4
EQM
4.90E-4
4.81E-4
3.81E-4
3.75E-4
4.11E-4
4.07E-4
4.83E-4
4.82E-4
3.81E-4
3.78E-4
3.85E-4
3.80E-4
2,5e c
-0.0465
-0.0456
-0.0376
-0.0370
-0.0399
-0.0394
-0.0431
-0.0431
-0.0376
-0.0371
-0.0381
-0.0367
97,5e c
0.0388
0.0383
0.0417
0.0414
0.0421
0.0423
0.0410
0.0428
0.0417
0.0415
0.0409
0.0404
TABLE A.18: Weibull - β = 0 et paramètre d’étendue : 1× la moyenne des déplacements observés par
Forester et al. (2009)
Modèle
Échantillon
Uniforme
Nul
Empirique
Paramétrique
Uniforme
Distance
Empirique
Paramétrique
60
Modèle
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
β̂¯
-5.72E-2
-5.32E-2
-8.59E-4
7.41E-5
7.33E-3
-6.56E-3
2.66E-4
1.32E-3
-8.63E-4
1.31E-4
-1.30E-4
9.15E-4
Var
1.52E-3
1.51E-3
5.50E-4
5.39E-4
7.57E-4
7.46E-4
7.22E-4
7.43E-4
5.50E-4
5.52E-4
5.96E-4
6.00E-4
EQM
4.80E-3
4.35E-3
5.51E-4
5.39E-4
8.11E-4
7.89E-4
7.22E-4
7.45E-4
5.51E-4
5.52E-4
5.96E-4
6.01E-4
2,5e c
-0.1313
-0.1273
-0.0448
-0.0441
-0.0619
-0.0616
-0.0531
-0.0527
-0.0449
-0.0439
-0.0481
-0.0468
97,5e c
0.0180
0.0207
0.0475
0.0476
0.0493
0.0498
0.0507
0.0554
0.0475
0.0491
0.0504
0.0526
TABLE A.19: Weibull - β = 0 et paramètre d’étendue : 5× la moyenne des déplacements observés par
Forester et al. (2009)
Modèle
Échantillon
Uniforme
Nul
Empirique
Paramétrique
Uniforme
Distance
Empirique
Paramétrique
Modèle
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
β̂¯
-1.99E-1
-1.65E-1
-1.43E-3
8.58E-4
-3.63E-2
-3.14E-2
5.28E-3
6.53E-3
-1.46E-3
1.54E-4
4.00E-3
5.91E-3
Var
4.32E-3
4.83E-3
1.43E-3
1.40E-3
1.70E-3
1.73E-3
1.90E-3
2.00E-3
1.44E-3
1.48E-3
1.60E-3
1.63E-3
EQM
4.40E-2
3.21E-2
1.43E-3
1.40E-3
3.02E-3
2.72E-3
1.94E-3
2.05E-3
1.44E-3
1.48E-3
1.61E-3
1.67E-3
2,5e c
-0.3300
-0.3020
-0.0758
-0.0729
-0.1124
-0.1087
-0.0760
-0.0803
-0.0757
-0.0718
-0.0758
-0.0731
97,5e c
-0.0791
-0.0365
0.0722
0.0737
0.0412
0.0485
0.0886
0.0923
0.0720
0.0759
0.0836
0.0852
TABLE A.20: Weibull - β = 0 et paramètre d’étendue : 10× la moyenne des déplacements observés
par Forester et al. (2009)
Modèle
Échantillon
Uniforme
Nul
Empirique
Paramétrique
Uniforme
Distance
Empirique
Paramétrique
Modèle
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
β̂¯
-2.19E-1
-2.25E-1
-9.86E-4
9.25E-4
-3.60E-2
-3.45E-2
5.53E-3
-4.17E-3
9.80E-4
-2.29E-3
5.73E-3
4.50E-3
Var
7.29E-3
8.95E-3
2.73E-3
2.67E-3
3.18E-3
3.23E-3
3.67E-3
3.77E-3
2.73E-3
2.79E-3
3.02E-3
2.98E-3
EQM
5.52E-3
5.95E-3
2.73E-3
2.67E-3
4.48E-3
4.43E-3
3.70E-3
3.79E-3
2.73E-3
2.80E-3
3.05E-3
3.00E-3
2,5e c
-0.3775
-0.4024
-0.1053
-0.1037
-0.1484
-0.1466
-0.1140
-0.1150
-0.1050
-0.1097
-0.1023
-0.1023
97,5e c
-0.0587
-0.0453
0.1057
0.1058
0.0769
0.0814
0.1228
0.1243
0.1066
0.1064
0.1154
0.1114
61
TABLE A.21: Weibull - β = 0.5 et paramètre d’étendue : 0.1× la moyenne des déplacements observés
par Forester et al. (2009)
Modèle
Échantillon
Uniforme
Nul
Empirique
Paramétrique
Uniforme
Distance
Empirique
Paramétrique
Modèle
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
β̂¯
0.5310
0.5272
0.4959
0.4922
0.5140
0.5102
0.4896
0.4787
0.4963
0.4926
0.4952
0.4905
Var
4.87E-4
4.67E-4
3.79E-4
3.71E-4
4.25E-4
4.14E-4
5.65E-4
5.60E-4
3.81E-4
3.76E-4
3.96E-4
3.86E-4
EQM
1.45E-3
1.22E-3
3.96E-4
4.33E-4
6.22E-4
5.18E-4
6.73E-4
1.01E-3
3.95E-4
4.31E-4
4.19E-4
4.77E-4
2,5e c
0.4875
0.4838
0.4581
0.4548
0.4764
0.4709
0.4443
0.4342
0.4587
0.4542
0.4563
0.4521
97,5e c
0.5749
0.5700
0.5338
0.5298
0.5567
0.5516
0.5363
0.5258
0.5343
0.5306
0.5334
0.5284
TABLE A.22: Weibull - β = 0.5 et paramètre d’étendue : 1× la moyenne des déplacements observés
par Forester et al. (2009)
Modèle
Échantillon
Uniforme
Nul
Empirique
Paramétrique
Uniforme
Distance
Empirique
Paramétrique
62
Modèle
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
β̂¯
0.5841
0.5875
0.4944
0.4883
0.5490
0.5370
0.5052
0.4917
0.4956
0.4906
0.5057
0.4995
Var
1.55E-3
1.56E-3
5.68E-4
5.49E-4
7.70E-4
7.50E-4
7.68E-4
7.67E-4
5.76E-4
5.81E-4
6.31E-4
6.29E-4
EQM
8.63E-3
9.21E-3
5.99E-4
6.87E-4
2.53E-4
2.12E-4
7.95E-4
8.36E-4
5.96E-4
6.69E-4
6.63E-4
6.30E-4
2,5e c
0.5079
0.5106
0.4468
0.4410
0.4905
0.4864
0.4478
0.4367
0.4476
0.4419
0.4573
0.4513
97,5e c
0.6579
0.6617
0.5436
0.5365
0.5946
0.5895
0.5581
0.5447
0.5455
0.5428
0.5548
0.5510
TABLE A.23: Weibull - β = 0.5 et paramètre d’étendue : 5× la moyenne des déplacements observés
par Forester et al. (2009)
Modèle
Échantillon
Uniforme
Nul
Empirique
Paramétrique
Uniforme
Distance
Empirique
Paramétrique
Modèle
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
β̂¯
0.3545
0.4138
0.4965
0.4923
0.4670
0.4717
0.5203
0.5085
0.4958
0.4957
0.5182
0.5139
Var
4.35E-3
4.84E-3
1.51E-3
1.47E-3
1.75E-3
1.76E-3
2.04E-3
2.05E-3
1.49E-3
1.53E-3
1.60E-3
1.62E-3
EQM
2.25E-2
1.23E-2
1.52E-3
1.53E-3
2.85E-3
2.56E-3
2.45E-3
2.12E-3
1.51E-3
1.55E-3
1.93E-3
1.82E-3
2,5e c
0.2255
0.2749
0.4199
0.4172
0.3829
0.3834
0.4337
0.4247
0.4191
0.4189
0.4443
0.4386
97,5e c
0.4854
0.5483
0.5722
0.5672
0.5480
0.5549
0.6107
0.5989
0.5708
0.5722
0.5967
0.5936
TABLE A.24: Weibull - β = 0.5 et paramètre d’étendue : 10× la moyenne des déplacements observés
par Forester et al. (2009)
Modèle
Échantillon
Uniforme
Nul
Empirique
Paramétrique
Uniforme
Distance
Empirique
Paramétrique
Modèle
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
β̂¯
0.2679
0.2945
0.4927
0.4889
0.4544
0.4597
0.5207
0.5034
0.4925
0.4891
0.5189
0.5094
Var
8.57E-3
1.18E-2
2.61E-3
2.53E-3
2.84E-3
2.90E-3
3.48E-3
3.56E-3
2.58E-3
2.72E-3
2.77E-3
2.83E-3
EQM
6.24E-2
5.40E-2
2.66E-3
2.66E-3
4.91E-3
4.53E-3
3.91E-3
3.58E-3
2.64E-3
2.84E-3
3.13E-3
2.92E-3
2,5e c
0.0970
0.0927
0.3905
0.3898
0.3533
0.3561
0.4055
0.3822
0.3908
0.3865
0.4123
0.4103
97,5e c
0.4542
0.5023
0.5967
0.5902
0.5587
0.5780
0.6432
0.6241
0.5962
0.5902
0.6243
0.6176
63
TABLE A.25: Weibull - β = 1 et paramètre d’étendue : 0.1× la moyenne des déplacements observés
par Forester et al. (2009)
Modèle
Échantillon
Uniforme
Nul
Empirique
Paramétrique
Uniforme
Distance
Empirique
Paramétrique
Modèle
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
β̂¯
1.0880
1.0749
0.9540
0.9437
1.0279
1.0155
0.9802
0.9542
0.9593
0.9500
0.9859
0.9733
Var
6.41E-4
6.14E-4
3.36E-4
3.26E-4
4.60E-4
4.42E-4
7.97E-4
8.02E-4
3.47E-4
3.41E-4
4.41E-4
4.31E-4
EQM
8.39E-3
6.22E-3
2.46E-3
3.50E-3
1.24E-3
6.81E-4
1.19E-4
2.90E-4
2.01E-4
2.84E-3
6.38E-4
1.15E-3
2,5e c
1.0400
1.0273
0.9194
0.9094
0.9888
0.9774
0.9281
0.9012
0.9234
0.9151
0.9458
0.9340
97,5e c
1.1378
1.1234
0.9892
0.9784
1.0693
1.0570
1.0330
1.0096
0.9950
0.9859
1.0279
1.0136
TABLE A.26: Weibull - β = 1 et paramètre d’étendue : 1× la moyenne des déplacements observés par
Forester et al. (2009)
Modèle
Échantillon
Uniforme
Nul
Empirique
Paramétrique
Uniforme
Distance
Empirique
Paramétrique
64
Modèle
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
β̂¯
1.2072
1.2145
0.9639
0.9498
1.0623
1.0479
1.0107
0.9773
0.9729
0.9640
1.0070
0.9918
Var
1.79E-3
1.82E-3
6.07E-4
5.92E-4
7.48E-4
7.11E-3
1.18E-3
1.18E-3
6.46E-4
6.56E-4
7.14E-4
7.10E-4
EQM
4.47E-2
4.78E-2
1.91E-3
3.11E-3
4.63E-3
3.00E-3
1.29E-3
1.69E-3
1.38E-3
1.95E-3
7.64E-4
7.77E-4
2,5e c
1.2874
1.1359
0.9172
0.9034
1.0122
0.9985
0.9472
0.9122
0.9262
0.9156
0.9588
0.9431
97,5e c
1.3617
1.2948
1.0115
0.9972
1.1148
1.1009
1.0809
1.0440
1.0236
1.0151
1.0598
1.0461
TABLE A.27: Weibull - β = 1 et paramètre d’étendue : 5× la moyenne des déplacements observés par
Forester et al. (2009)
Modèle
Échantillon
Uniforme
Nul
Empirique
Paramétrique
Uniforme
Distance
Empirique
Paramétrique
Modèle
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
β̂¯
0.8957
0.9802
0.9912
0.9789
0.9720
0.9727
1.0362
1.0124
0.9843
0.9855
1.0305
1.0211
Var
4.70E-3
5.29E-3
1.72E-3
1.65E-3
1.99E-3
2.03E-3
2.41E-3
2.51E-3
1.66E-3
1.73E-3
1.79E-3
1.86E-3
EQM
1.56E-3
5.68E-3
1.80E-3
2.10E-3
2.78E-3
2.78E-3
3.73E-3
2.66E-3
1.90E-3
1.94E-3
2.72E-3
2.31E-3
2,5e c
0.7664
0.8470
0.9048
0.8968
0.8811
0.8791
0.9354
0.9129
0.8992
0.9020
0.9472
0.9313
97,5e c
1.0298
1.1243
1.0740
1.0605
1.0618
1.0634
1.1285
1.1061
1.0659
1.0697
1.1182
1.1057
TABLE A.28: Weibull - β = 1 et paramètre d’étendue : 10× la moyenne des déplacements observés
par Forester et al. (2009)
Modèle
Échantillon
Uniforme
Nul
Empirique
Paramétrique
Uniforme
Distance
Empirique
Paramétrique
Modèle
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
β̂¯
0.7210
0.7874
0.9902
0.9801
0.9473
0.9535
1.0454
1.0131
0.9858
0.9840
1.0400
1.0233
Var
1.22E-2
1.81E-2
3.21E-3
3.11E-3
3.40E-3
3.52E-3
4.59E-3
4.78E-3
3.09E-3
3.37E-3
3.37E-3
3.50E-3
EQM
9.00E-2
6.34E-2
3.30E-3
3.50E-3
6.18E-3
5.68E-3
6.65E-3
4.95E-3
3.29E-3
3.63E-3
4.97E-3
4.04E-3
2,5e c
0.5006
0.5170
0.8804
0.8705
0.8312
0.8326
0.9151
0.8847
0.8776
0.8759
0.9214
0.9061
97,5e c
0.9297
1.0444
1.0963
1.0838
1.0557
1.0618
1.1768
1.1516
1.0906
1.0951
1.1518
1.1365
65
TABLE A.29: Weibull - β = 2 et paramètre d’étendue : 0.1× la moyenne des déplacements observés
par Forester et al. (2009)
Modèle
Échantillon
Uniforme
Nul
Empirique
Paramétrique
Uniforme
Distance
Empirique
Paramétrique
Modèle
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
β̂¯
2.2616
2.1755
1.4856
1.4596
1.9608
1.9060
1.9661
1.8602
1.5610
1.5453
1.9410
1.8877
Var
1.71E-3
1.56E-3
4.49E-4
4.52E-4
8.90E-4
8.34E-4
2.97E-3
4.13E-3
5.66E-4
6.61E-4
9.48E-4
9.15E-4
EQM
7.02E-2
3.24E-2
2.65E-1
2.93E-1
2.42E-3
9.67E-3
4.12E-3
2.37E-2
1.93E-1
2.07E-1
4.43E-3
1.35E-2
2,5e c
2.1865
2.1051
1.4439
1.4174
1.9071
1.8523
1.8593
1.7449
1.5146
1.4967
1.8836
1.8319
97,5e c
2.3443
2.2586
1.5270
1.5023
2.0235
1.9638
2.0807
1.9989
1.6075
1.5946
2.0035
1.9480
TABLE A.30: Weibull - β = 2 et paramètre d’étendue : 1× la moyenne des déplacements observés par
Forester et al. (2009)
Modèle
Échantillon
Uniforme
Nul
Empirique
Paramétrique
Uniforme
Distance
Empirique
Paramétrique
66
Modèle
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
β̂¯
2.3120
2.2926
1.7776
1.7447
1.9908
1.9471
2.0146
1.9096
1.8233
1.8154
1.9795
1.9406
Var
2.79E-3
2.51E-3
9.66E-4
9.48E-4
1.11E-3
1.09E-3
2.96E-3
3.55E-3
1.08E-3
1.14E-3
1.25E-3
1.26E-3
EQM
1.13E-1
8.81E-2
5.04E-2
6.61E-2
1.20E-3
3.89E-3
3.17E-3
1.17E-2
3.23E-2
3.51E-2
1.67E-3
4.79E-3
2,5e c
2.2288
2.1973
1.7145
1.6849
1.9245
1.8821
1.9092
1.7990
1.7602
1.7520
1.9106
1.8711
97,5e c
2.4362
2.3919
1.8397
1.8056
2.0518
2.0096
2.1200
2.0347
1.8895
1.8845
2.0458
2.0086
TABLE A.31: Weibull - β = 2 et paramètre d’étendue : 5× la moyenne des déplacements observés par
Forester et al. (2009)
Modèle
Échantillon
Uniforme
Nul
Empirique
Paramétrique
Uniforme
Distance
Empirique
Paramétrique
Modèle
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
β̂¯
1.9576
2.0791
1.9496
1.9153
2.0144
1.9864
2.0941
2.0310
1.9248
1.9311
2.0601
2.0344
Var
7.36E-3
7.85E-3
2.57E-3
2.49E-3
3.00E-3
2.87E-3
4.34E-3
4.31E-3
2.55E-3
2.66E-3
2.68E-3
2.72E-3
EQM
9.15E-3
1.41E-2
5.11E-3
9.67E-3
3.20E-3
3.06E-3
1.32E-2
5.28E-3
8.20E-3
7.42E-3
6.29E-3
3.90E-3
2,5e c
1.7993
1.9068
1.8486
1.8165
1.9076
1.8763
1.9695
1.9098
1.8258
1.8303
1.9520
1.9259
97,5e c
2.1374
2.2567
2.0487
2.0133
2.1199
2.0873
2.2314
2.1720
2.0244
2.0296
2.1608
2.1351
TABLE A.32: Weibull - β = 2 et paramètre d’étendue : 10× la moyenne des déplacements observés
par Forester et al. (2009)
Modèle
Échantillon
Uniforme
Nul
Empirique
Paramétrique
Uniforme
Distance
Empirique
Paramétrique
Modèle
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
Forester
Mixte
β̂¯
1.5056
1.6391
1.9637
1.9338
1.9540
1.9444
2.1129
2.0423
1.9389
1.9511
2.0864
2.0540
Var
2.38E-2
3.74E-2
3.95E-3
3.80E-3
4.32E-3
4.33E-3
5.98E-3
5.93E-3
3.73E-3
3.97E-3
4.09E-3
4.15E-3
EQM
2.68E-1
1.68E-1
5.27E-3
8.19E-3
6.44E-3
7.43E-3
1.87E-2
7.72E-3
7.46E-3
6.36E-3
1.15E-2
6.79E-3
2,5e c
1.2107
1.2711
1.8407
1.8112
1.8242
1.8155
1.9660
1.8898
1.8193
1.8264
1.9588
1.9245
97,5e c
1.7879
1.9815
2.0850
2.0526
2.0836
2.0812
2.2689
2.1919
2.0558
2.0786
2.2145
2.1781
67
Annexe B
Code R
Ce code R nécessite l’installation et le chargement des packages "RandomFields", "Survival" et
"TwoStepCLogit".
library(RandomFields) #Générer les environnements
library(survival) #Appliquer un modèle régression logistique conditionnelle
library(TwoStepCLogit) #Ajouter des effets aléatoires dans le modèle
i<-100 #Nombre d’individus
j<-30 #Nombre de déplacements par individu
s<-2000 #Nombre de lieux potentiels
k<-20 #Nombre de lieux témoins
lambda1<-1/21
lambda2<-14
lambda3<-42
lambdar<-1/45
v1<-1.22
v2<-1.01
beta<-c(0,0.5,1,2)
replique<-1000 #Nombre de réplicats
scale1<-0.1 ∗ 21
scale2<-1 ∗ 21
scale3<-5 ∗ 21
scale4<-10 ∗ 21
scale_r<-scale1 #Choix du paramètre d’étendue
#########Générer l’environnement###########
model<-"exponential"
mean<-0
variance<-1
69
nugget<-0
step<-1
#Dimension de la carte d’environnement#
x<-seq(1,1024,step)
y<-seq(1,1024,step)
f1 <- GaussRF(x=x, y=y, model=model, grid=TRUE, param=c(mean, variance, nugget, scale_r))
#########Noyau de déplacement#########
phi1<-function(r) (lambda1 ∗ exp(−lambda1 ∗ r ))/(2 ∗ pi ∗ r ) #Noyau exponentielle
phi_r<-function(r) (lambdar ∗ exp(−lambdar ∗ r ))/(2 ∗ pi ∗ r )
#########Matrice des résultats des modèles de régression#########
reg_unif_distanceR<-matrix(0,nrow=1,ncol=2)#Forester-uniforme-Modèle distance
reg_emp_distanceR<-matrix(0,nrow=1,ncol=2)#Forester-empirique-Modèle distance
reg_param_distanceR<-matrix(0,nrow=1,ncol=2)#Forester-paramétrique-Modèle distance
reg_unif_nulR<-matrix(0,nrow=1,ncol=1)#Forester-uniforme-Modèle nul
reg_emp_nulR<-matrix(0,nrow=1,ncol=1)#Forester-empirique-Modèle nul
reg_param_nulR<-matrix(0,nrow=1,ncol=1)#Forester-paramétrique-Modèle nul
TS_unif_distanceR<-matrix(0,nrow=1,ncol=2)#TS-uniforme-Modèle distance
TS_emp_distanceR<-matrix(0,nrow=1,ncol=2)#TS-empirique-Modèle distance
TS_param_distanceR<-matrix(0,nrow=1,ncol=2)#TS-paramétrique-Modèle distance
TS_unif_nulR<-matrix(0,nrow=1,ncol=1)#TS-uniforme-Modèle nul
TS_emp_nulR<-matrix(0,nrow=1,ncol=1)#TS-empirique-Modèle nul
TS_param_nulR<-matrix(0,nrow=1,ncol=1)#TS-paramétrique-Modèle nul
#########Exécution des 1000 réplicats#########
replicat<-0
lieux_depart<-matrix(nrow=i∗j,ncol=2,0)
while(replicat<replique)
x0<-sample(341 :683,size=i,replace=T)#Coordonnée de départ sur l’axe des x (dans le 1/9 de l’environnement)
y0<-sample(341 :683,size=i,replace=T)#Coordonnée de départ sur l’axe des y (dans le 1/9 de l’environnement)
#########Exécution des 30 déplacements par individu#########
temps<-0
Resultats<-matrix(nrow=i*j,ncol=10,0)#Matrice des lieux visités et des lieux témoins
while(temps<j)
#####Pour chaque lieu disponible#####
r<-matrix(rexp(i∗s,rate=lambdar),ncol=i,nrow=s)#Distance
u<-matrix(runif(i∗s,min=0,max=2 ∗ π),ncol=i,nrow=s)#Angle
Px<-matrix(rep(x0,s),ncol=i,nrow=s,byrow=T)+r ∗ sin(u)#Coordonnées en x
Py<-matrix(rep(y0,s),ncol=i,nrow=s,byrow=T)+r ∗ cos(u)#Coordonnées en y
70
Px<-abs(Px)#Coordonnée négative, exemple : −34 devient +34
Px<-(1024 − (Px − 1024)) ∗ (Px > 1024) + (Px) ∗ (Px <= 1024)#Coordonnée supérieure à 1024,
exemple : 1034 devient 1014
Px<-(1 + (1 − Px)) ∗ ((Px >= 0)&(Px < 1)) + Px ∗ (Px >= 1)#Coordonnée entre 0 et 1, exempl :
0.45 devient 1.45
Py<-abs(Py)
Py<-(1024 − (Py − 1024)) ∗ (Py > 1024) + (Py) ∗ (Py <= 1024)
Py<-(1 + (1 − Py)) ∗ ((Py >= 0)&(Py < 1)) + Py ∗ (Py >= 1)
value_visite<-f1[cbind(rep(Px),rep(Py))]
value_map<-exp(matrix(value_visite∗beta[1],ncol=i))#RSF en fonction de β
numerateur<-phi1(r)∗value_map/phi_r(r)
denominateur<-matrix(rep(colSums(numerateur),each=s),ncol=i)
probabilites<-numerateur/denominateur#Probabilité de sélection du lieu visité
#####Sélection du lieu visité#####
p<-0
visit<-rep(0,i)
for (p in 1 :i)
visit[p]<-sample(1 :nrow(probabilites), 1,prob=probabilites[,p])
p<-p+1
departx<-matrix(rep(x0,each=s),ncol=1)
departy<-matrix(rep(y0,each=s),ncol=1)
pointx<-matrix(Px,ncol=1)
pointy<-matrix(Py,ncol=1)
distance<-matrix(r,ncol=1)
angle<-matrix(u,ncol=1)
value_visite<-matrix(value_visite,ncol=1)
nombre<-c(1 :i ∗ s − s)
#####Matrice des lieux visités pour les 100 individus#####
visite=visit + nombre
lieux_visites<-cbind(matrix(c(1 :i),ncol=1),temps+1,pointx[visite],pointy[visite],
departx[visite],departy[visite],distance[visite],angle[visite],value_visite[visite],1)
lieux_departs<-cbind(x0,y0)
for (qq in 1 :i) Resultats[qq∗j+temps−j+1,]<-lieux_visites[qq,]
for (qq in 1 :i) lieux_depart[qq∗j+temps−j+1,]<-lieux_departs[qq,]
#####Nouveau déplacement#####
temps<-temps+1
x0<-lieux_visites[,3]
y0<-lieux_visites[,4]
71
#########Échantillonnage uniforme des lieux témoins#########
dmax<-1.2∗max(Resultats[,7])
ra<-matrix(runif(k∗i∗j,min=0,max=dmax),ncol=i∗j,nrow=k)
ua<-matrix(runif(k∗i∗j,min=0,max=2 ∗ π),ncol=i*j,nrow=k)
x<-matrix(rep(Resultats[,3],k),ncol=i∗j,nrow=k,byrow=T)+ra∗ sin(ua)
y<-matrix(rep(Resultats[,4],k),ncol=i∗j,nrow=k,byrow=T)+ra∗ cos(ua)
x<-abs(x)
x<-(1024 − (x − 1024)) ∗ (x > 1024) + (x) ∗ (x <= 1024)
x<-(1 + (1 − x)) ∗ ((x >= 0)&(x < 1)) + x ∗ (x >= 1)
y<-abs(y)
y<-(1024 − (y − 1024)) ∗ (y > 1024) + (y) ∗ (y <= 1024)
y<-(1 + (1 − y)) ∗ ((y >= 0)&(y < 1)) + y ∗ (y >= 1)
Coord_temoins<-cbind(matrix(x,ncol=1),matrix(y,ncol=1))
ressource1<-f1[Coord_temoins]
Echantillon_uniforme<-rbind(Resultats[,c(1,2,3,4,7,9,10)],cbind(rep(1 :i,each=j∗k),
rep(1 :j,each=k),Coord_temoins,matrix(ra,ncol=1),ressource1,0))
Uniforme<-Echantillon_uniforme[order(Echantillon_uniforme[,1],Echantillon_uniforme[,2]),]
#########Échantillonnage empirique des lieux témoins#########
r_u<-Resultats[sample(1 :(i∗j),size=k∗i∗j,replace=T),c(7,8)]
x2<-matrix(rep(lieux_depart[,1],k),ncol=i∗j,nrow=k,byrow=T)+r_u[,1]∗ sin(r_u[, 2])
y2<-matrix(rep(lieux_depart[,2],k),ncol=i∗j,nrow=k,byrow=T)+r_u[,1]∗ cos(r_u[, 2])
#Reprendre la procédure employée dans l’échantillonnage uniforme des lieux témoins et l’appliquer
à l’échantillonnage empirique.#
Empirique<-Echantillon_empirique[order(Echantillon_empirique[,1],
Echantillon_empirique[,2]),]
#########Échantillonnage paramétrique des lieux témoins#########
moy_length<-mean(Resultats[,7])
parametric_r<-matrix(rexp(n=k∗i∗j,rate=1/(2∗moy_length)),ncol=i∗j,nrow=k)
parametric_u<-matrix(runif(n=k∗i∗j,min=0,max=2 ∗ π),ncol=i∗j,nrow=k)
#Reprendre la procédure employée dans l’échantillonnage uniforme des lieux témoins et l’appliquer
à l’échantillonnage paramétrique.#
Parametrique<-Echantillon_parametrique[order(Echantillon_parametrique[,1],
Echantillon_parametrique[,2]),]
72
####Régression logistique conditionnelle - Modèle "Nul" - Échantillonnage uniforme####
replicat<-replicat+1
statut<-Uniforme[,7]
stratum=(Uniforme[,1]−1)*j+Uniforme[,2]
clust=Uniforme[,1]
predictor<-Uniforme[,6]
temps_echec<-rep(1,i∗j∗(k+1))
reg_unif_nul_b1<-coxph(Surv(temps_echec,statut) predictor + strata(stratum) + cluster(clust),robust=T)
reg_unif_nulR<-reg_unif_nul_b1$coefficients
####Ajout d’effet aléatoire dans le modèle - Modèle "Distance" - Échantillonnage uniforme####
twostepclogit=cbind(statut,stratum, clust,predictor,ral)
TS_unif_distance <- Ts.estim(formula = statut predictor + ral + strata(stratum) + cluster(clust),
data = twostepclogit, random = predictor + ral, all.m.1=TRUE, D="UN(1)")
TS_unif_distanceR<-TS_unif_distance$beta
Il est possible d’obtenir les coefficients des autres modèles en se référant au code précédent. Répéter le code en modifiant les valeurs de β en changeant la valeur du paramètre "beta" dans la variable
"value_map" et du paramètre d’étendue en modifiant la ligne de code "scale_r<-scale1".
73
Téléchargement