TD GLM-Vincent-2011 - Centre de Recherches sur la Cognition

1
INTRODUCTION AUX MODELES LINEAIRES
GENERAUX
(GLM: General Linear Model)
ANCOVA et REGRESSION MULTIPLE
Vincent FOURCASSIE
Centre de Recherches sur la Cognition Animale
Université Paul Sabatier
Notion de covariable: exemple
On s’intéresse à l’effet de la température ambiante (VI) sur la vitesse de déplacement
(VD) d’individus appartenant à une certaine espèce d’insecte.
Chez beaucoup d’insectes la taille des individus varie au sein de la même espèce et
donc, indépendamment de l’effet de la température, leur vitesse de déplacement va
dépendre de la taille de leurs pattes. Si on veut étudier strictement l’effet de la
température sur la vitesse, il faudrait donc tenir compte de la longueur des pattes des
individus dont on mesure la vitesse.
Comme il est plus facile de peser les insectes que de mesurer la longueur de leurs
pattes et comme l’on sait que la longueur des pattes est liée au poids de l’insecte, on
peut introduire le poids des individus comme VI supplémentaire.
Cette variable est appellée covariable (ou variable contrôle) car il s’agit d’une
variable confondante qu’il est important de considérer mais qui ne nous intéresse pas
directement dans notre étude.
La prise en compte du poids des individus va permettre d’expliquer une partie de la
variabilité observée dans la vitesse de déplacement des insectes et de mieux apprécier
ainsi l’effet de la température sur celle-ci .
2
Notion de covariable: définition
On appelle covariable une variable
indépendante qui n’a pas d’intérêt direct
en tant que telle mais dont dépend une
autre variable indépendante d’intérêt.
La prise en compte d’une ou plusieurs
covariables va permettre de contrôler une
partie de la variation de la variable
indépendante d’intérêt.
Notion de corrélation partielle
Le calcul d’un coefficient de corrélation partielle
va permettre de mesurer l’effet d’une VI d’intérêt
sur une VD donnée tout en tenant compte des
effets confondants d’une ou plusieurs autres
covariables (=VI).
Exemple: dans l’étude sur la relation entre la
vitesse d’un insecte (VD) et la température
ambiante (VI), on peut calculer un coefficient de
corrélation partielle entre la vitesse et la
température ambiante qui tient compte aussi de
l’effet du poids de l’insecte sur sa vitesse. Ce
coefficient exprimera la relation entre la vitesse
des individus et la température ambiante, à
poids d’individu constant.
3
Notion de corrélation partielle
Pour étudier l’effet de la température ambiante et du
poids des insectes sur leur vitesse de déplacement on
peut utiliser une régression multiple.
Le modèle de régression s’écrira:
V = b0 + b1 T + b2 P
V= vitesse de déplacement, T= température et P=
poids de l’individu
b1 et b2 sont des coefficients de corrélation partielle.
b1 exprime l’effet de la température sur la vitesse de
déplacement, à poids d’individu constant, et b2
exprime l’effet du poids de l’individu sur la vitesse de
déplacement, à température ambiante constante.
De la régression simple à la régression multiple
Une régression multiple est une régression où la VD est
expliquée non plus par une seule VI comme dans la
régression simple mais par plusieurs VI (dont certaines
peuvent être des covariables)
Par extension de la régression simple, un modèle de
régression multiple s’exprime sous la forme d’une
équation:
VD= b0 + b1 VI1 + b2 VI2 + …. + bn VIn
pour n VI.
Les coefficients b1, b2, bn sont des coefficients de
corrélation partielle. Ils expriment l’effet de chaque VI
sur la VD tout en contrôlant l’effet des autres VI.
4
Régression multiple et modèle linéaire général
Une régression multiple peut mélanger des variables catégorielles et
des variables continues. Les différents niveaux des variables
catégorielles sont simplement codés sous forme numérique. Ex: 2
niveaux (-1,+1), 3 niveaux (-1,0,+1)…
La régression multiple est un modèle linéaire général (GLM:
General Linear Model).
Un modèle linéaire général s’exprime sous la forme:
VD= b0 + b1 VI1 + b2 VI2 + …. + bn VIn + ξ
ξ est l’erreur (= résidus) attachée à la détermination de la VD.
Dans le modèle linéaire général l’erreur est distribuée suivant une
loi normale.
Dans le modèle linéaire généralisée l’erreur peut être distribuée
suivant une loi normale ou une autre loi (binomiale, Poisson…).
GLM avec plusieurs VI: notion d’interaction
PAS D’INTERACTION INTERACTION
VD
VI continue
VI catégorielle
à 2 niveaux
Il y a interaction lorsque l’effet de la VI continue sur la VD
varie de façon différente en fonction du niveau de la VI
catégorielle
5
Modèle linéaire général (GLM)
Un grand nombre de tests statistiques usuels
correspondent à des modèles linéaires généraux.
Exemples:
t-test pour comparaison de la moyenne d’un échantillon à une
valeur théorique: Y= b0
t-test pour comparaison entre 2 échantillons: Y= b0 + b1 X1 où X1
est une VI catégorielle à deux niveaux
Régression simple: Y= b0 + b1 X1 où X1 est une VI continue
ANOVA sans interaction: Y= b0 + b1 X1 + b2 X2 où X1, X2 sont
toutes deux des VI catégorielles à plusieurs niveaux.
ANOVA avec interaction: Y= b0 + b1 X1 + b2 X2 + b3 (X1 * X2)
X1, X2 sont toutes deux des VI catégorielles à plusieurs niveaux
et (X1 * X2) est le terme d’interaction entre les deux VI.
ANCOVA: Y= b0 + b1 X1 + b2 X2 où X1 est une VI continue et X2
est une VI catégorielle à plusieurs niveaux.
ANCOVA (ANalyse de COVAriance): définition
ANCOVA: Y= b0 + b1 X1 + b2 X2
où X1 est une VI continue et X2 est une VI catégorielle à
plusieurs niveaux.
NB:
l’ANCOVA est un cas particulier de régression multiple avec une
VI continue et une VI catégorielle et où il n’y a pas
d’interaction entre la VI continue et la VI catégorielle.
1 / 11 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !