TD GLM-Vincent-2011 - Centre de Recherches sur la Cognition

publicité
INTRODUCTION AUX MODELES LINEAIRES
GENERAUX
(GLM: General Linear Model)
ANCOVA et REGRESSION MULTIPLE
Vincent FOURCASSIE
[email protected]
Centre de Recherches sur la Cognition Animale
Université Paul Sabatier
Notion de covariable: exemple
• 
On s’intéresse à l’effet de la température ambiante (VI) sur la vitesse de déplacement
(VD) d’individus appartenant à une certaine espèce d’insecte.
• 
Chez beaucoup d’insectes la taille des individus varie au sein de la même espèce et
donc, indépendamment de l’effet de la température, leur vitesse de déplacement va
dépendre de la taille de leurs pattes. Si on veut étudier strictement l’effet de la
température sur la vitesse, il faudrait donc tenir compte de la longueur des pattes des
individus dont on mesure la vitesse.
• 
Comme il est plus facile de peser les insectes que de mesurer la longueur de leurs
pattes et comme l’on sait que la longueur des pattes est liée au poids de l’insecte, on
peut introduire le poids des individus comme VI supplémentaire.
• 
Cette variable est appellée covariable (ou variable contrôle) car il s’agit d’une
variable confondante qu’il est important de considérer mais qui ne nous intéresse pas
directement dans notre étude.
• 
La prise en compte du poids des individus va permettre d’expliquer une partie de la
variabilité observée dans la vitesse de déplacement des insectes et de mieux apprécier
ainsi l’effet de la température sur celle-ci .
1
Notion de covariable: définition
•  On appelle covariable une variable
indépendante qui n’a pas d’intérêt direct
en tant que telle mais dont dépend une
autre variable indépendante d’intérêt.
•  La prise en compte d’une ou plusieurs
covariables va permettre de contrôler une
partie de la variation de la variable
indépendante d’intérêt.
Notion de corrélation partielle
•  Le calcul d’un coefficient de corrélation partielle
va permettre de mesurer l’effet d’une VI d’intérêt
sur une VD donnée tout en tenant compte des
effets confondants d’une ou plusieurs autres
covariables (=VI).
•  Exemple: dans l’étude sur la relation entre la
vitesse d’un insecte (VD) et la température
ambiante (VI), on peut calculer un coefficient de
corrélation partielle entre la vitesse et la
température ambiante qui tient compte aussi de
l’effet du poids de l’insecte sur sa vitesse. Ce
coefficient exprimera la relation entre la vitesse
des individus et la température ambiante, à
poids d’individu constant.
2
Notion de corrélation partielle
•  Pour étudier l’effet de la température ambiante et du
poids des insectes sur leur vitesse de déplacement on
peut utiliser une régression multiple.
•  Le modèle de régression s’écrira:
V = b0 + b1 T + b2 P
où V= vitesse de déplacement, T= température et P=
poids de l’individu
•  b1 et b2 sont des coefficients de corrélation partielle.
b1 exprime l’effet de la température sur la vitesse de
déplacement, à poids d’individu constant, et b2
exprime l’effet du poids de l’individu sur la vitesse de
déplacement, à température ambiante constante.
De la régression simple à la régression multiple
•  Une régression multiple est une régression où la VD est
expliquée non plus par une seule VI comme dans la
régression simple mais par plusieurs VI (dont certaines
peuvent être des covariables)
•  Par extension de la régression simple, un modèle de
régression multiple s’exprime sous la forme d’une
équation:
VD= b0 + b1 VI1 + b2 VI2 + …. + bn VIn
pour n VI.
•  Les coefficients b1, b2, bn sont des coefficients de
corrélation partielle. Ils expriment l’effet de chaque VI
sur la VD tout en contrôlant l’effet des autres VI.
3
Régression multiple et modèle linéaire général
•  Une régression multiple peut mélanger des variables catégorielles et
des variables continues. Les différents niveaux des variables
catégorielles sont simplement codés sous forme numérique. Ex: 2
niveaux (-1,+1), 3 niveaux (-1,0,+1)…
•  La régression multiple est un modèle linéaire général (GLM:
General Linear Model).
•  Un modèle linéaire général s’exprime sous la forme:
VD= b0 + b1 VI1 + b2 VI2 + …. + bn VIn + ξ
où ξ est l’erreur (= résidus) attachée à la détermination de la VD.
•  Dans le modèle linéaire général l’erreur est distribuée suivant une
loi normale.
•  Dans le modèle linéaire généralisée l’erreur peut être distribuée
suivant une loi normale ou une autre loi (binomiale, Poisson…).
GLM avec plusieurs VI: notion d’interaction
VI catégorielle
à 2 niveaux
VD
VI continue
PAS D’INTERACTION
INTERACTION
•  Il y a interaction lorsque l’effet de la VI continue sur la VD
varie de façon différente en fonction du niveau de la VI
catégorielle
4
Modèle linéaire général (GLM)
•  Un grand nombre de tests statistiques usuels
correspondent à des modèles linéaires généraux.
•  Exemples:
–  t-test pour comparaison de la moyenne d’un échantillon à une
valeur théorique: Y= b0
–  t-test pour comparaison entre 2 échantillons: Y= b0 + b1 X1 où X1
est une VI catégorielle à deux niveaux
–  Régression simple: Y= b0 + b1 X1 où X1 est une VI continue
–  ANOVA sans interaction: Y= b0 + b1 X1 + b2 X2 où X1, X2 sont
toutes deux des VI catégorielles à plusieurs niveaux.
–  ANOVA avec interaction: Y= b0 + b1 X1 + b2 X2 + b3 (X1 * X2) où
X1, X2 sont toutes deux des VI catégorielles à plusieurs niveaux
et (X1 * X2) est le terme d’interaction entre les deux VI.
–  ANCOVA: Y= b0 + b1 X1 + b2 X2 où X1 est une VI continue et X2
est une VI catégorielle à plusieurs niveaux.
ANCOVA (ANalyse de COVAriance): définition
ANCOVA: Y= b0 + b1 X1 + b2 X2
où X1 est une VI continue et X2 est une VI catégorielle à
plusieurs niveaux.
NB:
–  l’ANCOVA est un cas particulier de régression multiple avec une
VI continue et une VI catégorielle et où il n’y a pas
d’interaction entre la VI continue et la VI catégorielle.
5
ANCOVA (ANalyse de COVAriance): définition
Modèle
Linéaire
Généralisé
Modèle
Linéaire
Général
Régression
ANCOVA
Multiple
ANOVA
ANCOVA (ANalyse de COVAriance): exemple
• 
Effet de l’âge (VI continue) et du sexe (VI catégorielle à deux niveaux) sur le
poids d’un échantillon de personnes (VD).
• 
Modèle complet:
• 
Modèle pour chaque sexe (si Mâle= +1 et Femelle= -1) :
Poids = b0 + b1 Age + b2 Sexe + b3 (Age * Sexe) + ξ
Poidsmâle = b0 + b1 Age + b2 + b3 Age = (b0 + b2) + (b1 + b3) Age = b0mâle + b1mâle Age
Poidsfemelle= b0 + b1 Age - b2 - b3 Age = (b0 - b2) + (b1 - b3) Age = b0femelle + b1femelle Age
Poids
sexe
mâ
b0mâle
b0femelle
b1mâle
le
b1femelle
elle
fem
âge
6
ANCOVA (ANalyse de COVAriance): exemple
•  6 CAS POSSIBLES
Poids = b0 + b1 Age + b2 Sexe +
b3 (Age * Sexe) + ξ
Poids = b0 + b1 Age + b2 Sexe + ξ
âge
Poids = b0 + b1 Age + b2 Sexe +
b3 (Age * Sexe) + ξ
Poids
Poids
sexe
Poids = b0 + b2 Sexe + ξ
âge
âge
sexe
sexe
Poids
Poids
sexe
ANCOVA
âge
sexe
Poids
Poids
sexe
Poids = b0 + ξ
Poids = b0 + b1 Age + ξ
âge
âge
ANCOVA: application
1.  Ouvrir fichier compensation.txt
–  Données > Importer des données > depuis
un fichier texte
2.  Visualiser les données sous forme de
tableau
7
ANCOVA: application
•  On souhaite mesurer la capacité d’une espèce
de graminée à repousser et à produire des
graines après broutage.
•  2 champs: 1 champ contrôle (non brouté=
Ungrazed) et 1 champ expérimental (brouté=
Grazed)
•  Un échantillon de plantes dans chaque champ.
•  Pour chaque plante:
–  mesure du diamètre au collet de la racine avant
expérimentation (Root)
–  mesure du poids total de graines produites par
chaque plante après expérimentation (Fruit)
ANCOVA: application
•  VD= mesure du poids total de graines produites
par chaque plante après expérimentation
•  VI continue = mesure du diamètre au collet de la
racine avant expérimentation
•  VI catégorielle à 2 niveaux = broutée / non
broutée
•  H0:
–  les plantes les plus grosses produisent plus de
graines que les plus petites
–  pour une même taille de plante, les plantes broutées
produisent moins de graines que les plantes non
broutées
8
ANCOVA: application
1. 
Représenter la
distribution du poids des
graines pour chaque
champ:
– 
2. 
Graphes > Boîte de
dispersion
Représenter le nuage de
points:
– 
Graphes > Nuage de points
ANCOVA: application
•  Test du modèle complet:
Fruit = b0 + b1 Root + b2 Grazing + b3 (Root * Grazing) + ξ
–  Statistiques > Ajustement de modèles > Modèle linéaire => Fruit ~ Grazing * Root
> summary(LinearModel.1)
Call:
lm(formula = Fruit ~ Grazing * Root, data = Compensation)
Residuals:
Min
1Q
Median
3Q
Max
-17.3177 -2.8320 0.1247 3.8511 17.1313
Coefficients:
Estimate Std. Error t value
(Intercept)
-125.173 12.811 -9.771
Grazing[T.Ungrazed]
30.806 16.842
1.829
Root
23.240
1.531 15.182
Grazing[T.Ungrazed]:Root 0.756
2.354
0.321
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Pr(>|t|)
1.15e-11 ***
0.0757 .
< 2e-16 ***
0.7500
Residual standard error: 6.831 on 36 degrees of freedom
Multiple R-squared: 0.9293,
Adjusted R-squared: 0.9234
F-statistic: 157.6 on 3 and 36 DF, p-value: < 2.2e-16
Distribution des résidus
du modèle
Estimation des coefficients
du modèle
Erreur standard
des résidus
Coefficient de détermination
(voir dia suivante)
F total (voir dia
suivante)
9
ANCOVA: application
•  Obtention de la table de l’ANOVA
–  Modèles > Tests d’hypothèses > Table de l’ANOVA (Type I séquentiel)
> anova(LinearModel.1)
Analysis of Variance Table
Response: Fruit
Df SumSq MeanSq
F value
Pr(>F)
Grazing
1 2910.4 2910.4 62.3795 2.262e-09 ***
Root
1 19148.9 19148.9 410.4201 < 2.2e-16 ***
Grazing:Root 1
4.8
4.8 0.1031 0.75
Residuals
36 1679.6
46.7
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
F total= variance expliquée par le modèle / variance des résidus
((2910.4 + 19148.9 + 4.8) /3)/46.7 = 157.49
R2= variance expliquée par le modèle / variance totale
(2910.4 + 19148.9 + 4.8) / ((2910.4 + 19148.9 + 4.8) + 1679.6) = 0.9293
NB: R2ajusté= (n-1) R2 – k / (n-k-1) où n= nombre d’obs et k= nombre de prédicteurs
ANCOVA: application
•  Simplification du modèle : on retire le terme d’interaction
Fruit = b0 + b1 Root + b2 Grazing + ξ
–  Statistiques > Ajustement de modèles > Modèle linéaire => Fruit ~ Grazing + Root
Call:
lm(formula = Fruit ~ Grazing + Root, data = Compensation)
Residuals:
Min
1Q Median
3Q
Max
-17.1920 -2.8224 0.3223 3.9144 17.3290
Coefficients:
(Intercept)
Estimate
-127.829
Std. Error t value Pr(>|t|)
9.664
-13.23 1.35e-15 ***
Intercept pour le 1er niveau
(Ordre alphabétique) de la VI
catégorielle
Différence entre les Intercept des
deux niveaux de la VI
catégorielle
Pente de la régression
Grazing[T.Ungrazed] 36.103
3.357
10.75 6.11e-13 ***
Root
23.560
1.149
20.51 < 2e-16 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Pour le champ brouté (Grazed):
Fruit = -127.83 + 23.56 Root
Residual standard error: 6.747 on 37 degrees of freedom
Multiple R-squared: 0.9291,
Adjusted R-squared: 0.9252
F-statistic: 242.3 on 2 and 37 DF, p-value: < 2.2e-16
Pour le champ non brouté (Ungrazed):
Fruit = (-127.83 + 36.103) + 23.56 Root
= -91.726 + 23.56 Root
10
ANCOVA: application
•  Obtention de la table de l’ANOVA
–  Modèles > Tests d’hypothèses > Table de l’ANOVA (Type I séquentiel)
> anova(LinearModel.2)
Analysis of Variance Table
Response: Fruit
Df Sum Sq Mean Sq F value Pr(>F)
Grazing
1
2910.4 2910.4 63.929 1.397e-09 ***
Root
1 19148.9 19148.9 420.616 < 2.2e-16 ***
Residuals 37
1684.5
45.5
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
ANCOVA: application
•  Comparaison des deux modèles
–  Modèles > Tests d’hypothèses >Comparer deux modèles
> anova(LinearModel.1, LinearModel.2)
Analysis of Variance Table
Model 1: Fruit ~ Grazing * Root
Model 2: Fruit ~ Grazing + Root
Res.Df RSS
Df Sum of Sq
1
36
1679.65
2
37
1684.46 -1 -4.81
F
Pr(>F)
0.1031 0.75
Les deux modèles ne sont pas significativement différents entre eux.
Entre les deux modèles on choisit donc le modèle le plus simple, cad
celui qui a le moins de paramètres, soit le Modèle 2 (où on a retiré le
terme d’interaction Grazing x Root)
11
Téléchargement