INTRODUCTION AUX MODELES LINEAIRES GENERAUX (GLM: General Linear Model) ANCOVA et REGRESSION MULTIPLE Vincent FOURCASSIE [email protected] Centre de Recherches sur la Cognition Animale Université Paul Sabatier Notion de covariable: exemple • On s’intéresse à l’effet de la température ambiante (VI) sur la vitesse de déplacement (VD) d’individus appartenant à une certaine espèce d’insecte. • Chez beaucoup d’insectes la taille des individus varie au sein de la même espèce et donc, indépendamment de l’effet de la température, leur vitesse de déplacement va dépendre de la taille de leurs pattes. Si on veut étudier strictement l’effet de la température sur la vitesse, il faudrait donc tenir compte de la longueur des pattes des individus dont on mesure la vitesse. • Comme il est plus facile de peser les insectes que de mesurer la longueur de leurs pattes et comme l’on sait que la longueur des pattes est liée au poids de l’insecte, on peut introduire le poids des individus comme VI supplémentaire. • Cette variable est appellée covariable (ou variable contrôle) car il s’agit d’une variable confondante qu’il est important de considérer mais qui ne nous intéresse pas directement dans notre étude. • La prise en compte du poids des individus va permettre d’expliquer une partie de la variabilité observée dans la vitesse de déplacement des insectes et de mieux apprécier ainsi l’effet de la température sur celle-ci . 1 Notion de covariable: définition • On appelle covariable une variable indépendante qui n’a pas d’intérêt direct en tant que telle mais dont dépend une autre variable indépendante d’intérêt. • La prise en compte d’une ou plusieurs covariables va permettre de contrôler une partie de la variation de la variable indépendante d’intérêt. Notion de corrélation partielle • Le calcul d’un coefficient de corrélation partielle va permettre de mesurer l’effet d’une VI d’intérêt sur une VD donnée tout en tenant compte des effets confondants d’une ou plusieurs autres covariables (=VI). • Exemple: dans l’étude sur la relation entre la vitesse d’un insecte (VD) et la température ambiante (VI), on peut calculer un coefficient de corrélation partielle entre la vitesse et la température ambiante qui tient compte aussi de l’effet du poids de l’insecte sur sa vitesse. Ce coefficient exprimera la relation entre la vitesse des individus et la température ambiante, à poids d’individu constant. 2 Notion de corrélation partielle • Pour étudier l’effet de la température ambiante et du poids des insectes sur leur vitesse de déplacement on peut utiliser une régression multiple. • Le modèle de régression s’écrira: V = b0 + b1 T + b2 P où V= vitesse de déplacement, T= température et P= poids de l’individu • b1 et b2 sont des coefficients de corrélation partielle. b1 exprime l’effet de la température sur la vitesse de déplacement, à poids d’individu constant, et b2 exprime l’effet du poids de l’individu sur la vitesse de déplacement, à température ambiante constante. De la régression simple à la régression multiple • Une régression multiple est une régression où la VD est expliquée non plus par une seule VI comme dans la régression simple mais par plusieurs VI (dont certaines peuvent être des covariables) • Par extension de la régression simple, un modèle de régression multiple s’exprime sous la forme d’une équation: VD= b0 + b1 VI1 + b2 VI2 + …. + bn VIn pour n VI. • Les coefficients b1, b2, bn sont des coefficients de corrélation partielle. Ils expriment l’effet de chaque VI sur la VD tout en contrôlant l’effet des autres VI. 3 Régression multiple et modèle linéaire général • Une régression multiple peut mélanger des variables catégorielles et des variables continues. Les différents niveaux des variables catégorielles sont simplement codés sous forme numérique. Ex: 2 niveaux (-1,+1), 3 niveaux (-1,0,+1)… • La régression multiple est un modèle linéaire général (GLM: General Linear Model). • Un modèle linéaire général s’exprime sous la forme: VD= b0 + b1 VI1 + b2 VI2 + …. + bn VIn + ξ où ξ est l’erreur (= résidus) attachée à la détermination de la VD. • Dans le modèle linéaire général l’erreur est distribuée suivant une loi normale. • Dans le modèle linéaire généralisée l’erreur peut être distribuée suivant une loi normale ou une autre loi (binomiale, Poisson…). GLM avec plusieurs VI: notion d’interaction VI catégorielle à 2 niveaux VD VI continue PAS D’INTERACTION INTERACTION • Il y a interaction lorsque l’effet de la VI continue sur la VD varie de façon différente en fonction du niveau de la VI catégorielle 4 Modèle linéaire général (GLM) • Un grand nombre de tests statistiques usuels correspondent à des modèles linéaires généraux. • Exemples: – t-test pour comparaison de la moyenne d’un échantillon à une valeur théorique: Y= b0 – t-test pour comparaison entre 2 échantillons: Y= b0 + b1 X1 où X1 est une VI catégorielle à deux niveaux – Régression simple: Y= b0 + b1 X1 où X1 est une VI continue – ANOVA sans interaction: Y= b0 + b1 X1 + b2 X2 où X1, X2 sont toutes deux des VI catégorielles à plusieurs niveaux. – ANOVA avec interaction: Y= b0 + b1 X1 + b2 X2 + b3 (X1 * X2) où X1, X2 sont toutes deux des VI catégorielles à plusieurs niveaux et (X1 * X2) est le terme d’interaction entre les deux VI. – ANCOVA: Y= b0 + b1 X1 + b2 X2 où X1 est une VI continue et X2 est une VI catégorielle à plusieurs niveaux. ANCOVA (ANalyse de COVAriance): définition ANCOVA: Y= b0 + b1 X1 + b2 X2 où X1 est une VI continue et X2 est une VI catégorielle à plusieurs niveaux. NB: – l’ANCOVA est un cas particulier de régression multiple avec une VI continue et une VI catégorielle et où il n’y a pas d’interaction entre la VI continue et la VI catégorielle. 5 ANCOVA (ANalyse de COVAriance): définition Modèle Linéaire Généralisé Modèle Linéaire Général Régression ANCOVA Multiple ANOVA ANCOVA (ANalyse de COVAriance): exemple • Effet de l’âge (VI continue) et du sexe (VI catégorielle à deux niveaux) sur le poids d’un échantillon de personnes (VD). • Modèle complet: • Modèle pour chaque sexe (si Mâle= +1 et Femelle= -1) : Poids = b0 + b1 Age + b2 Sexe + b3 (Age * Sexe) + ξ Poidsmâle = b0 + b1 Age + b2 + b3 Age = (b0 + b2) + (b1 + b3) Age = b0mâle + b1mâle Age Poidsfemelle= b0 + b1 Age - b2 - b3 Age = (b0 - b2) + (b1 - b3) Age = b0femelle + b1femelle Age Poids sexe mâ b0mâle b0femelle b1mâle le b1femelle elle fem âge 6 ANCOVA (ANalyse de COVAriance): exemple • 6 CAS POSSIBLES Poids = b0 + b1 Age + b2 Sexe + b3 (Age * Sexe) + ξ Poids = b0 + b1 Age + b2 Sexe + ξ âge Poids = b0 + b1 Age + b2 Sexe + b3 (Age * Sexe) + ξ Poids Poids sexe Poids = b0 + b2 Sexe + ξ âge âge sexe sexe Poids Poids sexe ANCOVA âge sexe Poids Poids sexe Poids = b0 + ξ Poids = b0 + b1 Age + ξ âge âge ANCOVA: application 1. Ouvrir fichier compensation.txt – Données > Importer des données > depuis un fichier texte 2. Visualiser les données sous forme de tableau 7 ANCOVA: application • On souhaite mesurer la capacité d’une espèce de graminée à repousser et à produire des graines après broutage. • 2 champs: 1 champ contrôle (non brouté= Ungrazed) et 1 champ expérimental (brouté= Grazed) • Un échantillon de plantes dans chaque champ. • Pour chaque plante: – mesure du diamètre au collet de la racine avant expérimentation (Root) – mesure du poids total de graines produites par chaque plante après expérimentation (Fruit) ANCOVA: application • VD= mesure du poids total de graines produites par chaque plante après expérimentation • VI continue = mesure du diamètre au collet de la racine avant expérimentation • VI catégorielle à 2 niveaux = broutée / non broutée • H0: – les plantes les plus grosses produisent plus de graines que les plus petites – pour une même taille de plante, les plantes broutées produisent moins de graines que les plantes non broutées 8 ANCOVA: application 1. Représenter la distribution du poids des graines pour chaque champ: – 2. Graphes > Boîte de dispersion Représenter le nuage de points: – Graphes > Nuage de points ANCOVA: application • Test du modèle complet: Fruit = b0 + b1 Root + b2 Grazing + b3 (Root * Grazing) + ξ – Statistiques > Ajustement de modèles > Modèle linéaire => Fruit ~ Grazing * Root > summary(LinearModel.1) Call: lm(formula = Fruit ~ Grazing * Root, data = Compensation) Residuals: Min 1Q Median 3Q Max -17.3177 -2.8320 0.1247 3.8511 17.1313 Coefficients: Estimate Std. Error t value (Intercept) -125.173 12.811 -9.771 Grazing[T.Ungrazed] 30.806 16.842 1.829 Root 23.240 1.531 15.182 Grazing[T.Ungrazed]:Root 0.756 2.354 0.321 --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Pr(>|t|) 1.15e-11 *** 0.0757 . < 2e-16 *** 0.7500 Residual standard error: 6.831 on 36 degrees of freedom Multiple R-squared: 0.9293, Adjusted R-squared: 0.9234 F-statistic: 157.6 on 3 and 36 DF, p-value: < 2.2e-16 Distribution des résidus du modèle Estimation des coefficients du modèle Erreur standard des résidus Coefficient de détermination (voir dia suivante) F total (voir dia suivante) 9 ANCOVA: application • Obtention de la table de l’ANOVA – Modèles > Tests d’hypothèses > Table de l’ANOVA (Type I séquentiel) > anova(LinearModel.1) Analysis of Variance Table Response: Fruit Df SumSq MeanSq F value Pr(>F) Grazing 1 2910.4 2910.4 62.3795 2.262e-09 *** Root 1 19148.9 19148.9 410.4201 < 2.2e-16 *** Grazing:Root 1 4.8 4.8 0.1031 0.75 Residuals 36 1679.6 46.7 --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 F total= variance expliquée par le modèle / variance des résidus ((2910.4 + 19148.9 + 4.8) /3)/46.7 = 157.49 R2= variance expliquée par le modèle / variance totale (2910.4 + 19148.9 + 4.8) / ((2910.4 + 19148.9 + 4.8) + 1679.6) = 0.9293 NB: R2ajusté= (n-1) R2 – k / (n-k-1) où n= nombre d’obs et k= nombre de prédicteurs ANCOVA: application • Simplification du modèle : on retire le terme d’interaction Fruit = b0 + b1 Root + b2 Grazing + ξ – Statistiques > Ajustement de modèles > Modèle linéaire => Fruit ~ Grazing + Root Call: lm(formula = Fruit ~ Grazing + Root, data = Compensation) Residuals: Min 1Q Median 3Q Max -17.1920 -2.8224 0.3223 3.9144 17.3290 Coefficients: (Intercept) Estimate -127.829 Std. Error t value Pr(>|t|) 9.664 -13.23 1.35e-15 *** Intercept pour le 1er niveau (Ordre alphabétique) de la VI catégorielle Différence entre les Intercept des deux niveaux de la VI catégorielle Pente de la régression Grazing[T.Ungrazed] 36.103 3.357 10.75 6.11e-13 *** Root 23.560 1.149 20.51 < 2e-16 *** --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Pour le champ brouté (Grazed): Fruit = -127.83 + 23.56 Root Residual standard error: 6.747 on 37 degrees of freedom Multiple R-squared: 0.9291, Adjusted R-squared: 0.9252 F-statistic: 242.3 on 2 and 37 DF, p-value: < 2.2e-16 Pour le champ non brouté (Ungrazed): Fruit = (-127.83 + 36.103) + 23.56 Root = -91.726 + 23.56 Root 10 ANCOVA: application • Obtention de la table de l’ANOVA – Modèles > Tests d’hypothèses > Table de l’ANOVA (Type I séquentiel) > anova(LinearModel.2) Analysis of Variance Table Response: Fruit Df Sum Sq Mean Sq F value Pr(>F) Grazing 1 2910.4 2910.4 63.929 1.397e-09 *** Root 1 19148.9 19148.9 420.616 < 2.2e-16 *** Residuals 37 1684.5 45.5 --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ANCOVA: application • Comparaison des deux modèles – Modèles > Tests d’hypothèses >Comparer deux modèles > anova(LinearModel.1, LinearModel.2) Analysis of Variance Table Model 1: Fruit ~ Grazing * Root Model 2: Fruit ~ Grazing + Root Res.Df RSS Df Sum of Sq 1 36 1679.65 2 37 1684.46 -1 -4.81 F Pr(>F) 0.1031 0.75 Les deux modèles ne sont pas significativement différents entre eux. Entre les deux modèles on choisit donc le modèle le plus simple, cad celui qui a le moins de paramètres, soit le Modèle 2 (où on a retiré le terme d’interaction Grazing x Root) 11