6. RÉGRESSION AVEC PLUS DE 2 VARIABLES Plusieurs variables indépendantes : régression multiple Y = f(X1, X2, ..., Xn) • But : expliquer une variable dépendante par plusieurs variables indépendantes • Permet la prise en compte de l’effet de variables confondantes Régression linéaire multiple • • 2 variables indépendantes : plan ; au-delà : hyperplan a (coefficient de régression partielle) : contribution de • i Y = b + a1X1 + a2X2 + ... + akXk la variable Xi à l'explication de la variable Y, quand les variables explicatives sont tenues constantes • 2 variables indépendantes (explicatives) : plan • 2 R global = coefficient de détermination multiple : • 2 r partiels = coefficients de détermination partiels : donne la proportion de variance expliquée par toutes les variables donnent la proportion de variance expliquée par chacune des variables en contrôlant l’effet des autres • Les deux peuvent être testés (mêmes conditions que pour la régression simple) Test du coefficient de détermination 2 multiple R 2 2 FRM = R (n - p)/((1 - R )(p - 1)) • où p est le nombre total de variables (incluant Y), et n celui des observations • FRM suit une loi de F à (p - 1) et (n - p) ddl 2 R • ajusté 2 Problèmes du R : augmente avec le nombre de variables, même aléatoires • Comparaison difficile des équations de régressions multiples avec des nombres différents de variables indépendantes • 2 Le R ajusté tient compte du nombre de variables et 2 diminue d’autant la valeur du R 2 2 R ajusté = 1 - ((n - 1)/(n - p))(1 - R ) Calcul des paramètres de régression • Calcul des coefficients de régression et de l’ordonnée à l’origine • Il faut connaître • Coefficients de corrélation linéaire simple entre toutes les paires de variables (Y, X1, X2, ...) : rX1X2, rYX1, ... • Ecarts types de toutes les variables • Moyennes de toutes les variables • • Calcul des coefficients de régression centrés-réduits Exemple pour Y = b + a1X1 + a2X2 + a3X3 (ai’) à l’aide des équations normales rYX1 = a1’ + rX1X2a2’ + rX1X3a3’ rYX2 = rX2X1a1’ + a2’ + rX2X3a3’ rYX3 = rX3X1a1’ + rX3X2a2’ + a1’ • Système de 3 équations à 3 inconnues : on trouve les ai’ • On revient aux coefficients de régression originaux (non centrés-réduits) a1 = a1’SY/SX1 a2 = a2’SY/SX2 a3 = a3’SY/SX3 • On trouve l’ordonnée à l’origine b = Ȳ - a1X̄ 1 - a2X̄ 2 - a3X̄ 3 • 2 Cela permet également de calculer R global, car 2 R = Σai’riy où y est la variable dépendante • 2 On peut également calculer et tester les r , des variables individuelles (avec donc chacune une pvalue) • Significativité de chaque variable sur les variations de Y, en tenant compte des autres variables Xi • 2 Les p-value et r tiennent compte des liens entre i les variables Xi et changent en fonction de la présence ou l’absence des Xi (sauf si elles sont totalement indépendantes) • Sélection des variables X Colinéarité entre les variables X : besoin de procédures de sélection des variables significatives • Elimination descendante (backward elimination) • Toutes les variables sont incluses dans le modèle et les paramètres de régression partiels calculés • Si une ou plusieurs variables ne sont pas significatives, la moins significative est retirée du modèle et les paramètres de régression sont recalculés • Et ainsi de suite jusqu'à ce que toutes les variables restantes soient significatives Sélection ascendante (forward selection) • • Procédure pas à pas (stepwise procedure) • • • Même chose mais en ajoutant les variables une à une d’après leur corrélations partielles avec Y, en commençant par la plus significative individuellement Mélange des deux procédures précédentes : chaque étape de sélection ascendante est suivie d’une élimination descendante pour voir si une des variables incluse jusque là n’est plus significative On peut y ajouter un critère qui évalue l’ajustement des données au modèle, éventuellement en prenant en compte le nombre de paramètres : AIC (Akaike Information Criterion), BIC (Bayesien), etc. Partitionnement de la variation • Effet de deux variables X1 et X2 sur une variable Y • Exemple : effet de la température (X1) et de l’humidité (X2) sur la croissance (Y) d’un organisme • La température et l’humidité ont chacune une influence sur la croissance • La température et l’humidité sont ici corrélées : redondance dans l’explication de la variation Variation expliquée par X1 = R21 = a+b 2 Variation expliquée par X2 = R 2 = b+c a b c d 100 % de la variation de Y Variation expliquée à la fois par X1 et X2 = R21,2 = a+b+c Avec a+b+c+d = 100 % Variation inexpliquée = d a, b, c, et d sont déduits par soustraction Régression partielle • Etude de l’effet d’une variable X1 sur une autre, X2, tout en contrôlant l’effet d’une troisième, X3 (la covariable) • Consiste à régresser X2 sur X3 puis à étudier ensuite le lien entre les résidus de cette régression (la variation de X2 qui n’est pas expliqué par X3) et X1 • Cela revient à tenir X3 constante • Exemples : contrôle de l’effet de l’échantillonnage, de la taille des hôtes, du temps, ... Exemple • Relation entre l’abondance d’une espèce de nématode et la longévité de l’hôte, tout en contrôlant la taille de l’hôte Graphe de régression 22,5 20 Abondance 17,5 15 12,5 10 7,5 5 2,5 0 0 20 40 60 80 Longévité 100 120 140 Y = 6,191 + ,106 * X; R^2 = ,392 Tableau d’ANOVA Abondance vs Longévité DDL Somme des carrés Carré moyen Valeur de F Valeur de p 1 177,695 177,695 7,094 ,0221 Résidu 11 275,536 25,049 Total 12 453,231 Régression Graphe de régression Graphe de régression 140 22,5 20 120 17,5 Abondance Longévité 100 80 60 40 15 12,5 10 7,5 5 20 2,5 0 0 25 50 -30 -25 -20 -15 -10 - 5 0 5 Résidus Longévité 75 100 125 150 175 200 225 250 Taille 10 15 20 Y = 12,538 - ,05 * X; R^2 = ,009 Y = -16,966 + ,563 * X; R^2 = ,892 Tableau d’ANOVA Abondance vs Résidus Longévité DDL Somme des carrés Carré moyen Valeur de F Valeur de p 1 4,246 4,246 ,104 ,7531 Résidu 11 448,984 40,817 Total 12 453,231 Régression Régression polynomiale • Permet d’ajuster des courbes de formes variées, non linéaires, entre une variable dépendante Y et une ou plusieurs variables explicatives X • 1 variable X : courbe • 2 variables X : surface (plan) plus ou moins “bosselée” • > 2 variables X : hyperplan “bosselé” • Variante de la régression multiple : ajout de variables supplémentaires par l’intermédiaire des variables originales élevées à différents ordres (carré, cube, ...) • 2 3 Exemple avec une variable X : ajout de X , X , ... 2 3 Y = b + a X + a X + a X +... 1 2 3 • Les variables à différents ordres sont sélectionnées par les procédures habituelles • Chaque ordre ajoute un “pli” à la courbe Ordre 1 (X) 2 Ordre 2 (X ) 3 Ordre 3 (X ) 4 Ordre 4 (X ) • Plus l’ordre est élevé, plus on perd de degrés de liberté, plus l’explication biologique est difficile • Il faut trouver un bon compromis • Pour les biologistes, la régression du deuxième ordre (parabole) est souvent utile • Les organismes ont souvent des préférences situées autour d’un optimum : distribution unimodale • On peut ajuster une courbe a1 a2 u t • • Calcul de l’optimum u et de la tolérance t (= 1 unité r2 = 0,875 d'écart-type) Relation régression et analyse de variance : utilisation de variables muettes • En ANOVA, les variables indépendantes sont qualitatives (facteurs) • Il est possible de les recoder afin de les utiliser dans une régression : variables muettes (dummy variables) • Le tableau d'ANOVA de la régression donne ainsi le même résultat qu'une ANOVA • Le recodage se fait avec des 0 et 1 • Exemple : Mâle = 0 ; Femelle = 1 • On pourrait estimer : Taille = f(Poids, Âge, Sexe) Taille 162 185 178 157 175 189 168 Poids 54 83 65 62 63 91 72 Âge 25 32 22 43 39 31 27 Sexe 1 0 0 1 1 0 1 • Taille = 152,03 + 0,43Poids - 0,07Âge - 10,90Sexe • Une personne de 30 ans pesant 70 Kg mesurera 180 cm si c'est un homme, et 169 cm si c'est une femme • On procède de même avec des facteurs à plus de 2 niveaux • Exemple : couleur des cheveux Brun 1 0 0 0 Blond 0 1 0 0 Châtain 0 0 1 0 Roux 0 0 0 1 • On peut éliminer la dernière colonne, qui est définie en fonction des autres (Roux = 000) • On pourrait aussi recoder des variables quantitatives pour une utilisation en ANOVA Variables indépendantes quantitative et qualitative : Analyse de covariance • ANCOVA : mélange d’ANOVA à un facteur et de régression linéaire simple • 1 variable dépendante quantitative Y • 2 variables indépendantes • 1 quantitative X • 1 qualitative Z • Comparaison de la relation entre deux variables quantitatives (covariance) sous différentes conditions (k classes de la variable qualitative) • Exemple : relation entre dose d’engrais et croissance dans plusieurs types de sols Hypothèses testées • 3 questions se posent 1. Influence de X sur Y 2. Influence de Z sur la relation entre Y et X ; influence de X sur la relation entre Z et Y : interaction 3. Influence de Z sur Y Tests • Tests des 3 hypothèses 1. k régressions linéaires simples 2. Tests des différences entre les pentes des k régressions 3. Si les droites sont parallèles, test des différences entre les ordonnées à l’origine (a-t-on affaire à plusieurs droites ?) Procédure détaillée • Régressions linéaires de Y sur X • On répond à la question 1 :Y a-t-il une relation (linéaire) significative entre ces deux variables ? • Les erreurs résiduelles de chaque droite de régression sont additionnées : variation totale non expliquée par les relations linéaires entre X et Y = SCEET • On construit k droites de régressions parallèles de pente égale à la pente moyenne des pentes d’origine, et on additionne les erreurs résiduelles de toutes ces droites = SCEEDP • On soustrait ces 2 quantités : erreur résiduelle due à la variation des pentes : SCEEVP = SCEEDP - SCEET • On teste si l’erreur résiduelle due à la variation des pentes (SCEEVP) est significativement plus importante que des variations aléatoires. On répond à la question 2 : les droites sont-elles parallèles ? • Rapport de variances : on utilise une statistique F Fvp = (SCEEVP/(k-1))/(SCEET/(n-2k)) avec k-1 et n-2k ddl • Si rejet de H0 (= pas de différence) : relations différentes d’un groupe à l’autre (présence d’une interaction) et fin du test • Si les droites sont parallèles, on teste si les ordonnées à l’origine sont différentes. C’est la question 3. • On combine toutes les données et on mesure l’erreur résiduelle globale de la droite de régression commune = SCEEC • On soustrait à cette quantité l’erreur résiduelle des droites parallèles séparées : erreur due aux écarts d’ordonnées à l’origine : SCEEVOO = SCEEC SCEEDP • On teste si cette erreur est plus grande que ce qui est dû au hasard. Là encore on utilise une statistique F Fvoo = (SCEEVOO/(k-1))/(SCEEDP/(n-k-1)) avec k-1 et n-k-1 ddl • Si l’hypothèse nulle est rejetée, on peut dire que Z a une influence sur Y • On pourrait traiter le problème comme une ANOVA à deux facteurs croisés avec répétitions en transformant la variable quantitative X en classes, représentant les niveaux du second facteur (Z étant le premier). Il faut nécessairement des répétitions pour tester l’interaction. Formules SCEET = ΣSCEEj SCEEDP = ΣSCEEDPj SCEEVP = SCEEDP - SCEET SCEEVOO = SCEEC - SCEEDP