Cours

publicité
6.
RÉGRESSION AVEC
PLUS DE 2 VARIABLES
Plusieurs variables
indépendantes :
régression multiple
Y = f(X1, X2, ..., Xn)
• But : expliquer une variable dépendante par plusieurs
variables indépendantes
• Permet la prise en compte de l’effet de variables
confondantes
Régression linéaire multiple
•
• 2 variables indépendantes : plan ; au-delà : hyperplan
a
(coefficient
de
régression
partielle)
:
contribution
de
• i
Y = b + a1X1 + a2X2 + ... + akXk
la variable Xi à l'explication de la variable Y, quand les
variables explicatives sont tenues constantes
• 2 variables indépendantes (explicatives) : plan
•
2
R global = coefficient de détermination multiple :
•
2
r partiels = coefficients de détermination partiels :
donne la proportion de variance expliquée par toutes
les variables
donnent la proportion de variance expliquée par
chacune des variables en contrôlant l’effet des autres
• Les deux peuvent être testés (mêmes conditions que
pour la régression simple)
Test du coefficient de détermination
2
multiple R
2
2
FRM = R (n - p)/((1 - R )(p - 1))
• où p est le nombre total de variables (incluant Y),
et n celui des observations
•
FRM suit une loi de F à (p - 1) et (n - p) ddl
2
R
•
ajusté
2
Problèmes du R : augmente avec le nombre de
variables, même aléatoires
• Comparaison difficile des équations de régressions
multiples avec des nombres différents de variables
indépendantes
•
2
Le R ajusté tient compte du nombre de variables et
2
diminue d’autant la valeur du R
2
2
R ajusté = 1 - ((n - 1)/(n - p))(1 - R )
Calcul des paramètres de régression
• Calcul des coefficients de régression et de
l’ordonnée à l’origine
• Il faut connaître
• Coefficients de corrélation linéaire simple entre
toutes les paires de variables (Y, X1, X2, ...) : rX1X2,
rYX1, ...
• Ecarts types de toutes les variables
• Moyennes de toutes les variables
•
• Calcul des coefficients de régression centrés-réduits
Exemple pour Y = b + a1X1 + a2X2 + a3X3
(ai’) à l’aide des équations normales
rYX1 = a1’ + rX1X2a2’ + rX1X3a3’
rYX2 = rX2X1a1’ + a2’ + rX2X3a3’
rYX3 = rX3X1a1’ + rX3X2a2’ + a1’
• Système de 3 équations à 3 inconnues : on trouve
les ai’
• On revient aux coefficients de régression originaux
(non centrés-réduits)
a1 = a1’SY/SX1
a2 = a2’SY/SX2
a3 = a3’SY/SX3
• On trouve l’ordonnée à l’origine
b = Ȳ - a1X̄ 1 - a2X̄ 2 - a3X̄ 3
•
2
Cela permet également de calculer R global, car
2
R = Σai’riy où y est la variable dépendante
•
2
On peut également calculer et tester les r , des
variables individuelles (avec donc chacune une pvalue)
• Significativité de chaque variable sur les variations
de Y, en tenant compte des autres variables Xi
•
2
Les p-value et r tiennent compte des liens entre
i
les variables Xi et changent en fonction de la
présence ou l’absence des Xi (sauf si elles sont
totalement indépendantes)
•
Sélection des variables X
Colinéarité entre les variables X : besoin de procédures
de sélection des variables significatives
•
Elimination descendante (backward elimination)
• Toutes les variables sont incluses dans le modèle et
les paramètres de régression partiels calculés
• Si une ou plusieurs variables ne sont pas
significatives, la moins significative est retirée du
modèle et les paramètres de régression sont
recalculés
• Et ainsi de suite jusqu'à ce que toutes les variables
restantes soient significatives
Sélection ascendante (forward selection)
•
•
Procédure pas à pas (stepwise procedure)
•
•
•
Même chose mais en ajoutant les variables une à une
d’après leur corrélations partielles avec Y, en
commençant par la plus significative individuellement
Mélange des deux procédures précédentes : chaque
étape de sélection ascendante est suivie d’une
élimination descendante pour voir si une des variables
incluse jusque là n’est plus significative
On peut y ajouter un critère qui évalue l’ajustement des
données au modèle, éventuellement en prenant en
compte le nombre de paramètres : AIC (Akaike
Information Criterion), BIC (Bayesien), etc.
Partitionnement de la variation
•
Effet de deux variables X1 et X2 sur une variable Y
•
Exemple : effet de la température (X1) et de l’humidité
(X2) sur la croissance (Y) d’un organisme
•
La température et l’humidité ont chacune une
influence sur la croissance
•
La température et l’humidité sont ici corrélées :
redondance dans l’explication de la variation
Variation expliquée par X1 = R21 = a+b
2
Variation expliquée par X2 = R 2 = b+c
a
b
c
d
100 % de la variation de Y
Variation expliquée à la fois par X1 et X2 = R21,2 = a+b+c
Avec a+b+c+d = 100 %
Variation inexpliquée = d
a, b, c, et d sont déduits par soustraction
Régression partielle
•
Etude de l’effet d’une variable X1 sur une autre, X2,
tout en contrôlant l’effet d’une troisième, X3 (la
covariable)
•
Consiste à régresser X2 sur X3 puis à étudier ensuite
le lien entre les résidus de cette régression (la variation
de X2 qui n’est pas expliqué par X3) et X1
•
Cela revient à tenir X3 constante
•
Exemples : contrôle de l’effet de l’échantillonnage, de la
taille des hôtes, du temps, ...
Exemple
• Relation entre l’abondance d’une espèce de
nématode et la longévité de l’hôte, tout en contrôlant
la taille de l’hôte
Graphe de régression
22,5
20
Abondance
17,5
15
12,5
10
7,5
5
2,5
0
0
20
40
60
80
Longévité
100
120
140
Y = 6,191 + ,106 * X; R^2 = ,392
Tableau d’ANOVA
Abondance vs Longévité
DDL
Somme des carrés
Carré moyen
Valeur de F
Valeur de p
1
177,695
177,695
7,094
,0221
Résidu
11
275,536
25,049
Total
12
453,231
Régression
Graphe de régression
Graphe de régression
140
22,5
20
120
17,5
Abondance
Longévité
100
80
60
40
15
12,5
10
7,5
5
20
2,5
0
0
25
50
-30 -25 -20 -15 -10 - 5 0
5
Résidus Longévité
75 100 125 150 175 200 225 250
Taille
10 15
20
Y = 12,538 - ,05 * X; R^2 = ,009
Y = -16,966 + ,563 * X; R^2 = ,892
Tableau d’ANOVA
Abondance vs Résidus Longévité
DDL
Somme des carrés
Carré moyen
Valeur de F
Valeur de p
1
4,246
4,246
,104
,7531
Résidu
11
448,984
40,817
Total
12
453,231
Régression
Régression polynomiale
• Permet d’ajuster des courbes de formes variées,
non linéaires, entre une variable dépendante Y et
une ou plusieurs variables explicatives X
• 1 variable X : courbe
• 2 variables X : surface (plan) plus ou moins
“bosselée”
• > 2 variables X : hyperplan “bosselé”
• Variante de la régression multiple : ajout de
variables supplémentaires par l’intermédiaire des
variables originales élevées à différents ordres
(carré, cube, ...)
•
2
3
Exemple avec une variable X : ajout de X , X , ...
2
3
Y = b + a X + a X + a X +...
1
2
3
• Les variables à différents ordres sont
sélectionnées par les procédures habituelles
• Chaque ordre ajoute un “pli” à la courbe
Ordre 1 (X)
2
Ordre 2 (X )
3
Ordre 3 (X )
4
Ordre 4 (X )
• Plus l’ordre est élevé, plus on perd de degrés de
liberté, plus l’explication biologique est difficile
• Il faut trouver un bon compromis
• Pour les biologistes, la régression du deuxième ordre
(parabole) est souvent utile
• Les organismes ont souvent des préférences situées
autour d’un optimum : distribution unimodale
• On peut ajuster une courbe
a1
a2
u
t
•
• Calcul de l’optimum u et de la tolérance t (= 1 unité
r2 = 0,875
d'écart-type)
Relation régression et analyse
de variance : utilisation de
variables muettes
• En ANOVA, les variables indépendantes sont
qualitatives (facteurs)
• Il est possible de les recoder afin de les utiliser dans
une régression : variables muettes (dummy variables)
• Le tableau d'ANOVA de la régression donne ainsi le
même résultat qu'une ANOVA
• Le recodage se fait avec des 0 et 1
• Exemple : Mâle = 0 ; Femelle = 1
• On pourrait estimer : Taille = f(Poids, Âge, Sexe)
Taille
162
185
178
157
175
189
168
Poids
54
83
65
62
63
91
72
Âge
25
32
22
43
39
31
27
Sexe
1
0
0
1
1
0
1
• Taille = 152,03 + 0,43Poids - 0,07Âge - 10,90Sexe
• Une personne de 30 ans pesant 70 Kg mesurera
180 cm si c'est un homme, et 169 cm si c'est une
femme
• On procède de même avec des facteurs à plus de 2
niveaux
• Exemple : couleur des cheveux
Brun
1
0
0
0
Blond
0
1
0
0
Châtain
0
0
1
0
Roux
0
0
0
1
• On peut éliminer la dernière colonne, qui est
définie en fonction des autres (Roux = 000)
• On pourrait aussi recoder des variables
quantitatives pour une utilisation en ANOVA
Variables indépendantes
quantitative et qualitative :
Analyse de covariance
• ANCOVA : mélange d’ANOVA à un facteur et de
régression linéaire simple
• 1 variable dépendante quantitative Y
• 2 variables indépendantes
• 1 quantitative X
• 1 qualitative Z
• Comparaison de la relation entre deux variables
quantitatives (covariance) sous différentes conditions
(k classes de la variable qualitative)
• Exemple : relation entre dose d’engrais et croissance
dans plusieurs types de sols
Hypothèses testées
• 3 questions se posent
1. Influence de X sur Y
2. Influence de Z sur la relation entre Y et
X ; influence de X sur la relation entre Z
et Y : interaction
3. Influence de Z sur Y
Tests
• Tests des 3 hypothèses
1. k régressions linéaires simples
2. Tests des différences entre les pentes des k
régressions
3. Si les droites sont parallèles, test des différences
entre les ordonnées à l’origine (a-t-on affaire à
plusieurs droites ?)
Procédure détaillée
• Régressions linéaires de Y sur X
• On répond à la question 1 :Y a-t-il une relation
(linéaire) significative entre ces deux variables ?
• Les erreurs résiduelles de chaque droite de régression
sont additionnées : variation totale non expliquée par
les relations linéaires entre X et Y = SCEET
• On construit k droites de régressions parallèles de
pente égale à la pente moyenne des pentes
d’origine, et on additionne les erreurs résiduelles
de toutes ces droites = SCEEDP
• On soustrait ces 2 quantités : erreur résiduelle due à la
variation des pentes : SCEEVP = SCEEDP - SCEET
• On teste si l’erreur résiduelle due à la variation des
pentes (SCEEVP) est significativement plus importante
que des variations aléatoires. On répond à la
question 2 : les droites sont-elles parallèles ?
• Rapport de variances : on utilise une statistique F
Fvp = (SCEEVP/(k-1))/(SCEET/(n-2k))
avec k-1 et n-2k ddl
•
Si rejet de H0 (= pas de différence) : relations
différentes d’un groupe à l’autre (présence d’une
interaction) et fin du test
• Si les droites sont parallèles, on teste si les ordonnées
à l’origine sont différentes. C’est la question 3.
• On combine toutes les données et on mesure
l’erreur résiduelle globale de la droite de régression
commune = SCEEC
• On soustrait à cette quantité l’erreur résiduelle des
droites parallèles séparées : erreur due aux écarts
d’ordonnées à l’origine : SCEEVOO = SCEEC SCEEDP
• On teste si cette erreur est plus grande que ce qui
est dû au hasard. Là encore on utilise une statistique F
Fvoo = (SCEEVOO/(k-1))/(SCEEDP/(n-k-1))
avec k-1 et n-k-1 ddl
• Si l’hypothèse nulle est rejetée, on peut dire que Z a
une influence sur Y
• On pourrait traiter le problème comme une ANOVA
à deux facteurs croisés avec répétitions en
transformant la variable quantitative X en classes,
représentant les niveaux du second facteur (Z étant
le premier). Il faut nécessairement des répétitions
pour tester l’interaction.
Formules
SCEET = ΣSCEEj
SCEEDP = ΣSCEEDPj
SCEEVP = SCEEDP - SCEET
SCEEVOO = SCEEC - SCEEDP
Téléchargement