Régression linéaire

publicité
Régression linéaire
M-A Dronne
2016 - 2017
1 / 65
Introduction
Plan du cours
I
Régression linéaire simple (et sans pondération)
I
Autres types de régression
I
I
I
I
Régression linéaire pondérée
Régression multiple
Régression non linéaire
Régression logistique
2 / 65
Régression linéaire simple
Généralités
Objectif
L’objectif est d’étudier l’influence d’une variable quantitative X
sur une autre variable quantitative Y .
Si ces deux variables semblent liées par une relation linéaire
⇒ utilisation d’un modèle linéaire
Vocabulaire
I
Variable X : variable explicative = exogène =
indépendante = contrôlée = prédictive
I
Variable Y : variable à expliquer (expliquée) = endogène =
dépendante = observée = prédite
Remarque
Contrairement à la corrélation, les deux variables n’ont pas un
rôle symétrique
3 / 65
Régression linéaire simple
Généralités
Remarques
I
Il peut exister une relation entre deux variables mais qui ne
soit pas linéaire :
⇒ modèle logarithmique, inverse, quadratique, cubique,
puissance,logistique, exponentiel,...
Dans la nature, on trouve souvent des phénomènes de
saturation ou de seuil (à prendre en compte dans le
modèle)
I
Il faut définir les "bornes" entre lesquelles la relation entre
les 2 variables est quantitative
I
Il faut toujours commencer par visualiser le nuage de
points des données
4 / 65
Régression linéaire simple
Exemple
Enoncé
Un modèle rongeur de tumeur solide est utilisé et on souhaite
étudier si la dose d’anticancéreux A administrée à un groupe de
15 souris influence la durée de vie de ces souris. On administre
donc 15 doses différentes d’anticancéreux à ces souris et le
nombre de jours de survie de ces souris est ensuite recensé.
Question
La survie est-elle liée linéairement à la dose d’anticancéreux
administrée au risque 5% ?
5 / 65
Régression linéaire simple
Modèle linéaire
Modèle linéaire
Y = α + βX + α : ordonnée à l’origine
β : pente de la droite
: résidu (= erreur = aléa de mesure) : variable aléatoire
→ N (0, σ )
σ2 : variance résiduelle
Remarque
I
3 paramètres inconnus : α, β et σ
I
Estimations de ces paramètres à calculer : a, b et s
6 / 65
Régression linéaire simple
Modèle linéaire
Conditions à respecter
Conditions sur les Yi ou sur les i :
I
Conditions sur les Yi
Yi : v.a. indépendantes, normales, d’espérance sur la
droite de régression et de variance constante
⇒ Yi → N (βXi + α, σ ) et Cov (Yi , Yj ) = 0 ∀i 6= j
I
Conditions sur les i
i : v.a. indépendantes, normales, d’espérance nulle et de
variance constante (variance résiduelle)
⇒ i → N (0, σ ) et Cov (i , j ) = 0 ∀i 6= j
Vocabulaire
On dit que les i doivent être identiquement et
indépendamment distribuées (iid) selon une loi normale
7 / 65
Régression linéaire simple
Démarche générale
Etapes
Pour étudier la liaison linéaire entre X et Y :
I
Estimation des paramètres
⇒ obtention et étude de la droite de régression
I
Etude de validité du modèle linéaire
⇒ étude des résidus (la relation entre X et Y est-elle
réellement linéaire ?)
I
Etude de la liaison linéaire
⇒ Test de la pente nulle (la relation linéaire entre X et Y
est-elle statistiquement significative ?)
8 / 65
Régression linéaire simple
Estimation des paramètres
Droite de régression
Y = a + bX
a : estimation de α
b : estimation de β
Remarque
La droite
de régression
passe par le point (mx , my ) avec
P
P
y
x
mx = n et my = n
Estimation des paramètres
I
Méthode des moindres carrés
⇒ minimisation de la somme des carrés des écarts
I
Méthode du maximum de vraisemblance
9 / 65
Régression linéaire simple
Estimation des paramètres
Méthode 1 : méthode des moindres carrés
I
Somme des carrés des écarts
X
ei2 avec ei = Yi − (a + bXi ) = Yi − Ŷi
SCE =
i
Yi : valeur mesurée
Ŷi : valeur calculée de Y pour X = Xi
I
Minimisation de la SCE
⇒ annulation des dérivées partielles de la SCE :
∂SCE(a, b)
= 0 et
∂a
∂SCE(a, b)
=0
∂b
10 / 65
Régression linéaire simple
Estimation des paramètres
Méthode des moindres carrés (suite)
Valeurs estimées de α et β :
P
P P
cov (X , Y )
n xy − x y
P 2
P 2 =
b=
n x − ( x)
sx2
a = my − bmx
P
P
y
x
avec mx =
et my =
n
n
Remarque
Intervalles de confiance sur α et sur β :
I ic(1−α) (β) = b − t(α,ν) sB ; b + t(α,ν) sB
I ic(1−α) (α) = a − t(α,ν) sA ; a + t(α,ν) sA
11 / 65
Régression linéaire simple
Estimation des paramètres
Méthode 2 : maximum de vraisemblance : généralités
I
Soit X une variable aléatoire de loi continue (ou discrète)
dont on veut estimer un paramètre θ
I
Soit f (xi ; θ) la fonction densité de probabilité de X
I
La vraisemblance vaut :
L(x1 , ..., xn ; θ) =
Y
f (xi ; θ)
i
I
On veut trouver le maximum de cette fonction ⇒ calcul de
dérivées partielles :
∂L(x1 , ..., xn ; θ)
=0
∂θ
12 / 65
Régression linéaire simple
Estimation des paramètres
Maximum de vraisemblance : application à la loi
normale
I
On cherche à maximiser la quantité suivante par rapport
aux paramètres α, β et σ2 :
!n
"
#
X
1
1
L(α, β, σ2 ) = p
exp − 2
(Yi − α − βXi )2
2σ
2πσ2
i
I
On passe à la log-vraisemblance :
1 X
n
(Yi − α − βXi )2
ln L(α, β, σ2 ) = − ln(2πσ2 ) − 2
2
2σ
i
I
Maximiser cette quantité par rapport à α et β revient à
minimiser le dernier terme ⇔ minimisation de la SCE
(méthode des moindres carrés) ⇒ estimations a et b de α
et β
13 / 65
Régression linéaire simple
Estimation des paramètres
Estimation de la variance résiduelle σ2
s2 =
SCEy − b2 SCEx
n−2
P 2
e
s2 = i i
n−2
14 / 65
Régression linéaire simple
Formule de décomposition
Décomposition
X
i
(Yi − my )2 =
X
X
(Ŷi − my )2 +
(Yi − Ŷi )2
i
i
Signification des termes
− my )2 : somme des carrés totale ((n-1) ddl)
I
P
I
− my )2 : somme des carrés expliquée (partie de la
variation de Y expliquée par la variable X ) (1 ddl)
P
2
i (Yi − Ŷi ) : somme des carrés résiduelle (partie de la
variation de Y non expliquée par la variable X ) ((n-2) ddl)
I
i (Yi
P
i (Ŷi
15 / 65
Régression linéaire simple
Formule de décomposition
Formule sur les SCE
SCET = SCEe + SCEr
Tableau d’analyse de variance (ANOVA)
Il est possible de faire un test pour savoir si la variable X a un
effet sur la variable Y :
I
Hypothèses
I
I
I
Statistique de test et loi suivie sous H0 :
I
I
I
H0 : pas d’effet de X sur Y
H1 : effet de X sur Y
Les SCE suivent des lois du χ2 sous H0
SCEe /1
La variable F =
suit une loi de Fisher à
SCEr /(n − 2)
(1, n − 2) ddl
cf. cours ANOVA
16 / 65
Régression linéaire simple
Coefficient de détermination
Définition
P
(Ŷi − my )2
SCEe
=
r = Pi
2
SCET
i (Yi − my )
cov (X , Y ) 2
r2 =
sx × sy
2
Remarques
I
r 2 rend compte de la qualité de l’ajustement (= % de
variation expliquée)
I
Il s’agit du carré du coefficient de corrélation (cf. cours
corrélation)
I
On a toujours : 0 ≤ r 2 ≤ 1
17 / 65
Régression linéaire simple
Coefficient de détermination
Interprétation
0 ≤ r2 ≤ 1
I
r 2 = 1 : liaison linéaire parfaite entre X et Y
I
r 2 = 0 : pas de liaison linéaire entre X et Y (= droite
horizontale)
Remarque
I
Si on ne met pas évidence de liaison linéaire entre X et Y ,
cela ne veut pas dire qu’il n’y a pas de liaison du tout ⇒
liaison non linéaire possible
I
r 2 augmente avec le nombre de données (pertinentes)
18 / 65
Régression linéaire simple
Coefficient de détermination
Utilisation du r 2 dans l’ANOVA
La statistique de test F utilisée dans l’ANOVA précédente peut
s’exprimer en fonction de r 2 :
F = (n − 2) ×
r2
1 − r2
Coefficient de détermination ajusté
Comme r 2 dépend du nombre de données, pour comparer des
modèles qui ont un nombre différent de données ⇒ coefficient
de détermination ajusté (corrigé par les ddl) :
ra2 = 1 −
n−1
× (1 − r 2 )
n−2
19 / 65
Régression linéaire simple
Etude de validité du modèle linéaire
Tests à effectuer sur les résidus i
I
Normalité des résidus
I
I
Visualisation des résidus (histogramme + qqplot)
Test de normalité (Shapiro, Lilliefors)
I
Espérance nulle des résidus
Visualisation des résidus
I
Homoscédasticité des résidus
I
I
I
Visualisation des résidus
Test de comparaison de variances
Indépendance des résidus
I
I
Visualisation des résidus
Test pour tester l’auto-corrélation (test de Wald, test de
Durbin-Watson, ...)
20 / 65
Régression linéaire simple
Test de la pente nulle
Caractéristiques des variables
I
2 variables
I
I
I
Y : variable aléatoire
X : variable contrôlée (ou connue sans erreur)
Variables quantitatives
Hypothèses statistiques
I
Hypothèse nulle : H0 : β = 0
⇔ Y = α + βX + = α + ⇔ pas de liaison linéaire entre X et Y
I
Hypothèse alternative : H1 : β 6= 0 ⇒ test bilatéral
⇔ Y = α + βX + ⇔ liaison linéaire entre X et Y
Remarque : possibilité de faire un test unilatéral (β > 0 ou
β < 0)
21 / 65
Régression linéaire simple
Test de la pente nulle
Propriétés des données
I
2 échantillons "appariés" (couples (xi , yi ))
I
cas petit échantillon (valable aussi pour grand échantillon)
Calculs
I
Estimation ponctuelle de β :
P
P P
n xy − x y
P
P
b=
n x 2 − ( x)2
I
Estimation ponctuelle de σB :
s
s
SCEy
s2
1
2
sB =
=
×
−b
SCEx
(n − 2)
SCEx
22 / 65
Régression linéaire simple
Test de la pente nulle
Conditions à respecter
I
Conditions sur les Yi
Yi : v.a. indépendantes, normales, d’espérance sur la
droite de régression et de variance constante
⇒ Yi → N (βX + α, σ ) et Cov (Yi , Yj ) = 0 ∀i 6= j
I
Conditions sur les i
i : v.a. indépendantes, normales, d’espérance nulle et de
variance constante (variance résiduelle)
⇒ i → N (0, σ ) et Cov (i , j ) = 0 ∀i 6= j
Tests préliminaires
cf. étude de validité du modèle linéaire
23 / 65
Régression linéaire simple
Test de la pente nulle
Formule et calcul de la statistique de test
I
Variable d’intérêt : B : estimateur de β
I
Statistique de test sous H0 :
B
SB
Z =T =
I
Loi suivie par la statistique de test :
T → Student à ν = n − 2 ddl
I
Valeur de la statistique de test
z=t =
b
sB
24 / 65
Régression linéaire simple
Test de la pente nulle
Confrontation et conclusion (cf. cours précédents)
I
Confrontation
I
I
I
I
Comparaison de la valeur de la statistique de test t avec la
valeur seuil ts lue dans la table de Student
Position de t par rapport à l’intervalle d’acceptation Ia
Comparaison de la p-value avec la valeur α
Conclusion
Conclusion en langage statistique et en langage courant
(au risque α)
25 / 65
Régression linéaire simple
Test de la pente nulle
Régression / corrélation
I
On a la relation suivante :
r =b×
I
sx
sy
Le test de la pente nulle est donc équivalent au test du
coefficient de corrélation de Pearson.
26 / 65
Régression linéaire simple
Autres tests statistiques
Test de conformité de β à une valeur de référence β0
I
Hypothèses :
I
I
I
H0 : β = β 0
H1 : β 6= β0
Statistique de test :
Z =T =
I
B − β0
→ Student à ν = n − 2 ddl
SB
Valeur de la statistique de test :
z=t =
b − β0
sB
27 / 65
Régression linéaire simple
Test de conformité de l’ordonnée à l’origine
Caractéristiques des variables
I
2 variables
I
I
I
Y : variable aléatoire
X : variable contrôlée (ou connue sans erreur)
Variables quantitatives
Hypothèses statistiques
I
Hypothèse nulle : H0 : α = α0
I
Hypothèse alternative : H1 : α 6= α0
⇒ test bilatéral
28 / 65
Régression linéaire simple
Test de conformité de l’ordonnée à l’origine
Propriétés des données
I
2 échantillons "appariés"
I
cas petit échantillon (valable aussi pour grand échantillon)
Calculs
I
Estimation ponctuelle de α :
a = my − bmx
I
Estimation ponctuelle de σA :
s
sA = s
1
mx2
+
n SCEx
29 / 65
Régression linéaire simple
Test de conformité de l’ordonnée à l’origine
Conditions à respecter
I
Conditions sur les Yi
Yi : v.a. indépendantes, normales, d’espérance sur la
droite de régression et de variance constante
⇒ Yi → N (βX + α, σ ) et Cov (Yi , Yj ) = 0 ∀i 6= j
I
Conditions sur les i
i : v.a. indépendantes, normales, d’espérance nulle et de
variance constante (variance résiduelle)
⇒ i → N (0, σ ) et Cov (i , j ) = 0 ∀i 6= j
Tests préliminaires
cf. étude de validité du modèle linéaire
30 / 65
Régression linéaire simple
Test de conformité de l’ordonnée à l’origine
Formule et calcul de la statistique de test
I
Variable d’intérêt : A : estimateur de α
I
Statistique de test sous H0 :
Z =T =
I
A − α0
SA
Loi suivie par la statistique de test :
T → Student à ν = n − 2 ddl
I
Valeur de la statistique de test
z=t =
a − α0
sA
31 / 65
Régression linéaire simple
Test de conformité de l’ordonnée à l’origine
Confrontation et conclusion (cf. cours précédents)
I
Confrontation
I
I
I
I
Comparaison de la valeur de la statistique de test t avec la
valeur seuil ts lue dans la table de Student
Position de t par rapport à l’intervalle d’acceptation Ia
Comparaison de la p-value avec la valeur α
Conclusion
Conclusion en langage statistique et en langage courant
(au risque α)
32 / 65
Régression linéaire simple
Prédiction avec une droite de régression
Objectif
⇒ proposer la prédiction de valeurs de Y en fonction de
valeurs de X à partir de la relation : Y = a + bX
Remarques
I
La valeur calculée à l’aide des paramètres de la droite de
régression donne une prédiction de l’espérance de Y pour
une valeur particulière de X .
I
Il faut faire attention lorsque l’on fait des prévisions en
dehors de l’étendue des valeurs observées.
33 / 65
Régression linéaire simple
Intervalles
Objectif
I
Intervalle de confiance de µx
⇒ IC sur la moyenne prédite
I
Intervalle de prévision de yx
⇒ IC sur une valeur individuelle prédite
34 / 65
Régression linéaire simple
Intervalle de confiance de µx
Espérance de Y sachant X
Estimation ponctuelle de µ0 = E(Y /X = x0 ) pour
Y = α + βX + :
µ∗0 = a + bx0
Intervalle de confiance de l’espérance
IC de µ0 = E(Y /X = x0 ) :
s
ic(1−α) (µ0 ) = a + bx0 ± t(α,ν) s
1 (x0 − mx )2
+
n
SCEx
Remarque
Plus la valeur de x0 est éloignée de la moyenne mx , plus
l’intervalle de confiance est "large"
35 / 65
Régression linéaire simple
Intervalle de prévision de yx
Valeur prédite
Valeur prédite ponctuelle de Y0 pour X = x0 :
y0 = a + bx0
Intervalle de prévision
Intervalle de prévision de Y0 pour X = x0 :
s
ip(1−α) (Y0 ) = a + bx0 ± t(α,ν) s
1+
1 (x0 − mx )2
+
n
SCEx
Remarque
L’ip(1−α) (Y0 ) est plus "large" que l’ic(1−α) (µ0 )
36 / 65
Régression linéaire simple
Utilisation de R
Exemple
Un modèle rongeur de tumeur solide est utilisé et on souhaite
étudier si la dose d’anticancéreux A administrée à un groupe de
15 souris influence la durée de vie de ces souris. On administre
donc 15 doses différentes d’anticancéreux à ces souris et le
nombre de jours de survie de ces souris est ensuite recensé.
La survie est-elle liée linéairement à la dose d’anticancéreux
administrée au risque 5% ?
Commandes R
Soit "dose" le vecteur contenant les 15 valeurs de doses et
"survie" le vecteur contenant les 15 valeurs de survie
correspondantes.
Il faut commencer par visualiser les données (la survie en
fonction de la dose)
37 / 65
Régression linéaire simple
Utilisation de R
Visualisation des données : plot(dose,survie)
12
●
●
●
11
●
●
10
survie
●
●
●
●
9
●
●
●
8
●
●
●
1
2
3
4
5
dose
Interprétation
Possibilité d’envisager un modèle linéaire du type :
Y = α + βX + avec → N (0, σ )
Y : survie (variable quantitative)
X : dose (variable quantitative)
38 / 65
Régression linéaire simple
Utilisation de R
Régression : commandes R
I
Commande reg<-lm(survie~dose)
I
Commande reg :
Call:
lm(formula = survie
Coefficients:
(Intercept) dose
6.923 1.017
dose)
Interprétation
La droite de régression a pour équation :
Y = 6.923 + 1.017 × X
39 / 65
Régression linéaire simple
Utilisation de R
Options de la fonction lm
I
formula : quand il y a plusieurs variables explicatives,
cette option permet de prendre en compte les interactions
I
weights : permet de prendre en compte des poids si on
souhaite faire une régression pondérée
I
na.action : indique ce qu’il faut faire s’il manque une
donnée dans la liste
I
method : permet de préciser la méthode à utiliser pour
faire la régression (par défaut méthode "qr")
I
model, x, y, qr : paramètres logiques : si = TRUE, le
logiciel donne les détails demandés
I
autres options
40 / 65
Régression linéaire simple
Utilisation de R
Résultat de la commande summary(reg)
Call:
lm(formula = survie ~dose)
Residuals:
Min
1Q
Median
3Q
Max
-0.47333 -0.14833 -0.00667 0.12667 0.51000
Coefficients:
Estimate Std. Error t value
Pr(>|t|)
(Intercept) 6.92333
0.14842
46.65
7.36e-16 ***
dose
1.01667
0.04475
22.72
7.56e-12 ***
-Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1
’ ’ 1
Residual standard error: 0.2451 on 13 degrees of freedom
Multiple R-squared: 0.9754, Adjusted R-squared: 0.9735
F-statistic: 516.1 on 1 and 13 DF, p-value: 7.563e-12
41 / 65
Régression linéaire simple
Utilisation de R
Interprétation
I
Distribution des résidus
I
I
I
Ordonnée à l’origine (intercept) :
I
I
I
min-max
1er, 2nd et 3ème quartile
Valeur estimée a et écart-type estimé sA
Test de comparaison de l’ordonnée à l’origine α à la valeur
nulle (test t) :
p − value < 0.001 (rejet de H0 ) ⇒ ordonnée à l’origine
significativement différente de zéro au risque 1 pour mille
(10−3 )
Pente (dose) :
I
I
Valeur estimée b et écart-type estimé sB
Test de comparaison de la pente β à la valeur nulle (test t) :
p − value < 0.001 (rejet de H0 ) ⇒ pente significativement
différente de zéro au risque 1 pour mille (10−3 )
42 / 65
Régression linéaire simple
Utilisation de R
Interprétation (suite)
I
Valeurs de r 2 et ra2 :
I
I
r 2 = 0.9754
ra2 = 0.9735
⇒ valeurs très proches de 1
I
Test de Fisher (ANOVA) :
p − value < 0.001 (rejet de H0 )
⇒ influence significative de X sur Y (= de la dose sur la
survie) au risque 1 pour mille (10−3 )
Remarque
Détails du test de Fisher obtenus avec les commandes
aov(reg) et anova(reg)
43 / 65
Régression linéaire simple
Utilisation de R
Résultat de la commande anova(reg)
Analysis of Variance Table
Response: survie
Df
Sum Sq
dose
1
31.008
Residuals 13
0.781
-Signif. codes: 0 ’***’
’ ’ 1
Mean Sq
31.0083
0.0601
F value
516.14
Pr(>F)
7.563e-12 ***
0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1
Résultat de la commande aov(reg)
Call:
aov(formula = reg)
Terms:
dose
Sum of Squares 31.00833
Deg. of Freedom
1
Residuals
0.78100
13
Residual standard error: 0.2451059
Estimated effects may be unbalanced
44 / 65
Régression linéaire simple
Utilisation de R
Validation du modèle
⇒ Visualisation des résidus
I
qqnorm(residuals(reg))
I
qqline(residuals(reg))
I
fitted(reg),residuals(reg)
plotresid(reg) du package RVAideMemoire
I
I
I
I
Graphe 1 : résidus en fonction des valeurs prédites
Graphe 2 : qq-plot des résidus
Test de Shapiro-Wilk sur les résidus
45 / 65
Régression linéaire simple
Utilisation de R
Visualisation des résidus
Residuals vs fitted
Normal Q−Q Plot
0.4
●
0.4
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−0.4
−0.2
●
●
●
−0.2
●
●
●
●
0.0
●
0.0
●
Sample Quantiles
●
−0.4
Residuals
0.2
●
0.2
●
●
8
9
10
Fitted values
●
11
12
−1
0
1
Theoretical Quantiles
46 / 65
Régression linéaire simple
Utilisation de R
Interprétation
I
Graphe 1 : Homoscédasticité et indépendance :
I
I
Equivariance acceptée quand la dispersion verticale des
points est à peu près constante sur toute la longueur de
l’axe des abscisses
Indépendance acceptée lorsque l’orientation du nuage de
points est horizontale
I
Graphe 2 : Normalité des résidus :
Normalité acceptée lorsque les points sont à peu près
alignés sur une droite
I
Test de Shapiro-Wilk : Normalité des résidus
Exemple
Normalité, espérance nulle, homoscédasticité et indépendance
des résidus ⇒ modèle linéaire accepté
47 / 65
Régression linéaire simple
Utilisation de R
Validation du modèle
⇒ Visualisation des résidus Fonctions par(mfrow = c(2,
2)) puis plot(reg, 1:4) 4 graphiques
I
Graphe 1 : résidus en fonction des valeurs prédites
I
Graphe 2 : qq-plot des résidus
I
Graphe 3 : résidus standardisés en fonction des valeurs
prédites
I
Graphe 4 : distances de Cook
Graphe des distances de Cook
Il donne pour chacun des points de mesure la distance entre
les paramètres estimées par la régression avec et sans ce
point. Si l’importance du rôle de chaque point est concentrée
sur quelques valeurs, la régression n’est pas bonne (prise en
compte de points aberrants).
48 / 65
Régression linéaire simple
Utilisation de R
Autres commandes
I
residuals(reg) : permet de visualiser les valeurs des
résidus
I
coefficients(reg) : permet de visualiser les valeurs
des paramètres estimés a et b
I
fitted.values(reg) ou predict(reg) : permet de
visualiser les valeurs des Ŷi (Yi estimés)
I
confint(reg) : donne les intervalles de confiance des
paramètres estimés a et b
49 / 65
Régression linéaire simple
Utilisation de R
Autres commandes (suite)
I
ind.contrib(regression) du package
RAIdeMemoire : permet de détecter la présence
d’individus extrême auxquels la régression est très
sensible (calcul de la valeur des paramètres de la droite de
régression en enlevant à tour de rôle chaque individu)
I
predict(reg,...) : permet de calculer la valeur d’une
prédiction Ŷi en fonction d’une valeur de X
50 / 65
Autres types de régressions
Exemples
I
Régression linéaire pondérée
I
Régression multiple
I
Régression non linéaire
I
Régression logistique
51 / 65
Régression pondérée
Définition
La régression pondérée est utilisée quand les variances
résiduelles σi2 diffèrent selon la mesure Yi .
Méthode
Selon la méthode de l’estimation du maximum de
vraisemblance, les paramètres estimés a et b vont être
déterminés en minimisant la fonction suivante :
X
X 1
2
(Y
−
(a
+
bX
))
=
wi (Yi − (a + bXi ))2
i
i
2
σ
i
i
i
σi2 : variance résiduelle affectant la mesure Yi
wi : poids de la mesure Yi
52 / 65
Régression multiple
Définition (cf. cours statistiques multivariées)
Etude de la liaison entre une variable quantitative Y et un
ensemble de variables quantitatives X1 , ...Xk .
Modèle
Y = α + β1 X1 + ... + βk Xk + → N (0, σ )
βj : paramètres fixes
53 / 65
Régression multiple
Remarques
I
Si variables explicatives qualitatives : utilisation
d’indicatrices pour les modalités de ces variables
I
Possibilité de prendre en compte des interactions entre les
variables explicatives
Objectif
Détermination de la (ou des) variable(s) explicative(s) (et/ou de
leurs interactions) qui ont de l’influence sur la variable à
expliquer.
54 / 65
Régression non linéaire
Définition
Etude de la liaison non linéaire entre une variable quantitative
Y et une ou plusieurs variables quantitatives X1 , ...Xk .
Modèle
Y = f (θ, X ) + → N (0, σ )
θ vecteur de paramètres
55 / 65
Régression non linéaire
Méthode
On cherche à se ramener à une fonction affine (linéaire) pour
faire l’étude.
⇒ changement de variable
Changement de variable sur X et/ou sur Y
Famille
Exonentielle
Puissance
Inverse
Logistique
Fonctions
y = aebx
y = ax b
y = a + xb
y=
1
1+e−(ax+b)
Transformation
y 0 = ln(y )
y 0 = ln(y ) et x 0 = ln(x)
x 0 = x1 y 0 = ln
y
1−y
Forme affine
y 0 = ln(a) + bx
y 0 = ln(a) + bx 0
y = a + bx 0
y 0 = ax + b
56 / 65
Régression logistique
Définition
Etude de la liaison entre une variable qualitative Y et une ou
plusieurs variables quantitatives X1 , ...Xk .
Remarque
Quand variables explicatives qualitatives : utilisation
d’indicatrices pour les modalités de ces variables
Régression logistique binaire
Etude de la liaison entre une variable binaire Y et une ou
plusieurs variables Xi quantitatives ou qualitatives
57 / 65
Régression logistique binaire
Exemple
On souhaite étudier s’il existe une relation entre la prévalence
du cancer du poumon et le fait de fumer ainsi que l’âge.
I
Y : "avoir le cancer du poumon" ⇒ variable qualitative
binaire
I
X1 : "être fumeur" ⇒ variable qualitative binaire
I
X2 : "age" ⇒ variable quantitative continue
⇒ modèle logistique
58 / 65
Régression logistique binaire
Notations
I
Y : absence/présence d’une maladie
⇒ M + : malade, M − : non malade
p(x) = P(M + /X = x) : probabilité d’être malade
(prévalence de la maladie) sachant que X = x
I
Xi : facteurs de risque de la maladie
Modèle avec une variable explicative X
px = P(M + /X = x) =
px = P(M + /X = x) =
1
1+
e−(α+βx)
e(α+βx)
1 + e(α+βx)
⇒ fonction logistique
59 / 65
Régression logistique binaire
Transformation : fonction Logit
logit(px ) = ln
px
1 − px
= α + βx
⇒ fonction linéaire
Estimation des paramètres
Utilisation de la méthode du maximum de vraisemblance
60 / 65
Régression logistique binaire
Cas d’une variable explicative binaire
I
Probabilité d’avoir la maladie sachant que l’on a le facteur
de risque :
1
p1 = P(M + /X = 1) =
1 + e−(α+β)
I
Probabilité d’avoir la maladie sachant que l’on n’a pas le
facteur de risque
1
p0 = P(M + /X = 0) =
1 + e−α
Remarque
Le modèle logistique va permettre d’exprimer l’association
entre la maladie et l’exposition au facteur étudié au moyen de
l’odd ratio (OR), indicateur très fréquemment employé en
épidémiologie.
61 / 65
Régression logistique binaire
Définition de l’OR
OR = rapport des chances (RC)
Formule
OR =
p1
1 − p0
×
1 − p1
p0
Relation avec le modèle logistique
OR = eβ ⇔ β = ln(OR)
62 / 65
Régression logistique binaire
Test sur β
Tester l’hypothèse H0 : β = 0 revient à tester l’hypothèse
H0 : OR = 1
Interprétation du OR
Si on effectue une étude pour savoir si le fait d’être fumeur a
une influence sur le fait d’avoir un cancer des poumons et que
l’on obtient OR = 2.4, on en déduit qu’un fumeur a 2.4 fois plus
de "chance" (risque) d’avoir un cancer du poumon
63 / 65
Régression logistique binaire
Commandes R
I
Utilisation de la fonction glm pour Modèle Linéaire
Généralisé
I
Commande R : logis<-glm(Y X,family =
binomial(link="logit"))
I
Remarque : la loi de distribution des erreurs est une loi
binomiale (car variable à expliquer est binaire)
I
Tableau des résultats avec la commande
summary(logis)
64 / 65
Conclusion
Différents types de régressions
I
Régression linéaire / non linéaire
I
Régression pondérée / non pondérée
I
Régression simple (univariée) /multiple (multivariée)
65 / 65
Téléchargement