La régression linéaire

publicité
Modéle statistique
La régression linéaire
La régression linéaire
Formation Fondamentale
Modéle statistique
Sommaire
1
Modéle statistique
Généralités
Relation statistique
2
La régression linéaire
les hypothèses
Démarche
Propriétés
Qualité
Tests
La régression linéaire
Modéle statistique
Sommaire
1
Modéle statistique
Généralités
Relation statistique
2
La régression linéaire
les hypothèses
Démarche
Propriétés
Qualité
Tests
La régression linéaire
Modéle statistique
La régression linéaire
Modélisation
Variable à expliquer Y
Variable explicatives X1 , X2 , . . . ., Xp
On suppose que les variations de Y sont inuencées par les
variables explicatives
Le modèle permet d'exprimer sous la forme d 'une relation
mathématique la liaison supposée
La connaissance de ces variables permettent à l 'aide du
modèle de prédire Y
Estimer les valeurs de Y ponctuellement et par intervalle
Le modèle permet de mesurer l 'impact ou l 'eet d 'une
variable explicative sur Y
Modéle statistique
La régression linéaire
Exemples
Ecacité des budgets publicitaires
Y : ventes en valeurs
X1 : budget radio
X2 : budget journaux
X3 : budget gratuits
Forfaits de ski
Population : stations de ski françaises
Y : prix du forfait hebdomadaire
X : Kms de pistes
Consommation des ménages
Population : ménages
Y : Budget consacré à la consommation du ménage
X1 : Revenu du foyer
X2 : Taille du foyer
Modéle statistique
La régression linéaire
Relation déterministe - statistique
Relation déterministe
Une seule valeur de Y pour
une valeur de X
Relation Statistique
Plusieurs valeurs de Y pour
une valeur de X
Pas de fonction mathématique
pour exprimer la relation
Probabiliser Y pour une
valeur xée de X
Modéle statistique
La régression linéaire
Relation statistique
A chaque valeur x de X correspond une distribution de Y
Loi de Y conditionnée par X = x : Yx
Espérance (moyenne) conditionnelle de Y : µx
La loi centrée conditionnelle εx = Yx − µx
La fonction x 7−→ f (x ) = µx est la courbe de régression
εx est l'erreur de régression (E (εx ) = 0)
On écrira (abusivement)
Y = f (X ) + εX
Modéle statistique
Sommaire
1
Modéle statistique
Généralités
Relation statistique
2
La régression linéaire
les hypothèses
Démarche
Propriétés
Qualité
Tests
La régression linéaire
Modéle statistique
La régression linéaire
La régression linéaire
La fonction f est une fonction linéaire des variables explicatives :
Régression simple : une seule variable explicative X
Y = β0 + β1 X + εX
Pour toute valeur x de X : Yx = β0 + β1 x + εx
Régression multiple : plusieurs variables explicatives
Y = β0 + β1 X1 + β2 X2 + · · · + β Xp + εX
Pour toutes valeurs x1 de X1 , x2 de X2 , · · · , xp de Xp :
Yx1 ,x2, ···x = β0 + β1 x1 + β2 x2 + · · · + βp Xp + εx
p
Hypothèses de la régression linéaire
Les variables aléatoires εx sont toutes de même loi
εx de loi normale de moyenne 0 et d'écart-type σ indépendant
de x
Modéle statistique
La régression linéaire
La démarche de la régression
A partir d'un échantillon de valeurs pour la variable à expliquer Y
et les variables explicatives Xi
1 Vérier la possibilité d'une liaison linéaire entre Y et chacune
des variables Xi
1
2
2
Estimation des paramètres
1
2
3
représentation graphique
coecient de corrélation
coecients βi (bi )
de l'écart-type σ (écart-type de la régression)
Validation du modèle
1
2
3
4
indice de qualité R 2
validité globale F de Fisher
validité marginale t de student
étude des résidus, détection des points atypiques
Modéle statistique
Liaison entre variables
La régression linéaire
Modéle statistique
La régression linéaire
Estimation
Estimation des coecients - Méthode des moindres carrés
(yi , x1,i , x2,i , · · · , xi ,p )
µx = β0 + β1 xi ,1 + β2 x2,i + · · · + βp xp,i
ei = yi − µx
i
i
Les valeurs estimées (b0 , b1 , b2 , · · · , bp ) des coecients minimisent
n
h = ∑ ei2
i =1
Notation
valeur observée : yi
valeur prédite : valeur estimée de
µx = ŷi = b0 + b1 x1,i + b2 x2,i + · · · + bp xp,i
i
valeur résiduelle : résidu : êi = yi − ŷi
Modéle statistique
La régression linéaire
Décomposition des carrés
La somme des résidus est nulle
Valeurs observées et valeurs prédites ont
la même moyenne
n
∑ êi = 0
i =1
y = ŷ
n
SCT = ∑ (yi − y )2
La somme des carrés totale = la somme
des carrés modélisée (de la régression) +
la somme des carrés résiduelle
i =1
n
SCE = ∑ (ŷi − y )2
i =1
n
SCR = ∑ êi2
i =1
SCT = SCE + SCR
Modéle statistique
Exemple de la décomposition
La régression linéaire
Modéle statistique
La régression linéaire
Indices de qualité
Coecient de détermination R 2
Coecient de corrélation multiple
Corrélation entre les valeurs
observées et modélisées
SCE
R 2 = SCT
0 ≤ R2 ≤ 1
√
R = R2
R 2 augmente avec le nombre de variables explicatives
(= 1 si p = n − 1)
Si R 2 = 0 absence de liaison linéaire
Modéle statistique
La régression linéaire
Ecart-type des résidus
Estimation de la variance des
résidus
L 'écart-type des résidus
évalue la dispersion des résidus
autour de 0
évalue la dispersion des valeurs
de Y autour de la moyenne
précision des prédictions
s est appélée "Erreur standard de l'estimation"
σ 2 = Var (ε)
s 2 =√n−SCR
p−1
s = s2
Modéle statistique
La régression linéaire
Test global
Objectif : déterminer si au moins une des variables choisies est
signicativement explicative (linéairement).
On pose le test
H0
H1
: β1 = 0, β2 = 0, · · · , βp = 0
: ∃i ∈ [1 ; p ] βi 6= 0
On se xe un risque de première espèce α
Statistique associée au test : Carré moyen expliqué / Carré
moyen résiduel
fc =
SCE /p
SCR / (n − p − 1)
Signicativité sig = probabilité d'observer un telle valeur sous
H0 . Si sig < α on rejette H0
Modéle statistique
Test Global - Exemple
La régression linéaire
Modéle statistique
La régression linéaire
Tests partiels
Objectif : évaluer l'apport marginal de chacune des variables à la
régression
Test associé à la variable k
H0
H1
: βk = 0, les autres variables étant dans la régression
: βk =
6 0
On se xe un risque de première espèce α
On calcule le tk associé à la variable Xk
tk =
bk
s (Bk )
où s (Bk ) désigne l'écart-type estimé de l'estimateur du
coecient βk
Si la signicativité de tk est inférieur à α , on rejette H0 sinon
cette variable peut être otée de la régression
textitAttention : une seule variable à la fois
Modéle statistique
Test partiel - Exemple
La régression linéaire
Téléchargement