Modèle de régression linéaire multiple

publicité
14/09/2013
1.
Spécification du modèle et estimateurs
a) Spécification sous forme matricielle
•
Introduction à l’économétrie
III. Modèle de régression linéaire multiple
1.
Spécification du modèle et estimateurs
Y = X
( N ×1)
y
 1
y
2
Y =
 M

y
 N








x
 11
x
21
X =
 M

x
 N1
L
x
12
L
x
22
M
L
x
N2
Licence 3
Claudio Araujo, CERDI
•
β + ε
( N × K ) ( K ×1)
x 
β 
1K
 1

β 
x 
2K
 β= 2
 M 
M 
 

β 

x
 K
NK 
Par exemple, la demande d’essence dépend du prix de l’essence, des
transports publics, du revenu, …
Le modèle de régression multiple est plus flexible pour expliquer la
variable dépendante. On peut contrôler les autres facteurs
influençant la variable expliquée et éviter un biais d’omission. On
mesure mieux l’effet partiel de chacune des variables explicatives.
L’inclusion de variables non pertinente fortement corrélées avec
les autres variables explicatives conduit à la multicolinéarité et
rend les tests d’inférence statistiques imprécis.
1.
y i = β1 xi1 + β 2 xi 2 + ... + β K xiK + ε i
Écriture matricielle :
–
•
Claudio Araujo
CERDI, Université d’Auvergne
Clermont-Ferrand, France
www.cerdi.org
http://www.cerdi.org/claudio-araujo/perso/
Dans un modèle de régression multiple, il existe k variables
explicatives, y compris la constante.
( N ×1)
ε 
 1
ε 
2
ε= 
 M 
 
ε 
 N
Spécification du modèle et estimateurs
b) Calcul des estimateurs
On cherche à minimiser
la somme des erreurs
au carré entre Y et Υ̂
( )
′
min ε ′ε = min (Υ − Χβ ) (Υ − Χβ )
∂O = −2X ′Y + 2X ′Xβ = 0
∂β
2
∂ O = 2X ′X > 0
∂β ′∂β
Condition de premier ordre
Condition de second ordre
(matrice hessienne)
β^ = (X’X)-1 X’(Xβ + ε )
β^ = β + (X’X)-1 X’ε
^
β = (X’X)-1 X’ Y
Licence 3
β^ – β = (X’X)-1 X’ε
1
14/09/2013
1.
c)
Spécification du modèle et estimateurs
Multicolinéarité
•
•
1.
•
Le problème de la multicolinéarité parfaite (singular matrix)
–
Une des variables est une combinaison linéaire parfaite des autres variables
explicatives.
–
Pas un problème de données mais plutôt une erreur de spécification du
modèle.
Le problème de la multicolinéarité imparfaite : Symptômes
–
Les variances estimées des coefficients sont élevées. Les variables
considérées individuellement ne sont pas significatives alors que
globalement elle le sont
–
Changements notables dans les coefficients estimés lors d’une petite
modification d’échantillon
–
Il y a présomption de multicolinéarité lorsque les coefficients de
détermination des variables deux à deux > R²
Le problème de la multicolinéarité imparfaite : Remèdes
–
Une variable justifiée sur le plan théorique ne doit pas être
éliminée.
–
L’élimination d’une variable corrélé avec les variables explicatives
entraîne le rejet de l’hypothèse d’orthogonalité.
–
Remplacer les variables par une nombre plus faible de
combinaison linéaires.
–
Ridge regression : régression basé sur l’erreur quadratique
moyenne d’un estimateur.
–
Augmenter la taille de l’échantillon.
Licence 3
Exercices pratiques
Spécification du modèle et estimateurs
Licence 3
2.
Hypothèses de base d’un modèle
économétrique
a) Hypothèses stochastiques
• Calculez la valeur des paramètres du modèle
suivant :
y = a0 + a1 x1 + a2 x2 + e
Soit les matrices suivantes :
− 3.0
 2.0 3.5 − 1.0
−1
X ′X =  3.5 1.0 6.5  ; X ′y =  2.2  ; e′e = 10.96
− 1.0 6.5 4.3 
 0.6 
( )
( )
Licence 3
Claudio Araujo, CERDI
Hypothèse A :
εi suit une distribution normale :
N(µ , σ²)
Hypothèse B :
L’espérance mathématique de ε est nulle :
∀i, E(εi) = 0
Hypothèse C :
La variance de ε est constante :
Hypothèse
d’HOMOSCEDASTICITE
∀i , V(εi) = E (εi²) = σ²
Licence 3
2
14/09/2013
2.
Hypothèse D :
Hypothèses de base d’un modèle économétrique
Les termes aléatoires sont indépendants
(covariance nulle) :
Hypothèse d’INDÉPENDANCE
SERIELLE DES ECARTS
Hypothèse E :
2.
Hypothèses de base d’un modèle économétrique
Matrice variance - covariances des
écarts aléatoires :
Hypothèses
C+D:
σ ² 0
 0 σ²
V (ε ) = E (εε ′) = 
M

0 L
∀i ≠ j, E(εiεj) = 0
Les écarts aléatoires sont indépendants des
variables explicatives
1
0
σ 2
M

0
Cov(xi,εi) = 0 ⇒ E(X′ ε) = 0
Hypothèse d’ORTHOGONALITÉ
L
L
O
L 0
0
1
L
L
O
0
0
0 


σ ²
0
0 
= σ 2Ι N = Ω
M

1
Matrice Identité
Licence 3
2.
Licence 3
Hypothèses de base d’un modèle économétrique
b) Hypothèses structurelles
2.
c)
Hypothèse F :
Pas de restriction a priori sur la
valeur des coefficients estimés
Hypothèse G :
La matrice X est de rang K,
Rg(X)=K, plein rang colonne
Caractéristiques de la variable expliquée
•
L’ensemble des hypothèses stochastiques et structurelles
permettent de caractériser l’espérance, la variance et la
distribution de probabilité de la variable expliquée.
Espérance
conditionnelle
Nombre d’observations et nombre de paramètres
Multicolinéarité
Hypothèse H :
Les variables X sont bornées dans leur ensemble
Hypothèses de base d’un modèle économétrique
Variance
conditionnelle
E (Y X , ε ) = Xβ
V (Y X ) = E (εε ′) = σ 2Ι N = Ω
Variables stationnaires
Hypothèse I :
La matrice des variables X est
non stochastique
Licence 3
Claudio Araujo, CERDI
Distribution
conditionnelle
Y X ~ > N ( Xβ , Ω )
Licence 3
3
14/09/2013
2.
Hypothèses de base d’un modèle économétrique
3.
Échantillon
ˆ Xβ̂
Y=
Y
yi
εˆi
Résidu
εi
ŷi
Licence 3
3.
a) L’estimateur existe
Écarts
aléatoires
E(Y )= Xβ
E( yi )
xi
()
()
Linéarité du modèle par rapport aux paramètres
•
Possibilité d’effectuer un échantillonnage aléatoire sur les
variables X et Y
•
E βˆ = E β + X ′X X ′ε 


−1
E βˆ = β + X ′X X ′E (ε )
()
E βˆ = β
Licence 3
–
N>K
3.
•
D’après l’hypothèse B : E(ε) = 0
Un haut degré de colinéarité entre les variables explicatives
induit de la multicolinéarité
Licence 3
Propriétés des estimateurs
( )
( )
Absence de colinéarité parfaite entre les variables X
–
X
L’erreur conditionnelle est nulle en moyenne
−1
Claudio Araujo, CERDI
•
Population
b) Estimateur sans biais
•
Propriétés des estimateurs
Propriétés des estimateurs
L’omission d’une variable explicative importante conduit à un
biais d’omission.
L’importance du biais dépend de la dépendance entre la
variable omisse et les variables explicatives incluses dans la
régression.
Supposons deux modèles :
•
•
yi = βˆ1 + βˆ2 x2i + βˆ3 x3i + εˆi (vrai modèle)
~ ~
yi = β1 + β 2 x2i + ε~i (modèle sous - dimensionné)
•
Le biais du paramètre est donnée par :
•
Le biais est d’autant plus négligeable que
–
–
–
σ x ,x
~
E β 2 − β 2 = β 3 22 3
( )
σx
2
L’effet partiel de x3 sur y est négligeable
Les variables x2 et x3 sont faiblement corrélées
La variance de x2 est élevée
Licence 3
4
14/09/2013
3.
•
3.
Signe attendu du biais
σx2,x3 > 0
σx2,x3 < 0
Biais Positif Biais Négatif
Biais Négatif Bias Positif
β3 > 0
β3 < 0
•
Propriétés des estimateurs
Estimateur biaisé et convergence (consistance)
–
–
Asymptotiquement (lorsque N → ∞) un estimateur
convergent (« consistant ») donne une estimation égale à
la valeur vraie du paramètre.
Un estimateur sans biais est nécessairement convergent
(« consistant ») – l’inverse n’est pas vrai.
Propriétés des estimateurs
c) Estimateur efficace
•
•
•
Un estimateur est efficace si la variance est la plus
faible par rapport à n’importe quel autre estimateur
linéaire sans biais ou biaisé.
Un estimateur efficace peut être biaisé.
Dans certaines circonstances, il peut être préférable de
choisir un estimateur biaisé (plutôt que sans biais) s’il a
la variance minimale.
()
(
2
V βˆ = Sβ = E βˆ − β
(
3.
D’après l’hypothèse C (homoscédasticité) :
−1
= σ 2( X ′X )
−1
Estimation de σ² à partir de la variance des résidus
Licence 3
Claudio Araujo, CERDI
σˆ =
2
( N − K ) (εˆεˆ )
1
Degrés de liberté – ddl
Démonstration ABC
page 50 - 51
εˆ = Y − Yˆ = Y − Xβ
Propriétés des estimateurs
( )
2
E εˆ′εˆ = ( N − K )σ
En considérant les hypothèses C et D :
S β2 = σ 2( X ′X ) X ′X ( X ′X )
Paramètre inconnu
)
Licence 3
Propriétés des estimateurs
−1
2
′

= E βˆ − β βˆ − β 


Licence 3
3.
)(
)
σˆ =
2
′
Estimateur de la
variance des écarts
Somme carrés des
résidus – SCR
( N − K ) (Y − Xβ )(Y − Xβ )
ˆ′
1
Estimateur sans biais de
la matrice Var-Cov des
paramètres estimés
ˆ
−1
Sˆβ2 = σˆ 2 ( X ′X )
Licence 3
5
14/09/2013
3.
Propriétés des estimateurs
•
•
Notion plus restrictive que la notion d’estimateur efficace.
Le terme d’erreur doit être homoscédastique.
Il n’y a pas de corrélation sérielle des écarts (autocorrélation).
Il fournit les variances les plus faibles dans la classe des
estimateurs linéaires (efficace).
Si les hypothèses stochastiques (A à E) ne sont pas
violées, l’estimateur MCO est le meilleur estimateur
linéaire sans biais.
Licence 3
3.
f)
•
Supposons deux modèles :
yi = βˆ1 + βˆ2 x2i + εˆi (vrai modèle)
~ ~
~
yi = β1 + β 2 x2i + β 3 x3i + ε~i (modèle surdimensionné)
Le paramètre β2 de la 2ème équation est-il biaisé ?
~
~  σ x ,x 
E (β 2 ) = E βˆ2 + E (β 3 )E  2 
123 123  σ x 


=β
=0
2
•
3
2
2
•
Quelque que soit le degré de corrélation entre les variables
explicatives, il n’y a pas de biais.
L’inclusion d’une variable non pertinente corrélée avec les autres
variables explicatives peut introduire de la multicolinéarité.
Le nombre des degrés de liberté diminue (imprécision des tests
d’inférence statistique)
Licence 3
Claudio Araujo, CERDI
L’estimateur est convergent quand la variance estimée des écarts
aléatoires tend vers zéro
–
–
•
•
•
•
C’est le cas lorsque le nombre d’observations tend vers l’infini.
L’estimateur estimé converge en probabilité vers le vrai estimateur.
Toutefois, un estimateur convergent n’est pas forcément efficient
(asymptotiquement). En effet, il peut converger, lorsque N → ∞,
vers une valeur qui ne correspond pas à la valeur vraie du
paramètre.
Un estimateur efficient est nécessairement convergent (pas
l’inverse).
Un estimateur efficace est nécessairement convergent (pas
l’inverse).
Un estimateur BLUE est nécessairement sans biais, donc efficace
et convergent et, donc efficient.
Propriétés des estimateurs
( )
•
•
Licence 3
Influence de l’inclusion d’une variable superflue sur les
propriétés de l’estimateur
•
Propriétés des estimateurs
e) Estimateur convergent, efficace, efficient
d) Estimateur BLUE
•
•
•
3.
Exercices pratiques
• Interprétation d’un modèle. Approche à la Koopmans (du
particulier au général)
– On explique, dans un premier temps, le salaire des PDG par
le profit généré par la société.
– On élargi ensuite, le modèle en ajoutant la variable mktval
(valeur de marché de l’entreprise).
– Données en coupe transversale = 177.
• Interpréter les coefficients de profits et de log(profits).
• Interpréter les coefficients de profits et de log(mktval).
• Comparer les t-ratio entre parenthèses à la valeur critique (seuil 5%).
Interprétation des tests (que nous apprend le t-ratio test ?)
Licence 3
6
14/09/2013
4.
Exercices pratiques
Inférence statistique et ANOVA
a) Test sur un paramètre
•
Soit les régressions simples estimées :
+ 0.0006 profits i + εˆi
1. Log-niveau : log (wage )i = (6136.46
(5.72 )
.92 )
2. Log-log :
log (wage )i = 5.58+ 0.22 log ( profits )i + εˆi
(36.96 )
•
(6.93)
Soit la régression multiple estimée :
1. Log-niveau-log
log(wage )i = 4.84+ 0.00009 profitsi + 0.23 log(mktval ) + εˆi
(12.26 )
(0.54 )
(4.15 )
•
•
•
•
Pour calculer un ratio t de Student (t-ratio test) sur
chaque coefficient, on doit d’abord obtenir les estimations
des paramètres du modèle.
On calcule ensuite les écart-types de ces paramètres
estimés (cf. estimateur efficace).
On rejette H0 (β = 0) si t calculé > t table, cela signifie
que le résultat est « significatif ». Si le coefficient n’est
pas significatif, cela signifie que la variable n’explique pas
les variation de y.
Il est prudent, en pratique d’inclure une constante même
si elle n’est pas significative.
Licence 3
4.
Licence 3
Inférence statistique et ANOVA
Exercices pratiques
4.
b) Test sur plusieurs paramètres
•
• A partir de l’exercice réalisé précédemment avec
le modèle : y = a0 + a1 x1 + a2 x2 + e
– Calculez la variance du terme d’erreur
– Calculez les écart-types des paramètres estimés.
– Ecrivez la matrice des variances – covariances des
erreurs et des paramètres.
– Calculez les t-ratio, effectuez les test et interpréter
vos résultats.
Licence 3
Claudio Araujo, CERDI
Inférence statistique et ANOVA
Si on impose une seule contrainte linéaire, on peut
recourir au t de Student empirique pour tester cette
contrainte.
– Par exemple soit le modèle suivant :
yi = β1 + β 2 x2i + β 3 x3i + β 4 x4i + ε i
– Pour tester l’hypothèse nulle : β2 = 1 + β3
– On pose δ = β2 – β3 ⇒ δ = 1 (H0)
– On test δ en calculant le t de Student empirique
t∗ =
δˆ − 1
Sˆδˆ
Licence 3
7
14/09/2013
4.
•
•
•
Inférence statistique et ANOVA
4.
Pour effectuer un test comportant plus d’une restriction
linéaire, on doit recourir à l’ANOVA.
Rappel. On calcule le coefficient de détermination :
SCE
SCR
R2 =
= 1−
SCT
SCT
Le coefficient de détermination R² n’est pas pertinent pour
comparer le pouvoir explicative entre plusieurs modèles ne
comprenant pas le même degré de liberté. Il convient de
calculer le coefficient de détermination ajusté (ou corrigé)
par les degrés de liberté.
2
2
R =R −
2
N−1
1− R
N −K
(
)
= 1−
•
•
Aucun test ne peut être directement effectué sur le
R² ajusté du modèle.
Pour tester plusieurs restrictions, il faut recourir au
F-test basé sur l’analyse de la variance.
Démarche :
–
–
Distinguer un modèle non-contraint (HA) et un modèle
contraint (H0)
Après avoir identifier les modèles, on calcule une
statistique F* (ou Fisher empirique)
SCR / ( N − K )
SCT / ( N − 1)
Licence 3
4.
•
Inférence statistique et ANOVA
Licence 3
Inférence statistique et ANOVA
Test de Fisher - Snedecor
On cherche au moins 1 variable
explicative significative dans le modèle
H0 : tous les coefficients (sauf la constante) = 0
HA : il existe au moins un coefficient ≠ 0
SCE
(K − 1) =  N − K   R 2  ~ > F (K − 1, N − K )
F* =


SCR
K − 1   1 − R 2 
(N − K ) 
H0 rejetée si F* > Ftable
Si H0 n’est pas rejetée (F* < Ftable) ⇒ aucune
relation linéaire significative entre la variable
expliquée et les variables explicatives
Licence 3
Claudio Araujo, CERDI
ddl
Exercices pratiques
• Exercices en travaux dirigés
• Problèmes pratiques :
– Approche à la Koopmans : « specific-to-general »
– Approche à la Hendry : « general-to-specific »
– Les conséquences statistiques liées à l’omission d’une
variable pertinent sont plus graves que celles liées à
l’inclusion d’une variable non pertinente.
Licence 3
8
Téléchargement