Modèle de régression linéaire simple

publicité
14/09/2013
1.
Définition et modélisation économétrique
a) Présentation du modèle
•
Introduction à l’économétrie
II. Modèle de régression linéaire simple
Claudio Araujo
CERDI, Université d’Auvergne
Clermont-Ferrand, France
www.cerdi.org
http://www.cerdi.org/claudio-araujo/perso/
Une régression économétrique permet de décrire et
d’évaluer la relation entre une variable dépendante (y) et
une ou plusieurs variables indépendantes (xk).
– Dans le modèle de régression simple, k = 1.
– Dans le modèle de régression multiple, k > 1.
•
Afin d’obtenir des information des variables pour
l’ensemble d’une population, on fait de l’inférence
statistique.
– Inférence statistique : consiste à obtenir des informations sur
la population à partir de l’échantillon.
– Echantillon : sous-ensemble de la population étudiée.
Licence 3
1.
Définition et modélisation économétrique
• L’estimation du modèle peut être ponctuelle
(obtention d’une valeur spécifique du paramètre) ou
par intervalle (la vraie valeur du paramètre est
comprise dans un intervalle de confiance).
• Le plus souvent, on s’intéresse aux propriétés
d’une variable conditionnellement à d’autres
variables.
– Propriété conditionnelle : espérance d’une variable y
conditionnelle à la variable x. E(y|x) = f(x)
Dépendante, endogène, expliquée,
régressant, de réponse
Indépendante, exogène, explicative,
régresseur, de contrôle
Licence 3
Claudio Araujo, CERDI
1.
Définition et modélisation économétrique
• Dans une régression, la variable y et la (ou les) variable(s) x
est (sont) traitée(s) de manière asymétrique.
– La variable y est supposée être aléatoire ou stochastique.
– La (ou les) variable(s) x est (sont) supposée(s), au sens strict, avoir
des valeurs fixes d’un échantillon à l’autre.
• En raison du caractère aléatoire de y, les valeurs observées
dévient de leur espérance conditionnelle. Cette déviation est
qualifiée d’écart aléatoire (ε).
– Cas d’une régression linéaire simple :
yi = Ε( yi xi , ε i ) = β1 + β 2 xi + ε i
β1 : ordonnée à l’origine (constante - intercept)
β2 : pente, mesure l’impact marginal, ceteris paribus, de x sur y.
Licence 3
1
14/09/2013
1.
Définition et modélisation économétrique
1.
b) Rôle des erreurs stochastiques
•
•
Calculer la valeur théorique de y, sachant que
β1 = 1000 et β2 = 0,8 ; dans le cas d’une régression linéaire.
Revenu
Consommation
disponible (x)
observée (y)
9 000
8 170
Consommation
théorique
8 200
Cobs – Cth
On remarque que la relation spécifiée entre y et x ne
peut pas être déterministe.
:
–
–
– 30
9 500
11 000
8 800
9 700
8 600
9 800
200
– 100
–
12 000
10 500
10 600
– 100
–
13 500
11 200
11 800
– 600
11 000
9 674
Le processus de génération des données (PGD) est
inconnu.
Il est souvent impossible d’observer la totalité des
variables y et x de la population.
On doit ajouter un terme aléatoire, ε (terme d’erreur ou
perturbation stochastique) au processus.
On peut obtenir une estimation de ε ; le ε estimé est
appelé résidu.
y i = β1 + β 2 x i + ε i
Moyenne
Licence 3
1.
•
–
Du point de vue statistique : réalisation d’une variable
aléatoire, ayant sa propre distribution de probabilité pour
chaque i (ou t, dans le cas des TS).
Du point de vue économique :
•
•
•
–
Licence 3
Définition et modélisation économétrique
Interprétation de l’écart aléatoire :
–
Erreur de spécification : la seule variable explicative n’est pas
suffisante pour rendre compte de la totalité du phénomène
expliqué.
Erreur de mesure : les données ne représentent pas
exactement le phénomène.
Erreur de fluctuation d’échantillonnage : les observations
comprises dans l’échantillon, et donc les estimations, peuvent
être différentes.
Conséquences des termes aléatoires
Licence 3
Claudio Araujo, CERDI
Définition et modélisation économétrique
1.
Définition et modélisation économétrique
c) Méthodes d’estimation
•
Méthode des moments
–
–
–
–
–
Principe : l’estimation des moments de la population doivent
être estimé par les moments de l’échantillon (moyenne,
variance, …).
On estime plusieurs paramètres. Il doit y avoir autant de
conditions sur les moments que de paramètres à estimer.
Dans le cas où le nombre de conditions sur le moments est
supérieur au nombre de paramètres à estimer, le modèle est
sur-identifié : utilisation de la méthode des moments
généralisés (GMM).
Estimateurs robuste (problème des points aberrants).
Aucune hypothèse particulière concernant la distribution des
écarts aléatoires est nécessaire.
Licence 3
2
14/09/2013
1.
•
Définition et modélisation économétrique
Méthode du maximum de vraisemblance
–
–
–
Principe : des populations différentes engendrent des
échantillons différents. Il est plus vraisemblable qu’un
échantillon donné provienne d’une population particulière.
La méthode consiste à estimer les paramètres inconnus
de manière à maximiser la probabilité d’observer les yi
sachant la valeur de xi.
On suppose que les yi (εi) sont distribués normalement et
indépendamment (nid) de moyenne β1 + β2 xi et de
variance σ².
1.
•
Méthode des moindres carrés
–
Principe : estimation des moments de la distribution de
la population autours de zéro.
–
Soit la régression suivante :
yi = β1 + β 2 xi + ε i
–
Licence 3
Exercices pratiques
• Calculer la valeur théorique de demande
d’essence sachant que : β1 = – 0.117 et
β2 = 0,168 ; dans le cas d’une régression linéaire.
Prix de
l’essence
0.054
Demande
d’essence
0.011
0.061
0.073
0.049
0.077
0.166
0.115
0.469
0.054
Demande
Dobs – Dth
théorique
Travailler avec la source des
données qui est sur la
plateforme pédagogique.
Données en log ; période de
1960 à 1995.
D = f (P)
Définition et modélisation économétrique
On cherche les valeurs des coefficients β1 et β2 qui
minimisent la somme des carrés des écarts aléatoires.
Licence 3
2.
L’estimation des paramètres par les MCO
a) La méthode des moindres carrés ordinaires (MCO
/ OLS)
•
•
Cette méthode consiste à ajuster le nuage de points à
l’aide d’une droite en minimisant la distance au carré
entre chaque valeur observée et la droite d’estimation.
Cette distance mesure le résidu (ê) pour chaque
observation :
eˆi = ε i = yi − yˆ i
Moyenne
Licence 3
Claudio Araujo, CERDI
Licence 3
3
14/09/2013
2.
L’estimation des paramètres par les MCO
2.
y
.
y4
^
ê4 {
y3
y2
Les estimateurs des coefficients sont obtenus en
minimisant la somme du carré des résidus (SCR)
^
E(y) = β1 + β2x
N
N
i =1
i =1
.
Conditions de 1er ordre
∂Ο
=0
∂β 1
.} ê1
i
x2
x4
x3
2.
i
L’estimation des paramètres par les MCO
On obtient les estimateurs β1 et β2 à partir des équations normales :
∑ ( x − x )( y − y ) ∑ x y − nx y
n
i
i
∑ (x − x )
i =1
2
=
i
i =1
n
i i
2
i
∑x
i =1
− nx
2
•
∂Ο 2
>0
∂ 2 β1
–
–
βˆ1 = y − βˆ2 x
•
(R – Rm)²
(C – Cm) * (R – Rm)
– 1 504
– 874
– 2 000
– 1 500
4 000 000
2 250 000
3 008 000
1 311 000
26
826
1 000
1 000 000
826 000
–
2 500
SOMME
6 250 000
13 500 000
3 815 000
8 960 000
–
•
•
Claudio Araujo, CERDI
∂Ο 2
>0
∂2β2
Équations normales
L’estimation des paramètres par les MCO
β^1 = 2 373,26 (ordonnée à l’origine) ;
β^2 = 0,66 (pente de la droite)
Le coefficient β2 mesure l’impact d’une variation du
revenu sur la consommation (β2 = ∆y / ∆x).
Interprétation (en supposant que x et y soient mesurés
en €) : Si x varie d’1 point de %, y varie de 0,66 €.
Ne pas confondre régression et corrélation.
R - Rm (x)
Licence 3
i
;
En utilisant les données de consommation et revenu,
on obtient les valeurs suivantes pour les estimateurs :
C – Cm (y)
1 526
β1 , β 2
i
Licence 3
2.
n
n
i
= Min Ο
− 2∑ yi − nβˆ1 − βˆ2 ∑ xi = 0
x
Licence 3
i =1
2
Conditions de 2nd ordre
∂Ο
=0
∂β 2
;
)
− 2∑ xi yi − βˆ1 ∑ xi − βˆ2 ∑ xi2 = 0
x1
βˆ2 =
(
Min ∑ ε i2 = Min ∑ yi − βˆ1 − βˆ2 xi
} ê3
ê2 { .
y1
•
L’estimation des paramètres par les MCO
b) Calcul des estimateurs
Dans une régression, les variables sont traitées de manière
asymétrique (y : aléatoire ; x : fixe).
Quant à la corrélation, les variables sont traitées de manière
symétrique (x et y : aléatoires).
Licence 3
4
14/09/2013
2.
L’estimation des paramètres par les MCO
c) La corrélation
•
•
Lorsque deux phénomènes ont une évolution commune, ils
sont « corrélés ».
La corrélation simple (multiple) mesure le degré de liaison
existant entre ces deux (plusieurs) phénomènes.
La corrélation entre les variables peut être positive, négative
ou non corrélées. Linéaire ou non linéaire.
Le coefficient de corrélation linéaire simple permet de
calculer l’intensité de la liaison. Il varie entre – 1 et 1.
•
•
•
N
ρ x, y =
cov( x, y )
σ xσ y
2.
=
•
Ce coefficient est calculé à partir d’un échantillon
d’observations et non pas sur la population.
On peut tester la significativité de ce coefficient à
l’aide de la théorie des tests statistiques (t de
Student empirique).
–
–
–
∑(x − x )( y − y )
i =1
i
N
Soit H0 : ρx,y = 0 ; HA : ρx,y ≠ 0
On rejette H0 (ρ est significativement différent de 0) au
seuil α (α = 0,05) et à N – 2 ddl, si : *
t > t nα− 22
Soit :
t* =
i
N
L’estimation des paramètres par les MCO
i =1
2
i =1
(1− ρ )
2
x, y
n−2
∑(x − x ) ∑( y − y )
i
ρ x, y
2
i
Licence 3
Licence 3
2.
•
L’estimation des paramètres par les MCO
Exercices pratiques
Limites de la corrélation
–
–
La relation testée est linéaire.
•
Par exemple : l’équation d’un cercle donné par :
(x – x)² + (y – y)² = R²
•
Les variables x et y sont liées entre elles, mais leur
covariance est nulle, ρ est donc = 0.
Une corrélation différente de 0, n’implique pas une
liaison d’ordre économique (ou physique ou autre) –
corrélation fortuite.
•
Par exemple : nombre de taches solaires et taux de
criminalité.
Licence 3
Claudio Araujo, CERDI
• Calculer le coefficient de corrélation.
– Liaison entre rendement de maïs (x) d’une parcelle de terre et la
quantité d’engrais (y)
– Tracer le nuage de points, commenter, calculer le coefficient de
corrélation et tester sa signification (α = 5%)
Rendement Engrais Rendement Engrais Rendement Engrais
16
18
23
24
20
24
28
22
28
29
26
31
32
28
32
36
32
34
41
41
Licence 3
5
14/09/2013
3.
3.
Identification et propriétés des estimateurs
a) Notion d’un estimateur
•
Soit les variables aléatoires x et y, leurs distributions sont
caractérisées par β.
La population originale est composée de toutes les valeurs de x et
y.
Le paramètre β est une des caractéristiques paramétrique de cette
population.
x et/ou y peuvent être continu ou discret.
L’estimation de β dépend de l’information de l’échantillon, on peut
la décrire par une formule d’estimation : l’estimateur
•
•
•
•
(
ˆ =β
ˆ y , y ,L , y ; x , x , L , x
β
1
2
N
1
2
N
•
)
Sans biais si
•
–
–
–
–
Modèle linéaire par rapport à ses paramètres.
Fonction couramment utilisé pour linéariser un modèle par
rapport à ses paramètres : logarithme népérien (ou naturel).
Propriété importante : approximation d’une variation en
proportion.
Différents types de fonctions et interprétation de β2
Niveau – niveau : ∆y = β 2 ∆x
Log – niveau : % ∆y ≅ (100 β 2) ∆x
Niveau – log : ∆y = (β 2 / 100) % ∆x
Log – log : % ∆y ≅ (β 2) % ∆x
Licence 3
Claudio Araujo, CERDI
Asymptotiquement sans biais si
()
limn →∞ E βˆ = β
– Fonction linéaire des
observation de l’échantillon
– Non-biaisé
– Variance minimale
3.
•
Convergent si
p lim βˆ = β
(consistant en « franglais »)
Meilleur Estimateur linéaire
sans biais (BLUE) si les 3
conditions sont satisfaites:
Efficience asymptotique, si les 3
conditions sont satisfaites
– Distribution asymptotique avec
moyenne et variance finies
– Convergent
– Variance asymptotique minimale
Licence 3
Identification et propriété des estimateurs
L’estimateur est sans biais
–
L’estimateur existe
()
E β̂ = β
– Non-biaisé
– Variance minimale
Identification et propriété des estimateurs
b) Propriétés sur petits échantillons
Propriétés sur échantillon de taille
infinie (propriétés asymptotiques)
Efficace si les 2 conditions
suivantes sont satisfaites:
L’estimateur a des propriétés que l’on distingue selon la taille de
l’échantillon.
Licence 3
3.
Identification et propriété des estimateurs
Propriétés sur petit
échantillon
L’erreur (conditionnelle) est, en moyenne, nulle.
•
•
–
La variable x doit être strictement exogène par rapport au terme
d’erreur :
•
•
•
–
E(ε | x) = 0 → E(ε) = 0
E(ε | x) = 0 = E(ε) → Cov(ε , x) = 0 → E(ε . x) = 0
x et ε ne sont pas corrélés au temps :
E(εt | xt) = 0 ⇒ Cov(εt , xt) = 0
x n’a aucun effet décalé sur le terme d’erreur :
E(εt | xt-s) = 0 ⇒ Cov(εt , xt-s) = 0, ∀ s > 0
Le terme d’erreur n’a aucun effet décalé sur x :
E(εt | xt+s) = 0 ⇒ Cov(εt , xt+s) = 0 ⇒ Cov(εt-s , xt) = 0, ∀ s > 0
Sous ces hypothèses la valeur moyenne des estimations est
égale à la valeur « vraie » du paramètre :
E (β̂ ) = β
Licence 3
6
14/09/2013
3.
•
Identification et propriété des estimateurs
()
f β̂
Illustrations graphiques
La variance de l’erreur est constante (ou homoscédastique)
•
•
–
Elle ne dépend pas de x et ne varie pas au cours du temps
V(ε | x) = V(ε) = E(ε ²) = σ²
Non-biaisé
Il n’y a pas de corrélation sérielle dans les erreurs
(indépendance sérielle des écarts)
•
•
•
3.
L’estimateur est BLUE (best linear unbiased estimator)
–
•
Identification et propriété des estimateurs
(
β = Eβˆ
Efficience
Corr(εt , εs | x) = 0
Il n’y a pas de corrélation entre les erreur à l’instant t et une erreur
suivante (s > t) ou précédente (s < t).
()
β̂
β
Licence 3
3.
Licence 3
Identification et propriété des estimateurs
3.
Identification et propriété des estimateurs
d) Caractéristiques de base de la distribution de βˆ
()
E β̂
Moyenne
Variance
()
() [
( )] = E(βˆ )− [E(βˆ )]
Var βˆ = E βˆ − E βˆ
f β̂
Biais
Erreur Quadratique
Moyen (MSE)
β
β̂
2
2
2
βˆ − β
Erreur d’échantillonnage
Licence 3
Claudio Araujo, CERDI
β̂
f β̂
Sous l’hypothèses de Gauss – Markov (existence, sans
biais et efficience), l’estimateur MCO est BLUE
Si une hypothèse est violée, l’estimateur n’est pas BLUE.
c) Propriétés sur grandes
échantillons de taille infinie
(propriété asymptotiques)
• L’estimateur est « consistant »
(convergent)
– Un estimateur sans biais
est nécessairement
convergent, mais l’inverse
n’est pas vrai.
– Pour les données
temporelles, il suffit que
E(εt | xt) = 0 pour qu’un
estimateur soit convergent.
– Un estimateur efficient ne
garantit pas, non plus, la
convergence d’un
estimateur.
)
()
E βˆ − β
(
E βˆ − β
)
2
Il peut avoir conflit entre
absence de biais et variance
minimale. La minimisation de
l’EQM (MSE) est un moyen
d’arbitrer
Licence 3
7
14/09/2013
3.
Identification et propriété des estimateurs
4.
Biaisé
Variance minimale
Erreur
Quadratique
Moyen (MSE)
()
f β̂
Non-biaisé
(
MSE = E βˆ − β
)
Dispersion
élevée
2
β
β̂
[ () () ]
{[ ( )] [ ( ) ]}
= E[βˆ − E(βˆ )] + E[E(βˆ ) − β ] + 2E[βˆ − E(βˆ )][E(βˆ ) − β ]
2
MSE = E βˆ − E βˆ + E βˆ − β
= E βˆ − E βˆ + E βˆ − β
2
Inférence statistique
a) Normalité des erreurs
• Les caractéristiques de l’échantillon reflètent, avec
une certaine marge d’erreur, celles de la population.
• Pour pouvoir induire les paramètres inconnus (β)
d’une population sur un échantillon issu de cette
population, on pose l’hypothèse de normalités des
erreurs
2
–
Soit εi → N(0,σε²)
–
Sous les hypothèses du modèle de régression linéaire classique :
βˆi − β i
βˆ − β i
≈ N (0,1) → i
≈ t n − 2 , i = (1,2 )
σˆ βˆ
V (β i )
2
i
Variance
(Biais)²
4.
Licence 3
=0
Inférence statistique
b) Test sur un seul coefficient : t ratio
• Soit l’équation suivante : yi = β1 + β2 xi + εi
• Etapes pour effectuer un test sur un seul coefficient:
1. Estimation de β1 , β2 , σβ1² , σβ2² par MCO
βˆ − βˆ2*
2. Calcul de la statistique t de Student empirique t * = 2
σˆ βˆ2
β2* : valeur de β2 sous H0
*
Lorsque β2 = 0 et que le test est bilatéral, t* est appelé le
RATIO t de Student (t-ratio test).
3. Préciser les H0 et HA et choisir un seuil de significativité (taille
du test, α). Seuil fréquent : 10%, 5% ou 1%.
4. Sous les hypothèses du modèle de régression classique, la
statistique du t de Student empirique suit une loi de Student à
N – K degrés de liberté (cte comprise ds k).
Licence 3
Claudio Araujo, CERDI
Licence 3
4.
5.
Inférence statistique
Utiliser la table statistique (Student) pour obtenir la valeur
critique (quantile de la distribution, au-delà duquel
l’hypothèse nulle est rejetée).
Pour un test bilatéral, avec k = 2, α = 10% et N = 30 ;
ddl = N – K = 28
H0 : β 2 = β 2*
Pour un test unilatéral :
Région de non
rejet (H0)
HA : β 2 ≠ β 2*
H0 : β 2 = β 2*
HA soit : β 2 > β 2*, si partie droite
f(t)
HA soit : β 2 < β 2*, si partie gauche
H0
(1−α)
½ α (%)
90 %
HA
- tα/2
β2*
½ α (%)
+ tα/2
HA
t
Licence 3
8
14/09/2013
4.
6.
Utiliser la règle de décision suivante :
–
4.
Inférence statistique
1. Estimation de β1 , β2 , σβ1² , σβ2² par MCO
2. Choix du seuil de significativité, α , pour obtenir un
intervalle de confiance à (1 – α) %. Par exemple si α =
0,05, intervalle de confiance = 95%.
3. Utiliser la table statistique de Student pour obtenir la
valeur critique, ddl = N – K.
4. L’intervalle de confiance est donnée par :
Pour un test bilatéral, H0 est rejetée si
βˆ2 − β 2*
Sˆ β 2
> t Nα −2K
–
Pour un test unilatéral dans la partie droite , H0 est rejetée si
βˆ2 − β 2* α
> tN −K
Sˆ
–
Pour un test unilatéral dans la partie gauche, H0 est rejetée si
{(βˆ
β2
βˆ2 − β 2*
Sˆ β 2
2
)
d)
•
•
•
•
•
•
•
Licence 3
Claudio Araujo, CERDI
}
Licence 3
Inférence statistique
Les tests d’hypothèses permettent d’évaluer la robustesse d’un modèle
estimé.
Les tests d’hypothèses économiques sont conditionnés au non rejet de la
spécification économétrique.
Le principe consiste à comparer des paramètres. Confrontation d’une
hypothèse nulle (ou restreinte) – H0 à une hypothèse alternative (HA).
Rappel : Aucune hypothèse ne peut être définitivement infirmée. Elle est testé
en liaison avec d’autres hypothèses auxiliaires.
Ne pas rejeter H0 contre HA signifie que H0 est provisoirement « acceptée ».
Cela ne signifie nullement l’acceptation de H0.
Si une hypothèse nulle est rejetée à α %, cela signifie que le résultat est
qualifié de « significatif à α % ».
Si H0 est rejetée à 1 %, elle sera aussi rejetée à 5 % et 10 %.
Un résultat peut être significatif au niveau statistique mais marginal sur le plan
économique.
)
5. On rejette H0, si β2* se trouve à l’extérieur de l’intervalle
de confiance
• Le test bilatéral sur coefficient et l’intervalle de confiance
aboutissent toujours aux mêmes conclusions.
< −t αN − K
Interprétation et observations
•
(
− t αN − K × Sˆβ 2 , βˆ2 + t αN − K × Sˆ β 2
Licence 3
4.
Inférence statistique
c) Intervalle de confiance
4.
•
Inférence statistique
Schématiquement : 2 sous-régions
Rejet de H0
Non rejet de H0
Erreur de première espèce
Taille du test
α est la probabilité de
rejeter H0 sachant qu’elle
est vraie
seuil de signification
« p-value »
Licence 3
9
14/09/2013
4.
•
•
Inférence statistique
Il n’est pas exclu d’accepter H0 sachant qu’elle est fausse –
Erreur de deuxième espèce (β)
La décision se traduit par 2 erreurs : α et β antagonistes
5.
a) Equation fondamentale
N
SCT = ∑ ( yi − y )
Décision
Hypothèses
vraies
•
•
•
H0
H0
Pas d’erreur
HA
β
HA
i =1
α
N
Puissance
d’un test
(1 – β ) : puissance d’un test. Mesure de la probabilité de
rejeter H0 sachant qu’elle est fausse
Plus la région d’acceptation est grande plus β est élevée
L’erreur de première espèce est plus grave que l’erreur de
deuxième espèce
3 paramètres du modèle
Obs : ne pas confondre ici α et β Licence
avec les
5.
•
L’ajustement par la droite des MCO est meilleur quand
SCE est proche de SCT
Pour mesurer la qualité d’ajustement (goodness-of-fit)
on utilise le coefficient de détermination, R².
SCE
SCR
= 1−
SCT
SCT
Le R² varie entre 0 et 1.
Plus le R² est proche de 1, mieux est l’ajustement de la
droite de régression. Mais l’objectif n’est pas de
maximiser le R².
R2 =
•
•
Licence 3
Claudio Araujo, CERDI
2
N
SCR = ∑ ( yi − yˆ i ) = ∑ ε i2
2
i =1
i
SCE = ∑ ( yˆ i − y )
2
i =1
Somme des carrés des résidus
SCT = SCE + SCR
Cf. démonstration dans
l’ABC d’E page 55
Somme des carrés expliquée
Licence 3
ANOVA
b) Coefficient de détermination
•
ANOVA (ANalysis Of VAriance)
Exercices pratiques
• Calculer le coefficient de détermination pour les
modèle de consommation.
– Vous devez calculer : SCT, SCE et SCR à partir du
tableau contenant, le revenu disponible et la
consommation observée.
• Calculer le coefficient de détermination pour les
modèle de demande d’essence en fonction du
prix.
Licence 3
10
Téléchargement