14/09/2013
Claudio Araujo, CERDI 1
Introduction à l’économétrie
II. Modèle de régression linéaire simple
Claudio Araujo
CERDI, Université d’Auvergne
Clermont-Ferrand, France
www.cerdi.org
http://www.cerdi.org/claudio-araujo/perso/
Licence 3
1. Définition et modélisation économétrique
a) Présentation du modèle
Une régression économétrique permet de décrire et
d’évaluer la relation entre une variable dépendante (y) et
une ou plusieurs variables indépendantes (xk).
Dans le modèle de régression simple, k = 1.
Dans le modèle de régression multiple, k > 1.
Afin d’obtenir des information des variables pour
l’ensemble d’une population, on fait de l’inférence
statistique.
Inférence statistique : consiste à obtenir des informations sur
la population à partir de l’échantillon.
Echantillon : sous-ensemble de la population étudiée.
Licence 3
1. Définition et modélisation économétrique
L’estimation du modèle peut être ponctuelle
(obtention d’une valeur spécifique du paramètre) ou
par intervalle (la vraie valeur du paramètre est
comprise dans un intervalle de confiance).
Le plus souvent, on s’intéresse aux propriétés
d’une variable conditionnellement à d’autres
variables.
Propriété conditionnelle : espérance d’une variable y
conditionnelle à la variable x. E(y|x) = f(x)
Dépendante, endogène, expliquée,
régressant, de réponse Indépendante, exogène, explicative,
régresseur, de contrôle
Licence 3
1. Définition et modélisation économétrique
Dans une régression, la variable yet la (ou les) variable(s) x
est (sont) traitée(s) de manière asymétrique.
La variable yest supposée être aléatoire ou stochastique.
La (ou les) variable(s) xest (sont) supposée(s), au sens strict, avoir
des valeurs fixes d’un échantillon à l’autre.
En raison du caractère aléatoire de y, les valeurs observées
dévient de leur espérance conditionnelle. Cette déviation est
qualifiée d’écart aléatoire (
ε
).
Cas d’une régression linéaire simple :
β
1
: ordonnée à l’origine (constante - intercept)
β
2
: pente, mesure l’impact marginal, ceteris paribus, de xsur y.
(
)
iiiiii
xxyy
εββε
++=Ε=
21
,
14/09/2013
Claudio Araujo, CERDI 2
Licence 3
b) Rôle des erreurs stochastiques
Calculer la valeur théorique de y, sachant que :
β
1
= 1000 et
β
2
= 0,8 ; dans le cas d’une régression linéaire.
1. Définition et modélisation économétrique
Revenu
disponible (x)Consommation
observée (y)Consommation
théorique Cobs – Cth
9 000 8 170 8 200 – 30
9 500 8 800 8 600 200
11 000 9 700 9 800 – 100
12 000 10 500 10 600 – 100
13 500 11 200 11 800 – 600
11 000 9 674 Moyenne
Licence 3
On remarque que la relation spécifiée entre yet xne
peut pas être déterministe.
Le processus de génération des données (PGD) est
inconnu.
Il est souvent impossible d’observer la totalité des
variables yet xde la population.
On doit ajouter un terme aléatoire,
ε
(terme d’erreur ou
perturbation stochastique) au processus.
On peut obtenir une estimation de
ε
; le
ε
estimé est
appelé résidu.
1. Définition et modélisation économétrique
iii
xy ε+β+β=
21
Licence 3
Interprétation de l’écart aléatoire :
Du point de vue statistique : réalisation d’une variable
aléatoire, ayant sa propre distribution de probabilité pour
chaque i(ou t, dans le cas des TS).
Du point de vue économique :
Erreur de spécification : la seule variable explicative n’est pas
suffisante pour rendre compte de la totalité du phénomène
expliqué.
Erreur de mesure : les données ne représentent pas
exactement le phénomène.
Erreur de fluctuation d’échantillonnage : les observations
comprises dans l’échantillon, et donc les estimations, peuvent
être différentes.
Conséquences des termes aléatoires
1. Définition et modélisation économétrique
Licence 3
c) Méthodes d’estimation
Méthode des moments
Principe : l’estimation des moments de la population doivent
être estimé par les moments de l’échantillon (moyenne,
variance, …).
On estime plusieurs paramètres. Il doit y avoir autant de
conditions sur les moments que de paramètres à estimer.
Dans le cas où le nombre de conditions sur le moments est
supérieur au nombre de paramètres à estimer, le modèle est
sur-identifié : utilisation de la méthode des moments
généralisés (GMM).
Estimateurs robuste (problème des points aberrants).
Aucune hypothèse particulière concernant la distribution des
écarts aléatoires est nécessaire.
1. Définition et modélisation économétrique
14/09/2013
Claudio Araujo, CERDI 3
Licence 3
Méthode du maximum de vraisemblance
Principe : des populations différentes engendrent des
échantillons différents. Il est plus vraisemblable qu’un
échantillon donné provienne d’une population particulière.
La méthode consiste à estimer les paramètres inconnus
de manière à maximiser la probabilité d’observer les yi
sachant la valeur de xi.
On suppose que les yi(
ε
i) sont distribués normalement et
indépendamment (nid) de moyenne
β
1+
β
2xiet de
variance σ².
1. Définition et modélisation économétrique
Licence 3
Méthode des moindres carrés
Principe : estimation des moments de la distribution de
la population autours de zéro.
Soit la régression suivante :
On cherche les valeurs des coefficients
β
1et
β
2qui
minimisent la somme des carrés des écarts aléatoires.
1. Définition et modélisation économétrique
iii
xy
εββ
++=
21
Licence 3
Exercices pratiques
Calculer la valeur théorique de demande
d’essence sachant que :
β
1
= – 0.117 et
β
2
= 0,168 ; dans le cas d’une régression linéaire.
Prix de
l’essence Demande
d’essence Demande
théorique Dobs – Dth
0.054 0.011 Travailler avec la source des
données qui est sur la
plateforme pédagogique.
Données en log ; période de
1960 à 1995.
D = f(P)
0.061 0.049
0.073 0.077
0.166 0.115
0.469 0.054
Moyenne
Licence 3
2. L’estimation des paramètres par les MCO
a) La méthode des moindres carrés ordinaires (MCO
/ OLS)
Cette méthode consiste à ajuster le nuage de points à
l’aide d’une droite en minimisant la distance au car
entre chaque valeur observée et la droite d’estimation.
Cette distance mesure le résidu (ê) pour chaque
observation :
iiii
yye ˆˆ ==
ε
14/09/2013
Claudio Araujo, CERDI 4
Licence 3
E(y) = β1 + β2x
.
.
.
.
y1
x1
y2
x2
y3
x3
y4
x4
}
}
{
{
ê1
ê2
ê3
ê4
x
y
2. L’estimation des paramètres par les MCO
^^
Licence 3
(
)
21
,
1
2
21
1
2
ˆˆ
ββ
ββε
Ο==
==
MinxyMinMin
N
iii
N
ii
Les estimateurs des coefficients sont obtenus en
minimisant la somme du carré des résidus (SCR)
0
ˆˆ
2
0
ˆˆ
2
21
2
21
=
=
ii
ii
ii
iii
ii
xny
xxyx
ββ
ββ
0;0
21
=
Ο
=
Ο
ββ
Équations normales
2. L’estimation des paramètres par les MCO
b) Calcul des estimateurs
Conditions de 1er ordre Conditions de 2nd ordre
0;0
2
2
2
1
2
2
>
Ο
>
Ο
ββ
Licence 3
2. L’estimation des paramètres par les MCO
On obtient les estimateurs
β
1et
β
2à partir des équations normales :
( )( )
( )
=
=
=
=
=
=
n
ii
n
iii
n
ii
n
iii
xnx
yxnyx
xx
yyxx
1
22
1
1
2
1
2
ˆ
β
xy
21
ˆˆ
ββ
=
C – Cm (y) R - Rm (x) (R – Rm)² (C – Cm) * (R – Rm)
– 1 504 – 2 000 4 000 000 3 008 000
– 874 – 1 500 2 250 000 1 311 000
26
826 1 000 1 000 000 826 000
1 526 2 500 6 250 000 3 815 000
SOMME 13 500 000 8 960 000
Licence 3
2. L’estimation des paramètres par les MCO
En utilisant les données de consommation et revenu,
on obtient les valeurs suivantes pour les estimateurs :
β
1= 2 373,26 (ordonnée à l’origine) ;
β
2= 0,66 (pente de la droite)
Le coefficient
β
2mesure l’impact d’une variation du
revenu sur la consommation (
β
2=y/x).
Interprétation (en supposant que xet ysoient mesurés
en €) : Si xvarie d’1 point de %, yvarie de 0,66 €.
Ne pas confondre régression et corrélation.
Dans une régression, les variables sont traitées de manière
asymétrique (y: aléatoire ; x: fixe).
Quant à la corrélation, les variables sont traitées de manière
symétrique (xet y: aléatoires).
^
^
14/09/2013
Claudio Araujo, CERDI 5
Licence 3
2. L’estimation des paramètres par les MCO
c) La corrélation
Lorsque deux phénomènes ont une évolution commune, ils
sont « corrélés ».
La corrélation simple (multiple) mesure le degré de liaison
existant entre ces deux (plusieurs) phénomènes.
La corrélation entre les variables peut être positive, négative
ou non corrélées. Linéaire ou non linéaire.
Le coefficient de corrélation linéaire simple permet de
calculer l’intensité de la liaison. Il varie entre – 1 et 1.
( ) ( )( )
( ) ( )
==
=
==
N
ii
N
ii
N
iii
yx
yx
yyxx
yyxx
yx
1
2
1
2
1
,
,cov
σσ
ρ
Licence 3
2. L’estimation des paramètres par les MCO
Ce coefficient est calculé à partir d’un échantillon
d’observations et non pas sur la population.
On peut tester la significativité de ce coefficient à
l’aide de la théorie des tests statistiques (tde
Student empirique).
Soit H0 :
ρ
x,y = 0 ; HA :
ρ
x,y 0
On rejette H0 (
ρ
est significativement différent de 0) au
seuil
α
(
α
= 0,05) et à N– 2 ddl, si :
Soit :
2
2
*
α
>
n
tt
( )
2
1
2,
,
*
=
n
t
yx
yx
ρ
ρ
Licence 3
2. L’estimation des paramètres par les MCO
Limites de la corrélation
La relation testée est linéaire.
Par exemple : l’équation d’un cercle donné par :
(xx)² + (yy)² = R²
Les variables xet ysont liées entre elles, mais leur
covariance est nulle,
ρ
est donc = 0.
Une corrélation différente de 0, n’implique pas une
liaison d’ordre économique (ou physique ou autre) –
corrélation fortuite.
Par exemple : nombre de taches solaires et taux de
criminalité.
Licence 3
Exercices pratiques
Calculer le coefficient de corrélation.
Liaison entre rendement de maïs (x) d’une parcelle de terre et la
quantité d’engrais (y)
Tracer le nuage de points, commenter, calculer le coefficient de
corrélation et tester sa signification (
α
= 5%)
Rendement Engrais Rendement Engrais Rendement Engrais
16 20 28 32 32 41
18 24 29 28 34 41
23 28 26 32
24 22 31 36
1 / 10 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !