econométrie appliquée avec r (part03)

publicité
ECONOMÉTRIE APPLIQUÉE
AVEC R (PART03)
R. Aloui
2015/2016
Disponible sur
https://riadhaloui.wordpress.com/
Régression Linéaire Multiple
Introduction
• La modélisation de la concentration d’ozone en fonction de
la température (chapitre 2) est relativement simpliste.
• D’autres variables météorologiques: rayonnement, la
précipitation ou encore le vent…
• Le modèle de régression multiple est une généralisation du
modèle de régression simple.
Régression Linéaire Multiple
En utilisant l’écriture matricielle, nous obtenons la définition
suivante :
Modélisation Statistique
Modélisation Statistique
Résidus et variance résiduelle
Les résidus sont définis par la relation suivante :
Un estimateur de la variance des erreurs
Un estimateur de la variance des erreurs de
Modélisation Statistique
2
Le R : plus nous augmentons le nombre de variables
explicatives, même non pertinentes, plus grande sera sa
R
valeur.
2
2
Le R ajusté:
Exemple: La pollution de l'air
• Nous expliquons les variations de l’ozone (O3) par
deux variables explicatives, la température à 12 h
(T12) et le vent (Vx).
1- Importer les données dans ozone_full.csv
2- représenter O3 en fonction de T12 et Vx.
2.1- Télécharger le package Scatterplot3d (Cran)
2.2- library(scatterplot3d)
g
Exemple: La pollution de l'air
> library("scatterplot3d")
> scatterplot3d (ozone[ ,"T12"], ozone[,"Vx"], ozone[,"O3"],
type="h", pch=16, box=FALSE, xlab="T12", ylab="Vx",
zlab="O3")
Exemple: La pollution de l'air
Soit le modèle de régression suivant:
Pour estimer les paramètres du modèle
Nous avons ajouté la variable Vx au modèle présenté dans le
chapitre 2, cet ajout est-il pertinent ?
Dummy Variable
- Une variable indicatrice D (dummy) prend les valeurs 0 ou 1.
1.
2.
3.
Utilisation:
Corriger les écarts aberrants (ou déviants) ;
Capter la présence de la discrimination ;
Capter les variations saisonnières.
- les facteurs qualitatifs : la race, le sexe, la religion ou
un événement tel qu’une guerre, une grève, un tsunami, etc.
Dummy Variable
Exemple:
Il y’a un écart criant au 13 février!!!
- Tracer le nuage du point
- Estimer les coefficients de la droite y=ax+b. Ajouter la droite au
même graphique précédant.
- Les paramètres de la regression sont-ils significatifs? Interpréter
la valeur du coefficient de détermination.
5
y
10
15
Dummy Variable
5
6
7
8
x
9
10
Dummy Variable
- la valeur aberrante (outliers) a complètement perturbé
l’estimation.
- Solution: variable Dummy!
- Créer la variable D.
- Estimer le modèle
- Les paramètres sont-ils significatifs?
Saisonnalité
- Une entreprise cherche à appréhender une relation entre ses
ventes et ses dépenses publicitaires. Le directeur du marketing
dispose des données de ventes et de dépenses publicitaires sur 5
ans par trimestre.
Saisonnalité
- Le directeur du marketing commence par estimer la relation :
- Tracer le graphique de la série des ventes et de la publicité dans
le même graphique, que pouvez-vous en conclure ?
- Spécifier et estimer le modèle adéquat.
Saisonnalité
 Mouvement saisonnier T3 (Ventes).
The 1988 Population Survey (CPS)
- The US Census Bureau
• CPS1988.csv (Bierens and Ginther, 2001) contains 28,155
observations: wage is the wage in dollars per week, education
and experience are measured in years, and ethnicity is a factor
with levels Caucasian ("cauc") and African-American ("afam").
The factors, smsa, region, and parttime, indicating residence in a
standard metropolitan statistical area (SMSA), the region within
the United States of America, and whether the individual works
part-time.
• Compute the mean, minimum, maximum and the median of the
data.
The 1988 Population Survey (CPS)
- The US Census Bureau
• The model of interest is
• Estimate the model using ordinary least squares (OLS),
• Are the coefficients estimates significant at 1% level?
> cps_lm <- lm(log(wage) ~ experience + I(experience^2) +
education + ethnicity, data = CPS1988)
To avoid confusion, the function I() is used so that the operator ^ has
its original arithmetic meaning.
> summary(cps_lm)
What about the variable ethnicity?
Comparison of models
l’inconvénient du R 2 : ne pas arbitrer entre la perte de degrés de
liberté du modèle et l’ajustement qui en résulte.
Comparison of models
Comparer les deux modèles suivants:
ANNEXE
Téléchargement