ECONOMÉTRIE APPLIQUÉE AVEC R (PART03) R. Aloui 2015/2016 Disponible sur https://riadhaloui.wordpress.com/ Régression Linéaire Multiple Introduction • La modélisation de la concentration d’ozone en fonction de la température (chapitre 2) est relativement simpliste. • D’autres variables météorologiques: rayonnement, la précipitation ou encore le vent… • Le modèle de régression multiple est une généralisation du modèle de régression simple. Régression Linéaire Multiple En utilisant l’écriture matricielle, nous obtenons la définition suivante : Modélisation Statistique Modélisation Statistique Résidus et variance résiduelle Les résidus sont définis par la relation suivante : Un estimateur de la variance des erreurs Un estimateur de la variance des erreurs de Modélisation Statistique 2 Le R : plus nous augmentons le nombre de variables explicatives, même non pertinentes, plus grande sera sa R valeur. 2 2 Le R ajusté: Exemple: La pollution de l'air • Nous expliquons les variations de l’ozone (O3) par deux variables explicatives, la température à 12 h (T12) et le vent (Vx). 1- Importer les données dans ozone_full.csv 2- représenter O3 en fonction de T12 et Vx. 2.1- Télécharger le package Scatterplot3d (Cran) 2.2- library(scatterplot3d) g Exemple: La pollution de l'air > library("scatterplot3d") > scatterplot3d (ozone[ ,"T12"], ozone[,"Vx"], ozone[,"O3"], type="h", pch=16, box=FALSE, xlab="T12", ylab="Vx", zlab="O3") Exemple: La pollution de l'air Soit le modèle de régression suivant: Pour estimer les paramètres du modèle Nous avons ajouté la variable Vx au modèle présenté dans le chapitre 2, cet ajout est-il pertinent ? Dummy Variable - Une variable indicatrice D (dummy) prend les valeurs 0 ou 1. 1. 2. 3. Utilisation: Corriger les écarts aberrants (ou déviants) ; Capter la présence de la discrimination ; Capter les variations saisonnières. - les facteurs qualitatifs : la race, le sexe, la religion ou un événement tel qu’une guerre, une grève, un tsunami, etc. Dummy Variable Exemple: Il y’a un écart criant au 13 février!!! - Tracer le nuage du point - Estimer les coefficients de la droite y=ax+b. Ajouter la droite au même graphique précédant. - Les paramètres de la regression sont-ils significatifs? Interpréter la valeur du coefficient de détermination. 5 y 10 15 Dummy Variable 5 6 7 8 x 9 10 Dummy Variable - la valeur aberrante (outliers) a complètement perturbé l’estimation. - Solution: variable Dummy! - Créer la variable D. - Estimer le modèle - Les paramètres sont-ils significatifs? Saisonnalité - Une entreprise cherche à appréhender une relation entre ses ventes et ses dépenses publicitaires. Le directeur du marketing dispose des données de ventes et de dépenses publicitaires sur 5 ans par trimestre. Saisonnalité - Le directeur du marketing commence par estimer la relation : - Tracer le graphique de la série des ventes et de la publicité dans le même graphique, que pouvez-vous en conclure ? - Spécifier et estimer le modèle adéquat. Saisonnalité Mouvement saisonnier T3 (Ventes). The 1988 Population Survey (CPS) - The US Census Bureau • CPS1988.csv (Bierens and Ginther, 2001) contains 28,155 observations: wage is the wage in dollars per week, education and experience are measured in years, and ethnicity is a factor with levels Caucasian ("cauc") and African-American ("afam"). The factors, smsa, region, and parttime, indicating residence in a standard metropolitan statistical area (SMSA), the region within the United States of America, and whether the individual works part-time. • Compute the mean, minimum, maximum and the median of the data. The 1988 Population Survey (CPS) - The US Census Bureau • The model of interest is • Estimate the model using ordinary least squares (OLS), • Are the coefficients estimates significant at 1% level? > cps_lm <- lm(log(wage) ~ experience + I(experience^2) + education + ethnicity, data = CPS1988) To avoid confusion, the function I() is used so that the operator ^ has its original arithmetic meaning. > summary(cps_lm) What about the variable ethnicity? Comparison of models l’inconvénient du R 2 : ne pas arbitrer entre la perte de degrés de liberté du modèle et l’ajustement qui en résulte. Comparison of models Comparer les deux modèles suivants: ANNEXE