Ricco Rakotomalala [email protected] Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 1 PLAN 1. Econométrie : Origine(s), définition(s) et objectif(s) 2. La démarche économétrique 3. Analyse de régression – L’hypothèse de linéarité 4. Domaines d’application 5. Types de données 6. Bibliographie Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 2 Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 3 Quelques définitions Définition 1. 1. Etudes des relations quantitatives de la vie économique faisant appel à l’analyse statistique et à la formulation mathématique. Définition 2. 2. L'économétrie exprime quantitativement les corrélations pouvant exister entre des phénomènes économiques dont la théorie affirme l'existence. La théorie économique fournit des idées sur les processus qui déterminent les grandeurs économiques, l'économétrie apporte une vérification empirique et établit quantitativement les corrélations qui apparaissent valides. Définition 3. 3. L’objectif de l’économétrie est de confronter un modèle économique à un ensemble de données (données de panel, série temporelle, etc.) et ainsi d’en vérifier la validité. Définition 4. 4. L’économétrie est une branche de l’économie qui traite de l’estimation pratique des relations économiques. Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 4 Carrefour de 3 disciplines Economiste (Expert du domaine) Exprime une théorie sur un phénomène économique Ex. La demande dépend du prix Mathématicien (Modélisation) Propose une formulation algébrique de la théorie. Ex. Demande = a * prix + b Statisticien (Estimation) Estime les paramètres du modèle à partir de données. Validation statistique. Ex. a = -0.5 ; b = 10 Sous le contrôle de l’Economiste Validation de l’Expert du domaine (ex. a est forcément négatif) Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 5 Notions clés – Modèle Economique Un modèle consiste en une présentation formalisée d’un phénomène sous forme d’équations mathématiques. Comme toutes les variables économiques sont interdépendantes (notion de système), il n'est pas suffisant de construire des équations isolées : il faut établir un système complet d'équations. Exemple : O = f ( p) D = g ( p) O = D+∆ Equations de comportement. Théorie économique Identité O = a× p +b D =α × p+β Modélisation (Introduction d’hypothèses simplificatrices sur la forme de la relation) Estimation de a, b, α et β à partir des données disponibles Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 6 Notions clés – Modèle Econométrique Faire intervenir l’aléatoire dans l’équation économique. Parce que la relation n’est pas déterministe. La spécification retenue est une simplification, il est évident qu’il ne résume pas toute la teneur de la relation (ex. dans les équations, la relation est vraiment linéaire ?) Il y a d’autres facteurs dont on ne tient pas compte (ex. le prix des autres de biens qui peuvent se substituer au bien étudié) Les erreurs de mesure sur les grandeurs étudiées, soit lors du processus de récolte des informations, soit tout simplement parce que la donnée récoltée représente peu ou prou le concept que l’on veut étudier. Introduction du facteur « aléatoire » Résumé de toute l’information non prise en compte dans le modèle Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC O = a × p + b + εO D =α × p + β +εD 7 Notions clés – Variable Les variables représentent des grandeurs économiques observées ou mesurées. Ex. les quantités vendues d’un bien, le prix d’un bien, des taux d’intérêt, le solde d’une balance commerciale, le taux de change, etc. La variable doit être représentative du phénomène que l’on étudie, de sa qualité dépend la validité des résultats obtenus Problèmes d’inadéquation (étudier les ventes de pain, et utiliser des données mesurant les ventes de biscottes) Problèmes sur les variables Erreur de mesures (problèmes lors du recueil des données ou des transmissions des données), d’unités (compter en nombre de pain vendu, ou en chiffre d’affaires) Problème de représentativité (mesurer uniquement des ventes des boulangeries, et ne pas tenir compte des ventes en grande surface) Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 8 Notions clés – Variable aléatoire Une variable aléatoire est une grandeur mesurable dont les valeurs sont soumises à une certaine dispersion lors de la répétition d’un processus donné. La dispersion d’une variable aléatoire est régie par une loi de probabilité . Ex. le résultat du jet d’une pièce de monnaie est une variable aléatoire, il prend deux valeurs possibles « pile » ou « face », il suit une loi de Bernouilli de paramètre p = 0.5. Remarque : à chaque phénomène étudié sa loi de probabilité. Ex. Durée entre deux phénomènes, nombre d’occurrence d’un phénomène dans un laps de temps, nombre d’essais avant d’obtenir un résultat, etc. Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 9 Notions clés – Types de variables Quantitative Qualitative nominale Qualitative ordinale Success Wages Job Y 0 Unemployed N 2000 Skilled Worker N 1400 Worker N 1573 Retired Y 2776 Skilled Worker N 2439 Retired N 862 Office employee Y 1400 Salesman N 1700 Skilled Worker Y 785 Employee Y 1274 Worker N 960 Employee N 1656 Worker N 0 Unemployed Refunding Slow Slow Slow Slow Slow Fast Slow Slow Slow Fast Slow Fast Fast Slow Le critère le plus important pour distinguer les variables est de déterminer si l’écart entre deux valeurs a un sens, et qu’elles sont comparables deux à deux. Ex. Age, Salaires, Satisfaction, Type d’études suivies,… Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 10 Notions clés – Population et échantillon La population définit l’ensemble d’individus sur lesquels nous voulons travailler : on parle alors de population de référence ou de population parente ou population mère (ex. les véhicules vendus en France en 2005, etc.). Tous les résultats obtenus sont toujours relatifs à (circonscrites à) une population. Les enquêtes exhaustives consiste à observer tous les individus qui composent la population. Opération très coûteuse. On procède alors à un échantillonnage, on prélève une fraction de la population en veillant à ce qu’il soit représentatif de la population c.-à.-d refléter la composition et la complexité de la population. Le taux de sondage correspond au rapport entre la taille de l’échantillon et la taille de la population. Attention au mauvais échantillonnage. Comment s’assurer que l’échantillon est représentatif ? Rôle des variables de contrôle. Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 11 Notions clés – Inférence statistique Inférence statistique.. Elle consiste alors à effectuer des études sur l’échantillon et transposer les résultats sur la population. Cette transposition n’est pas stricte, elle attache toujours une probabilité aux résultats et aux conclusions émises. Tirer des conclusions sur l’existence ou non d’un phénomène (test d’hypothèses – ex. l’augmentation du prix du tabac réduit-t-il vraiment la consommation de cigarettes ?) Estimer les paramètres d’un phénomène (estimation de paramètres – ex. une augmentation de 1 euro du prix du paquet de cigarette réduit de combien le nombre de paquets vendus ?) Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 12 Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 13 Attention : Distinguer ce qui relève de la simple régularité statistique (artefact) de ce qui représente une causalité économique. La théorie économique (la connaissance du domaine) est un gardegarde-fou indispensable. Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 14 Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 15 Source: CRISP-DM 1.0, Step-by-step Data Mining Guide, SPSS Publication Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 16 Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 17 Analyse de régression – Schéma de régression Modèle à une équation : Y = f ( X 1 , X 2 ,K , X p ) + ε Prédiction / Explication : Prédire/expliquer les valeurs de Y à partir des valeurs de X1, X2, …, Xp. Y est dite « variable endogène », c’est la variable donc on essaie de prédire les valeurs (variable à prédire, variable dépendante, expliquée) ; X1…Xp sont les « variables exogènes », ce sont les variables qui servent à prédire les valeurs de Y (variables prédictives, variables indépendantes, explicatives). Les valeurs des X sont donc connues (ou mesurées rapidement, facilement), elles servent à prédire les valeurs des Y qui sont inconnues (ou connues avec retard). Ex 1. Prédire les ventes nationales de pain sur l’année (connu uniquement à la fin de l’année) à partir de son prix (connu instantanément). Ex 2. Expliquer la consommation des pays européens à partir du revenu et du taux de chômage. Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 18 Régression linéaire multiple Le modèle parfait n’existe pas. On procède très souvent à une simplification supplémentaire en considérant que la liaison est linéaire, ou encore on procède à des transformations (de variables) de manière à se ramener à combinaison linéaire des variables exogènes. Il faut pouvoir estimer les paramètres, il faut pouvoir les interpréter !!! Y = a 0 + a1 X 1 + a 2 X 2 + K + a p X p + ε Y quantitative (forcément). X quantitative ou qualitative recodée (0/1). ε est le terme d’erreur. C’est une variable aléatoire. Elle résume tout ce que le modèle n’explique pas. X est supposé non aléatoire. Y est aléatoire à cause de ε. Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 19 Linéarité par rapport aux paramètres Y = a0 + a1 ln( X 1 ) + a2 X 1 + a3 X 12 Y= α 0 + α1 X 1 β 0 + β1 X 2 Y = b × e aX ln(Y ) = ln(b) + aX C’est un modèle linéaire. Cf. Transformation de variables. Ce n’est pas un modèle linéaire. Linéaire après transformation. Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 20 Evaluation de la régression linéaire Quel est le pouvoir explicatif du modèle ? Est-ce la liaison découverte entre Y et les X est significative ? (c.-à-d. transposable dans la population et non pas propre à l’échantillon observé) Quel est l’apport marginal de chaque variable X dans l’explication des valeurs de Y ? (c.-à-d. un paramètre est-il significativement différent de 0 ?) Quelle sont les propriétés (notamment la précision) des paramètres « a » obtenus ? (biais, variance) Quelle sera la qualité de la prédiction des valeurs de Y à partir des valeurs de X ? (intervalle de prédiction, fourchettes) Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 21 Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 22 Usage de la régression linéaire L’explication.. Comprendre la nature des liaisons entre les variables. On parle également d’analyse analyse structurelle. structurelle Outil privilégié pour valider les théories émises par les économistes. Ex. consommation = a * revenu + b : b > 0 , c’est la consommation incompressible, a est positif et sûrement inférieur à 1, [1-a] correspond alors au taux d’épargne des ménages) La prédiction.. Premier usage opérationnel de la régression. Pour l’anticipation et la prise de décision. Ex. La consommation des ménages va augmenter l’année prochaine ? La simulation et la définition des politiques économiques.. Second usage opérationnel de la régression. Permet de définir (1) les bonnes politiques économiques et (2) d’en mesurer à l’avance les conséquences. Ex. Fixer la bonne valeur de la « prime à la casse ». Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 23 Autres domaines d’application Tous les domaines où on essaie de détecter des relations de causalité Economiste ⇔ Expert du domaine Marketing. Evaluer le budget publicitaire nécessaire à une augmentation significative des ventes. Sociologie.. Prédire le niveau des notes des étudiants à partir de leur âge ou du nombre de redoublements. Expliquer le niveau d’études atteint par les étudiants à partir de la profession et des revenus des parents… Agriculture.. Evaluer les rendements des parcelles de terrains à partir de la quantité d’engrais utilisés ou du nombre de jours de pluie dans l’année. Ecologie.. Estimer la mortalité des poissons à partir de la quantité de résidus rejetés par les usines dans les cours d’eau. Santé. Evaluer l’influence des compléments alimentaires sur la fréquence des maladies cardio-vasculaires (cf. par exemple les oméga 3 et les maladies cardiovasculaires). Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 24 Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 25 Recueil des données Problème récurrent : le manque de données pertinentes. Ex. Analyse des processus de blanchiment d’argent Données brutes vs. données corrigés normalisées Données brutes : recueillies directement sur le terrain, très bonne qualité si précautions de recueil prises. Données corrigées (institut de sondages) : + normalisation des définitions ; - déjà manipulées et corrigées, attention. Données expérimentales vs. données non-expérimentales Données expérimentales : contrôlées dans une expérimentation (ex. doses de médicaments pour un cobaye). Données non expérimentales : directement observées. X peut être expérimental ; Y est toujours observé. Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 26 Données transversales, longitudinales, de panel Coupes transversales Ligne = individu Ex. Personne, véhicule, client, parcelle de terrain, etc. Parcelle A B C D E F G H I J Rendement (quintal) 16 18 23 24 28 29 26 31 32 34 Engrais (kilo) 20 24 28 22 32 28 32 36 41 41 Mois CA (K-euros) Prospectus distribués 1250 156 1456 178 4863 293 Données temporelles (longitudinales) Ligne = date « Stock », définie sur une date « Flux » définie sur une période Stock Flux facile (ex. somme, moyenne) Flux Stock pas évident (Mars = 5000 euros de CA, comment définir la valeur pour la date du 15 mars ?) Données de panel Faire des coupes transversales sur plusieurs dates. Si on observe spécifiquement les mêmes individus, on parle de « cohorte ». Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC janv-04 févr-04 mars-04 Ex. Recueillir les ventes d’un échantillon de concessionnaires. Renouveler l’opération sur plusieurs mois. 27 Bibliographique http://eric.univ-lyon2.fr/~ricco/cours/cours_econometrie.html Régis BOURBONNAIS, « Econométrie – Manuel et exercices corrigés », Dunod, 1998. Y.Dodge, V.Rousson, « Analyse de régression appliquée », Dunod, 2004. M. Tenenhaus, « Statistique : Méthodes pour décrire, expliquer et prévoir », Dunod, 2007. René GIRAUD, Nicole CHAIX, « Econométrie », PUF, 1994. (il existe une version QSJ, plus accessible) Jack JOHNSTON, John DINARDO, « Méthodes économétriques », ECONOMICA, 1997. Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC 28