Les méthodes d’analyse empiriques Principales questions: Pourquoi utiliser l’analyse empirique? Quelles sont les méthodes utilisées? Comment établit-on les relations de cause à effet? Pourquoi utiliser l’analyse empirique? Axiomatisation, formalisation, mathématisation Beaud Michel, Dostaler Gilles, La pensée économique depuis Keynes; Collection Points Seuil, Ed. Seuil, 1996 Axiomatisation: se doter d’hypothèses comportementales initiales (simplification) Formalisation: adopter une représentation symbolique des relations entre les variables choisies. Mathématisation: L’axiomatisation et la formalisation sont représentés dans un cadre mathématique. Pourquoi utiliser l’analyse empirique? La mathématique économique Recherche des lois naturelles qui gouvernent la production et la répartition des richesses. Méthode hypothético-déductive, synthétisée sous forme de relations mathématiques. Forte analogie avec la physique newtonienne au départ (révolution marginaliste et théorie de l’équilibre partiel) Pourquoi utiliser l’analyse empirique? Econométrie: Rencontre entre la statistique économique, la théorie économique et la mathématique économique. C’est l’étude du lien entre la théorie et les observations par une égalité mathématique. Manière de tester les hypothèses et prédictions de la théorie économique. Pourquoi utiliser l’analyse empirique? Questions soulevées par ce texte: 1. L’économie n’est-elle devenue qu’une méthode ? 2. Peut-on se passer de théorie économique ? La méthode des moindres carrés La plus ancienne et la plus simple méthode de régression linéaire Sous certaines conditions, c’est aussi la meilleure méthode de régression linéaire Ces conditions seront mentionnées plus loin Elle sert de base à de nombreuses méthodes plus modernes C’est donc un point de départ essentiel La méthode des moindres carrés Obs Exemple simple: vous observez les différents niveaux de demande D existant sur un marché pour chaque niveau des prix P. 1 2 3 4 5 6 7 8 9 10 11 P 0,5 0,8 1,1 1,4 1,7 2 2,3 2,6 2,9 3,2 3,5 D 6,54 5,06 6,22 3,51 5,40 2,67 4,43 2,91 3,39 2,53 2,66 La méthode des moindres carrés 7,00 Vous construisez un graphique avec ces données. On voit une relation négative entre quantité demandée et prix Comment déterminer cette relation? Demande 6,00 5,00 4,00 3,00 2,00 0 0,5 1 1,5 2 Prix 2,5 3 3,5 4 La méthode des moindres carrés 7,00 Postulons une relation du type: D = a + b.P (b négatif) Problème: quelle sont les paramètres a et b qui expliquent le mieux les données? Demande 6,00 5,00 Ceux-ci? D = a1 + b1.P 4,00 Ceux-ci? D = a2 + b2.P 3,00 2,00 0 0,5 1 1,5 2 Prix 2,5 3 3,5 4 La méthode des moindres carrés Pour simplifier, regardons les 3 premiers points seulement. Quel critère objectif peut-on utiliser pour trouver la « meilleure » relation? Une bonne idée de départ: minimiser l’erreur ε pour chaque observation ! 7,00 Demande ε1 ε3 6,00 ε2 5,00 4,00 0,4 0,6 0,8 Prix 1 1,2 ε = Yobs – Ycalc La méthode des moindres carrés 7,00 Mais attention! Pour le deuxième point, Ycalc > Yobs L’erreur au point 2 est négative. Yobs – Ycalc < 0 Demande ε1 ε3 6,00 Mathématiquement, cela implique que l’erreur au point deux est inferieure à celle des points 1 et 3. Ce n’est visiblement pas le cas dans notre exemple! Notre mesure de « l’erreur » est incomplète… ε2 5,00 4,00 0,4 0,6 0,8 Prix 1 1,2 La méthode des moindres carrés 18 16 Même contribution ! 14 12 Pour résoudre ce problème, on minimise plutôt le carré de l’erreur: (Yobs – Ycalc )2 10 8 6 Propriété de cette fonction: (x)2 = (-x) 2 4 2 0 -4 -3 -2 ε négatif -1 0 1 2 3 ε positif 4 Ainsi, peu importe si: Yobs > Ycalc ou Yobs < Ycalc L’erreur est traitée de la même manière! La méthode des moindres carrés En résumé: Avec des variables observées ici, notre tableau de données Avec une hypothèse sur la relation entre ces variables Ici, la relation D = a + b.P La méthode des moindres carrés trouve les paramètres a* et b* qui minimisent la somme des différences au carré (ε)2 dans l’équation D = a* + b*.P + ε Attention toutefois: les paramètres a* et b* ne sont que des estimations des « vrais » paramètres a et b. La méthode des moindres carrés Pour notre exemple: 7,00 a* = 6.55 b* = -1.22 R2 = 0.67 6,00 Demande « Vrais » paramètres: 5,00 a=6 b = -1.8 4,00 3,00 2,00 0 0,5 1 1,5 2 Prix 2,5 3 3,5 4 La méthode des moindres carrés De quoi dépend la qualité des estimations a* et b* ? Du nombre d’observations: en général, plus il est grand, plus l’estimation est fiable. De la qualité des données: problèmes de données manquantes, variables inobservables, erreurs de mesure, biais de d’échantillonnage, etc. De la qualité de l’hypothèse sur la relation entre ces variables; il faut que la relation postulée reflète le mécanisme économique qui génère les observations. Par exemple, notre relation D = a + b.P régresse la demande sur les prix, mais oublie les revenus R. D = a + b.P + c.R serait ainsi une meilleure hypothèse de départ. Autre problème : il faut que les variables indépendantes soient exogènes. C’est souvent problématique en économie Questions méthodologiques des MCO La causalité Les séries temporelles La causalité de Granger Les variables instrumentales Groupes de contrôle et extensions La Causalité Pour l’instant, dans notre exemple, nous n’avons pas établit de causalité, juste une corrélation entre variables Corrélation: variation concomitante entre D et P (coefficient de corrélation) Causalité: les variations de P causent les variations de D Déterminer des liens de causalité entre variables est un but central de l’analyse empirique économique Détecter une causalité, c’est détecter une loi qui permet de faire des prédictions. Séries temporelles Réécrivons l’équation de l’exemple précédent : Dt = a + b.Pt + εt Les index t indiquent une variable qui change avec le temps: les observations représentent une variation dans le temps. Par exemple, si les données sont annuelles, et on choisit t = 2007 Alors, t-1 = 2006, t-2 = 2005, t+1 = 2006, etc. Modifions l’équation : Dt = a + b.Pt-1 + εt La Causalité de Granger Equation Dt = a + b.Pt + c.Dt-1 + d.Pt-1 + εt L’hypothèse qui est faite est que la demande a l’année t dépend de l’état du marché l’année précédente (Dt-1 , Pt-1 ). Les variables sont « retardées » Si la présence de Pt-1 réduit significativement les erreurs εt, alors, on conclut que les changements de P « causent » les changements de D. Ce n’est cependant pas une causalité au sens commun. On parle plutôt de « précédence ». Les variables instrumentales Dans notre exemple on a: Dt = a + b.Pt + εt Hypothèse de départ: D = f(P) Attention! On s’attend aussi a trouver: P = g(D) Si la demande change, les prix devraient varier La variable P n’est pas indépendante de D, elles sont déterminées simultanément. Les variables instrumentales Cette simultanéité pose problème dans le cadre des moindres carrés Voir précédemment: les estimations a* et b* ne refléteront pas les « véritables » valeurs a et b Pour corriger ce problème, on remplace la variable P par une variable instrumentale I: I est corrélée avec P I n’est pas corrélée avec D (à travers l’erreur ε) Exemple d’utilisation d’une variable instrumentale L’analyse de Levitt (1997): Quel est l’effet des recrutements de policiers sur nombre de crimes? Hypothèse: recruter plus de policiers devrait réduire le nombres d’actes criminels Problème: le nombre de policiers dans un endroit n’est pas indépendant du nombres de crimes commis à cet endroit! Levitt (1997) utilise donc le calendrier des élections municipales comme variable instrumentale Le calendrier est corrélé avec le nombre de policiers car la police a tendance à recruter les années d’élections. Le calendrier des élections n’est bien sûr pas corrélé avec les statistiques criminelles Ceci lui permet de corriger le problème de la simultanéité! Les expériences naturelles Quelles autres méthodes peut on utiliser dans l’analyse empirique? Comment utiliser toutes ces méthodes pour évaluer la politique économique ? Les expériences naturelles Contrairement à d’autres sciences, il est difficile pour des économistes de conduire directement des expériences. Exemple de « l’effet Hawthorne » Série d’expériences (1924-1927) à la Western Electric pour détecter les déterminants de la productivité des travailleurs, en particulier le niveau d’illumination. Résultat: la productivité augmente même dans le groupe de contrôle! Les expériences naturelles Cependant, il existe des cas ou un choc ou un changement particulier d’une variable isolée crée une « expérience naturelle ». Ces chocs peuvent être des changements soudains de politiques publiques, des événements politiques, climatiques, etc. On peut ainsi comparer les situations avant le choc et après le choc, et déterminer l’effet de cette variable sur l’économie. Les expériences naturelles Par exemple: Changement de législation sur la durée obligatoire de la scolarité (afin d’établir le retour sur investissement d’une année à l’école Le 11 septembre 2001 et le « global cooling » La prime pour l’emploi, dont l’objectif est de créer des conditions incitatives au retour à l’emploi pour ces personnes qui n’avait guère d’incitations à y retourner Groupes de traitement Deux groupes: un groupe recevant un traitement et un groupe de contrôle Groupe de traitement: reçoit un traitement Typiquement, ce groupe reçoit une aide de l’état Cible d’une nouvelle politique (réformes des univ.) Idéalement, on voudrait comparer la « performance » du groupe traité avec sa propre performance s’il n’avait pas reçu l’aide. Or ceci n’est pas observable !!! Groupes de contrôle Deux groupes: un groupe de traitement et un groupe de contrôle Un groupe de contrôle est un groupe ayant les mêmes caractéristiques que le groupe traité mais n’est pas la cible de la politique La comparaison dans le temps des deux groupes nous permet d’établir la différence qu’a pu produire la politique Les doubles différences Les doubles différences («diff-in-diff») consiste à calculer trois différences, l’une d’entre elles étant la double différence: Comparaison temporelle (avant et après) Comparaison géographique (traités et contrôle) Comparaison à la fois temporelle et géographique Exemple La ville de Nice (mais pas la ville de Menton) met en place une aide au logement social. Quelle est l’efficacité de cette aide? Les doubles différences (DD) Menton Nice Année 1 a b Année 1 c d Chaque lettre indique le pourcentage de personnes accédant au logement social. Nombre de personnes à Menton L’effet du temps observés à Menton La différence initiale entre les deux villes La double différence : effet de la pol. de Nice a c-a b-a (d-b)-(c-a) Regression Discountinuity Design (RDD) Garder la dualité temporelle (pretest-postest) mais éviter l’utilisation d’un groupe de contrôle. Plutôt comparer des individus « malades » avec des individus sains le long d’une dimension unique mais à deux moments différents. Dimension Taux d’exportation (aides aux exportations) Dépenses de R&D (crédits impôt-recherche) RDD RDD RDD Les expériences naturelles Le ministère de l’enseignement supérieur veut donner l’autonomie de gestion aux universités. Comment évaluer l’impact d’une telle politique? Quelles sont les variables importantes? Quelles données sont disponibles? Quelle approche méthodologique utiliser? Termes à retenir Axiomatisation, formalisation, mathématisation Moindres carrés ordinaires Corrélation, Causalité Causalité de Granger, précédence Expériences naturelles Double différence (Diff-in-diff): DD Regression discontinuity design (RDD) Evaluation des politiques publiques