Modèles dichotomiques et Spécification linéaire Laboratoire d’Analyse – Recherche en Economie Quantitative One Pager Novembre 2013 Vol. 8 – Num. 006 Copyright © Laréq 2013 http://www.lareq.com Modèles dichotomiques et Spécification linéaire Foura Mayemba Sasi1 « Le véritable travail, c’est de savoir attendre . . . Je n’ai besoin de rien, mais rien ne me suffirait. » Jean Edmond Cyrus Rostand (1894 – 1977) Résumé Ce papier propose une brève introduction aux modèles à variable dépendante dichotomique (Logit et Probit). Mots – clé : Logit, Probit. Abstract This paper discusses on the dichotomous dependent variable models (Logit and Probit). Introduction L’une des extensions majeures de l’économétrie dans les années 60 et 70 fut incontestablement liée à l’utilisation croissante des données microéconomiques relatives à des caractéristiques économiques d’agents individuels tels que les firmes, les consommateurs ou les centres de profits. Bien souvent, les données statistiques disponibles dans ces bases sont relatives à des caractères qualitatifs comme par exemple, le sexe, la nationalité, la catégorie socio-professionnelle, le type d’études réalisées, le fait de travailler ou au contraire d’être au chômage, d’acheter ou de ne pas acheter un certain produit, etc. Cependant, la modélisation et l’étude des caractères quantitatifs par les méthodes d’inférences traditionnelles ne sont pas possibles. Ainsi, pour remédier à cette difficulté, plusieurs modèles ont été mis en œuvre. Ceux – ci sont des extensions directes du modèle linéaire. Il s’agit notamment des modèles Logit, Probit, Tobit ou modèles linéaires généralisés. Et ce papier, qui est une introduction à cette nouvelle approche, se propose de présenter les modèles dichotomiques simples, notamment les modèles Logit développés particulièrement par Verhulst (1938, 1945, 1947), puis Berkson (1944, 1951) ; et les modèles Tobit introduits par Bliss (1934) et Gaddum (1933). Ainsi, dans une section première, il est question d’analyser les modèles binaires univariés, et dans les sections deuxième et troisième, d’examiner la problématique de la spécification linéaire des 1 Je remercie Jean – Paul K. Tsasa pour ses commentaires. Foura Mayemba Sasi Laboratoire d’Analyse – Recherche en Economie Quantitative 61 modèles à variables endogènes dichotomiques et de procéder à une brève présentation des modèles logit et probit. Les modèles binaires univariés Les modèles binaires univariés ont été développés dans l’optique de fournir un cadre d’analyse formel qui permettrait de modéliser le lien pouvant exister entre une variable dépendante, notées ne prenant que deux modalités (variable dichotomique) et une variable indépendante quelconque. Ainsi, le modèle s’écrit : A titre illustratif, considérons un échantillon de individus, tel qu’on observe pour chacun d’eux le statut socio – économique : employé salarié ou chômeur. On note par la variable codée associée à la nature du statut en cause. On pose, pour En notant : l’âge de l’individu et une variable aléatoire telle que : et il y a lieu d’exprimer ce problème à l’aide du modèle Le choix retenu traditionnellement du codage pour les modèles dichotomiques, permet de définir en réalité la probabilité de tirer dans l’échantillon considéré l’individu qui dispose d’un emploi rémunérateur ou non. Ainsi, en notant : et alors, l’espérance de s’écrit : Foura Mayemba Sasi Laboratoire d’Analyse – Recherche en Economie Quantitative 62 En vertu des axiomes de Kolmogorov1, pour tout sous - ensemble de l’univers représentant toutes les éventualités possibles, on a que : la probabilité est à support positif: (axiome de positivité) ; la probabilité de l’univers est de masse unitaire : la probabilité est additive : ; Dès lors, la modélisation des variables dichotomiques ne peut se faire par une spécification linéaire standard, au regard de la restriction du domaine de définition des probabilités. Problématique de la spécification linéaire des modèles dichotomiques Comme vu précédemment, les modèles à variables dépendantes qualitatives se distinguent du modèle linéaire classique. Ainsi, l’estimation de ce type des modèles exige la mise en œuvre des techniques appropriées devant prendre en compte quelques spécificités et caractéristiques desdits modèles. Si l’on se proposait d’appliquer une forme fonctionnelle linéaire, on fera face à plusieurs difficultés techniques. En effet, dans ces modèles, la variable endogène Par conséquent, la spécification linéaire , dichotomique ne prend que les valeurs 0 ou 1. implique que la perturbation prendre que deux valeurs, conditionnellement au vecteur Pour et pour l’équation ne devra également : s’écrit : l’équation Ainsi, la perturbation : du modèle doit nécessairement admettre une loi discrète, ce qui exclurait en particulier l’hypothèse de normalité des résidus ! Par ailleurs, lorsque l’on suppose que les résidus associée à l’événement sont de moyenne nulle, la probabilité est alors déterminée de façon unique : Une simple manipulation algébrique donne le complément à l’unité de l’expression où la composante 1 : est telle que : Andreï Nikolaïevitch Kolmogorov (1903 – 1987), mathématicien russe, qui fut le premier à établir une connexion entre la théorie de la mesure de Borel, la théorie de l’intégration de Lebesgue et les probabilités, et proposa ainsi un ensemble d’axiomes qui permit la formalisation de l’étude des probabilités en une ‘théorie mathématique’. Foura Mayemba Sasi Laboratoire d’Analyse – Recherche en Economie Quantitative 63 Cependant, rien ne garantie que la partie satisfait toujours telles conditions, avec estimateur des moindres carrés appliqués dans alors que l’équation définie en est un n’aurait aucun sens si ces contraintes ne sont pas garanties. Et en plus, même si l’on parvenait à assurer le fait que toutes ces contraintes soient satisfaites par l’estimateur des moindres carrés des paramètres du modèle linéaire, il n’en demeurerait pas moins une difficulté liée à la présence d’hétéroscédasticité. En effet, il convient de remarquer la matrice de variance covariance des résidus varie entre les individus en fonction de leur statut associé aux exogènes : Pour démontrer ce résultat il suffit de considérer la loi discrète des résidus et de calculer la variance de la variable aléatoire comme suit : Connaissant et l’équation devient : Ce résultat justifie ainsi la présence d’hétéroscédasticité dans la variance du terme de l’erreur. Sachant qu’une telle difficulté ne peut être résolu par l’usage d’une technique d’estimation par les moindres carrés ordinaires, ni par les moindres carrés généralisés même si on tenait compte de la contrainte d’inégalité, puisqu’en réalité, la matrice de variance covariance des perturbations dépend du vecteur des paramètres à estimer dans la spécification linéaire. Ce dernier est par nature supposé inconnu. Somme toute, les difficultés que présente l’application d’une forme fonctionnelle linéaire aux modèles à variable endogène dichotomique et l’usage de la méthode des moindres carrés, ont incité les économètres à développer des techniques appropriés pour traiter adéquatement les différents problèmes évoqués précédemment. D’où, notamment les modèles logit et probit1. Modèles Logit et Probit Le modèle logit ou à régression logistique et le modèle probit permettent de modéliser les interactions existant entre une variable dépendante dichotomique aléatoire et un vecteur de variables à la seule différence, le logit utilise une fonction logistique, et le probit, une fonction probit. 1 On distingue également d’autres types de modèles tels que les modèles linéaires, extension des modèles logit. Foura Mayemba Sasi Laboratoire d’Analyse – Recherche en Economie Quantitative 64 En effet, la fonction Logit a été proposée initialement par Verhulst (1838, 1845, 1847), puis développé plus tard par le statisticien américain Joseph Berkson dans les années 1940. Elle a été formalisée par analogie et en opposition au terme Probit, notion développée par le biologiste américain Chester Ittner Bliss et le pharmacologue britannique John Gaddum dans les années 1930. Le modèle logit est tel que : et où est le vecteur paramétrique. En parallèle, la fonction probit correspond à la réciproque de la fonction de la répartition de la loi normale centrée réduite : Et le modèle probit consiste à utiliser la fonction de répartition d’une variable normale centrée réduite : et où désigne la fonction de densité d’une loi normale centrée réduite et sa fonction de répartition. Pour estimer ces modèles, on applique généralement la méthode d’estimation du maximum de vraisemblance. Voir Togba et Tsasa (2013) pour de plus amples détails. Somme toute, ce papier s’est proposé de mettre en évidence les difficultés qu’implique une formalisation linéaire des modèles à variable dépendante dichotomique et leur estimation par la méthode des moindres carrés. A ce titre, il place donc une première pierre dans l’édifice à ériger dans les publications ultérieures dans le cadre du traitement et de l’étude des modèles à variables qualitatives. Foura Mayemba Sasi Laboratoire d’Analyse – Recherche en Economie Quantitative 65 Bibliographie BERKSON Joseph, 1944, “Application of the Logistic Function to Bio – Assay”, Journal of the American Statistical Association, 39 (227): 357 – 65. BERKSON Joseph, 1950, “Are There Two Regressions?”, Journal of the American Statistical Association, 45 (250): 164 – 180. BERKSON Joseph, 1980, “Minimum Chi – Square, Not Maximum Likelihood!”, Annals of Mathematical Statistics, 8, 457 – 487. BLISS Chester I., 1934a, “The method of probits”, Science, 79, 38 – 39. BLISS Chester I., 1934b, “The method of probits”, Science, 79, 409 – 410. BLISS Chester I., 1935, “The calculation of the dosage-mortality curve”, Annals of Applied Biology, 22, 134 – 167. With an appendix by Ronald A. FISHER. CRAMER Jan S., 2003, The origins and development of the logit model, Version mise à jour du chapitre 9 du Livre Logit Models from Economics and Other Fields, Cambridge University Press, 2003, University of Amsterdam and Tinbergen Institute, Amsterdam août), 19p. GADDUM John H., 1933, “Reports on Biological Standard III. Methods of Biological Assay Depending on a Quantal Response”, London: Medical Research Council. Special Report Series of the Medical Research Council, no. 183. GREENE William, 2001, Econométrie, 7è éd. Pearson Education, édition francophone dirigée par Didier Schlacther, Traduction par Theophile Azomahou, Phu Nguyen Van & Wladimir Raymond, Paris, 988p. KINTAMBU Emmanuel – Gustave, 2007, Introduction à l’économétrie, Université de Kinshasa, [Cf. pp. 59 – 67], p. TOGBA Yves et Jean – Paul TSASA, 2013, « Estimation du Maximum de Vraisemblance », One Pager Laréq (septembre), 7 (9): 65 – 70. TSASA Jean – Paul, 2012, « Repère historique de l’économétrie », One Pager Laréq (Janvier), 1 (2): 5 – 14. VERHULST Pierre – François, 1838, « Notice sur la Loi que la Population Poursuit dans son Accroissement », Correspondance mathématique et physique, 10, 113 – 121. VERHULST Pierre – François, 1845, « Recherches Mathématiques sur la Loi d'Accroissement de la Population », Nouveaux Mémoires de l'Académie Royale des Sciences et Belles-Lettres de Bruxelles, 18, 1 – 42. VERHULST Pierre – François, 1847, « Deuxième Mémoire sur la loi d'Accroissement de la Population », Mémoires de l'Académie Royale des Sciences, des Lettres et des Beaux-Arts de Belgique, 20, 1 – 32 WOOLDRIDGE Jeffrey M., 2008, Introductory Econometrics: A Modern Approach, International edition of 4th revised edition, South – Western, 808p. YULE George U., 1925, “The growth of population and the factors which control it”, Journal of the Royal Statistical Society, 138, 1 – 59. Foura Mayemba Sasi Laboratoire d’Analyse – Recherche en Economie Quantitative 66