Laboratoire d`Analyse – Recherche en Economie Quantitative

publicité
Modèles dichotomiques et Spécification linéaire
Laboratoire d’Analyse – Recherche en Economie Quantitative
One Pager
Novembre 2013
Vol. 8 – Num. 006
Copyright © Laréq 2013
http://www.lareq.com
Modèles dichotomiques et Spécification linéaire
Foura Mayemba Sasi1
« Le véritable travail, c’est de savoir attendre . . .
Je n’ai besoin de rien, mais rien ne me suffirait. »
Jean Edmond Cyrus Rostand (1894 – 1977)
Résumé
Ce papier propose une brève introduction aux modèles à variable dépendante dichotomique
(Logit et
Probit).
Mots – clé : Logit, Probit.
Abstract
This paper discusses on the dichotomous dependent variable models (Logit and Probit).
Introduction
L’une des extensions majeures de l’économétrie dans les années 60 et 70 fut incontestablement
liée à l’utilisation croissante des données microéconomiques relatives à des caractéristiques
économiques d’agents individuels tels que les firmes, les consommateurs ou les centres de profits.
Bien souvent, les données statistiques disponibles dans ces bases sont relatives à des caractères
qualitatifs comme par exemple, le sexe, la nationalité, la catégorie socio-professionnelle, le type
d’études réalisées, le fait de travailler ou au contraire d’être au chômage, d’acheter ou de ne pas
acheter un certain produit, etc. Cependant, la modélisation et l’étude des caractères quantitatifs
par les méthodes d’inférences traditionnelles ne sont pas possibles.
Ainsi, pour remédier à cette difficulté, plusieurs modèles ont été mis en œuvre. Ceux – ci sont des
extensions directes du modèle linéaire. Il s’agit notamment des modèles Logit, Probit, Tobit ou
modèles linéaires généralisés.
Et ce papier, qui est une introduction à cette nouvelle approche, se propose de présenter les
modèles dichotomiques simples, notamment les modèles Logit développés particulièrement par
Verhulst (1938, 1945, 1947), puis Berkson (1944, 1951) ; et les modèles Tobit introduits par Bliss
(1934) et Gaddum (1933).
Ainsi, dans une section première, il est question d’analyser les modèles binaires univariés, et dans
les sections deuxième et troisième, d’examiner la problématique de la spécification linéaire des
1
Je remercie Jean – Paul K. Tsasa pour ses commentaires.
Foura Mayemba Sasi
Laboratoire d’Analyse – Recherche en Economie Quantitative
61
modèles à variables endogènes dichotomiques
et de procéder à une brève présentation des
modèles logit et probit.
Les modèles binaires univariés
Les modèles binaires univariés ont été développés dans l’optique de fournir un cadre d’analyse
formel qui permettrait de modéliser le lien pouvant exister entre une variable dépendante, notées
ne prenant que deux modalités (variable dichotomique) et une variable indépendante
quelconque.
Ainsi, le modèle s’écrit :
A titre illustratif, considérons un échantillon de
individus, tel qu’on observe pour chacun d’eux le
statut socio – économique : employé salarié ou chômeur. On note par
la variable codée
associée à la nature du statut en cause.
On pose, pour
En notant
:
l’âge de l’individu
et
une variable aléatoire telle que :
et
il y a lieu d’exprimer ce problème à l’aide du modèle
Le choix retenu traditionnellement du codage
pour les modèles dichotomiques, permet de
définir en réalité la probabilité de tirer dans l’échantillon considéré l’individu qui dispose d’un
emploi rémunérateur ou non.
Ainsi, en notant :
et
alors, l’espérance de
s’écrit :
Foura Mayemba Sasi
Laboratoire d’Analyse – Recherche en Economie Quantitative
62
En vertu des axiomes de Kolmogorov1, pour tout sous - ensemble
de l’univers
représentant
toutes les éventualités possibles, on a que :

la probabilité est à support positif:
(axiome de positivité) ;

la probabilité de l’univers est de masse unitaire :

la probabilité est additive :
;
Dès lors, la modélisation des variables dichotomiques ne peut se faire par une spécification
linéaire standard, au regard de la restriction du domaine de définition des probabilités.
Problématique de la spécification linéaire des modèles dichotomiques
Comme vu précédemment, les modèles à variables dépendantes qualitatives se distinguent du
modèle linéaire classique. Ainsi, l’estimation de ce type des modèles exige la mise en œuvre des
techniques appropriées devant prendre en compte quelques spécificités et caractéristiques desdits
modèles. Si l’on se proposait d’appliquer une forme fonctionnelle linéaire, on fera face à plusieurs
difficultés techniques.
En effet, dans ces modèles, la variable endogène
Par conséquent, la spécification linéaire
,
dichotomique ne prend que les valeurs 0 ou 1.
implique que la perturbation
prendre que deux valeurs, conditionnellement au vecteur
Pour
et pour
l’équation
ne devra également
:
s’écrit :
l’équation
Ainsi, la perturbation
:
du modèle
doit nécessairement admettre une loi discrète, ce qui
exclurait en particulier l’hypothèse de normalité des résidus !
Par ailleurs, lorsque l’on suppose que les résidus
associée à l’événement
sont de moyenne nulle, la probabilité
est alors déterminée de façon unique :
Une simple manipulation algébrique donne le complément à l’unité de l’expression
où la composante
1
:
est telle que :
Andreï Nikolaïevitch Kolmogorov (1903 – 1987), mathématicien russe, qui fut le premier à établir une
connexion entre la théorie de la mesure de Borel, la théorie de l’intégration de Lebesgue et les probabilités, et
proposa ainsi un ensemble d’axiomes qui permit la formalisation de l’étude des probabilités en une ‘théorie
mathématique’.
Foura Mayemba Sasi
Laboratoire d’Analyse – Recherche en Economie Quantitative
63
Cependant, rien ne garantie que la partie
satisfait toujours telles conditions, avec
estimateur des moindres carrés appliqués dans
alors que l’équation définie en
est un
n’aurait
aucun sens si ces contraintes ne sont pas garanties.
Et en plus, même si l’on parvenait à assurer le fait que toutes ces contraintes soient satisfaites par
l’estimateur des moindres carrés des paramètres du modèle linéaire, il n’en demeurerait pas
moins une difficulté liée à la présence d’hétéroscédasticité. En effet, il convient de remarquer la
matrice de variance covariance des résidus varie entre les individus en fonction de leur statut
associé aux exogènes
:
Pour démontrer ce résultat il suffit de considérer la loi discrète des résidus et de calculer la
variance de la variable aléatoire comme suit :
Connaissant
et
l’équation
devient :
Ce résultat justifie ainsi la présence d’hétéroscédasticité dans la variance du terme de l’erreur.
Sachant qu’une telle difficulté ne peut être résolu par l’usage d’une technique d’estimation par les
moindres carrés ordinaires, ni par les moindres carrés généralisés même si on tenait compte de la
contrainte d’inégalité, puisqu’en réalité, la matrice de variance covariance des perturbations
dépend du vecteur
des paramètres à estimer dans la spécification linéaire. Ce dernier est par
nature supposé inconnu.
Somme toute, les difficultés que présente l’application d’une forme fonctionnelle linéaire aux
modèles à variable endogène dichotomique et l’usage de la méthode des moindres carrés, ont
incité les économètres à développer des techniques appropriés pour traiter adéquatement les
différents problèmes évoqués précédemment. D’où, notamment les modèles logit et probit1.
Modèles Logit et Probit
Le modèle logit ou à régression logistique et le modèle probit permettent de modéliser les
interactions existant entre une variable dépendante dichotomique
aléatoire
et un vecteur de variables
à la seule différence, le logit utilise une fonction logistique, et le probit,
une fonction probit.
1
On distingue également d’autres types de modèles tels que les modèles linéaires, extension des modèles logit.
Foura Mayemba Sasi
Laboratoire d’Analyse – Recherche en Economie Quantitative
64
En effet, la fonction Logit a été proposée initialement par Verhulst (1838, 1845, 1847), puis
développé plus tard par le statisticien américain Joseph Berkson dans les années 1940. Elle a été
formalisée par analogie et en opposition au terme Probit, notion développée par le biologiste
américain Chester Ittner Bliss et le pharmacologue britannique John Gaddum dans les années
1930.
Le modèle logit est tel que :
et
où
est le vecteur paramétrique.
En parallèle, la fonction probit correspond à la réciproque de la fonction de la répartition de la loi
normale centrée réduite :
Et le modèle probit consiste à utiliser la fonction de répartition d’une variable normale centrée
réduite :
et
où
désigne la fonction de densité d’une loi normale centrée réduite et
sa fonction de
répartition.
Pour estimer ces modèles, on applique généralement la méthode d’estimation du maximum de
vraisemblance. Voir Togba et Tsasa (2013) pour de plus amples détails.
Somme toute, ce papier s’est proposé de mettre en évidence les difficultés qu’implique une
formalisation linéaire des modèles à variable dépendante dichotomique et leur estimation par la
méthode des moindres carrés. A ce titre, il place donc une première pierre dans l’édifice à ériger
dans les publications ultérieures dans le cadre du traitement et de l’étude des modèles à variables
qualitatives.
Foura Mayemba Sasi
Laboratoire d’Analyse – Recherche en Economie Quantitative
65
Bibliographie

BERKSON Joseph, 1944, “Application of the Logistic Function to Bio – Assay”, Journal of the
American Statistical Association, 39 (227): 357 – 65.

BERKSON Joseph, 1950, “Are There Two Regressions?”, Journal of the American Statistical
Association, 45 (250): 164 – 180.

BERKSON Joseph, 1980, “Minimum Chi – Square, Not Maximum Likelihood!”, Annals of
Mathematical Statistics, 8, 457 – 487.

BLISS Chester I., 1934a, “The method of probits”, Science, 79, 38 – 39.

BLISS Chester I., 1934b, “The method of probits”, Science, 79, 409 – 410.

BLISS Chester I., 1935, “The calculation of the dosage-mortality curve”, Annals of Applied
Biology, 22, 134 – 167. With an appendix by Ronald A. FISHER.

CRAMER Jan S., 2003, The origins and development of the logit model, Version mise à jour
du chapitre 9 du Livre Logit Models from Economics and Other Fields, Cambridge University
Press, 2003, University of Amsterdam and Tinbergen Institute, Amsterdam août), 19p.

GADDUM John H., 1933, “Reports on Biological Standard III. Methods of Biological Assay
Depending on a Quantal Response”, London: Medical Research Council. Special Report Series
of the Medical Research Council, no. 183.

GREENE William, 2001, Econométrie, 7è éd. Pearson Education, édition francophone dirigée
par Didier Schlacther, Traduction par Theophile Azomahou, Phu Nguyen Van & Wladimir
Raymond, Paris, 988p.

KINTAMBU Emmanuel – Gustave, 2007, Introduction à l’économétrie, Université de Kinshasa,
[Cf. pp. 59 – 67], p.

TOGBA Yves et Jean – Paul TSASA, 2013, « Estimation du Maximum de Vraisemblance », One
Pager Laréq (septembre), 7 (9): 65 – 70.

TSASA Jean – Paul, 2012, « Repère historique de l’économétrie », One Pager Laréq (Janvier),
1 (2): 5 – 14.

VERHULST Pierre – François, 1838, « Notice sur la Loi que la Population Poursuit dans son
Accroissement », Correspondance mathématique et physique, 10, 113 – 121.

VERHULST Pierre – François, 1845, « Recherches Mathématiques sur la Loi d'Accroissement
de la Population », Nouveaux Mémoires de l'Académie Royale des Sciences et Belles-Lettres
de Bruxelles, 18, 1 – 42.

VERHULST Pierre – François, 1847, « Deuxième Mémoire sur la loi d'Accroissement de la
Population », Mémoires de l'Académie Royale des Sciences, des Lettres et des Beaux-Arts de
Belgique, 20, 1 – 32

WOOLDRIDGE
Jeffrey
M.,
2008,
Introductory
Econometrics:
A
Modern
Approach,
International edition of 4th revised edition, South – Western, 808p.

YULE George U., 1925, “The growth of population and the factors which control it”, Journal of
the Royal Statistical Society, 138, 1 – 59.
Foura Mayemba Sasi
Laboratoire d’Analyse – Recherche en Economie Quantitative
66
Téléchargement