Tests non paramétriques de spécification pour densité

Tests non paramétriques de spécification pour
densité conditionnelle : application à des modèles de
choix discret
Mémoire
Koami Dzigbodi AMEGBLE
Maîtrise en économique
Maître ès arts (M.A.)
Québec, Canada
© Koami Dzigbodi AMEGBLE, 2015
Résumé
Dans ce travail, nous étudions la performance statistique (taille et puissance) en échantillon fini de
deux tests non paramétriques de spécification pour densité conditionnelle proposés par Fan et al.
(2006) et Li et Racine (2013). Ces tests permettent de vérifier si les probabilités conditionnelles postulées dans les modèles de choix discret (logit/probit multinomial à effets fixes ou aléatoires, estimateur de Klein et Spady (1993), etc) représentent correctement les choix observés. Par rapport aux
tests existants, cette approche a l’avantage d’offrir une forme fonctionnelle flexible alternative au modèle paramétrique lorsque ce dernier se révèle mal spécifié. Ce modèle alternatif est directement issu
de la procédure de test et il correspond au modèle non contraint obtenu par des produits de noyaux
continus et discrets. Les deux tests explorés ont une puissance en échantillon fini supérieure aux tests
existants. Cette performance accrue s’obtient en combinant une procédure bootstrap et l’utilisation de
paramètres de lissage des fonctions noyaux par validation croisée par les moindres carrés. Dans notre
application, nous parallélisons les calculs de taille et de puissance, ainsi que l’estimation des fenêtres
de lissage, sur un serveur multi-processeurs (Colosse, de Calcul Québec). Nous utilisons des routines
"Open MPI" pré-implémentées dans R. Par rapport aux simulations effectuées dans les articles originaux, nous postulons des modèles plus proches de ceux habituellement utilisés dans la recherche
appliquée (logit et probit à variance unitaire notamment). Les résultats des simulations confirment les
bonnes taille et puissance des tests en échantillon fini. Par contre, les gains additionnels de puissance
de la statistique lissée proposée par Li et Racine (2013) se révèlent négligeables dans nos simulations.
——————————
Mots clés : Bootstrap, choix discret, densité conditionnelle, Monte Carlo, produit de noyaux, puissance, taille.
iii
Table des matières
Résumé
iii
Table des matières
v
Liste des tableaux
vii
Avant-propos
ix
Introduction
1
1
3
3
2
3
Revue de littérature
1.1 Tests de spécification pour densités conditionnelles sans noyaux continus et discrets
1.2 Tests de spécification pour les densités conditionnelles avec noyaux continus et
discrets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Méthodologie d’estimation
2.1 Démarche méthodologique . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Processus de génération des données sous les hypothèses nulle et alternative
2.3 Estimation paramétrique de la densité conditionnelle . . . . . . . . . . . .
2.4 Estimation non paramétrique . . . . . . . . . . . . . . . . . . . . . . . . .
2.5 Simulations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
.
.
.
.
.
11
11
12
13
16
18
Application
3.1 Calcul de la taille et la puissance des tests sur R . . . . . . . . . . . . . . . . . .
3.2 Résultats et interprétation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
21
22
.
.
.
.
.
.
.
.
.
.
Conclusion
29
A Annexes
A.1 Lemme et théorèmes utilisés . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
31
Bibliographie
33
v
Liste des tableaux
3.1
3.2
3.3
3.4
3.5
Taille basée sur le modele H0 : y∗i = 1 + xi − zi + ui avec M=1000, B=399 et σu = 1 .
Puissance basée sur le modele DGP H1a : y∗i = 1 + xi − zi + sin(0, 5πxi ) + ui avec
M=1000, B=399 et σu = 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Puissance basée sur le modele DGP H1b : y∗i = 1 + xi − zi + xi2 + ui avec M=1000,
B=399 et σu = 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Puissance basée sur le modele DGP H1c : y∗i = 1 + xi − zi + xi ui avec M=1000, B=399
et σu = 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Fenêtres de lissage conditionnelles, DGP H1a : y∗i = 1 + xi − zi + sin(0, 5πxi ) + ui avec
M=1000, ui ∼ N(0, 1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
24
25
26
27
vii
Avant-propos
Ce travail n’aurait pu être réalisé sans l’aide de mon directeur de recherche, le Professeur Carlos
Ordás Criado, et de mon co-directeur, le Professeur Guy Lacroix. Je leur suis profondément reconnaissant pour leur assistance et leurs conseils. Je remercie le troisième lecteur de ce mémoire, Charles
Bellemare, pour sa lecture et ses remarques.
Je voudrais exprimer plus particulièrement ma gratitude au Professeur Carlos Ordás Criado pour son
apport sur les méthodes non paramétriques, ainsi que pour son généreux support financier.
Je suis reconnaissant au corps professoral du département d’économique pour l’enseignement de qualité qu’il m’a apporté.
Pour finir, je tiens à remercier mes camarades de maîtrise, mes collègues de la Chaire de Recherche
Aéroportuaire, mes amis, mes parents, ma femme ainsi que ma fille pour leurs soutiens moral et
psychologique, et enfin au Créateur de l’univers pour m’avoir accordé la vie et la santé.
ix
Introduction
Les économistes utilisent différents types de modèles pour analyser les choix de consommation des individus. Lorsque ces choix sont de nature discrète (décisions liées aux modes de transports, choix entre
différentes politiques publiques, entrée ou non sur le marché du travail), le modèle le plus couramment
utilisé est celui de l’utilité aléatoire. Cette approche impose un certain nombre de restrictions qui permettent aux économistes de relier les choix observés à des mécanismes de décision. À titre d’exemple,
les modèles classiques de choix discrets de McFadden (1974) ou Maddala (1983) postulent que les
variables explicatives constituent un indice linéaire et que la probabilité conditionnelle est logistique
ou normale (logit ou probit). Or, rien ne garantit que cette formulation ne décrit adéquatement les
choix observés, conditionnellement aux variables explicatives qui sont pertinentes du point de vue de
la théorie économique. Un mécanisme comportemental compatible avec la réalité observée est pourtant crucial pour valider les recommandations de politiques économiques et les analyses de bien-être
issues des modèles d’utilité aléatoire.
De nombreux modèles de choix discret ont été proposés afin de permettre une plus grande flexibilité
dans la fonction de probabilité et de réduire différentes sources de biais dans l’estimation. Les formulations flexibles les plus populaires sont l’estimateur semi-paramétrique de Klein et Spady (1993),
celui du score maximum de Manski (1975) ou la version lissée proposée par Horowitz (1992), les
algorithmes de Matzkin (1992, 1993) ou encore l’estimateur de Blevins et Khan (2013). Plusieurs
tests statistiques permettent de comparer des modèles paramétriques et semi-paramétriques dans ce
contexte. On trouve également dans la littérature économétrique des tests généraux de spécification
pour densités conditionnelles. Par exemple, Andrews (1988a,b, 1997) propose différentes extensions
du test de Khi-deux de Pearson et du test de Kolmogorov-Smirnov. Ces tests sont néanmoins non
constructifs, car ils n’offrent pas d’alternative satisfaisante en cas de rejet de la probabilité conditionnelle postulée. De plus, ils obligent souvent le chercheur à utiliser des estimations locales basées sur
un faible nombre d’observations, sans exploiter de manière optimale l’information se trouvant dans le
voisinage des régions peu denses du support.
De récents développements sur l’estimation non paramétrique de densités par noyau ont permis de remédier à ces déficiences. Le premier pas a été donné par le travail pionnier de Li et Racine (2003), qui
propose d’utiliser la méthode non paramétrique du noyau pour estimer de manière lisse les densités
jointes d’un mélange de variables aléatoires discrètes et continues. La principale innovation de cette
1
recherche est d’introduire des noyaux discrets lissés, qui permettent d’estimer la probabilité jointe
sans réduire en sous-échantillons le support de la distribution. Cette méthode ajoute du biais dans
l’estimation de la densité mais elle réduit sa variance. Dans des travaux ultérieurs, Hall et al. (2004),
Racine et al. (2004) et Li et Racine (2008) étendent leurs estimateurs aux densités/probabilités conditionnelles, à la régression par noyaux et aux quantiles conditionnels. Hall et al. (2004) montrent que le
choix du paramètre de lissage de la fonction noyau par validation croisée par les moindre carrés permet
d’exclure asymptotiquement les variables explicatives non pertinentes dans le cadre de l’estimation
conditionnelle. Ils montrent également que cette validation croisée génère des gains de performance
prévisionnel ‘hors-échantillon’, même en échantillon fini. Des tests formels d’adéquation pour les
densités conditionnelles sont proposés par Fan et al. (2006), et par Li et Racine (2013), où les résultats
mis en lumière par Hall et al. (2004) sont exploités.
L’objectif principal du présent travail de maîtrise est de répliquer les deux tests proposés par Fan et al.
(2006) et Li et Racine (2013), afin de vérifier si les résultats publiés sur leur taille et leur puissance
restent valides en échantillon fini dans le cadre de l’hypothèse standard de variance unitaire des modèles probit et logit (polytomique ordonné et non ordonné). Fan et al. (2006) proposent un test qui
omet de lisser le variable réponse discrète de la densité conditionnelle mais qui lisse les variables
explicatives discrètes. Li et Racine (2013) proposent de lisser toutes les variables discrètes présentent
dans la densité conditionnelle, la variable réponse discrète incluse.
L’implémentation de ces tests n’étant pas disponible sur R, nous décrivons les grandes étapes de cette
implémentation. Les résultats de nos simulations en échantillon fini indiquent que les deux tests présentent une bonne taille et qu’ils sont puissants contre des alternatives non linéaires et hétéroscédastiques. Cependant, nous obtenons des différences de puissance très faibles quand nous comparons la
performance des deux tests. Ceci contraste avec les résultats de Li et Racine (2013), qui obtiennent
systématiquement des puissances supérieures par rapport à la version ‘semi-lissée’ de la statistique de
Fan et al. (2006), et ceci pour tous les seuils critiques.
Ce travail est structuré en trois chapitres. Au chapitre 1, nous passons en revue les procédures mises
en place pour tester l’adéquation des probabilités conditionnelles des principaux modèles de choix
discrets. Le chapitre 2 décrit les procédures d’estimations et de tests. Notons que les simulations
requièrent l’estimation de paramètres de lissages par validation croisée par les moindres carrés. Par
conséquent, une parallélisation de la procédure est souhaitable, pour obtenir des résultats dans un délai
raisonnable. Le chapitre 3 commente les résultats et nous terminons ce mémoire en récapitulant nos
résultats et en offrant quelques recommandations pour l’implémentation du test sur R.
2
Chapitre 1
Revue de littérature
La littérature économétrique propose de nombreuses approches pour tester la spécification ou l’adéquation des densités conditionnelles postulées par les chercheurs. On peut distinguer entre les approches qui se basent sur des fonctions paramétriques sous l’hypothèse alternative (Hausman, 1978;
Hausman et McFadden, 1984; Horowitz et Louviere, 1993) et celles qui utilisent des formes fonctionnelles non paramétriques. Ces dernières approches ayant l’avantage d’être plus robustes à des erreurs
de spécification sous l’hypothèse alternative, nous nous concentrons sur ces dernières. Dans cette
classe de méthodes, nous distinguons encore deux grandes catégories : celles qui utilisent une discrétisation du support sans référence explicite à l’estimation par noyau et celles qui emploient des noyaux
(avec détermination d’une fenêtre optimale de lissage). Sans être exhaustif, ce chapitre propose une
revue des principaux tests généralement discutés lorsque l’on s’intéresse aux tests non paramétriques
de densités conditionnelles. Nous mettons l’accent sur l’aspect le plus pratique de cette discussion :
leur performance en échantillon fini.
1.1
Tests de spécification pour densités conditionnelles sans noyaux
continus et discrets
Dans cette section, nous nous concentrons sur deux tests qui n’utilisent pas la méthode des noyaux,
ceux proposés par Andrews dans ses travaux de 1988 et 1997. Cet auteur dérive des tests qui utilisent
des approches non paramétriques basées sur l’idée générale des tests de Khi-deux de Pearson et de
Kolmogorov. Ils ont l’avantage d’être puissants contre toute alternative locale à l’hypothèse.
1.1.1
Test de Andrews (1988, 1997)
Andrews (1988a,b) propose un test de Khi-deux conditionnel pour vérifier la spécification de la densité
conditionnelle des modèles paramétriques (voir également Heckman (1984)). Il s’agit d’une extension
du test de Khi-deux de Pearson, applicable aux différents modèles (transversaux) de réponses discrètes
(logit et probit polytomiques, régression SUR, équations simultanées, etc).
3
Sous l’hypothèse nulle, la densité conditionnelle de Yi (variable dépendante pour l’observation i) sachant Xi (vecteur de variables explicatives pour cette observation) appartient à la famille de densité
conditionnelle ( f (y|x, θ ) : θ ∈ Θ) qui respecte une mesure σ -finie. Le terme Θ représente l’espace
des paramètres. L’hypothèse alternative est que la distribution conditionnelle est mal spécifiée. Le
test est basé sur le partitionnement du support de la densité conditionnelle en cellules disjointes et la
comparaison entre les probabilités empiriques issues de l’échantillon et les probabilités prédites par le
modèle postulé pour ces cellules. Il note par Γ un élément aléatoire de la classe des partitions Y × X,
dont Γ̂ est l’estimateur. La mesure de divergence utilisée est basée sur l’écart entre les effectifs observés et les effectifs conditionnels prédits. Plus précisément, cette distance est donnée par l’expression :
vn (Γ̂, θ̂ ) =
√ n Pn (Γ̂) − Fn (Γ̂, θ̂ ) ,
(1.1)
où Pn représente la distribution conditionnelle empirique du couple {(Yi , Xi ), i = 1, ..., n}, Fn est la distribution conditionnelle paramétrique estimée de Yi sachant Xi . Soit Ŵ un estimateur convergent de
l’inverse généralisé de Σ0 (la vraie matrice de dispersion sous H0 ). Sous l’hypothèse nulle, la distribution asymptotique de l’expression (1.1) est normale, de moyenne nulle et de matrice de dispersion
Σ0 . En utilisant la distance quadratique est en divisant par l’écart-type, nous obtenons la statistique de
test :
0
Xn2 (Γ̂, θ̂ ) = vn (Γ̂, θ̂ )Ŵ vn (Γ̂, θ̂ )
(1.2)
Sous H0 , l’expression (1.2) est distribuée asymptotiquement selon un Khi-deux dont les degrés de
liberté sont donnés par le rang de Σ0 . Andrews (1988b) vérifie la performance du test en échantillon
fini à l’aide d’un modèle de régression censurée 1 . Il teste le DGP sous H0 contre deux alternatives symétriques (à queues mince puis épaisse), une version asymétrique de ce même DGP, ainsi que contre
le modèle censuré proposé par Cragg (1971). Il calcule la taille du test avec 5000 réplications Monte
Carlo sur des échantillons finis de taille 100 et 250. Ses résultats révèlent que le test est de bonne
taille et puissant contre toute alternative. Ce test non paramétrique se révèle plus puissant que les tests
paramétriques développés par Hausman (1978), Hausman et McFadden (1984).
Dans la continuité de ses travaux, Andrews (1997) propose un test de spécification pour densités conditionnelles de type Kolmogorov (appelé Kolmogorov Conditionnel, KC). Ce test est une extension du
test traditionnel d’adéquation de Kolmogorov pour les distributions non conditionnelles. L’hypothèse
nulle (de bonne spécification du modèle paramétrique) s’écrit :
H0 : H(y|x) = F(y|x, θ ) pour un certain θ ∈ Θ,
(1.3)
où F(y|x, θ ) est la fonction de répartition de Yi conditionnellement aux vecteurs de variables explicatives Xi = x, et au vecteur de paramètres θ , Θ est l’espace des paramètres, H(y|x) est la vraie fonction
de répartition conditionnelle, et f (y|x, θ ) est la fonction de densité respectant une mesure σ -finie (pas
0
1. Plus précisément, le processus de génération de données est Yi = c + Xi β +Ui > 0 et 0 sinon, avec (Ui |Xi ) ∼ N(0, 1)
sous H0 .
4
nécessairement la mesure de Lebesgue). L’auteur estime θ par un estimateur θ̂ qui converge vers θ0 .
La statistique de test est une distance maximisée (Max), différente de l’habituel supremum (Sup)
utilisé dans le test standard de Kolmogorov :
CKn =
où F̂n (z, θ̂ ) =
1
n
√
n max | Ĥn (Z j ) − F̂n (Z j , θ̂ ) |
(1.4)
j≤n
n
∑ F(y|Xi , θ )I(Xi ≤x) avec z = (y, x).
i=1
Sous H0 la distribution asymptotique de la statistique dépend des paramètres de nuisances θ̂ (ou θ0
quand il est connu) et de G, la fonction de répartition empirique de X. La performance du test en
échantillon fini s’obtient par une procédure de bootstrap paramétrique. Dans l’article, l’auteur utilise
un modèle logit multinomial sous H0 . La taille du test est calculée avec 4000 réplications de Monte
Carlo pour les échantillons de petite taille et 2000 réplications pour les échantillons de grande taille.
Il utilise des bootstrap de taille 299 dans les deux cas. Il montre que le test est puissant contre les
alternatives locales à
1.2
√1 -convergent
n
et contre toutes alternatives fixes à l’hypothèse nulle 2 .
Tests de spécification pour les densités conditionnelles avec noyaux
continus et discrets
L’un des défauts du test d’Andrews (1997) est qu’il ne propose pas directement d’alternative à la densité conditionnelle paramétrique rejetée. Les tests basés sur l’estimateur du noyau offrent directement
cette spécification alternative, mais leur performance dépend du choix d’un paramètre de lissage optimal. Ces dernières années, certaines méthodes de sélection du paramètre de lissage ont révélé des
propriétés intéressantes : (i) elles permettent de combiner de manière optimale de l’information sur
des supports discrets et peu denses, (ii) elles détectent automatiquement les variables pertinentes dans
le conditionnement. Nous abordons à présent dans cette section les tests proposés par Zheng (2000),
Fan et al. (2006), et Li et Racine (2013). Tous ces tests utilisent une approche non paramétrique basée
sur l’estimation par noyau et ils se complètent dans leur démarche méthodologique. Dans cette section, nous utilisons les notations originales des auteurs, pour faciliter la comparaison avec les articles
originaux.
1.2.1
Test proposé par Zheng (2000)
Zheng (2000) est le précurseur de la série de tests non paramétriques qui utilisent l’approche par la
méthode du noyau pour tester l’adéquation de la densité conditionnelle postulée par le chercheur.
Soit {yi , xi }i=1,..,n une observation d’un échantillon aléatoire indépendante et identiquement distribuée
provenant d’une famille de loi de densité jointe p(y, x), où yi un vecteur de l variables dépendantes,
tel que yi ∈ Rl et xi un vecteur de m variables explicatives, tel que xi ∈ Rm .
2. C’est une séquence d’alternatives de densité conditionnelle qn (y|x) = f (y|x, θ0 ) +
voisinage de l’hypothèse nulle.
d(z)
√ ,
n
qui sont des perturbations au
5
Soit p(y|x) la densité conditionnelle de y sachant x. Comme annoncé plus haut, Zheng s’intéresse à
tester p(y|x) à l’intérieur d’une famille de densité conditionnelle paramétrique. Soit Θ l’espace des
paramètres 3 , un sous-ensemble compact et convexe de Rk . La densité conditionnelle paramétrique de
y sachant x étant donné θ0 est définie par f (y|x, θ0 ).
Zheng cherche une procédure de test qui permet de départager les deux hypothèses suivantes :
H0 : P(p(y|x) = f (y|x, θ0 )) = 1 , pour un θ0 ∈ Θ donné,
contre
H1 : P(p(y|x) = f (y|x, θ )) < 1 ∀θ ∈ Θ
Pour mesurer la différence entre p(y|x) et f (y|x, θ0 ) sous l’hypothèse nulle, Zheng (2000) choisit le
critère d’information de divergence de Kullback et Leibler (1951) en encore la mesure d’entropie
relative. Ce critère est une mesure de la dissimilarité entre deux distributions de probabilités, l’une
théorique et l’autre empirique. Il est défini dans le cas présent par :
p(yi |xi )
I(p, f ) = E log
f (yi |xi , θ0 )
(1.5)
Il montre de façon générale que I(p,hf ) ≥ 0 etinulle sous l’hypothèse H0 . Par ailleurs, par le dévelop-
pement de Taylor 4 d’ordre 1 du log
I(p, f ) = E
p(yi |xi )
f (yi |xi ,θ0 )
on a
p(yi |xi )
p(yi |xi ) − f (yi |xi , θ0 )
−1 = E
f (yi |xi , θ0 )
f (yi |xi , θ0 )
(1.6)
Zheng (2000) prouve qu’en pondérant la densité conditionnelle paramétrique par la densité marginale de x que l’expression (1.6) conserve les mêmes propriétés que I(p, f ) sous H0 comme sous H1 .
L’expression (1.6) devient donc sous H0 :
I1 (p, f ) = E
p(yi , xi ) − p1 (xi ) f (yi |xi , θ0 )
f (yi |xi , θ0 )
(1.7)
où p1 (x) la densité marginale de x. Zheng propose d’estimer les fenêtres de lissage des estimateurs
respectifs des densités p(yi , xi ) et p1 (xi ) par l’approche de Silverman (1986). De même, la densité
jointe p(yi , xi ) est estimée par le produit des noyaux. En effet, c’est une méthode qui permet de résoudre des problèmes non linéaires à l’aide des méthodes linéaires en transformant les espaces de
données en un espace de dimension plus grande. Ainsi, les estimateurs de densité p̂(yi , xi ) et p̂1 (xi )
3. L’espace de paramètre en général différent de l’espace des variables. Ils sont égaux si le nombre de variables pour
l’estimation non paramétrique est exactement égale à celui de l’estimation paramétrique. Voir les hypothèses alternatives
pour le calcul de la puissance, chapitre 3.
4. log(x) ≈ x − 1 .
6
sont respectivement définis par les expressions suivantes :
yi − y j
xi − x j
1 n 1
p̂(yi , xi ) = ∑ l+m K2
K1
n j=1 h
h
h
xi − x j
1 n 1
p̂1 (xi ) = ∑ m K1
n j=1 h
h
(1.8)
(1.9)
En outre, en estimant le paramètre θ0 par la méthode de quasi maximum de vraisemblance, Zheng
(2000) dérive l’estimateur lissé de la densité p̃(y, x) de f (yi |xi , θ )p1 (xi ) qui est défini par :
Z
xi − x j
yi − y
1 n 1
p̃(yi , xi ) = ∑ l+m K2
K1
f (y|x j , θ̂ )dy
n j=1 h
h
h
(1.10)
où θ̂ est l’estimateur quasi maximum de vraisemblance de θ , et h correspond au paramètre de lissage
de x et y . Il déduit la statistique Wn du test et sa version normalisée Tn qui prennent la forme :
R


xi −x j
xi −x j
yi −y yi −y n n
K
−
K
K
f
(y|x
,
θ̂
)dy
K
1
2
1
j
2
h
h
h
h
1
1 
 (1.11)
Wn =
∑
∑
l+m
n(n − 1) i=1 j=1 h
f (yi |xi , θ̂ )
j6=i
et
Tn =
nh
l+m
2
Wn
(1.12)
σ̂
Zheng (2000) montre sous certaines hypothèses de régularité que la statistique Tn converge en loi
vers une loi normale centrée réduite sous l’hypothèse nulle et que la statistique non standardisée Wn
converge en probabilité vers I(p, f ) > 0 sous l’hypothèse alternative. Zheng a abordé la puissance en
se basant sur une séquence d’alternatives locales, c’est-à-dire, H1n : p(y|x) = f (y|x, θ0 ) + dn × l(y, x),
R
où l(., .) est une fonction continument différentiable et uniformément bornée, avec l(x, y)dy = 0.
Cet auteur vérifie la performance du test en échantillon fini sur les modèles de régression linéaire
et les modèles de régression censurée par une simulation Monte Carlo de 1000 réplications avec
des échantillons de taille 50, 100, 200 et 300. La taille du test est calculée sous H0 en spécifiant un
modèle linéaire homoscédastique avec une erreur normale centrée réduite, et la puissance avec quatre
hypothèses alternatives, dont les deux premières sont linéaires avec des erreurs suivant respectivement
une loi logistique et une Student à 5 degrés de liberté (à queues plus minces). Les deux dernières sont
respectivement quadratique et hétéroscédastique avec des erreurs normales standards. Par ailleurs,
Zheng souligne que le test de Andrews (1997) est localement plus puissant que son test.
1.2.2
Test proposé par Fan et al. (2006)
Le défaut du test de Zheng (2000) est qu’il ne considère que des variables continues dans ses produits
de noyaux. En outre, il ne fournit pas de directives pour l’estimation des fenêtres de lissage. Ces
manquements sont pris en compte par le test de Fan et al. (2006). Ils proposent d’exploiter les produits
de noyaux mixtes développés par Li et Racine (2003).
7
Soit x un vecteur de variables explicatives continues et discrètes (xc , xd ), tel que xc pour une obserd de longueur c
vation donnée est une matrice q × 1 et xd une matrice r × 1. Soit Dk le support de xik
k
allant de 0 à ck − 1. Les valeurs prises par la k-ième composante de la i-ième observation de xd sont
d . Pour estimer la densité par la méthode de noyau, Fan et al. (2006) utilisent l’estimateur de
notées xik
Aitchison et Aitken (1976) pour la k-ième variable discrète défini par :
(
d d
l(xik
, x jk , λk ) =
d = xd
1 − λk si xik
jk
λk
ck −1
(1.13)
d 6= xd
si xik
jk
La densité jointe de l’ensemble de variables discrètes est donnée par le produit de noyaux :
r
L(xid , xdj , λ )
=∏
r
d d
l(xik
, x jk , λk )
k=1
=∏
k=1
λk
ck − 1
Nik (x)
(1 − λk )1−Nik (x)
(1.14)
d 6= xd et 0 sinon, λ est le paramètre de lissage de la
où Nik (x) est la fonction indicatrice donnant 1 si xik
k
jk
k-ième variable discrète, dont les valeurs sont comprises entre 0 et
ck −1
ck .
Pour les variables continues,
la fonction noyau utilisée est le noyau d’ordre 2 d’Epanechnikov défini par : w(u) = 34 (1 − u2 )1{|u|≤1} .
Ainsi, l’estimateur par noyau de la densité jointe des variables continues est :
c
xik − xcjk
1
=∏ w
hk
k=1 hk
q
W (xic , xcj , h)
(1.15)
où hk est le paramètre de lissage de la k-ième variable continue xc . Par la suite, l’estimateur par
noyau de la densité jointe des variables explicatives est le produit des densités marginales continues
et discrètes (Fan et al., 2006) :
Kγ (xi , x j ) = W (xic , xcj , h) × L(xid , xdj , λ )
(1.16)
Pour estimer les densités p(yi , xi ) et p1 (xi ) au point i, Fan et al. (2006) suggèrent d’omettre le point i
dans l’estimation (estimateur "leave-one-out"), conduisant à l’estimateur :
p̂−i (yi , xi ) =
1
n−1
p̂1,−i (xi ) =
n
∑ I(yi = y j )Kγ (xi , x j )
(1.17)
j=1
j6=i
1
n−1
n
∑ Kγ (xi , x j )
(1.18)
j=1
j6=i
Ainsi, l’estimateur de lissage du produit de densité f (yi |xi , θ )p1 (xi ), p̃(yi , xi ) proposé par Fan et al.
(2006) est défini par :
p̃(yi , xi ) =
1
n−1
n
∑ ∑ I(yi = y)Kγ (xi , x j ) f (y|x j , θ̂ )
j=1
j6=i
8
y∈Dy
(1.19)
où Dy est le support de la variable dépendante y.
Lorsque yi = y, l’expression (1.19) devient donc :
p̃(yi , xi ) =
1
n−1
n
∑ Kγ (xi , x j ) f (yi |x j , θ̂ )
(1.20)
j=1
j6=i
En remplaçant, les expressions de p̂(yi , xi ), p̂(xi ) et p̃(yi , xi ) dans l’expression de I1 (p, f ), Fan et al.
(2006) déduisent l’estimateur non lissé de la statistique Wn,γ :
ns
Wn,γ
=
n n
1
∑∑
n(n − 1) i=1
j=1
Kγ (xi , x j ) I(yi = y j ) − f (yi |x j , θ̂ )
f (yi |xi , θ̂ )
(1.21)
j6=i
Ils proposent d’estimer les paramètres de lissage par la méthode de validation croisée par moindres
carrés qui a la propriété asymptotique d’éliminer les variables non pertinentes dans le modèle. Ainsi,
sous les conditions de régularité de Hall et al. (2004) liées à la convergence des fenêtres de lissage,
Fan et al. (2006) montrent sous H0 que la statistique de l’expression (1.21) converge en loi vers une
loi normale centrée réduite :
Tn,nsγ̂ =
où V̂n,γ̂ =
2
n(n−1)
n
n
∑ ∑
i=1 j6=i
n
Kγ̂ (xi ,x j )
fˆ(yi |xi ,θ̂ )
n(ĥ1 ĥ2 ...ĥq )1/2Wn,nsγ̂ d
→ N(0, 1)
q
V̂n,γ̂
(1.22)
o2
I(yi = y j ) − f (yi |x j , θ̂ )
est un estimateur convergent de la va-
riance asymptotique de n(ĥ1 ĥ2 ...ĥq )1/2Wn,nsγ̂ .
Pour examiner la performance du test en échantillon fini, Fan et al. (2006) utilise la statistique non
standardisée Wn,nsγ̂ pour la simulation Monte Carlo avec 5000 réplications pour le calcul de la taille et
2000 réplications pour le calcul de la puissance en 1000 bootstraps pour déduire la distribution asymptotique de Wnns sous H0 . Ils utilisent sous H0 un PGD binaire caractérisé par une variable latente qui suit
une loi normale standard (probit), qui est testé contre deux alternatifs, dont les variables latentes sont
respectivement quadratique et hétéroscédastique. Ils obtiennent de bonnes tailles et montrent aussi
que leur test est plus puissant que le test de Zheng (2000). De même, le test est plus puissant que celui
de Andrews (1997) quand il s’agit de tester l’adéquation de densités conditionnelles paramétriques.
1.2.3
Test proposé par Li et Racine (2013)
En échantillon fini, le lissage des variables discrètes apporte un gain d’efficacité dans l’estimation.
Ainsi, Li et Racine (2013) profite de cette propriété pour améliorer la performance en échantillon
fini de la statistique proposée par Fan et al. (2006). Ils proposent de remplacer l’indicatrice de la
variable réponse par un estimateur lissé selon la méthode de Aitchison et Aitken (1976). Ainsi, pour
9
une variable dépendante discrète nominale, ils utilisent l’estimateur suivant :
l(yi , y j , λ0 ) = (1 − λ0 )I(yi = y j ) +
avec λ0 compris entre 0 et
c0 −1
c0 .
λ0
I(yi 6= y j )
c0 − 1
(1.23)
Ils étendent la procédure du test également aux variables réponses
discrètes ordonnées en utilisant l’estimateur de Wang et van Ryzin (1981) :
|y −y j |
λ i
l(yi , y j , λ0 ) = (1 − λ0 )I(yi = y j ) + 0
2
I(yi 6= y j )
(1.24)
avec λ0 compris entre 0 et 1.
En intégrant l’estimateur lissé de la fonction indicatrice, Li et Racine (2013) dérivent les estimateurs
"leave-one-out" des densités p(yi , xi ), p1 (xi ), et p̃(yi , xi ) :
p̂−i (yi , xi ) =
p̂1,−i (xi ) =
p̃−i (yi , xi ) =
1
n−1
1
n−1
1
n−1
n
∑ l(yi , y j , λ0 )Kγ (xi , x j )
(1.25)
∑ Kγ (xi , x j )
(1.26)
∑ ∑ l(yi , y, λ0 )Kγ (xi , x j ) f (yi |x j , θ̂ )
(1.27)
j=1
j6=i
n
j=1
j6=i
n
j=1 y∈Dy
j6=i
En utilisant les expressions (1.25), (1.26), (1.27), Li et Racine (2013) déduisent les statistiques lissées
s et T s (contrepartie des équations (1.21) et (1.22) ) :
Wn,γ
n,γ
(
"
#)
n n
Kγ (xi , x j )
1
s
Wn,γ =
∑ ∑ f (y |x , θ̂ ) l(yi , y j , λ0 ) − ∑ l(yi , y, λ0 ) f (y|x j , θ̂ )
n(n − 1) i=1
i i
y∈Dy
j=1
(1.28)
j6=i
Tn,s γ̂ =
n(ĥ1 ĥ2 ...ĥq )1/2Wn,s γ̂
q
V̂n,γ̂
(1.29)
Ils montrent que la statistique standardisée Tn,s γ̂ converge en loi vers une loi normale centrée et réduite sous l’hypothèse nulle (Li et Racine (2013), Théorème 2.1, voir aussi l’annexe)). De plus, sous
l’hypothèse alternative, Tn,s γ̂ converge en probabilité vers une valeur strictement positive (Li et Racine
(2013), Théorème 2.2, voir aussi l’annexe).
Par ailleurs, pour obtenir la performance du test en échantillon fini, ils utilisent une procédure bootstrap paramétrique de 1000 réplications et 399 bootstraps, sur un modèle probit ordonné dont la variable
latente est linéaire sous H0 et un alternatif sinusoïdal. Les résultats de la simulation réalisée avec des
tailles d’échantillon 200, 300, 400 révèlent que le test possède une bonne taille qui ne varie pas selon
le type de statistique utilisée, et que la statistique lissée apporte un gain de puissance par rapport à la
statistique de Fan et al. (2006).
10
Chapitre 2
Méthodologie d’estimation
Lorsque des tests statistiques sont proposés, il est parfois possible d’établir des règles de rejet et
d’acceptation de l’hypothèse nulle à la fois en grand échantillon et en échantillon de taille fixe. Fan
et al. (2006) et Li et Racine (2013) établissent que leurs statistiques de test sont asymptotiquement
normales sous l’hypothèse nulle (sous-section 1.2.2, et sous-section 1.2.3), mais ils ajoutent que la
normalité de la distribution n’est aucunement garantie en échantillon fini. Pour pallier cette déficience,
ils proposent une procédure bootstrap qui possède de très bonnes propriétés en échantillon fini : (i)
elle identifie le vrai modèle au même seuil d’erreur qu’en grand échantillon lorsque le chercheur
postule le vrai modèle, (ii) elle rejette avec une probabilité suffisamment élevée le modèle utilisé
par le chercheur lorsque le modèle postulé ne correspond pas au vrai processus de génération de
données (bonne puissance du test). Dans ce chapitre, nous décrivons en détail les différentes étapes
qui permettent de démontrer ces résultats.
2.1
Démarche méthodologique
Pour analyser la taille du test en échantillon fini, nous commençons par choisir le vrai processus de
génération de données (PGD) sous l’hypothèse nulle et nous créons des échantillons de différentes
tailles. Comme dans les articles originaux de Fan et al. (2006) et Li et Racine (2013), nous retiendrons
n = {200, 300, 400, 500}. Pour une taille fixe d’échantillon, nous obtenons une première estimation du
vrai PGD à l’aide des deux estimateurs paramétrique et non paramétrique par noyau. Nous calculons
l’écart d’ajustement des valeurs prédites par les deux estimateurs à l’aide des statistiques Wn (voir les
équations (1.21) et (1.28)). De toute évidence, cette statistique n’est pas utile car il nous manque sa
distribution en échantillon fini. Nous tirons donc 399 échantillons bootstrap de l’échantillon original
et nous réestimons avec ces échantillons bootstrap les statistiques des deux tests (lissé et non lissé).
Ceci nous donne 399 valeurs bootstrap des statistiques des tests, qui permettent de définir une densité
empirique des statistiques(lissée et non lissée) pour l’échantillon initialement généré. Nous comparons
finalement les statistiques (lissée et non lissée) de notre échantillon original à leurs distributions bootstrap. Si les statistiques échantillonnales dépassent les quantiles 90%, 95% ou 99% des distributions
11
bootstrap, l’égalité des estimations paramétrique et non paramétrique sera rejetée au seuil de confiance
correspondant. En répétant cette procédure 1000 fois (toujours pour un échantillon de même taille),
nous testons la capacité des statistiques proposées (Fan et al., 2006; Li et Racine, 2013) à détecter le
vrai processus de génération de données en échantillon fini.
L’analyse de la puissance des deux tests se fait en générant nos échantillons de taille fixe avec un
processus de génération de données alternatif à celui postulé sous H0 . Nous estimons ensuite les probabilités conditionnelles avec le modèle postulé sous H0 . Le modèle postulé sous H0 inclut les mêmes
variables incluses dans le PGD alternatif, mais il se distingue par une forme fonctionnelle différente.
Par conséquent, l’utilisation d’une forme fonctionnelle paramétrique erronée (celle postulée sous H0 )
conduit à des estimations paramétriques biaisées de la densité conditionnelle postulée sous l’hypothèse
alternative H1 . L’estimateur de noyau étant flexible, il captera correctement le processus de génération
de données postulé sous H1 . La procédure bootstrap décrite ci-dessus devrait alors aboutir à rejeter
l’hypothèse nulle plus fréquemment, et à la rejeter avec une probabilité croissante lorsque la taille de
l’échantillon croît.
La simulation requiert donc la définition d’un PDG (ou modèle de densité conditionnelle) sous l’hypothèse nulle, d’un PGD alternatif, d’un estimateur paramétrique, d’un estimateur non paramétrique
et d’une procédure bootstrap adéquate. Dans tous les cas, nous utilisons les estimateurs et procédures
recommandées par les auteurs des tests et nous les implémentons dans R.
Dans les sous-sections qui suivent, nous commençons par définir le vrai PGD utilisé pour calculer la
taille des tests de Fan et al. (2006) et de Li et Racine (2013), puis nous identifions les PGD utilisés
pour établir leur puissance dans la section 2.2. Ensuite, nous définissons les estimateurs paramétriques
et les fonctions du logiciel R utilisées pour l’estimation. Nous nous tournons ensuite vers l’estimateur
non paramétrique et nous précisons les outils pertinents pour les obtenir dans R. Finalement, nous
rappelons l’ensemble de la procédure sous la forme d’une liste d’étapes. Ce n’est qu’au chapitre 3 que
nous rapportons nos résultats.
2.2
Processus de génération des données sous les hypothèses nulle et
alternative
Le PGD retenu sous H0 est similaire à celui proposé par Li et Racine (2013). La seule différence tient
à notre hypothèse de variance unitaire σu2 = 1, alors que les auteurs précités préfèrent σ 2 = 0.25. Par
conséquent, nous considérons le modèle probabiliste :
y∗i = θ0 + θ1 xi + θ2 zi + ui ,
(2.1)
où xi ∼ N(0, σx = 1), zi est généré par un processus Bernoulli {0, 1} tel que P(zi = 1) = 0, 5, ui ∼
N(0, σu ), avec θ0 = 1, θ1 = 1, θ2 = −1, et σu = 1. Le modèle (2.1) génère une variable latente,
que nous reclassifions pour obtenir un modèle discret en yi sur le support Dy = {0, 1, ..., c − 1}. La
12
variable dépendante polytomique y est générée selon les quantiles de la distribution normale. À titre
d’illustration, pour σu2 = 1 et c = 4, yi prend les valeurs discrètes suivantes :


0 si −∞ ≤ y∗i < −0, 674



 1 si −0, 674 ≤ y∗ < 0
i
yi =
∗

2 si
0 ≤ yi < 0, 674



 3 si 0, 674 ≤ y∗ < +∞
i
Afin d’étendre nos simulations au modèle logistique multinomial simple, nous considérons également
le PGD de l’équation (2.1) avec une erreur ui ∼ logit(0, σu ). La variable latente est ensuite transformée
selon la même logique vis-à-vis de la distribution logistique.
En ce qui concerne la puissance du test, Li et Racine (2013) postulent des PGD différents de l’équation
(2.1) en utilisant les mêmes variables explicatives. Ils se concentrent ainsi sur une erreur de spécification de la forme fonctionnelle. Dans nos simulations, nous considérons l’alternative sinusoïdale de Li
et Racine (2013), mais également les modèles à indice quadratique et hétéroscédastique de Fan et al.
(2006). Les trois PGD considérés pour tester la puissance sont donc :
DGP 1a : y∗i =θ0 + θ1 xi + θ2 zi + θ3 sin(0, 5πxi ) + ui
DGP 1b : y∗i =θ0 + θ1 xi + θ2 zi + θ3 xi2 + ui
DGP 1c : y∗i =θ0 + θ1 xi + θ2 zi + xi ui
Comme indiqué au début de la section 2.1, nous devons maintenant estimer les modèles

Φ(x , z ; θ ) paramétrique
i i
P(yi = y|xi , zi ) =
 f (x , z ) non paramétrique.
i
i
La section 2.3 décrit les estimateurs utilisés pour les modèles paramétriques alors que la section 2.4
décrit l’estimation non paramétrique.
2.3
Estimation paramétrique de la densité conditionnelle
Comme indiqué dans la section 1.2, le calcul des statistiques des tests de Fan et al. (2006) et Li et
Racine (2013) nécessite l’estimation de la densité conditionnelle paramétrique et de fenêtres de lissage
pour estimer la densité du noyau jointe des variables explicatives. Dans cette section, nous rappelons
la procédure d’estimation des densités conditionnelles polytomiques par maximum de vraisemblance.
2.3.1
Estimation de la densité conditionnelle paramétrique d’un modèle polytomique
non ordonné
Soit {yi , xi }i=1,..,n une séquence d’observation aléatoire indépendante et identiquement distribuée de
(y, x). yi est une variable polytomique dont le support Dy = {1, 2, ..., M}, et xi un vecteur de k variables
13
explicatives. Soit y∗im la variable latente de yi définit telle que : y∗im = xi θm + uim ; i = 1, ..., n et m =
1, ..., M ; θm est un vecteur de k paramètres réelles. La variable latente peut être vue comme l’utilité de
l’individu i de choisir la modalité m de la variable réponse. La probabilité que l’individu i choisisse la
modalité m conditionnellement aux variables explicatives xi est définie par :
P(yi = m |xi ) =P(y∗im > y∗i j , ∀ j 6= m |xi )
=P(xi θm + uim > xi θ j + ui j , ∀ j 6= m |xi )
=P(ui j − uim < xi θm − xi θ j , ∀ j 6= m |xi )
=P(um
i j < xi θm − xi θ j , ∀ j 6= m |xi )
=Fim (xi (θm − θ1 ), ..., xi (θm − θM ))
avec
um
i j = ui j − uim
(2.2)
La fonction de répartition Fim est celle de l’erreur um
i = (ui1 − uim , ui2 − uim , ..., uiM − uim ). Elle peut
être une loi multinormale si le modèle estimé est un probit multinomial, ou encore une loi de Gumbel
dans le cas logit multinomial. Pour ym
i j = xi θm − xi θ j , yim = I(yi = m) et pim (θ ) = P(yi = m |xi ) la
densité conditionnelle de yi sachant xi est donnée par :
M
f (yi |xi , θ ) =
∏ pyjm (θ )
im
(2.3)
m=1
La log vraisemblance à maximiser s’écrit sous la forme suivante :
L(θ ) =
1 n M
∑ ∑ yim log(pim (θ ))
n i=1
m=1
(2.4)
La condition de premier ordre de l’équation (2.4) est donnée par :
1 ∂ pim (θ )
∂ L(θ ) 1 n M
= ∑ ∑ yim
=0
∂θ
n i=1 m=1
pim (θ ) ∂ θ
(2.5)
Sous des conditions de régularité (McFadden, 1974; Amemiya, 1985) le problème de maximisation
admet un maximun global unique. Par ailleurs, si les conditions de régularité sont respectées, la distribution limite 1 de l’estimateur est :
d
√
−1
n θ̂ − θ0 → N(0, A−1
(2.6)
0 B0 A0 ),
2
)
∂ L(θ ) ∂ L(θ )
avec A0 = E ∂∂ θL(θ
et
B
=
E
. Par conséquent, sous H0 , la distribution asymptotique
0
0
0
∂θ
∂θ
∂θ
de θ̂ est :
d
θ̂ ∼ N(θ0 , −A0 )
1. Pour plus de détails, voir Amemiya (1985); Cameron et Trivedi (2005).
14
(2.7)
L’estimateur de la densité conditionnelle paramétrique est donné par :
M
f (yi |xi , θ̂ ) =
∏ pyjm (θ̂ )
im
(2.8)
m=1
Ce modèle est estimé sur R avec la fonction mlogit() du package mlogit proposé par Croissant
(2013) 2 . L’optimisation de la log vraisemblance peut être améliorée par la fonction mlogit.optim()
qui utilise par défaut l’algorithme de Newtn-Raphson (NR) avec la numérisation de la matrice hessienne. Cette fonction offre la possibilité de choisir les méthodes d’optimisation alternatives 3 .
2.3.2
Estimation de la densité conditionnelle paramétrique d’un modèle polytomique
ordonné
Soit {yi , xi }i=1,..,n une séquence d’observation aléatoire indépendante et identiquement distribuée de
(y, x). yi est une variable polytomique dont le support Dy = {1, 2, ..., M} et la variable latente y∗i =
xi θ + ui où θ ∈ Θ ⊂ Rk (un sous-ensemble compact et convexe) et xi ∈ Rk telle que (Long, 1997;
Agresti, 2002) :


1 si α0 ≤ y∗i < α1



 2 si α ≤ y∗ < α
1
2
i
yi =

...



 M si α
≤ y∗ < α
M−1
i
(2.9)
M
avec α0 = −∞ et αM = +∞, ui est identiquement distribué avec une fonction de répartition F. On a :
P(yi = m|xi , θ , αm−1 , αm ) = P(αm−1 ≤ xi θ + ui < αm )
= P(αm−1 − xi θ ≤ ui < αm − xi θ )
= F(αm − xi θ ) − F(αm−1 − xi θ )
avec m ∈ Dy , F(α0 − xi θ ) = 0, P(yi = 1|xi , θ ) = F(α1 − xi θ ), et P(yi = M|xi , θ ) = 1 − F(αM−1 − xi θ )
La densité conditionnelle est donnée par :
M
f (yi |xi , θ , α) =
I(yi =m)
∏ pim
(θ , αm−1 , αm )
(2.10)
m=1
où pim (θ , αm−1 , αm ) = F(αm − xi θ ) − F(αm−1 − xi θ ).
De plus, en posant yim = I(yi = m) et en maximisant la log vraisemblance :
L(α, θ ) =
1 n M
∑ ∑ yim log(pim (θ , αm−1 , αm ))
n i=1
m=1
(2.11)
2. Estimation of multinomial logit model in R : mlogit packages.
3. Comme algorithme de Berndt-Hall-Hall-Hausman (BHHH) ou encore Broyden-Fletcher-Goldfarb-Shanno (BFGS).
15
nous obtenons les conditions de premier ordre ci-après :
yim
∂ L(θ ) 1 n M ∂ pim (θ , αm−1 , αm )
= ∑∑
=0
∂θ
n i=1 m=1
∂θ
pim (θ , αm−1 , αm )
yi(m+1)
∂ L(α, θ ) 1 n
yim
= ∑
−
f (αm + xi θ ) = 0
∂ αm
n i=1 pim (θ , αm−1 , αm ) pi(m+1) (θ , αm , αm+1 )
(2.12)
(2.13)
0
avec m = 1, ..., M et F (αm + xi θ ) = f (αm + xi θ ) la fonction de densité de la distribution de DGP.
Sous certaines conditions de régularité 4 (Pratt, 1981), le problème admet un unique maximum global
qui respecte la propriété de convergence de l’expression (2.6). Ce qui permet de dériver la fonction de
densité conditionnelle paramétrique :
M
f (yi |xi , θ̂ , α̂) =
∏ pyim (θ̂ , α̂m−1 , α̂m )
im
(2.14)
m=1
Ce modèle est estimable sur R par le package MASS, avec la fonction polr(), développé par Venables
et Ripley (2002) . Elle utilise l’algorithme de Newton-Raphson et la méthode vcov() du package stats
(R Core Team, 2014). Par ailleurs, le cas binaire est estimé par la fonction glm() du package stats.
2.4
Estimation non paramétrique
L’estimation non paramétrique comprend l’obtention des fenêtres de lissage pour densités conditionnelles, jointe et marginale de respectivement (y|x), (y, x) et de x puis le calcul des produits de noyaux
discrets et continus.
2.4.1
Estimation des fenêtres de lissage conditionnelles par validation croisée par
moindres carrés
Il existe de nombreuses méthodes pour obtenir les paramètres de lissage optimaux. Les méthodes de
validation croisée proposent de partir de fenêtres de lissages candidates et de minimiser l’erreur de
prévision des densités en chaque point i de l’échantillon en utilisant toutes les valeurs de l’échantillon,
excepté le point i. Cette approche est qualifiée en anglais de ‘leave-one-out’. Une fois obtenues les
estimations en chaque point, il convient de définir une métrique qui mesure la qualité d’ajustement
de la prévision non paramétrique. À titre d’exemple, la méthode de validation croisée par maximum
de vraisemblance utilise la (log)vraisemblance de la densité estimée comme fonction objectif. Cette
méthode a tendance à surlisser les fenêtres soit en raison d’une estimation non robuste (sensibilité
excessive aux points extrêmes), soit à cause de la présence de variables explicatives non pertinentes (Li
et Racine, 2007, pp. 161) dans le modèle postulé par le chercheur. Par contre, la méthode de validation
croisée par moindres carrés à l’avantage d’éliminer asymptotiquement les variables explicatives non
pertinentes du modèle.
4. Pour d’autres développements voir Amemiya (1985); Long (1997); Agresti (2002).
16
Soit {yi , xi }i=1,..,n une séquence d’observation aléatoire indépendante et identiquement distribuée de
(y, x), et soit yi , une variable polytomique dont le support Dy = {1, 2, ..., M}. La méthode de validation
croisée par les moindres carrés se base sur le critère de minimisation de la somme de carré des erreurs
(Integrated Squared Errors) :
CV (h, λ ) =
1 n Ĝ−l (xl )
2 n fˆ−l (xl , yl )
−
∑ [µ̂ (x )]2 n ∑ µ̂−l (xl )
n l=1
−l l
l=1
(2.15)
où, fˆ−l et µ̂−l sont respectivement les densités jointe de (x, y) et marginale de x estimées par "leaveone-out", et Ĝl est défini par :
Ĝ−l (xl ) =
n
1 n
∑ ∑ K(xi , xl )K(x j , xl )L(yi , y j )
n2 i=1,i6
=l j=1, j6=l
(2.16)
avec Kγ (xi , x j ) = W (xic , xcj , h) × L(xid , xdj , λ ), où K(), W() et L() sont les fonctions-noyaux définies
dans les équations (1.13), (1.14) et (1.15). Les paramètres (ĥ, λ̂ ) sont les estimateurs des fenêtres de
lissage. Hall et al. (2004) établissent que l’estimateur des paramètres de lissage par la méthode de
validation croisée par les moindres carrés converge en probabilité vers (h0 , λ 0 ) selon le Lemme 2.1
(Voir Annexe). Un algorithme existe sur R pour calculer ces paramètres de lissage. Il est implémenté
dans la fonction npcdensbw() du package np développé par Hayfield et Racine (2008) 5 .
2.4.2
Estimation non paramétrique de la densité conditionnelle
Nous avons vu que les statistiques des tests sont estimées par la mesure de divergence I1 (p, f ) définie
par l’expression (1.7). 6 Les sous-sections précédentes ont permis d’estimer les fenêtres de lissage des
densités conditionnelles et la fonction de densité conditionnelle. Il reste à estimer la densité jointe
(p(yi , xi )) et la densité marginale (p1 (xi )).
Comme nous l’avons vu dans les sous-sections 1.2.2 et 1.2.3, Fan et al. (2006) et Li et Racine (2013)
proposent d’estimer les densités jointe p(yi , xi ) et marginale p1 (xi ) par la méthode de validation croisée "leave-one-out" et en utilisant le produit de noyaux continus et discrets (l’expression (1.13)) pour
l’estimateur de Aitchison-Aitken et (1.14) pour noyaux discrets nominaux et l’expression (1.24) méthode de Wang et Van Ryzin pour les noyaux discret ordonnés). Ainsi en utilisant les fenêtres optimales issues de la validation croisée par moindres carrés et les expressions (1.25), (1.26), et (1.27),
l’estimateur non paramétrique de la densité conditionnelle est donné par :
n
∑ l(yi , y j , λ̂0 )Kγ̂ (xi , x j )
p̂−i (yi |xi ) =
j=1
j6=i
n
(2.17)
∑ Kγ̂ (xi , x j )
j=1
j6=i
5. Pour
plus d’information
voir la documentation
du package.
n
o
p(yi ,xi )−p1 (xi ) f (yi |xi ,θ0 )
6. I1 (p, f ) = E
.
f (y |x ,θ )
i
i
0
17
où l(yi , y j , λ̂0 ) est donné par les expressions (1.23) et (1.24) suivant la nature de la variable réponse.
En utilisant les expressions (1.21), (1.28), (2.8), et (2.14), nous pouvons définir la statistique lissée qui
est prête à être implémentée sur R par : 7
Wn,s γ̂ =

















#

Kγ̂ (xi ,x j )
yim
1
l(y
,
y
,
λ̂
)
−
l(y
,
y,
λ̂
)
p
(
θ̂
,
α̂
,
α̂
)
ordonnée
∑
i j 0
i
0 ∏ im
m−1 m
n(n−1) ∑ ∑  M yim

y∈Dy
m=1
i=1 j=1
∏ pim (θ̂ ,α̂m−1 ,α̂m )
j6=i  m=1
"
#


n n
M
Kγ̂ (xi ,x j )
yim
1
l(y
,
y
,
λ̂
)
−
l(y
,
y,
λ̂
)
p
(
θ̂
)
non ordonnée
∏
∑
∑
∑
i
j
0
i
0
M
jm
n(n−1)
yim

y∈Dy
m=1
i=1 j=1  ∏ p jm
(θ̂ )
n
n


j6=i
"
M
m=1
(2.18)
La densité jointe Kγ̂ (xi , x j ) est estimée à l’aide de la fonction npksum() du package np (Hayfield et
Racine, 2008).
2.5
Simulations
Cette section décrit la procédure de simulation utilisée par Li et Racine (2013) pour établir la taille et
la puissance de leur test en échantillon fini. Elle présente également de manière un peu plus formelle
les calculs de taille et de puissance.
2.5.1
Bootstrap
Nous commençons par décrire la procédure bootstrap. Elle est de type paramétrique et elle s’effectue
dans le but de déterminer la distribution des statistiques Wns et Wnns en échantillon fini pour une seule
simulation de Monte Carlo.
(a) Générer la i-ième valeur bootstrap de la variable y à partir de la distribution conditionnelle
estimée f (yi |xi , θ̂ ). Soit ybi cette valeur et i = 1, . . . , n. L’échantillon {xi , yBi }n1=1 constitue un
échantillon bootstrap. Des détails sur l’identification de yb seront donnés en section 3.1.1, au
point (f).
(b) Sous l’hypothèse nulle, estimer le vecteur de paramètres θ avec l’échantillon bootstrap. Nous
pouvons appeler l’estimateur θ̂ b l’estimateur bootstrap de θ . Il n’est pas nécessaire d’obtenir
des paramètres de lissage γ̂ spécifiques à l’échantillon bootstrap. En effet, Fan et al. (2006) et
Li et Racine (2013) précisent que les paramètres de lissage calculés avec l’échantillon Monte
Carlo peuvent être réutilisés pour le calcul de la statistique sous bootstrap ;
b
(c) Estimer les statistiques lissées Wn,s,bγ̂ et non lissées Wn,ns,b
γ̂ en remplaçant {yi }i=1,...,n par {yi }i=1,...,n
et le paramètre θ̂ par θˆb .
7. La statistique non lissée se définit de façon similaire.
18
(d) Répéter (a), (b) et (c) un grand nombre de fois (par exemple B = 399). Ces tirages successifs
permettent d’approximer la distribution des statistiques lissées Wn,s,bγ̂ et non lissées Wn,ns,b
γ̂ sous
l’hypothèse nulle pour un échantillon Monte Carlo donné ;
ns,b
(e) Calculer les quantiles d’ordre α de Wns,b
γ̂ et de Wnγ̂ pour les B tirages bootstrap ;
(f) L’hypothèse nulle d’un modèle paramétrique correctement spécifié est rejetée par le test bootstrap si les deux statistiques empiriques Wn,s γ̂ et Wn,nsγ̂ calculées pour l’échantillon Monte Carlo
B
donné sont supérieures aux quantiles d’ordre α de, respectivement, {Wn,s,bγ̂ }Bj=1 et {Wn,ns,b
γ̂ } j=1 .
2.5.2
Simulations de Monte Carlo
Les calculs de la taille et de la puissance nécessitent la répétition de la procédure bootstrap M fois, par
exemple M=1000.
Calcul de la taille
Le calcul de la taille utilise la distribution de la statistique bootstrap obtenue en générant des échantillons bootstrap de taille fixe avec le processus générateur des données (PGD) sous H0 . Ainsi, à partir
d’un grand nombre de réalisations du modèle sous H0 , il est possible de tester le nombre de fois
que H0 est rejetée alors que le modèle paramétrique utilisé pour l’estimation est le vrai modèle. La
taille du test bootstrap équivaut à l’erreur de première espèce. Soit M simulations sous H0 des statistiques lissées Wn,s γ̂,i et non lissées Wn,nsγ̂,i avec i = 1, ..., M ; Wn,s,bγ̂,i (α) et Wn,ns,b
γ̂,i (α) les quantiles bootstrap
d’ordre α respectivement de Wn,s,bγ̂,i et non lissées Wn,ns,b
γ̂,i sous H0 . En pratique, la taille de test est définie
(MacKinnon, 2006; Flachaire, 2005) telle que :
Taille(α) =
1 M
∑ I(Wn,γ̂,i > Wn,bγ̂,i (α))
M i=1
(2.19)
Il est souvent recommandé de calculer la taille du test en passant par la p-valeur plutôt que par le
quantile du seuil critique de la statistique (Flachaire, 2005). La p-valeur se définit par la distribution
(asymptotique, car M est grand) des réalisations bootstrap sous l’hypothèse nulle.
pv = Pb (Wn,bγ̂ > Wn,γ̂ ) = 1 − Fb (Wn,γ̂ )
(2.20)
De l’équation (2.20), nous déduisons la taille du test par l’expression suivante :
Taille(α) = PH0 (pv < α) = 1 − FH0 (Fb−1 (Wn,γ̂ )) =
1 M
∑ I(pv,i ≤ α)
M i=1
(2.21)
Calcul de la puissance
La puissance évalue la capacité d’un test à rejeter le modèle postulé par le chercheur lorsque ce
modèle est effectivement erroné. Ici, il s’agit de vérifier la puissance des tests de Fan et al. (2006)
19
et Li et Racine (2013) en échantillon fini. La puissance se calcule en générant dans le processus de
Monte Carlo sous l’hypothèse alternative. Elle correspond à la probabilité de rejeter l’hypothèse nulle
sachant qu’elle est fausse. Soit M simulations sous H1 des statistiques lissées Wn,asγ̂,i et non lissées Wn,ans
γ̂,i
avec i = 1, ..., M. En pratique, la puissance est définie telle que :
Puissance(α) =
1 M
∑ I(Wn,aγ̂,i > Wn,bγ̂,i (α))
M i=1
Elle peut être aussi obtenue de façon similaire par l’expression (2.21).
20
(2.22)
Chapitre 3
Application
Ce chapitre s’intéresse à l’implémentation des deux tests développés par Fan et al. (2006) et Li et
Racine (2013), en prenant comme modèle sous l’hypothèse H0 la spécification proposée par Li et
Racine (2013), et à l’interprétation des résultats.
3.1
Calcul de la taille et la puissance des tests sur R
Nous abordons dans cette section les procédures de calcul de la taille et de la puissance sur R.
3.1.1
Procédure de calcul de la taille sur R
Pour calculer la taille des deux tests, nous nous contentons de décrire les étapes suivies pour un modèle
à réponse binaire. L’extension aux modèles polytomiques se fait facilement.
(a) Simuler un échantillon {xi , zi , ui }i=1,..,n suivant le modèle H0 retenu tels que ui ∼ N(0, 1), xi ∼
N(0, 1) et zi ∼ Bernoulli( 12 ). La variable latente sous H0 étant définie par y∗i = θ0 + θ1 xi + θ2 zi + ui
avec θ0 = 1, θ1 = 1, θ2 = −1 et déduire la variable réponse yi = 1{y∗ >0} ;
i
(b) Estimer les paramètres θ̂ pour l’échantillon simulé avec la fonction glm() du package stats ;
(c) Prédire la probabilité P(yi = 1|xi , zi , θ̂ ) à l’aide de la fonction predict.glm() du package stats ;
(d) Calculer les fenêtres de lissage (λˆ0 , λ̂ , ĥ) des variables y, z et x par la méthode de validation croisée
par moindres carrés avec la fonction npcdensbw() du package np ;
(e) Calculer Wn,i (y, z, x, λˆ0 , λ̂ , ĥ, p̂) selon l’expression (2.18) en utilisant la fonction npksum() du package np pour estimer le densité jointe K(xi , zi ) ;
(f) Générer l’échantillon bootstrap selon la procédure décrite dans la sous-section 2.5.1. L’échantillon
bootstrap est constitué de {ybi , xi }i=1,..,n en utilisant la probabilité P(yi = 1|xi , zi , θ̂ ). En pratique,
on génère un échantillon {ei }ni=1 tel que ei ∼ U[0, 1] puis on ordonne les éléments de chaque
vecteur-ligne [ ei P(yi = 0|xi , zi , θ̂ ), 1 ] de manière croissante 1 . On récupère ensuite le rang de
1. P(yi = 0|xi , zi , θ̂ ) = 1 − P(yi = 1|xi , zi , θ̂ ).
21
ei dans le vecteur réordonné 2 et on lui soustrait la valeur 1. La valeur ainsi obtenue constitue la
modalité 0 ou 1 de la ième observation 3 ybi ;
(g) Obtenir θ̂ b avec les valeurs {ybi , xi }i=1,..,n afin de prédire P(ybi = 1|xi , zi θˆb ) ;
(h) calculer Wn,i,b (yb , z, xλˆ0 , λˆ1 , ĥ, p̂b ) ;
(i) Calculer la taille selon la formule (2.21).
3.1.2
Procédure de calcul de la puissance sur R
Comme décrit dans la sous-section 2.5.2, le calcul de la puissance se base sur les quantiles de la
distribution boostrap des statistiques de test. En prenant l’exemple du modèle DGP1a de la section
2.2, la procédure de calcul de la puissance du test est la suivante :
(a) A partir de l’échantillon {xi , zi , ui }i=1,..,n , calculer la variable latente y∗i = θ0 + θ1 xi + θ2 zi +
θ3 sin(0, 5πxi ) + ui et en déduire la variable réponse yi = 1{y∗ >0} ;
i
(b) Estimer θ̂ avec le modèle postulé sous H0 , (dans notre cas, il s’agit du modèle (2.1), section
2.2) et en déduire la probabilité PHa (yi = 1|xi , zi , θ̂ ) ;
(c) Calculer les fenêtres de lissage (λˆ0 , λ̂ , ĥ) des variables y, z et x par la méthode de validation
croisée par moindres carrés ;
a (y, x, z, λˆ , λ̂ , ĥ, p̂) ;
(d) Calculer la statistique Wn,i
0
(e) Calculer la puissance du test à l’aide des statistiques bootstraps et de la formule (2.22).
3.2
Résultats et interprétation
Cette section est consacrée aux résultats liés aux calculs de la taille et de la puissance. Par ailleurs,
pour dériver les puissances et les tailles, nous réalisons 1000 simulations Monte Carlo et 399 tirages
bootstraps avec le modèle de base de Li et Racine (2013). Les calculs sont fondés sur les statistiques
non standardisées Wn (lissée et non lissée). La simulation est réalisée sur R. Les tirages bootstrap et
le calcul des fenêtres de lissage sont parallélisés sur Colosse (Calcul Québec) à l’aide des fonctions
"foreach" et "dopar" des package foreach et doSNOW développés par Analytics et Weston (2014b,a).
En procédant ainsi, nous réduisons considérablement le temps de calcul des simulations. Bien entendu,
ce temps est fonction du nombre de nœuds alloués à la parallélisation. Nous avons généralement utilisé
entre 24 et 48 processeurs, selon la taille des échantillons.
3.2.1
Estimation de la taille du test
Comme décrit plus haut, le calcul de la taille est basé sur le PGD donné par l’équation (2.1). Les
estimations sont faites pour des variables dépendantes polytomiques ordonnées et non ordonnées avec
2. Ce rang sera dans ce cas, soit 1, soit 2, car la probabilité d’obtenir un ei de exactement 0 ou 1 est infime.
3. Cette approche est celle utilisée par Li et Racine (2013) et elle est particulièrement utile lorsqu’elle est adaptée au cas
des réponses polytomiques.
22
un nombre de classe c ∈ {2, 3, 4, 5} et un nombre d’observations n ∈ {200, 300, 400, 500}. Par ailleurs,
deux types de modèles paramétriques sont estimés à savoir le probit ordonné et le logit multinomial
simple 4 .
D’après le tableau 3.1, les résultats de la simulation montrent que les tailles sont relativement proches
de celles attendues avec les statistiques asymptotiques, ce qui révèle que les tests proposés par Fan
et al. (2006) et Li et Racine (2013) conservent leurs bonnes propriétés en échantillon fini : ils ne
rejettent que rarement l’hypothèse nulle de spécification correct, lorsque le vrai modèle est utilisé
pour établir la probabilité conditionnelle en petit échantillon. Par exemple, pour le modèle probit
binaire avec n=200, les tailles au seuil de 1% , 5% et 10% sont respectivement 1,8% , 8,0% et 16,5%
pour les deux statistiques (lissée et non lissée). Un résultat similaire est obtenu au niveau du modèle
logit binaire. Par ailleurs, quel que soit le type de statistique (lissée ou non lissée), la taille du test ne
varie presque pas. Ce qui confirme les résultats de Li et Racine (2013). De plus, la taille des deux tests
ne s’améliore ni lorsque n croît à nombre égale de modalités, ni quand le nombre c de modalités de la
variable dépendante augmente en conservant la taille de l’échantillon fixe.
TABLE 3.1: Taille basée sur le modele H0 : y∗i = 1 + xi − zi + ui avec M=1000, B=399 et σu = 1
Probit multinomial ordonné
y lissée
y non lissée
Logit multinomial non ordonné
y lissée
y non lissée
n
c
0.01
0.05
0.1
0.01
0.05
0.1
0.01
0.05
0.1
0.01
0.05
0.1
200
300
400
500
2
2
2
2
0.018
0.021
0.015
0.020
0.080
0.085
0.070
0.094
0.165
0.158
0.131
0.164
0.018
0.021
0.015
0.020
0.080
0.085
0.070
0.094
0.165
0.158
0.131
0.164
0.026
0.024
0.017
0.018
0.113
0.087
0.091
0.099
0.174
0.152
0.156
0.174
0.026
0.024
0.017
0.018
0.113
0.087
0.091
0.099
0.174
0.152
0.156
0.174
200
300
400
500
3
3
3
3
0.010
0.019
0.015
0.013
0.078
0.075
0.063
0.066
0.147
0.131
0.127
0.127
0.010
0.019
0.015
0.013
0.079
0.075
0.063
0.066
0.146
0.131
0.127
0.127
0.026
0.039
0.027
0.030
0.108
0.107
0.106
0.116
0.181
0.184
0.197
0.200
0.026
0.039
0.027
0.030
0.108
0.107
0.106
0.116
0.181
0.184
0.197
0.200
200
300
400
500
4
4
4
4
0.018
0.014
0.015
0.017
0.080
0.072
0.062
0.075
0.137
0.130
0.122
0.133
0.020
0.014
0.015
0.017
0.078
0.072
0.062
0.075
0.136
0.130
0.122
0.133
0.030
0.037
0.035
0.037
0.116
0.101
0.129
0.127
0.195
0.194
0.210
0.211
0.030
0.037
0.035
0.037
0.116
0.101
0.129
0.127
0.195
0.194
0.210
0.211
200
300
400
500
5
5
5
5
0.014
0.014
0.010
0.008
0.071
0.057
0.071
0.062
0.142
0.110
0.136
0.121
0.014
0.016
0.010
0.008
0.071
0.057
0.071
0.062
0.143
0.110
0.135
0.121
0.028
0.040
0.032
0.047
0.107
0.122
0.119
0.138
0.181
0.204
0.198
0.229
0.028
0.040
0.032
0.047
0.107
0.122
0.119
0.138
0.181
0.204
0.198
0.229
4. Dans l’article original, le nombre de classes de la variable réponse est tel que c ∈ {2, 3, 5, 7, 9}.
23
3.2.2
Estimation de la puissance du test
Le calcul de la puissance est basé sur trois modèles alternatifs proposés par Fan et al. (2006) et Li et
Racine (2013) comme indiqué dans la section 2.1. Dans le tableau 3.2, l’alternative sinusoïdale (H1a )
conduit à une puissance minimale de 30% approximativement pour les deux types de modèles (probit
ordonné et logit multinomial simple) et pour la grande majorité des seuils critiques. Plus précisément,
la probabilité de rejeter H0 au seuil de 1% sachant qu’elle est fausse est au minimum de ∼ 30%. Cette
probabilité augmente à ∼ 50% si on accepte d’accroitre le risque de se tromper un peu plus souvent,
soit au seuil de 10%. Notons que, lorsque l’on maintient la taille d’échantillon fixe, la puissance du test
ne s’accroît pas nécessairement avec le nombre de modalités de la variable réponse. Comme attendu,
la puissance s’accroît avec n. Pour ce qui est de la puissance selon le type de statistique utilisée (lissée
versus non lissée), il n’y a pas de gain significatif de puissance pour la statistique lissée. Même si
par endroit nous observons des gains de puissance, ceux-ci restent très faibles (de l’ordre de 10−3 ) au
regard de l’aléa attendu.
TABLE 3.2: Puissance basée sur le modele DGP H1a : y∗i = 1+xi −zi +sin(0, 5πxi )+ui avec M=1000,
B=399 et σu = 1
Probit multinomial ordonné
y lissée
y non lissée
Logit multinomial non ordonné
y lissée
y non lissée
n
c
0.01
0.05
0.1
0.01
0.05
0.1
0.01
0.05
0.1
0.01
0.05
0.1
200
300
400
500
2
2
2
2
0.387
0.484
0.599
0.734
0.546
0.628
0.744
0.838
0.616
0.703
0.804
0.873
0.386
0.483
0.600
0.734
0.546
0.628
0.744
0.838
0.616
0.703
0.804
0.873
0.298
0.381
0.494
0.570
0.483
0.590
0.668
0.751
0.575
0.693
0.746
0.837
0.296
0.377
0.494
0.570
0.479
0.590
0.666
0.751
0.573
0.692
0.746
0.835
200
300
400
500
3
3
3
3
0.406
0.585
0.755
0.835
0.583
0.756
0.869
0.926
0.683
0.818
0.902
0.953
0.407
0.584
0.754
0.835
0.582
0.755
0.869
0.925
0.683
0.817
0.902
0.953
0.298
0.437
0.526
0.656
0.486
0.605
0.743
0.822
0.585
0.695
0.814
0.880
0.299
0.431
0.526
0.656
0.483
0.600
0.743
0.821
0.584
0.695
0.814
0.881
200
300
400
500
4
4
4
4
0.415
0.609
0.769
0.866
0.636
0.769
0.886
0.944
0.735
0.828
0.932
0.966
0.413
0.607
0.769
0.866
0.634
0.768
0.885
0.944
0.734
0.828
0.932
0.966
0.313
0.402
0.557
0.634
0.469
0.599
0.723
0.804
0.558
0.692
0.803
0.868
0.312
0.400
0.550
0.633
0.468
0.597
0.721
0.805
0.554
0.692
0.804
0.869
200
300
400
500
5
5
5
5
0.422
0.617
0.784
0.892
0.612
0.786
0.906
0.962
0.727
0.854
0.938
0.976
0.420
0.614
0.783
0.892
0.609
0.786
0.906
0.961
0.727
0.853
0.938
0.976
0.304
0.406
0.530
0.608
0.441
0.586
0.695
0.774
0.517
0.656
0.780
0.861
0.299
0.402
0.530
0.607
0.440
0.585
0.694
0.774
0.528
0.656
0.781
0.859
Pour l’hypothèse alternative quadratique H1b , le tableau 3.3 montre que la puissance du test est supérieure à 90% quel que soit le modèle et le type de statistique utilisé pour tester la spécification
correcte. Les autres résultats pour ce DGP sont similaires aux résultats obtenus sous H1a . Notons en
24
particulier l’absence de gains de puissance en faveur de la statistique lissée.
TABLE 3.3: Puissance basée sur le modele DGP H1b : y∗i = 1 + xi − zi + xi2 + ui avec M=1000, B=399
et σu = 1
Probit multinomial ordonné
y lissée
y non lissée
Logit multinomial non ordonné
y lissée
y non lissée
n
c
0.01
0.05
0.1
0.01
0.05
0.1
0.01
0.05
0.1
0.01
0.05
0.1
200
300
400
500
2
2
2
2
0.934
0.989
0.998
1.000
0.985
0.999
1.000
1.000
0.998
1.000
1.000
1.000
0.934
0.989
0.998
1.000
0.984
0.999
1.000
1.000
0.998
1.000
1.000
1.000
0.836
0.942
0.983
1.000
0.938
0.993
0.997
1.000
0.970
0.998
0.999
1.000
0.834
0.939
0.983
0.999
0.938
0.993
0.997
1.000
0.968
0.998
0.99
1.000
200
300
400
500
3
3
3
3
0.947
0.995
1.000
1.000
0.994
1.000
1.000
1.000
0.997
1.000
1.000
1.000
0.947
0.995
1.000
1.000
0.993
1.000
1.000
1.000
0.997
1.000
1.000
1.000
0.903
0.976
0.996
1.000
0.966
0.998
1.000
1.000
0.983
1.000
1.000
1.000
0.898
0.975
0.996
1.000
0.963
0.997
1.000
1.000
0.983
1.000
1.000
1.000
200
300
400
500
4
4
4
4
0.955
0.996
1.000
1.000
0.993
1.000
1.000
1.000
0.998
1.000
1.000
1.000
0.954
0.995
1.000
1.000
0.991
1.000
1.000
1.000
0.998
1.000
1.000
1.000
0.920
0.989
0.999
1.000
0.974
0.998
1.000
1.000
0.992
0.999
1.000
1.000
0.914
0.988
0.999
1.000
0.973
0.998
1.000
1.000
0.988
0.999
1.000
1.000
200
300
400
500
5
5
5
5
0.965
0.998
1.000
1.000
0.994
1.000
1.000
1.000
0.997
1.000
1.000
1.000
0.964
0.998
1.000
1.000
0.994
1.000
1.000
1.000
0.997
1.000
1.000
1.000
0.911
0.989
0.998
1.000
0.975
1.000
1.000
1.000
0.991
1.000
1.000
1.000
0.902
0.986
0.998
1.000
0.971
0.999
1.000
1.000
0.991
1.000
1.000
1.000
Les résultats du test de puissance pour l’alternative hétéroscédastique sont présentés dans le tableau
3.4. On note les mêmes tendances que pour les alternatives quadratiques et sinusoïdales. La puissance
est virtuellement unitaire lorsque n est supérieur à 300 et lorsque c est supérieur à 3.
D’après nos analyses, les gains de puissance apportés par la statistique lissée sont donc négligeables.
Ces résultats contrastent avec ceux de Li et Racine (2013) qui obtiennent systématiquement des gains
de puissance pour la statistique lissée à tous les seuils critiques. Sous l’hypothèse d’absence d’erreur
de codage, ces différences pourraient être dues à la variance inférieure du terme stochastique du PGD,
supérieure dans nos simulations en comparaison à Li et Racine (2013). Ces auteurs utilisent une
variance quatre fois inférieure pour l’erreur normale. Dans ce contexte, nos paramètres de lissage
pourraient être sous optimaux comparés à ceux de Li et Racine (2013). Sachant que les variables
explicatives de nos modèles sont toutes pertinentes, nous nous attendons à observer peu de surlissage
des fenêtres optimales calculées par validation croisée par les moindres carrés. Le tableau 3.5 donne
donc la proportion de paramètres de lissage qui peut être considérée comme excessivement large
pour les 1000 simulations de Monte Carlo, en fonction de la taille de l’échantillon et du nombre de
modalités de la variable dépendante. Dans ce tableau, nous nous concentrons sur le PGD considéré
25
TABLE 3.4: Puissance basée sur le modele DGP H1c : y∗i = 1 + xi − zi + xi ui avec M=1000, B=399 et
σu = 1
Probit multinomial ordonné
y lissée
y non lissée
Logit multinomial non ordonné
y lissée
y non lissée
n
c
0.01
0.05
0.1
0.01
0.05
0.1
0.01
0.05
0.1
0.01
0.05
0.1
200
300
400
500
2
2
2
2
0.877
0.982
0.998
0.998
0.951
0.995
1.000
1.000
0.971
0.998
1.000
1.000
0.876
0.982
0.998
0.998
0.951
0.995
1.000
1.000
0.971
0.998
1.000
1.000
0.781
0.938
0.989
0.996
0.913
0.986
0.998
0.998
0.954
0.992
0.999
1.000
0.778
0.935
0.989
0.996
0.909
0.984
0.997
0.998
0.953
0.990
0.999
1.000
200
300
400
500
3
3
3
3
0.993
1.000
1.000
1.000
0.998
1.000
1.000
1.000
0.998
1.000
1.000
1.000
0.993
1.000
1.000
1.000
0.998
1.000
1.000
1.000
0.998
1.000
1.000
1.000
0.996
1.000
1.000
1.000
0.998
1.000
1.000
1.000
0.998
1.000
1.000
1.000
0.995
1.000
1.000
1.000
0.998
1.000
1.000
1.000
0.998
1.000
1.000
1.000
200
300
400
500
4
4
4
4
0.997
1.000
1.000
1.000
0.999
1.000
1.000
1.000
0.999
1.000
1.000
1.000
0.997
1.000
1.000
1.000
0.999
1.000
1.000
1.000
0.999
1.000
1.000
1.000
0.999
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
0.998
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.00
1.000
1.000
1.000
200
300
400
500
5
5
5
5
0.995
1.000
1.000
1.000
0.998
1.000
1.000
1.000
0.999
1.000
1.000
1.000
0.995
1.000
1.000
1.000
0.997
1.000
1.000
1.000
0.999
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
sous H1a : plus de 15% des fenêtres de lissage continues (variable x) peuvent être considérées comme
excessivement larges 5 . Cette proportion peut même être supérieure pour les autres PDG utilisés 6 . Le
surlissage n’est pas un problème avec les variables discrètes réponse et explicative du modèle car il n’y
virtuellement pas de surlissage. Cela pourrait vouloir dire que l’accroissement de puissance établi par
Li et Racine (2013) pourrait ne pas avoir la portée générale souhaitée dans les applications pratiques.
Si cette explication était plausible, nous devrions probablement constater certaines distorsions de taille
et de puissance dans nos simulations par rapport à celles de Li et Racine (2013), dues à une estimation
moins performante du modèle non paramétrique. Or, ce n’est pas ce que nous constatons. De plus,
des simulations menées 7 avec la variance utilisée par Li et Racine (2013) ne nous permettent pas non
plus de constater les gains de puissance établis par ces auteurs par rapport à la statistique de Fan et al.
(2006). Dans notre cas, nous concluons donc que les gains de puissance apportés par le lissage de la
variable réponse ne concordent pas avec ceux établis par Li et Racine (2013) et qu’ils mériteraient
peut-être d’être confirmés ou infirmés par d’autres simulations.
1
5. Le seuil informel de ‘surlissage’ du paramètre de lissage est fixé à 0.75n q+4 pour la variable continu et à 0.75 c−1
c
pour la variable discrète. Ces seuils correspondent aux valeurs asymptotiques définies par le Lemme 2.1.
6. Ces résultats n’ont pas été reportés ici.
7. Ces résultats sont disponibles sur demande.
26
TABLE 3.5: Fenêtres de lissage conditionnelles, DGP H1a : y∗i = 1 + xi − zi + sin(0, 5πxi ) + ui avec
M=1000, ui ∼ N(0, 1)
x
z
y
n
200
200
200
200
c
2
3
4
5
Moy
0.242
0.257
0.270
0.285
Med
0.252
0.263
0.275
0.288
Seuil
0.310
0.310
0.310
0.310
Rejet
0.169
0.232
0.293
0.356
Moy
0.091
0.100
0.109
0.116
Med
0.073
0.086
0.100
0.105
Seuil
0.375
0.375
0.375
0.375
Rejet
0.019
0.010
0.010
0.006
Moy
0.001
0.003
0.004
0.005
Med
0.000
0.000
0.000
0.000
Seuil
0.375
0.500
0.562
0.600
Rejet
0.000
0.000
0.000
0.000
300
300
300
300
2
3
4
5
0.224
0.238
0.251
0.260
0.230
0.244
0.259
0.267
0.290
0.290
0.290
0.290
0.148
0.197
0.272
0.329
0.064
0.074
0.082
0.088
0.052
0.067
0.075
0.083
0.375
0.375
0.375
0.375
0.005
0.001
0.002
0.001
0.001
0.001
0.002
0.003
0.000
0.000
0.000
0.000
0.375
0.500
0.562
0.600
0.000
0.000
0.000
0.000
400
400
400
400
2
3
4
5
0.213
0.227
0.239
0.249
0.219
0.234
0.246
0.253
0.276
0.276
0.276
0.276
0.158
0.178
0.256
0.330
0.046
0.057
0.064
0.069
0.040
0.052
0.059
0.065
0.375
0.375
0.375
0.375
0.000
0.000
0.000
0.000
0.000
0.000
0.001
0.001
0.000
0.000
0.000
0.000
0.375
0.500
0.562
0.600
0.000
0.000
0.000
0.000
500
500
500
500
2
3
4
5
0.204
0.217
0.229
0.238
0.209
0.220
0.234
0.241
0.266
0.266
0.266
0.266
0.121
0.159
0.227
0.296
0.039
0.047
0.055
0.060
0.035
0.044
0.051
0.057
0.375
0.375
0.375
0.375
0.000
0.000
0.000
0.000
0.000
0.000
0.001
0.001
0.000
0.000
0.000
0.000
0.375
0.500
0.562
0.600
0.000
0.000
0.000
0.000
27
Conclusion
L’adéquation entre les formes fonctionnelles postulées par l’économiste et les relations observées dans
les données demeure un sujet important de préoccupation en recherche appliquée, en particulier quand
il s’agit de décrire et d’extrapoler des choix individuels. Les estimateurs non paramétriques par noyaux
mixtes (continus et discrets) permettent de tester l’adéquation entre les densités conditionnelles postulées et les choix observés. Ces estimateurs fournissent également un modèle flexible utilisable en
cas de rejet de la fonction de probabilité postulée.
Nos simulations confirment que les tests récemment proposés par Fan et al. (2006) et Li et Racine
(2013) présentent de bonnes propriétés statistiques en échantillon fini (taille et puissance). Ces tests
identifient de manière statistiquement fiable le vrai modèle (bonne taille) lorsque ce dernier est un
logit/probit polytomique ordonné ou non ordonné. Ils rejettent ces mêmes modèles avec une fréquence
élevée (bonne puissance) lorsque le chercheur omet des non linéarités ou de l’hétéroscédasticité dans
son modèle. Par contre, nous n’avons pas pu confirmer les gains de puissances systématiques mis en
avant par Li et Racine (2013) par rapport au test de Fan et al. (2006). D’après nos simulations, le
lissage de la variable dépendante discrète n’entraîne pas de gains significatifs de puissance par rapport
à une situation ou seul la variable explicative discrète est lissée. Nous n’avons donc trouvé aucune
raison de privilégier l’un des deux tests en échantillon fini.
Les deux tests peuvent être relativement aisément programmés sur R si l’on emploie les fonctions
fournies dans le package np. Nous recommandons l’utilisation de fenêtres de lissage optimales par
la méthode de validation croisée par moindres carrés, comme suggéré par Fan et al. (2006) et Li et
Racine (2013). Pour des échantillons de grande taille (> 1000 observations) et avec plusieurs variables
explicatives, la librairie npRmpi de R permet de paralléliser aisément le calcul de ces fenêtres dans un
environnement Open MPI. Dans la pratique, il n’est pas rare que la validation croisée par les moindres
carrés conduise à des fenêtres optimales sous-lissées. Le sous-lissage peut se révéler frustrant lorsqu’il
affecte une variable explicative continue. Le chercheur devra alors recourir à des fenêtres de lissage
‘sous-optimales’ selon ce critère pour établir une relation lisse entre la variable explicative et la probabilité conditionnelle. Il serait donc intéressant de répéter nos simulations pour vérifier la performance
des tests avec différentes méthodes de sélection des paramètres de lissage. Une autre extension utile
serait d’explorer la taille et la puissance du test lorsque l’on accroît le nombre de variables explicatives
continues. Cela permettrait de quantifier l’impact du ‘curse of dimentionality’ (trappe de la dimension)
29
sur la performance du test. En effet, dans la pratique, la probabilité conditionnelle implique de plusieurs facteurs explicatifs discrets et continus.
30
Annexe A
Annexes
A.1
Lemme et théorèmes utilisés
Lemme 2.1 (Li et Racine, 2013)
Sous les conditions de régularité données par Hall et al. (2004)
1/
p
n (q + 4) ĥs → h0s ∀ s = 1, ..., q,
2/
p
n (q + 4) λ̂s → λs0 ∀ s = 0, ..., r, où h0s > 0, λs0 > 0 sont des constantes fines, r + 1 le nombre de variables discrètes y compris la variable dépendante, q le nombre de variables explicatives continues.
Théorème 2.1 (Li et Racine, 2013) 1
Supposons que y est une variable discrète non ordonnée. Sous les conditions de régularité données par
Fan et al. (2006) et en définissant Tn,nsγ̂ =
n(ĥ1 ĥ2 ...ĥq )1/2Wn,nsγ̂
√
V̂n,γ̂
, alors :
d
(i) Sous H0 , Tn,nsγ̂ → N(0, 1) ;
(ii) Sous H1 , Pr[Tn,nsγ̂ > Bn ] → 1, pour toute suite de Bn = o(n(h1 ...hq ))1/2 .
Théorème 2.2 (Li et Racine, 2013)
Supposons que y est une variable discrète ordonnée 2 . Sous les conditions de régularité données par
Fan et al. (2006) et en définissant Tn,s γ̂ =
n(ĥ1 ĥ2 ...ĥq )1/2Wn,s γ̂
√
V̂n,γ̂
, alors :
d
(i) Sous H0 , Tn,nsγ̂ → N(0, 1) ;
(ii) Sous H1 , Pr[Tn,nsγ̂ > Bn ] → 1, pour toute suite de Bn = o(n(h1 ...hq ))1/2 .
1. Pour la démonstration de ces théorèmes voir Li et Racine (2013).
2. La différence entre le Théorème 2.1 et 2.2 réside dans le calcul des fenêtres de lissage optimales, (1.17) et (1.18).
31
Théorème 2.3 (Li et Racine, 2013) pour la validation asymptotique du bootstrap
Supposons que y est une variable discrète non ordonnée. Supposons les conditions du théorème 2.1
sont vérifiées à l’exception de l’hypothèse nulle, et en définissant Tn,ns∗
γ̂ =
définie comme Vn,γ̂ sauf que yi est remplacé par y∗i alors
n(ĥ1 ĥ2 ...ĥq )1/2Wn,ns∗
γ̂
q
V̂n,∗ γ̂
où Vn,∗γ̂ est
sup |P(Tnns∗ ≤ z|{xi , yi }ni=1 ) − Φ(z)| = o p (1)
z∈R
avec Φ(.) la fonction de répartition de la loi normale standard.
Théorème 2.4 (Li et Racine, 2013) pour la validation asymptotique du bootstrap
Supposons que y est une variable discrète ordonnée. Supposons les conditions du théorème 2.2 sont
vérifiées à l’exception de l’hypothèse nulle, et en définissant Tn,ns∗
γ̂ =
comme Vn,γ̂ sauf que yi est remplacer par y∗i alors
n(ĥ1 ĥ2 ...ĥq )1/2Wn,ns∗
γ̂
q
V̂n,∗ γ̂
sup |P(Tnns∗ ≤ z|{xi , yi }ni=1 ) − Φ(z)| = o p (1)
z∈R
avec Φ(.) la fonction de répartition de la loi normale standard.
32
où Vn,∗γ̂ est définie
Bibliographie
Agresti, A. (2002). Categorical Data Analysis. John Wiley and Sons, Inc., Hoboken, New Jersey,
second edition.
Aitchison, J. and Aitken, C. G. G. (1976). Multivariate binary discrimination by the kernel method.
Biometrika, 63(3) :413–420.
Amemiya, T. (1985). Advanced Econometrics. Library of Congress Cataloging in Publication Data.
Analytics, R. and Weston, S. (2014a). doSNOW : Foreach parallel adaptor for the snow package. R
package version 1.0.12.
Analytics, R. and Weston, S. (2014b). foreach : Foreach looping construct for R. R package version
1.4.2.
Andrews, D. W. K. (1988a). Chi-square diagnostic tests for econometric models : Introduction and
applications. Journal of Econometrics, 37(1) :135–156.
Andrews, D. W. K. (1988b). Chi-square diagnostic tests for econometric models : Theory. Econometrica, 56(6) :1419–1453.
Andrews, D. W. K. (1997). A conditional kolmogorov test. Econometrica, 65(5) :1097–1128.
Blevins, J. R. and Khan, S. (2013). Local nlls estimation of semi-parametric binary choice models.
Econometrics Journal, 16(2) :135–160.
Cameron, A. C. and Trivedi, P. K. (2005). Microeconometrics. Cambridge Univ. Press, Cambridge
[u.a.].
Cragg, J. G. (1971). Some statistical models for limited dependent variables with application to the
demand for durable goods. Econometrica, 39(5) :829–844.
Croissant, Y. (2013). mlogit : multinomial logit model. R package version 0.2-4.
Fan, Y., Li, Q., and Min, I. (2006). A nonparametric bootstrap test of conditional distributions. Econometric Theory, 22(04) :587–613.
33
Flachaire, E. (2005). Propriétés en échantillon fini des tests robustes à l’hétéroscédasticité de forme
inconnue. Université Paris1 Panthéon-Sorbonne (Post-Print and Working Papers) halshs-00175905,
HAL.
Hall, P., Racine, J., and Li, Q. (2004). Cross-validation and the estimation of conditional probability
densities. Journal of the American Statistical Association, 99 :1015–1026.
Hausman, J. and McFadden, D. (1984). Specification tests for the multinomial logit model. Econometrica, 52(5) :1219–1240.
Hausman, J. A. (1978). Specification tests in econometrics. Econometrica, 46(6) :1251–1271.
Hayfield, T. and Racine, J. S. (2008). Nonparametric econometrics : The np package. Journal of
Statistical Software, 27(5).
Heckman, J. J. (1984). The χ 2 Goodness of Fit Statistic for Models with Parameters Estimated from
Microdata. Econometrica, 52(6) :1543–47.
Herbrich, R. (2001). Learning Kernel Classifiers : Theory and Algorithms. The MIT Press.
Horowitz, J. L. (1992). A smoothed maximum score estimator for the binary response model. Econometrica, 60(3) :505–531.
Horowitz, J. L. and Louviere, J. J. (1993). Testing predicted choices against observations in probabilistic discrete-choice models. Marketing Science, 12(3) :270–279.
Klein, R. W. and Spady, R. H. (1993). An efficient semiparametric estimator for binary response
models. Econometrica, 61(2) :387–421.
Kullback, S. and Leibler, R. A. (1951). On information and sufficiency. Ann. Math. Statist., 22(1) :79–
86.
Li, C. and Racine, J. S. (2013). A smooth nonparametric conditional density test for categorical
responses. Econometric Theory, 29(03) :629–641.
Li, Q. and Racine, J. (2003). Nonparametric estimation of distributions with categorical and continuous data. Journal of Multivariate Analysis, 86(2) :266–292.
Li, Q. and Racine, J. S. (2007). Nonparametric Econometrics : Theory and Practice. Princeton
University Press, Princeton.
Li, Q. and Racine, J. S. (2008). Nonparametric estimation of conditional cdf and quantile functions
with mixed categorical and continuous data. Journal of Business & Economic Statistics, 26 :423–
434.
Long, J. S. (1997). Regression Models for Categorical and Limited Dependent Variables. SAGE
Publications, International Educational and Professional Publisher.
34
MacKinnon, J. G. (2006). Bootstrap methods in econometrics. Working Papers 1028, Queen’s University, Department of Economics.
Maddala, G. (1983). Limited Dependent and Qualitative Variables in Econometrics. Cambridge
University Press.
Manski, C. F. (1975). Maximum score estimation of the stochastic utility model. Journal of Econometrics, 3 :205–228.
Matzkin, R. L. (1992). Nonparametric and distribution-free estimation of the binary threshold crossing
and the binary choice models. Econometrica, 60(2) :239–270.
Matzkin, R. L. (1993). Nonparametric identification and estimation of polychotomous choice models.
Journal of Econometrics, 58(1-2) :137–168.
McFadden, D. (1974). The measurement of urban travel demand. Journal of Public Economics,
3(4) :303–328.
Pratt, J. W. (1981). Concavity of log likelihood. American Statistical Association, 76(376) :103–106.
R Core Team (2014). R : A Language and Environment for Statistical Computing. R Foundation for
Statistical Computing, Vienna, Austria.
Racine, J., Li, Q., and Zhu, X. (2004). Kernel estimation of multivariate conditional distributions.
Annals of Economics and Finance, 5(2) :211–235.
Silverman, B. W. (1986). Density Estimation for Statistics and Data Analysis. Chapman & Hall,
London.
Venables, W. N. and Ripley, B. D. (2002). Modern Applied Statistics with S. Springer, New York,
fourth edition. ISBN 0-387-95457-0.
Wang, M.-C. and van Ryzin, J. (1981). A class of smooth estimators for discrete distributions. Biometrika, 68(1) :301–309.
Wooldridge, J. M. (1992). A test for functional form against nonparametric alternatives. Econometric
Theory, 8(04) :452–475.
Zheng, J. X. (2000). A Consistent Test Of Conditional Parametric Distributions. Econometric Theory,
16(05) :667–691.
35