Tests non paramétriques de spécification pour densité conditionnelle : application à des modèles de choix discret Mémoire Koami Dzigbodi AMEGBLE Maîtrise en économique Maître ès arts (M.A.) Québec, Canada © Koami Dzigbodi AMEGBLE, 2015 Résumé Dans ce travail, nous étudions la performance statistique (taille et puissance) en échantillon fini de deux tests non paramétriques de spécification pour densité conditionnelle proposés par Fan et al. (2006) et Li et Racine (2013). Ces tests permettent de vérifier si les probabilités conditionnelles postulées dans les modèles de choix discret (logit/probit multinomial à effets fixes ou aléatoires, estimateur de Klein et Spady (1993), etc) représentent correctement les choix observés. Par rapport aux tests existants, cette approche a l’avantage d’offrir une forme fonctionnelle flexible alternative au modèle paramétrique lorsque ce dernier se révèle mal spécifié. Ce modèle alternatif est directement issu de la procédure de test et il correspond au modèle non contraint obtenu par des produits de noyaux continus et discrets. Les deux tests explorés ont une puissance en échantillon fini supérieure aux tests existants. Cette performance accrue s’obtient en combinant une procédure bootstrap et l’utilisation de paramètres de lissage des fonctions noyaux par validation croisée par les moindres carrés. Dans notre application, nous parallélisons les calculs de taille et de puissance, ainsi que l’estimation des fenêtres de lissage, sur un serveur multi-processeurs (Colosse, de Calcul Québec). Nous utilisons des routines "Open MPI" pré-implémentées dans R. Par rapport aux simulations effectuées dans les articles originaux, nous postulons des modèles plus proches de ceux habituellement utilisés dans la recherche appliquée (logit et probit à variance unitaire notamment). Les résultats des simulations confirment les bonnes taille et puissance des tests en échantillon fini. Par contre, les gains additionnels de puissance de la statistique lissée proposée par Li et Racine (2013) se révèlent négligeables dans nos simulations. —————————— Mots clés : Bootstrap, choix discret, densité conditionnelle, Monte Carlo, produit de noyaux, puissance, taille. iii Table des matières Résumé iii Table des matières v Liste des tableaux vii Avant-propos ix Introduction 1 1 3 3 2 3 Revue de littérature 1.1 Tests de spécification pour densités conditionnelles sans noyaux continus et discrets 1.2 Tests de spécification pour les densités conditionnelles avec noyaux continus et discrets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Méthodologie d’estimation 2.1 Démarche méthodologique . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Processus de génération des données sous les hypothèses nulle et alternative 2.3 Estimation paramétrique de la densité conditionnelle . . . . . . . . . . . . 2.4 Estimation non paramétrique . . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Simulations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 . . . . . 11 11 12 13 16 18 Application 3.1 Calcul de la taille et la puissance des tests sur R . . . . . . . . . . . . . . . . . . 3.2 Résultats et interprétation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 21 22 . . . . . . . . . . Conclusion 29 A Annexes A.1 Lemme et théorèmes utilisés . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 31 Bibliographie 33 v Liste des tableaux 3.1 3.2 3.3 3.4 3.5 Taille basée sur le modele H0 : y∗i = 1 + xi − zi + ui avec M=1000, B=399 et σu = 1 . Puissance basée sur le modele DGP H1a : y∗i = 1 + xi − zi + sin(0, 5πxi ) + ui avec M=1000, B=399 et σu = 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Puissance basée sur le modele DGP H1b : y∗i = 1 + xi − zi + xi2 + ui avec M=1000, B=399 et σu = 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Puissance basée sur le modele DGP H1c : y∗i = 1 + xi − zi + xi ui avec M=1000, B=399 et σu = 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Fenêtres de lissage conditionnelles, DGP H1a : y∗i = 1 + xi − zi + sin(0, 5πxi ) + ui avec M=1000, ui ∼ N(0, 1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 24 25 26 27 vii Avant-propos Ce travail n’aurait pu être réalisé sans l’aide de mon directeur de recherche, le Professeur Carlos Ordás Criado, et de mon co-directeur, le Professeur Guy Lacroix. Je leur suis profondément reconnaissant pour leur assistance et leurs conseils. Je remercie le troisième lecteur de ce mémoire, Charles Bellemare, pour sa lecture et ses remarques. Je voudrais exprimer plus particulièrement ma gratitude au Professeur Carlos Ordás Criado pour son apport sur les méthodes non paramétriques, ainsi que pour son généreux support financier. Je suis reconnaissant au corps professoral du département d’économique pour l’enseignement de qualité qu’il m’a apporté. Pour finir, je tiens à remercier mes camarades de maîtrise, mes collègues de la Chaire de Recherche Aéroportuaire, mes amis, mes parents, ma femme ainsi que ma fille pour leurs soutiens moral et psychologique, et enfin au Créateur de l’univers pour m’avoir accordé la vie et la santé. ix Introduction Les économistes utilisent différents types de modèles pour analyser les choix de consommation des individus. Lorsque ces choix sont de nature discrète (décisions liées aux modes de transports, choix entre différentes politiques publiques, entrée ou non sur le marché du travail), le modèle le plus couramment utilisé est celui de l’utilité aléatoire. Cette approche impose un certain nombre de restrictions qui permettent aux économistes de relier les choix observés à des mécanismes de décision. À titre d’exemple, les modèles classiques de choix discrets de McFadden (1974) ou Maddala (1983) postulent que les variables explicatives constituent un indice linéaire et que la probabilité conditionnelle est logistique ou normale (logit ou probit). Or, rien ne garantit que cette formulation ne décrit adéquatement les choix observés, conditionnellement aux variables explicatives qui sont pertinentes du point de vue de la théorie économique. Un mécanisme comportemental compatible avec la réalité observée est pourtant crucial pour valider les recommandations de politiques économiques et les analyses de bien-être issues des modèles d’utilité aléatoire. De nombreux modèles de choix discret ont été proposés afin de permettre une plus grande flexibilité dans la fonction de probabilité et de réduire différentes sources de biais dans l’estimation. Les formulations flexibles les plus populaires sont l’estimateur semi-paramétrique de Klein et Spady (1993), celui du score maximum de Manski (1975) ou la version lissée proposée par Horowitz (1992), les algorithmes de Matzkin (1992, 1993) ou encore l’estimateur de Blevins et Khan (2013). Plusieurs tests statistiques permettent de comparer des modèles paramétriques et semi-paramétriques dans ce contexte. On trouve également dans la littérature économétrique des tests généraux de spécification pour densités conditionnelles. Par exemple, Andrews (1988a,b, 1997) propose différentes extensions du test de Khi-deux de Pearson et du test de Kolmogorov-Smirnov. Ces tests sont néanmoins non constructifs, car ils n’offrent pas d’alternative satisfaisante en cas de rejet de la probabilité conditionnelle postulée. De plus, ils obligent souvent le chercheur à utiliser des estimations locales basées sur un faible nombre d’observations, sans exploiter de manière optimale l’information se trouvant dans le voisinage des régions peu denses du support. De récents développements sur l’estimation non paramétrique de densités par noyau ont permis de remédier à ces déficiences. Le premier pas a été donné par le travail pionnier de Li et Racine (2003), qui propose d’utiliser la méthode non paramétrique du noyau pour estimer de manière lisse les densités jointes d’un mélange de variables aléatoires discrètes et continues. La principale innovation de cette 1 recherche est d’introduire des noyaux discrets lissés, qui permettent d’estimer la probabilité jointe sans réduire en sous-échantillons le support de la distribution. Cette méthode ajoute du biais dans l’estimation de la densité mais elle réduit sa variance. Dans des travaux ultérieurs, Hall et al. (2004), Racine et al. (2004) et Li et Racine (2008) étendent leurs estimateurs aux densités/probabilités conditionnelles, à la régression par noyaux et aux quantiles conditionnels. Hall et al. (2004) montrent que le choix du paramètre de lissage de la fonction noyau par validation croisée par les moindre carrés permet d’exclure asymptotiquement les variables explicatives non pertinentes dans le cadre de l’estimation conditionnelle. Ils montrent également que cette validation croisée génère des gains de performance prévisionnel ‘hors-échantillon’, même en échantillon fini. Des tests formels d’adéquation pour les densités conditionnelles sont proposés par Fan et al. (2006), et par Li et Racine (2013), où les résultats mis en lumière par Hall et al. (2004) sont exploités. L’objectif principal du présent travail de maîtrise est de répliquer les deux tests proposés par Fan et al. (2006) et Li et Racine (2013), afin de vérifier si les résultats publiés sur leur taille et leur puissance restent valides en échantillon fini dans le cadre de l’hypothèse standard de variance unitaire des modèles probit et logit (polytomique ordonné et non ordonné). Fan et al. (2006) proposent un test qui omet de lisser le variable réponse discrète de la densité conditionnelle mais qui lisse les variables explicatives discrètes. Li et Racine (2013) proposent de lisser toutes les variables discrètes présentent dans la densité conditionnelle, la variable réponse discrète incluse. L’implémentation de ces tests n’étant pas disponible sur R, nous décrivons les grandes étapes de cette implémentation. Les résultats de nos simulations en échantillon fini indiquent que les deux tests présentent une bonne taille et qu’ils sont puissants contre des alternatives non linéaires et hétéroscédastiques. Cependant, nous obtenons des différences de puissance très faibles quand nous comparons la performance des deux tests. Ceci contraste avec les résultats de Li et Racine (2013), qui obtiennent systématiquement des puissances supérieures par rapport à la version ‘semi-lissée’ de la statistique de Fan et al. (2006), et ceci pour tous les seuils critiques. Ce travail est structuré en trois chapitres. Au chapitre 1, nous passons en revue les procédures mises en place pour tester l’adéquation des probabilités conditionnelles des principaux modèles de choix discrets. Le chapitre 2 décrit les procédures d’estimations et de tests. Notons que les simulations requièrent l’estimation de paramètres de lissages par validation croisée par les moindres carrés. Par conséquent, une parallélisation de la procédure est souhaitable, pour obtenir des résultats dans un délai raisonnable. Le chapitre 3 commente les résultats et nous terminons ce mémoire en récapitulant nos résultats et en offrant quelques recommandations pour l’implémentation du test sur R. 2 Chapitre 1 Revue de littérature La littérature économétrique propose de nombreuses approches pour tester la spécification ou l’adéquation des densités conditionnelles postulées par les chercheurs. On peut distinguer entre les approches qui se basent sur des fonctions paramétriques sous l’hypothèse alternative (Hausman, 1978; Hausman et McFadden, 1984; Horowitz et Louviere, 1993) et celles qui utilisent des formes fonctionnelles non paramétriques. Ces dernières approches ayant l’avantage d’être plus robustes à des erreurs de spécification sous l’hypothèse alternative, nous nous concentrons sur ces dernières. Dans cette classe de méthodes, nous distinguons encore deux grandes catégories : celles qui utilisent une discrétisation du support sans référence explicite à l’estimation par noyau et celles qui emploient des noyaux (avec détermination d’une fenêtre optimale de lissage). Sans être exhaustif, ce chapitre propose une revue des principaux tests généralement discutés lorsque l’on s’intéresse aux tests non paramétriques de densités conditionnelles. Nous mettons l’accent sur l’aspect le plus pratique de cette discussion : leur performance en échantillon fini. 1.1 Tests de spécification pour densités conditionnelles sans noyaux continus et discrets Dans cette section, nous nous concentrons sur deux tests qui n’utilisent pas la méthode des noyaux, ceux proposés par Andrews dans ses travaux de 1988 et 1997. Cet auteur dérive des tests qui utilisent des approches non paramétriques basées sur l’idée générale des tests de Khi-deux de Pearson et de Kolmogorov. Ils ont l’avantage d’être puissants contre toute alternative locale à l’hypothèse. 1.1.1 Test de Andrews (1988, 1997) Andrews (1988a,b) propose un test de Khi-deux conditionnel pour vérifier la spécification de la densité conditionnelle des modèles paramétriques (voir également Heckman (1984)). Il s’agit d’une extension du test de Khi-deux de Pearson, applicable aux différents modèles (transversaux) de réponses discrètes (logit et probit polytomiques, régression SUR, équations simultanées, etc). 3 Sous l’hypothèse nulle, la densité conditionnelle de Yi (variable dépendante pour l’observation i) sachant Xi (vecteur de variables explicatives pour cette observation) appartient à la famille de densité conditionnelle ( f (y|x, θ ) : θ ∈ Θ) qui respecte une mesure σ -finie. Le terme Θ représente l’espace des paramètres. L’hypothèse alternative est que la distribution conditionnelle est mal spécifiée. Le test est basé sur le partitionnement du support de la densité conditionnelle en cellules disjointes et la comparaison entre les probabilités empiriques issues de l’échantillon et les probabilités prédites par le modèle postulé pour ces cellules. Il note par Γ un élément aléatoire de la classe des partitions Y × X, dont Γ̂ est l’estimateur. La mesure de divergence utilisée est basée sur l’écart entre les effectifs observés et les effectifs conditionnels prédits. Plus précisément, cette distance est donnée par l’expression : vn (Γ̂, θ̂ ) = √ n Pn (Γ̂) − Fn (Γ̂, θ̂ ) , (1.1) où Pn représente la distribution conditionnelle empirique du couple {(Yi , Xi ), i = 1, ..., n}, Fn est la distribution conditionnelle paramétrique estimée de Yi sachant Xi . Soit Ŵ un estimateur convergent de l’inverse généralisé de Σ0 (la vraie matrice de dispersion sous H0 ). Sous l’hypothèse nulle, la distribution asymptotique de l’expression (1.1) est normale, de moyenne nulle et de matrice de dispersion Σ0 . En utilisant la distance quadratique est en divisant par l’écart-type, nous obtenons la statistique de test : 0 Xn2 (Γ̂, θ̂ ) = vn (Γ̂, θ̂ )Ŵ vn (Γ̂, θ̂ ) (1.2) Sous H0 , l’expression (1.2) est distribuée asymptotiquement selon un Khi-deux dont les degrés de liberté sont donnés par le rang de Σ0 . Andrews (1988b) vérifie la performance du test en échantillon fini à l’aide d’un modèle de régression censurée 1 . Il teste le DGP sous H0 contre deux alternatives symétriques (à queues mince puis épaisse), une version asymétrique de ce même DGP, ainsi que contre le modèle censuré proposé par Cragg (1971). Il calcule la taille du test avec 5000 réplications Monte Carlo sur des échantillons finis de taille 100 et 250. Ses résultats révèlent que le test est de bonne taille et puissant contre toute alternative. Ce test non paramétrique se révèle plus puissant que les tests paramétriques développés par Hausman (1978), Hausman et McFadden (1984). Dans la continuité de ses travaux, Andrews (1997) propose un test de spécification pour densités conditionnelles de type Kolmogorov (appelé Kolmogorov Conditionnel, KC). Ce test est une extension du test traditionnel d’adéquation de Kolmogorov pour les distributions non conditionnelles. L’hypothèse nulle (de bonne spécification du modèle paramétrique) s’écrit : H0 : H(y|x) = F(y|x, θ ) pour un certain θ ∈ Θ, (1.3) où F(y|x, θ ) est la fonction de répartition de Yi conditionnellement aux vecteurs de variables explicatives Xi = x, et au vecteur de paramètres θ , Θ est l’espace des paramètres, H(y|x) est la vraie fonction de répartition conditionnelle, et f (y|x, θ ) est la fonction de densité respectant une mesure σ -finie (pas 0 1. Plus précisément, le processus de génération de données est Yi = c + Xi β +Ui > 0 et 0 sinon, avec (Ui |Xi ) ∼ N(0, 1) sous H0 . 4 nécessairement la mesure de Lebesgue). L’auteur estime θ par un estimateur θ̂ qui converge vers θ0 . La statistique de test est une distance maximisée (Max), différente de l’habituel supremum (Sup) utilisé dans le test standard de Kolmogorov : CKn = où F̂n (z, θ̂ ) = 1 n √ n max | Ĥn (Z j ) − F̂n (Z j , θ̂ ) | (1.4) j≤n n ∑ F(y|Xi , θ )I(Xi ≤x) avec z = (y, x). i=1 Sous H0 la distribution asymptotique de la statistique dépend des paramètres de nuisances θ̂ (ou θ0 quand il est connu) et de G, la fonction de répartition empirique de X. La performance du test en échantillon fini s’obtient par une procédure de bootstrap paramétrique. Dans l’article, l’auteur utilise un modèle logit multinomial sous H0 . La taille du test est calculée avec 4000 réplications de Monte Carlo pour les échantillons de petite taille et 2000 réplications pour les échantillons de grande taille. Il utilise des bootstrap de taille 299 dans les deux cas. Il montre que le test est puissant contre les alternatives locales à 1.2 √1 -convergent n et contre toutes alternatives fixes à l’hypothèse nulle 2 . Tests de spécification pour les densités conditionnelles avec noyaux continus et discrets L’un des défauts du test d’Andrews (1997) est qu’il ne propose pas directement d’alternative à la densité conditionnelle paramétrique rejetée. Les tests basés sur l’estimateur du noyau offrent directement cette spécification alternative, mais leur performance dépend du choix d’un paramètre de lissage optimal. Ces dernières années, certaines méthodes de sélection du paramètre de lissage ont révélé des propriétés intéressantes : (i) elles permettent de combiner de manière optimale de l’information sur des supports discrets et peu denses, (ii) elles détectent automatiquement les variables pertinentes dans le conditionnement. Nous abordons à présent dans cette section les tests proposés par Zheng (2000), Fan et al. (2006), et Li et Racine (2013). Tous ces tests utilisent une approche non paramétrique basée sur l’estimation par noyau et ils se complètent dans leur démarche méthodologique. Dans cette section, nous utilisons les notations originales des auteurs, pour faciliter la comparaison avec les articles originaux. 1.2.1 Test proposé par Zheng (2000) Zheng (2000) est le précurseur de la série de tests non paramétriques qui utilisent l’approche par la méthode du noyau pour tester l’adéquation de la densité conditionnelle postulée par le chercheur. Soit {yi , xi }i=1,..,n une observation d’un échantillon aléatoire indépendante et identiquement distribuée provenant d’une famille de loi de densité jointe p(y, x), où yi un vecteur de l variables dépendantes, tel que yi ∈ Rl et xi un vecteur de m variables explicatives, tel que xi ∈ Rm . 2. C’est une séquence d’alternatives de densité conditionnelle qn (y|x) = f (y|x, θ0 ) + voisinage de l’hypothèse nulle. d(z) √ , n qui sont des perturbations au 5 Soit p(y|x) la densité conditionnelle de y sachant x. Comme annoncé plus haut, Zheng s’intéresse à tester p(y|x) à l’intérieur d’une famille de densité conditionnelle paramétrique. Soit Θ l’espace des paramètres 3 , un sous-ensemble compact et convexe de Rk . La densité conditionnelle paramétrique de y sachant x étant donné θ0 est définie par f (y|x, θ0 ). Zheng cherche une procédure de test qui permet de départager les deux hypothèses suivantes : H0 : P(p(y|x) = f (y|x, θ0 )) = 1 , pour un θ0 ∈ Θ donné, contre H1 : P(p(y|x) = f (y|x, θ )) < 1 ∀θ ∈ Θ Pour mesurer la différence entre p(y|x) et f (y|x, θ0 ) sous l’hypothèse nulle, Zheng (2000) choisit le critère d’information de divergence de Kullback et Leibler (1951) en encore la mesure d’entropie relative. Ce critère est une mesure de la dissimilarité entre deux distributions de probabilités, l’une théorique et l’autre empirique. Il est défini dans le cas présent par : p(yi |xi ) I(p, f ) = E log f (yi |xi , θ0 ) (1.5) Il montre de façon générale que I(p,hf ) ≥ 0 etinulle sous l’hypothèse H0 . Par ailleurs, par le dévelop- pement de Taylor 4 d’ordre 1 du log I(p, f ) = E p(yi |xi ) f (yi |xi ,θ0 ) on a p(yi |xi ) p(yi |xi ) − f (yi |xi , θ0 ) −1 = E f (yi |xi , θ0 ) f (yi |xi , θ0 ) (1.6) Zheng (2000) prouve qu’en pondérant la densité conditionnelle paramétrique par la densité marginale de x que l’expression (1.6) conserve les mêmes propriétés que I(p, f ) sous H0 comme sous H1 . L’expression (1.6) devient donc sous H0 : I1 (p, f ) = E p(yi , xi ) − p1 (xi ) f (yi |xi , θ0 ) f (yi |xi , θ0 ) (1.7) où p1 (x) la densité marginale de x. Zheng propose d’estimer les fenêtres de lissage des estimateurs respectifs des densités p(yi , xi ) et p1 (xi ) par l’approche de Silverman (1986). De même, la densité jointe p(yi , xi ) est estimée par le produit des noyaux. En effet, c’est une méthode qui permet de résoudre des problèmes non linéaires à l’aide des méthodes linéaires en transformant les espaces de données en un espace de dimension plus grande. Ainsi, les estimateurs de densité p̂(yi , xi ) et p̂1 (xi ) 3. L’espace de paramètre en général différent de l’espace des variables. Ils sont égaux si le nombre de variables pour l’estimation non paramétrique est exactement égale à celui de l’estimation paramétrique. Voir les hypothèses alternatives pour le calcul de la puissance, chapitre 3. 4. log(x) ≈ x − 1 . 6 sont respectivement définis par les expressions suivantes : yi − y j xi − x j 1 n 1 p̂(yi , xi ) = ∑ l+m K2 K1 n j=1 h h h xi − x j 1 n 1 p̂1 (xi ) = ∑ m K1 n j=1 h h (1.8) (1.9) En outre, en estimant le paramètre θ0 par la méthode de quasi maximum de vraisemblance, Zheng (2000) dérive l’estimateur lissé de la densité p̃(y, x) de f (yi |xi , θ )p1 (xi ) qui est défini par : Z xi − x j yi − y 1 n 1 p̃(yi , xi ) = ∑ l+m K2 K1 f (y|x j , θ̂ )dy n j=1 h h h (1.10) où θ̂ est l’estimateur quasi maximum de vraisemblance de θ , et h correspond au paramètre de lissage de x et y . Il déduit la statistique Wn du test et sa version normalisée Tn qui prennent la forme : R xi −x j xi −x j yi −y yi −y n n K − K K f (y|x , θ̂ )dy K 1 2 1 j 2 h h h h 1 1 (1.11) Wn = ∑ ∑ l+m n(n − 1) i=1 j=1 h f (yi |xi , θ̂ ) j6=i et Tn = nh l+m 2 Wn (1.12) σ̂ Zheng (2000) montre sous certaines hypothèses de régularité que la statistique Tn converge en loi vers une loi normale centrée réduite sous l’hypothèse nulle et que la statistique non standardisée Wn converge en probabilité vers I(p, f ) > 0 sous l’hypothèse alternative. Zheng a abordé la puissance en se basant sur une séquence d’alternatives locales, c’est-à-dire, H1n : p(y|x) = f (y|x, θ0 ) + dn × l(y, x), R où l(., .) est une fonction continument différentiable et uniformément bornée, avec l(x, y)dy = 0. Cet auteur vérifie la performance du test en échantillon fini sur les modèles de régression linéaire et les modèles de régression censurée par une simulation Monte Carlo de 1000 réplications avec des échantillons de taille 50, 100, 200 et 300. La taille du test est calculée sous H0 en spécifiant un modèle linéaire homoscédastique avec une erreur normale centrée réduite, et la puissance avec quatre hypothèses alternatives, dont les deux premières sont linéaires avec des erreurs suivant respectivement une loi logistique et une Student à 5 degrés de liberté (à queues plus minces). Les deux dernières sont respectivement quadratique et hétéroscédastique avec des erreurs normales standards. Par ailleurs, Zheng souligne que le test de Andrews (1997) est localement plus puissant que son test. 1.2.2 Test proposé par Fan et al. (2006) Le défaut du test de Zheng (2000) est qu’il ne considère que des variables continues dans ses produits de noyaux. En outre, il ne fournit pas de directives pour l’estimation des fenêtres de lissage. Ces manquements sont pris en compte par le test de Fan et al. (2006). Ils proposent d’exploiter les produits de noyaux mixtes développés par Li et Racine (2003). 7 Soit x un vecteur de variables explicatives continues et discrètes (xc , xd ), tel que xc pour une obserd de longueur c vation donnée est une matrice q × 1 et xd une matrice r × 1. Soit Dk le support de xik k allant de 0 à ck − 1. Les valeurs prises par la k-ième composante de la i-ième observation de xd sont d . Pour estimer la densité par la méthode de noyau, Fan et al. (2006) utilisent l’estimateur de notées xik Aitchison et Aitken (1976) pour la k-ième variable discrète défini par : ( d d l(xik , x jk , λk ) = d = xd 1 − λk si xik jk λk ck −1 (1.13) d 6= xd si xik jk La densité jointe de l’ensemble de variables discrètes est donnée par le produit de noyaux : r L(xid , xdj , λ ) =∏ r d d l(xik , x jk , λk ) k=1 =∏ k=1 λk ck − 1 Nik (x) (1 − λk )1−Nik (x) (1.14) d 6= xd et 0 sinon, λ est le paramètre de lissage de la où Nik (x) est la fonction indicatrice donnant 1 si xik k jk k-ième variable discrète, dont les valeurs sont comprises entre 0 et ck −1 ck . Pour les variables continues, la fonction noyau utilisée est le noyau d’ordre 2 d’Epanechnikov défini par : w(u) = 34 (1 − u2 )1{|u|≤1} . Ainsi, l’estimateur par noyau de la densité jointe des variables continues est : c xik − xcjk 1 =∏ w hk k=1 hk q W (xic , xcj , h) (1.15) où hk est le paramètre de lissage de la k-ième variable continue xc . Par la suite, l’estimateur par noyau de la densité jointe des variables explicatives est le produit des densités marginales continues et discrètes (Fan et al., 2006) : Kγ (xi , x j ) = W (xic , xcj , h) × L(xid , xdj , λ ) (1.16) Pour estimer les densités p(yi , xi ) et p1 (xi ) au point i, Fan et al. (2006) suggèrent d’omettre le point i dans l’estimation (estimateur "leave-one-out"), conduisant à l’estimateur : p̂−i (yi , xi ) = 1 n−1 p̂1,−i (xi ) = n ∑ I(yi = y j )Kγ (xi , x j ) (1.17) j=1 j6=i 1 n−1 n ∑ Kγ (xi , x j ) (1.18) j=1 j6=i Ainsi, l’estimateur de lissage du produit de densité f (yi |xi , θ )p1 (xi ), p̃(yi , xi ) proposé par Fan et al. (2006) est défini par : p̃(yi , xi ) = 1 n−1 n ∑ ∑ I(yi = y)Kγ (xi , x j ) f (y|x j , θ̂ ) j=1 j6=i 8 y∈Dy (1.19) où Dy est le support de la variable dépendante y. Lorsque yi = y, l’expression (1.19) devient donc : p̃(yi , xi ) = 1 n−1 n ∑ Kγ (xi , x j ) f (yi |x j , θ̂ ) (1.20) j=1 j6=i En remplaçant, les expressions de p̂(yi , xi ), p̂(xi ) et p̃(yi , xi ) dans l’expression de I1 (p, f ), Fan et al. (2006) déduisent l’estimateur non lissé de la statistique Wn,γ : ns Wn,γ = n n 1 ∑∑ n(n − 1) i=1 j=1 Kγ (xi , x j ) I(yi = y j ) − f (yi |x j , θ̂ ) f (yi |xi , θ̂ ) (1.21) j6=i Ils proposent d’estimer les paramètres de lissage par la méthode de validation croisée par moindres carrés qui a la propriété asymptotique d’éliminer les variables non pertinentes dans le modèle. Ainsi, sous les conditions de régularité de Hall et al. (2004) liées à la convergence des fenêtres de lissage, Fan et al. (2006) montrent sous H0 que la statistique de l’expression (1.21) converge en loi vers une loi normale centrée réduite : Tn,nsγ̂ = où V̂n,γ̂ = 2 n(n−1) n n ∑ ∑ i=1 j6=i n Kγ̂ (xi ,x j ) fˆ(yi |xi ,θ̂ ) n(ĥ1 ĥ2 ...ĥq )1/2Wn,nsγ̂ d → N(0, 1) q V̂n,γ̂ (1.22) o2 I(yi = y j ) − f (yi |x j , θ̂ ) est un estimateur convergent de la va- riance asymptotique de n(ĥ1 ĥ2 ...ĥq )1/2Wn,nsγ̂ . Pour examiner la performance du test en échantillon fini, Fan et al. (2006) utilise la statistique non standardisée Wn,nsγ̂ pour la simulation Monte Carlo avec 5000 réplications pour le calcul de la taille et 2000 réplications pour le calcul de la puissance en 1000 bootstraps pour déduire la distribution asymptotique de Wnns sous H0 . Ils utilisent sous H0 un PGD binaire caractérisé par une variable latente qui suit une loi normale standard (probit), qui est testé contre deux alternatifs, dont les variables latentes sont respectivement quadratique et hétéroscédastique. Ils obtiennent de bonnes tailles et montrent aussi que leur test est plus puissant que le test de Zheng (2000). De même, le test est plus puissant que celui de Andrews (1997) quand il s’agit de tester l’adéquation de densités conditionnelles paramétriques. 1.2.3 Test proposé par Li et Racine (2013) En échantillon fini, le lissage des variables discrètes apporte un gain d’efficacité dans l’estimation. Ainsi, Li et Racine (2013) profite de cette propriété pour améliorer la performance en échantillon fini de la statistique proposée par Fan et al. (2006). Ils proposent de remplacer l’indicatrice de la variable réponse par un estimateur lissé selon la méthode de Aitchison et Aitken (1976). Ainsi, pour 9 une variable dépendante discrète nominale, ils utilisent l’estimateur suivant : l(yi , y j , λ0 ) = (1 − λ0 )I(yi = y j ) + avec λ0 compris entre 0 et c0 −1 c0 . λ0 I(yi 6= y j ) c0 − 1 (1.23) Ils étendent la procédure du test également aux variables réponses discrètes ordonnées en utilisant l’estimateur de Wang et van Ryzin (1981) : |y −y j | λ i l(yi , y j , λ0 ) = (1 − λ0 )I(yi = y j ) + 0 2 I(yi 6= y j ) (1.24) avec λ0 compris entre 0 et 1. En intégrant l’estimateur lissé de la fonction indicatrice, Li et Racine (2013) dérivent les estimateurs "leave-one-out" des densités p(yi , xi ), p1 (xi ), et p̃(yi , xi ) : p̂−i (yi , xi ) = p̂1,−i (xi ) = p̃−i (yi , xi ) = 1 n−1 1 n−1 1 n−1 n ∑ l(yi , y j , λ0 )Kγ (xi , x j ) (1.25) ∑ Kγ (xi , x j ) (1.26) ∑ ∑ l(yi , y, λ0 )Kγ (xi , x j ) f (yi |x j , θ̂ ) (1.27) j=1 j6=i n j=1 j6=i n j=1 y∈Dy j6=i En utilisant les expressions (1.25), (1.26), (1.27), Li et Racine (2013) déduisent les statistiques lissées s et T s (contrepartie des équations (1.21) et (1.22) ) : Wn,γ n,γ ( " #) n n Kγ (xi , x j ) 1 s Wn,γ = ∑ ∑ f (y |x , θ̂ ) l(yi , y j , λ0 ) − ∑ l(yi , y, λ0 ) f (y|x j , θ̂ ) n(n − 1) i=1 i i y∈Dy j=1 (1.28) j6=i Tn,s γ̂ = n(ĥ1 ĥ2 ...ĥq )1/2Wn,s γ̂ q V̂n,γ̂ (1.29) Ils montrent que la statistique standardisée Tn,s γ̂ converge en loi vers une loi normale centrée et réduite sous l’hypothèse nulle (Li et Racine (2013), Théorème 2.1, voir aussi l’annexe)). De plus, sous l’hypothèse alternative, Tn,s γ̂ converge en probabilité vers une valeur strictement positive (Li et Racine (2013), Théorème 2.2, voir aussi l’annexe). Par ailleurs, pour obtenir la performance du test en échantillon fini, ils utilisent une procédure bootstrap paramétrique de 1000 réplications et 399 bootstraps, sur un modèle probit ordonné dont la variable latente est linéaire sous H0 et un alternatif sinusoïdal. Les résultats de la simulation réalisée avec des tailles d’échantillon 200, 300, 400 révèlent que le test possède une bonne taille qui ne varie pas selon le type de statistique utilisée, et que la statistique lissée apporte un gain de puissance par rapport à la statistique de Fan et al. (2006). 10 Chapitre 2 Méthodologie d’estimation Lorsque des tests statistiques sont proposés, il est parfois possible d’établir des règles de rejet et d’acceptation de l’hypothèse nulle à la fois en grand échantillon et en échantillon de taille fixe. Fan et al. (2006) et Li et Racine (2013) établissent que leurs statistiques de test sont asymptotiquement normales sous l’hypothèse nulle (sous-section 1.2.2, et sous-section 1.2.3), mais ils ajoutent que la normalité de la distribution n’est aucunement garantie en échantillon fini. Pour pallier cette déficience, ils proposent une procédure bootstrap qui possède de très bonnes propriétés en échantillon fini : (i) elle identifie le vrai modèle au même seuil d’erreur qu’en grand échantillon lorsque le chercheur postule le vrai modèle, (ii) elle rejette avec une probabilité suffisamment élevée le modèle utilisé par le chercheur lorsque le modèle postulé ne correspond pas au vrai processus de génération de données (bonne puissance du test). Dans ce chapitre, nous décrivons en détail les différentes étapes qui permettent de démontrer ces résultats. 2.1 Démarche méthodologique Pour analyser la taille du test en échantillon fini, nous commençons par choisir le vrai processus de génération de données (PGD) sous l’hypothèse nulle et nous créons des échantillons de différentes tailles. Comme dans les articles originaux de Fan et al. (2006) et Li et Racine (2013), nous retiendrons n = {200, 300, 400, 500}. Pour une taille fixe d’échantillon, nous obtenons une première estimation du vrai PGD à l’aide des deux estimateurs paramétrique et non paramétrique par noyau. Nous calculons l’écart d’ajustement des valeurs prédites par les deux estimateurs à l’aide des statistiques Wn (voir les équations (1.21) et (1.28)). De toute évidence, cette statistique n’est pas utile car il nous manque sa distribution en échantillon fini. Nous tirons donc 399 échantillons bootstrap de l’échantillon original et nous réestimons avec ces échantillons bootstrap les statistiques des deux tests (lissé et non lissé). Ceci nous donne 399 valeurs bootstrap des statistiques des tests, qui permettent de définir une densité empirique des statistiques(lissée et non lissée) pour l’échantillon initialement généré. Nous comparons finalement les statistiques (lissée et non lissée) de notre échantillon original à leurs distributions bootstrap. Si les statistiques échantillonnales dépassent les quantiles 90%, 95% ou 99% des distributions 11 bootstrap, l’égalité des estimations paramétrique et non paramétrique sera rejetée au seuil de confiance correspondant. En répétant cette procédure 1000 fois (toujours pour un échantillon de même taille), nous testons la capacité des statistiques proposées (Fan et al., 2006; Li et Racine, 2013) à détecter le vrai processus de génération de données en échantillon fini. L’analyse de la puissance des deux tests se fait en générant nos échantillons de taille fixe avec un processus de génération de données alternatif à celui postulé sous H0 . Nous estimons ensuite les probabilités conditionnelles avec le modèle postulé sous H0 . Le modèle postulé sous H0 inclut les mêmes variables incluses dans le PGD alternatif, mais il se distingue par une forme fonctionnelle différente. Par conséquent, l’utilisation d’une forme fonctionnelle paramétrique erronée (celle postulée sous H0 ) conduit à des estimations paramétriques biaisées de la densité conditionnelle postulée sous l’hypothèse alternative H1 . L’estimateur de noyau étant flexible, il captera correctement le processus de génération de données postulé sous H1 . La procédure bootstrap décrite ci-dessus devrait alors aboutir à rejeter l’hypothèse nulle plus fréquemment, et à la rejeter avec une probabilité croissante lorsque la taille de l’échantillon croît. La simulation requiert donc la définition d’un PDG (ou modèle de densité conditionnelle) sous l’hypothèse nulle, d’un PGD alternatif, d’un estimateur paramétrique, d’un estimateur non paramétrique et d’une procédure bootstrap adéquate. Dans tous les cas, nous utilisons les estimateurs et procédures recommandées par les auteurs des tests et nous les implémentons dans R. Dans les sous-sections qui suivent, nous commençons par définir le vrai PGD utilisé pour calculer la taille des tests de Fan et al. (2006) et de Li et Racine (2013), puis nous identifions les PGD utilisés pour établir leur puissance dans la section 2.2. Ensuite, nous définissons les estimateurs paramétriques et les fonctions du logiciel R utilisées pour l’estimation. Nous nous tournons ensuite vers l’estimateur non paramétrique et nous précisons les outils pertinents pour les obtenir dans R. Finalement, nous rappelons l’ensemble de la procédure sous la forme d’une liste d’étapes. Ce n’est qu’au chapitre 3 que nous rapportons nos résultats. 2.2 Processus de génération des données sous les hypothèses nulle et alternative Le PGD retenu sous H0 est similaire à celui proposé par Li et Racine (2013). La seule différence tient à notre hypothèse de variance unitaire σu2 = 1, alors que les auteurs précités préfèrent σ 2 = 0.25. Par conséquent, nous considérons le modèle probabiliste : y∗i = θ0 + θ1 xi + θ2 zi + ui , (2.1) où xi ∼ N(0, σx = 1), zi est généré par un processus Bernoulli {0, 1} tel que P(zi = 1) = 0, 5, ui ∼ N(0, σu ), avec θ0 = 1, θ1 = 1, θ2 = −1, et σu = 1. Le modèle (2.1) génère une variable latente, que nous reclassifions pour obtenir un modèle discret en yi sur le support Dy = {0, 1, ..., c − 1}. La 12 variable dépendante polytomique y est générée selon les quantiles de la distribution normale. À titre d’illustration, pour σu2 = 1 et c = 4, yi prend les valeurs discrètes suivantes : 0 si −∞ ≤ y∗i < −0, 674 1 si −0, 674 ≤ y∗ < 0 i yi = ∗ 2 si 0 ≤ yi < 0, 674 3 si 0, 674 ≤ y∗ < +∞ i Afin d’étendre nos simulations au modèle logistique multinomial simple, nous considérons également le PGD de l’équation (2.1) avec une erreur ui ∼ logit(0, σu ). La variable latente est ensuite transformée selon la même logique vis-à-vis de la distribution logistique. En ce qui concerne la puissance du test, Li et Racine (2013) postulent des PGD différents de l’équation (2.1) en utilisant les mêmes variables explicatives. Ils se concentrent ainsi sur une erreur de spécification de la forme fonctionnelle. Dans nos simulations, nous considérons l’alternative sinusoïdale de Li et Racine (2013), mais également les modèles à indice quadratique et hétéroscédastique de Fan et al. (2006). Les trois PGD considérés pour tester la puissance sont donc : DGP 1a : y∗i =θ0 + θ1 xi + θ2 zi + θ3 sin(0, 5πxi ) + ui DGP 1b : y∗i =θ0 + θ1 xi + θ2 zi + θ3 xi2 + ui DGP 1c : y∗i =θ0 + θ1 xi + θ2 zi + xi ui Comme indiqué au début de la section 2.1, nous devons maintenant estimer les modèles Φ(x , z ; θ ) paramétrique i i P(yi = y|xi , zi ) = f (x , z ) non paramétrique. i i La section 2.3 décrit les estimateurs utilisés pour les modèles paramétriques alors que la section 2.4 décrit l’estimation non paramétrique. 2.3 Estimation paramétrique de la densité conditionnelle Comme indiqué dans la section 1.2, le calcul des statistiques des tests de Fan et al. (2006) et Li et Racine (2013) nécessite l’estimation de la densité conditionnelle paramétrique et de fenêtres de lissage pour estimer la densité du noyau jointe des variables explicatives. Dans cette section, nous rappelons la procédure d’estimation des densités conditionnelles polytomiques par maximum de vraisemblance. 2.3.1 Estimation de la densité conditionnelle paramétrique d’un modèle polytomique non ordonné Soit {yi , xi }i=1,..,n une séquence d’observation aléatoire indépendante et identiquement distribuée de (y, x). yi est une variable polytomique dont le support Dy = {1, 2, ..., M}, et xi un vecteur de k variables 13 explicatives. Soit y∗im la variable latente de yi définit telle que : y∗im = xi θm + uim ; i = 1, ..., n et m = 1, ..., M ; θm est un vecteur de k paramètres réelles. La variable latente peut être vue comme l’utilité de l’individu i de choisir la modalité m de la variable réponse. La probabilité que l’individu i choisisse la modalité m conditionnellement aux variables explicatives xi est définie par : P(yi = m |xi ) =P(y∗im > y∗i j , ∀ j 6= m |xi ) =P(xi θm + uim > xi θ j + ui j , ∀ j 6= m |xi ) =P(ui j − uim < xi θm − xi θ j , ∀ j 6= m |xi ) =P(um i j < xi θm − xi θ j , ∀ j 6= m |xi ) =Fim (xi (θm − θ1 ), ..., xi (θm − θM )) avec um i j = ui j − uim (2.2) La fonction de répartition Fim est celle de l’erreur um i = (ui1 − uim , ui2 − uim , ..., uiM − uim ). Elle peut être une loi multinormale si le modèle estimé est un probit multinomial, ou encore une loi de Gumbel dans le cas logit multinomial. Pour ym i j = xi θm − xi θ j , yim = I(yi = m) et pim (θ ) = P(yi = m |xi ) la densité conditionnelle de yi sachant xi est donnée par : M f (yi |xi , θ ) = ∏ pyjm (θ ) im (2.3) m=1 La log vraisemblance à maximiser s’écrit sous la forme suivante : L(θ ) = 1 n M ∑ ∑ yim log(pim (θ )) n i=1 m=1 (2.4) La condition de premier ordre de l’équation (2.4) est donnée par : 1 ∂ pim (θ ) ∂ L(θ ) 1 n M = ∑ ∑ yim =0 ∂θ n i=1 m=1 pim (θ ) ∂ θ (2.5) Sous des conditions de régularité (McFadden, 1974; Amemiya, 1985) le problème de maximisation admet un maximun global unique. Par ailleurs, si les conditions de régularité sont respectées, la distribution limite 1 de l’estimateur est : d √ −1 n θ̂ − θ0 → N(0, A−1 (2.6) 0 B0 A0 ), 2 ) ∂ L(θ ) ∂ L(θ ) avec A0 = E ∂∂ θL(θ et B = E . Par conséquent, sous H0 , la distribution asymptotique 0 0 0 ∂θ ∂θ ∂θ de θ̂ est : d θ̂ ∼ N(θ0 , −A0 ) 1. Pour plus de détails, voir Amemiya (1985); Cameron et Trivedi (2005). 14 (2.7) L’estimateur de la densité conditionnelle paramétrique est donné par : M f (yi |xi , θ̂ ) = ∏ pyjm (θ̂ ) im (2.8) m=1 Ce modèle est estimé sur R avec la fonction mlogit() du package mlogit proposé par Croissant (2013) 2 . L’optimisation de la log vraisemblance peut être améliorée par la fonction mlogit.optim() qui utilise par défaut l’algorithme de Newtn-Raphson (NR) avec la numérisation de la matrice hessienne. Cette fonction offre la possibilité de choisir les méthodes d’optimisation alternatives 3 . 2.3.2 Estimation de la densité conditionnelle paramétrique d’un modèle polytomique ordonné Soit {yi , xi }i=1,..,n une séquence d’observation aléatoire indépendante et identiquement distribuée de (y, x). yi est une variable polytomique dont le support Dy = {1, 2, ..., M} et la variable latente y∗i = xi θ + ui où θ ∈ Θ ⊂ Rk (un sous-ensemble compact et convexe) et xi ∈ Rk telle que (Long, 1997; Agresti, 2002) : 1 si α0 ≤ y∗i < α1 2 si α ≤ y∗ < α 1 2 i yi = ... M si α ≤ y∗ < α M−1 i (2.9) M avec α0 = −∞ et αM = +∞, ui est identiquement distribué avec une fonction de répartition F. On a : P(yi = m|xi , θ , αm−1 , αm ) = P(αm−1 ≤ xi θ + ui < αm ) = P(αm−1 − xi θ ≤ ui < αm − xi θ ) = F(αm − xi θ ) − F(αm−1 − xi θ ) avec m ∈ Dy , F(α0 − xi θ ) = 0, P(yi = 1|xi , θ ) = F(α1 − xi θ ), et P(yi = M|xi , θ ) = 1 − F(αM−1 − xi θ ) La densité conditionnelle est donnée par : M f (yi |xi , θ , α) = I(yi =m) ∏ pim (θ , αm−1 , αm ) (2.10) m=1 où pim (θ , αm−1 , αm ) = F(αm − xi θ ) − F(αm−1 − xi θ ). De plus, en posant yim = I(yi = m) et en maximisant la log vraisemblance : L(α, θ ) = 1 n M ∑ ∑ yim log(pim (θ , αm−1 , αm )) n i=1 m=1 (2.11) 2. Estimation of multinomial logit model in R : mlogit packages. 3. Comme algorithme de Berndt-Hall-Hall-Hausman (BHHH) ou encore Broyden-Fletcher-Goldfarb-Shanno (BFGS). 15 nous obtenons les conditions de premier ordre ci-après : yim ∂ L(θ ) 1 n M ∂ pim (θ , αm−1 , αm ) = ∑∑ =0 ∂θ n i=1 m=1 ∂θ pim (θ , αm−1 , αm ) yi(m+1) ∂ L(α, θ ) 1 n yim = ∑ − f (αm + xi θ ) = 0 ∂ αm n i=1 pim (θ , αm−1 , αm ) pi(m+1) (θ , αm , αm+1 ) (2.12) (2.13) 0 avec m = 1, ..., M et F (αm + xi θ ) = f (αm + xi θ ) la fonction de densité de la distribution de DGP. Sous certaines conditions de régularité 4 (Pratt, 1981), le problème admet un unique maximum global qui respecte la propriété de convergence de l’expression (2.6). Ce qui permet de dériver la fonction de densité conditionnelle paramétrique : M f (yi |xi , θ̂ , α̂) = ∏ pyim (θ̂ , α̂m−1 , α̂m ) im (2.14) m=1 Ce modèle est estimable sur R par le package MASS, avec la fonction polr(), développé par Venables et Ripley (2002) . Elle utilise l’algorithme de Newton-Raphson et la méthode vcov() du package stats (R Core Team, 2014). Par ailleurs, le cas binaire est estimé par la fonction glm() du package stats. 2.4 Estimation non paramétrique L’estimation non paramétrique comprend l’obtention des fenêtres de lissage pour densités conditionnelles, jointe et marginale de respectivement (y|x), (y, x) et de x puis le calcul des produits de noyaux discrets et continus. 2.4.1 Estimation des fenêtres de lissage conditionnelles par validation croisée par moindres carrés Il existe de nombreuses méthodes pour obtenir les paramètres de lissage optimaux. Les méthodes de validation croisée proposent de partir de fenêtres de lissages candidates et de minimiser l’erreur de prévision des densités en chaque point i de l’échantillon en utilisant toutes les valeurs de l’échantillon, excepté le point i. Cette approche est qualifiée en anglais de ‘leave-one-out’. Une fois obtenues les estimations en chaque point, il convient de définir une métrique qui mesure la qualité d’ajustement de la prévision non paramétrique. À titre d’exemple, la méthode de validation croisée par maximum de vraisemblance utilise la (log)vraisemblance de la densité estimée comme fonction objectif. Cette méthode a tendance à surlisser les fenêtres soit en raison d’une estimation non robuste (sensibilité excessive aux points extrêmes), soit à cause de la présence de variables explicatives non pertinentes (Li et Racine, 2007, pp. 161) dans le modèle postulé par le chercheur. Par contre, la méthode de validation croisée par moindres carrés à l’avantage d’éliminer asymptotiquement les variables explicatives non pertinentes du modèle. 4. Pour d’autres développements voir Amemiya (1985); Long (1997); Agresti (2002). 16 Soit {yi , xi }i=1,..,n une séquence d’observation aléatoire indépendante et identiquement distribuée de (y, x), et soit yi , une variable polytomique dont le support Dy = {1, 2, ..., M}. La méthode de validation croisée par les moindres carrés se base sur le critère de minimisation de la somme de carré des erreurs (Integrated Squared Errors) : CV (h, λ ) = 1 n Ĝ−l (xl ) 2 n fˆ−l (xl , yl ) − ∑ [µ̂ (x )]2 n ∑ µ̂−l (xl ) n l=1 −l l l=1 (2.15) où, fˆ−l et µ̂−l sont respectivement les densités jointe de (x, y) et marginale de x estimées par "leaveone-out", et Ĝl est défini par : Ĝ−l (xl ) = n 1 n ∑ ∑ K(xi , xl )K(x j , xl )L(yi , y j ) n2 i=1,i6 =l j=1, j6=l (2.16) avec Kγ (xi , x j ) = W (xic , xcj , h) × L(xid , xdj , λ ), où K(), W() et L() sont les fonctions-noyaux définies dans les équations (1.13), (1.14) et (1.15). Les paramètres (ĥ, λ̂ ) sont les estimateurs des fenêtres de lissage. Hall et al. (2004) établissent que l’estimateur des paramètres de lissage par la méthode de validation croisée par les moindres carrés converge en probabilité vers (h0 , λ 0 ) selon le Lemme 2.1 (Voir Annexe). Un algorithme existe sur R pour calculer ces paramètres de lissage. Il est implémenté dans la fonction npcdensbw() du package np développé par Hayfield et Racine (2008) 5 . 2.4.2 Estimation non paramétrique de la densité conditionnelle Nous avons vu que les statistiques des tests sont estimées par la mesure de divergence I1 (p, f ) définie par l’expression (1.7). 6 Les sous-sections précédentes ont permis d’estimer les fenêtres de lissage des densités conditionnelles et la fonction de densité conditionnelle. Il reste à estimer la densité jointe (p(yi , xi )) et la densité marginale (p1 (xi )). Comme nous l’avons vu dans les sous-sections 1.2.2 et 1.2.3, Fan et al. (2006) et Li et Racine (2013) proposent d’estimer les densités jointe p(yi , xi ) et marginale p1 (xi ) par la méthode de validation croisée "leave-one-out" et en utilisant le produit de noyaux continus et discrets (l’expression (1.13)) pour l’estimateur de Aitchison-Aitken et (1.14) pour noyaux discrets nominaux et l’expression (1.24) méthode de Wang et Van Ryzin pour les noyaux discret ordonnés). Ainsi en utilisant les fenêtres optimales issues de la validation croisée par moindres carrés et les expressions (1.25), (1.26), et (1.27), l’estimateur non paramétrique de la densité conditionnelle est donné par : n ∑ l(yi , y j , λ̂0 )Kγ̂ (xi , x j ) p̂−i (yi |xi ) = j=1 j6=i n (2.17) ∑ Kγ̂ (xi , x j ) j=1 j6=i 5. Pour plus d’information voir la documentation du package. n o p(yi ,xi )−p1 (xi ) f (yi |xi ,θ0 ) 6. I1 (p, f ) = E . f (y |x ,θ ) i i 0 17 où l(yi , y j , λ̂0 ) est donné par les expressions (1.23) et (1.24) suivant la nature de la variable réponse. En utilisant les expressions (1.21), (1.28), (2.8), et (2.14), nous pouvons définir la statistique lissée qui est prête à être implémentée sur R par : 7 Wn,s γ̂ = # Kγ̂ (xi ,x j ) yim 1 l(y , y , λ̂ ) − l(y , y, λ̂ ) p ( θ̂ , α̂ , α̂ ) ordonnée ∑ i j 0 i 0 ∏ im m−1 m n(n−1) ∑ ∑ M yim y∈Dy m=1 i=1 j=1 ∏ pim (θ̂ ,α̂m−1 ,α̂m ) j6=i m=1 " # n n M Kγ̂ (xi ,x j ) yim 1 l(y , y , λ̂ ) − l(y , y, λ̂ ) p ( θ̂ ) non ordonnée ∏ ∑ ∑ ∑ i j 0 i 0 M jm n(n−1) yim y∈Dy m=1 i=1 j=1 ∏ p jm (θ̂ ) n n j6=i " M m=1 (2.18) La densité jointe Kγ̂ (xi , x j ) est estimée à l’aide de la fonction npksum() du package np (Hayfield et Racine, 2008). 2.5 Simulations Cette section décrit la procédure de simulation utilisée par Li et Racine (2013) pour établir la taille et la puissance de leur test en échantillon fini. Elle présente également de manière un peu plus formelle les calculs de taille et de puissance. 2.5.1 Bootstrap Nous commençons par décrire la procédure bootstrap. Elle est de type paramétrique et elle s’effectue dans le but de déterminer la distribution des statistiques Wns et Wnns en échantillon fini pour une seule simulation de Monte Carlo. (a) Générer la i-ième valeur bootstrap de la variable y à partir de la distribution conditionnelle estimée f (yi |xi , θ̂ ). Soit ybi cette valeur et i = 1, . . . , n. L’échantillon {xi , yBi }n1=1 constitue un échantillon bootstrap. Des détails sur l’identification de yb seront donnés en section 3.1.1, au point (f). (b) Sous l’hypothèse nulle, estimer le vecteur de paramètres θ avec l’échantillon bootstrap. Nous pouvons appeler l’estimateur θ̂ b l’estimateur bootstrap de θ . Il n’est pas nécessaire d’obtenir des paramètres de lissage γ̂ spécifiques à l’échantillon bootstrap. En effet, Fan et al. (2006) et Li et Racine (2013) précisent que les paramètres de lissage calculés avec l’échantillon Monte Carlo peuvent être réutilisés pour le calcul de la statistique sous bootstrap ; b (c) Estimer les statistiques lissées Wn,s,bγ̂ et non lissées Wn,ns,b γ̂ en remplaçant {yi }i=1,...,n par {yi }i=1,...,n et le paramètre θ̂ par θˆb . 7. La statistique non lissée se définit de façon similaire. 18 (d) Répéter (a), (b) et (c) un grand nombre de fois (par exemple B = 399). Ces tirages successifs permettent d’approximer la distribution des statistiques lissées Wn,s,bγ̂ et non lissées Wn,ns,b γ̂ sous l’hypothèse nulle pour un échantillon Monte Carlo donné ; ns,b (e) Calculer les quantiles d’ordre α de Wns,b γ̂ et de Wnγ̂ pour les B tirages bootstrap ; (f) L’hypothèse nulle d’un modèle paramétrique correctement spécifié est rejetée par le test bootstrap si les deux statistiques empiriques Wn,s γ̂ et Wn,nsγ̂ calculées pour l’échantillon Monte Carlo B donné sont supérieures aux quantiles d’ordre α de, respectivement, {Wn,s,bγ̂ }Bj=1 et {Wn,ns,b γ̂ } j=1 . 2.5.2 Simulations de Monte Carlo Les calculs de la taille et de la puissance nécessitent la répétition de la procédure bootstrap M fois, par exemple M=1000. Calcul de la taille Le calcul de la taille utilise la distribution de la statistique bootstrap obtenue en générant des échantillons bootstrap de taille fixe avec le processus générateur des données (PGD) sous H0 . Ainsi, à partir d’un grand nombre de réalisations du modèle sous H0 , il est possible de tester le nombre de fois que H0 est rejetée alors que le modèle paramétrique utilisé pour l’estimation est le vrai modèle. La taille du test bootstrap équivaut à l’erreur de première espèce. Soit M simulations sous H0 des statistiques lissées Wn,s γ̂,i et non lissées Wn,nsγ̂,i avec i = 1, ..., M ; Wn,s,bγ̂,i (α) et Wn,ns,b γ̂,i (α) les quantiles bootstrap d’ordre α respectivement de Wn,s,bγ̂,i et non lissées Wn,ns,b γ̂,i sous H0 . En pratique, la taille de test est définie (MacKinnon, 2006; Flachaire, 2005) telle que : Taille(α) = 1 M ∑ I(Wn,γ̂,i > Wn,bγ̂,i (α)) M i=1 (2.19) Il est souvent recommandé de calculer la taille du test en passant par la p-valeur plutôt que par le quantile du seuil critique de la statistique (Flachaire, 2005). La p-valeur se définit par la distribution (asymptotique, car M est grand) des réalisations bootstrap sous l’hypothèse nulle. pv = Pb (Wn,bγ̂ > Wn,γ̂ ) = 1 − Fb (Wn,γ̂ ) (2.20) De l’équation (2.20), nous déduisons la taille du test par l’expression suivante : Taille(α) = PH0 (pv < α) = 1 − FH0 (Fb−1 (Wn,γ̂ )) = 1 M ∑ I(pv,i ≤ α) M i=1 (2.21) Calcul de la puissance La puissance évalue la capacité d’un test à rejeter le modèle postulé par le chercheur lorsque ce modèle est effectivement erroné. Ici, il s’agit de vérifier la puissance des tests de Fan et al. (2006) 19 et Li et Racine (2013) en échantillon fini. La puissance se calcule en générant dans le processus de Monte Carlo sous l’hypothèse alternative. Elle correspond à la probabilité de rejeter l’hypothèse nulle sachant qu’elle est fausse. Soit M simulations sous H1 des statistiques lissées Wn,asγ̂,i et non lissées Wn,ans γ̂,i avec i = 1, ..., M. En pratique, la puissance est définie telle que : Puissance(α) = 1 M ∑ I(Wn,aγ̂,i > Wn,bγ̂,i (α)) M i=1 Elle peut être aussi obtenue de façon similaire par l’expression (2.21). 20 (2.22) Chapitre 3 Application Ce chapitre s’intéresse à l’implémentation des deux tests développés par Fan et al. (2006) et Li et Racine (2013), en prenant comme modèle sous l’hypothèse H0 la spécification proposée par Li et Racine (2013), et à l’interprétation des résultats. 3.1 Calcul de la taille et la puissance des tests sur R Nous abordons dans cette section les procédures de calcul de la taille et de la puissance sur R. 3.1.1 Procédure de calcul de la taille sur R Pour calculer la taille des deux tests, nous nous contentons de décrire les étapes suivies pour un modèle à réponse binaire. L’extension aux modèles polytomiques se fait facilement. (a) Simuler un échantillon {xi , zi , ui }i=1,..,n suivant le modèle H0 retenu tels que ui ∼ N(0, 1), xi ∼ N(0, 1) et zi ∼ Bernoulli( 12 ). La variable latente sous H0 étant définie par y∗i = θ0 + θ1 xi + θ2 zi + ui avec θ0 = 1, θ1 = 1, θ2 = −1 et déduire la variable réponse yi = 1{y∗ >0} ; i (b) Estimer les paramètres θ̂ pour l’échantillon simulé avec la fonction glm() du package stats ; (c) Prédire la probabilité P(yi = 1|xi , zi , θ̂ ) à l’aide de la fonction predict.glm() du package stats ; (d) Calculer les fenêtres de lissage (λˆ0 , λ̂ , ĥ) des variables y, z et x par la méthode de validation croisée par moindres carrés avec la fonction npcdensbw() du package np ; (e) Calculer Wn,i (y, z, x, λˆ0 , λ̂ , ĥ, p̂) selon l’expression (2.18) en utilisant la fonction npksum() du package np pour estimer le densité jointe K(xi , zi ) ; (f) Générer l’échantillon bootstrap selon la procédure décrite dans la sous-section 2.5.1. L’échantillon bootstrap est constitué de {ybi , xi }i=1,..,n en utilisant la probabilité P(yi = 1|xi , zi , θ̂ ). En pratique, on génère un échantillon {ei }ni=1 tel que ei ∼ U[0, 1] puis on ordonne les éléments de chaque vecteur-ligne [ ei P(yi = 0|xi , zi , θ̂ ), 1 ] de manière croissante 1 . On récupère ensuite le rang de 1. P(yi = 0|xi , zi , θ̂ ) = 1 − P(yi = 1|xi , zi , θ̂ ). 21 ei dans le vecteur réordonné 2 et on lui soustrait la valeur 1. La valeur ainsi obtenue constitue la modalité 0 ou 1 de la ième observation 3 ybi ; (g) Obtenir θ̂ b avec les valeurs {ybi , xi }i=1,..,n afin de prédire P(ybi = 1|xi , zi θˆb ) ; (h) calculer Wn,i,b (yb , z, xλˆ0 , λˆ1 , ĥ, p̂b ) ; (i) Calculer la taille selon la formule (2.21). 3.1.2 Procédure de calcul de la puissance sur R Comme décrit dans la sous-section 2.5.2, le calcul de la puissance se base sur les quantiles de la distribution boostrap des statistiques de test. En prenant l’exemple du modèle DGP1a de la section 2.2, la procédure de calcul de la puissance du test est la suivante : (a) A partir de l’échantillon {xi , zi , ui }i=1,..,n , calculer la variable latente y∗i = θ0 + θ1 xi + θ2 zi + θ3 sin(0, 5πxi ) + ui et en déduire la variable réponse yi = 1{y∗ >0} ; i (b) Estimer θ̂ avec le modèle postulé sous H0 , (dans notre cas, il s’agit du modèle (2.1), section 2.2) et en déduire la probabilité PHa (yi = 1|xi , zi , θ̂ ) ; (c) Calculer les fenêtres de lissage (λˆ0 , λ̂ , ĥ) des variables y, z et x par la méthode de validation croisée par moindres carrés ; a (y, x, z, λˆ , λ̂ , ĥ, p̂) ; (d) Calculer la statistique Wn,i 0 (e) Calculer la puissance du test à l’aide des statistiques bootstraps et de la formule (2.22). 3.2 Résultats et interprétation Cette section est consacrée aux résultats liés aux calculs de la taille et de la puissance. Par ailleurs, pour dériver les puissances et les tailles, nous réalisons 1000 simulations Monte Carlo et 399 tirages bootstraps avec le modèle de base de Li et Racine (2013). Les calculs sont fondés sur les statistiques non standardisées Wn (lissée et non lissée). La simulation est réalisée sur R. Les tirages bootstrap et le calcul des fenêtres de lissage sont parallélisés sur Colosse (Calcul Québec) à l’aide des fonctions "foreach" et "dopar" des package foreach et doSNOW développés par Analytics et Weston (2014b,a). En procédant ainsi, nous réduisons considérablement le temps de calcul des simulations. Bien entendu, ce temps est fonction du nombre de nœuds alloués à la parallélisation. Nous avons généralement utilisé entre 24 et 48 processeurs, selon la taille des échantillons. 3.2.1 Estimation de la taille du test Comme décrit plus haut, le calcul de la taille est basé sur le PGD donné par l’équation (2.1). Les estimations sont faites pour des variables dépendantes polytomiques ordonnées et non ordonnées avec 2. Ce rang sera dans ce cas, soit 1, soit 2, car la probabilité d’obtenir un ei de exactement 0 ou 1 est infime. 3. Cette approche est celle utilisée par Li et Racine (2013) et elle est particulièrement utile lorsqu’elle est adaptée au cas des réponses polytomiques. 22 un nombre de classe c ∈ {2, 3, 4, 5} et un nombre d’observations n ∈ {200, 300, 400, 500}. Par ailleurs, deux types de modèles paramétriques sont estimés à savoir le probit ordonné et le logit multinomial simple 4 . D’après le tableau 3.1, les résultats de la simulation montrent que les tailles sont relativement proches de celles attendues avec les statistiques asymptotiques, ce qui révèle que les tests proposés par Fan et al. (2006) et Li et Racine (2013) conservent leurs bonnes propriétés en échantillon fini : ils ne rejettent que rarement l’hypothèse nulle de spécification correct, lorsque le vrai modèle est utilisé pour établir la probabilité conditionnelle en petit échantillon. Par exemple, pour le modèle probit binaire avec n=200, les tailles au seuil de 1% , 5% et 10% sont respectivement 1,8% , 8,0% et 16,5% pour les deux statistiques (lissée et non lissée). Un résultat similaire est obtenu au niveau du modèle logit binaire. Par ailleurs, quel que soit le type de statistique (lissée ou non lissée), la taille du test ne varie presque pas. Ce qui confirme les résultats de Li et Racine (2013). De plus, la taille des deux tests ne s’améliore ni lorsque n croît à nombre égale de modalités, ni quand le nombre c de modalités de la variable dépendante augmente en conservant la taille de l’échantillon fixe. TABLE 3.1: Taille basée sur le modele H0 : y∗i = 1 + xi − zi + ui avec M=1000, B=399 et σu = 1 Probit multinomial ordonné y lissée y non lissée Logit multinomial non ordonné y lissée y non lissée n c 0.01 0.05 0.1 0.01 0.05 0.1 0.01 0.05 0.1 0.01 0.05 0.1 200 300 400 500 2 2 2 2 0.018 0.021 0.015 0.020 0.080 0.085 0.070 0.094 0.165 0.158 0.131 0.164 0.018 0.021 0.015 0.020 0.080 0.085 0.070 0.094 0.165 0.158 0.131 0.164 0.026 0.024 0.017 0.018 0.113 0.087 0.091 0.099 0.174 0.152 0.156 0.174 0.026 0.024 0.017 0.018 0.113 0.087 0.091 0.099 0.174 0.152 0.156 0.174 200 300 400 500 3 3 3 3 0.010 0.019 0.015 0.013 0.078 0.075 0.063 0.066 0.147 0.131 0.127 0.127 0.010 0.019 0.015 0.013 0.079 0.075 0.063 0.066 0.146 0.131 0.127 0.127 0.026 0.039 0.027 0.030 0.108 0.107 0.106 0.116 0.181 0.184 0.197 0.200 0.026 0.039 0.027 0.030 0.108 0.107 0.106 0.116 0.181 0.184 0.197 0.200 200 300 400 500 4 4 4 4 0.018 0.014 0.015 0.017 0.080 0.072 0.062 0.075 0.137 0.130 0.122 0.133 0.020 0.014 0.015 0.017 0.078 0.072 0.062 0.075 0.136 0.130 0.122 0.133 0.030 0.037 0.035 0.037 0.116 0.101 0.129 0.127 0.195 0.194 0.210 0.211 0.030 0.037 0.035 0.037 0.116 0.101 0.129 0.127 0.195 0.194 0.210 0.211 200 300 400 500 5 5 5 5 0.014 0.014 0.010 0.008 0.071 0.057 0.071 0.062 0.142 0.110 0.136 0.121 0.014 0.016 0.010 0.008 0.071 0.057 0.071 0.062 0.143 0.110 0.135 0.121 0.028 0.040 0.032 0.047 0.107 0.122 0.119 0.138 0.181 0.204 0.198 0.229 0.028 0.040 0.032 0.047 0.107 0.122 0.119 0.138 0.181 0.204 0.198 0.229 4. Dans l’article original, le nombre de classes de la variable réponse est tel que c ∈ {2, 3, 5, 7, 9}. 23 3.2.2 Estimation de la puissance du test Le calcul de la puissance est basé sur trois modèles alternatifs proposés par Fan et al. (2006) et Li et Racine (2013) comme indiqué dans la section 2.1. Dans le tableau 3.2, l’alternative sinusoïdale (H1a ) conduit à une puissance minimale de 30% approximativement pour les deux types de modèles (probit ordonné et logit multinomial simple) et pour la grande majorité des seuils critiques. Plus précisément, la probabilité de rejeter H0 au seuil de 1% sachant qu’elle est fausse est au minimum de ∼ 30%. Cette probabilité augmente à ∼ 50% si on accepte d’accroitre le risque de se tromper un peu plus souvent, soit au seuil de 10%. Notons que, lorsque l’on maintient la taille d’échantillon fixe, la puissance du test ne s’accroît pas nécessairement avec le nombre de modalités de la variable réponse. Comme attendu, la puissance s’accroît avec n. Pour ce qui est de la puissance selon le type de statistique utilisée (lissée versus non lissée), il n’y a pas de gain significatif de puissance pour la statistique lissée. Même si par endroit nous observons des gains de puissance, ceux-ci restent très faibles (de l’ordre de 10−3 ) au regard de l’aléa attendu. TABLE 3.2: Puissance basée sur le modele DGP H1a : y∗i = 1+xi −zi +sin(0, 5πxi )+ui avec M=1000, B=399 et σu = 1 Probit multinomial ordonné y lissée y non lissée Logit multinomial non ordonné y lissée y non lissée n c 0.01 0.05 0.1 0.01 0.05 0.1 0.01 0.05 0.1 0.01 0.05 0.1 200 300 400 500 2 2 2 2 0.387 0.484 0.599 0.734 0.546 0.628 0.744 0.838 0.616 0.703 0.804 0.873 0.386 0.483 0.600 0.734 0.546 0.628 0.744 0.838 0.616 0.703 0.804 0.873 0.298 0.381 0.494 0.570 0.483 0.590 0.668 0.751 0.575 0.693 0.746 0.837 0.296 0.377 0.494 0.570 0.479 0.590 0.666 0.751 0.573 0.692 0.746 0.835 200 300 400 500 3 3 3 3 0.406 0.585 0.755 0.835 0.583 0.756 0.869 0.926 0.683 0.818 0.902 0.953 0.407 0.584 0.754 0.835 0.582 0.755 0.869 0.925 0.683 0.817 0.902 0.953 0.298 0.437 0.526 0.656 0.486 0.605 0.743 0.822 0.585 0.695 0.814 0.880 0.299 0.431 0.526 0.656 0.483 0.600 0.743 0.821 0.584 0.695 0.814 0.881 200 300 400 500 4 4 4 4 0.415 0.609 0.769 0.866 0.636 0.769 0.886 0.944 0.735 0.828 0.932 0.966 0.413 0.607 0.769 0.866 0.634 0.768 0.885 0.944 0.734 0.828 0.932 0.966 0.313 0.402 0.557 0.634 0.469 0.599 0.723 0.804 0.558 0.692 0.803 0.868 0.312 0.400 0.550 0.633 0.468 0.597 0.721 0.805 0.554 0.692 0.804 0.869 200 300 400 500 5 5 5 5 0.422 0.617 0.784 0.892 0.612 0.786 0.906 0.962 0.727 0.854 0.938 0.976 0.420 0.614 0.783 0.892 0.609 0.786 0.906 0.961 0.727 0.853 0.938 0.976 0.304 0.406 0.530 0.608 0.441 0.586 0.695 0.774 0.517 0.656 0.780 0.861 0.299 0.402 0.530 0.607 0.440 0.585 0.694 0.774 0.528 0.656 0.781 0.859 Pour l’hypothèse alternative quadratique H1b , le tableau 3.3 montre que la puissance du test est supérieure à 90% quel que soit le modèle et le type de statistique utilisé pour tester la spécification correcte. Les autres résultats pour ce DGP sont similaires aux résultats obtenus sous H1a . Notons en 24 particulier l’absence de gains de puissance en faveur de la statistique lissée. TABLE 3.3: Puissance basée sur le modele DGP H1b : y∗i = 1 + xi − zi + xi2 + ui avec M=1000, B=399 et σu = 1 Probit multinomial ordonné y lissée y non lissée Logit multinomial non ordonné y lissée y non lissée n c 0.01 0.05 0.1 0.01 0.05 0.1 0.01 0.05 0.1 0.01 0.05 0.1 200 300 400 500 2 2 2 2 0.934 0.989 0.998 1.000 0.985 0.999 1.000 1.000 0.998 1.000 1.000 1.000 0.934 0.989 0.998 1.000 0.984 0.999 1.000 1.000 0.998 1.000 1.000 1.000 0.836 0.942 0.983 1.000 0.938 0.993 0.997 1.000 0.970 0.998 0.999 1.000 0.834 0.939 0.983 0.999 0.938 0.993 0.997 1.000 0.968 0.998 0.99 1.000 200 300 400 500 3 3 3 3 0.947 0.995 1.000 1.000 0.994 1.000 1.000 1.000 0.997 1.000 1.000 1.000 0.947 0.995 1.000 1.000 0.993 1.000 1.000 1.000 0.997 1.000 1.000 1.000 0.903 0.976 0.996 1.000 0.966 0.998 1.000 1.000 0.983 1.000 1.000 1.000 0.898 0.975 0.996 1.000 0.963 0.997 1.000 1.000 0.983 1.000 1.000 1.000 200 300 400 500 4 4 4 4 0.955 0.996 1.000 1.000 0.993 1.000 1.000 1.000 0.998 1.000 1.000 1.000 0.954 0.995 1.000 1.000 0.991 1.000 1.000 1.000 0.998 1.000 1.000 1.000 0.920 0.989 0.999 1.000 0.974 0.998 1.000 1.000 0.992 0.999 1.000 1.000 0.914 0.988 0.999 1.000 0.973 0.998 1.000 1.000 0.988 0.999 1.000 1.000 200 300 400 500 5 5 5 5 0.965 0.998 1.000 1.000 0.994 1.000 1.000 1.000 0.997 1.000 1.000 1.000 0.964 0.998 1.000 1.000 0.994 1.000 1.000 1.000 0.997 1.000 1.000 1.000 0.911 0.989 0.998 1.000 0.975 1.000 1.000 1.000 0.991 1.000 1.000 1.000 0.902 0.986 0.998 1.000 0.971 0.999 1.000 1.000 0.991 1.000 1.000 1.000 Les résultats du test de puissance pour l’alternative hétéroscédastique sont présentés dans le tableau 3.4. On note les mêmes tendances que pour les alternatives quadratiques et sinusoïdales. La puissance est virtuellement unitaire lorsque n est supérieur à 300 et lorsque c est supérieur à 3. D’après nos analyses, les gains de puissance apportés par la statistique lissée sont donc négligeables. Ces résultats contrastent avec ceux de Li et Racine (2013) qui obtiennent systématiquement des gains de puissance pour la statistique lissée à tous les seuils critiques. Sous l’hypothèse d’absence d’erreur de codage, ces différences pourraient être dues à la variance inférieure du terme stochastique du PGD, supérieure dans nos simulations en comparaison à Li et Racine (2013). Ces auteurs utilisent une variance quatre fois inférieure pour l’erreur normale. Dans ce contexte, nos paramètres de lissage pourraient être sous optimaux comparés à ceux de Li et Racine (2013). Sachant que les variables explicatives de nos modèles sont toutes pertinentes, nous nous attendons à observer peu de surlissage des fenêtres optimales calculées par validation croisée par les moindres carrés. Le tableau 3.5 donne donc la proportion de paramètres de lissage qui peut être considérée comme excessivement large pour les 1000 simulations de Monte Carlo, en fonction de la taille de l’échantillon et du nombre de modalités de la variable dépendante. Dans ce tableau, nous nous concentrons sur le PGD considéré 25 TABLE 3.4: Puissance basée sur le modele DGP H1c : y∗i = 1 + xi − zi + xi ui avec M=1000, B=399 et σu = 1 Probit multinomial ordonné y lissée y non lissée Logit multinomial non ordonné y lissée y non lissée n c 0.01 0.05 0.1 0.01 0.05 0.1 0.01 0.05 0.1 0.01 0.05 0.1 200 300 400 500 2 2 2 2 0.877 0.982 0.998 0.998 0.951 0.995 1.000 1.000 0.971 0.998 1.000 1.000 0.876 0.982 0.998 0.998 0.951 0.995 1.000 1.000 0.971 0.998 1.000 1.000 0.781 0.938 0.989 0.996 0.913 0.986 0.998 0.998 0.954 0.992 0.999 1.000 0.778 0.935 0.989 0.996 0.909 0.984 0.997 0.998 0.953 0.990 0.999 1.000 200 300 400 500 3 3 3 3 0.993 1.000 1.000 1.000 0.998 1.000 1.000 1.000 0.998 1.000 1.000 1.000 0.993 1.000 1.000 1.000 0.998 1.000 1.000 1.000 0.998 1.000 1.000 1.000 0.996 1.000 1.000 1.000 0.998 1.000 1.000 1.000 0.998 1.000 1.000 1.000 0.995 1.000 1.000 1.000 0.998 1.000 1.000 1.000 0.998 1.000 1.000 1.000 200 300 400 500 4 4 4 4 0.997 1.000 1.000 1.000 0.999 1.000 1.000 1.000 0.999 1.000 1.000 1.000 0.997 1.000 1.000 1.000 0.999 1.000 1.000 1.000 0.999 1.000 1.000 1.000 0.999 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 0.998 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.00 1.000 1.000 1.000 200 300 400 500 5 5 5 5 0.995 1.000 1.000 1.000 0.998 1.000 1.000 1.000 0.999 1.000 1.000 1.000 0.995 1.000 1.000 1.000 0.997 1.000 1.000 1.000 0.999 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 sous H1a : plus de 15% des fenêtres de lissage continues (variable x) peuvent être considérées comme excessivement larges 5 . Cette proportion peut même être supérieure pour les autres PDG utilisés 6 . Le surlissage n’est pas un problème avec les variables discrètes réponse et explicative du modèle car il n’y virtuellement pas de surlissage. Cela pourrait vouloir dire que l’accroissement de puissance établi par Li et Racine (2013) pourrait ne pas avoir la portée générale souhaitée dans les applications pratiques. Si cette explication était plausible, nous devrions probablement constater certaines distorsions de taille et de puissance dans nos simulations par rapport à celles de Li et Racine (2013), dues à une estimation moins performante du modèle non paramétrique. Or, ce n’est pas ce que nous constatons. De plus, des simulations menées 7 avec la variance utilisée par Li et Racine (2013) ne nous permettent pas non plus de constater les gains de puissance établis par ces auteurs par rapport à la statistique de Fan et al. (2006). Dans notre cas, nous concluons donc que les gains de puissance apportés par le lissage de la variable réponse ne concordent pas avec ceux établis par Li et Racine (2013) et qu’ils mériteraient peut-être d’être confirmés ou infirmés par d’autres simulations. 1 5. Le seuil informel de ‘surlissage’ du paramètre de lissage est fixé à 0.75n q+4 pour la variable continu et à 0.75 c−1 c pour la variable discrète. Ces seuils correspondent aux valeurs asymptotiques définies par le Lemme 2.1. 6. Ces résultats n’ont pas été reportés ici. 7. Ces résultats sont disponibles sur demande. 26 TABLE 3.5: Fenêtres de lissage conditionnelles, DGP H1a : y∗i = 1 + xi − zi + sin(0, 5πxi ) + ui avec M=1000, ui ∼ N(0, 1) x z y n 200 200 200 200 c 2 3 4 5 Moy 0.242 0.257 0.270 0.285 Med 0.252 0.263 0.275 0.288 Seuil 0.310 0.310 0.310 0.310 Rejet 0.169 0.232 0.293 0.356 Moy 0.091 0.100 0.109 0.116 Med 0.073 0.086 0.100 0.105 Seuil 0.375 0.375 0.375 0.375 Rejet 0.019 0.010 0.010 0.006 Moy 0.001 0.003 0.004 0.005 Med 0.000 0.000 0.000 0.000 Seuil 0.375 0.500 0.562 0.600 Rejet 0.000 0.000 0.000 0.000 300 300 300 300 2 3 4 5 0.224 0.238 0.251 0.260 0.230 0.244 0.259 0.267 0.290 0.290 0.290 0.290 0.148 0.197 0.272 0.329 0.064 0.074 0.082 0.088 0.052 0.067 0.075 0.083 0.375 0.375 0.375 0.375 0.005 0.001 0.002 0.001 0.001 0.001 0.002 0.003 0.000 0.000 0.000 0.000 0.375 0.500 0.562 0.600 0.000 0.000 0.000 0.000 400 400 400 400 2 3 4 5 0.213 0.227 0.239 0.249 0.219 0.234 0.246 0.253 0.276 0.276 0.276 0.276 0.158 0.178 0.256 0.330 0.046 0.057 0.064 0.069 0.040 0.052 0.059 0.065 0.375 0.375 0.375 0.375 0.000 0.000 0.000 0.000 0.000 0.000 0.001 0.001 0.000 0.000 0.000 0.000 0.375 0.500 0.562 0.600 0.000 0.000 0.000 0.000 500 500 500 500 2 3 4 5 0.204 0.217 0.229 0.238 0.209 0.220 0.234 0.241 0.266 0.266 0.266 0.266 0.121 0.159 0.227 0.296 0.039 0.047 0.055 0.060 0.035 0.044 0.051 0.057 0.375 0.375 0.375 0.375 0.000 0.000 0.000 0.000 0.000 0.000 0.001 0.001 0.000 0.000 0.000 0.000 0.375 0.500 0.562 0.600 0.000 0.000 0.000 0.000 27 Conclusion L’adéquation entre les formes fonctionnelles postulées par l’économiste et les relations observées dans les données demeure un sujet important de préoccupation en recherche appliquée, en particulier quand il s’agit de décrire et d’extrapoler des choix individuels. Les estimateurs non paramétriques par noyaux mixtes (continus et discrets) permettent de tester l’adéquation entre les densités conditionnelles postulées et les choix observés. Ces estimateurs fournissent également un modèle flexible utilisable en cas de rejet de la fonction de probabilité postulée. Nos simulations confirment que les tests récemment proposés par Fan et al. (2006) et Li et Racine (2013) présentent de bonnes propriétés statistiques en échantillon fini (taille et puissance). Ces tests identifient de manière statistiquement fiable le vrai modèle (bonne taille) lorsque ce dernier est un logit/probit polytomique ordonné ou non ordonné. Ils rejettent ces mêmes modèles avec une fréquence élevée (bonne puissance) lorsque le chercheur omet des non linéarités ou de l’hétéroscédasticité dans son modèle. Par contre, nous n’avons pas pu confirmer les gains de puissances systématiques mis en avant par Li et Racine (2013) par rapport au test de Fan et al. (2006). D’après nos simulations, le lissage de la variable dépendante discrète n’entraîne pas de gains significatifs de puissance par rapport à une situation ou seul la variable explicative discrète est lissée. Nous n’avons donc trouvé aucune raison de privilégier l’un des deux tests en échantillon fini. Les deux tests peuvent être relativement aisément programmés sur R si l’on emploie les fonctions fournies dans le package np. Nous recommandons l’utilisation de fenêtres de lissage optimales par la méthode de validation croisée par moindres carrés, comme suggéré par Fan et al. (2006) et Li et Racine (2013). Pour des échantillons de grande taille (> 1000 observations) et avec plusieurs variables explicatives, la librairie npRmpi de R permet de paralléliser aisément le calcul de ces fenêtres dans un environnement Open MPI. Dans la pratique, il n’est pas rare que la validation croisée par les moindres carrés conduise à des fenêtres optimales sous-lissées. Le sous-lissage peut se révéler frustrant lorsqu’il affecte une variable explicative continue. Le chercheur devra alors recourir à des fenêtres de lissage ‘sous-optimales’ selon ce critère pour établir une relation lisse entre la variable explicative et la probabilité conditionnelle. Il serait donc intéressant de répéter nos simulations pour vérifier la performance des tests avec différentes méthodes de sélection des paramètres de lissage. Une autre extension utile serait d’explorer la taille et la puissance du test lorsque l’on accroît le nombre de variables explicatives continues. Cela permettrait de quantifier l’impact du ‘curse of dimentionality’ (trappe de la dimension) 29 sur la performance du test. En effet, dans la pratique, la probabilité conditionnelle implique de plusieurs facteurs explicatifs discrets et continus. 30 Annexe A Annexes A.1 Lemme et théorèmes utilisés Lemme 2.1 (Li et Racine, 2013) Sous les conditions de régularité données par Hall et al. (2004) 1/ p n (q + 4) ĥs → h0s ∀ s = 1, ..., q, 2/ p n (q + 4) λ̂s → λs0 ∀ s = 0, ..., r, où h0s > 0, λs0 > 0 sont des constantes fines, r + 1 le nombre de variables discrètes y compris la variable dépendante, q le nombre de variables explicatives continues. Théorème 2.1 (Li et Racine, 2013) 1 Supposons que y est une variable discrète non ordonnée. Sous les conditions de régularité données par Fan et al. (2006) et en définissant Tn,nsγ̂ = n(ĥ1 ĥ2 ...ĥq )1/2Wn,nsγ̂ √ V̂n,γ̂ , alors : d (i) Sous H0 , Tn,nsγ̂ → N(0, 1) ; (ii) Sous H1 , Pr[Tn,nsγ̂ > Bn ] → 1, pour toute suite de Bn = o(n(h1 ...hq ))1/2 . Théorème 2.2 (Li et Racine, 2013) Supposons que y est une variable discrète ordonnée 2 . Sous les conditions de régularité données par Fan et al. (2006) et en définissant Tn,s γ̂ = n(ĥ1 ĥ2 ...ĥq )1/2Wn,s γ̂ √ V̂n,γ̂ , alors : d (i) Sous H0 , Tn,nsγ̂ → N(0, 1) ; (ii) Sous H1 , Pr[Tn,nsγ̂ > Bn ] → 1, pour toute suite de Bn = o(n(h1 ...hq ))1/2 . 1. Pour la démonstration de ces théorèmes voir Li et Racine (2013). 2. La différence entre le Théorème 2.1 et 2.2 réside dans le calcul des fenêtres de lissage optimales, (1.17) et (1.18). 31 Théorème 2.3 (Li et Racine, 2013) pour la validation asymptotique du bootstrap Supposons que y est une variable discrète non ordonnée. Supposons les conditions du théorème 2.1 sont vérifiées à l’exception de l’hypothèse nulle, et en définissant Tn,ns∗ γ̂ = définie comme Vn,γ̂ sauf que yi est remplacé par y∗i alors n(ĥ1 ĥ2 ...ĥq )1/2Wn,ns∗ γ̂ q V̂n,∗ γ̂ où Vn,∗γ̂ est sup |P(Tnns∗ ≤ z|{xi , yi }ni=1 ) − Φ(z)| = o p (1) z∈R avec Φ(.) la fonction de répartition de la loi normale standard. Théorème 2.4 (Li et Racine, 2013) pour la validation asymptotique du bootstrap Supposons que y est une variable discrète ordonnée. Supposons les conditions du théorème 2.2 sont vérifiées à l’exception de l’hypothèse nulle, et en définissant Tn,ns∗ γ̂ = comme Vn,γ̂ sauf que yi est remplacer par y∗i alors n(ĥ1 ĥ2 ...ĥq )1/2Wn,ns∗ γ̂ q V̂n,∗ γ̂ sup |P(Tnns∗ ≤ z|{xi , yi }ni=1 ) − Φ(z)| = o p (1) z∈R avec Φ(.) la fonction de répartition de la loi normale standard. 32 où Vn,∗γ̂ est définie Bibliographie Agresti, A. (2002). Categorical Data Analysis. John Wiley and Sons, Inc., Hoboken, New Jersey, second edition. Aitchison, J. and Aitken, C. G. G. (1976). Multivariate binary discrimination by the kernel method. Biometrika, 63(3) :413–420. Amemiya, T. (1985). Advanced Econometrics. Library of Congress Cataloging in Publication Data. Analytics, R. and Weston, S. (2014a). doSNOW : Foreach parallel adaptor for the snow package. R package version 1.0.12. Analytics, R. and Weston, S. (2014b). foreach : Foreach looping construct for R. R package version 1.4.2. Andrews, D. W. K. (1988a). Chi-square diagnostic tests for econometric models : Introduction and applications. Journal of Econometrics, 37(1) :135–156. Andrews, D. W. K. (1988b). Chi-square diagnostic tests for econometric models : Theory. Econometrica, 56(6) :1419–1453. Andrews, D. W. K. (1997). A conditional kolmogorov test. Econometrica, 65(5) :1097–1128. Blevins, J. R. and Khan, S. (2013). Local nlls estimation of semi-parametric binary choice models. Econometrics Journal, 16(2) :135–160. Cameron, A. C. and Trivedi, P. K. (2005). Microeconometrics. Cambridge Univ. Press, Cambridge [u.a.]. Cragg, J. G. (1971). Some statistical models for limited dependent variables with application to the demand for durable goods. Econometrica, 39(5) :829–844. Croissant, Y. (2013). mlogit : multinomial logit model. R package version 0.2-4. Fan, Y., Li, Q., and Min, I. (2006). A nonparametric bootstrap test of conditional distributions. Econometric Theory, 22(04) :587–613. 33 Flachaire, E. (2005). Propriétés en échantillon fini des tests robustes à l’hétéroscédasticité de forme inconnue. Université Paris1 Panthéon-Sorbonne (Post-Print and Working Papers) halshs-00175905, HAL. Hall, P., Racine, J., and Li, Q. (2004). Cross-validation and the estimation of conditional probability densities. Journal of the American Statistical Association, 99 :1015–1026. Hausman, J. and McFadden, D. (1984). Specification tests for the multinomial logit model. Econometrica, 52(5) :1219–1240. Hausman, J. A. (1978). Specification tests in econometrics. Econometrica, 46(6) :1251–1271. Hayfield, T. and Racine, J. S. (2008). Nonparametric econometrics : The np package. Journal of Statistical Software, 27(5). Heckman, J. J. (1984). The χ 2 Goodness of Fit Statistic for Models with Parameters Estimated from Microdata. Econometrica, 52(6) :1543–47. Herbrich, R. (2001). Learning Kernel Classifiers : Theory and Algorithms. The MIT Press. Horowitz, J. L. (1992). A smoothed maximum score estimator for the binary response model. Econometrica, 60(3) :505–531. Horowitz, J. L. and Louviere, J. J. (1993). Testing predicted choices against observations in probabilistic discrete-choice models. Marketing Science, 12(3) :270–279. Klein, R. W. and Spady, R. H. (1993). An efficient semiparametric estimator for binary response models. Econometrica, 61(2) :387–421. Kullback, S. and Leibler, R. A. (1951). On information and sufficiency. Ann. Math. Statist., 22(1) :79– 86. Li, C. and Racine, J. S. (2013). A smooth nonparametric conditional density test for categorical responses. Econometric Theory, 29(03) :629–641. Li, Q. and Racine, J. (2003). Nonparametric estimation of distributions with categorical and continuous data. Journal of Multivariate Analysis, 86(2) :266–292. Li, Q. and Racine, J. S. (2007). Nonparametric Econometrics : Theory and Practice. Princeton University Press, Princeton. Li, Q. and Racine, J. S. (2008). Nonparametric estimation of conditional cdf and quantile functions with mixed categorical and continuous data. Journal of Business & Economic Statistics, 26 :423– 434. Long, J. S. (1997). Regression Models for Categorical and Limited Dependent Variables. SAGE Publications, International Educational and Professional Publisher. 34 MacKinnon, J. G. (2006). Bootstrap methods in econometrics. Working Papers 1028, Queen’s University, Department of Economics. Maddala, G. (1983). Limited Dependent and Qualitative Variables in Econometrics. Cambridge University Press. Manski, C. F. (1975). Maximum score estimation of the stochastic utility model. Journal of Econometrics, 3 :205–228. Matzkin, R. L. (1992). Nonparametric and distribution-free estimation of the binary threshold crossing and the binary choice models. Econometrica, 60(2) :239–270. Matzkin, R. L. (1993). Nonparametric identification and estimation of polychotomous choice models. Journal of Econometrics, 58(1-2) :137–168. McFadden, D. (1974). The measurement of urban travel demand. Journal of Public Economics, 3(4) :303–328. Pratt, J. W. (1981). Concavity of log likelihood. American Statistical Association, 76(376) :103–106. R Core Team (2014). R : A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. Racine, J., Li, Q., and Zhu, X. (2004). Kernel estimation of multivariate conditional distributions. Annals of Economics and Finance, 5(2) :211–235. Silverman, B. W. (1986). Density Estimation for Statistics and Data Analysis. Chapman & Hall, London. Venables, W. N. and Ripley, B. D. (2002). Modern Applied Statistics with S. Springer, New York, fourth edition. ISBN 0-387-95457-0. Wang, M.-C. and van Ryzin, J. (1981). A class of smooth estimators for discrete distributions. Biometrika, 68(1) :301–309. Wooldridge, J. M. (1992). A test for functional form against nonparametric alternatives. Econometric Theory, 8(04) :452–475. Zheng, J. X. (2000). A Consistent Test Of Conditional Parametric Distributions. Econometric Theory, 16(05) :667–691. 35