Université de Tunis El Manar Faculté des Sciences économiques et de Gestion de Tunis Thèse En vue de l’obtention du grade de Docteur en Sciences Économiques Modèles de régression logistique semi paramétriques à effets aléatoires : Estimation, test polynomial et score de détresse Présentée et soutenue publiquement par Sami MESTIRI Sous la direction de Monsieur le professeur Abdeljelil FARHAT Devant le jury composé de Président : .............................................., .................................. Monsieur Abdeljelil FARHAT , Professeur à la FSEG de Mahdia .............................................., .................................... .............................................., ..................................... .............................................., ..................................... Membres : Année Universitaire 2010-2011 L’université n’entend donner aucune approbation ou improbation aux opinions émises dans les thèses ; ces opinions doivent être considérées comme propres à leurs auteurs. Remerciements Au terme de ce travail, je tiens à exprimer mes plus sincères remerciements à Monsieur le Professeur Abdeljelil FARHAT d’avoir bien voulu diriger ce travail de thèse. Sa disponibilité, ses encouragements et les nombreuses discussions que j’ai eu avec lui ont largement contribué à l’élaboration de ce travail. Ce travail a été réalisé au sein de l’unité de recherche Économie Appliquée et Simulation (EAS) à la faculté des Sciences Économiques et Gestion de Mahdia. Il me plait en ce moment d’adresser mes remerciements à tous ceux qui, d’une manière ou d’une autre, ont contribué à l’aboutissement de ce travail et à rendre meilleures ces années de thèse. J’exprime ma très profonde reconnaissance à l’unité de recherche EAS qui m’a accueilli chaleureusement et qui m’a fourni un climat prospère pour la réalisation de ce travail. Mes participations aux colloques nationaux et internationaux m’ont servi pour mener à terme cette thèse. Je dois également témoigner toute ma gratitude et ma sympathie envers toute personne qui a contribué de prés ou de loin à la réalisation de ce travail de recherche. Je remercie infiniment mes coauteurs et tous mes collègues de FSEG de Mahdia. Enfin, je voudrais remercier tous ceux qui m’ont soutenu tout au long de ma thèse, que se soit d’un point de vue scientifique ou d’un point de vue matériel. En particulier, cette thèse est dédiée à mon parent Thar et à ma mère Rachida qui mont soutenu pendant toute de mes études et ces quelques mots ne suffiront jamais à exprimer tout ce que je leurs dois. ii Résumé Cette thèse s’inscrit dans une perspective de mise en place d’une méthode d’estimation simple et robuste des modèles de régression logistique semi paramétriques à effets aléatoires. Pour cela, nous avons suivi une démarche qui consiste à transformer le modèle semi paramétrique sous la forme d’un modèle de régression logistique à effets aléatoires totalement paramétrique et à traiter l’inverse du paramètre de lissage comme une composante de la variance. En d’autres termes, nous avons proposé d’approximer la fonction non paramétrique par un polynôme du degré fixe. Le choix de degré de ce polynôme est une proposition qui nécessite d’être vérifiée par un test d’hypothèse. Zhang et Lin (2003) ont développé une statistique du score pour tester le degré de polynôme a travers le test de la nullité de l’écart type de l’effet aléatoire. La distribution de cette statistique est approximée par la combinaison des lois de Khi-deux. Leurs études de simulation ont montré que la performance de test du score est moins satisfaisante lorsque la variable expliquée est qualitative. Ce résultat est dû principalement à la mauvaise approximation de la fonction de vraisemblance et à l’utilisation de l’hypothèse de la normalité pour déterminer la distribution statistique du score. Pour améliorer la performance de test du score, nous avons développé iii une procédure basée sur la simulation de Monte Carlo. Cette nouvelle procédure permet de dériver une p-valeur exacte du test polynômial pour un modèle de régression logistique à effets aléatoires. Ainsi, nous avons exploité le fait que la statistique du score est une fonction pivotale sous l’hypothèse nulle pour appliquer la technique du test de Monte Carlo Randomisé (MCR) Dufour (2006). L’efficacité de cette approche proposée est illustrée à travers une expérience de simulation. Les résultats empiriques obtenus prouvent que le test du score asymptotique pour le modèle de régression logistique semi paramétrique à effets aléatoires n’est pas fiable par contre le test de MCR réalise un meilleur contrôle de la taille et a une puissance plus élevée. De plus, il est important de souligner que la procédure de MCR avec les installations informatiques modernes, est facile à mettre en oeuvre. Le modèle de régression logistique à effets aléatoires a été illustré à travers une application réelle concernant l’anticipation de la détresse financière des entreprises tunisiennes. En considérant la détresse financière comme une variable expliquée qualitative, nous avons utilisé le modèle de régression logistique à effets aléatoires pour déduire une fonction de score. Cette nouvelle fonction de score permet de capturer des effets inaperçus qui sont dûs à l’hétérogénéité des entreprises de la population étudiée. En d’autres termes, nous avons mis en évidence les déterminants non observables de la détresse financière de chaque secteur de l’échantillon étudié. D’une deuxième étape, nous avons réalisé une recherche exploratoire sur des nouvelles relations fonctionnelles entre les ratios et la probabilité de la détresse. Ces relations fonctionnelles ont permis de déduire une fonction de score estimée à partir du modèle de régression logistique semi paramétrique. Par la suite, nous avons présenté le modèle logistique semi paramétrique iv comme un modèle alternatif flexible pour la prévision de faillite. Une fois la fonction de score est élaborée, nous avons montré que ce modèle jouit d’un pouvoir discriminant et prédictif. Pour cela, nous avons utilisé un processus de validation. Ce processus sert à estimer les performances futures du modèle qui vient d’être construit sur un jeu de données. Ainsi, nous avons élaboré la courbe de ROC pour chacun des modèles du score construit. Dans notre étude, nous avons visé plus particulièrement à attirer l’attention, d’un part sur l’aspect non linéaire des relations entre les ratios et la probabilité de la détresse et d’un autre part sur le caractère temporel et spatial de la fonction de scoring notamment sur le niveau de la pondération des ratios. v Table des matières 1 Modèles linéaires à effets aléatoires 1.1 1.2 1.3 11 Modèle de régression linéaire multivariée . . . . . . . . . . . . 13 1.1.1 Le modèle et les hypothèses . . . . . . . . . . . . . . . 13 1.1.2 L’estimation du modèle linéaire . . . . . . . . . . . . . 14 1.1.3 Les tests d’hypothèses . . . . . . . . . . . . . . . . . . 15 Spécification du modèle linéaire à effets aléatoires . . . . . . . 17 1.2.1 Formulation du modèle linéaire à effets aléatoires . . . 17 1.2.2 Les hypothèses du modèle linéaire à effets aléatoires . . 19 Estimation du modèle linéaire à effets aléatoires . . . . . . . . 21 1.3.1 La méthode du maximum de vraisemblance . . . . . . 21 1.3.2 La méthode du maximum de vraisemblance robuste . . 24 1.4 Diagnostic du modèle linéaire à effets aléatoires . . . . . . . . 28 1.5 Application : l’analyse de niveau du cholestérol 1.6 . . . . . . . . 31 1.5.1 La structure des données . . . . . . . . . . . . . . . . . 31 1.5.2 Le modèle étudié . . . . . . . . . . . . . . . . . . . . . 33 1.5.3 Les résultats d’estimation . . . . . . . . . . . . . . . . 34 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2 Modèles linéaires semi paramétriques à effets aléatoires vi 39 2.1 La spécification du modèle linéaire semi paramétrique à effets aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.2 2.1.1 Les bases de fonctions de B-splines . . . . . . . . . . . 42 2.1.2 Les bases de fonctions puissances tronquées . . . . . . 44 Estimation du modèle semi paramétrique à effets aléatoires . . 46 2.2.1 la méthode du maximum de vraisemblance pénalisée . 46 2.3 Le diagnostic du modèle semi paramétrique à effets aléatoires . 49 2.4 Le test polynomial . . . . . . . . . . . . . . . . . . . . . . . . 52 2.4.1 Le test du score asymptotique . . . . . . . . . . . . . . 53 2.4.2 Le test du rapport de vraisemblance . . . . . . . . . . 55 2.5 Étude de simulation . . . . . . . . . . . . . . . . . . . . . . . 58 2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 3 Modèle de régression logistique à effets aléatoires 64 3.1 Spécification du modèle de régression logistique à effets aléatoires 65 3.2 L’estimation du modèle de régression logistique à effets aléatoires 68 3.2.1 La méthode de la quasi- vraisemblance pénalisée . . . . 71 3.2.2 L’algorithme Monte Carlo EM . . . . . . . . . . . . . . 74 3.3 Diagnostic du modèle de régression logistique à effets aléatoires 77 3.4 Application : Anticipation de la détresse financière . . . . . . . 82 3.4.1 La structure des données . . . . . . . . . . . . . . . . . 84 3.4.2 La fonction de régression logistique à effets aléatoires du score de détresse . . . . . . . . . . . . . . . . . . . . 85 3.5 4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 Modèle de régression logistique semi paramétrique à effets aléatoires 92 vii 4.1 Spécification du modèle de régression logistique semi paramétrique à effets aléatoires . . . . . . . . . . . . . . . . . . . . . 93 4.2 Estimation du modèle de régression logistique semi paramétrique à effets aléatoires . . . . . . . . . . . . . . . . . . . . . 97 4.3 Le diagnostic du modèle de régression logistique semi paramétrique à effets aléatoires . . . . . . . . . . . . . . . . . . . . . 98 4.4 Le test polynomial . . . . . . . . . . . . . . . . . . . . . . . . 100 4.4.1 Le test du score . . . . . . . . . . . . . . . . . . . . . . 101 4.4.2 Le test de Monte Carlo Randomisé . . . . . . . . . . . 103 4.5 Etude de simulation 4.6 Application : Anticipation de la détresse financière . . . . . . . 111 4.6.1 . . . . . . . . . . . . . . . . . . . . . . . 107 La fonction logistique semi paramétrique de score . . . 113 4.7 La validation des fonctions de score de la détresse . . . . . . . 117 4.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 viii Table des figures 1.1 Fonction d’Huber pour c=1.5 . . . . . . . . . . . . . . . . . . 27 1.2 Le niveau du cholestérol de 200 individus observé tous les deux ans sur une période de dix ans . . . . . . . . . . . . . . . . . . 32 1.3 Les nuages des points des statistiques de la distance du Cook du modèle (1.37) . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.1 Les fonctions fc (x) avec c = (0, 1, 2, 3, 4) simulées pour tester le degré du polynôme dans le modèle linéaire semi paramétrique 59 4.1 Les fonctions fc (x) avec c = (0, 1, 2, 3, 4) simulées pour tester le degré de polynôme dans le modèle de régression logistique semi paramétrique . . . . . . . . . . . . . . . . . . . . . . . . 109 4.2 Les nuages des points des variables explicatives et de leurs logits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 4.3 La courbe de la fonction estiméef (R21 ) . . . . . . . . . . . . . 123 4.4 Les courbes ROC des modèles établis . . . . . . . . . . . . . . 124 ix Liste des tableaux 1.1 Comparaison des structures des données . . . . . . . . . . . . 12 1.2 Les paramètres estimés par la méthode du maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 1.3 Les paramètres estimés par la méthode du maximum de vraisemblance robuste . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.1 Niveaux et puissances empiriques des trois tests de la linéarité de la fonction f dans le modèle (2.29) où N = 2 et n=5 . . . . 61 2.2 Niveaux et puissances empiriques des trois tests de la linéarité de la fonction f dans le modèle (2.29) où N = 4 et n=5 . . . . 62 3.1 Le nombre des entreprises par secteur . . . . . . . . . . . . . . 89 3.2 Les coefficients estimés des effets aléatoires . . . . . . . . . . . 90 3.3 Les coefficients estimés des effets aléatoires . . . . . . . . . . . 91 4.1 Niveaux et puissances empiriques de deux tests de linéarité de la fonction f dans le modèle (4.20) avec N = 2 et n=5 . . . . . 110 4.2 Niveaux et puissances empiriques de deux tests de linéarité de la fonction f dans le modèle (4.20) avec N = 4 et n=5 . . . . . 110 4.3 les estimateurs du modèle de régression logistique semi paramétrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 4.4 Matrice de confusion . . . . . . . . . . . . . . . . . . . . . . . 118 1 4.5 Matrice de confusion des modèles estimés pour l’échantillon test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 2 Introduction générale Dans les sciences sociales, et particulièrement en économie, l’objectif de la modélisation d’un phénomène est de mieux comprendre la nature et le fonctionnement des systèmes étudiés. L’un des rôles d’un modèle est de permettre aux agents (ménages, entreprises et État) d’intervenir de manière plus efficace à travers des modèles statistiques. En effet, un modèle statistique est une présentation formalisée d’un phénomène sous la forme d’une équation dont les variables sont des grandeurs physiques ou économiques. L’objectif d’un modèle est de représenter les traits les plus marquants d’une réalité qu’on cherche à styliser. Le modèle est donc l’outil qui permet de décrire et de comprendre des relations qui caractérisent certaines variables. Bien entendu, les qualités descriptives du modèle retenu dépendent de plusieurs facteurs : par exemple, la qualité du plan d’expérience, la taille de l’échantillon et la qualité de la prise des mesures, avec lesquels le statisticien doit composer une fois les données recueillies. Mais, les qualités dépendent essentiellement de la spécification de ce modèle. La construction d’un modèle consiste à déterminer une forme fonctionnelle entre les variables. Cette forme devrait refléter d’une meilleure façon, la relation de causalité entre ces variables. La régression linéaire est la forme la 3 plus usuelle compt tenu de sa simplicité de calcul et d’interprétation. Dans le modèle de régression linéaire, on postule l’existence d’une relation linéaire entre une variable expliquée et des variables explicatives. En fait, lorsqu’il s’agit de modéliser des phénomènes naturels, l’utilisation du modèle linéaire et de l’hypothèse de normalité des erreurs s’impose dans de nombreuses situations. Malgré cette prédominance bien justifiée par la simplicité attractive, il existe un certain nombre de phénomènes observés difficilement modélisables par la loi Normale et la régression linéaire des effets. C’est le cas, par exemple, de l’observation si l’individu dans une population a bien supporté ou non une telle expérience. Ainsi, afin d’établir une analyse satisfaisante des variables qualitatives ayant des interactions non linéaires avec d’autres variables, il est approprié de recourir au "Modèle de régression logistique semi paramétrique". Sur un autre plan, dans plusieurs études, les données observées d’échantillons sont des données groupées et sont le plus souvent corrélées entre-elles. Ce groupement peut être la conséquence des mesures répétées dans les études longitudinales. La modélisation des effets peut être utilisée dans l’explication du phénomène étudié et mènera à son enrichissement. Dans ce cas, le modèle de régression logistique classique prend une nouvelle structure et peut être défini comme un " Modèle de régression logistique à effets aléatoires". Par ailleurs, les méthodes statistiques reposent habituellement sur des postulats qui doivent être respectés pour que le modèle obtenu soit validé. La plupart des méthodes développées au début de l’apparition de la statistique et encore utilisées de nos jours font appel à des postulats contraignants qui restreignent considérablement l’étendue des applications que l’on peut 4 faire. Heureusement, l’augmentation constante de la puissance de calculs par des ordinateurs permet d’assouplir certains de ces postulats et ce qui permet d’obtenir des modèles flexibles susceptibles de bien représenter la réalité. Les méthodes de régression non paramétriques sont un bon exemple de l’apport des outils informatiques dans l’avancement des méthodes statistiques et seront présentées dans cette thèse. Dans le cas où la représentation graphique du nuage de points qui relient la variable expliquée et la variable explicative nous fournit des informations floues sur l’allure de la courbe de régression, l’utilisation des méthodes de régression non paramétriques s’impose. En fait, ces dernières sont des techniques très adéquates pour le traitement des données et l’inférence non linéaire. La partie explicative du modèle de régression logistique peut être raffinée par la combinaison linéaire de ces trois types d’effets : les effets fixés paramétriques, les effets fixés non paramétriques et les effets aléatoires. Cette combinaison a donné naissance aux " Modèles de régression logistique semi paramétriques à effets aléatoires". Ces modèles permettent une modélisation flexible des effets des variables explicatives en remplaçant le prédicteur linéaire dans le modèle de régression logistique par une combinaison des fonctions non paramétriques et des effets aléatoires. Une étape importante dans la modélisation économétrique est de vérifier statistiquement l’adéquation de la spécification du modèle proposé. Par exemple, il s’agit de vérifier si la relation entre une variable expliquée et une variable explicative est linéaire. La vérification de l’adéquation de la forme paramétrique imposée sur les variables explicatives peut être réalisée dans le cadre d’un test d’hypothèse, où des classes du modèle sont choisies comme 5 des solutions alternatives. Ce test d’hypothèse consiste à vérifier le degré du polynôme dans le modèle de régression logistique transformé. L’application de ce test est basée sur la transformation de la fonction de lissage sous la forme d’un modèle linéaire à effets aléatoires et sur le traitement de l’inverse du paramètre de lissage comme une composante de la variance. Par suite, le test d’hypothèse de degré du polynôme revient à réaliser un test de la nullité de la variance de l’effet aléatoire. La prise de décision sur l’acceptation ou le rejet de l’hypothèse nulle se base généralement sur le calcul d’une statistique adaptée au problème telle que la statistique du rapport de vraisemblance utilisée par Crainiceanu (2004) ou la statistique du score utilisée par Zhang et Lin (2003). En particulier, Zhang et Lin (2003) ont utilisé le test du score pour vérifier le degré d’un polynôme dans le modèle de régression logistique semi paramétrique à effets aléatoires. La distribution de la statistique du score est approximée par une combinaison des lois de Khi-deux. Les études de simulation effectuées par Zhang et Lin (2003) ont montré que le test du score doit être appliqué avec réserve étant donné que ce test a une faible puissance. Pour dépasser cette lacune, nous avons proposé d’améliorer la performance de test du score. Le test de spécification que nous avons proposé, est réalisé en utilisant des procédures de simulation appliquées dans le contexte du modèle logistique semi paramétrique à effets aléatoires. Pour aboutir à cet objectif, nous avons adapté la méthode du test de Monte Carlo Randomisé (MCR) développé par Dufour (2006) pour résoudre le problème du contrôle de la puissance de test du score. L’approche de MCR nous permet d’introduire un nouveau test qui 6 diffère des tests existants dans la littérature en deux aspects. Premièrement, ce test est exact puisque la probabilité de rejeter l’hypothèse nulle, sachant qu’elle est vraie, est toujours égale au niveau nominal. Deuxièmement, cette approche permet d’obtenir un test aléatoire basé sur la simulation des statistiques du test sous l’hypothèse nulle et en utilisant un nombre restreint d’essais. Dans la modélisation des données groupées, un ou quelques groupes peuvent avoir un impact exagéré sur l’estimation du modèle. Ainsi, depuis quatre décennies, un intérêt croissant se manifeste dans la proposition des méthodes de détection des données douteuses ou erronées (données aberrantes). Ceci est dû au souci d’avoir des données expérimentales fiables pour mener des analyses statistiques meilleures. L’analyse des résidus constitue un outil important pour évaluer l’adéquation d’un modèle statistique à l’ajustement des données. En fait, une observation aberrante est une observation dont le résidu (en valeur absolue) est plus élevé que la majorité. Plusieurs approches ont proposé une variété d’indicateurs pour mettre en évidence l’impact d’une unité ou d’une observation sur la qualité du modèle estimé. Dans cette thèse, nous avons essayé de développer des statistiques de la distance de Cook permettant d’évaluer l’effet de l’élimination d’un groupe d’observations sur les paramètres estimés du modèle logistique semi paramétrique à effets aléatoires. Dans un premier temps, nous avons présenté le développement théorique de notre travail en exposant les trois étapes suivantes : -Présenter le modèle de régression logistique semi paramétrique à effets aléatoires. 7 -Déterminer une méthode d’estimation de ces paramètres. -Développer un test polynomial. Dans un deuxième temps, nous appliquons le modèle proposé pour recalculer la fonction de score d’Altman (1968) qui sert à classer les entreprises en deux classes : une classe des entreprises saines et une classe des entreprises en détresse. La prévision de la détresse financière des entreprises revêt une importance majeure pour ceux qui y sont impliqués (actionnaires, gestionnaires, salariés, prêteurs, fournisseurs, clients et surtout l’État). La grande majorité des travaux sur la faillite ou la détresse s’appuie sur des outils d’analyse statistique de grandeurs comptables et de ratios financiers pour discriminer les entreprises saines des entreprises défaillantes. Elle débouche sur un calcul de score qui est un indicateur de synthèse censé donner en un chiffre, qui peut être considère comme un degré de défaillance possible d’un débiteur. Par ailleurs, précisons que Altman (1968) a établi la prévision de la faillite des entreprises américaines en utilisant l’analyse discriminante linéaire. En considérant des données comptables et financières des entreprises tunisiennes et en considérant la détresse financière comme une variable expliquée, nous avons déduit une fonction de score à partir du modèle logistique à effets aléatoires. L’objectif de ce modèle est de capturer des effets inaperçus qui sont dûs à l’hétérogénéité des entreprises de la population étudiée. En d’autres termes, nous visons à mettre en évidence les déterminants non observables de la détresse financière de chaque secteur de l’échantillon étudié. Afin d’améliorer le pouvoir prédictif de la fonction de score, nous avons réalisé une recherche 8 exploratoire de nouvelles relations fonctionnelles entre les ratios et la probabilité de la détresse. Ces relations fonctionnelles ont permis de déduire une fonction de score estimée à partir du modèle de régression logistique semi paramétrique. Dans ce travail, notre objectif principal est de présenter le modèle de régression logistique semi paramétrique comme un modèle alternatif et flexible pour la prévision de la détresse. Une fois la fonction de score est élaborée et le degré de polynôme est testé, nous nous intéresserons à montrer que ce nouveau modèle jouit d’un pouvoir discriminant et prédictif. Cette thèse se compose de quatre chapitres. Dans le premier chapitre, nous présentons le modèle linéaire à effets aléatoires tout en mettant l’accent sur l’apport de la méthode d’estimation du maximum de vraisemblance robuste. En plus, nous réalisons aussi une étude par un modèle linéaire à effets aléatoires ajusté aux données du niveau de Cholestérol. Dans le deuxième chapitre, nous définissons le modèle linéaire semi paramétrique à effets aléatoires comme une extension du modèle linéaire à effets aléatoires. Ce nouveau modèle permet de modéliser des relations de causalité non linéaires entre une variable expliquée longitudinale et des variables explicatives en approximant une fonction de lissage non paramétrique par un polynôme du degré fixe. Le choix du degré de ce polynôme est une proposition qui nécessite d’être vérifiée par un test d’hypothèse. Dans le troisième chapitre, nous donnons une idée assez claire sur les diverses techniques d’estimations des paramètres inconnus du modèle de régression logistique à effets aléatoires. Par la suite, nous réalisons une applica9 tion à partir des données réelles des entreprises tunisiennes sur l’anticipation de la détresse financière. Le dernier chapitre est consacré à la présentation du modèle de régression logistique semi paramétrique à effets aléatoires en mettant l’accent sur l’apport de test de Monte Carlo Randomisé (MCR) dans la confirmation du choix de degré de polynôme. Le modèle de régression logistique semi paramétrique a été illustré à travers une application réelle concernant l’anticipation de la détresse financière des entreprises tunisiennes. 10 Chapitre 1 Modèles linéaires à effets aléatoires Dans les études économétriques classiques, les données de variables peuvent être classées sous la forme d’une série temporelle ou bien sous la forme d’une coupe transversale. Les séries temporelles sont analysées sous l’hypothèse que les individus sont homogènes, alors qu’on suppose pour les données en coupes transversales un comportement individuel statique. La vérification de l’existence d’une relation de causalité entre les variables univariées se réalise souvent par le modèle de régression linéaire. Dans certaines études économétriques, les données observées de l’échantillon sont stratifiées ou groupées. Ce regroupement peut être la conséquence des mesures répétées. On utilise le terme « données longitudinales » pour qualifier les mesures répétées dans le temps sur un ensemble d’unités. Les données longitudinales sont dites balancées, si les mesures sont enregistrées pendant des intervalles réguliers et pour un même nombre de mesure par individu. La table (1.1) illustre la structure des données groupées par cinq 11 balancées de deux variables X et Y . Etude classique Etude longitudinale Individus Données Groupes Données 1 x1 1 y1 2 x2 x11 , x12 , .., x15 y11 , y12 , .., y15 2 y2 x21 , x22 , .., x25 y21 , y22 , .., y25 Tab. 1.1 – Comparaison des structures des données Dans une étude longitudinale, la relation de causalité entre les variables est adéquatement exprimée à travers les modèles linéaires à effets aléatoires. Dans ces modèles, deux types de facteurs peuvent influencer les valeurs de la variable d’intérêt. Ces facteurs peuvent avoir deux natures : fixes ou aléatoires. Les facteurs à effets fixes ont un nombre fini de niveaux et les données se répartissent sur ces différents niveaux. On souhaite en retirer une information concernant l’effet de chaque niveau sur la variable d’intérêt. Par contre, les facteurs à effets aléatoires ont un nombre potentiellement infini de niveaux. Dans ce cas, les données se répartissent sur un échantillon aléatoire de ces niveaux. La façon dont chacun des niveaux influe sur le résultat ne présente pas d’intérêt. En revanche, on souhaite connaître la part de la variabilité induite par ces effets. 12 1.1 Modèle de régression linéaire multivariée Nous commençons cette section par une description du modèle de régression linéaire multivariée. Nous abordons ensuite de façon succincte la question de l’estimation des paramètres de ce modèle par la méthode des moindres carrés ordinaires. 1.1.1 Le modèle et les hypothèses Dans le modèle de régression linéaire multivariée, on postule l’existence d’une liaison statistique linéaire entre un vecteur aléatoire d’une variable expliquée notée Y de taille n et une matrice X des variables explicatives non aléatoires de dimension (n, p). Le modèle linéaire standard traduisant une relation linéaire entre Y et X s’écrit sous la forme suivante : Y = Xβ + ε. (1.1) où β est un vecteur inconnu de taille p des coefficients et ε est un vecteur de taille n d’erreurs de spécification. L’estimation du modèle (1.1) nécessite préalablement la formulation de deux hypothèses concernant le terme aléatoire ε : Hyp 1 : les effets des facteurs autre que X se compensent c.à.d E(ε) = 0. Hyp 2 : l’hypothèse d’homoscèdasticité et de non autocorrélation des erreurs c.à.d V (ε) = σ 2 In . 13 1.1.2 L’estimation du modèle linéaire Les paramètres inconnus du modèle (1.1) sont β et σ 2 . Si on suppose l’indépendance entre les individus, l’estimation de β par la méthode des moindres carrés ordinaires est une valeur β̂ qui minimise la somme des carrées résiduelles : 0 SCR = (Y − Xβ) (Y − Xβ). (1.2) Le principe de la méthode des moindres carrés ordinaires consiste à minimiser les sommes des carrées résiduelles, par rapport aux paramètres inconnus du modèle. La résolution de ce programme d’optimisation permet d’obtenir l’estimateur suivant : 0 0 β̂ = (X X)−1 X Y. (1.3) D’après le théorème de Gauss-Markov, β̂ est le meilleur estimateur linéaire sans biais (BLUE, pour Best Linear Unbiased Estimator). En effet, ce théorème prouve que β̂ possède la variance minimale dans la classe des estimateurs linéaires centrés sans biais. Selon Greene (1991), la matrice de variance-covariance de β̂ a la forme suivante : 0 V (β̂) = σ 2 (X X)−1 . (1.4) Concernant l’estimation du paramètre de la partie aléatoire σ 2 , un estimateur centré est calculé selon cette relation : 14 σ̂ 2 = 1.1.3 SCR . n−p (1.5) Les tests d’hypothèses Le rôle de l’économétrie est de confirmer ou d’infirmer empiriquement l’influence des variables X sur la variable Y en se basant sur des données observées. A cet effet, nous avons besoin de recourir à l’étude inférentielle sur les paramètres du modèle. Ainsi, pour construire des intervalles de confiance ou des tests d’hypothèses, il faut ajouter une hypothèse sur la distribution des erreurs. En effet, nous supposons que les erreurs sont indépendantes et identiquement distribuées selon la loi Normale d’espérance nulle et de variance σ2 : ε ∼ N (0, σ 2 In ). (1.6) Comme conséquence de la normalité des erreurs, nous obtenons : 0 β̂ ∼ N (β, σ 2 (X X)−1 ). (1.7) Cependant, les tests individuels ne peuvent pas être élaborés en utilisant les statistiques distribuées selon la loi Normale, étant donné que la variance des erreurs σ 2 est inconnue. Pour contourner ce problème nous recourons à la statistique suivante : SCR ∼ χ2 (n − p). 2 σ 15 (1.8) Ceci permet d’effectuer les tests individuels à partir des statistiques distribuées selon la loi de Student où la variance σ 2 est remplacée par son estimateur sans biais σ̂ 2 . Il s’en suit que : β̂ − βp qp ∼ t(n − p). V (β̂k ) (1.9) Dans ce qui suit, nous présentons deux types de tests individuels : a-Le test de significativité statistique du paramètre β Le test de significativité statistique du paramètre β consiste à vérifier si les variables explicatives X possèdent un effet multiplicateur significatif sur la variable expliquée Y . Il s’agit d’un test avec le corps d’hypothèse suivant : H :β=0 0 H : β 6= 0 1 b-Le test d’a priori théorique Le test d’a priori théorique comme par exemple β est égal à une constante. Les coefficients testés prennent des valeurs réelles particulières selon l’appréhension théorique du modèle étudié. Dans ce cas, nous testons les corps H :β=β 0 0 d’hypothèses suivants : H : β 6= β 1 0 α 1− β̂p −β0 On rejette H0 lorsque |tc | > tn−p2 avec tc = √ est l’estimation de V (β̂p ) 1− α la statistique du test à partir de l’échantillon utilisé et tn−p2 est le quantile d’ordre 1 − α 2 de la loi de Student de degré de liberté égal à n − p. Le test de Student des coefficients est généralement utilisé pour vérifier les hypo16 thèses théoriques. Mais, ce test n’est valable que lorsque l’hypothèse Hyp2 est vérifiée, c’est-à-dire le terme d’erreur est vraiment un bruit blanc (ni autocorrelation ni hétéroscédasticité). 1.2 Spécification du modèle linéaire à effets aléatoires Dans cette section, nous donnons une description du modèle linéaire à effets aléatoires. Nous abordons ensuite la question de l’estimation des paramètres au sein de ce modèle et en présentant deux méthodes d’estimation : la méthode du maximum de vraisemblance et la méthode du maximum de vraisemblance robuste. 1.2.1 Formulation du modèle linéaire à effets aléatoires Le modèle linéaire à effets aléatoires constitue un outil puissant et flexible pour modéliser la relation de causalité entre les variables longitudinales. Ce modèle vise à rendre compte simultanément de la dynamique du comportement individuel et de l’éventuelle hétérogénéité. Selon Verbeke et Molenberghs (2000), le modèle linéaire à effets aléatoires résulte de la combinaison des deux modèles obtenus en deux étapes. 0 Dans la première étape, on considère le vecteur Yi = (yi1 , ..., yin ) des réponses relatives à l’individu i = 1, ..., N . On suppose que Yi vérifie le modèle de régression linéaire suivant : Yi = Zi β i + ε i , 17 (1.10) où Zi est une matrice des variables explicatives connues de dimension (n, q) et qui permet d’expliquer la vatiation de la variable expliquée de l’individu i, βi est un vecteur de taille q des coefficients inconnus spécifique à l’individu i alors εi est un vecteur de taille n, composé par des termes d’erreurs. Dans la deuxième étape, le vecteur βi est décomposé en deux facteurs : un facteur commun pour tous les individus et un facteur spécifique à chaque individu. βi = Ki β + bi , (1.11) où Ki est une matrice de dimension (q, p) des variables explicatives connues, β est un vecteur de taille p des coefficients de régression inconnus et communs pour tous les individus. Par suite, on peut exprimer la variabilité entre les individus comme suit : Yi = Zi K i β + Zi b i + ε i . (1.12) En supposant que Xi = Zi Ki , l’équation (1.12) s’écrit sous la forme suivante : Yi = Xi β + Zi bi + εi , (1.13) où β est un vecteur des effets fixes et bi est un vecteur des effets aléatoires relatif à l’individu i. 18 Le modèle (1.13) est nommé modèle linéaire à effets aléatoires dans lequel le vecteur des mesures répétées de chaque individu suit un modèle de régression linéaire. Le vecteur des paramètres β est un vecteur commun à toute la population alors que le vecteur des paramètres bi est un vecteur spécifique individuel. Afin d’alléger l’écriture et de faciliter l’expression de certains résultats, nous recourons à la formulation matricielle. Le modèle (1.13) est exprimé sous la forme suivante : Y = X β + Z b + ε, (1.14) où Y est un vecteur de taille (N.n) des variables expliquées, X est une matrice connue de plein rang de dimension (N.n, p), composée par des p variables explicatives, β est un vecteur inconnu de taille p des coefficients des effets fixes, Z est une matrice connue de dimension (N.n, N ) composée par des valeurs 1 et 0, b est un vecteur inconnu de taille N des coefficients des effets aléatoires et ε est un vecteur des erreurs de spécification. 1.2.2 Les hypothèses du modèle linéaire à effets aléatoires Le modèle linéaire à effets aléatoires peut être aussi défini comme un modèle à erreurs composées. Les sources de la variation dans ce modèle se composent de deux éléments : les effets aléatoires bi et le terme des erreurs εi . Le premier présente la variation intergroupes par contre le deuxième présente la variation intragroupes. Avant d’estimer les paramètres du modèle linéaire 19 à effets aléatoires, il faut supposer les trois hypothèses suivantes : Hyp1 : εi ∼ N (0, Σi ), avec Σi(n,n) est une matrice de variance covariance qui caractérise les variances et les corrélations entre des variables aléatoires εi mesurées intragroupes. En général, on suppose que les variations individuelles dans un même groupe sont identiques et indépendantes et que les mesures sont supposées suffisamment éloignées dans le temps ce qui donne que les corrélations entre les individus sont négligeables. Ces postulats nous permettent d’admettre que les termes d’erreurs εi suivent la loi Normale N (0, σε2 In ). Hyp2 : bi ∼ N (0, Gθ ), avec Gθ est une matrice de variance covariance de dimension (n, n) qui caractérise la variabilité intergroupes. Généralement, les variances des effets aléatoires sont supposées égales pour tous les groupes. Dans ce cas, la matrice peut prendre la forme Gθ = θIn . Hyp3 : les effets aléatoires bi et les termes d’erreurs εi sont indépendants. Sous les hypothèses Hyp1 , Hyp2 et Hyp3 , la variable expliquée Y a la propriété suivante : 0 Y ∼ N (Xβ, V ) où V = σε2 I + ZGθ Z , (1.15) où V est une matrice des variances covariances des observations de taille (N.n, N.n), supposée symétrique, définie positive et dépendante d’un vecteur des paramètres γ = (σε2 , θ). 20 1.3 Estimation du modèle linéaire à effets aléatoires Dans la section précédente, nous avons présenté une formulation du modèle linéaire à effets aléatoires. La détermination de l’ampleur du lien entre des variables longitudinales et du niveau de l’hétérogénéité des groupes se réalise par l’estimation les coefficients des effets fixes β et les paramètres des effets aléatoires b. La méthode du maximum de vraisemblance a été souvent utilisée par plusieurs auteurs pour l’estimation des paramètres du modèle linéaire à effets aléatoires. Nous citons, à titre d’exemple, Harvey (1970), Greene (1991) et Foulley et al. (2000). Cependant, des études de simulation réalisées par Richardson et Welsh (1995) ont montré que la méthode du maximum de vraisemblance ne résiste pas aux observations aberrantes. En effet, la présence des observations aberrantes peut sérieusement biaiser les estimateurs. Dans ce qui suit, nous rappelons les procédures de la détermination des estimateurs de paramètres du modèle linéaire à effets aléatoires par la méthode du maximum de vraisemblance. Ensuite, nous présentons la méthode du maximum de vraisemblance robuste comme une approche alternative d’estimation. 1.3.1 La méthode du maximum de vraisemblance La variance totale V est scindée en plusieurs composantes θ que l’on appelle composantes de la variance. Le vecteur des effets fixes β ainsi que le vecteur des paramètres de variance θ sont inconnus et il s’agit de les estimer. Il est important de noter ici que, en pratique, nous n’observons pas directe21 ment les effets aléatoires b. Ils sont indirectement observés dans les données. L’approche du maximum de vraisemblance [(ML) pour Maximum Likelihood] utilise le concept classique de la fonction de vraisemblance. L’estimation des composantes de la variance par l’approche ML conduit à des systèmes non linéaires avec contraintes. Outre le fait que rien ne nous assure la positivité des estimations pas à pas, il n’est pas certain non plus que ces systèmes mènent à un maximum global de la fonction de vraisemblance. D’autres alternatives à la résolution itérative de ces systèmes ont été proposées tel que l’algorithme de Henderson (1975). Au cours de ses travaux, Henderson (1975) a été amené à prédire des réalisations non observées d’un effet aléatoire à l’intérieur d’un modèle linéaire à effets aléatoires. Ainsi la prédiction de b devient un élément important et indispensable. Cette prédiction de b est ensuite utilisée pour l’estimation des composantes de la variance. Il existe plusieurs manières de prédire b. Celle qui a été considérée ici est nommée par le meilleur prédicteur linéaire sans biais [(BLUP) pour Best Linear Unbiaised Predictor]. Cette prédiction b̃ est une fonction linéaire des données, non biaisée E(b̃) = b et la meilleure au 0 sens des carrés moyens E((b̃ − b) (b̃ − b)) est minimum. La méthode de Henderson propose des équations permettant d’obtenir simultanément le meilleur estimateur linéaire sans biais [(BLUE) pour Best Linear Unbiaised Estimator] de β (notée β̂ équivalente au maximum de vraisemblance sous des hypothèses de normalité adéquates) et la prédiction BLUP de b. Pour former ce système d’équations, la distribution jointe de Y et b est maximisée en β et b. Ainsi, après avoir utilisé sa distribution pour construire la fonction de vraisemblance, b joue alors le rôle de paramètre. 22 Compte tenu des hypothèses Hyp1 , Hyp2 et Hyp3 , la distribution jointe s’écrit : f (y, b) = (2πθ)−1/2 exp{ −1 0 0 [(Y − Xβ − Zb) (Y − Xβ − Zb) + b Gθ b]} (1.16) 2 Le calcul des estimateurs du maximum de vraisemblance des paramètres du modèle (1.14) se réalise selon une procédure itérative. A l’étape initiale k = 0, il faut choisir des valeurs des composantes de la variance σ 2(0) = (0) 0 (σε , θ(0) ) . A l’étape k, les estimateurs des coefficients des effets fixes β et les coefficients des effets aléatoires b sont déduits à partir de ce système d’équations normales qui sont déduit de l’équation (1.16) : 0 0 XX XZ 0 ZX V (k) 2(k) avec ũ(k) = θ(k) b̃(k) et V (k) = σε β̃ (k) ũ(k) = (k) 0 XY 0 ZY (1.17) 0 In + ZGθ Z . Ces équations sont souvent appelées : équations du modèle mixte ou [(MME) pour Mixed Model Equations] ou encore équations de Henderson qui servent à déterminer les solutions du système (1.17). Les estimateurs du maximum de vraisemblance de tous les paramètres du modèle (1.14) sont déterminés itérativement selon les formules suivantes : ³ 0 ´−1 ³ 0 ´ −1 −1 β̂ (k+1) = X V (k) X X V (k) Y et 23 (1.18) 0 −1 b̂(k+1) = θ(k) Z V (k) (Y − X β̂ (k) ). (1.19) Dans le système (1.17), la matrice V dépend des valeurs σε2 et θ toutes inconnues. L’estimation de ces composantes est donc nécessaire. A partir des équations de maximum du vraisemblance déterminées par Searle et al. (1992), on construit les procédures itératives suivantes : 0 θ (k+1) = ũ(k) ũ(k) et (1.20) y (y − X β̃ (k) − Z ũ(k) ) = . n (1.21) 2(k+1) n − tr(σε V (k)−1 ) 0 σε2(k+1) ° ° Cette procédure itérative s’arrête si la condition °σ 2(k) − σ 2(k+1) ° < ² est 2(k) vérifiée, avec σ 2(k) = (σε 0 , θ(k) ) et ² est un seuil de précision donné. La procédure d’estimation alterne alors entre : 1-pour des valeurs de σ 2 connues, la résolution d’équations (1.18) et (1.19). 2-pour des valeurs de β et b, la résolution d’équations (1.20) et (1.21). 1.3.2 La méthode du maximum de vraisemblance robuste La méthode d’estimation du modèle linéaire à effets aléatoires présentée dans la section précédente n’est pas résistante aux observations aberrantes. En fait, La fonction objective du maximum de vraisemblance est une fonction 24 croissante des carrées de résidus définis par les différences entre les observations réelles et les ajustements estimés. Par conséquent, les points aberrants sont les observations qui ont des résidus arbitrairement élevés. Ces points peuvent avoir une influence infiniment forte sur l’estimation du maximum de vraisemblance. Pour surmonter ce problème, Rocke (1991) et Fellner (1986) ont proposé d’utiliser les estimateurs robustes. Quelques améliorations de ces estimateurs et des études comparatives par la méthode de Monte Carlo ont été réalisées par Huggins (1993) et Richardson (1997). Sous l’hypothèse que les effets aléatoires suivent la loi Normale N (0, θIn ) et que les termes des erreurs suivent la loi Normale N (0, σε2 In ), la fonction de log- vraisemblance du modèle linéaire à effets aléatoires a la forme suivante : 0 − 2L(γ; Y ) = −n ln(2π) − ln(det V ) − εε , (1.22) où ε = V −1/2 (Y − Xβ) est le résidu standardisé. Selon l’approche de Huggins (1993), une estimation robuste consiste à remplacer la fonction quadratique de ε par une fonction bornée qui croit lentement afin de bondir l’influence des observations aberrantes. Par conséquent, la fonction de log -vraisemblance robuste est donnée par : − 2η(γ; Y ) = ln(2π) − κ1 ln(det V ) − ρ(ε), (1.23) où κ1 = E(εψ(ε)) est un facteur de correction d’uniformité. Par exemple, si ε suit la loi Normale standard alors κ1 = Pr(|ε| ≤ c). 25 Pour le choix de la fonction ρ, nous adoptons cette fonction proposée par Huber (1981) : ρ(ε) = 1 2 ε 2 si |ε| ≤ c (1.24) c |ε| − 1 c2 si |ε| > c 2 Avec c est une constante fixée. Un estimateur robuste de paramètre β peut être déterminé par l’algorithme de Newton-Raphson en utilisant les dérivées premières et secondes de la fonction du log-vraisemblance (1.23). Mathématiquement, l’équation de Newton-Raphson s’écrit : · β avec (h+1) ∂ log η ∂β =β (h) ∂ 2 log η(γ, y) − ∂β∂β 0 · ¸−1 β=β (h) ∂ log η(γ, y) ∗ ∂β ∂ 2 log η ∂β∂β 0 0 = X V −1/2 ψ[V −1/2 (y − Xβ)] et ¸0 (1.25) β=β (h) 0 = X V −1/2 ΛV −1/2 où Λ est une matrice diagonale composée par λii = 1 si |ε| ≤ c et λii = 0 sinon. Les estimateurs du maximum de vraisemblance robustes des composantes de la variance ont été développés par Richardson et Welsh (1995) selon ces deux formules : 0 θ (k+1) = ψ(ũ(k) ) ũ(k) 2(k+1) κ1 (n − tr(σε 26 V (k)−1 )) et (1.26) 0 σε2(k+1) ψ(y − X β̃ (k) − Z ũ(k) ) y = κ1 n (1.27) avec ψ(ε) est la dérivée de la fonction d’Huber ρ est égale à : −c ψ(ε) = ε c si ε ≤ c (1.28) si ε ∈ [−c, c] si ε ≥ c La figure (1.1) est une présentation graphique de la fonction ψ(ε) pour c = 1.5. fonction de Huber pour c=1.5 2 1.5 1 ψ(ε) 0.5 0 −0.5 −1 −1.5 −2 −6 −4 −2 0 ε 2 Fig. 1.1 – Fonction d’Huber pour c=1.5 27 4 6 1.4 Diagnostic du modèle linéaire à effets aléatoires Dans l’analyse économétrique, la détection des observations aberrantes est une étape importante pour obtenir le meilleur ajustement des données. Diverses approches de diagnostic ont été proposées par des chercheurs tels que Cook et Weisberg (1983), Beckman et al. (1987) et Chatterjee et Hadi (1986). La distance de Cook est un outil statistique de diagnostic très utilisée vu sa simplicité. Cette distance a été introduite par Cook (1977) pour mesurer l’effet de chaque observation sur l’estimation obtenue du modèle linéaire simple. L’une des extensions de la distance de Cook a été développée par Christensen et al. (1992) pour identifier si, à un instant donné, une observation individuelle est susceptible d’influencer les estimateurs des paramètres du modèle linéaire à effets aléatoires. L’approche de Cook (1977) consiste à calculer la distance entre deux valeurs de l’estimateur β̂ obtenues avec et sans la iième observation afin de mesurer l’influence d’une telle observation sur l’estimateur β̂ d’un modèle linéaire simple. Cependant, pour le modèle linéaire à effets aléatoires l’élimination des observations individuelles n’est pas appropriée. Par conséquent, il est naturel de considérer l’élimination des groupes d’observations. En suivant l’approche de Cook (1977), nous définissons la distance CDi (β̂) comme un indicateur pour évaluer l’effet de l’élimination d’un groupe d’observations sur le paramètre estimé β̂ : Définition 1.4.1. En notant par β̂ l’estimateur par la méthode du maximum de vraisemblance du modèle (1.14) et par β̂(i) l’estimateur par la méthode du 28 maximum de vraisemblance sur des données sans le iième groupe d’observations, alors la distance CDi (β̂) est définie par l’équation suivante : ´0 ³ 0 ´³ ´ 1³ −1 CDi (β̂) = β̂ − β̂(i) X V X β̂ − β̂(i) . p (1.29) Pour déterminer la valeur de β̂(i) sans refaire le calcul d’estimation, Banerjee et Frees (1997) ont développé le théorème suivant : 0 1/2 −1/2 0 Théoréme 1.4.1. En considérant X̃ = V 1/2 X; X̃i = Vi Xi , Ẽi = Vi Ei ³ ´−1 0 0 tel que E = Y − Xβ et H̃i = X̃i X̃ X̃ X̃i pour i = 1, ..., N des transformations de variables du modèle (1.14), alors β̂(i) s’écrit sous la forme suivante : ³ 0 β̂(i) = β̂ − X̃ X̃ ´−1 ¯ ¯ X̃i (I − H̃i )Ẽi ¯β = β̂, bi = b̂i 0 (1.30) Soient Xi = (xi1 , ..., xin ) une ligne de la matrice X correspondante au iième 0 groupe d’observations, X = (Xi , X(i) ) une partition de la matrice X et Y = 0 (Yi , Y(i) ) une partition du vecteur Y ainsi on obtient 0 0 0 0 0 0 X(i) V(i) X(i) = X V X − Xi Vi Xi et X(i) V(i) Y(i) = X V Y − Xi Vi Yi . En appliquant, la formule de l’inverse de matrice citée par Searle (1982), on obtient : 0 0 0 0 0 (X(i) V(i) X(i) )−1 = (X V X)−1 + (X V X)−1 Xi (Vi−1 + Xi (X V X)−1 Xi )−1 Xi . (1.31) 29 0 0 1/2 0 0 −1/2 En supposant que X̃ = V 1/2 X = (X̃1 , ..., X̃N ) ; X̃i = Vi Xi , Ẽi = Vi Ei ³ ´−1 0 0 et H̃i = X̃i X̃ X̃ X̃i pour i = 1, ..., N alors l’équation (1.31) devient : 0 −1 (X(i) V(i) X(i) ) ³ 0 = X̃ X̃ ´−1 ³ 0 + X̃ X̃ ´−1 0 −1 ³ 0 X̃i (I − H̃i ) X̃i X̃ X̃ ´−1 . (1.32) L’estimateur β̂(i) est calculé en utilisant le développement suivant : ³ ´−1 0 0 X(i) V(i) X(i) (X(i) V(i) Y(i) ) ·³ i ´−1 ³ 0 ´−1 0 ³ 0 ´−1 ¸ h 0 0 0 −1 X̃ X̃ + X̃ X̃ X̃i (I − H̃i ) X̃i X̃ X̃ X̃ Ỹ − X̃i Ỹi = ³ 0 ´−1 0 = β̂ − X̃ X̃ X̃i (I − H̃i )−1 Ẽi . (1.33) β̂(i) = En remplaçant l’équation (1.33) dans l’équation (1.30), on obtient cette formule pratique permettant de calculer la distance de Cook : 0 CDi (β̂) = Ẽi (I − H̃i )−1 H̃i (I − H̃i )−1 Ẽi . (1.34) L’équation (1.34) de la distance de Cook est semblable à celle du modèle de la régression linéaire multivariée. D’un autre coté, les valeurs calculées de CDi (β̂) peuvent être comparées à des points d’une distribution Chi-deux χ2p avec un calibrage approximatif. 30 1.5 Application : l’analyse de niveau du cholestérol L’analyse des données groupées par le modèle linéaire à effets aléatoires est une technique assez récente. Nous avons effectué des recherches dans la littérature qui nous ont incité à conclure qu’il n’existe pas d’étude de cas bien approfondie. Notre démarche dans l’analyse des données groupées est totalement empirique. En résumé, nous distinguerons trois étapes dans la démarche que nous proposons. Au niveau de la première étape, nous introduisons les facteurs fixes et les facteurs aléatoires dans le modèle. Ensuite, nous passons à l’estimation des paramètres du modèle par la méthode du maximum de vraisemblance. Au niveau de la troisième étape, les observations aberrantes ou atypiques sont détectées par l’analyse de la statistique de la distance de Cook de chaque groupe. L’utilité du modèle linéaire à effets aléatoires sera illustrée par une application concernant l’analyse des données du niveau de cholestérol collectées par Zhang et al. (1998). Ainsi, nous traitons un modèle linéaire à un seul effet aléatoire ajusté aux données du niveau du cholestérol. 1.5.1 La structure des données Dans le but d’étudier les caractéristiques du cholestérol, Zhang et al. (1998) ont enregistré le niveau du cholestérol de 2634 participants tous les 2 ans pour une période de 10 ans. Dans notre étude, comme un exemple illustratif, nous utilisons seulement les données de 200 individus tirées aléatoirement. L’objectif de cette étude est de déterminer les facteurs qui ont un impact sur le niveau du cholestérol. Cette étude vise à trouver des éléments 31 de réponses à ces questions : 1. Quel est le taux moyen de variation du niveau du cholestérol en fonction de l’âge ? 2. Est ce que la variation du niveau de cholestérol dépend du sexe ? 3. Si le niveau du cholestérol dépend du sexe, voir si c’est élevé pour les hommes que pour les femmes ? 500 450 400 cholsterol 350 300 250 200 150 100 0 1 2 3 4 5 Années 6 7 8 9 10 Fig. 1.2 – Le niveau du cholestérol de 200 individus observé tous les deux ans sur une période de dix ans La figure (1.2) indique bien que : -Chaque individu a en moyenne cinq observations (par contre dans une étude transversale chaque individu n’a qu’une seule observation). -Les données ne sont pas balancées. Quelques individus ont des observations manquantes. 32 - Chaque individu a sa propre ligne de trajectoire avec probablement des constantes différentes, ce qui implique deux sources de variations : des variations individuelles et des variation temporelles. - La tendance du niveau de cholestérol varie linéairement en fonction du temps pour la plupart des individus. -Le niveau du cholestérol enregistré au temps initial se diffère d’un individu à un autre. L’existence d’une différence peut être expliquée par un facteur de hétérogénéité modélisable par un effet aléatoire. 1.5.2 Le modèle étudié Soit yit le niveau du cholestérol observé pour l’individu i = 1, .., 200 mesuré à la date t = (0, 2, 4, 6, 8, 10). D’après la figure (1.2), nous constatons que le niveau du cholestérol varie linéairement en fonction du temps fini pour chaque individu. Par conséquent, nous supposons que yit vérifie le modèle de régression linéaire suivant : yit = ai + β t + εit , (1.35) Étant donné que chaque individu a sa propre ligne de trajectoire avec probablement des constantes différentes, il existe alors deux sources de variations : intergroupes et intragroupes. Nous pouvons considérer le coefficient ai comme une variable aléatoire (puisque l’individu est un sujet aléatoire tiré de la population). L’effet aléatoire ai traduit le fait que le niveau du cholestérol au temps initial varie d’un individu à un autre. On suppose d’une part l’existence d’une liaison entre le niveau de cholestérol au temps initial et les variables sexe et age. Ainsi, la variable aléatoire ai peut être reformulée 33 comme suit : ai = β0 + sexei β1 + âgei β2 + bi , (1.36) où ai représente le niveau du cholestérol réel mais inaperçu de l’individu i, β0 est le niveau moyen du cholestérol de toute la population enregistré au temps initial t = 0 et bi est le niveau du cholestérol spécifique de l’individu i. Nous supposons que bi suit la loi Normale N (0, σb2 I). En substituant l’expression (1.36) dans le modèle (1.35), nous obtenons : yit = β0 + β1 sexei + β2 âgei + β3 t + bi + εit , (1.37) où β1 et β2 représente respectivement l’effet du sexe et l’effet de l’âge sur le niveau de cholestérol. 1.5.3 Les résultats d’estimation Le modèle de régression à effet aléatoire (1.37) ajusté aux données du niveau du cholestérol a été estimé par la méthode du maximum de vraisemblance en utilisant la procédure (lme) du logiciel R (Voir annexe 1). Afin d’examiner l’influence d’un individu sur les estimations des paramètres du modèle, nous avons calculé les statistiques de Cook selon la formule (1.34). Les nuages des points de la distance du Cook du modèle (1.34) sont présentés dans la figure (1.3). Les individus 4, 130 et 195 ont les valeurs de la distance du Cook les plus 34 −5 16 x 10 14 12 CDi(β) 10 8 6 4 2 0 −2 0 50 100 Individus 150 200 Fig. 1.3 – Les nuages des points des statistiques de la distance du Cook du modèle (1.37) élevées. Donc, ils peuvent être considérés comme les individus plus influents (ou individus aberrants). Par la suite, il faut les éliminer de la base de données et recalculer les estimations des paramètres. La table (1.2) récapitule les résultats d’estimation des paramètres de l’équation du modèle (1.37) par la méthode du maximum de vraisemblance après l’élimination des points aberrants. Le coefficient du constant fixe β̂0 = 157.563 représente une estimation du 35 Estimation Écart type t-valeurs p-valeurs β0 157.563 15.208 10.360 0.000 β1 -1.292 5.536 -0.233 0.815 β2 1.498 0.351 4.262 0.000 β3 2.816 0.202 13.903 0.000 Tab. 1.2 – Les paramètres estimés par la méthode du maximum de vraisemblance niveau minimal du cholestérol. Après l’ajustement du niveau de cholestérol yij au sexe, nous constatons que le niveau du cholestérol des mâles est inférieur à celui des femelles, la différence est égale à 1.292 unités. Après l’ajustement du niveau du cholestérol yij à l’âge, nous remarquons que l’accroissement moyen de l’âge d’un an engendre une augmentation de 1.498 unités du niveau du cholestérol. En ce qui concerne l’estimation de l’effet aléatoire, nous avons obtenu l’écart type de l’effet aléatoire σb = 37.492. Ce qui indique que le niveau du cholestérol varie d’un individu à un autre avec une amplitude qui peut atteindre 38 unités. La table (1.3) récapitule les résultats d’estimation du modèle (1.37) par la méthode du maximum de vraisemblance robuste. Pour les estimateurs robustes, nous avons utilisé la fonction d’Huber avec deux valeurs : pour l’estimation du paramètre de location c = 1.34 et pour l’estimation du paramètre de l’échelle c = 0.2. D’après les résultats énoncés dans la table (1.3), nous constatons que les paramètres estimés par la méthode robuste ont des valeurs proches à celles 36 Estimation Écart type t-valeurs p-valeurs β0 142.343 13.107 11.360 0.000 β1 -1.242 4.436 -0.833 0.615 β2 1.521 0.251 3.392 0.000 β3 2.731 0.201 12.203 0.000 Tab. 1.3 – Les paramètres estimés par la méthode du maximum de vraisemblance robuste estimées par la méthode non robuste. Ceci, peut être expliqué par le fait que le nombre des points aberrants est faible comme l’indique la figure (1.3). 1.6 Conclusion Dans ce chapitre, nous avons présenté le modèle linéaire à effets aléatoires qui permet de traiter des données groupées continues tout en mettant l’accent sur l’apport de la méthode d’estimation du maximum de vraisemblance robuste. Pour minimiser l’influence des observations aberrantes, nous avons utilisé la fonction de Huber. Cependant, il existe des autres choix alternatifs. Nous pouvons citer, à titre d’exemple, la fonction du bisquare de Tukey Huggins (1993) qui pourra être un exercice pour faire une comparaison de l’efficience théorique ou empirique de divers choix. Nous avons aussi développé une méthode de diagnostic pour le modèle linéaire à effets aléatoires. En fait, nous avons examiné l’effet de l’élimination des groupes d’observations sur les paramètres du modèle linéaire à effet aléatoires. Lorsqu’il s’agit de modéliser des phénomènes naturels, l’utilisation du modèle linéaire et de l’hypothèse de normalité des erreurs s’impose dans de nombreuses situations. L’utilisation du modèle linéaire, dans le cas de 37 variable expliquée longitudinale et qualitative peut engendre une mauvaise spécification. Ainsi, afin d’établir une analyse plus satisfaisante d’une variable longitudinale et qualitative, il est approprié de recourir au modèle de régression logistique à effets aléatoires qui sera présenté dans les chapitres suivants. 38 Chapitre 2 Modèles linéaires semi paramétriques à effets aléatoires Parfois, la représentation graphique du nuage de points des variables indique que le lien entre les variables n’est pas linéaire. Le choix d’un modèle paramétrique n’est souvent qu’un procédé simplificateur commode, amenant des erreurs de spécification. Pour s’affranchir du cadre paramétrique, l’idée naturelle est d’utiliser un modèle plus large, " modèle non paramétrique ", où les variables explicatives sont caractérisées par des fonctions. Identifier la relation de causalité qui régit les variables revient dès lors à estimer ces fonctions. Cette approche a connu un développement important durant les trente dernières années mais s’est finalement révélée décevante en pratique, car les estimateurs proposés ne deviennent performants qu’en présence de très grands échantillons, notamment lorsqu’on veut les utiliser pour identifier les modèles de régression multiple. Pour pallier au problème précédent, on introduit une méthode de "réduction de dimension". Développée depuis une dizaine d’années, elle a pour 39 but de rendre plus performantes les techniques non paramétriques d’estimation d’une régression en postulant une modélisation semi-paramétrique. Par conséquent, on échappe à la nécessité de disposer de très gros échantillons de variables continues pour une mise en oeuvre pratique performante. Ce chapitre introduira le modèle linéaire semi paramétrique à effets aléatoires et la méthode d’estimation de la fonction de régression définie, en détaillant sa performance. 2.1 La spécification du modèle linéaire semi paramétrique à effets aléatoires Le modèle linéaire semi paramétrique à effets aléatoires est une extension du modèle linéaire à effets aléatoires. Ce nouveau modèle permet de modéliser les relations de causalité entre les variables longitudinales. Ce nouveau modèle permet d’éviter la nécessité de disposer d’un échantillon de variables continues de grande taille pour une mise en oeuvre pratique performante. En plus, il fournit une formulation flexible pour modéliser la dépendance des variables longitudinales.. Le modèle linéaire semi paramétrique à effets aléatoires se compose de deux types de fonctions. La première est supposée une fonction linéaire paramétrique, alors que la deuxième est supposée une fonction inconnue non paramétrique puisque qu’on ignore la forme de la régression entre la variable explicative X et la variable expliqué Y . Considérons une étude de causalité entre les variables Y , X et S. Soit yij une réalisation de la variable expliquée continue Y pour la j ième obser40 vation (j = 1, ..., n) du iième groupe (i = 1, .., N ), sij vecteur de taille p des réalisations de variables explicatives S, xij la valeur prise par la composante de la matrice X et zij un vecteur de taille q associés aux effets aléatoires b. Le vecteur sij est supposé avoir une relation linéaire avec yij . Par contre, la réalisation xij est transformée par une fonction inconnue étant donné qu’on ignore la forme de régression entre X et Y . Mathématiquement, l’observation yij dépend de sij et xij à travers ce modèle semi paramétrique à effets aléatoires : 0 0 yij = f (xij ) + sij α + zij bi + εij , (2.1) où α est un vecteur de taille p des coefficients de régression inconnus, f (xij ) est une fonction de lissage de xij deux fois différentiable, bi est un vecteur des effets aléatoires individuels et εij est un bruit aléatoire. Les cas spéciaux du modèle (2.1) peuvent être d’intérêt pour réaliser quelques applications. Si les variables sont mesurées pour un seul groupe, le modèle (2.1) se réduit à un modèle partiellement linéaire tel qu’il a été considéré par Heckman (1986), Speckman (1988) et par He et Shi (1996). Si la fonction f est éliminée, le modèle (2.1) devient un modèle linéaire à un seul effet aléatoire, tel qu’il a été présenté dans le premier chapitre. Dans le modèle (2.1), la fonction f est un opérateur de lissage qui se définit formellement comme une fonction permettant de passer d’une représentation discrète d’une fonction [un nuage de points (xi , yi ) dans (R × R)] à une représentation continue de celle-ci : x 7→ y = f (x) où f est une fonction continue de R à valeurs dans R. Ainsi, f est une fonction réelle possédant à 41 la fois des propriétés d’approximation, d’interpolation et de lissage : (a) approximation : en toute valeur xi dans l’échantillon, la valeur évaluée f (xi ) doit être proche de la valeur yi . (b) interpolation : en toute nouvelle valeur x non incluse dans l’échantillon, la valeur évaluée f (x) existe et doit tenir compte des valeurs y aux points voisins. (c) lissage : la fonction f (x) doit posséder un degré de régularité suffisant. Par ailleurs, placé dans un contexte de statistique inférentielle, afin de construire un modèle non paramétrique, l’expérimentateur choisit généralement un espace approprié de fonctions auquel f est censée appartenir. Ce choix est motivé par des propriétés de lissage de la fonction de régression. Les données sont utilisées pour la détermination de cette fonction inconnue. La fonction de spline est un opérateur de lissage permettant de déterminer la forme de la fonction f . Par définition, la fonction de spline est une collection des polynômes par morceaux. Mathématiquement, on désigne par {κ1 , ..., κK } un ensemble de K points dans un intervalle [a, b]. Ces points κk sont appelés des noeuds permettant de construire des bases. Il y a de nombreuses façons de définir des bases de fonctions de splines. Nous exposons à présent les bases de fonctions de B-splines et les bases de fonctions puissances tronquées. 2.1.1 Les bases de fonctions de B-splines DeBoor (1978) a défini un espace composé par des morceaux de polynômes connectés d’une manière spéciale et qu’il a appelé les B-splines . Ces bases prennent des valeurs positives sur des intervalles adjacents de la partition et 42 des valeurs nulles pour les autres intervalles. En plus, les bases des fonctions de B-splines ne dépendent pas de la variable expliquée. Par contre, elles dépendent du nombre et de la position de noeuds (nous fixons généralement des intervalles équidistants et de degré d’ordre trois). DeBoor (1978) a écrit un algorithme pour déterminer les bases des fonctions de B-splines du degré quelconque à partir des B-splines du degré inférieur. Techniquement, une base des fonctions de B-splines d’ordre p est un polynôme de degré (p − 1). Étant donné un ordre fixé p, la fonction de Bspline d’ordre p, notée par Bk,p (x), k = p−1, ..., K se construit récursivement à partir des fonctions de base B-spline Bk,p−1 (x) d’ordre p − 1. La formule de récurrence est basée sur les différences divisées et s’écrit sous la forme suivante : Bk,p (x) = x − κk κk − x Bk,p−1 (x) + Bk+1,p−1 (x) κk+p−1 − κk κk+p − κk+1 (2.2) L’utilisation de cette formule maniable, nécessite la connaissance du point initial dans la récurrence de la base des fonctions de B-splines de premier ordre Bk,1 qui par convention est défini comme une fonction indicatrice : 1 si x ∈ [κ , κ ] k k+1 Bk,1 (x) = 0 sinon (2.3) En utilisant les équations (2.2) et (2.3), il est facile d’évaluer une base de fonctions B-splines donnée à un point quelconque x ∈ [κk , κk+1 ]. 43 Nous remarquons que la fonction des bases B-splines vérifie les propriétés souhaitables du support de n’importe quelle base pour l’espace des splines. D’ailleurs, la fonction f dans le modèle (2.1) peut être construite par la combinaison linéaire des bases de fonction B-spline. f (xij ) = K X ak Bk (xij ) = B(xi )a (2.4) k=1 où B(xi ) est la iième ligne de la matrice des bases de fonction B-splines et 0 a = (a1 , .., aK ) est un vecteur des coefficients inconnus associés aux bases. 2.1.2 Les bases de fonctions puissances tronquées Les bases de fonctions puissances tronquées sont des bases relativement intuitives de fonctions de spline. En utilisant le théorème de Taylor, la fonction de lissage f (x) est générée sous la forme suivante : f (x) = H X h δh x + h=1 K X ak (x − κk )+ , avec κk < x < κk+1 (2.5) k=1 où x+ = max(0; x) et κ1 , ..., κK est un ensemble de noeuds distincts. Le nombre de noeuds K doit être assez élevé pour assurer l’exigibilité de la courbe. Les noeuds sont choisis comme quantiles de x avec les probabilités 1/(K + 1), ..., K/(K + 1). En remplaçant l’équation (2.5) dans le modèle (2.1), nous obtenons un modèle totalement paramétrique composé par les bases de fonctions puissances tronquées : 44 yij = H X h δh x + h=1 K X 0 0 ak (xij − κk )+ + sij α + zij bi + εij (2.6) k=1 Nous désignons par : 0 a) yi = (yi1 , .., yin ) un vecteur composé des variables expliquées correspondant à l’individu i, (x − κ1 )+ ... (xi1 − κK )+ i1 b) Bi = : : (xin − κ1 )+ ... (xin − κK )+ composée par des bases de l’individu i, une matrice de dimension (n, K) 0 c) Zi = (1, ..., 1) un vecteur d’incidence de taille n associé à l’effet aléatoire de l’individu i. 0 0 0 0 Soient Y = (y1 , ..., yN ) , b = (b1 , ..., bN ) , a = (a1 , ..., ak ) , β = (δ0 , ..., δh , α) 0 et ε = (ε1 , ..., εN ) les vecteurs obtenus à partir de l’empilement des N vecteurs. Soient X = (x, ..., xh , s), B = (B1 , ..., BN ) les matrices obtenues à partir de l’empilement des N matrices et Z est une matrice diagonale dont les composantes sont Z1 ,...,ZN , alors le modèle (2.6) s’écrit sous la forme matricielle suivante : Y = Xβ + Ba + Zb + ε (2.7) Le modèle semi paramétrique (2.1) a été transformé sous la forme d’un modèle linéaire totalement paramétrique (2.7) en utilisant les bases de fonctions puissances tronquées. Dans le modèle (2.7), les paramètres inconnus à estimer sont β, a et b. 45 2.2 Estimation du modèle semi paramétrique à effets aléatoires Dans cette section, nous visons à déterminer une fonction de lissage qui fournit un meilleur ajustement des variables observées. Pour réaliser cette tache, nous présentons une démarche qui consiste à transformer la fonction de lissage sous la forme d’un polynôme de degré fixe, en utilisant les bases de fonctions puissances tronquées. L’étape suivante consiste à estimer les coefficients de lissage par la méthode du prédicteur linéaire sans biais tel qu’il a été présenté dans le premier chapitre. 2.2.1 la méthode du maximum de vraisemblance pénalisée Dans la section précédente, le modèle semi paramétrique (2.1) a été transformé sous la forme d’un modèle linéaire totalement paramétrique en utilisant les bases de fonctions puissances tronquées. On propose d’estimer les paramètres du modèle transformé (2.7) par la méthode du maximum de vraisemblance. Étant donné le vecteur d’erreur ε suit la loi Normale N (0, σε2 I) et l’effet aléatoire b suit la loi Normale N (0, θI), la fonction du log- vraisemblance des paramètres β et a est : l(β, a) = − 0 n 1 1 0 − 2 (Y − Xβ − Ba) (Y − Xβ − Ba)− b Gθ b 2 2σε 2 (2.8) Néanmoins, un ajustement linéaire ne sera pas généralement optimal en terme de réduction des carrés de déviations des données observées. Afin de 46 tenir compte d’une flexibilité suffisante de la fonction f et évitant la surestimation, Eilers et Marx (1996) ont proposé d’utiliser les fonctions de bases pénalisées. Ainsi, ils ont ajouté une fonction de pénalité à la fonction de vraisemblance : Z ³ L(β, a) = l(β, a) + λ ´2 00 f (x) dx (2.9) où λ est un paramètre de lissage qui détermine l’importance relative de la qualité de lissage des données observées. Dans la pratique, le paramètre λ permet à l’utilisateur de contrôler le niveau de régularité souhaité. Eilers et Marx (1998) ont développé une nouvelle forme du terme de pénalité en calculant les différences de coefficients des bases adjacents. Ainsi, la nouvelle forme de la pénalité est la suivante : Z ³ K ´2 X ¡ 2 ¢2 f (x) dx = ∆ ak 00 (2.10) k=1 où ∆ak = ak − ak−1 est l’opérateur de la différence première et ∆2 ak = ∆(∆ak ) = ak − 2ak−1 + ak−2 est l’opérateur de la différence seconde. Sous la forme matricielle, la différence d’ordre 2 peut être écrite ∆2 a = D2 a où D2 est une matrice diagonale de l’opérateur différence. Les estimateurs du maximum de vraisemblance pénalisés des paramètres β et a sont obtenus par la maximisation de la fonction suivante : 47 λ 0 L(β, a) = l(β, a) − a D0 Da 2 (2.11) En divisant l’équation (2.11) par σε2 et en supposant que a ∼ N (0, τ I) avec τ = σε2 /λ, l’estimation du modèle semi paramétrique revient à estimer un modèle linéaire à effets aléatoires. Ainsi, le modèle semi paramétrique à effets aléatoires (2.1) peut être traité comme un modèle linéaire à effets aléatoires, puisque que le terme de pénalité dans le log- vraisemblance pénalisé (2.11) a une forme quadratique. Cette représentation par le modèle linéaire à effets aléatoires est une technique simple et utile pour l’estimation au même temps des paramètres de lissage et des composantes de la variance. Plus des détails se trouve dans l’article de Wand et Ngo (2003), qui ont discuté la représentation du modèle linéaire à effets aléatoires par des bases pénalisées. En suivant l’approche de Wand et Ngo (2003), le modèle transformé (2.7) est traité comme un modèle linéaire à effets aléatoires puisque qu’on suppose que le vecteur a est un vecteur d’effets aléatoires dont la distribution est la loi Normale N (0, τ I) alors que b est un vecteur d’effets aléatoires qui suit la loi Normale N (0, σb2 I). Dans le modèle (2.7), les paramètres inconnus β, a et b seront estimés en utilisant la méthode de maximum de vraisemblance et précisément la méthode de Henderson telle que ça a été décrite dans le chapitre précédent. La courbe de f (x) peut être construite par l’association des matrices de conception avec leurs coefficients estimés. La fonction f est alors estimée par : 48 fˆ(x) = X β̂ + Bâ + Z b̂ (2.12) où β̂, b̂ et â sont les estimateurs de β, b et a par la méthode de maximum de vraisemblance. La matrice de variabilité des composantes linéaires et de lissage peut être calculée par : C = cov 2 2 b1 bk β̂ â = σε2 0 0 XX 0 XZ 0 Z X Z Z +F (2.13) où F = diag(In, σσ2ε In , .., σσ2ε In ), voir Carroll et Raymond (2003). L’intervalle de confiance pour une valeur de f en un point spécifique tk et pour un nombre élevé d’observations, se calcule alors comme suit : fˆ(tk ) ± t1− α2 q q 0 ˆ ˆ (f (tk ) − f (tk )) = f (tk ) ± t1− α2 ltk Ĉltk (2.14) où ltk est la ligne correspondante à [X|Z], Ĉ est construit en utilisant les variances estimées et t1− α2 est le quantile de la loi Student à n degrés de liberté correspondant à la probabilité 1 − α2 . 2.3 Le diagnostic du modèle semi paramétrique à effets aléatoires Nous commençons tout d’abord par rappeler la formule de la distance de Cook pour un modèle linéaire classique : Y = Zγ + ε, ou Y est un 49 vecteur de dimension n de la variable expliquée, Z est une matrice (n, q) composée par les variables explicatives, γ est un vecteur de dimension q des coefficients inconnus et ε est un vecteur de dimension n des variables aléatoires indépendantes ayant la moyenne nulle et la matrice de variance covariance σ 2 In . Notons par Y(i) et Z(i) le vecteur Y et la matrice Z après l’élimination de l’observation i. Soit γ̂ = (Z T Z)−1 Z T Y l’estimateur des moindres carrés de γ et Ŷ = HY , où H = Z(Z T Z)−1 Z T est la matrice chapeau. Soit s2 = eT e/(n − q), où e = Y − Ŷ est un vecteur résiduel. La distance de Cook pour mesurer l’influence de la iième observation est définie par : 1 (γ̂ − γ̂(i) )T Z T Z(γ̂ − γ̂(i) ) qs2 (2.15) γ̂ − γ̂(i) = (Z T Z)−1 Zi ei /(1 − hii ) (2.16) Di = En utilisant le fait que et en écrivant hij = ZiT (Z T Z)−1 Zj , l’équation (2.15) devient : 1 e2i hii Di = 2 qs (1 − hii )2 (2.17) Pour définir la distance de Cook de la fonction f (xij ) dans le modèle (2.1), nous considérons le modèle (2.7) composé par les bases B-splines. Nous définissons â(k) l’estimateur de a où le k ième individu est éliminé. Soit fˆ(k) (λ) 50 la fonction estimée par B-spline f (λ) tel que le k ième individu est éliminé. Si on élimine l’individu k, le changement de la courbe de la fonction f dans le modèle (2.1) est mesuré par la distance de Cook : °2 1 ° ° °ˆ ˆ Ck (f ) = °f (λ) − f(k) (λ)° K 1 0 0 = (â(λ) − â(k) (λ)) B B(â(λ) − â(k) (λ)) K 0 0 (2.18) 0 où â(k) (λ) = (B(k) B(k) + λDd Dd )−1 B(k) y(k) est l’estimateur du vecteur a sachant que le k ième individu est éliminé. Soit B(k) une matrice où la k ième ligne de la matrice B est éliminée et Y(k) un vecteur sans la k ième composante. En appliquant l’approche de Cook, nous trouvons : 0 0 â(λ) − â(k) (λ) = (B B)−1 Bk (I − Pk )−1 ek (2.19) où ek = (ek1 , ..., ekn )T tel que ek1 = yk1 − ŷk1 est un terme de résidus et 0 0 0 Pk = Bk (B B)−1 Bk et Bk = (Bk1 , ..., Bkn ) . En remplaçant l’équation (2.19) dans l’équation (2.18), nous obtenons une formule simple de la distance du Cook de la fonction f : Ck (f ) = 1 0 e (I − Pk )−1 Pk (I − Pk )−1 ek K k 51 (2.20) 2.4 Le test polynomial Comme la fonction de lissage a été approximée par un polynôme de degré h, il parait naturel de tester l’adéquation du choix de ce degré pour modéliser la relation de causalité entre ces variables. Le test polynomial est une technique statistique permettant de choisir une forme particulière d’ajustement d’une variable expliquée étant donné les variables explicatives et par suite de vérifier le type de la relation appropriée entre les variables (linéaire, quadratique). Le test polynomial est souvent utilisé pour vérifier si la relation de causalité entre les variables d’un phénomène étudié est adéquatement modélisée par un polynôme du degré donné. En d’autre terme, le test polynomial consiste à examiner si la fonction non paramétrique f (x) dans le modèle (2.1) est un polynôme de degré h. Par exemple, si h = 1, il s’agit de vérifier si f (x) est une fonction paramétrique linéaire. Selon la spécification de l’alternative non paramétrique et de la nature de l’opérateur de lissage utilisé, diverses statistiques ont été développées pour tester l’adéquation de la forme paramétrique des effets des variables explicatives. Dans la section précédente, nous avons transformé le modèle linéaire semi paramétrique (2.1) à la structure du modèle linéaire à effets aléatoires totalement paramétrique composé par les fonctions de bases tronquées. La fonction non paramétrique f (x) dans le modèle linéaire semi paramétrique (2.1) est un polynôme du degré h si est seulement si a = 0. Ainsi, le degré du polynôme est une proposition qui nécessite d’être vérifiée par un test d’hypothèse. Par la suite tester si le degré du polynôme est égale à h revient à tester si la composante de la variance τ est égale à zéro, selon ce corps d’hypothèse : 52 H0 : τ = 0 contre HA : τ > 0 (2.21) Étant donné que le coefficient a dans le modèle (2.7) est un effet aléatoire d’espérance nulle et de matrice variance- covariance τ I, l’hypothèse nulle H0 induit que tous les coefficients de lissage ak sont nuls. Ainsi, l’acceptation de l’hypothèse nulle H0 permet de s’assurer que la fonction f (x) est un polynôme de degré h. Dans cette section, nous présentons le test du score asymptotique développé par Zhang et Lin (2003). Ensuite, nous révisons le test du rapport de vraisemblance exact développé par Crainiceanu et al. (2005). 2.4.1 Le test du score asymptotique Le test du score est un test paramétrique asymptotique associé généralement à la fonction de vraisemblance. En plus, le test du score consiste à calculer une statistique en fonction des paramètres estimés sous l’hypothèse nulle. Zhang et Lin (2003) ont développé une statistique du score pour tester l’hypothèse nulle H0 : τ = 0. Cette statistique s’écrit sous la forme suivante : ¯ Uτ (γ̂) = = 1 2 ∂l(τ,γ;Y ) ¯ ¯ ∂τ τ =0,γ=γ̂ © 0 0 0 ª¯ (Y − Xβ) V −1 BB V −1 (Y − Xβ) − tr(V −1 BB ) ¯γ=γ̂ (2.22) où l(τ, γ; Y ) est la fonction de log-vraisemblance du modèle linéaire à effets 0 aléatoires (2.7),γ̂ = (β̂, θ̂, σ̂ε2 ) est un vecteur des paramètres du modèle (2.7) estimés sous l’hypothèse nulle par la méthode du maximum de vraisemblance 53 0 et V = θZZ + σε2 I est une matrice de variance covariance de la variable expliquée du modèle (2.7) estimé sous l’hypothèse nulle. Afin d’étudier la distribution asymptotique de la statistique Uτ (γ̂), il suffit d’écrire cette statistique sous la forme suivante : 0 Uτ (γ̂) = (Y − Xβ) M (Y − Xβ) − tr(V 1/2 M V 1/2 ) 0 = ỹ V 1/2 M V 1/2 ỹ − tr(V 1/2 M V 1/2 ) 0 tel que M = 12 V −1 BB V −1 et ỹ = V −1/2 (Y − Xβ) Soient γ1 ≥ ... ≥ γr > 0 les valeurs propres ordonnées non nulles de la matrice V 1/2 M V 1/2 et Ψ est une matrice diagonale, dont les éléments diagonaux sont γi . Soit H une matrice de dimension (r, n) composée par 0 les vecteurs propres associés aux γi tel que HH = I, en supposant H ỹ = 0 (Z1 , ..., Zr ) , on obtient alors : 0 0 Uτ (ψ̂) = ỹ HΨH ỹ − tr(Ψ) = r X γi (Zi2 − 1) (2.23) i=1 Comme Zi sont des variables aléatoires indépendantes suivant la loi Normale standard alors la statistique Uτ (ψ̂) est approximée par la combinaison des lois de Chi-deux de degré un. Étant donné que la détermination de la fonction de densité d’une combinaison de lois Chi-deux est compliquée, Zhang et Lin (2003) ont utilisé la 54 méthode de Satterthwaite pour approximer la distribution Uτ (ψ̂) par la loi de Khi-deux mesurée κχ2ν . Ainsi, la statistique transformée S(γ̂) = Uτ (y;γ̂) κ est 2e2 I˜ιι ou approximée par la loi de Khi-deux χ2ν avec un degré de liberté ν = κ= I˜ιι 2e est un paramètre d’échelle et tel que : 1 0 e = tr(P BB ), 2 −1 I˜ιι = Itt − Itv Ivv Itv , 1 0 Itt = tr(P BB )2 , 2 ∂V 1 0 ) Itv = tr(P BB V −1 2 ∂v et 1 ∂V −1 ∂V Ivv = tr(P V ). 2 ∂v ∂v 2.4.2 Le test du rapport de vraisemblance * Le test du rapport de vraisemblance ((LRT ), pour Likelihood Ratio Test) est une approche permettant d’accepter ou de rejeter l’hypothèse nulle H0 . La statistique LRT est calculée selon la formule suivante : LRT = sup L(β, σε2 , τ ) − supL(β, σε2 , τ ) H0 HA ∪H0 55 (2.24) tel que L(β, σε2 , τ ) est la fonction du log-vraisemblance des paramètres inconnus du modèle linéaire à effets aléatoires (2.7). Au lieu d’utiliser la statistique LRT , un choix alternatif est d’appliquer la statistique du rapport de vraisemblance restreint (RLRT , pour Restricted Likelihood Ratio Test) qui a la forme suivante : RLRT = sup REL(β, σε2 , τ ) − supREL(β, σε2 , τ ) HA ∪H0 (2.25) H0 tel que REL(β, σε2 , τ ) est la fonction log-vraisemblance restreinte des paramètres inconnus du modèle linéaire à effets aléatoires (2.19). Stram et Lee (1994) ont montré que sous la condition que les variables expliquées sont indépendantes et identiquement distribuées, la statistique du rapport de vraisemblance suit asymptotiquement une combinaison de lois de Chi-deux (0.5χ20 + 0.5χ21 ). Cependant dans notre étude, les variables expliquées du modèle transformé (2.19) sont dépendantes puisque les données sont groupées. Selon Pinheiro et Bates (2000), sous l’hypothèse nulle H0 les statistiques LRT et RLRT ne suivent pas asymptotiquement la loi 0.5χ20 + 0.5χ21 comme a été suggérée par Self et Liang (1987) et Stram et Lee (1994). En supposant que leurs statistiques suivent asymptotiquement une combinaison de χ20 et χ21 , les résultats du test de LRT ou RLRT doivent être interprétés avec réserve. Pour dépasser cette lacune, Crainiceanu et Ruppert (2004) ont développé un algorithme qui permet de déterminer la distribution exacte de la statistique de LRT ou de RLRT . Cet algorithme se résume comme suit : 56 Étape 1 : générer une grille des valeurs de τ où 0 = τ1 < τ2 < .. < τm . 2 Étape 2 : simuler des K variables aléatoires indépendantes ω12 , ..., ωK de la P 2 loi χ21 et calculer SK = K s=1 ωs . Pn−p Étape 3 : indépendamment de l’étape 1, simuler Xn,K,p = s=K+1 ωs2 avec ωs2 ∼ χ21 Étape 4 : indépendamment des étapes 1 et 2, simuler Xq = Pq s=1 u2s avec u2s ∼ χ21 Étape 5 : pour chaque point de la grille τi , calculer : Nn (τi ) = K X s=1 K X τi µs,n ωs2 ωs2 , Dn (τi ) = Xn,K,d 1 + τi µs,n 1 + τi µs,n s=1 (2.26) Étape 6 : obtenir τmax qui maximise fn (τi ) pour τ1 , τ2 , ..., τm , tel que : ½ Nn (τ ) fn (τ ) = n log 1 + Dn (τ ) ¾ − K X log(1 + τ ζs,n ) (2.27) s=1 Étape 7 : calculer la statistique LRTn = fn (τmax ) + n log(1 + Xq ) SK +Xn,K,d où LRTn = fn (τmax ) si q = 0. Pour la statistique RLRT , on calcule : " ½ Nn (τ ) RLRTn = sup (n − p − d − 1) log 1 + Dn (τ ) τ ≥0 ¾ − K X # log(1 + τ µs,n ) s=1 (2.28) Les paramètres µs,n et ζs,n sont définis comme les K valeurs propres des 0 0 0 0 matrices Z P0 Z et Z Z respectivement, avec P0 = In − X(X X)−1 X . 57 2.5 Étude de simulation Le test de score et le test du rapport de vraisemblance sont deux procédures largement utilisées pour prendre la décision d’accepter ou de rejeter des hypothèses. Comme nous l’avons déjà montré dans la section précédente, le test du rapport de vraisemblance et le test du score sont deux outils pouvant être utilisés pour tester le degré du polynôme dans un modèle semi paramétrique à effets aléatoires. Cependant, dans la littérature, aucune comparaison entre ces deux tests n’a été réalisée. Pour cela, nous entreprenons une étude de simulation pour l’évaluation de la performance des deux procédures du test polynomial. Comme un exemple illustratif, nous considérons de tester si une variable explicative est reliée linéairement avec une variable expliquée. Le test polynomial consiste à tester si les fonctions dans le modèle de régression sont non paramétriques. Mais, ce test ne peut pas être résolu directement. Ainsi, l’idée est de transformer le modèle semi paramétrique à effets aléatoires à la structure du modèle linéaire à effets aléatoires totalement paramétrique composé par les bases de fonctions puissances tronquées. En considérant que l’inverse du paramètre de lissage est un effet aléatoire, le test polynomial devient un test de nullité de la variance de l’effet aléatoire. Conditionnellement aux effets aléatoires du groupe bi ∼ N (0, σb I) avec σb = 0.5 et σb = 1, les observations yij avec i = 1, ..., N et j = 1, ..., n de la variable expliquée continue Y ont été générées respectivement selon ce modèle composé par un seul effet fixe et un seul effet aléatoire : yij = α0 + sij α1 + f (xij ) + zij bi + εij , 58 (2.29) où sij est une observation de la variable explicative S générée selon la loi Normale N (0, 0.1) et xij est une observation de la variable explicative X générée selon la loi Uniforme U [0, 1]. Les vraies valeurs des paramètres α0 et α1 ont été prises α0 = 1 et α1 = 2. Deux tailles d’échantillon ont été utilisées (N = 2, n = 5) et (N = 4, n = 5). Cinq fonctions de f (x) ont été considérées fc (x) = (0.25c)x. exp(2 − 2x) − x + 0.5, pour c = (0, 1, 2, 3, 4). Notons que lorsque c = 0 alors fc (x) est une fonction linéaire de la variable x et plus le paramètre c croit plus la fonction fc (x) se dévie de la forme linéaire, comme l’indique la figure (2.1) qui représente les courbes de fonctions fc (x). 1.5 1 f(x) 0.5 0 c=0 c=1 c=2 c=3 c=4 −0.5 −1 −1.5 0 0.2 0.4 0.6 0.8 1 x 1.2 1.4 1.6 1.8 2 Fig. 2.1 – Les fonctions fc (x) avec c = (0, 1, 2, 3, 4) simulées pour tester le degré du polynôme dans le modèle linéaire semi paramétrique Pour chaque ensemble de données simulées, le test du rapport de vraisemblance restreint asymptotique (RLRT.asy), le test du rapport de vraisemblance restreint exact (RLRT.exa) et le test du score asymptotique (SCO.asy) sont formulés à partir du modèle linéaire transformé, tout en comparant leurs 59 puissances. Les résultats de simulation sont basés sur 1000 réplications. Pour tester que f (x) est une fonction linéaire de x, la taille empirique et la puissance de chaque procédure du test polynomial sont calculées en fixant l’hypothèse nulle H0 : c = 0 contre une hypothèse alternative H1 : c 6= 0. Pour transformer le modèle semi paramétrique à un modèle totalement paramétrique, nous avons construit des bases splines tronquées en utilisant 20 noeuds. Le nombre d’essais pour établir le test du MCR est égal à 19. Toutes les expériences ont été exécutées avec le logiciel R (Voir annexe 2). Les résultats de simulation sont présentés dans les tables (2.1) et (2.2). Ces deux tables rapportent les pourcentages des rejets de l’hypothèse nulle par rapport à 1000 réplications pour les niveaux nominaux de 5% et 10%. En examinant les résultats de simulation, nous constatons que le niveau empirique de test RLRT.asy est égal à 0.032 qui est nettement différent de niveau nominal 0.05. Ces résultats sont conformes avec les constatations de Pinheiro et Bates (2000). Par contre, le test RLRT.exa a un niveau empirique de l’ordre de (0.049) qui est très proche du niveau nominal 0.05. Le niveau empirique du RLRT.asy n’a pas changé lorsque le niveau nominal a été augmenté de 0.05 à 0.1. La comparaison entre les deux tables (2.1) et (2.2), nous induit à conclure que l’augmentation de la taille d’échantillon rend les niveaux empiriques des tests plus proches des niveaux nominaux, tandis que la variance de l’effet spécifique semble avoir une faible influence sur ces tests. En ce qui concerne la puissance, nous constatons que le test RLRT.exa et le test du SCO.asy ont une puissance élevée. En outre, nous remarquons que l’augmentation de la variance de l’effet spécifique entraîne une diminution de la puissance des deux tests. Comme il est prévu, l’augmentation de la 60 Niveaux σb Tests nominaux 0.05 0.5 1 0.1 0.5 1 Tailles Puissances c=0 c=1 c=2 c=3 c=4 RLRT.asy 0.032 0.163 0.685 0.829 1.000 RLRT.exa 0.049 0.419 0.927 1.000 1.000 SCO.asy 0.066 0.401 0.936 1.000 1.000 RLRT.asy 0.061 0.068 0.098 0.473 0.793 RLRT.exa 0.049 0.135 0.492 0.737 0.921 SCO.asy 0.060 0.158 0.445 0.762 0.917 RLRT.asy 0.032 0.158 0.696 0.990 1.000 RLRT.exa 0.115 0.541 0961 SCO.asy 0.138 0.205 0.910 0.950 1.000 RLRT.asy 0.062 0.194 0.285 0.473 0.782 RLRT.exa 0.105 0.231 0.578 0.837 0.971 SCO.asy 0.112 0.242 0.556 0.832 0.810 0.999 1.000 Tab. 2.1 – Niveaux et puissances empiriques des trois tests de la linéarité de la fonction f dans le modèle (2.29) où N = 2 et n=5 taille d’échantillon améliore la puissance globale. Nous indiquons aussi que la puissance du RLRT.exa n’est pas changée lorsque le niveau nominal s’accroît. En général, les résultats obtenus de cette étude de simulation ont montré la supériorité du test RLRT.exa par rapport au test RLRT.asy et au test du SCO.asy en terme de puissance. En comparant le test RLRT.exa avec le test SCO.asy, le test SCO.asy a au moins deux avantages principaux. D’abord, le test RLRT.exa nécessite des calculs informatiques plus intensifs que le test SCO.asy, sachant que la dérivation des distributions nulles des statistiques de RLRT demande la simulation de 1000 réplications à chaque fois. Deuxièmement, le test RLRT.exa 61 Niveaux σb Tests nominaux 0.05 0.5 1 0.1 0.5 1 Tailles Puissances c=0 c=1 c=2 c=3 c=4 RLRT.asy 0.041 0.210 0.320 0.710 0.812 RLRT.exa 0.052 0.675 0.927 1.000 1.000 SCO.asy 0.057 0.661 0.890 0.905 1.000 RLRT.asy 0.068 0.151 0.364 0.811 0.883 LRT.exa 0.059 0.221 0.680 0.737 0.991 SCO.asy 0.062 0.210 0.510 0.762 0.817 RLRT.asy 0.071 0.217 0.412 0.920 1.000 RLRT.exa 0.102 0.762 0.995 1.000 1.000 SCO.asy 0.119 0.731 0.810 0.900 1.000 RLRT.asy 0.068 0.115 0.364 0.473 0.782 RLRT.exa 0.107 0.331 0.555 0.937 0.971 SCO.asy 0.119 0.273 0.432 0.812 0.810 Tab. 2.2 – Niveaux et puissances empiriques des trois tests de la linéarité de la fonction f dans le modèle (2.29) où N = 4 et n=5 n’est pas encore développé pour des modèles plus compliqués tels que le modèle linéaire généralisé à effets aléatoires, tandis que la méthode du test de score est flexible et peut être adaptée pour plusieurs situations. Dans la simulation courante, nous avons seulement considéré un test de linéarité. Comme extension de ce travail, nous pouvons réaliser un test polynômial de degré plus élevé (h > 1) en considérant des différentes valeurs de h. 62 2.6 Conclusion Dans ce chapitre, nous avons défini le modèle linéaire semi paramétrique à effets aléatoires comme une extension du modèle linéaire à effets aléatoires. Ce nouveau modèle permet d’analyser les données groupées d’une variable expliquée ayant des relations de causalité non linéaires avec des variables explicatives à travers une fonction de lissage non paramétrique. La fonction de lissage a été approximée par un polynôme de degré fixe. Le choix du degré de ce polynôme est une proposition qui nécessite d’être vérifiée par un test d’hypothèse. Ainsi, nous avons réalisé une comparaison entre le test du rapport de vraisemblance asymptotique et le test du rapport de vraisemblance exact et le test du score asymptotique. A travers des études de simulation, les résultats empiriques obtenus ont montré la supériorité du test du rapport de vraisemblance exact par rapport au test du rapport de vraisemblance asymptotique et celui de test du score asymptotique au niveau de la puissance. 63 Chapitre 3 Modèle de régression logistique à effets aléatoires L’intérêt d’une étude statistique réside dans la détermination des facteurs qui expliquent un phénomène donné. La régression logistique est l’une des techniques statistiques qui a pour objectif, de produire un modèle permettant de prédire les probabilités des modalités prises par une variable catégorielle, le plus souvent binaire, à partir d’une série de variables explicatives continues et/ou discrètes. D’un autre côté, dans tout relevé d’expérience, on constate que les données présentent une certaine variabilité. Ainsi les modèles à effets aléatoires constituent un moyen sophistiqué pour étudier la variabilité des données. En introduisant des effets aléatoires dans la modélisation, on arrive à préciser les diverses sources de variation. En effet, la variation totale est divisée en deux parties : la variation due aux effets aléatoires et celle qu’on affecte aux erreurs. L’introduction des effets aléatoires dans le modèle de régression logistique a donné naissance au modèle de régression logistique à effets aléa64 toires. Ce nouveau modèle permet d’établir une relation de causalité entre les données groupées d’une variable expliquée qualitative et celles des variables explicatives. 3.1 Spécification du modèle de régression logistique à effets aléatoires Dans quelques études, nous nous intéressons à modéliser des comportements décisionnels où la variable expliquée peut prendre deux modalités selon la décision prise par un individu ou une entreprise d’avoir ou de ne pas avoir une action donnée. Une variable qualitative peut provenir d’une variable continue par codification : si yi est supérieur à un seuil alors on attribue le code 1 et le code 0 sinon. Par exemple, on observe si l’individu a bien ou non supporté une expérience. Dans ce cas, pour chacun individu i = 1, ..., n, la variable expliquée observée yi est binaire. Il est clair qu’on ne peut pas utiliser la loi Normale dans la modélisation de ce type de variables qualitatives. En fait, comme yi ne peut prendre que deux valeurs (0 ou 1), la perturbation εi prend la valeur 1 − (Xβ)i avec la probabilité pi et la valeur −(Xβ)i avec la probabilité 1 − pi . Par la suite, la perturbation εi admet obligatoirement une loi discrète ce qui, interdit l’hypothèse de normalité. Par conséquent, le modèle linéaire classique n’est pas adéquat pour formaliser la dépendance de la variable expliquée de nature qualitative vis-à-vis des valeurs prises par des facteurs explicatifs. Ainsi, on propose le modèle de régression logistique qui consiste à modéliser la moyenne 65 conditionnelle de la variable expliquée étant donné les variables explicatives E(Y |X) au lieu de la variable expliquée Y elle-même. Comme les données de la variable expliquée yi sont binaires, alors Y suit la loi de Bernoulli de paramètre p = P (yi = 1). Pour modéliser cette probabilité, on suppose que la décision repose sur la valeur prise par une variable inobservable yi∗ appelée variable latente, selon le schéma suivant : On observe y = 1 lorsque y ∗ ≥ 0 i i On observe y = 0 lorsque y ∗ < 0 i i (3.1) En réalité, on ne dispose pas des informations sur la variable latente yi∗ qui permettent à l’individu de prendre la décision (choix de 1 ou 0). Pour rendre le modèle estimable, on suppose que cette variable latente dépend linéairement d’un certain nombre de variables explicatives : yi∗ = (Xβ)i + εi . (3.2) Les perturbations εi sont supposées indépendantes, d’espérances nulles et elles suivent une même loi ayant une fonction de répartition F . Cette hypothèse d’indépendance se traduit par la condition que les observations doivent être différentes. En utilisant les équations (3.1) et (3.2), nous pouvons déduire une relation entre la moyenne E(Y |X) et le prédicteur linéaire (Xβ)i . On peut alors écrire : E(yi |Xi ) = P (yi = 1|Xi ) = P (yi∗ ≥ 0|Xi ) = P ((Xβ)i + εi ≥ 0|Xi ) = P (εi ≤ (Xβ)i |Xi ) = F ((Xβ)i )). 66 La fonction F prend une forme qui dépend alors de l’hypothèse faite sur la distribution des perturbations εi . On retient habituellement pour cette distribution soit une loi Normale centrée et réduite (le modèle est appelé probit), soit une loi Logistique ayant une distribution centrée et de variance π 3 (le modèle est appelé logit). Nous rappelons que la fonction de répartition associée à la loi Logistique s’écrit sous la forme suivante : F ((Xβ)i ) = En considérant g(u) = log ¡ u 1−u ¢ (Xβ)i , 1 + exp[(Xβ)i ] (3.3) une fonction de répartition réciproque de la loi logistique F (u), le modèle de régression logistique s’écrit sous la forme suivante : µ log P (yi = 1) 1 − P (yi = 1) ¶ = (Xβ)i . (3.4) Étant donné la spécification (3.4), le modèle de régression logistique permet de prévoir la probabilité d’appartenance à une catégorie. Comme dans le cas de modèles linéaires avec des variables longitudinales, il est parfois utile d’incorporer des effets aléatoires dans un modèle de régression logistique qui peut être étendu en considérant quelques effets comme aléatoires. Les effets aléatoires notés par b, supposés normalement distribués avec espérances nulles et la matrice de variance covariance Gθ , où Gθ est une matrice définie positive qui dépend d’un vecteur de paramètres θ qu’on appelle souvent le composant de variance. Selon Hedeker et Gibbons (1996), le modèle de régression logistique à effets aléatoires se définit par l’équation suivante : 67 µ yi /b ∼ Bernoulli (Xβ + Zb)i 1 + exp[(Xβ + Zb)i ] ¶ . (3.5) où β est vecteur des paramètres inconnus, X est une matrice composée par des variables explicatives connues fixées par l’expérience, b est un effet aléatoire qui suit la loi Normale b ∼ N (0, Gθ ) et Z une matrice d’incidence composée par des 0 et 1. L’équation (3.5) admet une représentation matricielle de la forme suivante : µ log µ 1−µ ¶ = (Xβ + Zb)i , (3.6) 0 où µ = (µ11 , ..., µij , ..., µN n ) avec µij = E(yij |xij , bi ) = P (yij = 1) est la probabilité de l’appartenance à une catégorie codée par 1. 3.2 L’estimation du modèle de régression logistique à effets aléatoires Dans cette section, nous présentons une méthode d’estimation des paramètres inconnus du modèle de régression logistique à effets aléatoires. Il s’agit de déterminer, à la vue des observations des variables explicatives, une approximation des coefficients β et de composante de la variance θ. En fait, nous espérons que les valeurs des estimations soient les plus proches possibles des vraies valeurs inconnues. Dans ce qui suit, nous nous concentrons sur la méthode du maximum de vraisemblance marginale. 68 L’estimation des paramètres du modèle de régression logistique à effets aléatoires (3.6) se réalise en utilisant la fonction de vraisemblance de Y |b qui a la forme suivante : 0 f (Y |b) = exp{Y (Xβ + Zb) − log(1 + exp[(Xβ + Zb)])}, (3.7) avec Y est un vecteur des valeurs prises par la variable expliquée et 1 est un vecteur unitaire. Nous utilisons aussi la fonction de densité de l’effet aléatoire b qui s’écrit sous la forme suivante : 1 0 f (b) = (2π)−q/2 det(Gθ )−1/2 exp(− b G−1 θ b) 2 (3.8) où q est la dimension de vecteur b et Gθ est la matrice de variance covariance de b. Le modèle (3.6) est correctement défini conditionnellement aux effets aléatoires b. Ceci constitue l’obstacle principal à la mise en place de procédures d’estimation dans la mesure ou ces effets aléatoires qui se réalisent au cours de l’expérience ne sont pas observés directement. Cet obstacle est d’autant plus important que l’on cherche à estimer les paramètres de leur distribution. Comme nous ne connaissons que la loi des observations conditionnellement aux effets aléatoires, la fonction de la vraisemblance marginale des paramètres β et θ s’obtient par l’intégration de la fonction de vraisemblance de Y |b : 69 Z L(β, θ; y1 ..., yn ) = Rq Πni=1 f (yi /b)f (b)db = (2π)−q/2 det(Gθ )−1/2 J(β, θ) avec J(β, θ) = R Rq 0 (3.9) 0 exp{y (Xβ + Zb) − log(1 + exp[(Xβ + Zb)]) − 12 b G−1 θ b}db La fonction de la vraisemblance marginale (3.9) consiste à calculer une intégrale multi- dimensionnelle des fonctions non linéaires dans les paramètres. Ce qui implique que la résolution d’équations normales est impossible. La difficulté de trouver une forme explicite de la fonction de vraisemblance marginale (3.9) a conduit au développement de plusieurs méthodes d’approximations analytiques de la vraisemblance. Une démarche classique consiste en l’obtention de la fonction de vraisemblance marginale et en sa maximisation moyennant des techniques d’intégration numériques. Les différentes intégrales sont ainsi approchées numériquement. Nous citons, à titre d’exemple, la méthode de quadratique gaussienne. Cette démarche a été notamment adoptée par Hinde (1982) et par Anderson et Aitken (1985). Mais, ces méthodes d’intégration multiple sont numériquement exigeantes et sont difficilement praticables en toute généralité malgré le développement des capacités informatiques. En effet, elles donnent des résultats plutôt satisfaisants dans certains cas (dimension q faible) mais se heurtent à des problèmes de calcul dès que la dimension des effets aléatoires devienne grande. Les méthodes de Monte Carlo par chaînes de Markov sont également utilisées. D’ailleurs McCulloch (1997) a proposé une méthode s’appuyant sur 70 une étape de Metropolis-Hastings conduisant à la construction d’un algorithme de type Espérance - Maximisation (EM). En effet, du fait de non accessibilité de la distribution conditionnelle des effets aléatoires sachant les données observées, l’utilisation directe de l’algorithme EM se trouve confrontée au problème du calcul de l’espérance conditionnelle de la vraisemblance des données complètes sachant les données observées. Pour contourner cette difficulté, McCulloch (1997) propose alors une variante de l’algorithme EM qui introduit un algorithme de Metropolis-Hastings dans le but d’approcher par Monte Carlo l’espérance de l’étape E. Cette méthode sera présenté en détail dans la section suivante. Puisque la distribution marginale des observations est très difficile à atteindre, une autre démarche est de s’inscrire dans un raisonnement conditionnel. C’est ce que a été proposé par Breslow et Clayton (1993), par exemple, en effectuant une libéralisation du modèle. Ainsi, replongé dans le cadre linéaire, le problème du calcul intégral est alors contourné. Dans la section suivante, nous revenons en détails sur l’approximation Laplace proposée par Breslow et Clayton (1993). Nous avons choisi de décrire cette méthode car nous serons amenés à l’adapter dans le cadre de l’estimation des paramètres du modèle de régression logistique semi paramétrique. 3.2.1 La méthode de la quasi- vraisemblance pénalisée Breslow et Clayton (1993) ont proposé la méthode de la quasi- vraisemblance pénalisée ((PQL), pour Penalized Quasi likelihood) pour déterminer une approximation analytique de la fonction de vraisemblance marginale (3.9). La technique PQL consiste à estimer les paramètres du modèle de 71 régression logistique à effets aléatoires en adaptant le problème à celui d’estimation du modèle linéaire à effets aléatoires. En fait, les estimateurs des paramètres du modèle (3.5) par la méthode PQL sont obtenus en traitant les effets aléatoires b comme des paramètres fixes et la fonction de vraisemblance est pénalisée selon la distribution de b. Ainsi, pour une valeur donnée θ, les estimateurs des paramètres β et b sont obtenus en maximisant la fonction du log- vraisemblance marginale pénalisée : 1 0 log{f (y|b)} − b G−1 θ b 2 (3.10) L’équation log- vraisemblance marginale pénalisée (3.10) est une fonction non linéaire ayant une forme compliquée. Il n’est pas possible d’exprimer les estimateurs par des simples fonctions d’observations. Cette équation doit être résolue au moyen d’algorithmes tels que celui de Newton-Raphson qui se base sur le calcul des dérivées premières et secondes de l’équation (3.10). Soit µ = E(Y |X, Z, b) vecteur de la moyenne conditionnelle de Y et W = var(Y |X, Z, b) matrice de variance covariance de Y , la différenciation directe de la fonction de quasi-vraisemblance marginale pénalisée (3.10) par rapport à β et b mène aux équations normales suivantes : g= 0 X (Y − µ) 0 Z (Y − µ) − G−1 θ b (3.11) En considérant la dérivée seconde de l’équation (3.10) par rapport à β et b, nous obtenons la matrice Hessienne suivante : 72 H = − 0 0 X WX X WZ 0 (3.12) 0 Z W X Z W Z − G−1 θ Les paramètres β et b de l’équation (3.6) peuvent être déterminés itérativement au moyen de l’algorithme Newton-Raphson en utilisant les équations (3.11) et (3.12). Soit δ = (β, θ) un vecteur composé par les paramètres inconnus, à la itération k, δ (k+1) se calcule en fonction de δ (k) selon la formule de récurrence suivante : © ª−1 k δ k+1 = δ k − H k g (3.13) En remplaçant les équations (3.11) et (3.12) dans l’équation (3.13), on obtient le système d’équations suivant : 0 k W X 0 X W kX X W kZ 0 k k Z W Z +W Z β k+1 b k+1 = 0 X W k ỹ k k k W ỹ (3.14) ¡ ¢−1 où ỹ k = Xβ k + Zbk + W k (Y − µk ) . Breslow et Clayton (1993) ont développé une formule semblable à la méthode de scoring de Fisher du modèle linéaire à effets aléatoires. Ainsi, en utilisant des pseudo données ypseudo , les estimations des paramètres (β, b) par la méthode PQL peuvent établir : 73 ypseudo = Xβ + Zb + W −1 (y − µ) = Xβ + Zb + εpseudo . (3.15) Cette équation a la forme de celle du modèle linéaire à effets aléatoires, où W −1 est l’inverse de la matrice variance covariance des pseudoerreurs εpseudo . Selon l’approche de Breslow et Clayton (1993), l’estimation du modèle de régression logistique à effets aléatoires (3.5) revient à estimer un modèle linéaire à effets aléatoires (3.15). En effet, en transformant les données binaires des variables expliquées y sous la forme des pseudo données ypseudo et en calculant des pseudo erreurs εpseudo = W −1 (Y − µ), il est possible d’appliquer la procédure d’estimation du modèle linéaire à effets aléatoires par la méthode du maximum de vraisemblance décrite dans le chapitre précédent. 3.2.2 L’algorithme Monte Carlo EM L’algorithme Espérance - Maximisation (EM) est une solution alternative pour l’estimation des paramètres du modèle de régression logistique à effets aléatoires (3.5). Cette méthodologie a été mise en place par Dempster et al. (1977) et s’exécute en deux étapes : La première, s’appelle l’étape Espérance et consiste à calculer l’espérance conditionnelle de la vraisemblance des données complètes par rapport à la distribution des données manquantes. La deuxième s’appelle l’étape Maximisation et consiste à maximiser l’espérance conditionnelle de vraisemblance des données complètes. Soit δ = (β, θ) un vecteur composé par les paramètres inconnus. L’algorithme EM s’itère entre l’étape Espérance et l’étape Maximisation jusqu’à l’obtention de la convergence. A l’itération [t + 1], à l’étape -Espérance, on calcule l’espérance conditionnelle de vraisemblance de δ comme suit : 74 Q(δ (t+1) |δ (t) ) = Ey|b;δ(t) {log f (y, b; δ (t+1) )}, (3.16) tandis que l’étape Maximisation implique une mise à jour de l’estimation des paramètres par la maximisation de l’équation (3.16), on obtient alors : δ (t+1) = arg maxQ(δ (t+1) |δ (t) ). (3.17) δ En appliquant la règle de Bayes f (y, b; δ)f (b) , f (y|b; δ)f (b; δ)db Rq f (y, b; δ) = R (3.18) l’espérance conditionnelle de la vraisemblance des données complètes devient : R Q(δ (t+1) (t) |δ ) = Rq f (y, b; δ (t+1) )f (y, b; δ (t) )db R . (t) )db f (y, b; δ q R (3.19) Le calcul de l’espérance conditionnelle de la vraisemblance des données ¡ ¢ complètes Q δ (t+1) |δ (t) nécessite la détermination de la loi a posteriori de f (b|y, δ (t) ). McCulloch (1997) a adapté la méthode Monte-Carlo Chaîne de Markov (MCMC) pour la simulation de la distribution de f (b|y, δ (t) ). L’objectif de l’utilisation de la méthode MCMC est de générer des données des effets aléatoires inobservables. Sous l’hypothèse que les effets aléatoires b = (b1 , ..., bN )0 suivent la loi normale, nous dressons un tirage aléatoire de la distribution conditionnelle f (b|y, δ (t) ). L’algorithme de la Metropolis-Hastings 75 a été appliqué par Tanner (1993). Cet algorithme est une technique de (MCMC) permettant de résoudre ce genre des problèmes puisqu’il n’exige pas le calcul direct de la distribution de f (y; δ). L’application de l’algorithme Metropolis-Hastings commence par le choix d’une fonction g(b) comme une distribution candidate à partir de laquelle, des nouvelles valeurs potentielles sont tirées. Ensuite, on passe à l’indication d’une fonction d’acceptation qui permet de fournir la probabilité d’acceptation des nouvelles valeurs par opposition à maintenir les précédentes. A l’itération [t] de l’algorithme EM, on désigne par b le vecteur des résultats du tirage aléatoire précédent de la distribution conditionnelle f (b|y, δ (t) ). En utilisant la loi Normale N (0, θ) comme une distribution candidate g(b) et le processus de marche aléatoire b∗j = bj−1 +cZ où Z est un vecteur simulé à partir de la loi Normale standard et c est une constante connue, nous générons des nouvelles valeurs b∗j pour le j ieme élément de b∗ = (b1 , ..., bj−1 , b∗j , bj+1 , ..., bN ). La fonction d’acceptation selon McCulloch (1997) prend la forme suivante : ( αj (b, b∗ ) = min 1, exp N X yij (b∗j − bj ) i=1 0 N Y 1 + exp(xij β + zij bj ) 0 i=1 1 + exp(xij β + zij b∗j ) ) (3.20) L’étape suivante de l’algorithme Metropolis-Hastings est de dresser uj une réalisation de la loi Uniforme de paramètre [0,1], ensuite cette réalisation est comparée à la valeur de la probabilité d’acceptation αj (b, b∗ ). Si uj < αj alors la nouvelle valeur b∗j dressée de la distribution fb|y est retenue. Si uj > αj alors on retient bj−1 la valeur précédente de la distribution fb|y . 76 Pour récapituler, la méthode d’estimation proposée par McCulloch (1997) se réalise en deux étapes : La première étape est inspirée de l’algorithme MCMC pour générer des données inobservables. La seconde étape est inspirée de l’algorithme EM pour faciliter la maximisation des fonctions de vraisemblance. Après la génération de l’échantillon b1 , ..., bM (avec M est le nombre des simulations) en utilisant l’algorithme Metropolis-Hastings décrit ultérieurement, on choisit δ (t+1) qui maximise la fonction du log-vraisemblance Monte Carlo qui s’écrit comme suit : Q̂(δ (t+1) M 1 X |δ ) = log f (y, bm ; δ (t+1) ) M m=1 (t) (3.21) On itère ce processus jusqu’à la convergence de δ. 3.3 Diagnostic du modèle de régression logistique à effets aléatoires Cook (1977) a développé une statistique du diagnostic pour évaluer le changement de la valeur du paramètre estimé suite à l’exclusion des observations de l’échantillon d’étude. Sur la base des travaux pilotes de Cook (1977) et Cook et Weisberg (1983), plusieurs auteurs ont adapté la distance du Cook à la structure du modèle linéaire à effets aléatoires. Nous citons, à titre d’exemple, Banerjee et Frees (1997), Fung et al. (2002) et Haslett et Dillane (2004). Cependant, le développement d’une statistique du diagnostic par élimination pour le modèle de régression logistique à effets aléatoires est plus compliqué, vu que ce modèle est composé par des variables latentes. 77 En raison de la structure des données du modèle de régression logistique à effets aléatoires, l’étude du diagnostic consiste à supprimer toutes les ob0 servations de l’individu i, à savoir le vecteur yi = ( yi1 , ..., yin ) . Soit β̂(k) l’estimateur de β évalué en éliminant le k ième individu. L’évaluation de l’influence du k ième individu sur l’estimateur du maximum de vraisemblance β̂, se réalise par le calcul de la différence entre β̂(k) et β̂. Si le paramètre β̂(k) est très différent de β̂, alors l’individu k est considéré influent. Une métrique pour mesurer la distance entre β̂(k) et β̂ est donnée par : 0 CD(k) = (β̂(k) − β̂) (L̈(β̂))(β̂(k) − β̂) (3.22) avec L̈(β̂) est la dérivée de la fonction du maximum de vraisemblance. Le calcul de la statistique du diagnostic CD(k) nécessite la détermination de β̂(k) . Nous proposons d’appliquer l’algorithme EM-MCMC pour l’estimation de β̂(k) . Cependant, pour conduire une analyse complète d’influence, il est nécessaire de calculer β̂(k) pour les différents groupes k, mais ce calcul devient lourd lorsque le nombre des groupes N est assez élevé. Pour voir l’impact de l’élimination du k ième groupe sur le paramètre de la régression, nous considérons la fonction de log- vraisemblance de MC calculée sans le k ième groupe : M ³ 0 ´ h ³ 0 ´i 1 XX 0 0 L(k) (β) = yij xij β + zij bm − log 1 + exp xij β + zij bm M m=1 i6=k,j (3.23) 78 La dérivée première de L(k) (β) est égale à : M 1 XX 0 L̇(k) (β) = xij (yij − µij ) = X S − Xk Sk M m=1 i6=j (3.24) La dérivée seconde de L(k) (β) est égale à : ¡ 0 ¢ 0 M exp xij β + zij bm 1 XX 0 L̈(k) (β) = £ ¡ 0 ¢¤2 xij xij 0 M m=1 i6=k,j 1 + exp xij β + zij bm 0 0 0 0 = X V X − Vk Xk Xk = T T − Tk Tk où Tk = (3.25) √ Vk Xk 1 Soit β̂(k) l’approximation d’ordre un du paramètre β calculée en éliminant 1 le k ième groupe de l’échantillon considéré. β̂(k) est déterminé à partir d’une 0 solution initiale β̂(k) en utilisant l’algorithme de Newton Raphson tel que : 1 0 β̂(k) = β̂(k) + (−L̈(k) (β̂))−1 L̇(k) (β̂) ³ 0 ´ 0 0 −1 0 = β̂(k) + (T T − Tk Tk ) X S − Xk Sk (3.26) Bien sur, la réalisation de l’algorithme de Newton Raphson pour l’esti1 mation de β̂(k) , en éliminant chaque fois un groupe d’observations est une procédure impraticable et une perte de temps. D’où, il faut déterminer une 1 expression qui permet de calculer β̂(k) sans recourir à répéter la procédure d’estimation. Ceci a l’avantage de gagner le temps surtout pour les données 79 de taille élevée. En nous inspirant des travaux de Fung et al. (2002), nous pouvons énoncé le théorème suivant : Théoréme 3.3.1. L’approximation d’ordre un de β̂(k) , après l’élimination du k ème groupe, est donnée par : 1 β̂(k) ³ 0 ´−1 0 = β̂ − T T Tk (I − H̃k )−1 e∗k |β 1 = β̂ 1 , bi = b̂i 1 (3.27) ¡ 0 ¢−1 0 −1/2 0 0 S k − Tk T T T V S]β=β0 , T = V 1/2 X = (T1 , .., Tn ), Sk = ¢−1 0 ¡ 0 1/2 Vk Xk , et H̃k = Tk T T Tk . −1/2 où e∗k = [vk Démonstration : En appliquant, la formule de l’inverse de matrice nous obtenons : 0 0 0 (X(k) V(k) X(k) )−1 = (X V X)−1 + (X V X)−1 Xk (Vk−1 0 0 +Xk (X V X)−1 Xk )−1 Xk (3.28) ¢−1 0 0 0 ¡ 0 1/2 En supposant Z = V 1/2 X = (Z1 , .., Zn ) ;Zk = Vk Xk et H̃k = Zk Z Z Zk alors l’équation (3.28) devient : 0 (Z(k) Z(k) ) −1 ³ 0 = ZZ 0 ´−1 −1/2 ³ 0 + ZZ ´−1 0 −1 Z(k) V(k) S(k) = Z V −1/2 S − Zk Vk 80 0 Zk (I − H̃k ) Zk Z Z −1/2 0 ³ Sk ´−1 (3.29) (3.30) 1 L’estimateur β̂(k) sera calculé en utilisant ce développement matriciel : 0 0 −1/2 1 β̂(k) ' (T(k) T(k) )−1 (T(k) V(k) S(k) ) ³ 0 ´−1 0 ³ 0 ´−1 0 = β̂ 1 + T T Tk [(I − H̃k )−1 Tk T T T V −1/2 S −1/2 −1/2 −(I − H̃k )−1 H̃k Vk Sk − V k ³ 0 ´−1 0 = β̂ 1 − T T Tk (I − H̃k )−1 e∗k −1/2 où e∗k = [Vk Sk ] (3.31) ¡ 0 ¢−1 0 −1/2 sk − Tk T Z T V S]β=β0 Les équations (3.22) et (3.31), nous permet de déterminer une formule de calcul pratique de la distance de Cook CDi1 (β̂) : 0 ∗ CDk1 (β̂) = ek∗ (I − H̃k )−1 H̃k (I − H̃k )−1 i ek /p (3.32) Zhu et al. (2001) ont montré que sous des conditions modérées,la statistique CDk (β̂) a des rapports asymptotiques étroits avec leur approximation CDk1 (β̂). Le calcul de la statistique CDk (β̂) nécessite la détermination de la fonction du maximum de vraisemblance marginale et les dérivées premières et secondes de cette fonction. Ces quantités n’ont aucune forme explicite dans le contexte du modèle logistique mixte. Nous avons proposé de résoudre cette difficulté en utilisant l’intégration Monte Carlo et en faisant un tirage aléa³ ´ toire des effets aléatoires bi à partir de la distribution conditionnelle f b|y, β̂ par l’algorithme de Métropolis Hasting. 81 3.4 Application : Anticipation de la détresse financière Le modèle de régression logistique à effets aléatoires est illustré à travers une application réelle concernant l’anticipation de la détresse financière des entreprises tunisiennes. Conscient de l’importance des risques liés à l’octroi de crédit, le comité de Bâle a instauré, en 1988, des obligations réglementaires en matière de fonds propre des banques connues sous le nom de ratio Cooke ou ratio de capital dans le but d’accroître la sécurité des banques et la stabilité du système financier dans son ensemble. Cependant, face à la montée du risque de crédit au cours des années 90, le dispositif du ratio Cooke a montré des faiblesses liées à l’absence de relation entre les exigences de fonds propres et le risque effectif des crédits à l’économie. Par conséquent, une nouvelle réforme a été entamée en janvier 2001 connue sous le nom de " Bâle II " qui instaure un nouveau ratio de solvabilité, c’est le ratio " Mc Donough ". Néanmoins, ces nouveaux accords sur la solvabilité des banques ne lui présentent qu’une part de garantie lors des événements imprévisibles citant principalement la crise financière qui a traversé le monde depuis 2007 partant des États-Unis et qui s’est propagé très rapidement pour les différents pays européens et encore maintenue. Par ailleurs, les banques et les organismes financiers se trouvent face à l’obligation de parvenir à une meilleure gestion du risque de crédit en développant des outils statistiques dans le but de prévoir la détresse financière des entreprises. Altman (1968) estime qu’une entreprise en situation de la détresse lorsque sa rentabilité est inférieure à ce qui est ordinairement observé dans des cir- 82 constances analogues. Ainsi, la prévision de la détresse financière d’entreprises est très importante pour ceux qui y sont impliqués (actionnaires, gestionnaires, salariés, prêteurs, fournisseurs, clients et surtout l’État). Le développement et l’utilisation des modèles de prévision sont des outils très importants pour ces parties pour deux raisons : D’abord, ces modèles servent comme "système d’alerte " pour les gestionnaires d’entreprises qui peuvent entreprendre des actions de prévention contre le risque de faillite (par exemple, opération de rachat, de liquidation, de redressement, etc.). Ensuite, ces modèles peuvent être aussi utiles pour les professionnels des établissements financiers dans l’évaluation et la sélection des entreprises auxquelles ils prêtent des crédits. De telles décisions d’investissement doivent prendre en considération à la fois le coût d’opportunité et le risque de défaillance. En partant de ces considérations et devant l’ampleur du phénomène, diverses études et recherches ont été menées dans ce sens depuis les années soixante du dernier siècle. Elles visaient à mettre en évidence les principaux indicateurs permettant de prévoir à temps les difficultés éprouvées par les entreprises. Nous pouvons citer parmi les premiers travaux, à titre d’exemple, ceux de Beaver (1966) et Altman (1968). Depuis cette période et jusqu’à nos jours, le nombre d’études sur l’évaluation des risques de faillite et la prévision de la détresse financière des entreprises ne cesse d’accroître. Il suffit de citer Bardos et Zhu (1997), Chava et Jarrow (2004) et Hillegeist et al. (2004). La grande majorité de ces recherches s’appuient sur des outils d’analyse statistique de grandeurs comptables et de ratios financiers pour discriminer les entreprises saines des entreprises défaillantes. Ces études ont abouti à une fonction de score qui est un indicateur 83 de synthèse censé de donner en un chiffre, le degré de défaillance possible d’une entreprise. 3.4.1 La structure des données La source d’information qui a été utilisée pour cette étude est la Banque centrale de Tunis. Une série de données financières a été collectée à partir des documents de synthèse (bilans et comptes de résultats) sur la période (1999-2006). Notre base de données est constituée d’un échantillon de 528 entreprises appartenant à différents secteurs d’activité. Cet échantillon présente une certaine hétérogénéité puisqu’il s’agit d’entreprises appartenant à 20 secteurs différents réparties comme l’indique la table (3.1). Nous allons utiliser comme variables explicatives les ratios financiers. Comme il existe des dizaines de ratios, le choix de ces variables indépendantes est un problème fondamental dans l’élaboration d’un modèle de prédiction de défaillance. Dans notre application, nous avons choisi de retenir des ratios liés aux différentes dimensions de l’analyse financière et qui représentent les différents critères d’appréciation de la bonne santé d’une entreprise. Les thèmes sont la structure financière, rotation, rentabilité, charges financières, la solvabilité et la liquidité. La batterie des variables entrées (Inputs) du modèle comporte 26 ratios (voir annexe 5). Le critère de classification retenu pour la détermination de la variable expliquée a priori est l’état juridique de l’entreprise. Ce critère est jugé bon du fait qu’il reflète la solvabilité des entreprises. La structure de cet échantillon 84 est décrite sous deux classes juridiques : saines ou défectueuses. La variable expliquée Y peut être écrite par des valeurs binaires : 1 Y = 0 pour les entreprises en détresse pour les entreprises saines (3.33) En adoptant ce critère de classement, nous avons pu décomposer a priori l’échantillon en deux sous-groupes. Le premier groupe est composé par 448 entreprises saines et le second groupe est composé par 80 entreprises en situation de détresse. 3.4.2 La fonction de régression logistique à effets aléatoires du score de détresse Press et Wilson (1978) ont utilisé des données de ratios en coupe transversale pour examiner si les coefficients de la fonction de score estimés a partir du modèle de régression logistique sont des déterminants valides de la faillite des entreprises. Cependant, des informations importantes pourraient être omises en utilisant seulement une analyse en coupe transversale. L’analyse de données longitudinale est une technique appropriée pour traiter ce genre de problème, parce qu’elle tient compte des propriétés des effets non observables qui peuvent être dûs aux regroupements de l’échantillon étudié en classe. Dans ce cas, la modélisation des effets peut intervenir dans l’explication du phénomène étudié. La partie explicative du modèle est raffinée par la combinaison linéaire de ces deux types d’effets : les effets fixés et les effets aléatoires. En ce qui concerne le modèle basé sur la régression logistique, nous avons sélectionné 8 ratios significatifs parmi 26 ratios de l’étude. Étant donné la 85 structure longitudinale des données de notre étude, une source d’hétérogénéité individuelle est considérée. Le risque de la détresse financière peut être déterminé par un modèle de régression logistique à effets aléatoires qui s’écrit sous la forme suivante : µ log Pij 1 − Pij ¶ = β1 R7,ij + β2 R9,ij + β3 R10,ij + β4 R14,ij +β5 R20,ij + β6 R21,ij + β7 R23,ij + bi , (3.34) tel que Pij =P (Y = 1|Rij ) avec i= 1, ..., 20 et j= 1, ...,ni est la probabilité a posteriori d’appartenance au groupe d’entreprises en détresse, Rij sont des ratios financières et bi est l’effet spécifique sectoriel supposé Normalement distribué. Ainsi, nous avons associé aux ratios un effet spécifique sectoriel qui représente l’hétérogénéité des entreprises. Les paramètres du modèle de la régression logistique à effets aléatoires (3.34) a été estimé par la méthode du maximum de vraisemblance marginale (Breslow et Clayton (1993)) en utilisant le package (glmmPQL) du logiciel R. La table (3.2) rapporte les résultats d’estimation du modèle (3.34) pour les données de notre échantillon. Le pouvoir discriminant du ratio Rk est défini par le rapport : σ2 β 2 P k 2k 2 σk βk avec σk est l’écart type du ratio Rk . Il exprime l’influence du ratio dans la fonction de score. D’après la table (3.2), les ratios R9 et R10 jouent un rôle capital dans la formation de la fonction de score des entreprises puisque ces ratios ont un pouvoir discriminant de l’ordre de 99%. 86 En outre, nous remarquons que l’effet estimé de la variable R9 (la rentabilité économique) a un signe positif. Comme la rentabilité économique est égale au rapport entre le frais financier et l’actif total. Cela signifie que l’augmentation des frais financiers fait diminuer la rentabilité économique ce qui explique l’accroissement de la probabilité d’être en détresse. Par contre la variable R10 (la rentabilité des capitaux investis) qui est égale au rapport entre le résultat net et l’actif total présente un signe négatif ce qui induit que l’augmentation des résultats nets implique une diminution de risque de défaillance. Après l’intégration de l’effet sectoriel dans le modèle de régression logistique, nous avons abouti aux estimations présentés dans la table (3.3). Ces estimations des effets aléatoires sectoriels présentent un classement des secteurs de moins risqués aux plus risqués. Autrement dit, d’après les résultats de la table (3.3), le secteur " Commerce, réparations automobile et d’articles domestiques " est le secteur le moins risqué, puisqu’il admet −4.401 comme effet aléatoire. Par contre nous avons enregistré un effet de 6.261 pour le secteur "Autres industries manufacturières" que nous pouvons considérer comme le secteur le plus risqué. 3.5 Conclusion Dans ce chapitre, nous avons présenté le modèle de régression logistique à effets aléatoires qui sert à modéliser la relation de causalité entre une variable qualitative longitudinale expliquée et des variables explicatives de différentes natures. Les paramètres inconnus de ce modèle sont estimés par la méthode du maximum de vraisemblance marginale. Nous avons fait un résumé sur les 87 méthodes des approximations analytiques de la fonction de vraisemblance tels que l’approximation Laplace proposée par Breslow et Clayton (1993) et l’algorithme EM -MC développé par McCulloch (1997). Ensuite, nous avons aussi développé une méthode de diagnostic par élimination appliquée au modèle de régression logistique à effets aléatoires. Nous avons illustré ces méthodes par une étude empirique basée sur des données relatives à des entreprises tunisiennes. En utilisant des ratios financières, nous avons calculé une fonction score par la méthode de la régression logistique à effets aléatoires en considérant la détresse financière comme une variable expliquée binaire. L’objectif de ce modèle est de capturer des effets inaperçus qui sont dues à l’hétérogénéité des entreprises de la population étudiée. En d’autres termes, nous avons mis en évidence les déterminants non observables de la détresse financière de chaque secteur de l’échantillon étudié. La principale conclusion tirée de cette étude est que le secteur industries manufacturières est le secteur le plus risqué. Eilers et Marx (1998) ont proposé les modèles généralisés additifs pour la modélisation des relations non linéaires entre une variable d’intérêt qualitative et des variables explicatives. Notre étude peut être prolongée pour modéliser les relations de causalité dans le modèle de régression logistique à effets aléatoires par une méthode non paramétrique . 88 Code Les secteurs Nombre 1 Industrie chimique 34 2 Industrie du papier et du carton édition et imprimerie 23 3 Extraction de produits non énergétiques 7 4 Transports et communications 30 5 Industries agricoles et alimentaires 39 6 Industrie du caoutchouc et des plastiques 27 7 Commerce réparations automobile et d’articles domestiques 69 8 Fabrication équipements électriques et électroniques 26 9 Construction 36 10 Hôtels et restaurants 37 11 Immobilier locations et services aux entreprises 23 12 Industrie du caoutchouc et des plastiques 19 13 Agriculture chasse sylviculture 20 14 Industrie textile et habillement 40 15 Fabrication d’autres produits minéraux non métalliques 28 16 Métallurgie et travail des métaux 27 17 Sante et action sociale 21 18 Fabrication de machines et équipements 13 19 Autres industries manufacturières 20 Total 528 Tab. 3.1 – Le nombre des entreprises par secteur 89 Val. estimés (constante) -2.258303 R7 : Rotation de l’actif 0.235746 R9 : Rentabilité économique Pouv. discrim. t value p-value -18.03 0.0000 0.0016 3.87 0.0001 8.742052 0.5414 8.36 0.0000 R10 : Rentabilité des capitaux -10.65694 0.4506 -8.40 0.0000 R14 : Taux de rentabilité des capitaux 0.033662 0.0000 1.79 0.0740 R15 : Rotation des capitaux -0.002738 0.0000 -1.65 0.0993 R20 : Couverture des immobilisations 0.237643 0.0062 -4.82 0.0000 R21 : Capacité d’endettement -0.238740 0.0000 -2.64 0.0084 R23 : Ratio de charges financières -0.272702 0.0000 -2.61 0.0091 Tab. 3.2 – Les coefficients estimés des effets aléatoires 90 codes Les secteurs Effets aléatoires 1 Commerce, réparations automobile et d’articles domestiques -4,401 2 Métallurgie et travail des métaux -2,943 3 Industrie du caoutchouc et des plastiques -1,480 4 Industrie du cuir et de la chaussure -1,009 5 Agriculture chasse sylviculture -0,768 6 Fabrication de machines et équipements -0,654 7 Santé et action sociale -0,596 8 Immobilier locations et services aux entreprises -0,256 9 Fabrication d’autres produits minéraux non métalliques 0,211 10 Industrie textile et habillement 0,284 11 Industrie chimique 0,377 12 Transports et communications 0,473 13 Fabrication équipements électriques et électroniques 0,551 14 Extraction de produits non énergétiques 0,584 15 Industrie du papier et du carton édition et imprimerie 0,597 16 Construction 0,860 17 Hôtels et restaurants 1,045 18 Industries agricoles et alimentaires 1,198 19 Autres industries manufacturières 6,261 Tab. 3.3 – Les coefficients estimés des effets aléatoires 91 Chapitre 4 Modèle de régression logistique semi paramétrique à effets aléatoires Dans le chapitre précédent, nous avons présent le modèle de régression logistique à effets aléatoires comme un outil qui permet de modéliser des relations de causalité entre une variable longitudinale qualitative et des variables explicatives. Une caractéristique importante de ce modèle est que la moyenne conditionnelle de la variable expliquée est liée paramétriquement aux variables explicatives et aux effets aléatoires. En réalité, l’hypothèse que la forme fonctionnelle dans le modèle de régression est linéaire souvent n’est pas appropriée surtout lorsque le phénomène étudié est compliqué. Pour contourner cette lacune, Zhang et Lin (2003) ont proposé une modélisation flexible des effets des variables explicatives ou le prédicteur linéaire dans le modèle de régression est remplacé par des fonctions non paramétriques. Le nouveau modèle est nommé le "Modèle de régression logistique semi paramétrique à effets aléatoires". 92 L’intérêt principal du modèle semi paramétrique est qu’il permet de distinguer les relations linéaires et les relations non linéaires au sein d’un même modèle. L’idée est de prendre en compte la linéarité de certaines relations afin de réduire le coût de l’estimation qu’aurait un modèle non paramétrique, tout en gardant la complexité de modélisation sous-jacente au modèle non paramétrique pour expliquer les autres relations. Après avoir proposé un modèle de régression logistique semi paramétrique, il est important de tester statistiquement la nouvelle forme fonctionnelle des variables explicatives. Afin d’évaluer l’adéquation de la forme paramétrique imposée sur les variables explicatives dans le modèle de régression, une approche commune est de projeter le problème dans le cadre de test d’hypothèse, où des classes de modèles sont choisis comme des solutions alternatives. Dans notre étude, nous allons vérifier si la relation entre une variable expliquée et une variable explicative s’établit réellement par un polynôme d’un degré donné. 4.1 Spécification du modèle de régression logistique semi paramétrique à effets aléatoires Dans le chapitre précédent, nous avons vu que la régression logistique à effets aléatoires est un modèle paramétrique linéaire qui sert à modéliser des relations de causalité entre une variable expliquée qualitative et des variables explicatives. Ainsi, pour rendre le modèle de régression logistique plus flexible et plus sophistiqué, quelques variables explicatives peuvent être transformées par des fonctions de lissage non paramétriques. Le nouveau modèle obtenu est désigné par le modèle de régression logistique semi paramétrique à effets 93 aléatoires. Considérons une étude de causalité entre trois variables longitudinales Y , X et S telles que les observations de ces variables sont réparties sur N groupes et chaque groupe est formé par n observations. Soient (xi1 , ..., xin ) et (si1 , ..., sin ) avec i = 1, ..., N deux échantillons de variables explicatives à valeurs respectivement dans R. Soit (yi1 , ..., yin ) un échantillon d’observations binaires à valeur dans R. La variable expliquée Y est supposée admettre une relation paramétrique linéaire avec la variable explicative S. Étant donné qu’on n’a pas des informations sur la forme de régression entre X et Y , les réalisations de la variable explicative xij est modélisée d’une façon non paramétrique à travers une fonction de lissage. Conditionnellement au vecteur d’effets aléatoires b, la variable expliquée Y est supposée indépendante d’espérance conditionnelle E(Y |b) = µb et de matrice de variance conditionnelle var(Y |b) = diag(µb ). Formellement, le modèle de régression logistique semi paramétrique à effets aléatoires s’écrit sous la forme suivante : à log µbij 1 − µbij ! 0 0 = sij α + f (xij ) + zij bi (4.1) où µbij = Pr(yij = 1|xij , bi ) avec i = 1, ..., N et j = 1, ..., n est la probabilité a posteriori d’appartenance à une catégorie codée par 1, α est un vecteur des coefficients de régression inconnus associé aux réalisations de variables explicatives sij , f est une fonction de lissage de xij deux fois différentiable, bi est un vecteur des effets spécifiques aléatoires qu’on suppose suivre la loi 94 Normale bi ∼ N (0, Gθ ) et zij est un vecteur d’incidence supposé connu et prend la valeur 1 ou 0. Les cas spéciaux du modèle (4.1) servent à modéliser pour quelques applications. Nous citons le cas où tous le groupes sont composés par une seule observation (n = 1), le modèle (4.1) se réduit à un modèle de régression logistique partiellement linéaire tel qu’il a été considéré par Heckman (1986) et par Speckman (1988). Si on élimine la fonction f, le modèle (4.1) devient un modèle de régression logistique à effets aléatoires, tel qu’il a été présenté dans le précédent chapitre. Selon l’approche de Wand et Ngo (2004), il est utile de rendre le modèle (4.1) sous une forme totalement paramètrique. En utilisant le théorème de Taylor, la fonction f (xij ) s’écrit sous la forme d’une combinaison linéaire du polynôme du degré h et des bases de fonctions puissances tronquées : f (xij ) = H X h δh x + K X ak (xij − κk )+ (4.2) k=1 h=1 où κ1 , ..., κK est un ensemble de noeuds distincts tirés des observations de la variable xij et x+ = max(0; x). Le nombre de noeuds K doit être assez élevé (d’ordre K ≥ 30) pour assurer l’exigibilité de la courbe. Les noeuds sont choisis comme des quantiles du x avec les probabilités 1/(K + 1), ..., K/(K + 1). En suivant l’approche de Wand et Ngo (2004), nous proposons de formuler le modèle de régression logistique semi paramétrique par des bases de fonctions puissances tronquées de degré h. Ensuite, nous adaptons le mo95 dèle transformé à la structure du modèle de régression logistique à effets aléatoires. En effet, en remplaçant l’équation (4.2) dans (4.1), on obtient un modèle sous la forme suivante : à log µbij 1 − µbij ! 0 = sij α + H X δh xhij + h=1 K X 0 ak (xij − κk )+ + zij bi (4.3) k=1 Pour écrire le modèle (4.3) sous la forme matricielle, nous désignons par : 0 a) µbi = (µbi1 , ..., µbin ) un vecteur composé des moyennes conditionnelles des variables expliquées du groupe, xhi1 s ... spi1 xi1 ... i1 b) Xi = : : : : sin ... spin xin ... xhin les variables explicatives, une matrice (n, p + h) composée par c) Bi = (xi1 − κ1 )+ ... (xi1 − κK )+ : : une matrice de dimension (n, K) (xin − κ1 )+ ... (xin − κK )+ composée par des bases du groupe i et 0 d) Zi = (1, ..., 1) vecteur associé au i ième effet aléatoire. 0 0 0 En considérant ensuite µb = (µb1 , ..., µbN ) , b = (b1 , ..., bN ) , β = (α, δ) et 0 0 0 a = (a1 , ..., ak ) des vecteurs empilés et X = (X1 , ..., XN ) , B = (B1 , ..., BN ) et Z = diag(Z1 , ..., ZN ) les matrices empilées, le modèle (4.3) admet ainsi 96 une représentation matricielle de la forme suivante : µ log µb 1 − µb ¶ = Xβ + Ba + Zb (4.4) où β, a et b sont les paramètres inconnus liés respectivement aux matrices X, B et Z. 4.2 Estimation du modèle de régression logistique semi paramétrique à effets aléatoires Dans cette section, nous essayons d’estimer les paramètres inconnus du modèle de régression logistique semi paramétrique à effets aléatoires (4.4). Il s’agit de déterminer, à la vue des observations des variables explicatives, une approximation des coefficients β, a et b. En suivant l’approche de Wand et Ngo (2003), nous supposons que le vecteur a est un effet aléatoire qui suit la loi Normale N (0, τ I) avec τ = λ1 . Par conséquent, la fonction f s’écrit sous la forme d’une combinaison linéaire de vecteurs des effets fixes δ et de vecteurs des effets aléatoires a avec leurs matrices de conception. Par suite le modèle (4.4) peut être traité comme modèle de régression logistique à effets aléatoires. En supposant que le vecteurs des effets aléatoires a est un effet aléatoire Étant, l’estimation du modèle de régression logistique semi paramétrique (4.1) revient à estimer le modèle de régression logistique à effets aléatoires (4.4). Dans la littérature, des diverses approches ont été proposées pour l’es97 timation des paramètres du modèle de régression logistique à effets aléatoires. Ainsi, nous préférons utiliser la méthode de la quasi-vraisemblance pénalisée proposée par Breslow et Clayton (1993) compte tenu de sa simplicité et de sa robustesse. Cette procédure d’estimation a été bien développée par Lin and Zhang (1999) dans le contexte d’estimation du modèle généralisé non paramétrique. 4.3 Le diagnostic du modèle de régression logistique semi paramétrique à effets aléatoires Pour définir la distance de Cook de la fonction f dans le modèle(4.1), nous considérons le modèle transformé totalement paramétrique (4.4). Nous définissons par â(k) et fˆ(k) , respectivement, les estimateurs du vecteur a et de la fonction f par les fonctions de bases tronquées sans utiliser le groupe k. Le changement de la courbe estimée de la fonction f en éliminant le groupe k peut être mesuré par la distance de Cook : ° °2 0 0 °ˆ ° ˆ Ck (f ) = °f (λ) − f(k) ° = (â − â(k) ) B B(â − â(k) ) (4.5) Le calcul de la statistique du diagnostic Ck (f ) nécessite la détermination de â(k) . Cependant, pour conduire une analyse complète d’influence, il est nécessaire de calculer β̂(k) pour les différents groupes k, mais ce calcul devient lourd lorsque le nombre de groupes N est assez grand. Pour voir l’impact de l’élimination du k ième groupe sur le paramètre de la régression, nous considérons la fonction de log-vraisemblance calculée sans le k ième groupe : 98 L(k) (a) = N h X i 0 0 yi B (xi )a − log(1 + exp B (xi )a) (4.6) i=1,6=k 0 Soit S = (s11 , .., s1n , ..sN 1 , .., sN n ) avec sij = yij − µij et V = diag(vij ) avec vij = µij (1 − µij ) alors, la dérivée première de L(k) (a) est égale à : L̇(k) (a) = N X 0 0 B (xi )(yi − pi ) = B S − bk Sk (4.7) i=1,6=k et la dérivée seconde de L(k) (a) est égale à : L̈(k) (a) = − n X 0 exp B (xi )a 0 2 B(xi )B (xi ) 0 [1 + exp B (xi )a] i=1,6=k 0 0 0 0 = B V B − Vk bk bk = Z Z − Zk Zk où Zk = √ (4.8) Vk bk Soit â1(k) l’approximation première du paramètre a déterminée en utilisant l’échantillon sans le k ième groupe. â1(k) sera calculé à partir d’une solution initiale â0(k) en utilisant l’algorithme de Newton Raphson tel que : â1(k) = â0(k) + (−L̈(k) (a))−1 L̇(k) (a) ³ 0 ´ 0 0 = â0(k) + (Z Z − Zk Zk )−1 B S − bk Sk (4.9) Bien sur, la réalisation de l’algorithme de Newton Raphson pour l’estimation de â1(k) , en éliminant chaque fois un groupe d’observations est une 99 procédure impraticable et une perte de temps. D’où, il faut déterminer une expression permettant de calculer â1(k) sans recourir à répéter la procédure d’estimation. Ceci a l’avantage de gagner le temps surtout pour les données ayant une taille élevée. ¡ 0 ¢−1 0 1/2 Théoréme 4.3.1. En supposant Z = V 1/2 B, Zk = Vk Bk et Hkk = Zk Z Z Zk pour k = 1, .., N . Après l’élimination du k ième groupe, une approximation d’ordre un de â(k) est donnée par : â1(k) où e∗k ³ 0 ´−1 0 = â − Z Z Zk (1 − Hkk )−1 e∗k 1 (4.10) h ¡ 0 ¢−1 0 −1/2 i −1/2 = Vk S k − Zk Z Z ZV S . La démonstration est presque la même que celle du théorème (2.1). Afin de faciliter le calcul, l’application del’équation (4.10) nous donne une formule de calcul pratique de la distance de Cook qui s’écrit sous la forme suivante : −1 2 e∗2 k Vkk Hkk Ck (f ) = (1 − Hkk )2 4.4 (4.11) Le test polynomial Dans la section précédente, nous avons approximé la fonction de lissage par un polynôme de degré h, il parait naturel de tester l’adéquation de cette hypothèse. En effet, on a besoin de tester si la relation de causalité entre les variables est adéquatement modélisée par un polynôme du degré h. Par 100 exemple, si h = 1, il s’agit de tester la linéarité de la fonction non paramétrique f (x) dans le modèle de régression logistique semi paramétrique à effets aléatoires (4.1). Ce test fournit un outil de contrôle de la qualité de l’ajustement d’un modèle de régression logistique paramétrique simple contre un modèle de régression logistique non paramétrique. Pour réaliser ce test, il faut tout d’abord transformer le modèle de régression logistique semi paramétrique (4.1) sous la forme d’un modèle de régression logistique à effets aléatoires totalement paramétrique et considérer ensuite l’inverse du paramètre de lissage τ comme une composante de la variance. L’application de cette procédure nécessite de recourir aux approximations asymptotiques pour prendre la décision d’accepter ou de rejeter l’hypothèse nulle. Des études de simulation rapportées par Zhang et Lin (2003) ont montré que le test du score pour les variables qualitatives n’est pas puissant. Comme solution, nous proposons d’utiliser la technique du test de Monte Carlo Randomisé tel qu’elle a été développée par Dufour (2006), afin d’obtenir les résultats plus exacts. 4.4.1 Le test du score Zhang et Lin (2003)ont développé une procédure basée sur le calcul d’une statistique du score pour vérifier statistiquement l’approximation de la fonction non paramétrique f dans un modèle généralisé additif par un polynôme de degré h = 1. Nous allons appliquer ce test dans le cas du modèle de régression logistique semi paramétrique à effets aléatoires. Cette procédure consiste tout d’abord à transformer la fonction f sous la forme d’un modèle linéaire à effets aléatoires composée par des bases de fonctions de puissances tronquées de degré h. La fonction f est un polynôme de degré h si et seulement 101 si le coefficients aléatoires dans le modèle transformé (4.4) sont nuls c-à-d la variance de coefficients aléatoires sont nuls (τ = 0). Ce qui est équivalent à tester ce corps d’hypothèse : H0 : τ = 0 contre HA : τ > 0 (4.12) Zhang et Lin (2003) ont montré que la statistique du score Uτ pour tester l’hypothèse nulle H0 : τ = 0 dans le modèle de régression logistique semi paramétrique à effets aléatoires transformé (4.4) prend la forme suivante : U˛τ ¯ ∂lM (τ, θ) ¯¯ = ¯ ∂τ τ =0 n o¯ 1 0 0 ¯ ∗ (Y − Xβ) V −1 BB V −1 (Y ∗ − Xβ) − tr(P BB) ¯ (4.13) = 2 β̂,θ̂ où lM (τ, θ) est une fonction du log-vraisemblance marginale de τ et θ (par l’intégration des effets aléatoires b et des effets fixes β), β̂ est l’estimateur de maximum du vraisemblance de β, θ̂ est l’estimateur de maximum du vraisemblance restreint de θ et Y ∗ = Xβ + Zb + µ(1 − µ)(Y − µ) est le vecteur fonctionnel du modèle de régression logistique à effets aléatoires sous l’hypothèse nulle qui prend la forme suivante : µ log µ 1−µ ¶ = Xβ + Zb (4.14) Le modèle (4.14) peut être estimé par la méthode de quasi vraisemblance pénalisée en supposant que W = diag{µ} est une matrice fonctionnelle de 102 poids sachant que l’espérance conditionnelle µ calculée sous l’hypothèse nulle 0 0 τ = 0. Nous signalons que P = V −1 − V −1 X(X V −1 X)−1 X est une matrice 0 de projection et V = W −1 + ZGθ Z est une matrice de variance covariance. Les deux matrices P et V sont calculées aussi sous l’hypothèse nulle τ = 0. Les estimateurs de paramètres β̂ et θ̂ du modèle (4.14) peuvent être déterminés en utilisant la commande (glmPQL) du package (MASS) et exécuté sur le logiciel R. Zhang et Lin (2003) ont prouvé que la statistique de score U˛τ converge en loi vers une combinaison des lois de Khi-deux, sous l’hypothèse que la taille d’échantillon tende vers l’infini. Les études de simulations réalisées par Zhang et Lin (2003) ont montré que les approximations asymptotiques de la statistique U˛τ conduisent souvent aux résultats biaisés dans le cas où la variable d’intérêt est qualitative et pour une taille d’échantillon réduite. Pour contourner cette lacune, nous proposons d’utiliser le test du Monte Carlo Randomisé [Dufour (2006)] afin d’obtenir des procédures exactes. 4.4.2 Le test de Monte Carlo Randomisé Pour dépasser la lacune de test du score surtout, lorsque la taille d’échantillon est réduite, nous avons opté pour l’utilisation de la procédure de Monte Carlo Randomisé (MCR). Dans notre cas, le test du MCR peut être appliqué étant donné que la statistique de score U˛τ , sous l’hypothèse nulle est une fonction pivotale continue (ne dépend pas de paramètres de nuisance). Soit U˛0 une valeur de la statistique du score calculée sur la base des données observées. La région critique associée à la taille nominale α peut être exprimée en tant que G(U˛0 ) ≤ α tel que G(U˛0 ) = P (U ≥ U˛0 |H0 ) est 103 une fonction critique inconnue pour un test unilatéral à droite. G(U˛0 ) sera estimée en générant sous l’hypothèse nulle, M réalisations indépendantes ou à la rigueur interchangeables U˛1 , .., U˛M de la statistique U˛τ . Selon Dufour (2006), le concept d’interchangeblité se définit comme suit : Définition 4.4.1. On dit qu’un vecteur aléatoire U˛ = (U˛1 , .., U˛M ) est à composantes interchangeables si et seulement si la loi conjointe des composantes est invariante sous toutes les permutations. D’après cette définition, il est clair que les variables aléatoires interchangeables sont forcement équidistribues. Pour l’application de la technique de test de MCR, on définit M 1, if z ∈ A X 1 ĜM (U˛0 ) = I[0,∞) (U˛i − U˛0 ), IA (z) = 0, if z ∈ M i=1 /A (4.15) En d’autre terme, M ĜM (U˛0 ) est le nombre des statistiques simulées qui sont supérieures ou égales à U˛0 . D’un autre côté R̂N (U˛0 ) = M −M ĜM (U˛0 )+1 représente le rang de U˛0 dans la série U˛0 , U˛1 , .., U˛M . La fonction critique estimée est alors donnée par cette formule : p̂M (U˛0 ) = M ĜM (U˛0 ) + 1 M +1 (4.16) Ainsi, la région critique d’un test de MCR associée au niveau nominal α s’exprime par p̂M (U˛0 ) ≤ α telle que p̂M (U˛0 ) représente la probabilité empirique qu’une valeur supérieure à U˛0 est réalisée si l’hypothèse nulle est vraie. 104 Notons que le règle de décision du test de MCR peut être exprimé aussi en terme de R̂M (U˛0 ). Ainsi la région critique M ĜN (U˛0 )+1 M +1 < α est équivalente à R̂M (U˛0 ) ≥ (M + 1)(1 − α) + 1. Dufour (2006) a montré que si la distribution de la statistique considérée sous l’hypothèse nulle ne dépend d’aucun paramètre inconnu et α(M + 1) est un nombre entier alors la région critique contrôle le niveau dans le sens où P [p̂M (U˛0 ) ≤ α] = α (4.17) h i P R̂M (U˛0 ) ≥ (M + 1)(1 − α) + 1 = α (4.18) Ou alternativement La démonstration des équations (4.17) et (4.18) repose sur ce théorème démontré par Dufour (2006) concernant la distribution de rangs associés à un ensemble fini des statistiques interchangeables : Théoréme 4.4.1. Considérant un vecteur des variables aléatoires interchangeables (y1 , .., yM ) tel que P (yi = yj ) = 0 pour i 6= j et soit Rj dénote le rang de yj dans la série y1 , .., yM alors · ¸ Rj I[(1 − z)M ] + 1 P ≥z = , M M I(x) est un entier inférieur ou égal à x. 105 0<z<1 (4.19) Dans ce qui suit, nous allons appliquer la procédure simulée de Monte Carlo Randomisé pour tester le degré du polynôme dans le modèle de régression logistique semi paramétrique à effets aléatoires. En fait, le calcul de la p-valeur de MCR pour tester le degré d’un polynôme dans le modèle (4.1) se passe par les étapes suivantes : 1-Estimer le modèle (4.4) par l’ensemble de données initiales y (0) en calculant les estimateurs de maximum du vraisemblance β̂, θ̂, τ̂ 2-Obtenir la statistique de score basée sur β̂ et θ̂ en utilisant la formule (4.14) et qu’on la note par U˛0 . 3-En fixant θ̂ et sous l’hypothèse nulle (4.13), nous répétons les étapes suivantes : * Tirer un vecteur b̃(m) pour m = 1, .., M à partir de la loi Normale N (0, Gθ̂ ). * Obtenir des variables indépendantes simulées Ỹ (m) = X β̂ + Z b̃(m) . * Régresser Ỹ (m) sur X, Z et B (en utilisant le modèle (4.4)). * Calculer les valeurs de la statistique de test du score correspondant U˛1 , ..., U˛M . 4- Soit R̂M (U˛0 ) le rang de U˛0 dans la série U˛0 , U˛1 , ..., U˛M , rejeter l’hypothèse nulle H0 : τ = 0 si R̂M (U˛0 ) ≥ (M + 1)(1 − α) + 1. En pratique, le nombre des essais M doit être fixé de sorte que α(M + 1) soit un nombre entier (par exemple, pour α = 0, 05 on prend M = 19; 39; 99; ...). L’application de test de MCR à niveau nominal 5% se réalise aisément en utilisant M = 99 réalisations. Dans ce cas, le test MCR est significatif si le rang de U˛0 dans la série U˛0 , U˛1 , .., U˛M est égal au moins à 96 ou informellement si U˛0 se trouve au top 5% de centile. La p-valeur de MCR s’obtient p̂M (U˛0 ) = M +1−R̂M (U˛0 ) . M +1 Le test de MCR peut être interprété comme une méthode de bootstra- 106 pappliquée aux statistiques dont la distribution nulle ne dépend pas des paramètres de nuisances. Cependant, l’information additionnelle centrale que la randomisation nous permet de commander exactement la taille de test pour un nombre réduit des réalisations de MCR. Pour davantage de discussion sur les tests de Monte Carlo (sa relation avec bootstrap), voir Kiviet et Dufour (1997), Dufour et Farhat (1998), Dufour et Lynda (2002) et Dufour (2006). 4.5 Etude de simulation Dans cette section, nous réalisons une étude de simulation pour comparer la performance de deux procédures du test polynomial : le test du score et le test de Monte Carlo Randomisé. Cette étude consiste à évaluer empiriquement la performance de test du degré d’un polynôme dans un modèle de régression logistique semi paramétrique à effets aléatoires. Comme un exemple illustratif, nous considérons de tester la linéarité d’une variable explicative dans le modèle de régression logistique semi paramétrique à effets aléatoires (4.1). En transformant le modèle de régression logistique semi paramétrique à effets aléatoires sous la forme d’un modèle de régression logistique à effets aléatoires, le test polynomial revient à réaliser un test de nullité de la variance d’un effet aléatoire. Cette étude de simulation vise à tester si f (x) est un polynôme du premier degré. Dans une première étape, nous appliquons le test de score asymptotique tel qu’il a été proposé par Zhang et Lin(2003). Dans une deuxième étape, nous formulons le test de Monte Carlo. Conditionnellement aux effets aléatoires du groupe bi ∼ N (0, σb I) avec 107 σb = 0.5 et σb = 1, des données binaires de variable expliquée yij avec ((i = 1, ..., N et j = 1, .., n) sont générées respectivement selon le modèle suivant : µ log µij 1 − µij ¶ = α0 + sij α1 + f (xij ) + bi (4.20) Les données de la variable explicative sij ont été générées selon la loi Normale N (0, 0.1), par contre les données de la variable explicative xij ont été générées selon la loi Uniforme (U [0, 1]). Les vraies valeurs des paramètres α0 et α1 ont été prises α0 = 1 et α1 = 2. Deux tailles d’échantillon ont été utilisées (N = 2, n = 5) et (N = 4, n = 5). Cinq fonctions de f (x) ont été considérées telle que fc (x) = (0.25c)x. exp(2 − 2x) − x + 0.5 , pour c = (0, 1, 2, 3, 4). Notant que lorsque c = 0 alors fc (x) est une fonction linéaire de la variable x et lorsque le paramètre c devient plus élevé alors la fonction fc (x) se dévie plus de la forme linéaire, comme l’indique la figure (4.1). Pour chaque ensemble de données simulées, nous avons appliqué les procédures de test du score asymptotique (Asy) et le test de Monte Carlo Randomisé (M CR). Les résultats de simulation sont basés sur 1000 réplications. Pour tester si f (x) est une fonction linéaire de x, la taille empirique et la puissance de chaque procédure du test polynomial sont calculées en fixant l’hypothèse nulle H0 : c = 0 contre une hypothèse alternative H1 : c 6= 0. Pour établir le test de MCR nous avons utilisé 19 essais. Toutes les expériences ont été exécutées en utilisant le logiciel R (Voir annexe 4) Les résultats de simulation sont présentés dans la table (4.1) et (4.2). 108 1.5 1 f(x) 0.5 0 c=0 c=1 c=2 c=4 c=3 −0.5 −1 −1.5 0 0.2 0.4 0.6 0.8 1 x 1.2 1.4 1.6 1.8 Fig. 4.1 – Les fonctions fc (x) avec c = (0, 1, 2, 3, 4) simulées pour tester le degré de polynôme dans le modèle de régression logistique semi paramétrique Ces deux tables rapportent les pourcentages de rejet de l’hypothèse nulle par rapport à 1000 réplications pour un niveau nominal de 5%. Selon la table (4.1), nous constatons que le niveau empirique de test du score asymptotique est égal à 0.031 qui est nettement différent du niveau nominal 0.05. Ce qui donne l’impression que le test du score n’est pas fiable pour tester le degré du polynôme lorsque la variable expliquée est qualitative. La comparaison entre les deux tables (4.1) et (4.2), nous induit à conclure que l’augmentation de la taille d’échantillon rend les niveaux empiriques plus proches des niveaux nominaux, tandis que la variance de l’effet spécifique semble avoir une faible influence sur ces tests. 109 2 Variances Tests d’effets aléatoires σb = 0.05 σb = 1 Tailles Puissances c=0 c=1 c=2 c=3 c=4 Asy 0.031 0.073 0.167 0.260 0.511 MC 0.054 0.291 0.711 0.887 1.000 Asy 0.045 0.068 0.120 0.271 0.442 MC 0.051 0.325 0.741 0.910 1.000 Tab. 4.1 – Niveaux et puissances empiriques de deux tests de linéarité de la fonction f dans le modèle (4.20) avec N = 2 et n=5 Variances Tests σb = 1 Puissances c=0 c=1 c=2 c=3 c=4 Asy 0.042 0.095 0.211 0.310 0.621 MC 0.052 0.325 0.812 0.970 1.000 Asy 0.044 0.077 0.211 0.314 0.511 MC 0.050 0.301 0.805 0.960 1.000 d’effets aléatoires σb = 0.05 Tailles Tab. 4.2 – Niveaux et puissances empiriques de deux tests de linéarité de la fonction f dans le modèle (4.20) avec N = 4 et n=5 En ce qui concerne la puissance, nous constatons que le test de MCR a une puissance plus élevée. En outre, nous remarquons que l’augmentation de la variance de l’effet spécifique a entraîné une diminution de la puissance. Comme il est prévu, l’augmentation de la taille d’échantillon a amélioré la puissance globale. Nos résultats de simulation prouvent que la procédure de MCR a amélioré la performance du test du score dans le modèle de régression logistique semi paramétrique pour des différents niveaux de la variance des effets aléatoires. D’après les tables (4.1) et (4.2), nous remarquons que le test de MCR réalise 110 un meilleur contrôle de la taille. D’autre part, la puissance du test de MCR est très élevée et n’est pas sensiblement affectée par le changement du niveau de la variance d’effet aléatoire. Comme il est prévu, l’augmentation de la taille d’échantillon améliore la puissance globale du test. A travers cette étude de simulation, nous vérifions empiriquement que le test MCR est un test exact dans le sens que la probabilité du rejet l’hypothèse nulle sachant qu’elle est vraie, est toujours égal au niveau nominal du test. Notons que la forte puissance du test de MCR, est dû au faite que les valeurs critiques simulées de test MCR sont précises même lorsqu’on utilise un nombre modéré des simulations. En réalité, la technique du MCR corrige la distorsion du niveau qui est dûe à la mauvaise approximation de la loi de la statistique du test. En guise de conclusion, il intéressant de mentionner que notre étude de simulation a prouvé que le test du MCR est plus puissant que le test du score asymptotique. Dans la simulation courante, nous avons considéré seulement un test de linéarité. Cependant dans la pratique, nous pouvons tester un degré de polynôme plus élève (h > 1) en considérant des différentes valeurs de h. 4.6 Application : Anticipation de la détresse financière Après avoir déterminé dans le chapitre précédent une fonction de score à partir d’un modèle de régression logistique paramétrique, nous essayons de chercher si les liens non linéaires seraient plus appropriés. Ainsi, nous recourons à la représentation des nuages des points des variables de l’étude. 111 Contrairement à la régression linéaire, il n’est pas utile de tracer directement les données de X contre celles de Y . Cependant l’hypothèse de la linéarité dans le modèle de régression logistique, implique que les nuages de points du ³ ´ =1/X) rapport de chances PP (Y et les variables explicatives X doivent avoir (Y =0/X) 4 2 0 −6 −2 logit 0 −2 −6 logit 2 4 une forme linéaire. 0 500 1000 1500 2000 0e+00 1e+06 4 2 0 logit −6 −2 2 0 −2 −6 logit 3e+06 datapq$R20 4 datapq$R15 2e+06 −60 −40 −20 0 20 datapq$R21 0 1000 2000 3000 datapq$R23 Fig. 4.2 – Les nuages des points des variables explicatives et de leurs logits 112 4000 4.6.1 La fonction logistique semi paramétrique de score D’après la figure (4.2), Les nuages des points les données des ratios en fonction des valeurs des rapports de chances correspondants montrent que les données de variables R7 , R9 , R10 , R20 , R23 ont une liaison linéaire avec leurs rapports de chances tandis que les données de la variable R21 a une relation non linéaire. Sur la base de ces constats tirés à partir de la figure (4.2), il est intéressant de considérer une modification de la variable R21 dans le modèle de régression. Ainsi, le modèle de régression logistique semi paramétrique s’écrit sous la forme suivante : µ log pi 1 − pi ¶ = β1 R7,i + β3 R9,i + β4 R10,i + β4 R14,i +β5 R15,i + β6 R20,i + f (R21,i ) (4.21) avec pi = P (yi = 1|Ri ), pour(i = 1, ..., n) est la probabilité a posteriori d’appartenance au groupe d’entreprises en détresse, β est un coefficient inconnu et f est une fonction de lissage inconnue. D’après le nuage des points de la variable R21 , il semble que la relation entre cette variable et les rapports de chances prend une forme quadratique. Par conséquent, nous proposons d’approximer la fonction de lissage f par des bases de fonctions puissances tronquées du seconde degré : f (R21,i ) = δ0 + δ1 R21,i + 2 δ2 R21,i + K X bk (R21,i − κk )2+ (4.22) k=1 où κ1 , ..., κK est un ensemble de noeuds distincts tirés des observations de 113 la variable R21 et X+ = max(0; X). Le nombre de noeuds K est assez grand (d’ordre K ≥ 30) pour assurer l’exigibilité de la courbe. En suivant l’approche de Wand et Ngo (2004), le modèle de régression logistique semi paramétrique s’écrit sous la forme du modèle de régression logistique à effets aléatoires. En effet, en remplaçant l’équation (4.22) dans (4.21), on obtient le modèle suivant : µ log pi 1 − pi ¶ = δ0 + δ1 R21,i + δ2 (R21,i )2 + β1 R7,i + β3 R9,i +β4 R14,i + β5 R20,i + K X bk (R21,i − κk )+ (4.23) k=1 Pour écrire le modèle (4.23) sous la forme matricielle, nous désignons par : 1 R21,1 (R21,1 )2 .. R20,1 a)X = : : : : 1 R21,n (R21,n )2 .. R20,n variables explicatives, b) Z = est une matrice composée par les (R21 − κ1 )+ ... (R21 − κK )+ : : est une matrice (n, K) composée (R2n − κ1 )+ ... (R2n − κK )+ par les bases, 0 c) β = (δ0 , δ1 , δ2 , β1 , β3 , β4 , β5 ) est un vecteur des paramètres inconnus, 0 d) b = (b1 , ..., bK ) est un vecteur composé par les coefficient associés à la matrice Z et 0 f) P = (P (y1 = 1), ..., P (yn = 1)) est le vecteur des probabilités a posteriori. 114 Le modèle (4.23) admet une représentation matricielle sous la forme suivante : µ log P 1−P ¶ = Xβ + Zb (4.24) Selon l’approche de Wand et Ngo (2003), l’estimation du modèle de régression logistique semi paramétrique (4.24) revient à estimer le modèle de régression logistique à effets aléatoires en supposant que le vecteur des effets aléatoires b normalement distribués N (0, Gθ ). Pour l’estimation des paramètres β et θ nous pouvons utiliser la méthode de Quasi-Vraisemblance Pénalisée (PQL) développée par Breslow et Clayton (1993). L’application de la méthode PQL consiste à définir le vecteur fonctionnel par Y ∗ = Xβ + Zb + ∆(Y − P ) avec ∆ = diag{pi (1 − pi )} et on 0 définit aussi la matrice fonctionnelle de poids par Σ = W −1 + ZGθ Z , avec W = diag{pi }. La table (4.3) rapporte les résultats d’estimation du modèle (4.24) pour les données de notre échantillon. Le pouvoir discriminant du ratio Rk est défini par le rapport : σ 2 α2 Pk 2k 2 σk α k avec σk est l’écart type du ratio Rk . Il exprime l’influence du ratio dans la fonction de score. D’après la table (4.3), les ratios R9 et R10 jouent un rôle capital dans la formation de la fonction de score des entreprises puisque ce ratio a un pouvoir discriminant de l’ordre de 99%. D’après la table (4.3), nous remarquons que l’effet estimé de la variable R9 (la rentabilité économique) a un signe positif. Cela signifie que l’augmentation des frais financiers fait diminuer la rentabilité économique ce qui explique l’accroissement de la probabilité d’être en détresse. Par contre la variable R10 (la rentabilité des capitaux investis) présente un signe négatif ce qui 115 induit que l’augmentation des résultats net implique une augmentation de risque de défaillance. Les ratios Valeurs estimés (cst) -2.0467 R 7 : Rotation de l’actif 0.2795 R 9 : Rentabilité économique Pouv. discrim. t value p value -18.687 0.0000 0.0017 3.846 0.0001 9.8834 0.5277 8.164 0.0000 R 10 : Rentabilité des capitaux -12.4510 0.4674 -8.210 0.0000 R 14 : Taux de rentabilité 0.03277 0.0000 1.742 0.0815 R 15 : Rotation des capitaux -0.19147 0.0000 -4.691 0.0000 R 23 :Ratio de charges financières -0.83057 0.0031 -2.538 0.0112 Tab. 4.3 – les estimateurs du modèle de régression logistique semi paramétrique La partie non paramétrique du modèle (4.21) permet de détecter un effet de seuil de ratios sur la probabilité d être en détresse. Dans l’estimation du modèle semi paramétrique nous avons approximé la forme du graphe de f (R21 ) par un polynôme du second degré. La figure (4.3) représente la courbe de la fonction f (R21 ) estimée de la variable capacité d’endettement à long terme avec son intervalle de confiance à 95%. D’après ce graphe, pour un seuil inférieur à 1, la probabilité de détresse est une fonction décroissante de la capacité d’endettement à long terme et pour un seuil supérieur à 1, elle devient croissante. La forme quadratique entre la probabilité de détresse et la variable X2 est une proposition qui nécessite d’être vérifiée statistiquement en utilisant un test polynomial. Par la suite, nous sommes intéressés à tester l’hypothèse 116 nulle H0 : f (R21 ) est une fonction de lissage quadratique contre l’hypothèse alternative H1 : f (R21 ) est une fonction de lissage non quadratique. En d’autres termes, on cherche à répondre à cette question : " Est ce que les données de la réserve sont-elles ajustées adéquatement par une fonction quadratique ?". Nous avons appliqué le test du score asymptotique développé par Zhang et Lin (2003) aux données de notre étude. Nous avons obtenu que la statistique du score calculée est égale à U˛τ = 5.73. Cette statistique est supérieure à la quantile d’une combinaison des lois de Khideux de degré un et deux qui est égale à 1.30. Ce résultat fournit une forte évidence que la p-valeur est égale à 0.026. Par conséquent, l’hypothèse nulle H0 est acceptée. Les mêmes données ont été utilisé pour tester le degré du polynôme dans le modèle de régression logistique semi paramétrique (4.21) en appliquant le test de Monte Carlo Randomisé que nous avons développé dans la section précédente. Les résultats obtenus montrent que la p-valeur de MCR est égale à p̂M (U˛0 ) = 0.750 pour M = 99. Comme on a p̂M (U˛0 ) ≥ α alors on accepte l’hypothèse nulle H0 pour un niveau nominal α = 0.05. Rappelons que l’acceptation de l’hypothèse nulle H0 signifie que f (R21 ) est une fonction quadratique. 4.7 La validation des fonctions de score de la détresse Après avoir déterminé des fonctions de score de la détresse, il faut en évaluer leurs efficacités. Nous pouvons le faire par les tests du pouvoir dis117 criminant et les tests du pouvoir prédictif. Ainsi, nous allons calculer le taux d’erreur de classement et tracer la courbe de ROC "Receiver Operating Caracteristic" en calculant les indices associés tels que l’aire sous la courbe de ROC. Pour évaluer la capacité à bien classer le modèle, nous pourrons construire une colonne prédiction Ŷ , puis une colonne erreur (Y −Ŷ ), comptabiliser le nombre de mauvais classement et enfin déduire le taux d’erreur. Il est plus judicieux de construire ce que l’on appelle une matrice de confusion (la table 4.4). Ŷ = 1 Ŷ = 0 Total Y=1 n11 n10 n1 Y=0 n01 n00 n0 Tab. 4.4 – Matrice de confusion Elle confronte toujours les valeurs observées de la variable dépendante avec celles qui sont prédites, puis comptabilise les bonnes et les mauvaises prédictions. L’intérêt de la matrice de confusion est qu’elle permet à la fois d’appréhender le taux d’erreur et de se rendre compte de la structure de l’erreur (la manière de se tromper du modèle). Nous rappelons que le taux d’erreur de classement est égal au nombre de mauvais classement rapporté à l’effectif total. D’après la table (4.5), le taux d’erreur de classement est égal à 14% pour le modèle de régression logistique semi paramétrique et 11.9% pour le modèle de régression logistique à effets aléatoires c.à.d une amélioration de prédiction de 3.1%. Ce qui prouve 118 La régre. logistique à effets aléat. La régre. logistique semi Ŷ = 1 Ŷ = 0 Total Ŷ = 1 Ŷ = 0 Total Y =1 24 14 38 6 3 9 Y =0 65 510 575 83 521 604 Le taux d’erreur 0.128 0.140 Tab. 4.5 – Matrice de confusion des modèles estimés pour l’échantillon test l’importance de l’intégration des effets sectoriels dans le calcul de risque de la détresse. De même dans le but de comparer le modèle de la régression logistique semi paramétrique et le modèle de la régression logistique à effets aléatoires, nous présentons la courbe ROC de chaque modèle. Ce courbe est un outil graphique qui permet d’évaluer et de comparer globalement le comportement des fonctions de scores (Pepe (2000)). La courbe ROC met en relation le taux de vrais positifs (T V P = n11 /n1 ) (la sensibilité) qui indique la capacité du modèle à retrouver les positifs et le taux de faux positifs (T F P = n10 /n0 ) qui correspond à la proportion de négatifs qui ont été classés positifs, dans un graphique de nuage de points. Habituellement, nous comparons p̂ à un seuil s = 0.5 pour effectuer une prédiction Ŷ . Nous pouvons ainsi construire la matrice de confusion et en extraire les 2 indicateurs précités. La courbe ROC généralise cette idée en faisant varier s pour toutes les valeurs possibles entre 0 et 1. Pour chaque configuration, nous construisons la matrice de confusion et nous calculons le TVP et le TFP. Dans la pratique, il n’est pas nécessaire de construire explicitement la matrice de confusion, nous procédons de la manière suivante : 119 1. Calculer le score p̂ de chaque individu à l’aide du modèle de prédiction. 2. Trier le fichier selon un score décroissant. 3. Considérons qu’il n’y a pas d’ex-aequo. Chaque valeur du score peut être potentiellement un seuil s. Pour toutes les observations dont le score est supérieur ou égal à s, les individus dans la partie haute du tableau, nous pouvons comptabiliser le nombre de positifs n11 (s) et le nombre de négatifs n10 (s). Nous en déduisons (T V P = n11 (s)/n1 ) et (T F P = n10 (s)/n0 ). 4. La courbe ROC correspond au graphique nuage de points qui relie les couples (TVP, TFP). Le premier point est forcément (0,0), le dernier est (1,1). La procédure de calcul du nuages des points de la courbe ROC a été effectué avec le logiciel R. D’après la courbe ROC,(la figure (4.4)), il est évident que la règle de classification basée sur la régression logistique à effets aléatoires est plus performante que celle basée sur la régression logistique semi paramétrique. Ceci nous amène à conclure la validité de la fonction de score issue du modèle de la régression à effets aléatoires. Il est possible de caractériser numériquement la courbe ROC en calculant la surface située sous la courbe. C’est le critère d’aire sous la courbe ROC (AUC, pour Area Under Curve). Elle exprime la probabilité de placer un individu positif devant un négatif. Ainsi, dans le cas d’une discrimination parfaite AU C = 1, les positifs sont sûrs d’être placés devant les négatifs. Au contraire, si AU C = 0.5 le classificateur attribue des scores au hasard, il y a autant de chances de placer un positif devant un négatif que l’inverse. La courbe ROC se confond avec la première bissectrice. C’est la situation de référence, notre classificateur doit faire mieux. 120 L’(AUC) mesure la qualité de discrimination du modèle et traduit la probabilité qu’une entreprise saine ait un score supérieur au score d’une entreprise en détresse, ceux-ci étant tirés au hasard. L’AUC du modèle de régression logistique semi paramétrique est égale à 0.684 par contre l’AUC de la régression logistique à effets aléatoires est égale à 0.811 ; ces deux valeurs sont très proches de un. 4.8 Conclusion Ce chapitre a été consacré à la présentation du modèle de régression logistique semi paramétrique à effets aléatoires en mettant l’accent sur l’apport du test de Monte Carlo Randomisé (MCR) dans la confirmation du choix du degré de polynôme. L’approche de simulation de MCR nous permet d’introduire un nouveau test qui diffère des tests existants dans la littérature en deux aspects : Premièrement, ce test est exact dans le sens que la probabilité de rejeter l’hypothèse nulle, sachant qu’elle est vraie, est toujours égale au niveau nominal. Deuxièmement, cette approche permet d’obtenir un test aléatoire basé sur la simulation des statistiques du test sous l’hypothèse nulle et en utilisant un nombre restreint des essais de MCR. La faisabilité de cette approche proposée a été illustrée à travers une expérience de simulation. Les résultats empiriques obtenus prouvent que le test du score asymptotique pour le modèle de régression logistique semi paramétrique à effets aléatoires n’est pas fiable par contre le test de (MCR) réalise un contrôle meilleur de la taille et a une puissance plus élevée. Nous avons illustré ces méthodes par une étude empirique basée sur des données relatives à des entreprises tunisiennes. En utilisant des ratios finan- 121 cières, nous avons réalisé une recherche exploratoire des nouvelles relations fonctionnelles entre les ratios et la probabilité de la détresse. Ces relations fonctionnelles ont été estimées à travers le modèle de régression logistique semi paramétrique à effets aléatoires qui est un modèle alternatif flexible pour la prévision de faillite. Une fois les fonctions de scores sont élaborées, nous avons montré qu’elles jouissent d’un pouvoir discriminant et prédictif. Pour ce faire, nous avons utilisé un processus de validation. Ce processus sert à estimer les performances du modèle qui vient d’être construit sur un jeu de données. Ainsi, nous avons élaboré la courbe de ROC. 122 15 10 s(X2,2) 5 0 −5 −1.0 −0.5 0.0 0.5 1.0 X2 Fig. 4.3 – La courbe de la fonction estiméef (R21 ) 123 1.5 2.0 1.0 0.8 0.6 0.0 0.2 0.4 sensibilité 0.6 0.4 0.2 0.0 sensibilité 0.8 1.0 La courbe ROC de régression logistique semiparamétrique La courbe ROC de(AUC=0.684) régression logistique à effets aléatoires (AU 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 1−spécificité 0.4 0.6 1−spécificité Fig. 4.4 – Les courbes ROC des modèles établis 124 0.8 1.0 Conclusion générale Les travaux de recherche que nous avons menés dans le cadre de cette thèse portent sur le traitement de données groupées binaires. C’est dans ce contexte que nous avons présenté le modèle de régression logistique semi paramétrique à effets aléatoires comme un outil de modélisation des relations de causalité entre une variable expliquée qualitative et des variables explicatives. En fait, ce modèle est une extension du modèle de régression logistique à effets aléatoires en introduisant une fonction de lissage non paramétrique dans le prédicteur. Dans ce travail, nous nous sommes intéressé à énumérer les différentes approches d’estimation des paramètres des modèle de régression logistique semi paramétrique à effets aléatoires et, en particulier, à l’estimation des fonctions de lissage de la partie non paramétrique. Pour répondre à la question de l’estimation des paramètres dans ces modèles, nous avons eu recours à l’utilisation de la méthode du maximum de vraisemblance. Or, dans notre cas précis trois problèmes se posent : -La distribution de la variable aléatoire qui modélise les caractéristiques non observables est difficile à décrire. Nous supposons souvent que l’effet aléatoire suit la loi Normale. L’estimation sera basée sur la méthode du maxi- 125 mum de vraisemblance marginale. Cette fonction marginale peut être évaluée en utilisant des techniques d’approximation telles que la méthode de quasi vraisemblance pénalisée ou la méthode de Espérance Maximisation Monte Carlo. - La présence d’observations aberrantes rend les estimateurs du modèle biaisés. Pour dépasser cette lacune, nous avons proposé d’utiliser la méthode du maximum de vraisemblance robuste. - Le choix de la technique adéquate pour l’estimation des fonctions de lissage non paramétrique. Nous avons montré la simplicité et l’efficacité des bases de fonctions puissance tronquées pour déterminer les fonctions non paramétriques inconnues. Notre thèse s’inscrit dans une perspective de mise en place des méthodes d’estimation robuste et défendable qui ont pour objectif de résoudre en partie ces problèmes. Pour cela, nous avons discuté les différentes approches d’estimation qui mèneront, en tout état de cause, à des résultats différents. Ces différences sont justifiées par le biais d’approximations réalisées selon les raisonnements et les instruments d’analyse. Pour l’estimation du modèle de régression logistique semi paramétrique à effets aléatoires, nous avons suivi une démarche qui consiste à transformer ce modèle à la structure du modèle de régression logistique à effets aléatoires totalement paramétrique et à traiter l’inverse du paramètre de lissage comme une composante de la variance. En d’autre terme, nous avons proposé d’approximer la fonction non paramétrique par un polynôme du degré fixe composé par des fonctions de bases tronquées. 126 Le choix du degré de ce polynôme est une proposition qui nécessite d’être vérifiée par un test d’hypothèse. Zhang et Lin (2003) ont développé une statistique du score pour tester la nullité de l’écart type de l’effet aléatoire. La distribution de cette statistique a été approximée par une combinaison des lois de Khi-deux. Leurs études de simulation ont montré que la performance du test de score est moins satisfaisante lorsque les données de la variable expliquée sont binaires. Ce résultat est dû principalement à la mauvaise approximation de la fonction de vraisemblance et à l’utilisation de l’hypothèse de la normalité pour déterminer la distribution statistique du score. Pour améliorer le test du score, nous avons développé une procédure basée sur simulation pour la dérivation d’une p-valeur exacte du test de degré d’un polynôme dans un modèle de régression logistique à effets aléatoires. Ainsi, nous avons exploité le fait que la statistique du score est une fonction pivotale sous l’hypothèse nulle pour appliquer la technique du test de Monte Carlo Randomisé. L’efficacité de cette approche proposée a été illustrée à travers une expérience de simulation. Les résultats empiriques obtenus prouvent que le test du score asymptotique de degré du polynôme dans le modèle de régression logistique semi paramétrique à effets aléatoires n’est pas fiable par contre le test de MC réalise un meilleur contrôle de la taille et a une puissance plus élevée. Il est important de souligner qu’avec les installations informatiques modernes, la procédure de MCR est facile à mettre en oeuvre. Il est intéressant pour les futures recherches de développer une statistique exacte du score en utilisant d’autres approximations numériques, par exemple, l’approximation par la quadrature adaptative gaussienne. Cependant, nous avons constaté que le test du score est sensible aux points aber- 127 rants. Récemment, Qin et Zhu (2008) ont développé une méthode d’estimation robuste des paramètres du modèle généralisé semi paramétrique à effets aléatoires en transformant la fonction non paramétrique par des fonctions de B-spline. En effet, ils ont fait plus d’attention à l’estimation robuste des coefficients de B-spline et de variances des effets aléatoires par la méthode Mestimateur. Il est intéressant pour les futures recherches de prolonger le test de Monte Carlo Randomisé en considérant une statistique du score robuste. Ce modèle de la régression logistique a été illustré à travers une application réelle concernant l’anticipation de la détresse des entreprises. En utilisant des données comptables et financières, nous avons calculé une fonction de score par la méthode de régression logistique à effets aléatoires en considérant la détresse financière comme une variable expliquée discrète. L’objectif de ce modèle est de capturer des effets inaperçus qui sont dûs à l’hétérogénéité des entreprises de la population étudiée. En d’autres termes, nous avons mis en évidence les déterminants inobservables de la détresse financière de chaque secteur de l’échantillon étudié. Dans une deuxième étape, nous avons réalisé une recherche exploratoire de nouvelles relations fonctionnelles entre les ratios et la probabilité de détresse. Ces relations fonctionnelles ont été estimées à travers le modèle de régression logistique semi paramétrique. Par la suite, nous avons présenté le modèle de régression logistique semi paramétrique comme un modèle alternatif flexible pour la prévision de faillite. Une fois la fonction de score est élaborée, nous avons montré que ce modèle jouit d’un pouvoir discriminant et prédictif. Pour cela, nous avons utilisé un 128 processus de validation. Ce processus sert à estimer les performances futures du modèle qui vient d’être construit sur un jeu de données. Ainsi, nous avons élaboré la courbe de ROC. Dans notre étude, nous avons visé plus particulièrement à attirer l’attention, d’un part sur l’aspect non linéaire des relations entre les ratios et la probabilité de la détresse et d’un autre part sur le caractère temporel et spatial de la fonction de scoring notamment sur le niveau de la pondération des ratios. Il est intéressant pour des futures recherches de développer des fonctions de scores plus raffinées en traitant des autres formes de relations linéaires en augmentant le taille d’échantillon des entreprises étudiées 129 130 Annexe 5 Ratios Libellées R1 Stock brut / Total des actifs R2 Durée de crédit accordé au client (TVA 18%) R3 Taux de marge brute R4 Taux de marge d’exploitation R5 Ratio de charges du personnel R6 Ratio de marge nette R7 Rotation de l’actif R8 Rotation des fonds propres R9 Rentabilité économique R10 Rentabilité des capitaux investis ou taux de rendement de l’actif R11 Rentabilité d’exploitation de l’actif total R12 Rentabilité économique brute R13 Rentabilité économique nette R14 Taux de rentabilité des capitaux propres R15 Rotation des capitaux permanents R16 Rentabilité des capitaux permanents R17 Taux d’endettement à long terme R18 Ratio d’indépendance financière R19 Taux d’endettement global R20 Couverture des immobilisations par les fonds propres 131 R21 Capacité d’endettement à long et à moyen terme R22 Ratio de charges financières R23 Charges financières / Dettes financières R24 Ratio de liquidité générale (de FR) R25 Ratio de liquidité relative R26 Ratio de liquidité immédiate 132 Bibliographie Altman, E. I. (1968). Financial ratios, discriminant analysis and the prediction of corporate bankruptcy. The Journal of Finance, 23(4) :589–609. Anderson, D. A. and Aitkin, M. (1985). Variance component models with binary response : Interviewer variability. Journal of the Royal Statistical Society. Series B (Methodological), 47(2) :203–210. Banerjee, M. and Frees, E. W. (1997). longitudinal models. Influence diagnostics for linear Journal of the American Statistical Association, 92(439) :999–1005. Bardos, M. and Zhu, W. H. (1997). Comparaison de l’analyse discriminante linéaire et des réseaux de neurones. application à la détection de défaillance d’entreprises. Revue Statistique Appliquée. Beaver, W. H. (1966). Financial ratios as predictors of failure. Journal of Accounting Research, 4 :71–111. Beckman, R. J., Nachtsheim, C. J., and Cook, R. D. (1987). Diagnostics for mixed-model analysis of variance. Technometrics, 29(4) :413–426. Breslow, N. and Clayton, D. G. (1993). Approximate inference in generalized linear mixed models. J. Am. Statist. Ass., 88 :9 – 25. 133 Chatterjee, S. and Hadi, A. S. (1986). Influential observations, high leverage points, and outliers in linear regression. Statistical Science, 1(3) :379–393. Chava, S. and Jarrow, R. A. (2004). Bankruptcy Prediction with Industry Effects. Review of Finance, 8(4) :537–569. Christensen, R., Pearson, L. M., and Johnson, W. (1992). Case-deletion diagnostics for mixed models. Technometrics, 34(1) :38–45. Cook, R. D. (1977). Detection of influential observation in linear regression. Technometrics, 19(1) :15–18. Cook, R. D. and Weisberg, S. (1983). Diagnostics for heteroscedasticity in regression. Biometrika, 70(1) :1–10. Crainiceanu, C., Ruppert, D., Claeskens, G., and Wand, M. P. (2005). Exact likelihood ratio tests for penalised splines. Biometrika, 92(1) :91–103. Crainiceanu, C. M. and Ruppert, D. (2004). Likelihood ratio tests in linear mixed models with one variance component. Journal of the Royal Statistical Society. Series B (Statistical Methodology), 66(1) :165–185. DeBoor, C. (1978). A practical guide to splines. Springer-Verlag New York. Dempster, A., Laird, N., and Rubin, D. (1977). Maximum likelihood from incomplete data via the em algorithm. Journal of the Royal Statistical Society. Series B (Methodological), 39(1) :1–38. Dufour, J.-M. (2006). Monte carlo tests with nuisance parameters : A general approach to finite-sample inference and nonstandard asymptotics. Journal of Econometrics, 133(2) :443–477. 134 Dufour, J.-M. and Farhat, A. (1998). Simulation-based finite sample normality tests in linear regressions. Econometrics Journal, 1(2) :154–173. Dufour, J.-M. and Khalaf, L. (2002). Simulation based finite and large sample tests in multivariate regressions. Journal of Econometrics, 111(2) :303–322. Eilers, Paul H. C. et Marx, B. D. (1996). Flexible smoothing with b-splines and penalties. Statistical Science, 11(2) :89–102. Fellner, W. H. (1986). Robust estimation of variance components. Technometrics, 28(1) :51–60. Foulley, J., Jaffrézic, F., and Robert-Granié, C. (2000). Em-reml estimation of covariance parameters in gaussian mixed models for longitudinal data analysis. Genet. Sel. Evol., 32(2) :129–141. Fung, W.-K., Zhu, Z.-Y., Wei, B.-C., and He, X. (2002). Influence diagnostics and outlier tests for semiparametric mixed models. Journal of the Royal Statistical Society. Series B (Statistical Methodology), 64(3) :565–579. Greene, W. (1991). Econométrie. Pearson education. Harvey, W. R. (1970). Estimation of variance and covariance components in the mixed model. Biometrics, 26(3) :485–504. Haslett, J. and Dillane, D. (2004). Application of ’delete = replace’ to deletion diagnostics for variance component estimation in the linear mixed model. Journal of the Royal Statistical Society. Series B (Statistical Methodology), 66(1) :131–143. He, X. and Shi, P. (1996). Bivariate tensor-product b-splines in a partly linear model. Journal of Multivariate Analysis, 58(2) :162–181. 135 Heckman, N. E. (1986). Spline smoothing in a partly linear model. Journal of the Royal Statistical Society. Series B (Methodological), 48(2) :244–248. Hedeker, R. and Gibbons, R. D. (1996). Mixor : a computer program for mixed-effects ordinal regression analysis. Computer Methods and Programs in Biomedicine, 49(2) :157 – 176. Henderson, C. R. (1975). Best linear unbiaised estimators and prediction under a selection model. Biometrics, 31(2) :423–447. Hillegeist, E., Keating, C., and Lundstedt, K. (2004). Assessing the probability of bankruptcy. Review of Accounting Studies, 9 :5–34. Hinde, J. (1982). Compound Poisson regression models. Springer-Verlag, New York. Huber, P. (1981). Robust Statistics. J Wiley and Sons, New-York. Huggins, R. M. (1993). A robust approach to the analysis of repeated measures. Biometrics, 49(3) :715–720. Kiviet, J. F. and Dufour, J.-M. (1997). Exact tests in single equation autoregressive distributed lag models. Journal of Econometrics, 80(2) :325–353. Lin, X. and Zhang, D. (1999). Inference in generalized additive mixed models by using smoothing splines. Journal of the Royal Statistical Society. Series B (Statistical Methodology), 61(2) :381–400. Marx, B. D. and Eilers, P. H. C. (1998). Direct generalized additive modeling with penalized likelihood. Comput. Stat. Data Anal., 28(2) :193–209. McCulloch, C. E. (1997). Maximum likelihood algorithms for generalized linear mixed models. J. Am. Statist. Ass., 92 :162 – 170. 136 Ngo, L. and Wand, M. (2003). Smoothing with mixed model software. Journal of Statistical Software, 4(1) :1–54. Pepe, M. S. (2000). Receiver operating characteristic methodology. Journal of the American Statistical Association, 95(449) :308–311. Pinheiro, J. C. and Bates, D. M. (2000). Mixed-Effects Models in S and S-Plus. Springer. Press, S. J. and Wilson, S. (1978). Choosing between logistic regression and discriminant analysis. Journal of the American Statistical Association, 73(364) :699–705. Qin, G. and Zhu, Z. (2008). Robust estimation in partial linear mixed model for longitudinal data. Acta Mathematica Scientia, 28(2) :333 – 347. Richardson, A. M. (1997). Bounded influence estimation in the mixed linear model. Journal of the American Statistical Association, 92(437) :154–161. Richardson, A. M. and Welsh, A. H. (1995). Robust restricted maximum likelihood in mixed linear models. Biometrics, 51(4) :1429–1439. Rocke, D. M. (1991). Robustness and balance in the mixed model. Biometrics, 47(1) :303–309. Searle, S. (1982). Matrix algebra useful for statistics. J. Wiley and Sons, New-York. Searle, S., Casella, G., and McCulloch, C. (1992). Variance components. J. Wiley and Sons, New-York. 137 Self, S. G. and Liang, K.-Y. (1987). Asymptotic properties of maximum likelihood estimators and likelihood ratio tests under nonstandard conditions. Journal of the American Statistical Association, 82(398) :605–610. Speckman, P. (1988). Kernel smoothing in partial linear models. Journal of the Royal Statistical Society. Series B (Methodological), 50(3) :413–436. Stram, D. O. and Lee, J. W. (1994). Variance components testing in the longitudinal mixed effects model. Biometrics, 50(4) :1171–1177. Tanner, M. (1993). Tools for Statistical Inference. springer, 2nd edition. Verbeke, G. and Molenberghs, G. (2000). Linear mixed models for longitudinal data. Springer Verlag, New York. Zhang, D. and Lin, X. (2003). Hypothesis testing in semiparametric additive mixed models. Biostat, 4(1) :57–74. Zhang, D., Lin, X., Raz, J., and Sowers, M. (1998). Semiparametric stochastic mixed models for longitudinal data. Journal of the American Statistical Association, 93(442) :710–719. Zhu, H., Lee, S.-Y., Wei, B.-C., and Zhou, J. (2001). Case-deletion measures for models with incomplete data. Biometrika, 88(3) :727–737. 138