Modèles de régression logistique semi paramétriques

publicité
Université de Tunis El Manar
Faculté des Sciences économiques et de Gestion de Tunis
Thèse
En vue de l’obtention du grade de
Docteur en Sciences Économiques
Modèles de régression logistique
semi paramétriques à effets aléatoires :
Estimation, test polynomial et score de détresse
Présentée et soutenue publiquement par
Sami MESTIRI
Sous la direction de Monsieur le professeur
Abdeljelil FARHAT
Devant le jury composé de
Président :
..............................................,
..................................
Monsieur Abdeljelil FARHAT ,
Professeur à la FSEG de Mahdia
..............................................,
....................................
..............................................,
.....................................
..............................................,
.....................................
Membres :
Année Universitaire 2010-2011
L’université n’entend donner aucune approbation ou improbation aux opinions émises dans les thèses ; ces opinions doivent être considérées comme
propres à leurs auteurs.
Remerciements
Au terme de ce travail, je tiens à exprimer mes plus sincères remerciements
à Monsieur le Professeur Abdeljelil FARHAT d’avoir bien voulu diriger
ce travail de thèse. Sa disponibilité, ses encouragements et les nombreuses
discussions que j’ai eu avec lui ont largement contribué à l’élaboration de ce
travail.
Ce travail a été réalisé au sein de l’unité de recherche Économie Appliquée
et Simulation (EAS) à la faculté des Sciences Économiques et Gestion de
Mahdia. Il me plait en ce moment d’adresser mes remerciements à tous ceux
qui, d’une manière ou d’une autre, ont contribué à l’aboutissement de ce
travail et à rendre meilleures ces années de thèse.
J’exprime ma très profonde reconnaissance à l’unité de recherche EAS
qui m’a accueilli chaleureusement et qui m’a fourni un climat prospère pour
la réalisation de ce travail. Mes participations aux colloques nationaux et
internationaux m’ont servi pour mener à terme cette thèse. Je dois également
témoigner toute ma gratitude et ma sympathie envers toute personne qui a
contribué de prés ou de loin à la réalisation de ce travail de recherche. Je
remercie infiniment mes coauteurs et tous mes collègues de FSEG de Mahdia.
Enfin, je voudrais remercier tous ceux qui m’ont soutenu tout au long de
ma thèse, que se soit d’un point de vue scientifique ou d’un point de vue
matériel. En particulier, cette thèse est dédiée à mon parent Thar et à ma
mère Rachida qui mont soutenu pendant toute de mes études et ces quelques
mots ne suffiront jamais à exprimer tout ce que je leurs dois.
ii
Résumé
Cette thèse s’inscrit dans une perspective de mise en place d’une méthode
d’estimation simple et robuste des modèles de régression logistique semi paramétriques à effets aléatoires. Pour cela, nous avons suivi une démarche
qui consiste à transformer le modèle semi paramétrique sous la forme d’un
modèle de régression logistique à effets aléatoires totalement paramétrique
et à traiter l’inverse du paramètre de lissage comme une composante de la
variance. En d’autres termes, nous avons proposé d’approximer la fonction
non paramétrique par un polynôme du degré fixe.
Le choix de degré de ce polynôme est une proposition qui nécessite d’être
vérifiée par un test d’hypothèse. Zhang et Lin (2003) ont développé une statistique du score pour tester le degré de polynôme a travers le test de la nullité
de l’écart type de l’effet aléatoire. La distribution de cette statistique est approximée par la combinaison des lois de Khi-deux. Leurs études de simulation
ont montré que la performance de test du score est moins satisfaisante lorsque
la variable expliquée est qualitative. Ce résultat est dû principalement à la
mauvaise approximation de la fonction de vraisemblance et à l’utilisation de
l’hypothèse de la normalité pour déterminer la distribution statistique du
score.
Pour améliorer la performance de test du score, nous avons développé
iii
une procédure basée sur la simulation de Monte Carlo. Cette nouvelle procédure permet de dériver une p-valeur exacte du test polynômial pour un
modèle de régression logistique à effets aléatoires. Ainsi, nous avons exploité
le fait que la statistique du score est une fonction pivotale sous l’hypothèse
nulle pour appliquer la technique du test de Monte Carlo Randomisé (MCR)
Dufour (2006). L’efficacité de cette approche proposée est illustrée à travers
une expérience de simulation. Les résultats empiriques obtenus prouvent que
le test du score asymptotique pour le modèle de régression logistique semi
paramétrique à effets aléatoires n’est pas fiable par contre le test de MCR
réalise un meilleur contrôle de la taille et a une puissance plus élevée. De plus,
il est important de souligner que la procédure de MCR avec les installations
informatiques modernes, est facile à mettre en oeuvre.
Le modèle de régression logistique à effets aléatoires a été illustré à travers une application réelle concernant l’anticipation de la détresse financière
des entreprises tunisiennes. En considérant la détresse financière comme une
variable expliquée qualitative, nous avons utilisé le modèle de régression logistique à effets aléatoires pour déduire une fonction de score. Cette nouvelle
fonction de score permet de capturer des effets inaperçus qui sont dûs à
l’hétérogénéité des entreprises de la population étudiée. En d’autres termes,
nous avons mis en évidence les déterminants non observables de la détresse
financière de chaque secteur de l’échantillon étudié.
D’une deuxième étape, nous avons réalisé une recherche exploratoire sur
des nouvelles relations fonctionnelles entre les ratios et la probabilité de la
détresse. Ces relations fonctionnelles ont permis de déduire une fonction de
score estimée à partir du modèle de régression logistique semi paramétrique.
Par la suite, nous avons présenté le modèle logistique semi paramétrique
iv
comme un modèle alternatif flexible pour la prévision de faillite.
Une fois la fonction de score est élaborée, nous avons montré que ce modèle
jouit d’un pouvoir discriminant et prédictif. Pour cela, nous avons utilisé un
processus de validation. Ce processus sert à estimer les performances futures
du modèle qui vient d’être construit sur un jeu de données. Ainsi, nous avons
élaboré la courbe de ROC pour chacun des modèles du score construit.
Dans notre étude, nous avons visé plus particulièrement à attirer l’attention, d’un part sur l’aspect non linéaire des relations entre les ratios et
la probabilité de la détresse et d’un autre part sur le caractère temporel et
spatial de la fonction de scoring notamment sur le niveau de la pondération
des ratios.
v
Table des matières
1 Modèles linéaires à effets aléatoires
1.1
1.2
1.3
11
Modèle de régression linéaire multivariée . . . . . . . . . . . . 13
1.1.1
Le modèle et les hypothèses . . . . . . . . . . . . . . . 13
1.1.2
L’estimation du modèle linéaire . . . . . . . . . . . . . 14
1.1.3
Les tests d’hypothèses . . . . . . . . . . . . . . . . . . 15
Spécification du modèle linéaire à effets aléatoires . . . . . . . 17
1.2.1
Formulation du modèle linéaire à effets aléatoires . . . 17
1.2.2
Les hypothèses du modèle linéaire à effets aléatoires . . 19
Estimation du modèle linéaire à effets aléatoires . . . . . . . . 21
1.3.1
La méthode du maximum de vraisemblance . . . . . . 21
1.3.2
La méthode du maximum de vraisemblance robuste . . 24
1.4
Diagnostic du modèle linéaire à effets aléatoires . . . . . . . . 28
1.5
Application : l’analyse de niveau du cholestérol
1.6
. . . . . . . . 31
1.5.1
La structure des données . . . . . . . . . . . . . . . . . 31
1.5.2
Le modèle étudié . . . . . . . . . . . . . . . . . . . . . 33
1.5.3
Les résultats d’estimation . . . . . . . . . . . . . . . . 34
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2 Modèles linéaires semi paramétriques à effets aléatoires
vi
39
2.1
La spécification du modèle linéaire semi paramétrique à effets
aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.2
2.1.1
Les bases de fonctions de B-splines . . . . . . . . . . . 42
2.1.2
Les bases de fonctions puissances tronquées . . . . . . 44
Estimation du modèle semi paramétrique à effets aléatoires . . 46
2.2.1
la méthode du maximum de vraisemblance pénalisée . 46
2.3
Le diagnostic du modèle semi paramétrique à effets aléatoires . 49
2.4
Le test polynomial . . . . . . . . . . . . . . . . . . . . . . . . 52
2.4.1
Le test du score asymptotique . . . . . . . . . . . . . . 53
2.4.2
Le test du rapport de vraisemblance
. . . . . . . . . . 55
2.5
Étude de simulation
. . . . . . . . . . . . . . . . . . . . . . . 58
2.6
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3 Modèle de régression logistique à effets aléatoires
64
3.1
Spécification du modèle de régression logistique à effets aléatoires 65
3.2
L’estimation du modèle de régression logistique à effets aléatoires 68
3.2.1
La méthode de la quasi- vraisemblance pénalisée . . . . 71
3.2.2
L’algorithme Monte Carlo EM . . . . . . . . . . . . . . 74
3.3
Diagnostic du modèle de régression logistique à effets aléatoires 77
3.4
Application : Anticipation de la détresse financière . . . . . . . 82
3.4.1
La structure des données . . . . . . . . . . . . . . . . . 84
3.4.2
La fonction de régression logistique à effets aléatoires
du score de détresse . . . . . . . . . . . . . . . . . . . . 85
3.5
4
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
Modèle de régression logistique semi paramétrique à effets
aléatoires
92
vii
4.1
Spécification du modèle de régression logistique semi paramétrique à effets aléatoires . . . . . . . . . . . . . . . . . . . . . 93
4.2
Estimation du modèle de régression logistique semi paramétrique à effets aléatoires . . . . . . . . . . . . . . . . . . . . . 97
4.3
Le diagnostic du modèle de régression logistique semi paramétrique à effets aléatoires . . . . . . . . . . . . . . . . . . . . . 98
4.4
Le test polynomial . . . . . . . . . . . . . . . . . . . . . . . . 100
4.4.1
Le test du score . . . . . . . . . . . . . . . . . . . . . . 101
4.4.2
Le test de Monte Carlo Randomisé . . . . . . . . . . . 103
4.5
Etude de simulation
4.6
Application : Anticipation de la détresse financière . . . . . . . 111
4.6.1
. . . . . . . . . . . . . . . . . . . . . . . 107
La fonction logistique semi paramétrique de score . . . 113
4.7
La validation des fonctions de score de la détresse . . . . . . . 117
4.8
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
viii
Table des figures
1.1
Fonction d’Huber pour c=1.5 . . . . . . . . . . . . . . . . . . 27
1.2
Le niveau du cholestérol de 200 individus observé tous les deux
ans sur une période de dix ans . . . . . . . . . . . . . . . . . . 32
1.3
Les nuages des points des statistiques de la distance du Cook
du modèle (1.37) . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.1
Les fonctions fc (x) avec c = (0, 1, 2, 3, 4) simulées pour tester
le degré du polynôme dans le modèle linéaire semi paramétrique 59
4.1
Les fonctions fc (x) avec c = (0, 1, 2, 3, 4) simulées pour tester
le degré de polynôme dans le modèle de régression logistique
semi paramétrique . . . . . . . . . . . . . . . . . . . . . . . . 109
4.2
Les nuages des points des variables explicatives et de leurs
logits
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
4.3
La courbe de la fonction estiméef (R21 ) . . . . . . . . . . . . . 123
4.4
Les courbes ROC des modèles établis . . . . . . . . . . . . . . 124
ix
Liste des tableaux
1.1
Comparaison des structures des données . . . . . . . . . . . . 12
1.2
Les paramètres estimés par la méthode du maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
1.3
Les paramètres estimés par la méthode du maximum de vraisemblance robuste . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.1
Niveaux et puissances empiriques des trois tests de la linéarité
de la fonction f dans le modèle (2.29) où N = 2 et n=5 . . . . 61
2.2
Niveaux et puissances empiriques des trois tests de la linéarité
de la fonction f dans le modèle (2.29) où N = 4 et n=5 . . . . 62
3.1
Le nombre des entreprises par secteur . . . . . . . . . . . . . . 89
3.2
Les coefficients estimés des effets aléatoires . . . . . . . . . . . 90
3.3
Les coefficients estimés des effets aléatoires . . . . . . . . . . . 91
4.1
Niveaux et puissances empiriques de deux tests de linéarité de
la fonction f dans le modèle (4.20) avec N = 2 et n=5 . . . . . 110
4.2
Niveaux et puissances empiriques de deux tests de linéarité de
la fonction f dans le modèle (4.20) avec N = 4 et n=5 . . . . . 110
4.3
les estimateurs du modèle de régression logistique semi paramétrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
4.4
Matrice de confusion . . . . . . . . . . . . . . . . . . . . . . . 118
1
4.5
Matrice de confusion des modèles estimés pour l’échantillon
test
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
2
Introduction générale
Dans les sciences sociales, et particulièrement en économie, l’objectif de
la modélisation d’un phénomène est de mieux comprendre la nature et le
fonctionnement des systèmes étudiés. L’un des rôles d’un modèle est de permettre aux agents (ménages, entreprises et État) d’intervenir de manière plus
efficace à travers des modèles statistiques. En effet, un modèle statistique est
une présentation formalisée d’un phénomène sous la forme d’une équation
dont les variables sont des grandeurs physiques ou économiques. L’objectif
d’un modèle est de représenter les traits les plus marquants d’une réalité
qu’on cherche à styliser. Le modèle est donc l’outil qui permet de décrire et
de comprendre des relations qui caractérisent certaines variables.
Bien entendu, les qualités descriptives du modèle retenu dépendent de
plusieurs facteurs : par exemple, la qualité du plan d’expérience, la taille de
l’échantillon et la qualité de la prise des mesures, avec lesquels le statisticien
doit composer une fois les données recueillies. Mais, les qualités dépendent
essentiellement de la spécification de ce modèle.
La construction d’un modèle consiste à déterminer une forme fonctionnelle entre les variables. Cette forme devrait refléter d’une meilleure façon, la
relation de causalité entre ces variables. La régression linéaire est la forme la
3
plus usuelle compt tenu de sa simplicité de calcul et d’interprétation. Dans
le modèle de régression linéaire, on postule l’existence d’une relation linéaire
entre une variable expliquée et des variables explicatives. En fait, lorsqu’il
s’agit de modéliser des phénomènes naturels, l’utilisation du modèle linéaire
et de l’hypothèse de normalité des erreurs s’impose dans de nombreuses situations. Malgré cette prédominance bien justifiée par la simplicité attractive,
il existe un certain nombre de phénomènes observés difficilement modélisables par la loi Normale et la régression linéaire des effets. C’est le cas, par
exemple, de l’observation si l’individu dans une population a bien supporté
ou non une telle expérience. Ainsi, afin d’établir une analyse satisfaisante des
variables qualitatives ayant des interactions non linéaires avec d’autres variables, il est approprié de recourir au "Modèle de régression logistique semi
paramétrique".
Sur un autre plan, dans plusieurs études, les données observées d’échantillons sont des données groupées et sont le plus souvent corrélées entre-elles.
Ce groupement peut être la conséquence des mesures répétées dans les études
longitudinales. La modélisation des effets peut être utilisée dans l’explication
du phénomène étudié et mènera à son enrichissement. Dans ce cas, le modèle
de régression logistique classique prend une nouvelle structure et peut être
défini comme un " Modèle de régression logistique à effets aléatoires".
Par ailleurs, les méthodes statistiques reposent habituellement sur des
postulats qui doivent être respectés pour que le modèle obtenu soit validé.
La plupart des méthodes développées au début de l’apparition de la statistique et encore utilisées de nos jours font appel à des postulats contraignants
qui restreignent considérablement l’étendue des applications que l’on peut
4
faire. Heureusement, l’augmentation constante de la puissance de calculs par
des ordinateurs permet d’assouplir certains de ces postulats et ce qui permet
d’obtenir des modèles flexibles susceptibles de bien représenter la réalité. Les
méthodes de régression non paramétriques sont un bon exemple de l’apport
des outils informatiques dans l’avancement des méthodes statistiques et seront présentées dans cette thèse. Dans le cas où la représentation graphique
du nuage de points qui relient la variable expliquée et la variable explicative
nous fournit des informations floues sur l’allure de la courbe de régression,
l’utilisation des méthodes de régression non paramétriques s’impose. En fait,
ces dernières sont des techniques très adéquates pour le traitement des données et l’inférence non linéaire.
La partie explicative du modèle de régression logistique peut être raffinée
par la combinaison linéaire de ces trois types d’effets : les effets fixés paramétriques, les effets fixés non paramétriques et les effets aléatoires. Cette
combinaison a donné naissance aux " Modèles de régression logistique semi
paramétriques à effets aléatoires". Ces modèles permettent une modélisation flexible des effets des variables explicatives en remplaçant le prédicteur
linéaire dans le modèle de régression logistique par une combinaison des fonctions non paramétriques et des effets aléatoires.
Une étape importante dans la modélisation économétrique est de vérifier statistiquement l’adéquation de la spécification du modèle proposé. Par
exemple, il s’agit de vérifier si la relation entre une variable expliquée et une
variable explicative est linéaire. La vérification de l’adéquation de la forme
paramétrique imposée sur les variables explicatives peut être réalisée dans le
cadre d’un test d’hypothèse, où des classes du modèle sont choisies comme
5
des solutions alternatives. Ce test d’hypothèse consiste à vérifier le degré du
polynôme dans le modèle de régression logistique transformé. L’application
de ce test est basée sur la transformation de la fonction de lissage sous la
forme d’un modèle linéaire à effets aléatoires et sur le traitement de l’inverse
du paramètre de lissage comme une composante de la variance. Par suite, le
test d’hypothèse de degré du polynôme revient à réaliser un test de la nullité
de la variance de l’effet aléatoire. La prise de décision sur l’acceptation ou le
rejet de l’hypothèse nulle se base généralement sur le calcul d’une statistique
adaptée au problème telle que la statistique du rapport de vraisemblance
utilisée par Crainiceanu (2004) ou la statistique du score utilisée par Zhang
et Lin (2003).
En particulier, Zhang et Lin (2003) ont utilisé le test du score pour vérifier le degré d’un polynôme dans le modèle de régression logistique semi
paramétrique à effets aléatoires. La distribution de la statistique du score est
approximée par une combinaison des lois de Khi-deux. Les études de simulation effectuées par Zhang et Lin (2003) ont montré que le test du score doit
être appliqué avec réserve étant donné que ce test a une faible puissance.
Pour dépasser cette lacune, nous avons proposé d’améliorer la performance
de test du score.
Le test de spécification que nous avons proposé, est réalisé en utilisant des
procédures de simulation appliquées dans le contexte du modèle logistique
semi paramétrique à effets aléatoires. Pour aboutir à cet objectif, nous avons
adapté la méthode du test de Monte Carlo Randomisé (MCR) développé par
Dufour (2006) pour résoudre le problème du contrôle de la puissance de test
du score. L’approche de MCR nous permet d’introduire un nouveau test qui
6
diffère des tests existants dans la littérature en deux aspects. Premièrement,
ce test est exact puisque la probabilité de rejeter l’hypothèse nulle, sachant
qu’elle est vraie, est toujours égale au niveau nominal. Deuxièmement, cette
approche permet d’obtenir un test aléatoire basé sur la simulation des statistiques du test sous l’hypothèse nulle et en utilisant un nombre restreint
d’essais.
Dans la modélisation des données groupées, un ou quelques groupes peuvent
avoir un impact exagéré sur l’estimation du modèle. Ainsi, depuis quatre décennies, un intérêt croissant se manifeste dans la proposition des méthodes
de détection des données douteuses ou erronées (données aberrantes). Ceci
est dû au souci d’avoir des données expérimentales fiables pour mener des
analyses statistiques meilleures. L’analyse des résidus constitue un outil important pour évaluer l’adéquation d’un modèle statistique à l’ajustement des
données. En fait, une observation aberrante est une observation dont le résidu (en valeur absolue) est plus élevé que la majorité. Plusieurs approches
ont proposé une variété d’indicateurs pour mettre en évidence l’impact d’une
unité ou d’une observation sur la qualité du modèle estimé. Dans cette thèse,
nous avons essayé de développer des statistiques de la distance de Cook permettant d’évaluer l’effet de l’élimination d’un groupe d’observations sur les
paramètres estimés du modèle logistique semi paramétrique à effets aléatoires.
Dans un premier temps, nous avons présenté le développement théorique
de notre travail en exposant les trois étapes suivantes :
-Présenter le modèle de régression logistique semi paramétrique à effets aléatoires.
7
-Déterminer une méthode d’estimation de ces paramètres.
-Développer un test polynomial.
Dans un deuxième temps, nous appliquons le modèle proposé pour recalculer la fonction de score d’Altman (1968) qui sert à classer les entreprises en
deux classes : une classe des entreprises saines et une classe des entreprises en
détresse. La prévision de la détresse financière des entreprises revêt une importance majeure pour ceux qui y sont impliqués (actionnaires, gestionnaires,
salariés, prêteurs, fournisseurs, clients et surtout l’État).
La grande majorité des travaux sur la faillite ou la détresse s’appuie sur
des outils d’analyse statistique de grandeurs comptables et de ratios financiers pour discriminer les entreprises saines des entreprises défaillantes. Elle
débouche sur un calcul de score qui est un indicateur de synthèse censé donner en un chiffre, qui peut être considère comme un degré de défaillance
possible d’un débiteur.
Par ailleurs, précisons que Altman (1968) a établi la prévision de la faillite
des entreprises américaines en utilisant l’analyse discriminante linéaire. En
considérant des données comptables et financières des entreprises tunisiennes
et en considérant la détresse financière comme une variable expliquée, nous
avons déduit une fonction de score à partir du modèle logistique à effets aléatoires. L’objectif de ce modèle est de capturer des effets inaperçus qui sont dûs
à l’hétérogénéité des entreprises de la population étudiée. En d’autres termes,
nous visons à mettre en évidence les déterminants non observables de la détresse financière de chaque secteur de l’échantillon étudié. Afin d’améliorer
le pouvoir prédictif de la fonction de score, nous avons réalisé une recherche
8
exploratoire de nouvelles relations fonctionnelles entre les ratios et la probabilité de la détresse. Ces relations fonctionnelles ont permis de déduire une
fonction de score estimée à partir du modèle de régression logistique semi
paramétrique.
Dans ce travail, notre objectif principal est de présenter le modèle de régression logistique semi paramétrique comme un modèle alternatif et flexible
pour la prévision de la détresse. Une fois la fonction de score est élaborée
et le degré de polynôme est testé, nous nous intéresserons à montrer que ce
nouveau modèle jouit d’un pouvoir discriminant et prédictif.
Cette thèse se compose de quatre chapitres. Dans le premier chapitre,
nous présentons le modèle linéaire à effets aléatoires tout en mettant l’accent
sur l’apport de la méthode d’estimation du maximum de vraisemblance robuste. En plus, nous réalisons aussi une étude par un modèle linéaire à effets
aléatoires ajusté aux données du niveau de Cholestérol.
Dans le deuxième chapitre, nous définissons le modèle linéaire semi paramétrique à effets aléatoires comme une extension du modèle linéaire à effets
aléatoires. Ce nouveau modèle permet de modéliser des relations de causalité
non linéaires entre une variable expliquée longitudinale et des variables explicatives en approximant une fonction de lissage non paramétrique par un
polynôme du degré fixe. Le choix du degré de ce polynôme est une proposition
qui nécessite d’être vérifiée par un test d’hypothèse.
Dans le troisième chapitre, nous donnons une idée assez claire sur les
diverses techniques d’estimations des paramètres inconnus du modèle de régression logistique à effets aléatoires. Par la suite, nous réalisons une applica9
tion à partir des données réelles des entreprises tunisiennes sur l’anticipation
de la détresse financière.
Le dernier chapitre est consacré à la présentation du modèle de régression logistique semi paramétrique à effets aléatoires en mettant l’accent sur
l’apport de test de Monte Carlo Randomisé (MCR) dans la confirmation du
choix de degré de polynôme. Le modèle de régression logistique semi paramétrique a été illustré à travers une application réelle concernant l’anticipation
de la détresse financière des entreprises tunisiennes.
10
Chapitre 1
Modèles linéaires à effets
aléatoires
Dans les études économétriques classiques, les données de variables peuvent
être classées sous la forme d’une série temporelle ou bien sous la forme d’une
coupe transversale. Les séries temporelles sont analysées sous l’hypothèse
que les individus sont homogènes, alors qu’on suppose pour les données en
coupes transversales un comportement individuel statique. La vérification de
l’existence d’une relation de causalité entre les variables univariées se réalise
souvent par le modèle de régression linéaire.
Dans certaines études économétriques, les données observées de l’échantillon sont stratifiées ou groupées. Ce regroupement peut être la conséquence
des mesures répétées. On utilise le terme « données longitudinales » pour
qualifier les mesures répétées dans le temps sur un ensemble d’unités. Les
données longitudinales sont dites balancées, si les mesures sont enregistrées
pendant des intervalles réguliers et pour un même nombre de mesure par
individu. La table (1.1) illustre la structure des données groupées par cinq
11
balancées de deux variables X et Y .
Etude classique
Etude longitudinale
Individus
Données
Groupes Données
1
x1
1
y1
2
x2
x11 , x12 , .., x15
y11 , y12 , .., y15
2
y2
x21 , x22 , .., x25
y21 , y22 , .., y25
Tab. 1.1 – Comparaison des structures des données
Dans une étude longitudinale, la relation de causalité entre les variables
est adéquatement exprimée à travers les modèles linéaires à effets aléatoires.
Dans ces modèles, deux types de facteurs peuvent influencer les valeurs de
la variable d’intérêt. Ces facteurs peuvent avoir deux natures : fixes ou aléatoires. Les facteurs à effets fixes ont un nombre fini de niveaux et les données
se répartissent sur ces différents niveaux. On souhaite en retirer une information concernant l’effet de chaque niveau sur la variable d’intérêt. Par contre,
les facteurs à effets aléatoires ont un nombre potentiellement infini de niveaux. Dans ce cas, les données se répartissent sur un échantillon aléatoire
de ces niveaux. La façon dont chacun des niveaux influe sur le résultat ne
présente pas d’intérêt. En revanche, on souhaite connaître la part de la variabilité induite par ces effets.
12
1.1
Modèle de régression linéaire multivariée
Nous commençons cette section par une description du modèle de régression linéaire multivariée. Nous abordons ensuite de façon succincte la
question de l’estimation des paramètres de ce modèle par la méthode des
moindres carrés ordinaires.
1.1.1
Le modèle et les hypothèses
Dans le modèle de régression linéaire multivariée, on postule l’existence
d’une liaison statistique linéaire entre un vecteur aléatoire d’une variable
expliquée notée Y de taille n et une matrice X des variables explicatives non
aléatoires de dimension (n, p). Le modèle linéaire standard traduisant une
relation linéaire entre Y et X s’écrit sous la forme suivante :
Y = Xβ + ε.
(1.1)
où β est un vecteur inconnu de taille p des coefficients et ε est un vecteur
de taille n d’erreurs de spécification. L’estimation du modèle (1.1) nécessite
préalablement la formulation de deux hypothèses concernant le terme aléatoire ε :
Hyp 1 : les effets des facteurs autre que X se compensent c.à.d E(ε) = 0.
Hyp 2 : l’hypothèse d’homoscèdasticité et de non autocorrélation des erreurs
c.à.d V (ε) = σ 2 In .
13
1.1.2
L’estimation du modèle linéaire
Les paramètres inconnus du modèle (1.1) sont β et σ 2 . Si on suppose l’indépendance entre les individus, l’estimation de β par la méthode des moindres
carrés ordinaires est une valeur β̂ qui minimise la somme des carrées résiduelles :
0
SCR = (Y − Xβ) (Y − Xβ).
(1.2)
Le principe de la méthode des moindres carrés ordinaires consiste à minimiser les sommes des carrées résiduelles, par rapport aux paramètres inconnus
du modèle. La résolution de ce programme d’optimisation permet d’obtenir
l’estimateur suivant :
0
0
β̂ = (X X)−1 X Y.
(1.3)
D’après le théorème de Gauss-Markov, β̂ est le meilleur estimateur linéaire sans biais (BLUE, pour Best Linear Unbiased Estimator). En effet,
ce théorème prouve que β̂ possède la variance minimale dans la classe des
estimateurs linéaires centrés sans biais. Selon Greene (1991), la matrice de
variance-covariance de β̂ a la forme suivante :
0
V (β̂) = σ 2 (X X)−1 .
(1.4)
Concernant l’estimation du paramètre de la partie aléatoire σ 2 , un estimateur centré est calculé selon cette relation :
14
σ̂ 2 =
1.1.3
SCR
.
n−p
(1.5)
Les tests d’hypothèses
Le rôle de l’économétrie est de confirmer ou d’infirmer empiriquement
l’influence des variables X sur la variable Y en se basant sur des données observées. A cet effet, nous avons besoin de recourir à l’étude inférentielle sur les
paramètres du modèle. Ainsi, pour construire des intervalles de confiance ou
des tests d’hypothèses, il faut ajouter une hypothèse sur la distribution des
erreurs. En effet, nous supposons que les erreurs sont indépendantes et identiquement distribuées selon la loi Normale d’espérance nulle et de variance
σ2 :
ε ∼ N (0, σ 2 In ).
(1.6)
Comme conséquence de la normalité des erreurs, nous obtenons :
0
β̂ ∼ N (β, σ 2 (X X)−1 ).
(1.7)
Cependant, les tests individuels ne peuvent pas être élaborés en utilisant
les statistiques distribuées selon la loi Normale, étant donné que la variance
des erreurs σ 2 est inconnue. Pour contourner ce problème nous recourons à
la statistique suivante :
SCR
∼ χ2 (n − p).
2
σ
15
(1.8)
Ceci permet d’effectuer les tests individuels à partir des statistiques distribuées selon la loi de Student où la variance σ 2 est remplacée par son estimateur sans biais σ̂ 2 . Il s’en suit que :
β̂ − βp
qp
∼ t(n − p).
V (β̂k )
(1.9)
Dans ce qui suit, nous présentons deux types de tests individuels :
a-Le test de significativité statistique du paramètre β
Le test de significativité statistique du paramètre β consiste à vérifier si
les variables explicatives X possèdent un effet multiplicateur significatif sur
la variable expliquée Y . Il s’agit d’un test avec le corps d’hypothèse suivant :

 H :β=0
0
 H : β 6= 0
1
b-Le test d’a priori théorique
Le test d’a priori théorique comme par exemple β est égal à une constante.
Les coefficients testés prennent des valeurs réelles particulières selon l’appréhension théorique du
modèle étudié. Dans ce cas, nous testons les corps
 H :β=β
0
0
d’hypothèses suivants :
 H : β 6= β
1
0
α
1−
β̂p −β0
On rejette H0 lorsque |tc | > tn−p2 avec tc = √
est l’estimation de
V (β̂p )
1− α
la statistique du test à partir de l’échantillon utilisé et tn−p2 est le quantile
d’ordre 1 −
α
2
de la loi de Student de degré de liberté égal à n − p. Le test
de Student des coefficients est généralement utilisé pour vérifier les hypo16
thèses théoriques. Mais, ce test n’est valable que lorsque l’hypothèse Hyp2
est vérifiée, c’est-à-dire le terme d’erreur est vraiment un bruit blanc (ni
autocorrelation ni hétéroscédasticité).
1.2
Spécification du modèle linéaire à effets aléatoires
Dans cette section, nous donnons une description du modèle linéaire à
effets aléatoires. Nous abordons ensuite la question de l’estimation des paramètres au sein de ce modèle et en présentant deux méthodes d’estimation :
la méthode du maximum de vraisemblance et la méthode du maximum de
vraisemblance robuste.
1.2.1
Formulation du modèle linéaire à effets aléatoires
Le modèle linéaire à effets aléatoires constitue un outil puissant et flexible
pour modéliser la relation de causalité entre les variables longitudinales. Ce
modèle vise à rendre compte simultanément de la dynamique du comportement individuel et de l’éventuelle hétérogénéité. Selon Verbeke et Molenberghs (2000), le modèle linéaire à effets aléatoires résulte de la combinaison
des deux modèles obtenus en deux étapes.
0
Dans la première étape, on considère le vecteur Yi = (yi1 , ..., yin ) des
réponses relatives à l’individu i = 1, ..., N . On suppose que Yi vérifie le modèle
de régression linéaire suivant :
Yi = Zi β i + ε i ,
17
(1.10)
où Zi est une matrice des variables explicatives connues de dimension (n, q)
et qui permet d’expliquer la vatiation de la variable expliquée de l’individu
i, βi est un vecteur de taille q des coefficients inconnus spécifique à l’individu
i alors εi est un vecteur de taille n, composé par des termes d’erreurs.
Dans la deuxième étape, le vecteur βi est décomposé en deux facteurs :
un facteur commun pour tous les individus et un facteur spécifique à chaque
individu.
βi = Ki β + bi ,
(1.11)
où Ki est une matrice de dimension (q, p) des variables explicatives connues,
β est un vecteur de taille p des coefficients de régression inconnus et communs
pour tous les individus. Par suite, on peut exprimer la variabilité entre les
individus comme suit :
Yi = Zi K i β + Zi b i + ε i .
(1.12)
En supposant que Xi = Zi Ki , l’équation (1.12) s’écrit sous la forme suivante :
Yi = Xi β + Zi bi + εi ,
(1.13)
où β est un vecteur des effets fixes et bi est un vecteur des effets aléatoires
relatif à l’individu i.
18
Le modèle (1.13) est nommé modèle linéaire à effets aléatoires dans lequel
le vecteur des mesures répétées de chaque individu suit un modèle de régression linéaire. Le vecteur des paramètres β est un vecteur commun à toute la
population alors que le vecteur des paramètres bi est un vecteur spécifique
individuel.
Afin d’alléger l’écriture et de faciliter l’expression de certains résultats,
nous recourons à la formulation matricielle. Le modèle (1.13) est exprimé
sous la forme suivante :
Y = X β + Z b + ε,
(1.14)
où Y est un vecteur de taille (N.n) des variables expliquées, X est une matrice
connue de plein rang de dimension (N.n, p), composée par des p variables
explicatives, β est un vecteur inconnu de taille p des coefficients des effets
fixes, Z est une matrice connue de dimension (N.n, N ) composée par des
valeurs 1 et 0, b est un vecteur inconnu de taille N des coefficients des effets
aléatoires et ε est un vecteur des erreurs de spécification.
1.2.2
Les hypothèses du modèle linéaire à effets aléatoires
Le modèle linéaire à effets aléatoires peut être aussi défini comme un
modèle à erreurs composées. Les sources de la variation dans ce modèle se
composent de deux éléments : les effets aléatoires bi et le terme des erreurs εi .
Le premier présente la variation intergroupes par contre le deuxième présente
la variation intragroupes. Avant d’estimer les paramètres du modèle linéaire
19
à effets aléatoires, il faut supposer les trois hypothèses suivantes :
Hyp1 : εi ∼ N (0, Σi ), avec Σi(n,n) est une matrice de variance covariance
qui caractérise les variances et les corrélations entre des variables aléatoires
εi mesurées intragroupes. En général, on suppose que les variations individuelles dans un même groupe sont identiques et indépendantes et que les
mesures sont supposées suffisamment éloignées dans le temps ce qui donne
que les corrélations entre les individus sont négligeables. Ces postulats nous
permettent d’admettre que les termes d’erreurs εi suivent la loi Normale
N (0, σε2 In ).
Hyp2 : bi ∼ N (0, Gθ ), avec Gθ est une matrice de variance covariance de
dimension (n, n) qui caractérise la variabilité intergroupes. Généralement,
les variances des effets aléatoires sont supposées égales pour tous les groupes.
Dans ce cas, la matrice peut prendre la forme Gθ = θIn .
Hyp3 : les effets aléatoires bi et les termes d’erreurs εi sont indépendants.
Sous les hypothèses Hyp1 , Hyp2 et Hyp3 , la variable expliquée Y a la
propriété suivante :
0
Y ∼ N (Xβ, V ) où V = σε2 I + ZGθ Z ,
(1.15)
où V est une matrice des variances covariances des observations de taille
(N.n, N.n), supposée symétrique, définie positive et dépendante d’un vecteur
des paramètres γ = (σε2 , θ).
20
1.3
Estimation du modèle linéaire à effets aléatoires
Dans la section précédente, nous avons présenté une formulation du modèle linéaire à effets aléatoires. La détermination de l’ampleur du lien entre
des variables longitudinales et du niveau de l’hétérogénéité des groupes se
réalise par l’estimation les coefficients des effets fixes β et les paramètres des
effets aléatoires b. La méthode du maximum de vraisemblance a été souvent
utilisée par plusieurs auteurs pour l’estimation des paramètres du modèle
linéaire à effets aléatoires. Nous citons, à titre d’exemple, Harvey (1970),
Greene (1991) et Foulley et al. (2000). Cependant, des études de simulation réalisées par Richardson et Welsh (1995) ont montré que la méthode du
maximum de vraisemblance ne résiste pas aux observations aberrantes. En
effet, la présence des observations aberrantes peut sérieusement biaiser les
estimateurs.
Dans ce qui suit, nous rappelons les procédures de la détermination des
estimateurs de paramètres du modèle linéaire à effets aléatoires par la méthode du maximum de vraisemblance. Ensuite, nous présentons la méthode
du maximum de vraisemblance robuste comme une approche alternative d’estimation.
1.3.1
La méthode du maximum de vraisemblance
La variance totale V est scindée en plusieurs composantes θ que l’on appelle composantes de la variance. Le vecteur des effets fixes β ainsi que le
vecteur des paramètres de variance θ sont inconnus et il s’agit de les estimer.
Il est important de noter ici que, en pratique, nous n’observons pas directe21
ment les effets aléatoires b. Ils sont indirectement observés dans les données.
L’approche du maximum de vraisemblance [(ML) pour Maximum Likelihood]
utilise le concept classique de la fonction de vraisemblance. L’estimation des
composantes de la variance par l’approche ML conduit à des systèmes non linéaires avec contraintes. Outre le fait que rien ne nous assure la positivité des
estimations pas à pas, il n’est pas certain non plus que ces systèmes mènent à
un maximum global de la fonction de vraisemblance. D’autres alternatives à
la résolution itérative de ces systèmes ont été proposées tel que l’algorithme
de Henderson (1975).
Au cours de ses travaux, Henderson (1975) a été amené à prédire des réalisations non observées d’un effet aléatoire à l’intérieur d’un modèle linéaire
à effets aléatoires. Ainsi la prédiction de b devient un élément important et
indispensable. Cette prédiction de b est ensuite utilisée pour l’estimation des
composantes de la variance. Il existe plusieurs manières de prédire b. Celle
qui a été considérée ici est nommée par le meilleur prédicteur linéaire sans
biais [(BLUP) pour Best Linear Unbiaised Predictor]. Cette prédiction b̃ est
une fonction linéaire des données, non biaisée E(b̃) = b et la meilleure au
0
sens des carrés moyens E((b̃ − b) (b̃ − b)) est minimum.
La méthode de Henderson propose des équations permettant d’obtenir simultanément le meilleur estimateur linéaire sans biais [(BLUE) pour Best Linear Unbiaised Estimator] de β (notée β̂ équivalente au maximum de vraisemblance sous des hypothèses de normalité adéquates) et la prédiction BLUP
de b. Pour former ce système d’équations, la distribution jointe de Y et b est
maximisée en β et b. Ainsi, après avoir utilisé sa distribution pour construire
la fonction de vraisemblance, b joue alors le rôle de paramètre.
22
Compte tenu des hypothèses Hyp1 , Hyp2 et Hyp3 , la distribution jointe
s’écrit :
f (y, b) = (2πθ)−1/2 exp{
−1
0
0
[(Y − Xβ − Zb) (Y − Xβ − Zb) + b Gθ b]} (1.16)
2
Le calcul des estimateurs du maximum de vraisemblance des paramètres
du modèle (1.14) se réalise selon une procédure itérative. A l’étape initiale
k = 0, il faut choisir des valeurs des composantes de la variance σ 2(0) =
(0)
0
(σε , θ(0) ) . A l’étape k, les estimateurs des coefficients des effets fixes β et
les coefficients des effets aléatoires b sont déduits à partir de ce système
d’équations normales qui sont déduit de l’équation (1.16) :


0

0
XX XZ
0
ZX

V (k)
2(k)
avec ũ(k) = θ(k) b̃(k) et V (k) = σε


β̃
(k)
ũ(k)
=
(k)
0
XY


0
ZY
(1.17)
0
In + ZGθ Z .
Ces équations sont souvent appelées : équations du modèle mixte ou
[(MME) pour Mixed Model Equations] ou encore équations de Henderson
qui servent à déterminer les solutions du système (1.17). Les estimateurs du
maximum de vraisemblance de tous les paramètres du modèle (1.14) sont
déterminés itérativement selon les formules suivantes :
³ 0
´−1 ³ 0
´
−1
−1
β̂ (k+1) = X V (k) X
X V (k) Y
et
23
(1.18)
0
−1
b̂(k+1) = θ(k) Z V (k) (Y − X β̂ (k) ).
(1.19)
Dans le système (1.17), la matrice V dépend des valeurs σε2 et θ toutes
inconnues. L’estimation de ces composantes est donc nécessaire. A partir
des équations de maximum du vraisemblance déterminées par Searle et al.
(1992), on construit les procédures itératives suivantes :
0
θ
(k+1)
=
ũ(k) ũ(k)
et
(1.20)
y (y − X β̃ (k) − Z ũ(k) )
=
.
n
(1.21)
2(k+1)
n − tr(σε
V (k)−1 )
0
σε2(k+1)
°
°
Cette procédure itérative s’arrête si la condition °σ 2(k) − σ 2(k+1) ° < ² est
2(k)
vérifiée, avec σ 2(k) = (σε
0
, θ(k) ) et ² est un seuil de précision donné.
La procédure d’estimation alterne alors entre :
1-pour des valeurs de σ 2 connues, la résolution d’équations (1.18) et (1.19).
2-pour des valeurs de β et b, la résolution d’équations (1.20) et (1.21).
1.3.2
La méthode du maximum de vraisemblance robuste
La méthode d’estimation du modèle linéaire à effets aléatoires présentée
dans la section précédente n’est pas résistante aux observations aberrantes.
En fait, La fonction objective du maximum de vraisemblance est une fonction
24
croissante des carrées de résidus définis par les différences entre les observations réelles et les ajustements estimés. Par conséquent, les points aberrants
sont les observations qui ont des résidus arbitrairement élevés. Ces points
peuvent avoir une influence infiniment forte sur l’estimation du maximum de
vraisemblance. Pour surmonter ce problème, Rocke (1991) et Fellner (1986)
ont proposé d’utiliser les estimateurs robustes. Quelques améliorations de ces
estimateurs et des études comparatives par la méthode de Monte Carlo ont
été réalisées par Huggins (1993) et Richardson (1997).
Sous l’hypothèse que les effets aléatoires suivent la loi Normale N (0, θIn )
et que les termes des erreurs suivent la loi Normale N (0, σε2 In ), la fonction de
log- vraisemblance du modèle linéaire à effets aléatoires a la forme suivante :
0
− 2L(γ; Y ) = −n ln(2π) − ln(det V ) − εε ,
(1.22)
où ε = V −1/2 (Y − Xβ) est le résidu standardisé.
Selon l’approche de Huggins (1993), une estimation robuste consiste à
remplacer la fonction quadratique de ε par une fonction bornée qui croit lentement afin de bondir l’influence des observations aberrantes. Par conséquent,
la fonction de log -vraisemblance robuste est donnée par :
− 2η(γ; Y ) = ln(2π) − κ1 ln(det V ) − ρ(ε),
(1.23)
où κ1 = E(εψ(ε)) est un facteur de correction d’uniformité. Par exemple, si
ε suit la loi Normale standard alors κ1 = Pr(|ε| ≤ c).
25
Pour le choix de la fonction ρ, nous adoptons cette fonction proposée par
Huber (1981) :


ρ(ε) =
1 2
ε
2
si |ε| ≤ c
(1.24)
 c |ε| − 1 c2 si |ε| > c
2
Avec c est une constante fixée.
Un estimateur robuste de paramètre β peut être déterminé par l’algorithme de Newton-Raphson en utilisant les dérivées premières et secondes de
la fonction du log-vraisemblance (1.23). Mathématiquement, l’équation de
Newton-Raphson s’écrit :
·
β
avec
(h+1)
∂ log η
∂β
=β
(h)
∂ 2 log η(γ, y)
−
∂β∂β 0
·
¸−1
β=β (h)
∂ log η(γ, y)
∗
∂β
∂ 2 log η
∂β∂β 0
0
= X V −1/2 ψ[V −1/2 (y − Xβ)] et
¸0
(1.25)
β=β (h)
0
= X V −1/2 ΛV −1/2 où Λ est
une matrice diagonale composée par λii = 1 si |ε| ≤ c et λii = 0 sinon.
Les estimateurs du maximum de vraisemblance robustes des composantes
de la variance ont été développés par Richardson et Welsh (1995) selon ces
deux formules :
0
θ
(k+1)
=
ψ(ũ(k) ) ũ(k)
2(k+1)
κ1 (n − tr(σε
26
V (k)−1 ))
et
(1.26)
0
σε2(k+1)
ψ(y − X β̃ (k) − Z ũ(k) ) y
=
κ1 n
(1.27)
avec ψ(ε) est la dérivée de la fonction d’Huber ρ est égale à :



−c


ψ(ε) =
ε



 c
si ε ≤ c
(1.28)
si ε ∈ [−c, c]
si ε ≥ c
La figure (1.1) est une présentation graphique de la fonction ψ(ε) pour
c = 1.5.
fonction de Huber pour c=1.5
2
1.5
1
ψ(ε)
0.5
0
−0.5
−1
−1.5
−2
−6
−4
−2
0
ε
2
Fig. 1.1 – Fonction d’Huber pour c=1.5
27
4
6
1.4
Diagnostic du modèle linéaire à effets aléatoires
Dans l’analyse économétrique, la détection des observations aberrantes
est une étape importante pour obtenir le meilleur ajustement des données.
Diverses approches de diagnostic ont été proposées par des chercheurs tels
que Cook et Weisberg (1983), Beckman et al. (1987) et Chatterjee et Hadi
(1986). La distance de Cook est un outil statistique de diagnostic très utilisée
vu sa simplicité. Cette distance a été introduite par Cook (1977) pour mesurer l’effet de chaque observation sur l’estimation obtenue du modèle linéaire
simple. L’une des extensions de la distance de Cook a été développée par
Christensen et al. (1992) pour identifier si, à un instant donné, une observation individuelle est susceptible d’influencer les estimateurs des paramètres
du modèle linéaire à effets aléatoires.
L’approche de Cook (1977) consiste à calculer la distance entre deux valeurs de l’estimateur β̂ obtenues avec et sans la iième observation afin de
mesurer l’influence d’une telle observation sur l’estimateur β̂ d’un modèle
linéaire simple. Cependant, pour le modèle linéaire à effets aléatoires l’élimination des observations individuelles n’est pas appropriée. Par conséquent, il
est naturel de considérer l’élimination des groupes d’observations. En suivant
l’approche de Cook (1977), nous définissons la distance CDi (β̂) comme un
indicateur pour évaluer l’effet de l’élimination d’un groupe d’observations sur
le paramètre estimé β̂ :
Définition 1.4.1. En notant par β̂ l’estimateur par la méthode du maximum
de vraisemblance du modèle (1.14) et par β̂(i) l’estimateur par la méthode du
28
maximum de vraisemblance sur des données sans le iième groupe d’observations, alors la distance CDi (β̂) est définie par l’équation suivante :
´0 ³ 0
´³
´
1³
−1
CDi (β̂) =
β̂ − β̂(i)
X V X β̂ − β̂(i) .
p
(1.29)
Pour déterminer la valeur de β̂(i) sans refaire le calcul d’estimation, Banerjee et Frees (1997) ont développé le théorème suivant :
0
1/2
−1/2
0
Théoréme 1.4.1. En considérant X̃ = V 1/2 X; X̃i = Vi Xi , Ẽi = Vi
Ei
³
´−1
0
0
tel que E = Y − Xβ et H̃i = X̃i X̃ X̃
X̃i pour i = 1, ..., N des transformations de variables du modèle (1.14), alors β̂(i) s’écrit sous la forme
suivante :
³
0
β̂(i) = β̂ − X̃ X̃
´−1
¯
¯
X̃i (I − H̃i )Ẽi ¯β = β̂, bi = b̂i
0
(1.30)
Soient Xi = (xi1 , ..., xin ) une ligne de la matrice X correspondante au iième
0
groupe d’observations, X = (Xi , X(i) ) une partition de la matrice X et Y =
0
(Yi , Y(i) ) une partition du vecteur Y ainsi on obtient
0
0
0
0
0
0
X(i) V(i) X(i) = X V X − Xi Vi Xi et X(i) V(i) Y(i) = X V Y − Xi Vi Yi .
En appliquant, la formule de l’inverse de matrice citée par Searle (1982),
on obtient :
0
0
0
0
0
(X(i) V(i) X(i) )−1 = (X V X)−1 + (X V X)−1 Xi (Vi−1 + Xi (X V X)−1 Xi )−1 Xi .
(1.31)
29
0
0
1/2
0
0
−1/2
En supposant que X̃ = V 1/2 X = (X̃1 , ..., X̃N ) ; X̃i = Vi Xi , Ẽi = Vi
Ei
³
´−1
0
0
et H̃i = X̃i X̃ X̃
X̃i pour i = 1, ..., N alors l’équation (1.31) devient :
0
−1
(X(i) V(i) X(i) )
³
0
= X̃ X̃
´−1
³
0
+ X̃ X̃
´−1
0
−1
³
0
X̃i (I − H̃i ) X̃i X̃ X̃
´−1
. (1.32)
L’estimateur β̂(i) est calculé en utilisant le développement suivant :
³
´−1 0
0
X(i) V(i) X(i)
(X(i) V(i) Y(i) )
·³
i
´−1 ³ 0 ´−1 0
³ 0 ´−1 ¸ h 0
0
0
−1
X̃ X̃
+ X̃ X̃
X̃i (I − H̃i ) X̃i X̃ X̃
X̃ Ỹ − X̃i Ỹi
=
³ 0 ´−1 0
= β̂ − X̃ X̃
X̃i (I − H̃i )−1 Ẽi .
(1.33)
β̂(i) =
En remplaçant l’équation (1.33) dans l’équation (1.30), on obtient cette
formule pratique permettant de calculer la distance de Cook :
0
CDi (β̂) = Ẽi (I − H̃i )−1 H̃i (I − H̃i )−1 Ẽi .
(1.34)
L’équation (1.34) de la distance de Cook est semblable à celle du modèle
de la régression linéaire multivariée. D’un autre coté, les valeurs calculées de
CDi (β̂) peuvent être comparées à des points d’une distribution Chi-deux χ2p
avec un calibrage approximatif.
30
1.5
Application : l’analyse de niveau du cholestérol
L’analyse des données groupées par le modèle linéaire à effets aléatoires
est une technique assez récente. Nous avons effectué des recherches dans la
littérature qui nous ont incité à conclure qu’il n’existe pas d’étude de cas bien
approfondie. Notre démarche dans l’analyse des données groupées est totalement empirique. En résumé, nous distinguerons trois étapes dans la démarche
que nous proposons. Au niveau de la première étape, nous introduisons les
facteurs fixes et les facteurs aléatoires dans le modèle. Ensuite, nous passons
à l’estimation des paramètres du modèle par la méthode du maximum de
vraisemblance. Au niveau de la troisième étape, les observations aberrantes
ou atypiques sont détectées par l’analyse de la statistique de la distance de
Cook de chaque groupe.
L’utilité du modèle linéaire à effets aléatoires sera illustrée par une application concernant l’analyse des données du niveau de cholestérol collectées
par Zhang et al. (1998). Ainsi, nous traitons un modèle linéaire à un seul
effet aléatoire ajusté aux données du niveau du cholestérol.
1.5.1
La structure des données
Dans le but d’étudier les caractéristiques du cholestérol, Zhang et al.
(1998) ont enregistré le niveau du cholestérol de 2634 participants tous les
2 ans pour une période de 10 ans. Dans notre étude, comme un exemple
illustratif, nous utilisons seulement les données de 200 individus tirées aléatoirement. L’objectif de cette étude est de déterminer les facteurs qui ont un
impact sur le niveau du cholestérol. Cette étude vise à trouver des éléments
31
de réponses à ces questions :
1. Quel est le taux moyen de variation du niveau du cholestérol en fonction
de l’âge ?
2. Est ce que la variation du niveau de cholestérol dépend du sexe ?
3. Si le niveau du cholestérol dépend du sexe, voir si c’est élevé pour les
hommes que pour les femmes ?
500
450
400
cholsterol
350
300
250
200
150
100
0
1
2
3
4
5
Années
6
7
8
9
10
Fig. 1.2 – Le niveau du cholestérol de 200 individus observé tous les deux
ans sur une période de dix ans
La figure (1.2) indique bien que :
-Chaque individu a en moyenne cinq observations (par contre dans une étude
transversale chaque individu n’a qu’une seule observation).
-Les données ne sont pas balancées. Quelques individus ont des observations
manquantes.
32
- Chaque individu a sa propre ligne de trajectoire avec probablement des
constantes différentes, ce qui implique deux sources de variations : des variations individuelles et des variation temporelles.
- La tendance du niveau de cholestérol varie linéairement en fonction du
temps pour la plupart des individus.
-Le niveau du cholestérol enregistré au temps initial se diffère d’un individu
à un autre. L’existence d’une différence peut être expliquée par un facteur
de hétérogénéité modélisable par un effet aléatoire.
1.5.2
Le modèle étudié
Soit yit le niveau du cholestérol observé pour l’individu i = 1, .., 200 mesuré à la date t = (0, 2, 4, 6, 8, 10). D’après la figure (1.2), nous constatons
que le niveau du cholestérol varie linéairement en fonction du temps fini pour
chaque individu. Par conséquent, nous supposons que yit vérifie le modèle de
régression linéaire suivant :
yit = ai + β t + εit ,
(1.35)
Étant donné que chaque individu a sa propre ligne de trajectoire avec
probablement des constantes différentes, il existe alors deux sources de variations : intergroupes et intragroupes. Nous pouvons considérer le coefficient
ai comme une variable aléatoire (puisque l’individu est un sujet aléatoire tiré
de la population). L’effet aléatoire ai traduit le fait que le niveau du cholestérol au temps initial varie d’un individu à un autre. On suppose d’une
part l’existence d’une liaison entre le niveau de cholestérol au temps initial
et les variables sexe et age. Ainsi, la variable aléatoire ai peut être reformulée
33
comme suit :
ai = β0 + sexei β1 + âgei β2 + bi ,
(1.36)
où ai représente le niveau du cholestérol réel mais inaperçu de l’individu i, β0
est le niveau moyen du cholestérol de toute la population enregistré au temps
initial t = 0 et bi est le niveau du cholestérol spécifique de l’individu i. Nous
supposons que bi suit la loi Normale N (0, σb2 I). En substituant l’expression
(1.36) dans le modèle (1.35), nous obtenons :
yit = β0 + β1 sexei + β2 âgei + β3 t + bi + εit ,
(1.37)
où β1 et β2 représente respectivement l’effet du sexe et l’effet de l’âge sur le
niveau de cholestérol.
1.5.3
Les résultats d’estimation
Le modèle de régression à effet aléatoire (1.37) ajusté aux données du
niveau du cholestérol a été estimé par la méthode du maximum de vraisemblance en utilisant la procédure (lme) du logiciel R (Voir annexe 1). Afin
d’examiner l’influence d’un individu sur les estimations des paramètres du
modèle, nous avons calculé les statistiques de Cook selon la formule (1.34).
Les nuages des points de la distance du Cook du modèle (1.34) sont présentés
dans la figure (1.3).
Les individus 4, 130 et 195 ont les valeurs de la distance du Cook les plus
34
−5
16
x 10
14
12
CDi(β)
10
8
6
4
2
0
−2
0
50
100
Individus
150
200
Fig. 1.3 – Les nuages des points des statistiques de la distance du Cook du
modèle (1.37)
élevées. Donc, ils peuvent être considérés comme les individus plus influents
(ou individus aberrants). Par la suite, il faut les éliminer de la base de données
et recalculer les estimations des paramètres.
La table (1.2) récapitule les résultats d’estimation des paramètres de
l’équation du modèle (1.37) par la méthode du maximum de vraisemblance
après l’élimination des points aberrants.
Le coefficient du constant fixe β̂0 = 157.563 représente une estimation du
35
Estimation
Écart type t-valeurs p-valeurs
β0
157.563
15.208
10.360
0.000
β1
-1.292
5.536
-0.233
0.815
β2
1.498
0.351
4.262
0.000
β3
2.816
0.202
13.903
0.000
Tab. 1.2 – Les paramètres estimés par la méthode du maximum de vraisemblance
niveau minimal du cholestérol. Après l’ajustement du niveau de cholestérol yij
au sexe, nous constatons que le niveau du cholestérol des mâles est inférieur à
celui des femelles, la différence est égale à 1.292 unités. Après l’ajustement du
niveau du cholestérol yij à l’âge, nous remarquons que l’accroissement moyen
de l’âge d’un an engendre une augmentation de 1.498 unités du niveau du
cholestérol.
En ce qui concerne l’estimation de l’effet aléatoire, nous avons obtenu
l’écart type de l’effet aléatoire σb = 37.492. Ce qui indique que le niveau
du cholestérol varie d’un individu à un autre avec une amplitude qui peut
atteindre 38 unités.
La table (1.3) récapitule les résultats d’estimation du modèle (1.37) par
la méthode du maximum de vraisemblance robuste. Pour les estimateurs robustes, nous avons utilisé la fonction d’Huber avec deux valeurs : pour l’estimation du paramètre de location c = 1.34 et pour l’estimation du paramètre
de l’échelle c = 0.2.
D’après les résultats énoncés dans la table (1.3), nous constatons que les
paramètres estimés par la méthode robuste ont des valeurs proches à celles
36
Estimation
Écart type t-valeurs p-valeurs
β0
142.343
13.107
11.360
0.000
β1
-1.242
4.436
-0.833
0.615
β2
1.521
0.251
3.392
0.000
β3
2.731
0.201
12.203
0.000
Tab. 1.3 – Les paramètres estimés par la méthode du maximum de vraisemblance robuste
estimées par la méthode non robuste. Ceci, peut être expliqué par le fait que
le nombre des points aberrants est faible comme l’indique la figure (1.3).
1.6
Conclusion
Dans ce chapitre, nous avons présenté le modèle linéaire à effets aléatoires
qui permet de traiter des données groupées continues tout en mettant l’accent sur l’apport de la méthode d’estimation du maximum de vraisemblance
robuste. Pour minimiser l’influence des observations aberrantes, nous avons
utilisé la fonction de Huber. Cependant, il existe des autres choix alternatifs. Nous pouvons citer, à titre d’exemple, la fonction du bisquare de Tukey
Huggins (1993) qui pourra être un exercice pour faire une comparaison de
l’efficience théorique ou empirique de divers choix. Nous avons aussi développé une méthode de diagnostic pour le modèle linéaire à effets aléatoires.
En fait, nous avons examiné l’effet de l’élimination des groupes d’observations
sur les paramètres du modèle linéaire à effet aléatoires.
Lorsqu’il s’agit de modéliser des phénomènes naturels, l’utilisation du
modèle linéaire et de l’hypothèse de normalité des erreurs s’impose dans
de nombreuses situations. L’utilisation du modèle linéaire, dans le cas de
37
variable expliquée longitudinale et qualitative peut engendre une mauvaise
spécification. Ainsi, afin d’établir une analyse plus satisfaisante d’une variable longitudinale et qualitative, il est approprié de recourir au modèle de
régression logistique à effets aléatoires qui sera présenté dans les chapitres
suivants.
38
Chapitre 2
Modèles linéaires semi
paramétriques à effets aléatoires
Parfois, la représentation graphique du nuage de points des variables indique que le lien entre les variables n’est pas linéaire. Le choix d’un modèle
paramétrique n’est souvent qu’un procédé simplificateur commode, amenant
des erreurs de spécification. Pour s’affranchir du cadre paramétrique, l’idée
naturelle est d’utiliser un modèle plus large, " modèle non paramétrique ",
où les variables explicatives sont caractérisées par des fonctions. Identifier
la relation de causalité qui régit les variables revient dès lors à estimer ces
fonctions. Cette approche a connu un développement important durant les
trente dernières années mais s’est finalement révélée décevante en pratique,
car les estimateurs proposés ne deviennent performants qu’en présence de très
grands échantillons, notamment lorsqu’on veut les utiliser pour identifier les
modèles de régression multiple.
Pour pallier au problème précédent, on introduit une méthode de "réduction de dimension". Développée depuis une dizaine d’années, elle a pour
39
but de rendre plus performantes les techniques non paramétriques d’estimation d’une régression en postulant une modélisation semi-paramétrique. Par
conséquent, on échappe à la nécessité de disposer de très gros échantillons
de variables continues pour une mise en oeuvre pratique performante. Ce
chapitre introduira le modèle linéaire semi paramétrique à effets aléatoires et
la méthode d’estimation de la fonction de régression définie, en détaillant sa
performance.
2.1
La spécification du modèle linéaire semi paramétrique à effets aléatoires
Le modèle linéaire semi paramétrique à effets aléatoires est une extension
du modèle linéaire à effets aléatoires. Ce nouveau modèle permet de modéliser les relations de causalité entre les variables longitudinales. Ce nouveau
modèle permet d’éviter la nécessité de disposer d’un échantillon de variables
continues de grande taille pour une mise en oeuvre pratique performante.
En plus, il fournit une formulation flexible pour modéliser la dépendance des
variables longitudinales..
Le modèle linéaire semi paramétrique à effets aléatoires se compose de
deux types de fonctions. La première est supposée une fonction linéaire paramétrique, alors que la deuxième est supposée une fonction inconnue non
paramétrique puisque qu’on ignore la forme de la régression entre la variable
explicative X et la variable expliqué Y .
Considérons une étude de causalité entre les variables Y , X et S. Soit
yij une réalisation de la variable expliquée continue Y pour la j ième obser40
vation (j = 1, ..., n) du iième groupe (i = 1, .., N ), sij vecteur de taille p des
réalisations de variables explicatives S, xij la valeur prise par la composante
de la matrice X et zij un vecteur de taille q associés aux effets aléatoires b.
Le vecteur sij est supposé avoir une relation linéaire avec yij . Par contre, la
réalisation xij est transformée par une fonction inconnue étant donné qu’on
ignore la forme de régression entre X et Y . Mathématiquement, l’observation yij dépend de sij et xij à travers ce modèle semi paramétrique à effets
aléatoires :
0
0
yij = f (xij ) + sij α + zij bi + εij ,
(2.1)
où α est un vecteur de taille p des coefficients de régression inconnus, f (xij )
est une fonction de lissage de xij deux fois différentiable, bi est un vecteur
des effets aléatoires individuels et εij est un bruit aléatoire.
Les cas spéciaux du modèle (2.1) peuvent être d’intérêt pour réaliser
quelques applications. Si les variables sont mesurées pour un seul groupe,
le modèle (2.1) se réduit à un modèle partiellement linéaire tel qu’il a été
considéré par Heckman (1986), Speckman (1988) et par He et Shi (1996). Si
la fonction f est éliminée, le modèle (2.1) devient un modèle linéaire à un
seul effet aléatoire, tel qu’il a été présenté dans le premier chapitre.
Dans le modèle (2.1), la fonction f est un opérateur de lissage qui se définit
formellement comme une fonction permettant de passer d’une représentation
discrète d’une fonction [un nuage de points (xi , yi ) dans (R × R)] à une
représentation continue de celle-ci : x 7→ y = f (x) où f est une fonction
continue de R à valeurs dans R. Ainsi, f est une fonction réelle possédant à
41
la fois des propriétés d’approximation, d’interpolation et de lissage :
(a) approximation : en toute valeur xi dans l’échantillon, la valeur évaluée
f (xi ) doit être proche de la valeur yi .
(b) interpolation : en toute nouvelle valeur x non incluse dans l’échantillon,
la valeur évaluée f (x) existe et doit tenir compte des valeurs y aux points
voisins.
(c) lissage : la fonction f (x) doit posséder un degré de régularité suffisant.
Par ailleurs, placé dans un contexte de statistique inférentielle, afin de
construire un modèle non paramétrique, l’expérimentateur choisit généralement un espace approprié de fonctions auquel f est censée appartenir. Ce
choix est motivé par des propriétés de lissage de la fonction de régression.
Les données sont utilisées pour la détermination de cette fonction inconnue.
La fonction de spline est un opérateur de lissage permettant de déterminer
la forme de la fonction f . Par définition, la fonction de spline est une collection
des polynômes par morceaux. Mathématiquement, on désigne par {κ1 , ..., κK }
un ensemble de K points dans un intervalle [a, b]. Ces points κk sont appelés
des noeuds permettant de construire des bases. Il y a de nombreuses façons
de définir des bases de fonctions de splines. Nous exposons à présent les bases
de fonctions de B-splines et les bases de fonctions puissances tronquées.
2.1.1
Les bases de fonctions de B-splines
DeBoor (1978) a défini un espace composé par des morceaux de polynômes
connectés d’une manière spéciale et qu’il a appelé les B-splines . Ces bases
prennent des valeurs positives sur des intervalles adjacents de la partition et
42
des valeurs nulles pour les autres intervalles. En plus, les bases des fonctions
de B-splines ne dépendent pas de la variable expliquée. Par contre, elles
dépendent du nombre et de la position de noeuds (nous fixons généralement
des intervalles équidistants et de degré d’ordre trois).
DeBoor (1978) a écrit un algorithme pour déterminer les bases des fonctions de B-splines du degré quelconque à partir des B-splines du degré inférieur. Techniquement, une base des fonctions de B-splines d’ordre p est un
polynôme de degré (p − 1). Étant donné un ordre fixé p, la fonction de Bspline d’ordre p, notée par Bk,p (x), k = p−1, ..., K se construit récursivement
à partir des fonctions de base B-spline Bk,p−1 (x) d’ordre p − 1. La formule
de récurrence est basée sur les différences divisées et s’écrit sous la forme
suivante :
Bk,p (x) =
x − κk
κk − x
Bk,p−1 (x) +
Bk+1,p−1 (x)
κk+p−1 − κk
κk+p − κk+1
(2.2)
L’utilisation de cette formule maniable, nécessite la connaissance du point
initial dans la récurrence de la base des fonctions de B-splines de premier
ordre Bk,1 qui par convention est défini comme une fonction indicatrice :

 1 si x ∈ [κ , κ ]
k
k+1
Bk,1 (x) =

0 sinon
(2.3)
En utilisant les équations (2.2) et (2.3), il est facile d’évaluer une base de
fonctions B-splines donnée à un point quelconque x ∈ [κk , κk+1 ].
43
Nous remarquons que la fonction des bases B-splines vérifie les propriétés
souhaitables du support de n’importe quelle base pour l’espace des splines.
D’ailleurs, la fonction f dans le modèle (2.1) peut être construite par la
combinaison linéaire des bases de fonction B-spline.
f (xij ) =
K
X
ak Bk (xij ) = B(xi )a
(2.4)
k=1
où B(xi ) est la iième ligne de la matrice des bases de fonction B-splines et
0
a = (a1 , .., aK ) est un vecteur des coefficients inconnus associés aux bases.
2.1.2
Les bases de fonctions puissances tronquées
Les bases de fonctions puissances tronquées sont des bases relativement
intuitives de fonctions de spline. En utilisant le théorème de Taylor, la fonction de lissage f (x) est générée sous la forme suivante :
f (x) =
H
X
h
δh x +
h=1
K
X
ak (x − κk )+ ,
avec κk < x < κk+1
(2.5)
k=1
où x+ = max(0; x) et κ1 , ..., κK est un ensemble de noeuds distincts. Le
nombre de noeuds K doit être assez élevé pour assurer l’exigibilité de la
courbe. Les noeuds sont choisis comme quantiles de x avec les probabilités
1/(K + 1), ..., K/(K + 1).
En remplaçant l’équation (2.5) dans le modèle (2.1), nous obtenons un
modèle totalement paramétrique composé par les bases de fonctions puissances tronquées :
44
yij =
H
X
h
δh x +
h=1
K
X
0
0
ak (xij − κk )+ + sij α + zij bi + εij
(2.6)
k=1
Nous désignons par :
0
a) yi = (yi1 , .., yin ) un vecteur composé des variables expliquées correspondant à l’individu
i,

(x − κ1 )+ ... (xi1 − κK )+
 i1

b) Bi = 
:
:

(xin − κ1 )+ ... (xin − κK )+
composée par des bases de l’individu i,



 une matrice de dimension (n, K)

0
c) Zi = (1, ..., 1) un vecteur d’incidence de taille n associé à l’effet aléatoire
de l’individu i.
0
0
0
0
Soient Y = (y1 , ..., yN ) , b = (b1 , ..., bN ) , a = (a1 , ..., ak ) , β = (δ0 , ..., δh , α)
0
et ε = (ε1 , ..., εN ) les vecteurs obtenus à partir de l’empilement des N vecteurs. Soient X = (x, ..., xh , s), B = (B1 , ..., BN ) les matrices obtenues à
partir de l’empilement des N matrices et Z est une matrice diagonale dont
les composantes sont Z1 ,...,ZN , alors le modèle (2.6) s’écrit sous la forme
matricielle suivante :
Y = Xβ + Ba + Zb + ε
(2.7)
Le modèle semi paramétrique (2.1) a été transformé sous la forme d’un
modèle linéaire totalement paramétrique (2.7) en utilisant les bases de fonctions puissances tronquées. Dans le modèle (2.7), les paramètres inconnus à
estimer sont β, a et b.
45
2.2
Estimation du modèle semi paramétrique à
effets aléatoires
Dans cette section, nous visons à déterminer une fonction de lissage qui
fournit un meilleur ajustement des variables observées. Pour réaliser cette
tache, nous présentons une démarche qui consiste à transformer la fonction
de lissage sous la forme d’un polynôme de degré fixe, en utilisant les bases
de fonctions puissances tronquées. L’étape suivante consiste à estimer les
coefficients de lissage par la méthode du prédicteur linéaire sans biais tel
qu’il a été présenté dans le premier chapitre.
2.2.1
la méthode du maximum de vraisemblance pénalisée
Dans la section précédente, le modèle semi paramétrique (2.1) a été transformé sous la forme d’un modèle linéaire totalement paramétrique en utilisant
les bases de fonctions puissances tronquées. On propose d’estimer les paramètres du modèle transformé (2.7) par la méthode du maximum de vraisemblance. Étant donné le vecteur d’erreur ε suit la loi Normale N (0, σε2 I) et
l’effet aléatoire b suit la loi Normale N (0, θI), la fonction du log- vraisemblance des paramètres β et a est :
l(β, a) = −
0
n
1
1 0
− 2 (Y − Xβ − Ba) (Y − Xβ − Ba)− b Gθ b
2 2σε
2
(2.8)
Néanmoins, un ajustement linéaire ne sera pas généralement optimal en
terme de réduction des carrés de déviations des données observées. Afin de
46
tenir compte d’une flexibilité suffisante de la fonction f et évitant la surestimation, Eilers et Marx (1996) ont proposé d’utiliser les fonctions de bases
pénalisées. Ainsi, ils ont ajouté une fonction de pénalité à la fonction de
vraisemblance :
Z ³
L(β, a) = l(β, a) + λ
´2
00
f (x) dx
(2.9)
où λ est un paramètre de lissage qui détermine l’importance relative de la
qualité de lissage des données observées. Dans la pratique, le paramètre λ
permet à l’utilisateur de contrôler le niveau de régularité souhaité.
Eilers et Marx (1998) ont développé une nouvelle forme du terme de
pénalité en calculant les différences de coefficients des bases adjacents. Ainsi,
la nouvelle forme de la pénalité est la suivante :
Z ³
K
´2
X
¡ 2 ¢2
f (x) dx =
∆ ak
00
(2.10)
k=1
où ∆ak = ak − ak−1 est l’opérateur de la différence première et
∆2 ak = ∆(∆ak ) = ak − 2ak−1 + ak−2 est l’opérateur de la différence seconde.
Sous la forme matricielle, la différence d’ordre 2 peut être écrite
∆2 a = D2 a où D2 est une matrice diagonale de l’opérateur différence. Les
estimateurs du maximum de vraisemblance pénalisés des paramètres β et a
sont obtenus par la maximisation de la fonction suivante :
47
λ 0
L(β, a) = l(β, a) − a D0 Da
2
(2.11)
En divisant l’équation (2.11) par σε2 et en supposant que a ∼ N (0, τ I)
avec τ = σε2 /λ, l’estimation du modèle semi paramétrique revient à estimer
un modèle linéaire à effets aléatoires. Ainsi, le modèle semi paramétrique à
effets aléatoires (2.1) peut être traité comme un modèle linéaire à effets aléatoires, puisque que le terme de pénalité dans le log- vraisemblance pénalisé
(2.11) a une forme quadratique. Cette représentation par le modèle linéaire à
effets aléatoires est une technique simple et utile pour l’estimation au même
temps des paramètres de lissage et des composantes de la variance. Plus des
détails se trouve dans l’article de Wand et Ngo (2003), qui ont discuté la
représentation du modèle linéaire à effets aléatoires par des bases pénalisées.
En suivant l’approche de Wand et Ngo (2003), le modèle transformé (2.7)
est traité comme un modèle linéaire à effets aléatoires puisque qu’on suppose
que le vecteur a est un vecteur d’effets aléatoires dont la distribution est la
loi Normale N (0, τ I) alors que b est un vecteur d’effets aléatoires qui suit
la loi Normale N (0, σb2 I). Dans le modèle (2.7), les paramètres inconnus β,
a et b seront estimés en utilisant la méthode de maximum de vraisemblance
et précisément la méthode de Henderson telle que ça a été décrite dans le
chapitre précédent.
La courbe de f (x) peut être construite par l’association des matrices de
conception avec leurs coefficients estimés. La fonction f est alors estimée
par :
48
fˆ(x) = X β̂ + Bâ + Z b̂
(2.12)
où β̂, b̂ et â sont les estimateurs de β, b et a par la méthode de maximum
de vraisemblance. La matrice de variabilité des composantes linéaires et de
lissage peut être calculée par :

C = cov 
2
2
b1
bk

β̂
â

 = σε2 
0
0
XX
0
XZ


0
Z X Z Z +F
(2.13)
où F = diag(In, σσ2ε In , .., σσ2ε In ), voir Carroll et Raymond (2003). L’intervalle
de confiance pour une valeur de f en un point spécifique tk et pour un nombre
élevé d’observations, se calcule alors comme suit :
fˆ(tk ) ± t1− α2
q
q
0
ˆ
ˆ
(f (tk ) − f (tk )) = f (tk ) ± t1− α2 ltk Ĉltk
(2.14)
où ltk est la ligne correspondante à [X|Z], Ĉ est construit en utilisant les
variances estimées et t1− α2 est le quantile de la loi Student à n degrés de
liberté correspondant à la probabilité 1 − α2 .
2.3
Le diagnostic du modèle semi paramétrique
à effets aléatoires
Nous commençons tout d’abord par rappeler la formule de la distance
de Cook pour un modèle linéaire classique : Y = Zγ + ε, ou Y est un
49
vecteur de dimension n de la variable expliquée, Z est une matrice (n, q)
composée par les variables explicatives, γ est un vecteur de dimension q
des coefficients inconnus et ε est un vecteur de dimension n des variables
aléatoires indépendantes ayant la moyenne nulle et la matrice de variance
covariance σ 2 In . Notons par Y(i) et Z(i) le vecteur Y et la matrice Z après
l’élimination de l’observation i.
Soit γ̂ = (Z T Z)−1 Z T Y l’estimateur des moindres carrés de γ et Ŷ = HY ,
où H = Z(Z T Z)−1 Z T est la matrice chapeau. Soit s2 = eT e/(n − q), où e =
Y − Ŷ est un vecteur résiduel. La distance de Cook pour mesurer l’influence
de la iième observation est définie par :
1
(γ̂ − γ̂(i) )T Z T Z(γ̂ − γ̂(i) )
qs2
(2.15)
γ̂ − γ̂(i) = (Z T Z)−1 Zi ei /(1 − hii )
(2.16)
Di =
En utilisant le fait que
et en écrivant hij = ZiT (Z T Z)−1 Zj , l’équation (2.15) devient :
1
e2i hii
Di = 2
qs (1 − hii )2
(2.17)
Pour définir la distance de Cook de la fonction f (xij ) dans le modèle
(2.1), nous considérons le modèle (2.7) composé par les bases B-splines. Nous
définissons â(k) l’estimateur de a où le k ième individu est éliminé. Soit fˆ(k) (λ)
50
la fonction estimée par B-spline f (λ) tel que le k ième individu est éliminé. Si
on élimine l’individu k, le changement de la courbe de la fonction f dans le
modèle (2.1) est mesuré par la distance de Cook :
°2
1 °
°
°ˆ
ˆ
Ck (f ) =
°f (λ) − f(k) (λ)°
K
1
0
0
=
(â(λ) − â(k) (λ)) B B(â(λ) − â(k) (λ))
K
0
0
(2.18)
0
où â(k) (λ) = (B(k) B(k) + λDd Dd )−1 B(k) y(k) est l’estimateur du vecteur a sachant que le k ième individu est éliminé. Soit B(k) une matrice où la k ième ligne
de la matrice B est éliminée et Y(k) un vecteur sans la k ième composante. En
appliquant l’approche de Cook, nous trouvons :
0
0
â(λ) − â(k) (λ) = (B B)−1 Bk (I − Pk )−1 ek
(2.19)
où ek = (ek1 , ..., ekn )T tel que ek1 = yk1 − ŷk1 est un terme de résidus et
0
0
0
Pk = Bk (B B)−1 Bk et Bk = (Bk1 , ..., Bkn ) . En remplaçant l’équation (2.19)
dans l’équation (2.18), nous obtenons une formule simple de la distance du
Cook de la fonction f :
Ck (f ) =
1 0
e (I − Pk )−1 Pk (I − Pk )−1 ek
K k
51
(2.20)
2.4
Le test polynomial
Comme la fonction de lissage a été approximée par un polynôme de degré
h, il parait naturel de tester l’adéquation du choix de ce degré pour modéliser la relation de causalité entre ces variables. Le test polynomial est une
technique statistique permettant de choisir une forme particulière d’ajustement d’une variable expliquée étant donné les variables explicatives et par
suite de vérifier le type de la relation appropriée entre les variables (linéaire,
quadratique).
Le test polynomial est souvent utilisé pour vérifier si la relation de causalité entre les variables d’un phénomène étudié est adéquatement modélisée par un polynôme du degré donné. En d’autre terme, le test polynomial
consiste à examiner si la fonction non paramétrique f (x) dans le modèle
(2.1) est un polynôme de degré h. Par exemple, si h = 1, il s’agit de vérifier
si f (x) est une fonction paramétrique linéaire. Selon la spécification de l’alternative non paramétrique et de la nature de l’opérateur de lissage utilisé,
diverses statistiques ont été développées pour tester l’adéquation de la forme
paramétrique des effets des variables explicatives.
Dans la section précédente, nous avons transformé le modèle linéaire semi
paramétrique (2.1) à la structure du modèle linéaire à effets aléatoires totalement paramétrique composé par les fonctions de bases tronquées. La fonction
non paramétrique f (x) dans le modèle linéaire semi paramétrique (2.1) est un
polynôme du degré h si est seulement si a = 0. Ainsi, le degré du polynôme
est une proposition qui nécessite d’être vérifiée par un test d’hypothèse. Par
la suite tester si le degré du polynôme est égale à h revient à tester si la
composante de la variance τ est égale à zéro, selon ce corps d’hypothèse :
52
H0 : τ = 0 contre HA : τ > 0
(2.21)
Étant donné que le coefficient a dans le modèle (2.7) est un effet aléatoire
d’espérance nulle et de matrice variance- covariance τ I, l’hypothèse nulle H0
induit que tous les coefficients de lissage ak sont nuls. Ainsi, l’acceptation de
l’hypothèse nulle H0 permet de s’assurer que la fonction f (x) est un polynôme
de degré h.
Dans cette section, nous présentons le test du score asymptotique développé par Zhang et Lin (2003). Ensuite, nous révisons le test du rapport de
vraisemblance exact développé par Crainiceanu et al. (2005).
2.4.1
Le test du score asymptotique
Le test du score est un test paramétrique asymptotique associé généralement à la fonction de vraisemblance. En plus, le test du score consiste à
calculer une statistique en fonction des paramètres estimés sous l’hypothèse
nulle. Zhang et Lin (2003) ont développé une statistique du score pour tester
l’hypothèse nulle H0 : τ = 0. Cette statistique s’écrit sous la forme suivante :
¯
Uτ (γ̂) =
=
1
2
∂l(τ,γ;Y ) ¯
¯
∂τ
τ =0,γ=γ̂
©
0
0
0 ª¯
(Y − Xβ) V −1 BB V −1 (Y − Xβ) − tr(V −1 BB ) ¯γ=γ̂
(2.22)
où l(τ, γ; Y ) est la fonction de log-vraisemblance du modèle linéaire à effets
0
aléatoires (2.7),γ̂ = (β̂, θ̂, σ̂ε2 ) est un vecteur des paramètres du modèle (2.7)
estimés sous l’hypothèse nulle par la méthode du maximum de vraisemblance
53
0
et V = θZZ + σε2 I est une matrice de variance covariance de la variable
expliquée du modèle (2.7) estimé sous l’hypothèse nulle.
Afin d’étudier la distribution asymptotique de la statistique Uτ (γ̂), il suffit
d’écrire cette statistique sous la forme suivante :
0
Uτ (γ̂) = (Y − Xβ) M (Y − Xβ) − tr(V 1/2 M V 1/2 )
0
= ỹ V 1/2 M V 1/2 ỹ − tr(V 1/2 M V 1/2 )
0
tel que M = 12 V −1 BB V −1 et ỹ = V −1/2 (Y − Xβ)
Soient γ1 ≥ ... ≥ γr > 0 les valeurs propres ordonnées non nulles de
la matrice V 1/2 M V 1/2 et Ψ est une matrice diagonale, dont les éléments
diagonaux sont γi . Soit H une matrice de dimension (r, n) composée par
0
les vecteurs propres associés aux γi tel que HH = I, en supposant H ỹ =
0
(Z1 , ..., Zr ) , on obtient alors :
0
0
Uτ (ψ̂) = ỹ HΨH ỹ − tr(Ψ) =
r
X
γi (Zi2 − 1)
(2.23)
i=1
Comme Zi sont des variables aléatoires indépendantes suivant la loi Normale standard alors la statistique Uτ (ψ̂) est approximée par la combinaison
des lois de Chi-deux de degré un.
Étant donné que la détermination de la fonction de densité d’une combinaison de lois Chi-deux est compliquée, Zhang et Lin (2003) ont utilisé la
54
méthode de Satterthwaite pour approximer la distribution Uτ (ψ̂) par la loi
de Khi-deux mesurée κχ2ν . Ainsi, la statistique transformée S(γ̂) =
Uτ (y;γ̂)
κ
est
2e2
I˜ιι
ou
approximée par la loi de Khi-deux χ2ν avec un degré de liberté ν =
κ=
I˜ιι
2e
est un paramètre d’échelle et tel que :
1
0
e = tr(P BB ),
2
−1
I˜ιι = Itt − Itv Ivv
Itv ,
1
0
Itt = tr(P BB )2 ,
2
∂V
1
0
)
Itv = tr(P BB V −1
2
∂v
et
1
∂V −1 ∂V
Ivv = tr(P
V
).
2
∂v
∂v
2.4.2
Le test du rapport de vraisemblance
* Le test du rapport de vraisemblance ((LRT ), pour Likelihood Ratio
Test) est une approche permettant d’accepter ou de rejeter l’hypothèse nulle
H0 . La statistique LRT est calculée selon la formule suivante :
LRT = sup L(β, σε2 , τ ) − supL(β, σε2 , τ )
H0
HA ∪H0
55
(2.24)
tel que L(β, σε2 , τ ) est la fonction du log-vraisemblance des paramètres inconnus du modèle linéaire à effets aléatoires (2.7). Au lieu d’utiliser la statistique
LRT , un choix alternatif est d’appliquer la statistique du rapport de vraisemblance restreint (RLRT , pour Restricted Likelihood Ratio Test) qui a la
forme suivante :
RLRT = sup REL(β, σε2 , τ ) − supREL(β, σε2 , τ )
HA ∪H0
(2.25)
H0
tel que REL(β, σε2 , τ ) est la fonction log-vraisemblance restreinte des paramètres inconnus du modèle linéaire à effets aléatoires (2.19).
Stram et Lee (1994) ont montré que sous la condition que les variables
expliquées sont indépendantes et identiquement distribuées, la statistique du
rapport de vraisemblance suit asymptotiquement une combinaison de lois de
Chi-deux (0.5χ20 + 0.5χ21 ). Cependant dans notre étude, les variables expliquées du modèle transformé (2.19) sont dépendantes puisque les données sont
groupées. Selon Pinheiro et Bates (2000), sous l’hypothèse nulle H0 les statistiques LRT et RLRT ne suivent pas asymptotiquement la loi 0.5χ20 + 0.5χ21
comme a été suggérée par Self et Liang (1987) et Stram et Lee (1994).
En supposant que leurs statistiques suivent asymptotiquement une combinaison de χ20 et χ21 , les résultats du test de LRT ou RLRT doivent être
interprétés avec réserve. Pour dépasser cette lacune, Crainiceanu et Ruppert
(2004) ont développé un algorithme qui permet de déterminer la distribution exacte de la statistique de LRT ou de RLRT . Cet algorithme se résume
comme suit :
56
Étape 1 : générer une grille des valeurs de τ où 0 = τ1 < τ2 < .. < τm .
2
Étape 2 : simuler des K variables aléatoires indépendantes ω12 , ..., ωK
de la
P
2
loi χ21 et calculer SK = K
s=1 ωs .
Pn−p
Étape 3 : indépendamment de l’étape 1, simuler Xn,K,p = s=K+1
ωs2 avec
ωs2 ∼ χ21
Étape 4 : indépendamment des étapes 1 et 2, simuler Xq =
Pq
s=1
u2s avec
u2s ∼ χ21
Étape 5 : pour chaque point de la grille τi , calculer :
Nn (τi ) =
K
X
s=1
K
X
τi µs,n
ωs2
ωs2 , Dn (τi ) =
Xn,K,d
1 + τi µs,n
1 + τi µs,n
s=1
(2.26)
Étape 6 : obtenir τmax qui maximise fn (τi ) pour τ1 , τ2 , ..., τm , tel que :
½
Nn (τ )
fn (τ ) = n log 1 +
Dn (τ )
¾
−
K
X
log(1 + τ ζs,n )
(2.27)
s=1
Étape 7 : calculer la statistique LRTn = fn (τmax ) + n log(1 +
Xq
)
SK +Xn,K,d
où
LRTn = fn (τmax ) si q = 0. Pour la statistique RLRT , on calcule :
"
½
Nn (τ )
RLRTn = sup (n − p − d − 1) log 1 +
Dn (τ )
τ ≥0
¾
−
K
X
#
log(1 + τ µs,n )
s=1
(2.28)
Les paramètres µs,n et ζs,n sont définis comme les K valeurs propres des
0
0
0
0
matrices Z P0 Z et Z Z respectivement, avec P0 = In − X(X X)−1 X .
57
2.5
Étude de simulation
Le test de score et le test du rapport de vraisemblance sont deux procédures largement utilisées pour prendre la décision d’accepter ou de rejeter des
hypothèses. Comme nous l’avons déjà montré dans la section précédente, le
test du rapport de vraisemblance et le test du score sont deux outils pouvant
être utilisés pour tester le degré du polynôme dans un modèle semi paramétrique à effets aléatoires. Cependant, dans la littérature, aucune comparaison
entre ces deux tests n’a été réalisée. Pour cela, nous entreprenons une étude
de simulation pour l’évaluation de la performance des deux procédures du
test polynomial.
Comme un exemple illustratif, nous considérons de tester si une variable
explicative est reliée linéairement avec une variable expliquée. Le test polynomial consiste à tester si les fonctions dans le modèle de régression sont non
paramétriques. Mais, ce test ne peut pas être résolu directement. Ainsi, l’idée
est de transformer le modèle semi paramétrique à effets aléatoires à la structure du modèle linéaire à effets aléatoires totalement paramétrique composé
par les bases de fonctions puissances tronquées. En considérant que l’inverse
du paramètre de lissage est un effet aléatoire, le test polynomial devient un
test de nullité de la variance de l’effet aléatoire.
Conditionnellement aux effets aléatoires du groupe bi ∼ N (0, σb I) avec
σb = 0.5 et σb = 1, les observations yij avec i = 1, ..., N et j = 1, ..., n de
la variable expliquée continue Y ont été générées respectivement selon ce
modèle composé par un seul effet fixe et un seul effet aléatoire :
yij = α0 + sij α1 + f (xij ) + zij bi + εij ,
58
(2.29)
où sij est une observation de la variable explicative S générée selon la loi
Normale N (0, 0.1) et xij est une observation de la variable explicative X
générée selon la loi Uniforme U [0, 1]. Les vraies valeurs des paramètres α0 et
α1 ont été prises α0 = 1 et α1 = 2. Deux tailles d’échantillon ont été utilisées
(N = 2, n = 5) et (N = 4, n = 5). Cinq fonctions de f (x) ont été considérées
fc (x) = (0.25c)x. exp(2 − 2x) − x + 0.5, pour c = (0, 1, 2, 3, 4). Notons que
lorsque c = 0 alors fc (x) est une fonction linéaire de la variable x et plus le
paramètre c croit plus la fonction fc (x) se dévie de la forme linéaire, comme
l’indique la figure (2.1) qui représente les courbes de fonctions fc (x).
1.5
1
f(x)
0.5
0
c=0
c=1
c=2
c=3
c=4
−0.5
−1
−1.5
0
0.2
0.4
0.6
0.8
1
x
1.2
1.4
1.6
1.8
2
Fig. 2.1 – Les fonctions fc (x) avec c = (0, 1, 2, 3, 4) simulées pour tester le
degré du polynôme dans le modèle linéaire semi paramétrique
Pour chaque ensemble de données simulées, le test du rapport de vraisemblance restreint asymptotique (RLRT.asy), le test du rapport de vraisemblance restreint exact (RLRT.exa) et le test du score asymptotique (SCO.asy)
sont formulés à partir du modèle linéaire transformé, tout en comparant leurs
59
puissances. Les résultats de simulation sont basés sur 1000 réplications.
Pour tester que f (x) est une fonction linéaire de x, la taille empirique
et la puissance de chaque procédure du test polynomial sont calculées en
fixant l’hypothèse nulle H0 : c = 0 contre une hypothèse alternative H1 : c 6=
0. Pour transformer le modèle semi paramétrique à un modèle totalement
paramétrique, nous avons construit des bases splines tronquées en utilisant
20 noeuds. Le nombre d’essais pour établir le test du MCR est égal à 19.
Toutes les expériences ont été exécutées avec le logiciel R (Voir annexe 2).
Les résultats de simulation sont présentés dans les tables (2.1) et (2.2).
Ces deux tables rapportent les pourcentages des rejets de l’hypothèse nulle
par rapport à 1000 réplications pour les niveaux nominaux de 5% et 10%.
En examinant les résultats de simulation, nous constatons que le niveau
empirique de test RLRT.asy est égal à 0.032 qui est nettement différent de
niveau nominal 0.05. Ces résultats sont conformes avec les constatations de
Pinheiro et Bates (2000). Par contre, le test RLRT.exa a un niveau empirique
de l’ordre de (0.049) qui est très proche du niveau nominal 0.05. Le niveau
empirique du RLRT.asy n’a pas changé lorsque le niveau nominal a été
augmenté de 0.05 à 0.1. La comparaison entre les deux tables (2.1) et (2.2),
nous induit à conclure que l’augmentation de la taille d’échantillon rend les
niveaux empiriques des tests plus proches des niveaux nominaux, tandis que
la variance de l’effet spécifique semble avoir une faible influence sur ces tests.
En ce qui concerne la puissance, nous constatons que le test RLRT.exa et
le test du SCO.asy ont une puissance élevée. En outre, nous remarquons que
l’augmentation de la variance de l’effet spécifique entraîne une diminution
de la puissance des deux tests. Comme il est prévu, l’augmentation de la
60
Niveaux
σb
Tests
nominaux
0.05
0.5
1
0.1
0.5
1
Tailles
Puissances
c=0
c=1
c=2
c=3
c=4
RLRT.asy
0.032
0.163
0.685 0.829
1.000
RLRT.exa
0.049
0.419
0.927 1.000
1.000
SCO.asy
0.066
0.401
0.936 1.000
1.000
RLRT.asy
0.061
0.068
0.098 0.473
0.793
RLRT.exa
0.049
0.135
0.492 0.737
0.921
SCO.asy
0.060
0.158
0.445 0.762
0.917
RLRT.asy
0.032
0.158
0.696 0.990
1.000
RLRT.exa
0.115
0.541
0961
SCO.asy
0.138
0.205
0.910 0.950
1.000
RLRT.asy
0.062
0.194
0.285 0.473
0.782
RLRT.exa
0.105
0.231
0.578 0.837
0.971
SCO.asy
0.112
0.242
0.556 0.832
0.810
0.999 1.000
Tab. 2.1 – Niveaux et puissances empiriques des trois tests de la linéarité de
la fonction f dans le modèle (2.29) où N = 2 et n=5
taille d’échantillon améliore la puissance globale. Nous indiquons aussi que la
puissance du RLRT.exa n’est pas changée lorsque le niveau nominal s’accroît.
En général, les résultats obtenus de cette étude de simulation ont montré la
supériorité du test RLRT.exa par rapport au test RLRT.asy et au test du
SCO.asy en terme de puissance.
En comparant le test RLRT.exa avec le test SCO.asy, le test SCO.asy
a au moins deux avantages principaux. D’abord, le test RLRT.exa nécessite
des calculs informatiques plus intensifs que le test SCO.asy, sachant que la
dérivation des distributions nulles des statistiques de RLRT demande la simulation de 1000 réplications à chaque fois. Deuxièmement, le test RLRT.exa
61
Niveaux
σb
Tests
nominaux
0.05
0.5
1
0.1
0.5
1
Tailles
Puissances
c=0
c=1
c=2
c=3
c=4
RLRT.asy
0.041
0.210
0.320 0.710
0.812
RLRT.exa
0.052
0.675
0.927 1.000
1.000
SCO.asy
0.057
0.661
0.890 0.905
1.000
RLRT.asy
0.068
0.151
0.364 0.811
0.883
LRT.exa
0.059
0.221
0.680 0.737
0.991
SCO.asy
0.062
0.210
0.510 0.762
0.817
RLRT.asy
0.071
0.217
0.412 0.920
1.000
RLRT.exa
0.102
0.762
0.995 1.000
1.000
SCO.asy
0.119
0.731
0.810 0.900
1.000
RLRT.asy
0.068
0.115
0.364 0.473
0.782
RLRT.exa
0.107
0.331
0.555 0.937
0.971
SCO.asy
0.119
0.273
0.432 0.812
0.810
Tab. 2.2 – Niveaux et puissances empiriques des trois tests de la linéarité de
la fonction f dans le modèle (2.29) où N = 4 et n=5
n’est pas encore développé pour des modèles plus compliqués tels que le modèle linéaire généralisé à effets aléatoires, tandis que la méthode du test de
score est flexible et peut être adaptée pour plusieurs situations.
Dans la simulation courante, nous avons seulement considéré un test de
linéarité. Comme extension de ce travail, nous pouvons réaliser un test polynômial de degré plus élevé (h > 1) en considérant des différentes valeurs de
h.
62
2.6
Conclusion
Dans ce chapitre, nous avons défini le modèle linéaire semi paramétrique
à effets aléatoires comme une extension du modèle linéaire à effets aléatoires.
Ce nouveau modèle permet d’analyser les données groupées d’une variable
expliquée ayant des relations de causalité non linéaires avec des variables
explicatives à travers une fonction de lissage non paramétrique.
La fonction de lissage a été approximée par un polynôme de degré fixe.
Le choix du degré de ce polynôme est une proposition qui nécessite d’être
vérifiée par un test d’hypothèse. Ainsi, nous avons réalisé une comparaison
entre le test du rapport de vraisemblance asymptotique et le test du rapport
de vraisemblance exact et le test du score asymptotique. A travers des études
de simulation, les résultats empiriques obtenus ont montré la supériorité du
test du rapport de vraisemblance exact par rapport au test du rapport de
vraisemblance asymptotique et celui de test du score asymptotique au niveau
de la puissance.
63
Chapitre 3
Modèle de régression logistique à
effets aléatoires
L’intérêt d’une étude statistique réside dans la détermination des facteurs
qui expliquent un phénomène donné. La régression logistique est l’une des
techniques statistiques qui a pour objectif, de produire un modèle permettant
de prédire les probabilités des modalités prises par une variable catégorielle,
le plus souvent binaire, à partir d’une série de variables explicatives continues
et/ou discrètes.
D’un autre côté, dans tout relevé d’expérience, on constate que les données présentent une certaine variabilité. Ainsi les modèles à effets aléatoires
constituent un moyen sophistiqué pour étudier la variabilité des données.
En introduisant des effets aléatoires dans la modélisation, on arrive à préciser les diverses sources de variation. En effet, la variation totale est divisée
en deux parties : la variation due aux effets aléatoires et celle qu’on affecte
aux erreurs. L’introduction des effets aléatoires dans le modèle de régression
logistique a donné naissance au modèle de régression logistique à effets aléa64
toires. Ce nouveau modèle permet d’établir une relation de causalité entre les
données groupées d’une variable expliquée qualitative et celles des variables
explicatives.
3.1
Spécification du modèle de régression logistique à effets aléatoires
Dans quelques études, nous nous intéressons à modéliser des comportements décisionnels où la variable expliquée peut prendre deux modalités selon
la décision prise par un individu ou une entreprise d’avoir ou de ne pas avoir
une action donnée.
Une variable qualitative peut provenir d’une variable continue par codification : si yi est supérieur à un seuil alors on attribue le code 1 et le code 0
sinon. Par exemple, on observe si l’individu a bien ou non supporté une expérience. Dans ce cas, pour chacun individu i = 1, ..., n, la variable expliquée
observée yi est binaire.
Il est clair qu’on ne peut pas utiliser la loi Normale dans la modélisation
de ce type de variables qualitatives. En fait, comme yi ne peut prendre que
deux valeurs (0 ou 1), la perturbation εi prend la valeur 1 − (Xβ)i avec la
probabilité pi et la valeur −(Xβ)i avec la probabilité 1 − pi . Par la suite,
la perturbation εi admet obligatoirement une loi discrète ce qui, interdit
l’hypothèse de normalité. Par conséquent, le modèle linéaire classique n’est
pas adéquat pour formaliser la dépendance de la variable expliquée de nature
qualitative vis-à-vis des valeurs prises par des facteurs explicatifs. Ainsi, on
propose le modèle de régression logistique qui consiste à modéliser la moyenne
65
conditionnelle de la variable expliquée étant donné les variables explicatives
E(Y |X) au lieu de la variable expliquée Y elle-même. Comme les données
de la variable expliquée yi sont binaires, alors Y suit la loi de Bernoulli de
paramètre p = P (yi = 1). Pour modéliser cette probabilité, on suppose que
la décision repose sur la valeur prise par une variable inobservable yi∗ appelée
variable latente, selon le schéma suivant :

 On observe y = 1 lorsque y ∗ ≥ 0
i
i
 On observe y = 0 lorsque y ∗ < 0
i
i
(3.1)
En réalité, on ne dispose pas des informations sur la variable latente yi∗
qui permettent à l’individu de prendre la décision (choix de 1 ou 0). Pour
rendre le modèle estimable, on suppose que cette variable latente dépend
linéairement d’un certain nombre de variables explicatives :
yi∗ = (Xβ)i + εi .
(3.2)
Les perturbations εi sont supposées indépendantes, d’espérances nulles
et elles suivent une même loi ayant une fonction de répartition F . Cette
hypothèse d’indépendance se traduit par la condition que les observations
doivent être différentes. En utilisant les équations (3.1) et (3.2), nous pouvons
déduire une relation entre la moyenne E(Y |X) et le prédicteur linéaire (Xβ)i .
On peut alors écrire :
E(yi |Xi ) = P (yi = 1|Xi ) = P (yi∗ ≥ 0|Xi ) =
P ((Xβ)i + εi ≥ 0|Xi ) = P (εi ≤ (Xβ)i |Xi ) = F ((Xβ)i )).
66
La fonction F prend une forme qui dépend alors de l’hypothèse faite sur
la distribution des perturbations εi . On retient habituellement pour cette
distribution soit une loi Normale centrée et réduite (le modèle est appelé
probit), soit une loi Logistique ayant une distribution centrée et de variance
π
3
(le modèle est appelé logit). Nous rappelons que la fonction de répartition
associée à la loi Logistique s’écrit sous la forme suivante :
F ((Xβ)i ) =
En considérant g(u) = log
¡
u
1−u
¢
(Xβ)i
,
1 + exp[(Xβ)i ]
(3.3)
une fonction de répartition réciproque
de la loi logistique F (u), le modèle de régression logistique s’écrit sous la
forme suivante :
µ
log
P (yi = 1)
1 − P (yi = 1)
¶
= (Xβ)i .
(3.4)
Étant donné la spécification (3.4), le modèle de régression logistique permet de prévoir la probabilité d’appartenance à une catégorie. Comme dans le
cas de modèles linéaires avec des variables longitudinales, il est parfois utile
d’incorporer des effets aléatoires dans un modèle de régression logistique qui
peut être étendu en considérant quelques effets comme aléatoires. Les effets aléatoires notés par b, supposés normalement distribués avec espérances
nulles et la matrice de variance covariance Gθ , où Gθ est une matrice définie positive qui dépend d’un vecteur de paramètres θ qu’on appelle souvent
le composant de variance. Selon Hedeker et Gibbons (1996), le modèle de
régression logistique à effets aléatoires se définit par l’équation suivante :
67
µ
yi /b ∼ Bernoulli
(Xβ + Zb)i
1 + exp[(Xβ + Zb)i ]
¶
.
(3.5)
où β est vecteur des paramètres inconnus, X est une matrice composée par
des variables explicatives connues fixées par l’expérience, b est un effet aléatoire qui suit la loi Normale b ∼ N (0, Gθ ) et Z une matrice d’incidence
composée par des 0 et 1.
L’équation (3.5) admet une représentation matricielle de la forme suivante :
µ
log
µ
1−µ
¶
= (Xβ + Zb)i ,
(3.6)
0
où µ = (µ11 , ..., µij , ..., µN n ) avec µij = E(yij |xij , bi ) = P (yij = 1) est la
probabilité de l’appartenance à une catégorie codée par 1.
3.2
L’estimation du modèle de régression logistique à effets aléatoires
Dans cette section, nous présentons une méthode d’estimation des paramètres inconnus du modèle de régression logistique à effets aléatoires. Il
s’agit de déterminer, à la vue des observations des variables explicatives, une
approximation des coefficients β et de composante de la variance θ. En fait,
nous espérons que les valeurs des estimations soient les plus proches possibles
des vraies valeurs inconnues. Dans ce qui suit, nous nous concentrons sur la
méthode du maximum de vraisemblance marginale.
68
L’estimation des paramètres du modèle de régression logistique à effets
aléatoires (3.6) se réalise en utilisant la fonction de vraisemblance de Y |b qui
a la forme suivante :
0
f (Y |b) = exp{Y (Xβ + Zb) − log(1 + exp[(Xβ + Zb)])},
(3.7)
avec Y est un vecteur des valeurs prises par la variable expliquée et 1 est un
vecteur unitaire. Nous utilisons aussi la fonction de densité de l’effet aléatoire
b qui s’écrit sous la forme suivante :
1 0
f (b) = (2π)−q/2 det(Gθ )−1/2 exp(− b G−1
θ b)
2
(3.8)
où q est la dimension de vecteur b et Gθ est la matrice de variance covariance
de b.
Le modèle (3.6) est correctement défini conditionnellement aux effets aléatoires b. Ceci constitue l’obstacle principal à la mise en place de procédures
d’estimation dans la mesure ou ces effets aléatoires qui se réalisent au cours
de l’expérience ne sont pas observés directement. Cet obstacle est d’autant
plus important que l’on cherche à estimer les paramètres de leur distribution.
Comme nous ne connaissons que la loi des observations conditionnellement
aux effets aléatoires, la fonction de la vraisemblance marginale des paramètres β et θ s’obtient par l’intégration de la fonction de vraisemblance de
Y |b :
69
Z
L(β, θ; y1 ..., yn ) =
Rq
Πni=1 f (yi /b)f (b)db
= (2π)−q/2 det(Gθ )−1/2 J(β, θ)
avec J(β, θ) =
R
Rq
0
(3.9)
0
exp{y (Xβ + Zb) − log(1 + exp[(Xβ + Zb)]) − 12 b G−1
θ b}db
La fonction de la vraisemblance marginale (3.9) consiste à calculer une intégrale multi- dimensionnelle des fonctions non linéaires dans les paramètres.
Ce qui implique que la résolution d’équations normales est impossible. La
difficulté de trouver une forme explicite de la fonction de vraisemblance marginale (3.9) a conduit au développement de plusieurs méthodes d’approximations analytiques de la vraisemblance.
Une démarche classique consiste en l’obtention de la fonction de vraisemblance marginale et en sa maximisation moyennant des techniques d’intégration numériques. Les différentes intégrales sont ainsi approchées numériquement. Nous citons, à titre d’exemple, la méthode de quadratique gaussienne.
Cette démarche a été notamment adoptée par Hinde (1982) et par Anderson
et Aitken (1985). Mais, ces méthodes d’intégration multiple sont numériquement exigeantes et sont difficilement praticables en toute généralité malgré
le développement des capacités informatiques. En effet, elles donnent des
résultats plutôt satisfaisants dans certains cas (dimension q faible) mais se
heurtent à des problèmes de calcul dès que la dimension des effets aléatoires
devienne grande.
Les méthodes de Monte Carlo par chaînes de Markov sont également utilisées. D’ailleurs McCulloch (1997) a proposé une méthode s’appuyant sur
70
une étape de Metropolis-Hastings conduisant à la construction d’un algorithme de type Espérance - Maximisation (EM). En effet, du fait de non
accessibilité de la distribution conditionnelle des effets aléatoires sachant les
données observées, l’utilisation directe de l’algorithme EM se trouve confrontée au problème du calcul de l’espérance conditionnelle de la vraisemblance
des données complètes sachant les données observées. Pour contourner cette
difficulté, McCulloch (1997) propose alors une variante de l’algorithme EM
qui introduit un algorithme de Metropolis-Hastings dans le but d’approcher
par Monte Carlo l’espérance de l’étape E. Cette méthode sera présenté en
détail dans la section suivante.
Puisque la distribution marginale des observations est très difficile à atteindre, une autre démarche est de s’inscrire dans un raisonnement conditionnel. C’est ce que a été proposé par Breslow et Clayton (1993), par exemple, en
effectuant une libéralisation du modèle. Ainsi, replongé dans le cadre linéaire,
le problème du calcul intégral est alors contourné.
Dans la section suivante, nous revenons en détails sur l’approximation Laplace proposée par Breslow et Clayton (1993). Nous avons choisi de décrire
cette méthode car nous serons amenés à l’adapter dans le cadre de l’estimation des paramètres du modèle de régression logistique semi paramétrique.
3.2.1
La méthode de la quasi- vraisemblance pénalisée
Breslow et Clayton (1993) ont proposé la méthode de la quasi- vraisemblance pénalisée ((PQL), pour Penalized Quasi likelihood) pour déterminer une approximation analytique de la fonction de vraisemblance marginale
(3.9). La technique PQL consiste à estimer les paramètres du modèle de
71
régression logistique à effets aléatoires en adaptant le problème à celui d’estimation du modèle linéaire à effets aléatoires. En fait, les estimateurs des
paramètres du modèle (3.5) par la méthode PQL sont obtenus en traitant les
effets aléatoires b comme des paramètres fixes et la fonction de vraisemblance
est pénalisée selon la distribution de b. Ainsi, pour une valeur donnée θ, les
estimateurs des paramètres β et b sont obtenus en maximisant la fonction du
log- vraisemblance marginale pénalisée :
1 0
log{f (y|b)} − b G−1
θ b
2
(3.10)
L’équation log- vraisemblance marginale pénalisée (3.10) est une fonction
non linéaire ayant une forme compliquée. Il n’est pas possible d’exprimer
les estimateurs par des simples fonctions d’observations. Cette équation doit
être résolue au moyen d’algorithmes tels que celui de Newton-Raphson qui
se base sur le calcul des dérivées premières et secondes de l’équation (3.10).
Soit µ = E(Y |X, Z, b) vecteur de la moyenne conditionnelle de Y et
W = var(Y |X, Z, b) matrice de variance covariance de Y , la différenciation
directe de la fonction de quasi-vraisemblance marginale pénalisée (3.10) par
rapport à β et b mène aux équations normales suivantes :

g=
0
X (Y − µ)
0
Z (Y − µ) − G−1
θ b


(3.11)
En considérant la dérivée seconde de l’équation (3.10) par rapport à β et
b, nous obtenons la matrice Hessienne suivante :
72

H = −
0

0
X WX
X WZ
0

(3.12)
0
Z W X Z W Z − G−1
θ
Les paramètres β et b de l’équation (3.6) peuvent être déterminés itérativement au moyen de l’algorithme Newton-Raphson en utilisant les équations
(3.11) et (3.12). Soit δ = (β, θ) un vecteur composé par les paramètres inconnus, à la itération k, δ (k+1) se calcule en fonction de δ (k) selon la formule
de récurrence suivante :
© ª−1 k
δ k+1 = δ k − H k
g
(3.13)
En remplaçant les équations (3.11) et (3.12) dans l’équation (3.13), on
obtient le système d’équations suivant :


0
k
W X

0
X W kX
X W kZ
0
k

k
Z W Z +W Z

β k+1
b
k+1

=

0
X W k ỹ k
k k
W ỹ

(3.14)
¡ ¢−1
où ỹ k = Xβ k + Zbk + W k
(Y − µk ) .
Breslow et Clayton (1993) ont développé une formule semblable à la méthode de scoring de Fisher du modèle linéaire à effets aléatoires. Ainsi, en
utilisant des pseudo données ypseudo , les estimations des paramètres (β, b) par
la méthode PQL peuvent établir :
73
ypseudo = Xβ + Zb + W −1 (y − µ) = Xβ + Zb + εpseudo .
(3.15)
Cette équation a la forme de celle du modèle linéaire à effets aléatoires, où
W −1 est l’inverse de la matrice variance covariance des pseudoerreurs εpseudo .
Selon l’approche de Breslow et Clayton (1993), l’estimation du modèle de
régression logistique à effets aléatoires (3.5) revient à estimer un modèle linéaire à effets aléatoires (3.15). En effet, en transformant les données binaires
des variables expliquées y sous la forme des pseudo données ypseudo et en calculant des pseudo erreurs εpseudo = W −1 (Y − µ), il est possible d’appliquer la
procédure d’estimation du modèle linéaire à effets aléatoires par la méthode
du maximum de vraisemblance décrite dans le chapitre précédent.
3.2.2
L’algorithme Monte Carlo EM
L’algorithme Espérance - Maximisation (EM) est une solution alternative
pour l’estimation des paramètres du modèle de régression logistique à effets
aléatoires (3.5). Cette méthodologie a été mise en place par Dempster et al.
(1977) et s’exécute en deux étapes : La première, s’appelle l’étape Espérance
et consiste à calculer l’espérance conditionnelle de la vraisemblance des données complètes par rapport à la distribution des données manquantes. La
deuxième s’appelle l’étape Maximisation et consiste à maximiser l’espérance
conditionnelle de vraisemblance des données complètes.
Soit δ = (β, θ) un vecteur composé par les paramètres inconnus. L’algorithme EM s’itère entre l’étape Espérance et l’étape Maximisation jusqu’à
l’obtention de la convergence. A l’itération [t + 1], à l’étape -Espérance, on
calcule l’espérance conditionnelle de vraisemblance de δ comme suit :
74
Q(δ (t+1) |δ (t) ) = Ey|b;δ(t) {log f (y, b; δ (t+1) )},
(3.16)
tandis que l’étape Maximisation implique une mise à jour de l’estimation des
paramètres par la maximisation de l’équation (3.16), on obtient alors :
δ (t+1) = arg maxQ(δ (t+1) |δ (t) ).
(3.17)
δ
En appliquant la règle de Bayes
f (y, b; δ)f (b)
,
f (y|b; δ)f (b; δ)db
Rq
f (y, b; δ) = R
(3.18)
l’espérance conditionnelle de la vraisemblance des données complètes devient :
R
Q(δ
(t+1)
(t)
|δ ) =
Rq
f (y, b; δ (t+1) )f (y, b; δ (t) )db
R
.
(t) )db
f
(y,
b;
δ
q
R
(3.19)
Le calcul de l’espérance conditionnelle de la vraisemblance des données
¡
¢
complètes Q δ (t+1) |δ (t) nécessite la détermination de la loi a posteriori de
f (b|y, δ (t) ). McCulloch (1997) a adapté la méthode Monte-Carlo Chaîne de
Markov (MCMC) pour la simulation de la distribution de f (b|y, δ (t) ). L’objectif de l’utilisation de la méthode MCMC est de générer des données des
effets aléatoires inobservables. Sous l’hypothèse que les effets aléatoires b =
(b1 , ..., bN )0 suivent la loi normale, nous dressons un tirage aléatoire de la distribution conditionnelle f (b|y, δ (t) ). L’algorithme de la Metropolis-Hastings
75
a été appliqué par Tanner (1993). Cet algorithme est une technique de
(MCMC) permettant de résoudre ce genre des problèmes puisqu’il n’exige
pas le calcul direct de la distribution de f (y; δ).
L’application de l’algorithme Metropolis-Hastings commence par le choix
d’une fonction g(b) comme une distribution candidate à partir de laquelle,
des nouvelles valeurs potentielles sont tirées. Ensuite, on passe à l’indication
d’une fonction d’acceptation qui permet de fournir la probabilité d’acceptation des nouvelles valeurs par opposition à maintenir les précédentes. A
l’itération [t] de l’algorithme EM, on désigne par b le vecteur des résultats
du tirage aléatoire précédent de la distribution conditionnelle f (b|y, δ (t) ).
En utilisant la loi Normale N (0, θ) comme une distribution candidate g(b)
et le processus de marche aléatoire b∗j = bj−1 +cZ où Z est un vecteur simulé à
partir de la loi Normale standard et c est une constante connue, nous générons
des nouvelles valeurs b∗j pour le j ieme élément de b∗ = (b1 , ..., bj−1 , b∗j , bj+1 , ..., bN ).
La fonction d’acceptation selon McCulloch (1997) prend la forme suivante :
(
αj (b, b∗ ) = min 1, exp
N
X
yij (b∗j − bj )
i=1
0
N
Y
1 + exp(xij β + zij bj )
0
i=1
1 + exp(xij β + zij b∗j )
)
(3.20)
L’étape suivante de l’algorithme Metropolis-Hastings est de dresser uj une
réalisation de la loi Uniforme de paramètre [0,1], ensuite cette réalisation est
comparée à la valeur de la probabilité d’acceptation αj (b, b∗ ). Si uj < αj alors
la nouvelle valeur b∗j dressée de la distribution fb|y est retenue. Si uj > αj
alors on retient bj−1 la valeur précédente de la distribution fb|y .
76
Pour récapituler, la méthode d’estimation proposée par McCulloch (1997)
se réalise en deux étapes : La première étape est inspirée de l’algorithme
MCMC pour générer des données inobservables. La seconde étape est inspirée
de l’algorithme EM pour faciliter la maximisation des fonctions de vraisemblance. Après la génération de l’échantillon b1 , ..., bM (avec M est le nombre
des simulations) en utilisant l’algorithme Metropolis-Hastings décrit ultérieurement, on choisit δ (t+1) qui maximise la fonction du log-vraisemblance
Monte Carlo qui s’écrit comme suit :
Q̂(δ
(t+1)
M
1 X
|δ ) =
log f (y, bm ; δ (t+1) )
M m=1
(t)
(3.21)
On itère ce processus jusqu’à la convergence de δ.
3.3
Diagnostic du modèle de régression logistique à effets aléatoires
Cook (1977) a développé une statistique du diagnostic pour évaluer le
changement de la valeur du paramètre estimé suite à l’exclusion des observations de l’échantillon d’étude. Sur la base des travaux pilotes de Cook
(1977) et Cook et Weisberg (1983), plusieurs auteurs ont adapté la distance
du Cook à la structure du modèle linéaire à effets aléatoires. Nous citons,
à titre d’exemple, Banerjee et Frees (1997), Fung et al. (2002) et Haslett et
Dillane (2004). Cependant, le développement d’une statistique du diagnostic
par élimination pour le modèle de régression logistique à effets aléatoires est
plus compliqué, vu que ce modèle est composé par des variables latentes.
77
En raison de la structure des données du modèle de régression logistique
à effets aléatoires, l’étude du diagnostic consiste à supprimer toutes les ob0
servations de l’individu i, à savoir le vecteur yi = ( yi1 , ..., yin ) . Soit β̂(k)
l’estimateur de β évalué en éliminant le k ième individu. L’évaluation de l’influence du k ième individu sur l’estimateur du maximum de vraisemblance β̂,
se réalise par le calcul de la différence entre β̂(k) et β̂. Si le paramètre β̂(k)
est très différent de β̂, alors l’individu k est considéré influent. Une métrique
pour mesurer la distance entre β̂(k) et β̂ est donnée par :
0
CD(k) = (β̂(k) − β̂) (L̈(β̂))(β̂(k) − β̂)
(3.22)
avec L̈(β̂) est la dérivée de la fonction du maximum de vraisemblance.
Le calcul de la statistique du diagnostic CD(k) nécessite la détermination
de β̂(k) . Nous proposons d’appliquer l’algorithme EM-MCMC pour l’estimation de β̂(k) . Cependant, pour conduire une analyse complète d’influence, il
est nécessaire de calculer β̂(k) pour les différents groupes k, mais ce calcul
devient lourd lorsque le nombre des groupes N est assez élevé. Pour voir
l’impact de l’élimination du k ième groupe sur le paramètre de la régression,
nous considérons la fonction de log- vraisemblance de MC calculée sans le
k ième groupe :
M
³ 0
´
h
³ 0
´i
1 XX
0
0
L(k) (β) =
yij xij β + zij bm − log 1 + exp xij β + zij bm
M m=1 i6=k,j
(3.23)
78
La dérivée première de L(k) (β) est égale à :
M
1 XX
0
L̇(k) (β) =
xij (yij − µij ) = X S − Xk Sk
M m=1 i6=j
(3.24)
La dérivée seconde de L(k) (β) est égale à :
¡ 0
¢
0
M
exp xij β + zij bm
1 XX
0
L̈(k) (β) =
£
¡ 0
¢¤2 xij xij
0
M m=1 i6=k,j 1 + exp xij β + zij bm
0
0
0
0
= X V X − Vk Xk Xk = T T − Tk Tk
où Tk =
(3.25)
√
Vk Xk
1
Soit β̂(k)
l’approximation d’ordre un du paramètre β calculée en éliminant
1
le k ième groupe de l’échantillon considéré. β̂(k)
est déterminé à partir d’une
0
solution initiale β̂(k)
en utilisant l’algorithme de Newton Raphson tel que :
1
0
β̂(k)
= β̂(k)
+ (−L̈(k) (β̂))−1 L̇(k) (β̂)
³ 0
´
0
0 −1
0
= β̂(k) + (T T − Tk Tk )
X S − Xk Sk
(3.26)
Bien sur, la réalisation de l’algorithme de Newton Raphson pour l’esti1
mation de β̂(k)
, en éliminant chaque fois un groupe d’observations est une
procédure impraticable et une perte de temps. D’où, il faut déterminer une
1
expression qui permet de calculer β̂(k)
sans recourir à répéter la procédure
d’estimation. Ceci a l’avantage de gagner le temps surtout pour les données
79
de taille élevée. En nous inspirant des travaux de Fung et al. (2002), nous
pouvons énoncé le théorème suivant :
Théoréme 3.3.1. L’approximation d’ordre un de β̂(k) , après l’élimination
du k ème groupe, est donnée par :
1
β̂(k)
³ 0 ´−1 0
= β̂ − T T
Tk (I − H̃k )−1 e∗k |β 1 = β̂ 1 , bi = b̂i
1
(3.27)
¡ 0 ¢−1 0 −1/2
0
0
S k − Tk T T
T V
S]β=β0 , T = V 1/2 X = (T1 , .., Tn ), Sk =
¢−1
0 ¡ 0
1/2
Vk Xk , et H̃k = Tk T T
Tk .
−1/2
où e∗k = [vk
Démonstration : En appliquant, la formule de l’inverse de matrice nous
obtenons :
0
0
0
(X(k) V(k) X(k) )−1 = (X V X)−1 + (X V X)−1 Xk (Vk−1
0
0
+Xk (X V X)−1 Xk )−1 Xk
(3.28)
¢−1
0
0
0 ¡ 0
1/2
En supposant Z = V 1/2 X = (Z1 , .., Zn ) ;Zk = Vk Xk et H̃k = Zk Z Z
Zk
alors l’équation (3.28) devient :
0
(Z(k) Z(k) )
−1
³
0
= ZZ
0
´−1
−1/2
³
0
+ ZZ
´−1
0
−1
Z(k) V(k) S(k) = Z V −1/2 S − Zk Vk
80
0
Zk (I − H̃k ) Zk Z Z
−1/2
0
³
Sk
´−1
(3.29)
(3.30)
1
L’estimateur β̂(k)
sera calculé en utilisant ce développement matriciel :
0
0
−1/2
1
β̂(k)
' (T(k) T(k) )−1 (T(k) V(k) S(k) )
³ 0 ´−1 0
³ 0 ´−1 0
= β̂ 1 + T T
Tk [(I − H̃k )−1 Tk T T
T V −1/2 S
−1/2
−1/2
−(I − H̃k )−1 H̃k Vk
Sk − V k
³ 0 ´−1 0
= β̂ 1 − T T
Tk (I − H̃k )−1 e∗k
−1/2
où e∗k = [Vk
Sk ]
(3.31)
¡ 0 ¢−1 0 −1/2
sk − Tk T Z
T V
S]β=β0
Les équations (3.22) et (3.31), nous permet de déterminer une formule de
calcul pratique de la distance de Cook CDi1 (β̂) :
0
∗
CDk1 (β̂) = ek∗ (I − H̃k )−1 H̃k (I − H̃k )−1
i ek /p
(3.32)
Zhu et al. (2001) ont montré que sous des conditions modérées,la statistique CDk (β̂) a des rapports asymptotiques étroits avec leur approximation
CDk1 (β̂). Le calcul de la statistique CDk (β̂) nécessite la détermination de la
fonction du maximum de vraisemblance marginale et les dérivées premières
et secondes de cette fonction. Ces quantités n’ont aucune forme explicite dans
le contexte du modèle logistique mixte. Nous avons proposé de résoudre cette
difficulté en utilisant l’intégration Monte Carlo et en faisant un tirage aléa³
´
toire des effets aléatoires bi à partir de la distribution conditionnelle f b|y, β̂
par l’algorithme de Métropolis Hasting.
81
3.4
Application : Anticipation de la détresse financière
Le modèle de régression logistique à effets aléatoires est illustré à travers
une application réelle concernant l’anticipation de la détresse financière des
entreprises tunisiennes. Conscient de l’importance des risques liés à l’octroi de
crédit, le comité de Bâle a instauré, en 1988, des obligations réglementaires en
matière de fonds propre des banques connues sous le nom de ratio Cooke ou
ratio de capital dans le but d’accroître la sécurité des banques et la stabilité
du système financier dans son ensemble. Cependant, face à la montée du
risque de crédit au cours des années 90, le dispositif du ratio Cooke a montré
des faiblesses liées à l’absence de relation entre les exigences de fonds propres
et le risque effectif des crédits à l’économie. Par conséquent, une nouvelle
réforme a été entamée en janvier 2001 connue sous le nom de " Bâle II " qui
instaure un nouveau ratio de solvabilité, c’est le ratio " Mc Donough ".
Néanmoins, ces nouveaux accords sur la solvabilité des banques ne lui
présentent qu’une part de garantie lors des événements imprévisibles citant
principalement la crise financière qui a traversé le monde depuis 2007 partant
des États-Unis et qui s’est propagé très rapidement pour les différents pays
européens et encore maintenue. Par ailleurs, les banques et les organismes
financiers se trouvent face à l’obligation de parvenir à une meilleure gestion
du risque de crédit en développant des outils statistiques dans le but de
prévoir la détresse financière des entreprises.
Altman (1968) estime qu’une entreprise en situation de la détresse lorsque
sa rentabilité est inférieure à ce qui est ordinairement observé dans des cir-
82
constances analogues. Ainsi, la prévision de la détresse financière d’entreprises est très importante pour ceux qui y sont impliqués (actionnaires, gestionnaires, salariés, prêteurs, fournisseurs, clients et surtout l’État).
Le développement et l’utilisation des modèles de prévision sont des outils
très importants pour ces parties pour deux raisons : D’abord, ces modèles
servent comme "système d’alerte " pour les gestionnaires d’entreprises qui
peuvent entreprendre des actions de prévention contre le risque de faillite (par
exemple, opération de rachat, de liquidation, de redressement, etc.). Ensuite,
ces modèles peuvent être aussi utiles pour les professionnels des établissements financiers dans l’évaluation et la sélection des entreprises auxquelles
ils prêtent des crédits. De telles décisions d’investissement doivent prendre
en considération à la fois le coût d’opportunité et le risque de défaillance.
En partant de ces considérations et devant l’ampleur du phénomène, diverses
études et recherches ont été menées dans ce sens depuis les années soixante du
dernier siècle. Elles visaient à mettre en évidence les principaux indicateurs
permettant de prévoir à temps les difficultés éprouvées par les entreprises.
Nous pouvons citer parmi les premiers travaux, à titre d’exemple, ceux de
Beaver (1966) et Altman (1968).
Depuis cette période et jusqu’à nos jours, le nombre d’études sur l’évaluation des risques de faillite et la prévision de la détresse financière des entreprises ne cesse d’accroître. Il suffit de citer Bardos et Zhu (1997), Chava et
Jarrow (2004) et Hillegeist et al. (2004). La grande majorité de ces recherches
s’appuient sur des outils d’analyse statistique de grandeurs comptables et de
ratios financiers pour discriminer les entreprises saines des entreprises défaillantes. Ces études ont abouti à une fonction de score qui est un indicateur
83
de synthèse censé de donner en un chiffre, le degré de défaillance possible
d’une entreprise.
3.4.1
La structure des données
La source d’information qui a été utilisée pour cette étude est la Banque
centrale de Tunis. Une série de données financières a été collectée à partir
des documents de synthèse (bilans et comptes de résultats) sur la période
(1999-2006). Notre base de données est constituée d’un échantillon de 528
entreprises appartenant à différents secteurs d’activité. Cet échantillon présente une certaine hétérogénéité puisqu’il s’agit d’entreprises appartenant à
20 secteurs différents réparties comme l’indique la table (3.1).
Nous allons utiliser comme variables explicatives les ratios financiers.
Comme il existe des dizaines de ratios, le choix de ces variables indépendantes
est un problème fondamental dans l’élaboration d’un modèle de prédiction
de défaillance.
Dans notre application, nous avons choisi de retenir des ratios liés aux
différentes dimensions de l’analyse financière et qui représentent les différents
critères d’appréciation de la bonne santé d’une entreprise. Les thèmes sont la
structure financière, rotation, rentabilité, charges financières, la solvabilité et
la liquidité. La batterie des variables entrées (Inputs) du modèle comporte
26 ratios (voir annexe 5).
Le critère de classification retenu pour la détermination de la variable
expliquée a priori est l’état juridique de l’entreprise. Ce critère est jugé bon du
fait qu’il reflète la solvabilité des entreprises. La structure de cet échantillon
84
est décrite sous deux classes juridiques : saines ou défectueuses. La variable
expliquée Y peut être écrite par des valeurs binaires :

 1
Y =
 0
pour les entreprises en détresse
pour les entreprises saines
(3.33)
En adoptant ce critère de classement, nous avons pu décomposer a priori
l’échantillon en deux sous-groupes. Le premier groupe est composé par 448
entreprises saines et le second groupe est composé par 80 entreprises en situation de détresse.
3.4.2
La fonction de régression logistique à effets aléatoires du score de détresse
Press et Wilson (1978) ont utilisé des données de ratios en coupe transversale pour examiner si les coefficients de la fonction de score estimés a
partir du modèle de régression logistique sont des déterminants valides de la
faillite des entreprises. Cependant, des informations importantes pourraient
être omises en utilisant seulement une analyse en coupe transversale. L’analyse de données longitudinale est une technique appropriée pour traiter ce
genre de problème, parce qu’elle tient compte des propriétés des effets non
observables qui peuvent être dûs aux regroupements de l’échantillon étudié
en classe. Dans ce cas, la modélisation des effets peut intervenir dans l’explication du phénomène étudié. La partie explicative du modèle est raffinée
par la combinaison linéaire de ces deux types d’effets : les effets fixés et les
effets aléatoires.
En ce qui concerne le modèle basé sur la régression logistique, nous avons
sélectionné 8 ratios significatifs parmi 26 ratios de l’étude. Étant donné la
85
structure longitudinale des données de notre étude, une source d’hétérogénéité individuelle est considérée. Le risque de la détresse financière peut être
déterminé par un modèle de régression logistique à effets aléatoires qui s’écrit
sous la forme suivante :
µ
log
Pij
1 − Pij
¶
= β1 R7,ij + β2 R9,ij + β3 R10,ij + β4 R14,ij
+β5 R20,ij + β6 R21,ij + β7 R23,ij + bi ,
(3.34)
tel que Pij =P (Y = 1|Rij ) avec i= 1, ..., 20 et j= 1, ...,ni est la probabilité a
posteriori d’appartenance au groupe d’entreprises en détresse, Rij sont des
ratios financières et bi est l’effet spécifique sectoriel supposé Normalement
distribué. Ainsi, nous avons associé aux ratios un effet spécifique sectoriel
qui représente l’hétérogénéité des entreprises.
Les paramètres du modèle de la régression logistique à effets aléatoires
(3.34) a été estimé par la méthode du maximum de vraisemblance marginale
(Breslow et Clayton (1993)) en utilisant le package (glmmPQL) du logiciel
R. La table (3.2) rapporte les résultats d’estimation du modèle (3.34) pour
les données de notre échantillon.
Le pouvoir discriminant du ratio Rk est défini par le rapport :
σ2 β 2
P k 2k 2
σk βk
avec
σk est l’écart type du ratio Rk . Il exprime l’influence du ratio dans la fonction
de score. D’après la table (3.2), les ratios R9 et R10 jouent un rôle capital
dans la formation de la fonction de score des entreprises puisque ces ratios
ont un pouvoir discriminant de l’ordre de 99%.
86
En outre, nous remarquons que l’effet estimé de la variable R9 (la rentabilité économique) a un signe positif. Comme la rentabilité économique
est égale au rapport entre le frais financier et l’actif total. Cela signifie que
l’augmentation des frais financiers fait diminuer la rentabilité économique ce
qui explique l’accroissement de la probabilité d’être en détresse. Par contre
la variable R10 (la rentabilité des capitaux investis) qui est égale au rapport
entre le résultat net et l’actif total présente un signe négatif ce qui induit
que l’augmentation des résultats nets implique une diminution de risque de
défaillance.
Après l’intégration de l’effet sectoriel dans le modèle de régression logistique, nous avons abouti aux estimations présentés dans la table (3.3). Ces
estimations des effets aléatoires sectoriels présentent un classement des secteurs de moins risqués aux plus risqués. Autrement dit, d’après les résultats
de la table (3.3), le secteur " Commerce, réparations automobile et d’articles domestiques " est le secteur le moins risqué, puisqu’il admet −4.401
comme effet aléatoire. Par contre nous avons enregistré un effet de 6.261 pour
le secteur "Autres industries manufacturières" que nous pouvons considérer
comme le secteur le plus risqué.
3.5
Conclusion
Dans ce chapitre, nous avons présenté le modèle de régression logistique à
effets aléatoires qui sert à modéliser la relation de causalité entre une variable
qualitative longitudinale expliquée et des variables explicatives de différentes
natures. Les paramètres inconnus de ce modèle sont estimés par la méthode
du maximum de vraisemblance marginale. Nous avons fait un résumé sur les
87
méthodes des approximations analytiques de la fonction de vraisemblance
tels que l’approximation Laplace proposée par Breslow et Clayton (1993)
et l’algorithme EM -MC développé par McCulloch (1997). Ensuite, nous
avons aussi développé une méthode de diagnostic par élimination appliquée
au modèle de régression logistique à effets aléatoires.
Nous avons illustré ces méthodes par une étude empirique basée sur des
données relatives à des entreprises tunisiennes. En utilisant des ratios financières, nous avons calculé une fonction score par la méthode de la régression
logistique à effets aléatoires en considérant la détresse financière comme une
variable expliquée binaire. L’objectif de ce modèle est de capturer des effets
inaperçus qui sont dues à l’hétérogénéité des entreprises de la population étudiée. En d’autres termes, nous avons mis en évidence les déterminants non
observables de la détresse financière de chaque secteur de l’échantillon étudié. La principale conclusion tirée de cette étude est que le secteur industries
manufacturières est le secteur le plus risqué.
Eilers et Marx (1998) ont proposé les modèles généralisés additifs pour
la modélisation des relations non linéaires entre une variable d’intérêt qualitative et des variables explicatives. Notre étude peut être prolongée pour
modéliser les relations de causalité dans le modèle de régression logistique à
effets aléatoires par une méthode non paramétrique .
88
Code
Les secteurs
Nombre
1
Industrie chimique
34
2
Industrie du papier et du carton édition et imprimerie
23
3
Extraction de produits non énergétiques
7
4
Transports et communications
30
5
Industries agricoles et alimentaires
39
6
Industrie du caoutchouc et des plastiques
27
7
Commerce réparations automobile et d’articles domestiques
69
8
Fabrication équipements électriques et électroniques
26
9
Construction
36
10
Hôtels et restaurants
37
11
Immobilier locations et services aux entreprises
23
12
Industrie du caoutchouc et des plastiques
19
13
Agriculture chasse sylviculture
20
14
Industrie textile et habillement
40
15
Fabrication d’autres produits minéraux non métalliques
28
16
Métallurgie et travail des métaux
27
17
Sante et action sociale
21
18
Fabrication de machines et équipements
13
19
Autres industries manufacturières
20
Total
528
Tab. 3.1 – Le nombre des entreprises par secteur
89
Val. estimés
(constante)
-2.258303
R7 : Rotation de l’actif
0.235746
R9 : Rentabilité économique
Pouv. discrim.
t value p-value
-18.03
0.0000
0.0016
3.87
0.0001
8.742052
0.5414
8.36
0.0000
R10 : Rentabilité des capitaux
-10.65694
0.4506
-8.40
0.0000
R14 : Taux de rentabilité des capitaux
0.033662
0.0000
1.79
0.0740
R15 : Rotation des capitaux
-0.002738
0.0000
-1.65
0.0993
R20 : Couverture des immobilisations
0.237643
0.0062
-4.82
0.0000
R21 : Capacité d’endettement
-0.238740
0.0000
-2.64
0.0084
R23 : Ratio de charges financières
-0.272702
0.0000
-2.61
0.0091
Tab. 3.2 – Les coefficients estimés des effets aléatoires
90
codes
Les secteurs
Effets aléatoires
1
Commerce, réparations automobile et d’articles domestiques
-4,401
2
Métallurgie et travail des métaux
-2,943
3
Industrie du caoutchouc et des plastiques
-1,480
4
Industrie du cuir et de la chaussure
-1,009
5
Agriculture chasse sylviculture
-0,768
6
Fabrication de machines et équipements
-0,654
7
Santé et action sociale
-0,596
8
Immobilier locations et services aux entreprises
-0,256
9
Fabrication d’autres produits minéraux non métalliques
0,211
10
Industrie textile et habillement
0,284
11
Industrie chimique
0,377
12
Transports et communications
0,473
13
Fabrication équipements électriques et électroniques
0,551
14
Extraction de produits non énergétiques
0,584
15
Industrie du papier et du carton édition et imprimerie
0,597
16
Construction
0,860
17
Hôtels et restaurants
1,045
18
Industries agricoles et alimentaires
1,198
19
Autres industries manufacturières
6,261
Tab. 3.3 – Les coefficients estimés des effets aléatoires
91
Chapitre 4
Modèle de régression logistique
semi paramétrique à effets
aléatoires
Dans le chapitre précédent, nous avons présent le modèle de régression
logistique à effets aléatoires comme un outil qui permet de modéliser des
relations de causalité entre une variable longitudinale qualitative et des variables explicatives. Une caractéristique importante de ce modèle est que la
moyenne conditionnelle de la variable expliquée est liée paramétriquement
aux variables explicatives et aux effets aléatoires. En réalité, l’hypothèse
que la forme fonctionnelle dans le modèle de régression est linéaire souvent
n’est pas appropriée surtout lorsque le phénomène étudié est compliqué. Pour
contourner cette lacune, Zhang et Lin (2003) ont proposé une modélisation
flexible des effets des variables explicatives ou le prédicteur linéaire dans le
modèle de régression est remplacé par des fonctions non paramétriques. Le
nouveau modèle est nommé le "Modèle de régression logistique semi paramétrique à effets aléatoires".
92
L’intérêt principal du modèle semi paramétrique est qu’il permet de distinguer les relations linéaires et les relations non linéaires au sein d’un même
modèle. L’idée est de prendre en compte la linéarité de certaines relations
afin de réduire le coût de l’estimation qu’aurait un modèle non paramétrique,
tout en gardant la complexité de modélisation sous-jacente au modèle non
paramétrique pour expliquer les autres relations.
Après avoir proposé un modèle de régression logistique semi paramétrique, il est important de tester statistiquement la nouvelle forme fonctionnelle des variables explicatives. Afin d’évaluer l’adéquation de la forme
paramétrique imposée sur les variables explicatives dans le modèle de régression, une approche commune est de projeter le problème dans le cadre
de test d’hypothèse, où des classes de modèles sont choisis comme des solutions alternatives. Dans notre étude, nous allons vérifier si la relation entre
une variable expliquée et une variable explicative s’établit réellement par un
polynôme d’un degré donné.
4.1
Spécification du modèle de régression logistique semi paramétrique à effets aléatoires
Dans le chapitre précédent, nous avons vu que la régression logistique à
effets aléatoires est un modèle paramétrique linéaire qui sert à modéliser des
relations de causalité entre une variable expliquée qualitative et des variables
explicatives. Ainsi, pour rendre le modèle de régression logistique plus flexible
et plus sophistiqué, quelques variables explicatives peuvent être transformées
par des fonctions de lissage non paramétriques. Le nouveau modèle obtenu
est désigné par le modèle de régression logistique semi paramétrique à effets
93
aléatoires.
Considérons une étude de causalité entre trois variables longitudinales
Y , X et S telles que les observations de ces variables sont réparties sur N
groupes et chaque groupe est formé par n observations. Soient (xi1 , ..., xin )
et (si1 , ..., sin ) avec i = 1, ..., N deux échantillons de variables explicatives à
valeurs respectivement dans R. Soit (yi1 , ..., yin ) un échantillon d’observations
binaires à valeur dans R. La variable expliquée Y est supposée admettre une
relation paramétrique linéaire avec la variable explicative S. Étant donné
qu’on n’a pas des informations sur la forme de régression entre X et Y ,
les réalisations de la variable explicative xij est modélisée d’une façon non
paramétrique à travers une fonction de lissage.
Conditionnellement au vecteur d’effets aléatoires b, la variable expliquée
Y est supposée indépendante d’espérance conditionnelle E(Y |b) = µb et de
matrice de variance conditionnelle var(Y |b) = diag(µb ). Formellement, le
modèle de régression logistique semi paramétrique à effets aléatoires s’écrit
sous la forme suivante :
Ã
log
µbij
1 − µbij
!
0
0
= sij α + f (xij ) + zij bi
(4.1)
où µbij = Pr(yij = 1|xij , bi ) avec i = 1, ..., N et j = 1, ..., n est la probabilité
a posteriori d’appartenance à une catégorie codée par 1, α est un vecteur
des coefficients de régression inconnus associé aux réalisations de variables
explicatives sij , f est une fonction de lissage de xij deux fois différentiable,
bi est un vecteur des effets spécifiques aléatoires qu’on suppose suivre la loi
94
Normale bi ∼ N (0, Gθ ) et zij est un vecteur d’incidence supposé connu et
prend la valeur 1 ou 0.
Les cas spéciaux du modèle (4.1) servent à modéliser pour quelques applications. Nous citons le cas où tous le groupes sont composés par une seule
observation (n = 1), le modèle (4.1) se réduit à un modèle de régression
logistique partiellement linéaire tel qu’il a été considéré par Heckman (1986)
et par Speckman (1988). Si on élimine la fonction f, le modèle (4.1) devient
un modèle de régression logistique à effets aléatoires, tel qu’il a été présenté
dans le précédent chapitre.
Selon l’approche de Wand et Ngo (2004), il est utile de rendre le modèle
(4.1) sous une forme totalement paramètrique. En utilisant le théorème de
Taylor, la fonction f (xij ) s’écrit sous la forme d’une combinaison linéaire du
polynôme du degré h et des bases de fonctions puissances tronquées :
f (xij ) =
H
X
h
δh x +
K
X
ak (xij − κk )+
(4.2)
k=1
h=1
où κ1 , ..., κK est un ensemble de noeuds distincts tirés des observations de la
variable xij et x+ = max(0; x). Le nombre de noeuds K doit être assez élevé
(d’ordre K ≥ 30) pour assurer l’exigibilité de la courbe. Les noeuds sont
choisis comme des quantiles du x avec les probabilités 1/(K + 1), ..., K/(K +
1).
En suivant l’approche de Wand et Ngo (2004), nous proposons de formuler le modèle de régression logistique semi paramétrique par des bases de
fonctions puissances tronquées de degré h. Ensuite, nous adaptons le mo95
dèle transformé à la structure du modèle de régression logistique à effets
aléatoires. En effet, en remplaçant l’équation (4.2) dans (4.1), on obtient un
modèle sous la forme suivante :
Ã
log
µbij
1 − µbij
!
0
= sij α +
H
X
δh xhij
+
h=1
K
X
0
ak (xij − κk )+ + zij bi
(4.3)
k=1
Pour écrire le modèle (4.3) sous la forme matricielle, nous désignons par :
0
a) µbi = (µbi1 , ..., µbin ) un vecteur composé des moyennes conditionnelles des
variables expliquées du groupe,


xhi1
s
... spi1 xi1 ...
 i1

b) Xi =  :
:
:
:

sin ... spin xin ... xhin
les variables explicatives,


 une matrice (n, p + h) composée par




c) Bi = 


(xi1 − κ1 )+ ... (xi1 − κK )+
:
:


 une matrice de dimension (n, K)

(xin − κ1 )+ ... (xin − κK )+
composée par des bases du groupe i et
0
d) Zi = (1, ..., 1) vecteur associé au i
ième
effet aléatoire.
0
0
0
En considérant ensuite µb = (µb1 , ..., µbN ) , b = (b1 , ..., bN ) , β = (α, δ) et
0
0
0
a = (a1 , ..., ak ) des vecteurs empilés et X = (X1 , ..., XN ) , B = (B1 , ..., BN )
et Z = diag(Z1 , ..., ZN ) les matrices empilées, le modèle (4.3) admet ainsi
96
une représentation matricielle de la forme suivante :
µ
log
µb
1 − µb
¶
= Xβ + Ba + Zb
(4.4)
où β, a et b sont les paramètres inconnus liés respectivement aux matrices
X, B et Z.
4.2
Estimation du modèle de régression logistique semi paramétrique à effets aléatoires
Dans cette section, nous essayons d’estimer les paramètres inconnus du
modèle de régression logistique semi paramétrique à effets aléatoires (4.4). Il
s’agit de déterminer, à la vue des observations des variables explicatives, une
approximation des coefficients β, a et b.
En suivant l’approche de Wand et Ngo (2003), nous supposons que le
vecteur a est un effet aléatoire qui suit la loi Normale N (0, τ I) avec τ = λ1 .
Par conséquent, la fonction f s’écrit sous la forme d’une combinaison linéaire
de vecteurs des effets fixes δ et de vecteurs des effets aléatoires a avec leurs
matrices de conception. Par suite le modèle (4.4) peut être traité comme
modèle de régression logistique à effets aléatoires.
En supposant que le vecteurs des effets aléatoires a est un effet aléatoire
Étant, l’estimation du modèle de régression logistique semi paramétrique
(4.1) revient à estimer le modèle de régression logistique à effets aléatoires
(4.4). Dans la littérature, des diverses approches ont été proposées pour l’es97
timation des paramètres du modèle de régression logistique à effets aléatoires.
Ainsi, nous préférons utiliser la méthode de la quasi-vraisemblance pénalisée
proposée par Breslow et Clayton (1993) compte tenu de sa simplicité et de
sa robustesse. Cette procédure d’estimation a été bien développée par Lin
and Zhang (1999) dans le contexte d’estimation du modèle généralisé non
paramétrique.
4.3
Le diagnostic du modèle de régression logistique semi paramétrique à effets aléatoires
Pour définir la distance de Cook de la fonction f dans le modèle(4.1),
nous considérons le modèle transformé totalement paramétrique (4.4). Nous
définissons par â(k) et fˆ(k) , respectivement, les estimateurs du vecteur a et de
la fonction f par les fonctions de bases tronquées sans utiliser le groupe k.
Le changement de la courbe estimée de la fonction f en éliminant le groupe
k peut être mesuré par la distance de Cook :
°
°2
0
0
°ˆ
°
ˆ
Ck (f ) = °f (λ) − f(k) ° = (â − â(k) ) B B(â − â(k) )
(4.5)
Le calcul de la statistique du diagnostic Ck (f ) nécessite la détermination
de â(k) . Cependant, pour conduire une analyse complète d’influence, il est nécessaire de calculer β̂(k) pour les différents groupes k, mais ce calcul devient
lourd lorsque le nombre de groupes N est assez grand. Pour voir l’impact de
l’élimination du k ième groupe sur le paramètre de la régression, nous considérons la fonction de log-vraisemblance calculée sans le k ième groupe :
98
L(k) (a) =
N
h
X
i
0
0
yi B (xi )a − log(1 + exp B (xi )a)
(4.6)
i=1,6=k
0
Soit S = (s11 , .., s1n , ..sN 1 , .., sN n ) avec sij = yij − µij et V = diag(vij )
avec vij = µij (1 − µij ) alors, la dérivée première de L(k) (a) est égale à :
L̇(k) (a) =
N
X
0
0
B (xi )(yi − pi ) = B S − bk Sk
(4.7)
i=1,6=k
et la dérivée seconde de L(k) (a) est égale à :
L̈(k) (a) = −
n
X
0
exp B (xi )a
0
2 B(xi )B (xi )
0
[1 + exp B (xi )a]
i=1,6=k
0
0
0
0
= B V B − Vk bk bk = Z Z − Zk Zk
où Zk =
√
(4.8)
Vk bk
Soit â1(k) l’approximation première du paramètre a déterminée en utilisant
l’échantillon sans le k ième groupe. â1(k) sera calculé à partir d’une solution
initiale â0(k) en utilisant l’algorithme de Newton Raphson tel que :
â1(k) = â0(k) + (−L̈(k) (a))−1 L̇(k) (a)
³ 0
´
0
0
= â0(k) + (Z Z − Zk Zk )−1 B S − bk Sk
(4.9)
Bien sur, la réalisation de l’algorithme de Newton Raphson pour l’estimation de â1(k) , en éliminant chaque fois un groupe d’observations est une
99
procédure impraticable et une perte de temps. D’où, il faut déterminer une
expression permettant de calculer â1(k) sans recourir à répéter la procédure
d’estimation. Ceci a l’avantage de gagner le temps surtout pour les données
ayant une taille élevée.
¡ 0 ¢−1 0
1/2
Théoréme 4.3.1. En supposant Z = V 1/2 B, Zk = Vk Bk et Hkk = Zk Z Z
Zk
pour k = 1, .., N . Après l’élimination du k ième groupe, une approximation
d’ordre un de â(k) est donnée par :
â1(k)
où
e∗k
³ 0 ´−1 0
= â − Z Z
Zk (1 − Hkk )−1 e∗k
1
(4.10)
h
¡ 0 ¢−1 0 −1/2 i
−1/2
= Vk
S k − Zk Z Z
ZV
S .
La démonstration est presque la même que celle du théorème (2.1). Afin
de faciliter le calcul, l’application del’équation (4.10) nous donne une formule
de calcul pratique de la distance de Cook qui s’écrit sous la forme suivante :
−1 2
e∗2
k Vkk Hkk
Ck (f ) =
(1 − Hkk )2
4.4
(4.11)
Le test polynomial
Dans la section précédente, nous avons approximé la fonction de lissage
par un polynôme de degré h, il parait naturel de tester l’adéquation de cette
hypothèse. En effet, on a besoin de tester si la relation de causalité entre
les variables est adéquatement modélisée par un polynôme du degré h. Par
100
exemple, si h = 1, il s’agit de tester la linéarité de la fonction non paramétrique f (x) dans le modèle de régression logistique semi paramétrique à
effets aléatoires (4.1). Ce test fournit un outil de contrôle de la qualité de
l’ajustement d’un modèle de régression logistique paramétrique simple contre
un modèle de régression logistique non paramétrique. Pour réaliser ce test,
il faut tout d’abord transformer le modèle de régression logistique semi paramétrique (4.1) sous la forme d’un modèle de régression logistique à effets
aléatoires totalement paramétrique et considérer ensuite l’inverse du paramètre de lissage τ comme une composante de la variance. L’application de
cette procédure nécessite de recourir aux approximations asymptotiques pour
prendre la décision d’accepter ou de rejeter l’hypothèse nulle.
Des études de simulation rapportées par Zhang et Lin (2003) ont montré que le test du score pour les variables qualitatives n’est pas puissant.
Comme solution, nous proposons d’utiliser la technique du test de Monte
Carlo Randomisé tel qu’elle a été développée par Dufour (2006), afin d’obtenir les résultats plus exacts.
4.4.1
Le test du score
Zhang et Lin (2003)ont développé une procédure basée sur le calcul d’une
statistique du score pour vérifier statistiquement l’approximation de la fonction non paramétrique f dans un modèle généralisé additif par un polynôme
de degré h = 1. Nous allons appliquer ce test dans le cas du modèle de régression logistique semi paramétrique à effets aléatoires. Cette procédure consiste
tout d’abord à transformer la fonction f sous la forme d’un modèle linéaire
à effets aléatoires composée par des bases de fonctions de puissances tronquées de degré h. La fonction f est un polynôme de degré h si et seulement
101
si le coefficients aléatoires dans le modèle transformé (4.4) sont nuls c-à-d la
variance de coefficients aléatoires sont nuls (τ = 0). Ce qui est équivalent à
tester ce corps d’hypothèse :
H0 : τ = 0 contre HA : τ > 0
(4.12)
Zhang et Lin (2003) ont montré que la statistique du score Uτ pour tester
l’hypothèse nulle H0 : τ = 0 dans le modèle de régression logistique semi
paramétrique à effets aléatoires transformé (4.4) prend la forme suivante :
U˛τ
¯
∂lM (τ, θ) ¯¯
=
¯
∂τ
τ =0
n
o¯
1
0
0
¯
∗
(Y − Xβ) V −1 BB V −1 (Y ∗ − Xβ) − tr(P BB) ¯ (4.13)
=
2
β̂,θ̂
où lM (τ, θ) est une fonction du log-vraisemblance marginale de τ et θ (par
l’intégration des effets aléatoires b et des effets fixes β), β̂ est l’estimateur
de maximum du vraisemblance de β, θ̂ est l’estimateur de maximum du
vraisemblance restreint de θ et Y ∗ = Xβ + Zb + µ(1 − µ)(Y − µ) est le
vecteur fonctionnel du modèle de régression logistique à effets aléatoires sous
l’hypothèse nulle qui prend la forme suivante :
µ
log
µ
1−µ
¶
= Xβ + Zb
(4.14)
Le modèle (4.14) peut être estimé par la méthode de quasi vraisemblance
pénalisée en supposant que W = diag{µ} est une matrice fonctionnelle de
102
poids sachant que l’espérance conditionnelle µ calculée sous l’hypothèse nulle
0
0
τ = 0. Nous signalons que P = V −1 − V −1 X(X V −1 X)−1 X est une matrice
0
de projection et V = W −1 + ZGθ Z est une matrice de variance covariance.
Les deux matrices P et V sont calculées aussi sous l’hypothèse nulle τ = 0.
Les estimateurs de paramètres β̂ et θ̂ du modèle (4.14) peuvent être déterminés en utilisant la commande (glmPQL) du package (MASS) et exécuté sur
le logiciel R.
Zhang et Lin (2003) ont prouvé que la statistique de score U˛τ converge
en loi vers une combinaison des lois de Khi-deux, sous l’hypothèse que la
taille d’échantillon tende vers l’infini. Les études de simulations réalisées par
Zhang et Lin (2003) ont montré que les approximations asymptotiques de
la statistique U˛τ conduisent souvent aux résultats biaisés dans le cas où la
variable d’intérêt est qualitative et pour une taille d’échantillon réduite. Pour
contourner cette lacune, nous proposons d’utiliser le test du Monte Carlo
Randomisé [Dufour (2006)] afin d’obtenir des procédures exactes.
4.4.2
Le test de Monte Carlo Randomisé
Pour dépasser la lacune de test du score surtout, lorsque la taille d’échantillon est réduite, nous avons opté pour l’utilisation de la procédure de Monte
Carlo Randomisé (MCR). Dans notre cas, le test du MCR peut être appliqué étant donné que la statistique de score U˛τ , sous l’hypothèse nulle est une
fonction pivotale continue (ne dépend pas de paramètres de nuisance).
Soit U˛0 une valeur de la statistique du score calculée sur la base des
données observées. La région critique associée à la taille nominale α peut
être exprimée en tant que G(U˛0 ) ≤ α tel que G(U˛0 ) = P (U ≥ U˛0 |H0 ) est
103
une fonction critique inconnue pour un test unilatéral à droite. G(U˛0 ) sera
estimée en générant sous l’hypothèse nulle, M réalisations indépendantes ou
à la rigueur interchangeables U˛1 , .., U˛M de la statistique U˛τ . Selon Dufour
(2006), le concept d’interchangeblité se définit comme suit :
Définition 4.4.1. On dit qu’un vecteur aléatoire U˛ = (U˛1 , .., U˛M ) est à composantes interchangeables si et seulement si la loi conjointe des composantes
est invariante sous toutes les permutations.
D’après cette définition, il est clair que les variables aléatoires interchangeables sont forcement équidistribues. Pour l’application de la technique de
test de MCR, on définit

M
 1, if z ∈ A
X
1
ĜM (U˛0 ) =
I[0,∞) (U˛i − U˛0 ), IA (z) =
 0, if z ∈
M i=1
/A
(4.15)
En d’autre terme, M ĜM (U˛0 ) est le nombre des statistiques simulées qui
sont supérieures ou égales à U˛0 . D’un autre côté R̂N (U˛0 ) = M −M ĜM (U˛0 )+1
représente le rang de U˛0 dans la série U˛0 , U˛1 , .., U˛M . La fonction critique
estimée est alors donnée par cette formule :
p̂M (U˛0 ) =
M ĜM (U˛0 ) + 1
M +1
(4.16)
Ainsi, la région critique d’un test de MCR associée au niveau nominal α
s’exprime par p̂M (U˛0 ) ≤ α telle que p̂M (U˛0 ) représente la probabilité empirique qu’une valeur supérieure à U˛0 est réalisée si l’hypothèse nulle est vraie.
104
Notons que le règle de décision du test de MCR peut être exprimé aussi en
terme de R̂M (U˛0 ). Ainsi la région critique
M ĜN (U˛0 )+1
M +1
< α est équivalente à
R̂M (U˛0 ) ≥ (M + 1)(1 − α) + 1.
Dufour (2006) a montré que si la distribution de la statistique considérée
sous l’hypothèse nulle ne dépend d’aucun paramètre inconnu et α(M + 1) est
un nombre entier alors la région critique contrôle le niveau dans le sens où
P [p̂M (U˛0 ) ≤ α] = α
(4.17)
h
i
P R̂M (U˛0 ) ≥ (M + 1)(1 − α) + 1 = α
(4.18)
Ou alternativement
La démonstration des équations (4.17) et (4.18) repose sur ce théorème
démontré par Dufour (2006) concernant la distribution de rangs associés à
un ensemble fini des statistiques interchangeables :
Théoréme 4.4.1. Considérant un vecteur des variables aléatoires interchangeables (y1 , .., yM ) tel que P (yi = yj ) = 0 pour i 6= j et soit Rj dénote le rang
de yj dans la série y1 , .., yM alors
·
¸
Rj
I[(1 − z)M ] + 1
P
≥z =
,
M
M
I(x) est un entier inférieur ou égal à x.
105
0<z<1
(4.19)
Dans ce qui suit, nous allons appliquer la procédure simulée de Monte
Carlo Randomisé pour tester le degré du polynôme dans le modèle de régression logistique semi paramétrique à effets aléatoires. En fait, le calcul de la
p-valeur de MCR pour tester le degré d’un polynôme dans le modèle (4.1) se
passe par les étapes suivantes :
1-Estimer le modèle (4.4) par l’ensemble de données initiales y (0) en calculant
les estimateurs de maximum du vraisemblance β̂, θ̂, τ̂
2-Obtenir la statistique de score basée sur β̂ et θ̂ en utilisant la formule (4.14)
et qu’on la note par U˛0 .
3-En fixant θ̂ et sous l’hypothèse nulle (4.13), nous répétons les étapes suivantes :
* Tirer un vecteur b̃(m) pour m = 1, .., M à partir de la loi Normale N (0, Gθ̂ ).
* Obtenir des variables indépendantes simulées Ỹ (m) = X β̂ + Z b̃(m) .
* Régresser Ỹ (m) sur X, Z et B (en utilisant le modèle (4.4)).
* Calculer les valeurs de la statistique de test du score correspondant U˛1 , ..., U˛M .
4- Soit R̂M (U˛0 ) le rang de U˛0 dans la série U˛0 , U˛1 , ..., U˛M , rejeter l’hypothèse
nulle H0 : τ = 0 si R̂M (U˛0 ) ≥ (M + 1)(1 − α) + 1.
En pratique, le nombre des essais M doit être fixé de sorte que α(M +
1) soit un nombre entier (par exemple, pour α = 0, 05 on prend M =
19; 39; 99; ...). L’application de test de MCR à niveau nominal 5% se réalise aisément en utilisant M = 99 réalisations. Dans ce cas, le test MCR est
significatif si le rang de U˛0 dans la série U˛0 , U˛1 , .., U˛M est égal au moins à 96
ou informellement si U˛0 se trouve au top 5% de centile. La p-valeur de MCR
s’obtient p̂M (U˛0 ) =
M +1−R̂M (U˛0 )
.
M +1
Le test de MCR peut être interprété comme une méthode de bootstra-
106
pappliquée aux statistiques dont la distribution nulle ne dépend pas des paramètres de nuisances. Cependant, l’information additionnelle centrale que la
randomisation nous permet de commander exactement la taille de test pour
un nombre réduit des réalisations de MCR. Pour davantage de discussion sur
les tests de Monte Carlo (sa relation avec bootstrap), voir Kiviet et Dufour
(1997), Dufour et Farhat (1998), Dufour et Lynda (2002) et Dufour (2006).
4.5
Etude de simulation
Dans cette section, nous réalisons une étude de simulation pour comparer
la performance de deux procédures du test polynomial : le test du score et le
test de Monte Carlo Randomisé. Cette étude consiste à évaluer empiriquement la performance de test du degré d’un polynôme dans un modèle de régression logistique semi paramétrique à effets aléatoires. Comme un exemple
illustratif, nous considérons de tester la linéarité d’une variable explicative
dans le modèle de régression logistique semi paramétrique à effets aléatoires
(4.1). En transformant le modèle de régression logistique semi paramétrique
à effets aléatoires sous la forme d’un modèle de régression logistique à effets aléatoires, le test polynomial revient à réaliser un test de nullité de la
variance d’un effet aléatoire.
Cette étude de simulation vise à tester si f (x) est un polynôme du premier
degré. Dans une première étape, nous appliquons le test de score asymptotique tel qu’il a été proposé par Zhang et Lin(2003). Dans une deuxième
étape, nous formulons le test de Monte Carlo.
Conditionnellement aux effets aléatoires du groupe bi ∼ N (0, σb I) avec
107
σb = 0.5 et σb = 1, des données binaires de variable expliquée yij avec
((i = 1, ..., N et j = 1, .., n) sont générées respectivement selon le modèle
suivant :
µ
log
µij
1 − µij
¶
= α0 + sij α1 + f (xij ) + bi
(4.20)
Les données de la variable explicative sij ont été générées selon la loi
Normale N (0, 0.1), par contre les données de la variable explicative xij ont
été générées selon la loi Uniforme (U [0, 1]). Les vraies valeurs des paramètres
α0 et α1 ont été prises α0 = 1 et α1 = 2. Deux tailles d’échantillon ont
été utilisées (N = 2, n = 5) et (N = 4, n = 5). Cinq fonctions de f (x)
ont été considérées telle que fc (x) = (0.25c)x. exp(2 − 2x) − x + 0.5 , pour
c = (0, 1, 2, 3, 4). Notant que lorsque c = 0 alors fc (x) est une fonction linéaire
de la variable x et lorsque le paramètre c devient plus élevé alors la fonction
fc (x) se dévie plus de la forme linéaire, comme l’indique la figure (4.1).
Pour chaque ensemble de données simulées, nous avons appliqué les procédures de test du score asymptotique (Asy) et le test de Monte Carlo Randomisé (M CR). Les résultats de simulation sont basés sur 1000 réplications.
Pour tester si f (x) est une fonction linéaire de x, la taille empirique et
la puissance de chaque procédure du test polynomial sont calculées en fixant
l’hypothèse nulle H0 : c = 0 contre une hypothèse alternative H1 : c 6= 0. Pour
établir le test de MCR nous avons utilisé 19 essais. Toutes les expériences
ont été exécutées en utilisant le logiciel R (Voir annexe 4)
Les résultats de simulation sont présentés dans la table (4.1) et (4.2).
108
1.5
1
f(x)
0.5
0
c=0
c=1
c=2
c=4
c=3
−0.5
−1
−1.5
0
0.2
0.4
0.6
0.8
1
x
1.2
1.4
1.6
1.8
Fig. 4.1 – Les fonctions fc (x) avec c = (0, 1, 2, 3, 4) simulées pour tester le
degré de polynôme dans le modèle de régression logistique semi paramétrique
Ces deux tables rapportent les pourcentages de rejet de l’hypothèse nulle par
rapport à 1000 réplications pour un niveau nominal de 5%.
Selon la table (4.1), nous constatons que le niveau empirique de test du
score asymptotique est égal à 0.031 qui est nettement différent du niveau
nominal 0.05. Ce qui donne l’impression que le test du score n’est pas fiable
pour tester le degré du polynôme lorsque la variable expliquée est qualitative.
La comparaison entre les deux tables (4.1) et (4.2), nous induit à conclure
que l’augmentation de la taille d’échantillon rend les niveaux empiriques plus
proches des niveaux nominaux, tandis que la variance de l’effet spécifique
semble avoir une faible influence sur ces tests.
109
2
Variances
Tests
d’effets aléatoires
σb = 0.05
σb = 1
Tailles
Puissances
c=0
c=1
c=2
c=3
c=4
Asy
0.031
0.073
0.167
0.260
0.511
MC
0.054
0.291
0.711
0.887
1.000
Asy
0.045
0.068
0.120
0.271
0.442
MC
0.051
0.325
0.741
0.910
1.000
Tab. 4.1 – Niveaux et puissances empiriques de deux tests de linéarité de la
fonction f dans le modèle (4.20) avec N = 2 et n=5
Variances
Tests
σb = 1
Puissances
c=0
c=1
c=2
c=3
c=4
Asy
0.042
0.095
0.211
0.310
0.621
MC
0.052
0.325
0.812
0.970
1.000
Asy
0.044
0.077
0.211
0.314
0.511
MC
0.050
0.301
0.805
0.960
1.000
d’effets aléatoires
σb = 0.05
Tailles
Tab. 4.2 – Niveaux et puissances empiriques de deux tests de linéarité de la
fonction f dans le modèle (4.20) avec N = 4 et n=5
En ce qui concerne la puissance, nous constatons que le test de MCR a
une puissance plus élevée. En outre, nous remarquons que l’augmentation de
la variance de l’effet spécifique a entraîné une diminution de la puissance.
Comme il est prévu, l’augmentation de la taille d’échantillon a amélioré la
puissance globale.
Nos résultats de simulation prouvent que la procédure de MCR a amélioré
la performance du test du score dans le modèle de régression logistique semi
paramétrique pour des différents niveaux de la variance des effets aléatoires.
D’après les tables (4.1) et (4.2), nous remarquons que le test de MCR réalise
110
un meilleur contrôle de la taille.
D’autre part, la puissance du test de MCR est très élevée et n’est pas
sensiblement affectée par le changement du niveau de la variance d’effet aléatoire. Comme il est prévu, l’augmentation de la taille d’échantillon améliore la
puissance globale du test. A travers cette étude de simulation, nous vérifions
empiriquement que le test MCR est un test exact dans le sens que la probabilité du rejet l’hypothèse nulle sachant qu’elle est vraie, est toujours égal au
niveau nominal du test. Notons que la forte puissance du test de MCR, est
dû au faite que les valeurs critiques simulées de test MCR sont précises même
lorsqu’on utilise un nombre modéré des simulations. En réalité, la technique
du MCR corrige la distorsion du niveau qui est dûe à la mauvaise approximation de la loi de la statistique du test. En guise de conclusion, il intéressant
de mentionner que notre étude de simulation a prouvé que le test du MCR
est plus puissant que le test du score asymptotique.
Dans la simulation courante, nous avons considéré seulement un test de
linéarité. Cependant dans la pratique, nous pouvons tester un degré de polynôme plus élève (h > 1) en considérant des différentes valeurs de h.
4.6
Application : Anticipation de la détresse financière
Après avoir déterminé dans le chapitre précédent une fonction de score
à partir d’un modèle de régression logistique paramétrique, nous essayons
de chercher si les liens non linéaires seraient plus appropriés. Ainsi, nous
recourons à la représentation des nuages des points des variables de l’étude.
111
Contrairement à la régression linéaire, il n’est pas utile de tracer directement
les données de X contre celles de Y . Cependant l’hypothèse de la linéarité
dans le modèle de régression logistique, implique que les nuages de points du
³
´
=1/X)
rapport de chances PP (Y
et les variables explicatives X doivent avoir
(Y =0/X)
4
2
0
−6
−2
logit
0
−2
−6
logit
2
4
une forme linéaire.
0
500
1000
1500
2000
0e+00
1e+06
4
2
0
logit
−6
−2
2
0
−2
−6
logit
3e+06
datapq$R20
4
datapq$R15
2e+06
−60
−40
−20
0
20
datapq$R21
0
1000
2000
3000
datapq$R23
Fig. 4.2 – Les nuages des points des variables explicatives et de leurs logits
112
4000
4.6.1
La fonction logistique semi paramétrique de score
D’après la figure (4.2), Les nuages des points les données des ratios en
fonction des valeurs des rapports de chances correspondants montrent que les
données de variables R7 , R9 , R10 , R20 , R23 ont une liaison linéaire avec leurs
rapports de chances tandis que les données de la variable R21 a une relation
non linéaire. Sur la base de ces constats tirés à partir de la figure (4.2), il est
intéressant de considérer une modification de la variable R21 dans le modèle
de régression. Ainsi, le modèle de régression logistique semi paramétrique
s’écrit sous la forme suivante :
µ
log
pi
1 − pi
¶
= β1 R7,i + β3 R9,i + β4 R10,i + β4 R14,i
+β5 R15,i + β6 R20,i + f (R21,i )
(4.21)
avec pi = P (yi = 1|Ri ), pour(i = 1, ..., n) est la probabilité a posteriori
d’appartenance au groupe d’entreprises en détresse, β est un coefficient inconnu et f est une fonction de lissage inconnue. D’après le nuage des points de
la variable R21 , il semble que la relation entre cette variable et les rapports
de chances prend une forme quadratique. Par conséquent, nous proposons
d’approximer la fonction de lissage f par des bases de fonctions puissances
tronquées du seconde degré :
f (R21,i ) = δ0 + δ1 R21,i +
2
δ2 R21,i
+
K
X
bk (R21,i − κk )2+
(4.22)
k=1
où κ1 , ..., κK est un ensemble de noeuds distincts tirés des observations de
113
la variable R21 et X+ = max(0; X). Le nombre de noeuds K est assez grand
(d’ordre K ≥ 30) pour assurer l’exigibilité de la courbe.
En suivant l’approche de Wand et Ngo (2004), le modèle de régression
logistique semi paramétrique s’écrit sous la forme du modèle de régression
logistique à effets aléatoires. En effet, en remplaçant l’équation (4.22) dans
(4.21), on obtient le modèle suivant :
µ
log
pi
1 − pi
¶
= δ0 + δ1 R21,i + δ2 (R21,i )2 + β1 R7,i + β3 R9,i
+β4 R14,i + β5 R20,i +
K
X
bk (R21,i − κk )+
(4.23)
k=1
Pour écrire le modèle (4.23) sous la forme matricielle, nous désignons
par :


1 R21,1 (R21,1 )2 .. R20,1


a)X =  :
:
:
:

1 R21,n (R21,n )2 .. R20,n
variables explicatives,


b) Z = 



 est une matrice composée par les

(R21 − κ1 )+ ... (R21 − κK )+
:
:



 est une matrice (n, K) composée

(R2n − κ1 )+ ... (R2n − κK )+
par les bases,
0
c) β = (δ0 , δ1 , δ2 , β1 , β3 , β4 , β5 ) est un vecteur des paramètres inconnus,
0
d) b = (b1 , ..., bK ) est un vecteur composé par les coefficient associés à la
matrice Z et
0
f) P = (P (y1 = 1), ..., P (yn = 1)) est le vecteur des probabilités a posteriori.
114
Le modèle (4.23) admet une représentation matricielle sous la forme suivante :
µ
log
P
1−P
¶
= Xβ + Zb
(4.24)
Selon l’approche de Wand et Ngo (2003), l’estimation du modèle de régression
logistique semi paramétrique (4.24) revient à estimer le modèle de régression
logistique à effets aléatoires en supposant que le vecteur des effets aléatoires
b normalement distribués N (0, Gθ ).
Pour l’estimation des paramètres β et θ nous pouvons utiliser la méthode
de Quasi-Vraisemblance Pénalisée (PQL) développée par Breslow et Clayton
(1993). L’application de la méthode PQL consiste à définir le vecteur fonctionnel par Y ∗ = Xβ + Zb + ∆(Y − P ) avec ∆ = diag{pi (1 − pi )} et on
0
définit aussi la matrice fonctionnelle de poids par Σ = W −1 + ZGθ Z , avec
W = diag{pi }.
La table (4.3) rapporte les résultats d’estimation du modèle (4.24) pour
les données de notre échantillon. Le pouvoir discriminant du ratio Rk est
défini par le rapport :
σ 2 α2
Pk 2k 2
σk α k
avec σk est l’écart type du ratio Rk . Il exprime
l’influence du ratio dans la fonction de score. D’après la table (4.3), les ratios
R9 et R10 jouent un rôle capital dans la formation de la fonction de score
des entreprises puisque ce ratio a un pouvoir discriminant de l’ordre de 99%.
D’après la table (4.3), nous remarquons que l’effet estimé de la variable R9 (la
rentabilité économique) a un signe positif. Cela signifie que l’augmentation
des frais financiers fait diminuer la rentabilité économique ce qui explique
l’accroissement de la probabilité d’être en détresse. Par contre la variable
R10 (la rentabilité des capitaux investis) présente un signe négatif ce qui
115
induit que l’augmentation des résultats net implique une augmentation de
risque de défaillance.
Les ratios
Valeurs estimés
(cst)
-2.0467
R 7 : Rotation de l’actif
0.2795
R 9 : Rentabilité économique
Pouv. discrim.
t value
p value
-18.687
0.0000
0.0017
3.846
0.0001
9.8834
0.5277
8.164
0.0000
R 10 : Rentabilité des capitaux
-12.4510
0.4674
-8.210
0.0000
R 14 : Taux de rentabilité
0.03277
0.0000
1.742
0.0815
R 15 : Rotation des capitaux
-0.19147
0.0000
-4.691
0.0000
R 23 :Ratio de charges financières
-0.83057
0.0031
-2.538
0.0112
Tab. 4.3 – les estimateurs du modèle de régression logistique semi paramétrique
La partie non paramétrique du modèle (4.21) permet de détecter un effet
de seuil de ratios sur la probabilité d être en détresse. Dans l’estimation
du modèle semi paramétrique nous avons approximé la forme du graphe de
f (R21 ) par un polynôme du second degré. La figure (4.3) représente la courbe
de la fonction f (R21 ) estimée de la variable capacité d’endettement à long
terme avec son intervalle de confiance à 95%. D’après ce graphe, pour un
seuil inférieur à 1, la probabilité de détresse est une fonction décroissante de
la capacité d’endettement à long terme et pour un seuil supérieur à 1, elle
devient croissante.
La forme quadratique entre la probabilité de détresse et la variable X2 est
une proposition qui nécessite d’être vérifiée statistiquement en utilisant un
test polynomial. Par la suite, nous sommes intéressés à tester l’hypothèse
116
nulle H0 : f (R21 ) est une fonction de lissage quadratique contre l’hypothèse alternative H1 : f (R21 ) est une fonction de lissage non quadratique.
En d’autres termes, on cherche à répondre à cette question : " Est ce que
les données de la réserve sont-elles ajustées adéquatement par une fonction
quadratique ?".
Nous avons appliqué le test du score asymptotique développé par Zhang et
Lin (2003) aux données de notre étude. Nous avons obtenu que la statistique
du score calculée est égale à U˛τ = 5.73. Cette statistique est supérieure à la
quantile d’une combinaison des lois de Khideux de degré un et deux qui est
égale à 1.30. Ce résultat fournit une forte évidence que la p-valeur est égale
à 0.026. Par conséquent, l’hypothèse nulle H0 est acceptée.
Les mêmes données ont été utilisé pour tester le degré du polynôme dans
le modèle de régression logistique semi paramétrique (4.21) en appliquant
le test de Monte Carlo Randomisé que nous avons développé dans la section précédente. Les résultats obtenus montrent que la p-valeur de MCR est
égale à p̂M (U˛0 ) = 0.750 pour M = 99. Comme on a p̂M (U˛0 ) ≥ α alors on
accepte l’hypothèse nulle H0 pour un niveau nominal α = 0.05. Rappelons
que l’acceptation de l’hypothèse nulle H0 signifie que f (R21 ) est une fonction
quadratique.
4.7
La validation des fonctions de score de la
détresse
Après avoir déterminé des fonctions de score de la détresse, il faut en
évaluer leurs efficacités. Nous pouvons le faire par les tests du pouvoir dis117
criminant et les tests du pouvoir prédictif. Ainsi, nous allons calculer le taux
d’erreur de classement et tracer la courbe de ROC "Receiver Operating Caracteristic" en calculant les indices associés tels que l’aire sous la courbe de
ROC.
Pour évaluer la capacité à bien classer le modèle, nous pourrons construire
une colonne prédiction Ŷ , puis une colonne erreur (Y −Ŷ ), comptabiliser le
nombre de mauvais classement et enfin déduire le taux d’erreur. Il est plus
judicieux de construire ce que l’on appelle une matrice de confusion (la table
4.4).
Ŷ = 1
Ŷ = 0
Total
Y=1
n11
n10
n1
Y=0
n01
n00
n0
Tab. 4.4 – Matrice de confusion
Elle confronte toujours les valeurs observées de la variable dépendante
avec celles qui sont prédites, puis comptabilise les bonnes et les mauvaises
prédictions. L’intérêt de la matrice de confusion est qu’elle permet à la fois
d’appréhender le taux d’erreur et de se rendre compte de la structure de
l’erreur (la manière de se tromper du modèle).
Nous rappelons que le taux d’erreur de classement est égal au nombre
de mauvais classement rapporté à l’effectif total. D’après la table (4.5), le
taux d’erreur de classement est égal à 14% pour le modèle de régression
logistique semi paramétrique et 11.9% pour le modèle de régression logistique
à effets aléatoires c.à.d une amélioration de prédiction de 3.1%. Ce qui prouve
118
La régre. logistique à effets aléat.
La régre. logistique semi
Ŷ = 1
Ŷ = 0
Total
Ŷ = 1
Ŷ = 0
Total
Y =1
24
14
38
6
3
9
Y =0
65
510
575
83
521
604
Le taux d’erreur
0.128
0.140
Tab. 4.5 – Matrice de confusion des modèles estimés pour l’échantillon test
l’importance de l’intégration des effets sectoriels dans le calcul de risque de
la détresse.
De même dans le but de comparer le modèle de la régression logistique
semi paramétrique et le modèle de la régression logistique à effets aléatoires,
nous présentons la courbe ROC de chaque modèle. Ce courbe est un outil
graphique qui permet d’évaluer et de comparer globalement le comportement
des fonctions de scores (Pepe (2000)). La courbe ROC met en relation le taux
de vrais positifs (T V P = n11 /n1 ) (la sensibilité) qui indique la capacité du
modèle à retrouver les positifs et le taux de faux positifs (T F P = n10 /n0 ) qui
correspond à la proportion de négatifs qui ont été classés positifs, dans un
graphique de nuage de points. Habituellement, nous comparons p̂ à un seuil
s = 0.5 pour effectuer une prédiction Ŷ . Nous pouvons ainsi construire la
matrice de confusion et en extraire les 2 indicateurs précités. La courbe ROC
généralise cette idée en faisant varier s pour toutes les valeurs possibles entre
0 et 1. Pour chaque configuration, nous construisons la matrice de confusion
et nous calculons le TVP et le TFP.
Dans la pratique, il n’est pas nécessaire de construire explicitement la
matrice de confusion, nous procédons de la manière suivante :
119
1. Calculer le score p̂ de chaque individu à l’aide du modèle de prédiction.
2. Trier le fichier selon un score décroissant.
3. Considérons qu’il n’y a pas d’ex-aequo. Chaque valeur du score peut être
potentiellement un seuil s. Pour toutes les observations dont le score est
supérieur ou égal à s, les individus dans la partie haute du tableau, nous
pouvons comptabiliser le nombre de positifs n11 (s) et le nombre de négatifs
n10 (s). Nous en déduisons (T V P = n11 (s)/n1 ) et (T F P = n10 (s)/n0 ).
4. La courbe ROC correspond au graphique nuage de points qui relie les
couples (TVP, TFP). Le premier point est forcément (0,0), le dernier est
(1,1). La procédure de calcul du nuages des points de la courbe ROC a été
effectué avec le logiciel R.
D’après la courbe ROC,(la figure (4.4)), il est évident que la règle de
classification basée sur la régression logistique à effets aléatoires est plus
performante que celle basée sur la régression logistique semi paramétrique.
Ceci nous amène à conclure la validité de la fonction de score issue du modèle
de la régression à effets aléatoires.
Il est possible de caractériser numériquement la courbe ROC en calculant
la surface située sous la courbe. C’est le critère d’aire sous la courbe ROC
(AUC, pour Area Under Curve). Elle exprime la probabilité de placer un
individu positif devant un négatif. Ainsi, dans le cas d’une discrimination
parfaite AU C = 1, les positifs sont sûrs d’être placés devant les négatifs. Au
contraire, si AU C = 0.5 le classificateur attribue des scores au hasard, il y
a autant de chances de placer un positif devant un négatif que l’inverse. La
courbe ROC se confond avec la première bissectrice. C’est la situation de
référence, notre classificateur doit faire mieux.
120
L’(AUC) mesure la qualité de discrimination du modèle et traduit la
probabilité qu’une entreprise saine ait un score supérieur au score d’une entreprise en détresse, ceux-ci étant tirés au hasard. L’AUC du modèle de régression logistique semi paramétrique est égale à 0.684 par contre l’AUC de
la régression logistique à effets aléatoires est égale à 0.811 ; ces deux valeurs
sont très proches de un.
4.8
Conclusion
Ce chapitre a été consacré à la présentation du modèle de régression logistique semi paramétrique à effets aléatoires en mettant l’accent sur l’apport
du test de Monte Carlo Randomisé (MCR) dans la confirmation du choix
du degré de polynôme. L’approche de simulation de MCR nous permet d’introduire un nouveau test qui diffère des tests existants dans la littérature en
deux aspects : Premièrement, ce test est exact dans le sens que la probabilité de rejeter l’hypothèse nulle, sachant qu’elle est vraie, est toujours égale
au niveau nominal. Deuxièmement, cette approche permet d’obtenir un test
aléatoire basé sur la simulation des statistiques du test sous l’hypothèse nulle
et en utilisant un nombre restreint des essais de MCR. La faisabilité de cette
approche proposée a été illustrée à travers une expérience de simulation. Les
résultats empiriques obtenus prouvent que le test du score asymptotique pour
le modèle de régression logistique semi paramétrique à effets aléatoires n’est
pas fiable par contre le test de (MCR) réalise un contrôle meilleur de la taille
et a une puissance plus élevée.
Nous avons illustré ces méthodes par une étude empirique basée sur des
données relatives à des entreprises tunisiennes. En utilisant des ratios finan-
121
cières, nous avons réalisé une recherche exploratoire des nouvelles relations
fonctionnelles entre les ratios et la probabilité de la détresse. Ces relations
fonctionnelles ont été estimées à travers le modèle de régression logistique
semi paramétrique à effets aléatoires qui est un modèle alternatif flexible
pour la prévision de faillite.
Une fois les fonctions de scores sont élaborées, nous avons montré qu’elles
jouissent d’un pouvoir discriminant et prédictif. Pour ce faire, nous avons utilisé un processus de validation. Ce processus sert à estimer les performances
du modèle qui vient d’être construit sur un jeu de données. Ainsi, nous avons
élaboré la courbe de ROC.
122
15
10
s(X2,2)
5
0
−5
−1.0
−0.5
0.0
0.5
1.0
X2
Fig. 4.3 – La courbe de la fonction estiméef (R21 )
123
1.5
2.0
1.0
0.8
0.6
0.0
0.2
0.4
sensibilité
0.6
0.4
0.2
0.0
sensibilité
0.8
1.0
La courbe ROC de régression logistique semiparamétrique
La courbe ROC de(AUC=0.684)
régression logistique à effets aléatoires (AU
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
1−spécificité
0.4
0.6
1−spécificité
Fig. 4.4 – Les courbes ROC des modèles établis
124
0.8
1.0
Conclusion générale
Les travaux de recherche que nous avons menés dans le cadre de cette
thèse portent sur le traitement de données groupées binaires. C’est dans ce
contexte que nous avons présenté le modèle de régression logistique semi paramétrique à effets aléatoires comme un outil de modélisation des relations
de causalité entre une variable expliquée qualitative et des variables explicatives. En fait, ce modèle est une extension du modèle de régression logistique
à effets aléatoires en introduisant une fonction de lissage non paramétrique
dans le prédicteur.
Dans ce travail, nous nous sommes intéressé à énumérer les différentes
approches d’estimation des paramètres des modèle de régression logistique
semi paramétrique à effets aléatoires et, en particulier, à l’estimation des
fonctions de lissage de la partie non paramétrique. Pour répondre à la question de l’estimation des paramètres dans ces modèles, nous avons eu recours
à l’utilisation de la méthode du maximum de vraisemblance. Or, dans notre
cas précis trois problèmes se posent :
-La distribution de la variable aléatoire qui modélise les caractéristiques non
observables est difficile à décrire. Nous supposons souvent que l’effet aléatoire suit la loi Normale. L’estimation sera basée sur la méthode du maxi-
125
mum de vraisemblance marginale. Cette fonction marginale peut être évaluée
en utilisant des techniques d’approximation telles que la méthode de quasi
vraisemblance pénalisée ou la méthode de Espérance Maximisation Monte
Carlo.
- La présence d’observations aberrantes rend les estimateurs du modèle biaisés. Pour dépasser cette lacune, nous avons proposé d’utiliser la méthode du
maximum de vraisemblance robuste.
- Le choix de la technique adéquate pour l’estimation des fonctions de lissage
non paramétrique. Nous avons montré la simplicité et l’efficacité des bases
de fonctions puissance tronquées pour déterminer les fonctions non paramétriques inconnues.
Notre thèse s’inscrit dans une perspective de mise en place des méthodes
d’estimation robuste et défendable qui ont pour objectif de résoudre en partie ces problèmes. Pour cela, nous avons discuté les différentes approches
d’estimation qui mèneront, en tout état de cause, à des résultats différents.
Ces différences sont justifiées par le biais d’approximations réalisées selon les
raisonnements et les instruments d’analyse.
Pour l’estimation du modèle de régression logistique semi paramétrique
à effets aléatoires, nous avons suivi une démarche qui consiste à transformer
ce modèle à la structure du modèle de régression logistique à effets aléatoires totalement paramétrique et à traiter l’inverse du paramètre de lissage
comme une composante de la variance. En d’autre terme, nous avons proposé
d’approximer la fonction non paramétrique par un polynôme du degré fixe
composé par des fonctions de bases tronquées.
126
Le choix du degré de ce polynôme est une proposition qui nécessite d’être
vérifiée par un test d’hypothèse. Zhang et Lin (2003) ont développé une statistique du score pour tester la nullité de l’écart type de l’effet aléatoire. La
distribution de cette statistique a été approximée par une combinaison des
lois de Khi-deux. Leurs études de simulation ont montré que la performance
du test de score est moins satisfaisante lorsque les données de la variable
expliquée sont binaires. Ce résultat est dû principalement à la mauvaise approximation de la fonction de vraisemblance et à l’utilisation de l’hypothèse
de la normalité pour déterminer la distribution statistique du score.
Pour améliorer le test du score, nous avons développé une procédure basée sur simulation pour la dérivation d’une p-valeur exacte du test de degré
d’un polynôme dans un modèle de régression logistique à effets aléatoires.
Ainsi, nous avons exploité le fait que la statistique du score est une fonction pivotale sous l’hypothèse nulle pour appliquer la technique du test de
Monte Carlo Randomisé. L’efficacité de cette approche proposée a été illustrée à travers une expérience de simulation. Les résultats empiriques obtenus
prouvent que le test du score asymptotique de degré du polynôme dans le
modèle de régression logistique semi paramétrique à effets aléatoires n’est pas
fiable par contre le test de MC réalise un meilleur contrôle de la taille et a une
puissance plus élevée. Il est important de souligner qu’avec les installations
informatiques modernes, la procédure de MCR est facile à mettre en oeuvre.
Il est intéressant pour les futures recherches de développer une statistique exacte du score en utilisant d’autres approximations numériques, par
exemple, l’approximation par la quadrature adaptative gaussienne. Cependant, nous avons constaté que le test du score est sensible aux points aber-
127
rants. Récemment, Qin et Zhu (2008) ont développé une méthode d’estimation robuste des paramètres du modèle généralisé semi paramétrique à effets
aléatoires en transformant la fonction non paramétrique par des fonctions
de B-spline. En effet, ils ont fait plus d’attention à l’estimation robuste des
coefficients de B-spline et de variances des effets aléatoires par la méthode Mestimateur. Il est intéressant pour les futures recherches de prolonger le test
de Monte Carlo Randomisé en considérant une statistique du score robuste.
Ce modèle de la régression logistique a été illustré à travers une application réelle concernant l’anticipation de la détresse des entreprises. En utilisant des données comptables et financières, nous avons calculé une fonction
de score par la méthode de régression logistique à effets aléatoires en considérant la détresse financière comme une variable expliquée discrète. L’objectif
de ce modèle est de capturer des effets inaperçus qui sont dûs à l’hétérogénéité des entreprises de la population étudiée. En d’autres termes, nous avons
mis en évidence les déterminants inobservables de la détresse financière de
chaque secteur de l’échantillon étudié.
Dans une deuxième étape, nous avons réalisé une recherche exploratoire de
nouvelles relations fonctionnelles entre les ratios et la probabilité de détresse.
Ces relations fonctionnelles ont été estimées à travers le modèle de régression
logistique semi paramétrique. Par la suite, nous avons présenté le modèle de
régression logistique semi paramétrique comme un modèle alternatif flexible
pour la prévision de faillite.
Une fois la fonction de score est élaborée, nous avons montré que ce modèle
jouit d’un pouvoir discriminant et prédictif. Pour cela, nous avons utilisé un
128
processus de validation. Ce processus sert à estimer les performances futures
du modèle qui vient d’être construit sur un jeu de données. Ainsi, nous avons
élaboré la courbe de ROC.
Dans notre étude, nous avons visé plus particulièrement à attirer l’attention, d’un part sur l’aspect non linéaire des relations entre les ratios et
la probabilité de la détresse et d’un autre part sur le caractère temporel et
spatial de la fonction de scoring notamment sur le niveau de la pondération
des ratios. Il est intéressant pour des futures recherches de développer des
fonctions de scores plus raffinées en traitant des autres formes de relations
linéaires en augmentant le taille d’échantillon des entreprises étudiées
129
130
Annexe 5
Ratios
Libellées
R1
Stock brut / Total des actifs
R2
Durée de crédit accordé au client (TVA 18%)
R3
Taux de marge brute
R4
Taux de marge d’exploitation
R5
Ratio de charges du personnel
R6
Ratio de marge nette
R7
Rotation de l’actif
R8
Rotation des fonds propres
R9
Rentabilité économique
R10
Rentabilité des capitaux investis ou taux de rendement de l’actif
R11
Rentabilité d’exploitation de l’actif total
R12
Rentabilité économique brute
R13
Rentabilité économique nette
R14
Taux de rentabilité des capitaux propres
R15
Rotation des capitaux permanents
R16
Rentabilité des capitaux permanents
R17
Taux d’endettement à long terme
R18
Ratio d’indépendance financière
R19
Taux d’endettement global
R20
Couverture des immobilisations par les fonds propres
131
R21
Capacité d’endettement à long et à moyen terme
R22
Ratio de charges financières
R23
Charges financières / Dettes financières
R24
Ratio de liquidité générale (de FR)
R25
Ratio de liquidité relative
R26
Ratio de liquidité immédiate
132
Bibliographie
Altman, E. I. (1968). Financial ratios, discriminant analysis and the prediction of corporate bankruptcy. The Journal of Finance, 23(4) :589–609.
Anderson, D. A. and Aitkin, M. (1985). Variance component models with
binary response : Interviewer variability. Journal of the Royal Statistical
Society. Series B (Methodological), 47(2) :203–210.
Banerjee, M. and Frees, E. W. (1997).
longitudinal models.
Influence diagnostics for linear
Journal of the American Statistical Association,
92(439) :999–1005.
Bardos, M. and Zhu, W. H. (1997). Comparaison de l’analyse discriminante
linéaire et des réseaux de neurones. application à la détection de défaillance
d’entreprises. Revue Statistique Appliquée.
Beaver, W. H. (1966). Financial ratios as predictors of failure. Journal of
Accounting Research, 4 :71–111.
Beckman, R. J., Nachtsheim, C. J., and Cook, R. D. (1987). Diagnostics for
mixed-model analysis of variance. Technometrics, 29(4) :413–426.
Breslow, N. and Clayton, D. G. (1993). Approximate inference in generalized
linear mixed models. J. Am. Statist. Ass., 88 :9 – 25.
133
Chatterjee, S. and Hadi, A. S. (1986). Influential observations, high leverage
points, and outliers in linear regression. Statistical Science, 1(3) :379–393.
Chava, S. and Jarrow, R. A. (2004). Bankruptcy Prediction with Industry
Effects. Review of Finance, 8(4) :537–569.
Christensen, R., Pearson, L. M., and Johnson, W. (1992). Case-deletion
diagnostics for mixed models. Technometrics, 34(1) :38–45.
Cook, R. D. (1977). Detection of influential observation in linear regression.
Technometrics, 19(1) :15–18.
Cook, R. D. and Weisberg, S. (1983). Diagnostics for heteroscedasticity in
regression. Biometrika, 70(1) :1–10.
Crainiceanu, C., Ruppert, D., Claeskens, G., and Wand, M. P. (2005). Exact
likelihood ratio tests for penalised splines. Biometrika, 92(1) :91–103.
Crainiceanu, C. M. and Ruppert, D. (2004). Likelihood ratio tests in linear mixed models with one variance component. Journal of the Royal
Statistical Society. Series B (Statistical Methodology), 66(1) :165–185.
DeBoor, C. (1978). A practical guide to splines. Springer-Verlag New York.
Dempster, A., Laird, N., and Rubin, D. (1977). Maximum likelihood from
incomplete data via the em algorithm. Journal of the Royal Statistical
Society. Series B (Methodological), 39(1) :1–38.
Dufour, J.-M. (2006). Monte carlo tests with nuisance parameters : A general
approach to finite-sample inference and nonstandard asymptotics. Journal
of Econometrics, 133(2) :443–477.
134
Dufour, J.-M. and Farhat, A. (1998). Simulation-based finite sample normality tests in linear regressions. Econometrics Journal, 1(2) :154–173.
Dufour, J.-M. and Khalaf, L. (2002). Simulation based finite and large sample
tests in multivariate regressions. Journal of Econometrics, 111(2) :303–322.
Eilers, Paul H. C. et Marx, B. D. (1996). Flexible smoothing with b-splines
and penalties. Statistical Science, 11(2) :89–102.
Fellner, W. H. (1986). Robust estimation of variance components. Technometrics, 28(1) :51–60.
Foulley, J., Jaffrézic, F., and Robert-Granié, C. (2000). Em-reml estimation
of covariance parameters in gaussian mixed models for longitudinal data
analysis. Genet. Sel. Evol., 32(2) :129–141.
Fung, W.-K., Zhu, Z.-Y., Wei, B.-C., and He, X. (2002). Influence diagnostics
and outlier tests for semiparametric mixed models. Journal of the Royal
Statistical Society. Series B (Statistical Methodology), 64(3) :565–579.
Greene, W. (1991). Econométrie. Pearson education.
Harvey, W. R. (1970). Estimation of variance and covariance components in
the mixed model. Biometrics, 26(3) :485–504.
Haslett, J. and Dillane, D. (2004). Application of ’delete = replace’ to deletion
diagnostics for variance component estimation in the linear mixed model.
Journal of the Royal Statistical Society. Series B (Statistical Methodology),
66(1) :131–143.
He, X. and Shi, P. (1996). Bivariate tensor-product b-splines in a partly
linear model. Journal of Multivariate Analysis, 58(2) :162–181.
135
Heckman, N. E. (1986). Spline smoothing in a partly linear model. Journal
of the Royal Statistical Society. Series B (Methodological), 48(2) :244–248.
Hedeker, R. and Gibbons, R. D. (1996). Mixor : a computer program for
mixed-effects ordinal regression analysis. Computer Methods and Programs
in Biomedicine, 49(2) :157 – 176.
Henderson, C. R. (1975). Best linear unbiaised estimators and prediction
under a selection model. Biometrics, 31(2) :423–447.
Hillegeist, E., Keating, C., and Lundstedt, K. (2004). Assessing the probability of bankruptcy. Review of Accounting Studies, 9 :5–34.
Hinde, J. (1982). Compound Poisson regression models. Springer-Verlag,
New York.
Huber, P. (1981). Robust Statistics. J Wiley and Sons, New-York.
Huggins, R. M. (1993). A robust approach to the analysis of repeated measures. Biometrics, 49(3) :715–720.
Kiviet, J. F. and Dufour, J.-M. (1997). Exact tests in single equation autoregressive distributed lag models. Journal of Econometrics, 80(2) :325–353.
Lin, X. and Zhang, D. (1999). Inference in generalized additive mixed models
by using smoothing splines. Journal of the Royal Statistical Society. Series
B (Statistical Methodology), 61(2) :381–400.
Marx, B. D. and Eilers, P. H. C. (1998). Direct generalized additive modeling
with penalized likelihood. Comput. Stat. Data Anal., 28(2) :193–209.
McCulloch, C. E. (1997). Maximum likelihood algorithms for generalized
linear mixed models. J. Am. Statist. Ass., 92 :162 – 170.
136
Ngo, L. and Wand, M. (2003). Smoothing with mixed model software. Journal of Statistical Software, 4(1) :1–54.
Pepe, M. S. (2000). Receiver operating characteristic methodology. Journal
of the American Statistical Association, 95(449) :308–311.
Pinheiro, J. C. and Bates, D. M. (2000). Mixed-Effects Models in S and
S-Plus. Springer.
Press, S. J. and Wilson, S. (1978). Choosing between logistic regression and
discriminant analysis. Journal of the American Statistical Association,
73(364) :699–705.
Qin, G. and Zhu, Z. (2008). Robust estimation in partial linear mixed model
for longitudinal data. Acta Mathematica Scientia, 28(2) :333 – 347.
Richardson, A. M. (1997). Bounded influence estimation in the mixed linear
model. Journal of the American Statistical Association, 92(437) :154–161.
Richardson, A. M. and Welsh, A. H. (1995). Robust restricted maximum
likelihood in mixed linear models. Biometrics, 51(4) :1429–1439.
Rocke, D. M. (1991). Robustness and balance in the mixed model. Biometrics, 47(1) :303–309.
Searle, S. (1982). Matrix algebra useful for statistics. J. Wiley and Sons,
New-York.
Searle, S., Casella, G., and McCulloch, C. (1992). Variance components. J.
Wiley and Sons, New-York.
137
Self, S. G. and Liang, K.-Y. (1987). Asymptotic properties of maximum likelihood estimators and likelihood ratio tests under nonstandard conditions.
Journal of the American Statistical Association, 82(398) :605–610.
Speckman, P. (1988). Kernel smoothing in partial linear models. Journal of
the Royal Statistical Society. Series B (Methodological), 50(3) :413–436.
Stram, D. O. and Lee, J. W. (1994). Variance components testing in the
longitudinal mixed effects model. Biometrics, 50(4) :1171–1177.
Tanner, M. (1993). Tools for Statistical Inference. springer, 2nd edition.
Verbeke, G. and Molenberghs, G. (2000). Linear mixed models for longitudinal data. Springer Verlag, New York.
Zhang, D. and Lin, X. (2003). Hypothesis testing in semiparametric additive
mixed models. Biostat, 4(1) :57–74.
Zhang, D., Lin, X., Raz, J., and Sowers, M. (1998). Semiparametric stochastic
mixed models for longitudinal data. Journal of the American Statistical
Association, 93(442) :710–719.
Zhu, H., Lee, S.-Y., Wei, B.-C., and Zhou, J. (2001). Case-deletion measures
for models with incomplete data. Biometrika, 88(3) :727–737.
138
Téléchargement