Regression linéaire non gausienne

publicité
M2 Pro Ingénierie Mathématique
Université d'Angers, Université de Nantes
Année 2011-2012
Regression linéaire non gausienne
Introduction
On dispose d'un échantillon de n couples (xi , yi ), i = 1 . . . n où
yi = β0 + β1 xi,1 + · + βp xi,p + i , pour i = 1, . . . n,
(1)
où l'on suppose que le vecteur = (1 , . . . , n )T des résidus vérie :
1. 1 , . . . , n sont indépendants et identiquements distribués (i.i.d.),
2. E1 = 0 (erreurs centrées),
3. E21 = σ 2 (homoscédasticité).
Autrement dit, on ne suppose pas que la loi des erreurs est gaussienne.
On veut étudier le comportement asymptotique des statistiques β̂ , l'estimateur de β par la
méthode des moindres carrés, ainsi que des statistiques de tests classiques.
Résultat théorique
On suppose que le modèle (1) est régulier et que les hypothèses précédentes sont
vériées. On note PX la matrice de projection sur Im(X ) et hn le terme maximal de la matrice
PX .
Theorem 1
Si hn → 0 lorsque n → +∞, β̂ est asymptotiquement un vecteur gaussien.
1
T
(ii) En particulier si
nα X X → Q, où Q matrice dénie positive et α > 0, alors :
(i)
L
hn → 0 ⇒ nα/2 (β̂ − β) −−−−→ N (0, σ 2 Q−1 ).
n→∞
(iii)
On considère le problème de test H0 : K T β = 0 contre H1 : K T β 6= 0”, où K T matrice
k × (p + 1) de rang Rg(K) ≤ p + 1. Alors on a :
hn → 0 =⇒ F̂ =
1
(K T β̂)T [K T (X T X)−1 K]−1 K T β̂ L
−−−−→
χ2 (Rg(K)).
2
n→∞
Rg(K)s
Rg(K)
Ce résultat assure la construction de tests asymptotiques de combinaisons linéaires des coefcients, notamment les tests de Fisher (global et partiel).
Ce résultat est basé sur le Théorème de Lindeberg, qui généralise le TLC. Notons que d'après la
théorie des probabilités, on sait que si F̂ ∼ F[k, n − p], alors :
L
F̂ −−−−→
n→∞
1 2
χ (k).
k
Ainsi les lois limites dans le théorème précédent sont les mêmes que celle que l'on peut obtenir
dans le cas gaussien (cela est également valable pour les tests de Student). En conclusion, les
résultats asymptotiques de la régression linéaire sont donc similaires sans l'hypothèse
de normalité des résidus.
C'est pour cela qu'en pratique, l'hypothèse de normalité n'est pas
nécessaire lorsque n est assez grand.
1
Simulations
On va illustrer ces résultats en simulant des modèles de régression non-gaussiens.
On considère un modèle de régression où p = 3 de la forme (1) où chaque xi = (xi,1 , xi,2 , xi,3 )T
consiste en 3 réalisations de loi uniforme sur un intervalle [a, b]. On peut faire varier les valeurs de
a, b selon les coordonnées des xi , ou bien considérer d'autres distributions que des lois uniformes
mais ces considérations sur le design n'ont pas vraiment d'importance ici. Dans cette étude on se
concentre sur l'erreur et on choisit 1 , . . . , n i.i.d. de loi :
Exponentielle symétrisée de paramètre λ = 1.
Uniforme sur l'intervalle [−A, A].
1. Vérier les hypothèses principales des résultats théoriques en simulant ces modèles de régressions avec n qui augmente.
2. Montrer que l'hypothèse de (ii) est vérier pour α = 1 dans le cas particulier où xi est
constitué de 3 réalisations indépendantes de loi uniforme sur un intervalle [a, b].
3. Calculer les réalisations de β̂ , s2 et F =
M CR
M Cres
dans un modèle simulé.
4. Générer m = 100 modèles (1) et estimer la loi des statistiques précédentes. Vérier les
résultats théoriques.
5. Faites varier λ dans la régression avec bruit exponentiel, ou A > 0 dans la régression avec
bruit uniforme. Que se passe-t'il ?
6. Réaliser la régression à l'aide de la fonction lm(). Les résultats sont-ils utilisables ?
Application aux jeux de données réelles
Vérier la loi des résidus des données des TD-TP de régression simple et multiple.
Regarder notamment les données eucalyptus (chier "eucalyptus.txt") et espérance de vie (chier "lifeexp.dat").
2
Téléchargement