M2 Pro Ingénierie Mathématique Université d'Angers, Université de Nantes Année 2011-2012 Regression linéaire non gausienne Introduction On dispose d'un échantillon de n couples (xi , yi ), i = 1 . . . n où yi = β0 + β1 xi,1 + · + βp xi,p + i , pour i = 1, . . . n, (1) où l'on suppose que le vecteur = (1 , . . . , n )T des résidus vérie : 1. 1 , . . . , n sont indépendants et identiquements distribués (i.i.d.), 2. E1 = 0 (erreurs centrées), 3. E21 = σ 2 (homoscédasticité). Autrement dit, on ne suppose pas que la loi des erreurs est gaussienne. On veut étudier le comportement asymptotique des statistiques β̂ , l'estimateur de β par la méthode des moindres carrés, ainsi que des statistiques de tests classiques. Résultat théorique On suppose que le modèle (1) est régulier et que les hypothèses précédentes sont vériées. On note PX la matrice de projection sur Im(X ) et hn le terme maximal de la matrice PX . Theorem 1 Si hn → 0 lorsque n → +∞, β̂ est asymptotiquement un vecteur gaussien. 1 T (ii) En particulier si nα X X → Q, où Q matrice dénie positive et α > 0, alors : (i) L hn → 0 ⇒ nα/2 (β̂ − β) −−−−→ N (0, σ 2 Q−1 ). n→∞ (iii) On considère le problème de test H0 : K T β = 0 contre H1 : K T β 6= 0”, où K T matrice k × (p + 1) de rang Rg(K) ≤ p + 1. Alors on a : hn → 0 =⇒ F̂ = 1 (K T β̂)T [K T (X T X)−1 K]−1 K T β̂ L −−−−→ χ2 (Rg(K)). 2 n→∞ Rg(K)s Rg(K) Ce résultat assure la construction de tests asymptotiques de combinaisons linéaires des coefcients, notamment les tests de Fisher (global et partiel). Ce résultat est basé sur le Théorème de Lindeberg, qui généralise le TLC. Notons que d'après la théorie des probabilités, on sait que si F̂ ∼ F[k, n − p], alors : L F̂ −−−−→ n→∞ 1 2 χ (k). k Ainsi les lois limites dans le théorème précédent sont les mêmes que celle que l'on peut obtenir dans le cas gaussien (cela est également valable pour les tests de Student). En conclusion, les résultats asymptotiques de la régression linéaire sont donc similaires sans l'hypothèse de normalité des résidus. C'est pour cela qu'en pratique, l'hypothèse de normalité n'est pas nécessaire lorsque n est assez grand. 1 Simulations On va illustrer ces résultats en simulant des modèles de régression non-gaussiens. On considère un modèle de régression où p = 3 de la forme (1) où chaque xi = (xi,1 , xi,2 , xi,3 )T consiste en 3 réalisations de loi uniforme sur un intervalle [a, b]. On peut faire varier les valeurs de a, b selon les coordonnées des xi , ou bien considérer d'autres distributions que des lois uniformes mais ces considérations sur le design n'ont pas vraiment d'importance ici. Dans cette étude on se concentre sur l'erreur et on choisit 1 , . . . , n i.i.d. de loi : Exponentielle symétrisée de paramètre λ = 1. Uniforme sur l'intervalle [−A, A]. 1. Vérier les hypothèses principales des résultats théoriques en simulant ces modèles de régressions avec n qui augmente. 2. Montrer que l'hypothèse de (ii) est vérier pour α = 1 dans le cas particulier où xi est constitué de 3 réalisations indépendantes de loi uniforme sur un intervalle [a, b]. 3. Calculer les réalisations de β̂ , s2 et F = M CR M Cres dans un modèle simulé. 4. Générer m = 100 modèles (1) et estimer la loi des statistiques précédentes. Vérier les résultats théoriques. 5. Faites varier λ dans la régression avec bruit exponentiel, ou A > 0 dans la régression avec bruit uniforme. Que se passe-t'il ? 6. Réaliser la régression à l'aide de la fonction lm(). Les résultats sont-ils utilisables ? Application aux jeux de données réelles Vérier la loi des résidus des données des TD-TP de régression simple et multiple. Regarder notamment les données eucalyptus (chier "eucalyptus.txt") et espérance de vie (chier "lifeexp.dat"). 2