POLYCOPIÉ DE COURS DE STATISTIQUE ET ÉCONOMÉTRIE MODÈLE LINÉAIRE M. B ONNEU , E. L ECONTE Université des Sciences Sociales Place Anatole France 31042 Toulouse 2 Table des matières Introduction 1 2 3 5 Outils algébriques et probabilistes 1.1 Eléments d’algèbre linéaire . . . . . . . . . . . . . . . . 1.1.1 Matrices . . . . . . . . . . . . . . . . . . . . . . 1.1.2 Espaces euclidiens . . . . . . . . . . . . . . . . 1.1.3 Dérivation matricielle . . . . . . . . . . . . . . 1.2 Vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . 1.2.1 Rappels sur les variables aléatoires réelles (v.a.r.) 1.2.2 Vecteur aléatoire . . . . . . . . . . . . . . . . . 1.2.3 Changement de variable . . . . . . . . . . . . . 1.3 Loi normale dans IR n (Gaussienne) . . . . . . . . . . . 1.3.1 Diverses caractérisations . . . . . . . . . . . . . 1.3.2 Non corrélation et indépendance . . . . . . . . . 1.3.3 Lois de distribution des formes quadratiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 11 11 16 20 20 20 23 26 28 28 29 31 Modèle linéaire 2.1 Formulation du modèle linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1 Ecriture matricielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.2 Hypothèses du modèle linéaire . . . . . . . . . . . . . . . . . . . . . . 2.2 Estimateur des moindres carrés ordinaires (MCO) . . . . . . . . . . . . . . . . 2.2.1 Définition de l’estimateur MCO du paramètre β . . . . . . . . . . . . . 2.2.2 Propriétés de l’estimateur MCO β̂ . . . . . . . . . . . . . . . . . . . . 2.2.3 Estimation de la variance résiduelle σ 2 . . . . . . . . . . . . . . . . . . 2.3 Interprétation géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1 Représentation des individus . . . . . . . . . . . . . . . . . . . . . . . 2.3.2 Espace des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.3 Coefficient de corrélation multiple (empirique) ou coefficient de détermination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.4 Interprétation et critique de l’utilisation de R2 . . . . . . . . . . . . . . 35 35 36 36 37 37 39 39 41 41 41 Induction statistique dans le modèle linéaire 3.1 Modèle linéaire gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 47 3 43 43 4 TABLE DES MATIÈRES 3.2 3.3 4 5 3.1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.2 Estimateur maximum de vraisemblance EM V ou M LE 3.1.3 Loi de probabilité des estimateurs . . . . . . . . . . . . 3.1.4 Estimation par intervalle de confiance (IC) . . . . . . . 3.1.5 Prévision pour une valeur future x0 = (x10 , . . . , xp0 )0 . . . Tests d’hypothèses . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Estimation sous contrainte linéaire . . . . . . . . . . . . 3.2.2 Test de student de signification d’un coefficient βj . . . 3.2.3 Test de Fisher de signification de plusieurs coefficients . 3.2.4 Test de Fisher d’une hypothèse linéaire générale . . . . Critiques du modèle linéaire gaussien . . . . . . . . . . . . . . 3.3.1 Test de linéarité . . . . . . . . . . . . . . . . . . . . . . 3.3.2 Analyse des résidus . . . . . . . . . . . . . . . . . . . . 3.3.3 Détection de valeurs aberrantes ou influentes . . . . . . 3.3.4 Sélection des variables exogènes . . . . . . . . . . . . . Modèles linéaires gaussiens particuliers 4.1 Analyse de variance à un facteur . . . . . . . . . . . . 4.1.1 Exemple . . . . . . . . . . . . . . . . . . . . 4.1.2 Approche intuitive de l’analyse de variance . . 4.1.3 Estimation des paramètres . . . . . . . . . . . 4.1.4 Test d’hypothèses . . . . . . . . . . . . . . . . 4.2 Analyse de variance à deux facteurs . . . . . . . . . . 4.2.1 Exemple . . . . . . . . . . . . . . . . . . . . 4.2.2 Modélisation statistique et estimation . . . . . 4.2.3 Tests d’hypothèses . . . . . . . . . . . . . . . 4.2.4 Interprétation de l’interaction de deux facteurs 4.3 Analyse de covariance . . . . . . . . . . . . . . . . . 4.3.1 Modélisation avec interaction . . . . . . . . . 4.3.2 Tests d’hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 48 48 51 54 54 54 55 56 57 58 58 60 64 65 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 72 72 73 75 77 78 78 79 80 83 87 87 90 Généralisation du modèle linéaire gaussien 5.1 Moindres carrés généralisés . . . . . . . . . . . . . . . . . . . 5.1.1 Estimateur des moindres carrés généralisés . . . . . . 5.1.2 Estimateur des moindres carrés pondérés . . . . . . . 5.1.3 Autocorrélation des résidus . . . . . . . . . . . . . . . 5.2 Régression stochastique . . . . . . . . . . . . . . . . . . . . . 5.2.1 Modèles linéaires conditionnels . . . . . . . . . . . . 5.2.2 Approximation d’une v.a. y par un vecteur aléatoire x . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 92 92 95 96 98 99 99 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bibliographie 105 Tables statistiques 107 Introduction En économétrie, quand on est en présence de plusieurs variables, le but n’est pas uniquement de les étudier en tant que variables aléatoires, mais essentiellement de modéliser leurs relations. Cadre de ce cours : MODELES EXPLICATIFS Expliquer une variable endogène y quantitative par p variables exogènes, dites explicatives. Les données se présentent sous la forme du tableau suivant : x1 u.s. 1 .. . y endogène y1 .. . x11 .. . xp1 .. . u.s. i .. . yi .. . x1i .. . xpi .. . u.s. n yn x1n xpn Variables ··· xp u.s. : unité statistique représentant un individu d’une population ou le temps. x1 , . . . , xp : variables quantitatives ou qualitatives exogènes. y : variable quantitative endogène. Exemple 1. On considère 101 succursales d’une entreprise. L’objectif est d’expliquer le chiffre d’affaire de chaque succursale au moyen de variables telles que : marge commerciale, charge salariale, nombre de vendeurs,. . .Les données sont stockées dans un fichier informatique sous la forme suivante : 5 6 INTRODUCTION Chiffre d’affaire Marge Commerciale Charges locatives Charge salariale CA HT CA TTC Marge % CA HT Taille Loyer % CA HT Nbre Vendeurs CA / vendeur Agen Amboise 1181201 700201 1441081 954241 592101 355901 50.127 50.828 112201 58501 9.498 8.354 2501 1501 472.29 466.49 Perpignan 1079101 1318501 505201 46.816 10.001 10001 ... ... 95301 129401 11.991 2701 399.519 Exemple 2. On se propose d’étudier la relation, qu’on suppose linéaire si elle existe, entre le prix et les variables suivantes : cylindrée, puissance, longueur, largeur, poids et vitesse de 18 voitures figurant dans le tableau : OBS 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 x2 x3 x4 x5 x6 x7 x8 y NOM CYL PUIS LON LAR POIDS VITESSE FINITION PRIX ALFASUD-TI-1350 AUDI-100-L SIMCA-1307-GLS CITROEN-CG-CLUB FIAT-132-1600GLS LANCIA-BETA-1300 PEUGEOT-504 RENAULT-16-TL RENAULT-30-TS TOYOTA-COROLLA ALFETTA-1.66 PRINCESS-1800-HL DATSUN-200L TAUNUS-2000-GL RANCHO MAZDA-9295 OPEL-REKORD-L LADA-1300 1350 1588 1294 1222 1585 1297 1796 1565 2664 1166 1570 1798 1998 1993 1442 1769 1979 1294 79 85 68 59 98 82 79 55 128 55 109 82 115 98 80 83 100 68 393 468 424 412 439 429 449 424 452 399 428 445 469 438 431 440 459 404 161 177 168 161 164 169 169 163 173 157 162 172 169 170 166 165 173 161 870 1110 1050 930 1105 1080 1160 1010 1320 815 1060 1160 1370 1080 1129 1095 1120 955 165 160 152 151 165 160 154 140 180 140 175 158 160 167 144 165 173 140 B TB M M B TB B B TB M TB B TB B TB M B M 30570 39990 29600 28250 34900 35480 32300 32000 47700 26540 42395 33990 43980 35010 39450 27900 32700 22100 yi = β1 + β2 x2i + · · · + β8 x8i + ei Exemple 3. Modèle économique du comportement de production des entreprises : p Y Q = α (xj )βj (1) j=2 (Fonction de Cobb-Douglas) – var y à expliquer : Q “quantité de production” 7 INTRODUCTION – var x2 , . . . , xp explicatives : K : Capital, L : Travail, E : Energie, M : Matières premières, T : Progrès techniques. (1) s’écrit : log Q = β1 + p X βj log xj (en posant log α = β1 ) j=2 log Q = ou encore p X βj log xj , avec log x1 = 1 j=1 Etude statistique de ce modèle 1. Soit à partir de données statistiques observées pour une entreprise au cours du temps t : log Qt = p X βj log xjt + et (t = 1, n) , où n est le nombre d’unité de temps, j=1 avec des hypothèses sur les v.a. et , qui diffèrent selon les 2 cas suivants : Cas 1. les variables xjt ne contiennent pas de valeurs passées de Qt : modèle explicatif statique. Cas 2. sinon, modèle explicatif dynamique et dans ce cas les résidus et sont des v.a. corrélées. 2. Soit à partir d’un panel de n entreprises dans une période donnée : log Qi = p X βj log xji + ei j=1 Objectif : Estimer les paramètres : ∂ log Q élasticité. – βj = ∂ log xj P – r = βj rendement. (i = 1, . . . , n) où n est le nombre d’entreprises. 8 INTRODUCTION Exemple 4. En Macroéconomie, modèle dynamique explicatif : Rt = β1 ↓ taux d’intérêt à long terme + β2 Mt + β3 It + β4 Ut + et ↓ ↓ ↓ masse taux taux monétaire d’inflation de chômage Les résidus et sont des v.a. qui seront supposées : E(et ) = 0 “centrées” V (et ) = σt2 hétéroscédastiques E(et et−1 ) 6= 0 auto-corrélées 9 INTRODUCTION OBJECTIF DU COURS A partir de n observations de (y, x), y ∈ IR et x ∈ IR p , on cherche à expliquer la variable y par une combinaison linéaire des variables x1 , . . . , xp , composantes de x. Ce problème sera abordé différemment selon les cas : – La variable x est non aléatoire. – La variable (x, y) est aléatoire – On considère la loi de (y, x). – On considère la loi conditionnelle de y sachant x = x0 . – Les variables x1 , . . . , xp sont quantitatives ou qualitatives. – Les données sont des séries temporelles ou des données de panel. 10 INTRODUCTION Chapitre 1 Outils algébriques et probabilistes pour le modèle linéaire 1.1 Eléments d’algèbre linéaire Ce chapitre se propose de rassembler des notations et rappels d’algèbre linéaire ainsi que quelques compléments mathématiques du niveau du premier cycle des Universités. Dans tout ce qui suit, E et F sont deux espaces vectoriels réels munis respectivement des bases canoniques E = {ej ; j = 1, . . . , p} et F = {fi ; i = 1, . . . , n}. On note indifféremment un vecteur de E ou de F , un endomorphisme de E, une application linéaire de E dans F et leurs représentations matricielles dans ces bases. 1.1.1 Matrices Notations La matrice d’ordre (n × p) associée à une application linéaire de E dans F est décrite par un tableau : a11 · · · aj1 · · · ap1 . .. · · · ... · · · ... j p 1 A= ai · · · ai · · · ai .. . . . · · · .. · · · .. a1n · · · ajn · · · apn 11 12 CHAPITRE 1. OUTILS ALGÉBRIQUES ET PROBABILISTES On note par la suite : aji = [A]ji le terme général de la matrice ou aij , ai = [a1i , . . . , api ]0 un vecteur ligne mis en colonne, où “ 0 ” désigne le symbole transposé. aj = [aj1 , . . . , ajn ]0 un vecteur colonne. Types de matrices Une matrice est dite : – carrée si n = p, 0 si i 6= j , 1 si i = j – diagonale si aji = 0 lorsque i 6= j, – symétrique si aji = aij , – triangulaire supérieure (inférieure) si – identité (Ip ) si aji = δij = aji = 0 lorsque i > j (i < j), – vecteur ligne (colonne) si n = 1 (p = 1), – unité d’ordre p : 1Ip = [1, . . . , 1]0 , – scalaire si n = 1 et p = 1. Opérations sur les matrices Somme [A + B]ji = aji + bji pour A et B de même ordre (n × p). Multiplication par un scalaire [αA]ji = αaji pour α ∈ IR. Transposition [A0 ]ji = aij , A0 est d’ordre (p × n). (A0 )0 = A ; (A + B)0 = A0 + B 0 ; (AB)0 = B 0 A0 . Produit scalaire élémentaire n X 0 ab= ai bi où a et b sont des vecteurs colonnes (n × 1). i=1 Produit [AB]ji = a0i bj avec A(n×p) , B(p×q) . 13 1.1. ELÉMENTS D’ALGÈBRE LINÉAIRE Propriétés des matrices carrées La trace et le déterminant sont des notions intrinsèques qui ne dépendent pas des bases de représentation choisies mais uniquement de l’application linéaire sous-jacente. Trace Par définition, si A est une matrice (p × p) : trA = p X aii i=1 et il est facile de montrer que α, où α ∈ IR αtrA, trA + trB, tr(BA), p p X X 0 0 tr(CC ) = tr(C C) = (cji )2 . trα tr(αA) tr(A + B) tr(AB) = = = = i=1 j=1 Déterminant On note | A | (ou detA) le déterminant de la matrice carrée A. Il vérifie : |A| = p Y aii si A est triangulaire ou diagonale, i=1 | αA | = αp | A | . Inverse L’inverse de A, lorsqu’elle existe, est la matrice unique notée A−1 telle que AA−1 = A−1 A = Ip ; elle existe si et seulement si | A |6= 0. Quelques propriétés : (A−1 )0 = (A0 )−1 , (AB)−1 = B −1 A−1 , 1 | A−1 | = · |A| 14 CHAPITRE 1. OUTILS ALGÉBRIQUES ET PROBABILISTES Définitions Une matrice carrée A est dite : symétrique si A0 = A, singulière si | A |= 0, régulière si | A |6= 0, idempotente si AA = A, orthogonale si AA0 = A0 A = I(A0 = A−1 ). Exercice : 1 −2 1 1 4 −2 Soit A = −2 6 1 −2 1 Montrer que A est idempotente. Est-elle régulière ? Est-elle orthogonale ? Propriétés des formes quadratiques et matrices définies positives Définitions Soit A une matrice (n × n). La forme quadratique associée à A est l’application de IR n dans IR qui à tout vecteur x associe x0 Ax. Si x0 Ax > 0 pour tout x 6= 0, on dit que la forme quadratique est définie positive et A est dite matrice définie positive. Si x0 Ax ≥ 0 pour tout x, on dit que la forme et la matrice sont semi-définies positives. Lorsque les inégalités sont dans l’autre sens, on parle de formes quadratiques et de matrices définies négatives et semi-définies négatives. Si une forme quadratique est positive pour certains vecteurs x, et négative pour d’autres, la forme et la matrice sont dites indéfinies. Il est important de disposer de critères permettant de reconnaître les matrices définies positives. 1. Pour qu’une matrice réelle et symétrique A soit définie positive, il faut et il suffit que toutes ses valeurs propres soient positives. 2. Pour qu’une matrice symétrique A soit définie positive, il faut et il suffit que les déterminants de chacune de ses sous-matrices principales soient positifs. 15 1.1. ELÉMENTS D’ALGÈBRE LINÉAIRE 3. Si A est symétrique et définie positive, il existe une matrice non singulière P telle que A = PP0 4. Si A, de format n × n, est définie positive, et si P de format n × m, est de rang m, alors P 0 AP est définie positive. 1. Si A est de format n × m avec m < n et de rang m, alors A0 A est définie positive et AA0 est semi-définie positive. 6. Si A et B sont des matrices définies positives et si A − B est aussi définie positive alors B −1 − A−1 est aussi définie positive. Propriétés des vecteurs propres et des valeurs propres des matrices réelles symétriques Dans les problèmes statistiques nous sommes généralement confrontés à des matrices réelles symétriques. Les propriétés énumérées ci-dessous qui sont précédées par un astérisque ne sont valables que pour les matrices réelles symétriques ; celles sans astérisque sont valables pour toutes les matrices réelles. 1. 2. 3. ∗ Les valeurs propres sont réelles. ∗ Les vecteurs propres associés à des valeurs propres différentes sont orthogonaux. ∗ Si une valeur propre est de multiplicité algébrique k (c’est-à-dire, si elle est une racine d’ordre k), il y a k vecteurs propres orthogonaux qui lui sont associés. 4. ∗ La matrice symétrique A d’ordre n possède n valeurs propres λ1 , λ2 , . . . , λn , pas forcément différentes. Les propriétés 2 et 3 montrent qu’il existe un ensemble de n vecteurs propres orthogonaux x1 , x2 , . . . , xn , tels que x0i xj = 0 5. ∗ i 6= j; i, j = 1, 2, . . . , n La matrice orthogonale des vecteurs propres permet de diagonaliser A, c’est à dire X 0 AX = Λ = diag{λ1 , λ2 , . . . , λn }. 6. La somme des valeurs propres est égale à la somme des éléments diagonaux (la trace) de A. 7. Le produit des valeurs propres d’une matrice A est égale à son déterminant. 8. Le rang de A est égal au nombre de ses valeurs propres non nulles. 9. Les valeurs propres de A2 sont les carrés des valeurs propres de A et ces deux matrices ont les mêmes vecteurs propres. 10. Les valeurs propres de A−1 sont les inverses des valeurs propres de A, mais ces deux matrices ont les mêmes vecteurs propres. Soit : Ax = λx 11. Les valeurs propres d’une matrice idempotente ne peuvent être égales qu’à 0 ou à 1. 12. Le rang d’une matrice idempotente est égal à sa trace. 16 CHAPITRE 1. OUTILS ALGÉBRIQUES ET PROBABILISTES 1.1.2 Espaces euclidiens E est un espace vectoriel réel de dimension p isomorphe à IR p . Sous-espaces – Un sous-ensemble Eq de E est un sous-espace vectoriel (s.e.v.) de E s’il est non vide et stable : ∀x, y ∈ Eq , ∀α ∈ IR, α(x + y) ∈ Eq . – Le q-uple {x1 , . . . , xq } de E constitue un système linéairement indépendant si et seulement si : q X αi xi = 0 ⇒ α1 = · · · = αq = 0. i=1 – Un sytème linéairement indépendant Eq = {e1 , . . . , eq } qui engendre un s.e.v. Eq = vect{e1 , . . . , eq } en constitue une base et dim(Eq ) = card(Eq ) = q. Rang d’une matrice An×p Image et noyau Im(A) = vect {a1 , . . . , ap } est le s.e.v. de F image de A, Ker(A) = {x; Ax = 0} est le s.e.v. de E noyau de A, p dim(Im(A)) + dim(Ker(A)). = Rang rang(A) 0≤ = dim(Im(A)), rang(A) ≤ min(n, p), rang(A) = rang(A0 ), rang(A + B) ≤ rang(A) + rang(B), rang(AB) ≤ min(rang(A), rang(B)), rang(BAC) = rang(A) si B et C sont régulières, rang(A) = rang(AA0 ) = rang(A0 A). Enfin, si B(p × q) est de rang q (q < p) et A carrée (p × p) de rang p alors, la matrice B 0 AB est de rang q. 1.1. ELÉMENTS D’ALGÈBRE LINÉAIRE 17 Métrique euclidienne Soit M une matrice carrée (p × p), symétrique, définie-positive ; M définit sur l’espace E : – un produit scalaire : hx, yiM = x0 M y, 1/2 – une norme : k x kM = hx, xiM , – une distance : dM (x, y) =k x − y kM , hx, yiM – des angles : cos θM (x, y) = , k x kM k y kM La matrice M étant donnée, on dit que : – une matrice A est M -symétrique si A0 M = M A, – deux vecteurs x et y sont M -orthogonaux si hx, yiM = 0, – un vecteur x est M -normé si k x kM = 1, – une base Eq = {e1 , . . . , eq } est M -orthonormée si ∀(i, j), hei , ej iM = δij . Remarque : Si M est la matrice Identité (M = Ip ), c’est le cas usuel relatif à la base canonique de IR p . Projection Définitions équivalentes – Soit W un sous-espace de E et B = {b1 , . . . , bq } une base de W : P (p × p) est une matrice de projection M -orthogonale sur W si et seulement si : ∀y ∈ E, P y ∈ W et hP y, y − P yiM = 0. – Toute matrice idempotente (P 2 = P ) et M -symétrique (P 0 M = M P ) est une matrice de projection M -orthogonale. Propriétés d’une matrice P de projection – Les valeurs propres de P sont 0 ou 1 u ∈ W P u = u, λ = 1 de multiplicité dim(W ), v ∈ W ⊥ LP v = 0, λ = 0 de multiplicité dim(W ⊥ ), où W ⊥ est le sous-espace orthogonal à W (W W ⊥ = E). – trP = dim(W ) (= rang(P )), – P = B(B 0 M B)−1 B 0 M où B = [b1 , . . . , bq ], 18 CHAPITRE 1. OUTILS ALGÉBRIQUES ET PROBABILISTES – dans le cas particulier où les bj sont M -orthonormés : 0 P = BB M = q X 0 bj bj M, j=1 – dans le cas particulier où q = 1 alors : bb0 1 P = 0 M= bb0 M. b Mb k b kM – Si P1 , . . . , Pq sont des matrices de projection M -orthogonales alors la somme P1 + · · · + Pq est une matrice de projection M -orthogonale si et seulement si : Pk Pj = δkj Pj . – La matrice I − P est la matrice de projection M -orthogonale sur W ⊥ . 19 1.1. ELÉMENTS D’ALGÈBRE LINÉAIRE Exemple : X = [x1 . . . xp ] matrice (n × p) des p variables explicatives du modèle linéaire : yi = p X βj xji + ei (i = 1, . . . , n). j=1 W = vect{x1 , . . . , xp }. 6 W⊥ y y − Py ∈ W⊥ - Py ∈ W W P = X(X 0 M X)−1 X 0 M est une matrice de projection M -othogonale sur W . où W est l’espace engendré par les vecteurs colonnes de la matrice X car 0 =< P y, y − P y >M = (P y)0 M (y − P y) P y ∈ W car P y = Xβ (β vecteur de composantes βj ) On peut aussi vérifier que : P 2 = P et P 0 M = M P . 20 CHAPITRE 1. OUTILS ALGÉBRIQUES ET PROBABILISTES 1.1.3 Dérivation matricielle Définition Soit f une application de IR k dans IR, on définit le vecteur colonne (k × 1) des k dérivées partielles de f (u) par rapport à chaque composante ui : ∂f (u) ∂u1 ∂f (u) . .. = ∂u ∂f (u) ∂uk Propriétés (i) Cas des formes linéaires : Si f (u) = a0 u où a est un vecteur (k × 1) : ∂a0 u ∂u0 a =a= ∂u ∂u (ii) Cas des formes quadratiques : Si f (u) = u0 Au ou A est une matrice carrée d’ordre k, alors : ∂u0 Au = (A + A0 )u. ∂u ∂u0 Au = 2Au. De plus, si A est symétrique : ∂u 1.2 Vecteurs aléatoires 1.2.1 Rappels sur les variables aléatoires réelles (v.a.r.) (cf. tableau de lois, théorèmes sur les combinaisons linéaires indépendantes de v.a.r. et sur les changements de variables donnant les lois usuelles d’échantillonnage : F, T, χ2 ). 21 1.2. VECTEURS ALÉATOIRES Formulaire de probabilités Lois de probabilité usuelles Lois discrètes Dénomination X Loi de probabilité Moyenne E(X) Variance V (X) Loi binomiale B(n, p) n entier positif ; 0 < p < 1 k pk (1 − p)n−k P [X = k] = Cn k = 0, 1, 2, . . . , n np np(1 − p) Loi multinomiale n; p1 , . . . , pk , P [X1 = n1 et X2 = n2 et Xk = nk ] E(Xi ) = npi var (Xi ) = npi (1 − pi ) cov (Xi , Xj ) = −npi pj pour i 6= j P [X = k] = e−λ λk! k entier positif ou nul λ λ n−1 P [X = k] = Cn+k−1 pn (1 − p)k k entier positif ou nul n(1 − p) p n(1 − p) p2 n entier positif ; p1 + p2 + · · · + pk = 1 n! nk 2 pn1 · pn 2 · · · pk n1 !n2 ! · · · nk ! 1 P ni entier positif ; ki=1 ni = n. = k Loi de Poisson de paramètre λ(λ > 0) Loi binomiale négative de paramètres n et p n entier positif - 0 < p < 1 (n = 1 −→ loi géométrique) 22 CHAPITRE 1. OUTILS ALGÉBRIQUES ET PROBABILISTES Lois continues Dénomination X Loi de probabilité Loi uniforme sur [a, b] f (x) = Loi normale N (µ, σ 2 ) f (x) = σ positif Loi Gamma G(a,p) f (x) = a et p strictement positifs q>0 de liberté, ν entier positif ou encore G 1 ν , 2 2 1 √ σ 2π 1 e 2 − x−µ σ Loi de Student (ou T ) à ν degrés de liberté, ν entier strictement positif Loi de Fisher (ou F) de paramètres ν1 et ν2 entiers strictement positifs Loi de Cauchy ap p−1 −ax x e si x > 0 Γ(p) 0 si x ≤ 0 R où Γ(p) = 0+∞ xp−1 e−x dx − x ν −1 e 2 x2 ν ν 22 Γ f (x) = 2 0 (b − a)2 12 µ σ2 p a p a2 p p+q pq (p + q)2 (p + q + 1) ν 2ν si x > 0 si x ≤ 0 ν+1 2 − 2 1 + xν f (x) = √ νB 12 , ν2 ν1/2 ν2/2 ν ν1 ν2 x 1/2 −1 2 B( ν1 , ν2 )(ν x + ν ) ν1 +ν 2 1 2 2 2 f (x) = pour x > 0 0 pour x ≤ 0 f (x) = 0 pour ν ≥ 2 non définie ν pour ν ≥ 2 ν−2 pour ν = 1 ν2 pour ν2 ≥ 3 ν2 − 2 non définie pour ν2 < 3 2ν22 (ν1 + ν2 − 2) ν1 (ν2 − 2)2 (ν2 − 4) si ν2 ≥ 5 1 π(1 + x2 ) non définie non définie 1 1 x exp − θ 2 θ 0 θ2 2 f (x) = Loi de Laplace de paramètre θ > 0 a+b 2 2 f (x) = Loi de χ2 à ν degrés Variance V (X) 0 1 xp−1 (1 − x)q−1 B(p, q) si 0 < x < 1 0 sinon R 1 p−1 où B(p, q) = 0 x (1 − x)q−1 dx Loi Beta B(p, q) p>0 1 pour a ≤ x ≤ b b−a Moyenne E(X) 23 1.2. VECTEURS ALÉATOIRES 1.2.2 Vecteur aléatoire Définition : Un vecteur aléatoire X est une application d’un espace probabilisé (Ω, A, P ) dans un espace vectoriel réel IR p , telle que chaque composante Xi est v.a.r. On identifie X au p-uple de v.a. formé par ses composantes sur la base canonique de IR p . X1 X = ... où Xi v.a.r. (1 ≤ i ≤ p) Xp Loi de probabilité d’un vecteur aléatoire X Elle est définie par la fonction de répartition F application de IR p dans IR : ! Y F (x1 , . . . , xp ) = P X ∈ ] − ∞, xi ] 1≤i≤p = P (X1 ≤ x1 , . . . , Xp ≤ xp ) Remarque : La loi de probabilité sera définie de façon équivalente par : ∂ pF si la dérivée partielle existe dans le – Soit la densité de X : f (x1 , . . . , xp ) = ∂x1 . . . ∂xp cas de v.a. continues. – Soit P (X1 = x1 , . . . , Xp = xp ) dans le cas de v.a. discrètes. Application : Montrer que f (x1 , x2 ) = aléatoire X de IR 2 . √1 2 x1 x2 si 0 < x2 < x1 < 1 est une densité d’un vecteur Espérance d’un vecteur aléatoire X de IR p E(X1 ) .. E(X) = . E(Xp ) Remarque : RQuand on ne dispose que de la loi de X, on peut calculer E(Xi ) par la formule : R → E(Xi ) = x f (x , . . . , xp )dx1 · · · dxp , dans le cas IR p i " 1 # continu Z Z Y R ou bien E(Xi ) = IR xi f (x1 , . . . , xp ) dxj dxi IR p−1 | j6=i {z densité marginale de Xi } 24 CHAPITRE 1. OUTILS ALGÉBRIQUES ET PROBABILISTES Application : dans l’exemple précédent, calculer E(X1 ) et E(X2 ). → E(Xi ) = X ··· x1 ou bien E(Xi ) = X xi P [X1 = x1 , . . . , Xp = xp ], dans le cas discret xp X xi xi XX j6=i P (X1 = x1 , . . . , Xp = xp ) xj {z } | Probabilité marginale P (Xi =xi ) Propriété : Soit X un vecteur aléatoire de IR p et A une matrice non aléatoire (m × p). On a alors E(AX) = AE(X). Matrice de variance (covariance) de X, v.a. de IR p P Définition : C’est la matrice carrée d’ordre p, notée X ou V (X) ou var(X), de terme général : cov (Xi , Xj ) V (X1 ) cov (X1 , X2 ) · · · cov (X1 , Xp ) .. . . .. C’est-à-dire V (X) = cov (X2 , X1 ) V (X2 ) . . .. .. cov (Xp , X1 ) ··· ··· V (Xp ) cf. exemple précédent : déterminer la matrice V (X) 1. V (X) = E [(X − E(X)) (X − E(X))0 ] = E(XX 0 ) − E(X)[E(X)]0 (p × n) (n × p) 2. V (X) est symétrique (en exercice) 3. V (X) est définie positive (en exercice) P 4. Réciproquement si est une matrice carrée d’ordre p symétrique et définie positive, alors P est la matrice de variance d’un vecteur aléatoire de IR p . A · V (X) · A0 (m × p)(p × p)(p × m) mensions respectives (m × p) et (p × n). 5. var (AX + B) = A et B matrices non aléatoires, de di- 25 1.2. VECTEURS ALÉATOIRES Définition : La matrice de corrélation linéaire de X est la matrice de terme général : cov (Xi , Xj ) · var (Xi ) · var (Xj ) p Matrice de variance covariance empirique Soit n observations du vecteur X, définissant la matrice des données A de dimension (n × p) : x11 · · · xp1 .. .. . . A = x1i · · · xpi . .. .. . 1 xn · · · xpn n On note xj la moyenne empirique : xj = 1X j x , pour j = 1 à p. n i=1 i On note x le vecteur colonne (p × 1) de composante xj . n 1X j (x −xj )2 et cov(xj , xk ) la covariance On note varx , la variance empirique : varx = n i=1 i empirique : n 1X j j k cov (x , x ) = (xi − xj )(xki − xk ) n i=1 j j La matrice de variance covariance empirique est la matrice de terme général cov (xj , xk ), dont l’expression matricielle est : 1 0 A A − x x0 . n Matrice de corrélation empirique La matrice de corrélation empirique est la matrice de terme général cov (xj , xk ) √ . var xj var xk 26 CHAPITRE 1. OUTILS ALGÉBRIQUES ET PROBABILISTES Exemple (cf. données de l’exemple 2 page 6) : CYL CYL 1.00000 PUIS 0.79663 LON 0.70146 LAR 0.62976 POIDS 0.78895 VITESSE 0.66493 PRIX 0.63858 1.2.3 PUIS 0.79663 1.00000 0.64136 0.52083 0.76529 0.84438 0.79870 LON 0.70146 0.64136 1.00000 0.84927 0.86809 0.47593 0.64376 LAR 0.62976 0.52083 0.84927 1.00000 0.71687 0.47295 0.54665 POIDS VITESSE PRIX 0.78895 0.66493 0.63858 0.76529 0.84438 0.79870 0.86809 0.47593 0.64376 0.71687 0.47295 0.54665 1.00000 0.47760 0.75329 0.47760 1.00000 0.58176 0.75329 0.58176 1.00000 Changement de variable ϕ1 (x) x1 Soit la transformation ϕ : IR p → IR p qui à x = ... associe y = ϕ(x) = ... . ϕp (x) xp −1 On suppose −1 queles applications ϕi sont biunivoques c’est-à-dire ϕi existe et ϕ1 (y) .. −1 ϕ (y) = . . −1 ϕp (y) Propriété de changement de variable Soit Y = ϕ(X). La densité g de Y s’exprime alors, en fonction de la densité f de X par : g(y1 , . . . , yp ) = f [ϕ−1 (y1 , . . . , yp )]× | det J |−1 , où det J, appelé Jacobien de la transformation, mières : ∂y1 ··· ∂x1 .. det J = . ∂y1 ··· ∂xp est le déterminant des dérivées partielles pre∂yp ∂x1 .. . où yi = ϕi (x) ∂yp ∂xp Exercice Soit X = (X1 , X2 ) un couple de deux v.a. indépendantes et de même loi exponentielle de paramètre 1. 27 1.2. VECTEURS ALÉATOIRES X1 + X2 ? Quelle est la densité de Y = ϕ(X) = X2 En déduire que la loi de X1 + X2 est Gamma(1,2). Combinaisons linéaires de variables aléatoires usuelles Hypothèses Loi de probabilité Xi binomiale : B(ni , p) (Xi ) indépendantes ; Y = k X i=1 Xi Xi de Poisson : P(λi ) (Xi ) indépendantes ; Y = k X i=1 Xi normale : N (µi , σi2 ) (Xi ) indépendantes ; Y = n X i=1 Xi ai Xi =⇒ (Xi ) indépendantes ; Y = n X i=1 Cas particulier : 2 Xi Y binomiale B ni , p ! i=1 =⇒ Y loi de Poisson P k X λi ! i=1 =⇒ Y normale N k X ai µ i , i=1 Cas particulier : µi = µ et σi = σ n 1X =⇒ X= Xi n i=1 Xi loi gamma : G(a, pi ) k X =⇒ Xi loi de χ à γi dd` =⇒ n X i=1 2 X normale N µ, σn Y loi gamma G a, n X i=1 2 Y loi de χ à n X i=1 γi dd` pi ! a2i σi2 ! 28 CHAPITRE 1. OUTILS ALGÉBRIQUES ET PROBABILISTES Changements de variables aléatoires usuels Hypothèses Xi normales centrées réduites N (0, 1) et indépendantes Loi de probabilité =⇒ X normale N (0, 1) Y loi de χ2 à n dd` =⇒ X et Y indépendantes X1 loi de χ2 à n1 dd` 2 X2 loi de χ à n2 dd` =⇒ X1 et X2 indépendantes T loi de Student à γ dd` =⇒ 1.3 1.3.1 n X Xi2 loi de χ2 à n dd` i=1 X q loi de Student à n dd` Y n X1 n1 loi de Fisher Snedecor X2 à n1 et n2 dd` n2 T 2 loi de Fisher γ1 = 1 et γ2 = γ Loi normale dans IR n (Gaussienne) Diverses caractérisations Définition 1 : Un vecteur aléatoire X suit une loi gaussienne dans IR n , si a1 .. 0 ∀a = . , a X est une v.a. gaussienne réelle. an Remarque : X gaussien dans IR n =⇒ Xi v.a.r. gaussienne ∀i = 1 à n. Exemple : Si X v.a. gaussien dans IR n , A matrice (m × n) et B un vecteur de IR n (A et B non aléatoire), alors y = AX + B est un vecteur gaussien de IR n . 1.3. LOI NORMALE DANS IR N (GAUSSIENNE) 29 Notation : X ∼ Nn (µ, Σ) E(X) = µ et V (X) = Σ Définition 2. X ∼ Nn (µ, Σ) où Σ est une matrice carrée symétrique et de rang n si la densité de X s’écrit : 1 −n/2 −1/2 2 fX (x1 , . . . , xn ) = (2π) (det Σ) exp − k x − µ kΣ−1 2 x1 .. où x = . xn Applications : 1. 2. Expliciter fX (x1 , x2 ) dans le cas n = 2 Ecrire fX (x1 , . . . , xn ) si les n v.a. Xi sont indépendantes. Propriété : Définition 1 ⇐⇒ définition 2. (⇒) difficile (utilise les fonctions caractéristiques) (⇐) on utilise un théorème d’algèbre. Σ symétrique, définie positive, inversible ⇒ ∃ matrice A d’ordre n, symétrique, inversible telle que Σ = AA0 = A2 ⇒ Σ−1 = (A−1 )2 On considère alors X = Ay + µ, ce qui est équivalent à y = A−1 · (X − µ) Il suffit de vérifier que les composantes yi sont N (0, 1) et indépendantes ce qui impliquera que a0 X = a0 (Ay + µ) est gaussien pour tout a, car a0 Ay est gaussien comme combinaison linéaire de v.a. indépendantes gaussiennes. 1.3.2 Non corrélation et indépendance Théorème 1. Si X ∼ N2 (µ, Σ), alors cov (X1 , X2 ) = 0 ⇐⇒ X1 et X2 indépendants. Démonstration (⇒) (⇐) toujours vrai dans le cas de lois quelconques. cov (X1 , X2 ) = 0 ⇒ Σ = diag (σ12 , σ22 ). 30 CHAPITRE 1. OUTILS ALGÉBRIQUES ET PROBABILISTES La densité s’écrit : 1 1 f (x1 , x2 ) = exp − 2πσ1 σ2 2 ( x 1 − µ1 σ1 fX (x1 , x2 ) = densité conjointe c’est-à-dire 2 + x 2 − µ2 σ2 2 ) fX1 (x1 ) × fX2 (x2 ) produit des densités marginales ⇒ X1 et X2 indépendantes U Théorème 2. Soit Z = ∼ Nu+w (µ, Σ) où U v.a. de IR u et W v.a. de IR w . W La loi de U sachant W = w est une loi gaussienne. Nu E(U ) + cov (U, W )(V (W ))−1 (W − E(W )), Ω avec Ω = V (U ) − cov (U, W )(V (W ))−1 cov (W, U ) Démonstration (en exercice pour u = 1 et w = 1) Conséquence du théorème 2 ⇒ cov (U, W ) = 0 U et W indépendants Théorème 3. Si U1 et U2 sont 2 sous-vecteurs d’un v.a. gaussien U , alors : U1 et U2 indépendants ⇐⇒ cov (U1 , U2 ) = 0 Démonstration Soient U1 v.a. de IR n1 et U2 v.a. de IR n2 , avec n1 + n2 = n Σ1 0 (⇐) cov (U1 , U2 ) = 0 ⇒ V (U ) = =Σ 0 Σ2 où Σ1 = V (U1 ) et Σ2 = V (U2 ) (⇐) (⇐) −1 [V (U )] = Σ−1 0 1 0 Σ−1 2 = Σ−1 fU (u) = (2π)−n/2 (det V (U ))−1/2 exp − 12 (u − E(U ))0 (V (U ))−1 (u − E(U )) = fU1 (u1 ) × fU2 (u2 ) (⇒) Immédiat d’après la définition de la covariance. 1.3. LOI NORMALE DANS IR N (GAUSSIENNE) 31 1.3.3 Lois de distribution des formes quadratiques Théorème 1. Théorème de COCHRAN Soit X ∼ Nn (µ, Σ) Soit A et B 2 matrices carrées symétriques et idempotentes (non aléatoires), d’ordre n. Soit a un vecteur non aléatoire de IR n . Soit les formes quadratiques Q1 = X 0 AX et Q2 = X 0 BX Alors : (i) AΣB = 0 ⇒ Q1 et Q2 indépendantes. (ii) AΣa = 0 ⇒ Q1 et a0 X indépendantes. Démonstration AX (i) Soit U = , c’est un vecteur gaussien de dimension (2n × 1). BX cov (AX, BX) = AV (X)B 0 = AΣB AΣB = 0 ⇒ cov (AX, BX) = 0 ⇒ AX et BX sont des vecteurs indépendants d’après théorème 2 du paragraphe précédent. Q1 = X 0 AX = X 0 AAX car A idempotente ⇒ Q1 = (AX)0 AX De même Q2 = (BX)0 BX ⇒ Q1 et Q2 sont indépendantes car elles sont fonctions respectivement de AX et BX, qui sont des variables indépendantes. AX (ii) même démonstration, si on considère U = , a0 X Théorème 2. Soit X ∼ Nn (µ, Σ) Alors (i) k X − µ k2Σ−1 suit une loi de chi-deux de paramètre n (notée χ2 (n)). (ii) Pour toute matrice A d’ordre n, symétrique, idempotente, de rang r (r ≤ n) : Σ = In Si , alors X 0 AX ∼ χ2 (r) µ=0 Démonstration : (i) On utilise le théorème d’algèbre sur la décomposition d’une matrice symétrique, définie positive et inversible pour Σ. 32 CHAPITRE 1. OUTILS ALGÉBRIQUES ET PROBABILISTES Σ = A · A où A inversible, symétrique. On note Σ−1/2 = A−1 ⇒ Σ−1 = Σ−1/2 Σ−1/2 On pose y = Σ−1/2 (X − µ) ⇒ y ∼ Nn (0, In ) En effet E(y) = Σ−1/2 (E(X) − µ) = 0 V (y) = Σ−1/2 V (X)Σ−1/2 = In . ⇒ Les v.a.r. y1 , . . . , yn (composants de y) sont indépendantes et de loi N (0, 1). ⇒ n X yi2 est une v.a.r. qui suit une loi de χ2 (n), d’après la définition d’une loi de chi-deux. i=1 (ii) La diagonalisation de A donne : P A = P LP 0 où matrice des vecteurs propres orthogonale L = diag(λ1 , . . . , λn ) = P 0 AP matrice des valeurs propres Soit λ une valeur propre de A et u le vecteur propre associé : Au = λu Or A idempotente ⇒ λ2 u = λu ⇒ ⇒ λ(λ − 1)u = 0 λ = 1 ou λ = 0 Or rang A = r ⇒ il a r valeurs propres non nulles, donc égales à 1. ⇒ Soit y = P 0 X, L= 1 ... 0 1 0 0 .. . 0 1.3. LOI NORMALE DANS IR N (GAUSSIENNE) on a 33 • E(y) = 0 • V (y) = P V (X)P 0 = In car V (X) = In et P P 0 = In . Donc y ∼ Nn (0, In ). X 0 AX = X 0 P LP 0 X = (P 0 X)0 L(P 0 X) = r X yir ∼ χ2(r) i=1 Car c’est la somme des carrés de r v.a.r. N (0, 1) indépendantes. Application : Xi ∼ N (µ, σ 2 ) n 1 X ⇒ 2 (Xi − X)2 ∼ χ2(n−1) σ i=1 Xi indépendants 34 CHAPITRE 1. OUTILS ALGÉBRIQUES ET PROBABILISTES Chapitre 2 Modèle linéaire Cadre général quand les variables exogènes sont non aléatoires. Autre terminologie : RLM (plusieurs v. exogènes quantitatives) : Régression Linéaire Multiple RLS (une seule v. exogène quantitative) : Régression Linéaire Simple 2.1 Formulation du modèle linéaire Données : Pour i = 1, . . . , n yi x1 , . . . , xp |{z} | i {z }i endogène(quantitative) exogènes n>p Modèle linéaire : (1) yi = β1 x1i + · · · + βp xpi + εi |{z} résidu, bruit,. . . (terme d’erreur) (i = 1, . . . , n) Remarques : – On notera y indifféremment la variable aléatoire y ou la valeur observée y. – La relation (1) est stochastique : yi observation d’une v.a. yi εi valeur non observable d’une v.a. εi 35 36 CHAPITRE 2. MODÈLE LINÉAIRE – On admet que x1i = 1 pour tout i = 1, n si on considère un terme constant dans (1). – Les coefficients de régression βj (j = 1, p) sont les p paramètres inconnus, à estimer. – La relation (1) équivaut à considérer que la variable y peut être approximée par une fonction affine des p variables x1 , . . . , xp (à une erreur ε près). 2.1.1 Ecriture matricielle y = X · β + ε (n × 1) (n × p) (p × 1) (n × 1) (2) 2.1.2 Hypothèses du modèle linéaire Le modèle linéaire relatif aux données ( y , X ) est défini par les 3 hypothèses : (n×1) (n×p) H1 H2 y = Xβ + ε (relation (2) de linéarité) X est non aléatoire matrice X x1i = 1 pour tout i = 1, n rg(X) = p H3 Sur les résidus. ε est un vecteur aléatoire de IR n tel que : E(ε) = 0 (centré) V (ε) = σ 2 In où σ > 0 (n×n) Remarques – Hypothèse H2 : rg(X) = p ⇐⇒ Les p vecteurs colonnes x1 , . . . , xp sont linéairement indépendants. Donc n ≥ p. – Hypothèse H3 : E(ε) = 0 et V (ε) = σ 2 In . 2.2. ESTIMATEUR DES MOINDRES CARRÉS ORDINAIRES (MCO) ⇐⇒ 37 Les résidus ε1 , . . . , εn sont des v.a.r : - centrées E(εi ) = 0 - de même variance V (εi ) = σ 2 (HOMOSCEDASTICITÉ) - non corrélées E(ei ej ) = 0 si i 6= j – Paramètres à estimer : β1 β = ... et σ 2 (p × 1) βp 2.2 Estimateur des moindres carrés ordinaires (MCO) OLSE : “Ordinary Least Square Estimator” 2.2.1 Définition de l’estimateur MCO du paramètre β Notation SS(β) =k ε k2In = ε0 ε = n X ε2i i=1 La somme des carrés des résidus SS(β) s’écrit encore : SS(β) =k y − Xβ k2In = n X " yi − i=1 p X xi βj #2 j=1 Définition : L’estimateur M CO du paramètre β est le vecteur aléatoire de IR p qui minimise la somme des carrés des écarts SS(β). C’est-à-dire : β̂M CO = arg min k y − Xβ k2In β∈IR p Théorème 1 : Sous les hypothèses H1 et H2 , l’estimateur MCO, noté β̂ ou β̂M CO , est : β̂ = (X 0 X)−1 X 0 y 38 CHAPITRE 2. MODÈLE LINÉAIRE Démonstration : La fonction à minimiser SS(β) s’écrit : SS(β) = y 0 y − 2β 0 X 0 y + β 0 X 0 Xβ Le vecteur β̂ qui minimise SS(β) est solution de : (1) ∂SS(β̂) = 0 ⇐⇒ −2X 0 y + 2X 0 X β̂ = 0 ∂β (p × 1) Justification (cf. Chapitre 1) : ∂u0 a =a ∂u ∂u0 Au = 2Au si A symétrique ∂u Or rg(X) = p ⇒ X 0 X inversible car de rang p. Donc (1) ⇐⇒ X 0 X β̂ = X 0 y ⇐⇒ β̂ = (X 0 X)−1 X 0 y ∂ 2 SS(β) = 2X 0 X matrice définie positive (cf. exercice 1 TD 1) (∂β)(∂β)0 ⇒ β̂ est un minimum unique. CQFD Autre démonstration : SS(β) peut se décomposer (cf. exercice 2 TD 4). SS(β) = y 0 y − y 0 X(X 0 X)−1 X 0 y + [β − (XX 0 )−1 X 0 y]0 (X 0 X)[β − (X 0 X)−1 X 0 y] | {z } | {z } ne dépend pas de β de la forme u0 (X 0 X)u qui s’annule ssi u = 0(carX 0 X définie positive) Donc le minimum de SS(β) est atteint pour u = 0 ⇐⇒ β̂ = (X 0 X)−1 X 0 y. Notation : On appelle somme des carrés résiduelle (ou Residual Sum Squares) le minimum de la fonction SS(β) qui est noté SCE ou RSS. RSS = SS(β̂) = k y − X β̂ k2In = y 0 y − y 0 X(X 0 X)−1 X 0 y 2.2. ESTIMATEUR DES MOINDRES CARRÉS ORDINAIRES (MCO) 39 2.2.2 Propriétés de l’estimateur MCO β̂ Théorème 2. L’estimateur β̂ = (X 0 X)−1 X 0 y est un estimateur sans biais de β, de variance V (β̂) = σ 2 (X 0 X)−1 . Démonstration : ... Remarque : La propriété d’optimalité pour un estimateur sans biais est d’avoir une variance minimum. Cette propriété est énoncée pour β̂ dans le théorème suivant. Théorème 3. (de Gauss Markov). L’estimateur β̂ est meilleur que tout estimateur β̃ linéaire et sans biais de β (c’est-à-dire V (β̃) − V (β̂) matrice semi-définie positive). Démonstration : Soit β̃ un estimateur linéaire et sans biais de β ⇒ il existe A telle que β̃ = Ay et E(β̃) = β (p×n) Montrons : ∀u ∈ IR p , u0 [V (β̃) − V (β̂)]u ≥ 0 u0 · [V (β̃) − V (β̂)] · u = u0 [A V (y) A0 − σ 2 (X 0 X)−1 ] · u | {z } σ 2 In car = σ 2 · u0 A[In − X(X 0 X)−1 X 0 ]A0 u E(u0 β̃) = u0 AE(y) = u0 AXβ ⇒ (u0 AX − u0 )β = 0 ⇒ u0 AX = u0 E(u0 β̃) = u0 E(β̃) = u0 β Or M = In − X(X 0 X)−1 X 0 est une matrice symétrique et idempotente (cf. exercice 2 TD 1). Donc : σ 2 u0 AM A0 u = σ 2 k A0 u k2M = σ 2 (M A0 u)0 M A0 u = σ 2 k M A0 u k2In ≥ 0 Donc V (β̃) − V (β̂) est une matrice semi-définie positive. Donc β̂ a une variance minimum dans la classe des estimateurs linéaires et sans biais de β. 2.2.3 Estimation de la variance résiduelle σ 2 Théorème : La statistique σ̂ 2 = k y − X β̂ k2In est un estimateur sans biais de σ 2 . n−p 40 CHAPITRE 2. MODÈLE LINÉAIRE Démonstration : E(σ̂ 2 ) = 1 · E(k y − X β̂ k2In ) n−p = 1 E(y 0 M y) où M = In − X(X 0 X)−1 X 0 n−p = 1 1 E[tr(M yy 0 )] = tr (M · E(yy 0 )) n−p n−p var y = E[(y − Xβ)(y − Xβ)0 ] = E(yy 0 ) −X ββ 0 X 0 (n×n) Or (n×n) Var y = σ 2 In ⇒ E(yy 0 ) = σ 2 In + Xββ 0 X 0 ⇒ tr (M · E(yy 0 )) = tr(σ 2 M ) + tr(M Xββ 0 X 0 ) car M X = [In − X(X 0 X)−1 X 0 ]X = 0 | {z } =0 ⇒ E(σ̂ 2 ) = Or trM 1 σ 2 trM n−p = tr(In − X(X 0 X)−1 X 0 ) = trIn − tr(X(X 0 X)−1 X 0 ) = n − tr(X 0 X(X 0 X)−1 ) = n − p | {z } Ip ⇒ E(σ̂ 2 ) = σ 2 . Donc σ̂ 2 est un estimateur sans biais de σ 2 . n Remarque : σ̂ 2 = p X X j k y − X β̂ k2In RSS = = ε̂2i où ε̂i = yi − ŷi = yi − xi β̂j . n−p n−p i=1 j=1 ε̂i est le résidu estimé et ŷi est la valeur ajustée par le modèle de régression. Estimateur de V (β̂) k y − X β̂ k2 d V (β̂) = σ̂ 2 (X 0 X)−1 = × (X 0 X)−1 n−p En particulier : L’écart-type estimé de l’estimateur βˆj de chaque coefficient de régression βj est : 41 2.3. INTERPRÉTATION GÉOMÉTRIQUE p σ̂β̂j = σ̂ 2 · [(X 0 X)−1 ]jj qui est appelé erreur standard de β̂j , noté e.s. (β̂j ). Le terme [(X 0 X)−1 ]ij représente le terme général de la matrice (X 0 X)−1 . 2.3 2.3.1 Interprétation géométrique Représentation des individus Chaque individu i (i = 1, . . . , n) est considéré dans l’espace IR p par ses p coordonnées : (yi , x2i , . . . , xpi ) ∈ IR p (on ne considère pas x1i = 1) L’ensemble des n points de IR p est appelé “nuage de points” dans IR p . ⇒ Représentation graphique possible si p = 2 (RLS). Elle permet : – de visualiser le type de liaison entre y et x2 – d’apprécier les distances entre individus → Si p > 3, représentation graphique difficile à utiliser ⇒ biplot de y en fonction de xj . 2.3.2 Espace des variables j y1 x1 .. .. j Les vecteurs y = . et x = . pour j = 1, . . . , p sont des vecteurs d’un espace yn xjn vectoriel E ⊂ IR n . Notation : Soit χ =vect{x1 , . . . , xp } l’espace engendré par les vecteurs x1 , . . . , xp . Propriété 1 : La matrice P = X(X 0 X)−1 X 0 est un opérateur de projection In -orthogonal sur χ. Démonstration : (cf. exercice 2 TD 1). Remarques : a. L’estimateur MCO β̂ = (X 0 X)−1 X 0 y correspond à la projection de y sur χ : ŷ = P y = X(X 0 X)−1 X 0 y = X β̂ = p X j=1 β̂j xj 42 CHAPITRE 2. MODÈLE LINÉAIRE Les coefficients β̂j estimés sont les coefficients de la combinaison linéaire des vecteurs xj (j = 1, . . . , p). n n X X ŷi = yi (Démonstration exercice 2 TD 4) b. i=1 i=1 Propriété 2 : Le vecteur colonne unité de IR n étant noté 1In = x1 , la projection de y sur la droite des constantes (sous-espace engendré par x1 ) est y1In . 1In (1In0 1In )−1 1In0 y = y1In c’est-à-dire Graphique : 1 Droite des constantes 2 cos2 θ = k ŷ − y1In k k y − y1In k2 y − y1In 6 y − ŷ θ - ŷ − y1In Propriété : Analyse de la variance de la régression. k y − y1In k2 =k y − X β̂ k2 + k X β̂ − y1In k2 c’est-à-dire n X 2 (yi − y) = |i=1 {z } TSS totale n X 2 (yi − ŷi ) + |i=1 {z } RSS résiduelle n X (ŷi − y)2 |i=1 {z } variation expliquée par la régression des p var. xj 43 2.3. INTERPRÉTATION GÉOMÉTRIQUE Démonstration : (en exercice 2 TD 4) 2.3.3 Coefficient de corrélation multiple (empirique) ou coefficient de détermination Définition : C’est le nombre défini par R2 = cos2 θ, R2 = n X k ŷ − y1In k2 = i=1 n 2 X k y − y1In k (ŷi − y)2 (yi − y)2 i=1 Interprétation : C’est le rapport de la variation expliquée par la régression, sur la variation totale. – Si R2 = 1 ⇐⇒ θ = 0 ⇐⇒ y ∈ χ ⇐⇒ y = Xβ. – Si R2 ' 0 ⇐⇒ θ ' 90◦ ⇐⇒ résidus très élevés ⇐⇒ modèle de régression linéaire inadapté. Remarque : Si p = 2, le coefficient R2 n’est autre que le carré du coefficient de corrélation linéaire empirique de Pearson (cf. exercice 1 TD 4). 2.3.4 Interprétation et critique de l’utilisation de R2 a) Exemple 1 : Pour p = 2, cinq ensembles de données (n = 16) ont la même valeur R2 = 0.617. Et pourtant le modèle linéaire n’est pas toujours satisfaisant (voir figure page 44). Conclusion : Le critère R2 d’ajustement à un modèle linéaire est insuffisant. b) Exemple 2 : Réf. : S APORTA G. (1990), “Probabilités, analyse des données et statistique”, Editions Technip. A. Tableau d’analyse de variance de la régression Régression Résiduelle Totale d.d.l. 6 11 17 Somme de carrés Carré moyen F 520591932,37 86765322,06 4,4691 213563857,91 19414896,17 734155790,28 Sig F 0 ,0156 44 30 25 25 30 CHAPITRE 2. MODÈLE LINÉAIRE y 10 • • 5 y 15 10 • • • 5 10 15 20 25 • • • • • • • • • • 0 5 10 15 20 25 30 x 30 x 25 20 • • • • • • • • y • • • • • • • • • • • • • • 0 0 • • • 15 • 5 • • • 5 • • 10 15 20 25 • 10 y • • • 0 0 • • 0 5 • • • • • • 20 • • • 15 20 • • • 0 5 10 15 20 25 0 5 10 15 20 25 x 30 x 15 • • • • • • • • • 0 5 10 y 20 25 • 0 10 20 30 x F IG . 2.1 – Graphique de 5 ensembles de données conduisant au même R2 = 0.617. Réf. : T OMASSONE R., L ESQUOY E., M ILLIER C. (1983), “La régression : nouveaux regards sur une ancienne méthode statistique”, Masson. 45 2.3. INTERPRÉTATION GÉOMÉTRIQUE R2 = 0,7091 R2 ajusté = 0,5504 σ̂ = 4406,23. B. Estimation des paramètres Variable Constante Cylindrée Largeur Longueur Poids Puissance Vitesse Coefficient Ecartestimé type -8239,362677 42718,42313 -3,505182 5,550595 208,693773 412,047884 -15,037660 129,747488 12,574678 24,622191 282,168803 174,882966 -111,113551 222,256575 T si H0 : coeff. = 0 -0,193 -0,631 0,506 -0,116 0,511 1,613 -0,500 C. Etude des résidus estimés 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 ALFASUD-TI-1350 AUDI-100-L SIMCA-1307-GLS CITROEN-CG-CLUB FIAT-132-1600GLS LANCIA-BETA-1300 PEUGEOT-504 RENAULT-16-TL RENAULT-30-TS TOYOTA-COROLLA ALFETTA-1,66 PRINCESS-1800-HL DATSUN-200L TAUNUS-2000-GL RANCHO MAZDA-9295 OPEL-REKORD-L LADA-1300 Prix 30570 39990 29600 28250 34900 35480 32300 32000 47700 26540 42395 33990 43980 35010 39450 27900 32700 22100 Prix estimé 29616,1 36259,7 31411,1 26445,8 37043,0 34972,8 33749,1 26580,0 44445,6 24650,2 38270,5 34830,4 44872,4 36343,5 35638,1 32233,4 37103,5 30389,8 Sig T 0,8506 0,5406 0,6225 0,9098 0,6197 0,1349 0,6270 46 CHAPITRE 2. MODÈLE LINÉAIRE D. Calcul du R2 pour différents modèles k 1 2 3 4 5 6 Modèle Puis. Puis., Poids Cyl., Puis., Poids Cyl., Puis., Larg., Poids Cyl., Puis., Larg., Poids, Vitesse Complet R2 0,638 0,686 0,699 0,702 0,709 0,709 σ̂ 4076,0 3916,4 3974,4 4103,7 4221,2 4406,2 c) Autres critères : (que l’on justifiera dans les chapitres suivants.) (n − 1)R2 − (p − 1) coefficient de corrélation multiple (empirique) ajusté. n−p R2 n−p k ŷ − y1In k2 /(p − 1) – F = · = . 1 − R2 p − 1 k ŷ − y k2 /(n − p) Statistique de Fisher (cf. Chapitre 3), c’est la statistique du test d’égalité à zéro des (p−1) coefficients β2 = β3 = · · · = βp = 0 2 – Raj = k y − ŷ k2 estimateur sans biais de la variance résiduelle σ 2 et qui s’exprime en n−p 2 fonction de Raj : – σ̂ 2 = 2 σ̂ 2 = (1 − Raj ) k y − y1In k2 n−1 (cf. exercice 2 TD 4). Chapitre 3 Induction statistique dans le modèle linéaire Si on ajoute aux hypothèses du modèle linéaire une hypothèse de normalité des résidus, il est possible de réaliser des tests et des estimations par intervalle de confiance. 3.1 Modèle linéaire gaussien 3.1.1 Définition H1 ) y = Xβ + ε (cf. Chapitre 2) H2 ) X matrice non aléatoire de rang p (avec x1i = 1) H30 ) ε ∼ Nn (0, σ 2 In ) Remarque : L’hypothèse H30 contient les hypothèses H3 du modèle linéaire : E(ε) = 0 V (εi ) = σ 2 homoscédasticité cov (εi , εj ) = 0 pour i 6= j L’hypothèse H30 ⇐⇒ les v.a.r. ε1 , . . . εn sont i.i.d. de loi N (0, σ 2 ) Autre formulation : H1 et H30 ⇐⇒ y ∼ Nn (Xβ, σ 2 In ) 47 48 CHAPITRE 3. INDUCTION STATISTIQUE DANS LE MODÈLE LINÉAIRE structure statistique paramétrique : n o n 2 p + IR , BIRn , Nn (Xβ, σ In ), (β, σ) ∈ IR × IR |{z} |{z} | {z } univers tribu probabilité indicée par (β, σ 2 ) 3.1.2 Estimateur maximum de vraisemblance EM V ou M LE Propriété : L’estimateur M V du paramètre β est égal à l’estimateur M CO : β̂M V = (X 0 X)−1 X 0 y. Démonstration : ... Notation : Dans tout le chapitre β̂ désigne β̂M CO = β̂M V . Remarques : 1. L’estimateur M V du paramètre σ 2 est k y − X β̂ k2 · n Démonstration : (en exercice) C’est un estimateur asymtôtiquement sans biais et convergent en probabilité. k y − X β̂ k2 estimateur sans biais (cf. Chapitre 2). ⇒ σ̂ 2 = n−p 2. Les estimateurs β̂ et σ̂ 2 sont des estimateurs efficaces. Démonstration : (en exercice) 3.1.3 Loi de probabilité des estimateurs Propriété 1 : L’estimateur β̂ = (X 0 X)−1 X 0 y est un vecteur aléatoire gaussien de IR p β̂ ∼ Np (β, σ 2 (X 0 X)−1 ) Démonstration : (cf. Chapitre 1, III), Combinaison linéaire de v.a. indépendantes gaussiennes. k y − X β̂ k2 Propriété 2 : La v.a.r. suit une loi de chi-deux à (n − p) d.d.`. σ2 c’est-à-dire : (n − p)σ̂ 2 ∼ χ2(n−p) 2 σ 49 3.1. MODÈLE LINÉAIRE GAUSSIEN Démonstration : k y − X β̂ k2 = (y − Xβ)0 M (y − Xβ) où M = In − X(X 0 X)−1 X 0 où k y − X β̂ k2 = ε0 M ε car ε̂ = M ε (rang M = n − p) D’après le théorème de COCHRAN (chapitre 1) • • Donc 1 · ε ∼ Nn (0, In ) σ M matrice symétrique idempotente de rang n − p ⇒ 1 0 ε M ε ∼ χ2(n−p) 2 σ 1 k y − X β̂ k2 ∼ χ2(n−p) 2 σ Remarques : • On retrouve 2 E(σ̂ ) = E en effet k y − X β̂ k2 n−p E(σ̂ 2 ) = σ 2 E(Z) = ν si Z ∼ χ2(ν) • On calcule V (σ̂ 2 ) = ! = σ2 n−p ×E | 1 2 k y − X̂β k σ2 {z } n−p 2σ 2 n−p En effet V (Z) = 2ν si Z ∼ χ2(ν) ⇒ V (σ̂ 2 ) = V σ2 k y − X β̂ k2 × n−p σ2 ! σ4 k y − X β̂ k2 × V = (n − p)2 σ2 σ4 = × 2(n − p) (n − p)2 2σ 4 = · n−p ! 50 CHAPITRE 3. INDUCTION STATISTIQUE DANS LE MODÈLE LINÉAIRE Propriété 3 : Les v.a. β̂ et σ̂ 2 sont indépendantes. Démonstration : On considère les vecteurs gaussiens y − X β̂ = M y = M ε de IR n (X 0 X)−1 X 0 ε de IR p et Ils sont centrés car E(ε) = 0. Calcul de la matrice de covariance de ces 2 vecteurs (de dimension n × p.) cov (y − X β̂, (X 0 X)−1 X 0 ε) = cov (M ε, (X 0 X)−1 X 0 ε) = E[M ε((X 0 X)−1 X 0 ε)0 ] − 0 = E[M εε0 X(X 0 X)−1 ] = M E(εε0 )X(X 0 X)−1 = M σ 2 Id X(X 0 X)−1 = σ 2 M X(X 0 X)−1 = 0 car M X = 0 Donc cov (u, w) = 0 ⇒ u et w indépendants (cf. chapitre 1) u et w vecteurs gaussiens ⇒ y − X β̂ et (X 0 X)−1 X 0 ε indépendants ⇒ y − X β̂ et β̂ indépendants ⇒ k y − X β̂ k2 et β̂ indépendants ⇒ σ̂ 2 et β̂ indépendants Propriété 4 : Pour j = 1, . . . , p, la v.a.r Tj = β̂j − βj suit une loi de Student de paramètre n − p √ σ̂ γjj 51 3.1. MODÈLE LINÉAIRE GAUSSIEN où γjj jème élément diagonal de (X 0 X)−1 √ Remarque : σ̂ γjj = e.s.(β̂j ) = σ̂β̂j Propriété 5 : Soit L une matrice q × p de rang q (q < p). La v.a.r. 1 [L(β̂ − β)]0 · [L(X 0 X)−1 L0 ]−1 · σ2 [L(β̂ − β)] suit une loi de chi-deux de paramètre q · (χ2(q) ). Démonstration : – rang (L) = q ⇒ rang[L(X 0 X)−1 L0 ] = q (cf. chapitre 1). – Lβ̂ est un vecteur aléatoire gaussien de IR q – Var (Lβ̂) = L Var β̂L0 = σ 2 L(X 0 X)−1 L0 qui est inversible car définie positive de rang q. ⇒ Lβ̂ ∼ Nn (Lβ, σ 2 L(X 0 X)−1 L0 ) ⇒ [Lβ̂ − Lβ]0 · 1 [L(X 0 X)−1 L0 ]−1 σ2 · [Lβ̂ − Lβ] ∼ χ2(q) d’après le théorème de COCHRAN (chapitre 1). 3.1.4 Estimation par intervalle de confiance (IC) Propriété 1 : Un IC au coefficient de sécurité γ = 1−α, d’un coefficient βj (pour j = 1, . . . , p) est : √ √ [β̂j − tn−p; α2 · σ̂ γjj , β̂j + tn−p; α2 · σ̂ γjj ] où jème élément diagonal de (X 0 X)−1 γjj tn−p ; α 2 valeur d’une v.a. de Student de paramètre n − p qui est dépassée α avec une probabilité 2 Démonstration : découle de la propriété 4 du paragraphe précédent et de la propriété (chapitre √ 1) de changement de variable : rapport d’un v.a. normale et de la d’une v.a. de χ2 . 52 CHAPITRE 3. INDUCTION STATISTIQUE DANS LE MODÈLE LINÉAIRE Propriété 2 : Région de confiance (R.C) pour q paramètres βj (q ≤ p). Une R.C au coefficient de sécurité γ = 1 − α, de q coefficients βj1 , . . . , βjq est : Jq,α (Lq β) = ( [Lq (β̂ − β)]0 · [Lq (X 0 X)−1 L0q ]−1 · [Lq (β̂ − β)] q Lq β ∈ IR / ≤ Fq;n−p;α qσ̂ 2 ) est la matrice (q × p) telle que les éléments : (Lq )iji = 1 et les autres sont égaux à zéro. où Lq Fq;n−p;α est la valeur d’une v.a. de Fisher (q; n − p) qui est dépassée avec un probabilité α. Démonstration : résulte de la propriété 5 du paragraphe précédent et de la propriété de changement de variable (chapitre 1) Application sur l’exemple 2 du chapitre 2. Au coefficient de sécurité γ = 95%, construire : 1. I.C. de β2 (coefficient de la v.a.r. cylindrée). 2. R.C. de β2 , β3 (coefficients des v.a.r. cylindrée et puissance). 1. I.C. de β2 n = 18 p = 7. √ √ α α σ̂ γjj , β̂2 + tn−p; 2 × σ̂ γjj β̂2 − tn−p; 2 × |{z} | {z } } −3.505 t | {z=2.201 11;2.5% erreur standard 5.55 f(t) 2.5% −2.201 2.5% 0 +2.201 53 3.1. MODÈLE LINÉAIRE GAUSSIEN I.C. de β2 au coefficient de sécurité 95% : [−15.7 , +8.7] Remarque : 0 ∈ [−15.7 , +8.7] La valeur 0 est une valeur possible du paramètre βj . 2. R.C. de β2 et β3 où 0 1 0 ··· 0 β̂2 − β2 L2 = ⇒ L2 (β̂2 − β) = 0 0 1 0 ··· 0 β̂3 − β3 1 β̂2 − β2 ≤ F2;11;5% J2;α (β2 , β3 ) = (β2 , β3 )/ 2 (β̂2 − β2 β̂3 − β3 )Ω 2σ̂ β̂3 − β3 γ22 γ23 0 −1 0 Ω est l’inverse de L2 (X X) L2 = avec (γij ) = (X 0 X)−1 . γ32 γ33 β̂2 = −3.5 β̂3 = 282.17 σ̂ 2 γ22 = 5.552 F2;11;5% = 3.98 σ̂ 2 γ33 = 174.882 σ̂ 2 γ23 = σ̂ 2 γ32 = 42.1 J2;α (β2 , β3 ) = (β2 , β3 )/(3.5+β2 )2 ω1 +(β3 −282.17)2 ω2 +ω3 (−3.5−β2 )(282.17−β3 ) ≤ ω4 où ω1 , ω2 , ω3 , ω4 sont déterminés par le calcul. β3 282.17 β2 0 −3.5 Ellipsoïde de confiance 54 CHAPITRE 3. INDUCTION STATISTIQUE DANS LE MODÈLE LINÉAIRE 3.1.5 Prévision pour une valeur future x0 = (x10 , . . . , xp0 )0 La valeur prédite (ou ajustée) est : x10 où x0 = ... xp0 ŷ0 = x00 β̂ L’intervalle de prévision de y0 = x00 β̂ + e0 est alors (au coefficient de sécurité γ = 1 − α) : √ √ [x00 β̂ − tn−p; α2 × σ̂ ε0 ; x00 β̂ + tn−p; α2 σ̂ ε0 ] où ε0 = 1 + x00 (X 0 X)−1 x0 qui se déduit de la variance de y0 : var (y0 ) = var (x00 β̂) + var e0 = x00 var β̂x0 + σ 2 = σ 2 x00 (X 0 X)−1 x0 + σ 2 = σ 2 ε0 3.2 Tests d’hypothèses 3.2.1 Estimation sous contrainte linéaire On souhaite estimer le paramètre β sous contrainte linéaire. Exemples : Ecriture matricielle β1 = 0 −−−−−−−−−−−−−→(1 0 · · · 0)β = 0 (1) (2) (3) 1 0 ··· ··· ··· 0 0 0 β1 = β2 = β3 = 0 −−−−−→ 0 1 0 · · · · · · · · · β = 0 0 1 0 ··· 0 0 β1 + β2 = 6 2β2 − β3 = 9 −−−−−→ 1 1 0 ··· 0 2 −1 · · · Contrainte linéaire : Rβ = r ··· ··· β= 6 9 55 3.2. TESTS D’HYPOTHÈSES où R est une matrice q × p de rang q r est un vecteur q × 1 R et r sont connus Cette écriture matricielle signifie que l’on impose un ensemble de q contraintes linéaires sur les coefficients βj . Propriété : Si la matrice R(q × p) est de rang q, l’E.M.C.O. contraint par Rβ = r, que l’on notera β̂ c , est égal à : β̂ c = β̂ + (X 0 X)−1 R0 [R(X 0 X)−1 R0 ]−1 (r − Rβ̂) où β̂ = (X 0 X)−1 X 0 y est l’E.M.C.O. (non contraint) Démonstration : (en exercice) idée : on minimisera k y − Xβ k2 −2λ0 (Rβ − r) où λ est un vecteur de q multiplicateurs de Lagrange. 3.2.2 Test de student de signification d’un coefficient βj On souhaite tester : H0 : βj = 0 contre H1 : βj 6= 0 qui est un test bilatéral de signification de βj . Dans ce cas la contrainte Rβ = r peut s’écrire pour R = (0 0 0 |{z} 1 0 · · · 0) et r = 0. jème Règle de décision, au niveau α : on rejette H0 si t = β̂j > tn−p; α2 σ̂β̂j Démonstration : découle des propriétés du paragraphe 1. Remarque : On pourra construire un test unilatéral (à titre d’exercice) pour l’hypothèse alternative H1 : βj > 0. 56 CHAPITRE 3. INDUCTION STATISTIQUE DANS LE MODÈLE LINÉAIRE 3.2.3 Test de Fisher de signification de plusieurs coefficients Soit q coefficients βj1 , . . . , βjq On souhaite tester : (q ≤ p). H0 : βj1 = βj2 = · · · = βjq = 0 contre H1 : ∃j ∈ {j1 , . . . , jq } tel que βj 6= 0 L’hypothèse H0 s’écrit matriciellement Rβ = r, 0 1 0 ··· ··· 0 0 0 0 1 0 ··· où R = .. . (q×p) 0 ··· ··· ··· 1 0 et 0 r = ... (q×1) 0 Remarque : Si H0 est vraie, alors Rβ = 0 et donc Rβ̂ doit être “proche” de 0. Donc la première idée intuitive du test de H0 c’est de rejeter H0 si la norme de Rβ̂ est trop grande. On rappelle : Rβ̂ ∼ Nq ( ) Rβ , σ 2 R(X 0 X)−1 R0 |{z} {z } | Rβ = 0 inversible si H0 vraie (déf. positive de rang q) Règle de décision, au niveau α. on rejette H0 si Fq = [Rβ̂]0 · [R(X 0 X)−1 R0 ]−1 Rβ̂ > qσ̂ 2 F | q;n−p;α {z } F de Fisher, dépassé avec une probabilité α. Remarques : 1. Ce résultat se déduit de la propriété 5 paragraphe 1 et de la propriété du rapport de 2 lois de chi-deux. 2. On retrouve le cas particulier pour 1 coefficient : H0 : βj = 0. En effet : – Rβ̂ = β̂j , q=1 0 −1 0 −1 – [R(X X) R ] = (γjj )−1 où γjj = ((X 0 X)−1 )jj β̂j2 β̂j2 – F1 = 2 = σ̂ · γjj e.s.(β̂j ) 57 3.2. TESTS D’HYPOTHÈSES – F1;n−p;α = t2n−p;α (cf. propriété chapitre 1 : T Student ⇒ T 2 Fisher). Ce test peut être justifié par une deuxième idée intuitive. On doit rejeter H0 si l’écart entre la “RSSc ” dans le modèle contraint et la “RSS” dans le modèle non contraint, est trop grand (ce qui revient à l’écart entre X β̂ c et X β̂ trop grand). Dans le modèle contraint (si H0 est vraie) : Rβ = r = 0. RSSc =k y − X β̂c k2In où β̂c = β̂ − (X 0 X)−1 R0 [R(X 0 X)−1 R0 ]−1 Rβ̂ Dans le modèle sans contrainte RSS =k y − X β̂ k2In = σ̂ 2 × (n − p) Propriété : (démonstration en exercice). RSSc − RSS =k X β̂ − X β̂c k2 = (Rβ̂)0 [R(X 0 X)−1 R0 ]−1 Rβ̂ Formulation du test de Fisher équivalente : on rejetteH0 si Fq = (RSSc − RSS)/q > Fq;n−p;α RSS/(n − p) Remarque : Dans le cas q = p−1 et {j1 , . . . , jq } = {2, . . . , p} la statistique de Fisher s’écrit : P R2 n−p (ŷi − yi )2 /(p − 1) P Fp−1 = · = 1 − R2 p − 1 (ŷi − yi )2 /(n − p) où R2 est le coefficient de corrélation multiple empirique (cf. Chapitre 2). 3.2.4 Test de Fisher d’une hypothèse linéaire générale Le raisonnement est le même que dans le paragraphe précédent mais pour l’hypothèse : H0 : Rβ = r contre R matrice (q × p) de rang q H1 : Rβ 6= r La règle de décision de rejet de H0 au niveau α est : On rejette H0 si Fq = (Rβ̂ − r)0 [R(X 0 X)−1 R0 ]−1 (Rβ̂ − r)/q k y − X β̂ k2 /(n − p) > Fq;n−p,α 58 CHAPITRE 3. INDUCTION STATISTIQUE DANS LE MODÈLE LINÉAIRE Remarque : Fq peut encore s’écrire : Fq = (k y − X β̂c k2 − k y − X β̂ k2 )/q k y − X β̂ k2 /(n − p) = (RSSc − RSS)/q σ̂ 2 où β̂c est l’estimateur M CO contraint par H0 : Rβ = r c’est-à-dire β̂c = β̂ + (X 0 X)−1 R0 [R(X 0 X)−1 R0 ]−1 (r − Rβ̂) 3.3 Critiques du modèle linéaire gaussien – Hypothèse de linéarité ? – Hypothèse sur les résidus : – Normalité ? – Même variance ? – Non corrélation ? – Quel sous-ensemble de variables exogènes faut-il retenir ? 3.3.1 Test de linéarité On peut tester l’hypothèse de linéarité, dans le cas où on dispose de mesures répétées de la variable à expliquer : pour chaque x` = (x1` , . . . , xp` ) → ` = 1, L y`1 , . . . , y`n` {z } | n` mesures L X répétées (n = n` ) `=1 (n > L > p) Modèle linéaire gaussien : y`r = (β1 x1` + · · · + βp xp` ) + e`r |{z} i.i.d pour ` = 1, L et r = 1, n` 59 3.3. CRITIQUES DU MODÈLE LINÉAIRE GAUSSIEN Ecriture matricielle : y = Xβ + e où y11 .. . y1n1 y21 . . . y= y2n2 . .. y L1 .. . yLnL X(n×p) x11 .. . 1 x1 1 x2 . . . = 1 x2 . .. x1 L .. . x1L xp1 x21 · · · x21 · · · x22 · · · xp1 xp2 x22 · · · xp2 x2L · · · xpL x2L · · · xpL n1 fois n2 fois .. . nL fois On veut éprouver les 2 hypothèses : H0 : y = Xβ + e (la liaison entre y et x est linéaire), ` = 1, L contre H1 : y`r = m(x1` , . . . , xp` ) + e`r (la liaison entre y` et x` est traduite à r = 1, n` l’aide d’une fonction m quelconque de IR p dans IR qui n’est pas une application linéaire). Remarque : On estime les paramètres par : – sous H0 : β̂ estimateur M CO : β̂ = (X 0 X)−1 X 0 y n 1 X̀ – sous H1 : m̂(x` ) = y ` = y` n` r=1 r Règle de décision, au niveau α L X On rejette H0 si n` (ŷ` − y ` )2 /(L − p) `=1 n L X X̀ > FL−p;n−L;α 2 (y`j − y ` ) /(n − L) `=1 j=1 où ŷ` = β̂1 x1` + · · · + β̂p xp` Remarque : n L X̀ X (y`j − ŷ` ) = | {z 2 `=1 j=1 n L X̀ X `=1 j=1 ky−X β̂k2 (à démontrer en exercice). } 2 (y`j − y ` ) + L X `=1 n` (ŷ` − y ` )2 60 CHAPITRE 3. INDUCTION STATISTIQUE DANS LE MODÈLE LINÉAIRE 3.3.2 Analyse des résidus Les résidus théoriques ei sont estimés par êi = yi − ŷi qui ne sont pas de variance constante et qui sont corrélés. E(êi ) = 0 2 0 −1 0 var (ê) = σ (In − X(X X) X ) ⇒ | {z } P cov (êi , êj ) = −σ 2 pij si i 6= j var êi = σ 2 (1 − pii ) avec P = (Pij ). Définitions : 1. On appelle résidus standardisés : ri = yi − ŷi σ̂ i = 1, . . . , n. 2. On appelle résidus studentisés : yi − ŷi Ti = √ σ̂ 1 − pii où σ̂ 2 = i = 1, . . . , n k y − X β̂ k2 et pii élément diagonal de P = X(X 0 X)−1 X 0 n−p 3. On appelle résidus studentisés par validation croisée Ti∗ = yi − ŷi √ σ̂(i) 1 − pii i = 1, . . . , n où σ̂(i) est l’estimation de σ dans le modèle linéaire gaussien obtenu en supprimant l’observation i. Ce modèle est noté ( y(i) , X(i) β, σ 2 In−1 ) (n−1)×1 Remarque : ŷ(i) est la ième composante de 0 0 y(i) X(i) (X(i) X(i) )−1 X(i) cf. exercice Propriété : Sous l’hypothèse y ∼ Nn (Xβ, σ 2 In ) les v.a. Ti∗ (résidus par validation croisée) sont identiquement distribuées de loi de student à n − p − 1 d.d.`. Démonstration : cf “Régression non linéaire et applications”, Antoniadis et al. 61 3.3. CRITIQUES DU MODÈLE LINÉAIRE GAUSSIEN Dans la pratique, on utilisera les résidus studentisés Ti de la même façon que les résidus Ti∗ par validation croisée, pour contrôler les hypothèses faites dans le modèle gaussien (les v.a. Ti sont considérées comme des v.a. de Student quand n est grand) L’analyse des résidus consiste alors à réaliser des graphiques sur les résidus Ti∗ ou Ti , pour vérifier l’hypothèse y ∼ N (Xβ, σ 2 In ) Densité d’une loi de Student (n−p−1) 0 Min Q 1 Me Q3 t* i Max Graphique 1 Histogramme (lissé) et boîte à moustaches de la série empirique des résidus t∗i 62 CHAPITRE 3. INDUCTION STATISTIQUE DANS LE MODÈLE LINÉAIRE t* i 2 1 0 i −1 −2 Graphique 2 Tracé chronologique des t∗i (uniquement si l’ordre est connu, cas des séries temporelles) Dans l’exemple, amas de résidus positifs, puis négatifs ⇒ hypothèse de non corrélation des résidus incorrecte. 63 3.3. CRITIQUES DU MODÈLE LINÉAIRE GAUSSIEN Graphique 3 Bi-plot des résidus t∗i en fonction de ŷi t* i 2 1 0 ^y i −1 −2 Ajustement satisfaisant t* i t* i 2 2 1 1 0 ^y 0 i −1 −1 −2 −2 Hypothèse de linéarité ou de non corrélation incorrecte ^y Hypothèse d’homogénéité des variances des résidus incorrecte i 64 CHAPITRE 3. INDUCTION STATISTIQUE DANS LE MODÈLE LINÉAIRE 3.3.3 Détection de valeurs aberrantes ou influentes Un exemple de valeur aberrante et de valeur influente a été présenté dans le chapitre 2 (cf. exemple 1). La définition de valeur aberrante varie d’un auteur à l’autre ; dans le cadre de ce cours, nous choisirons la définition suivante : Définition : Etant donné un niveau α, une donnée aberrante est un point (yi , xi ) pour lequel la valeur du résidu réduit t∗i n’appartient pas à l’intervalle suivant : [−tn−p−1; α2 , +tn−p−1; α2 ] Remarque : Un graphique bi-plot des résidus t∗i (ou ti ) en fonction de yi (ou de ŷi ) permet de détecter les données aberrantes. Donnée influente : Une donnée sera dite influente si le terme pii est “grand”. x1i n X Exercice : Montrer que pii = x0i (X 0 X)−1 xi où xi = ... et pii = p. p i=1 xi Une donnée influente intervient fortement dans les résultats de l’ajustement car : yi − ŷi ŷ = P y ; var ε̂i = σ 2 (1 − pii ) ; Ti = √ σ̂ 1 − pii Il existe plusieurs règles pour repérer si une donnée (yi , xi ) est influente et pour préciser “pii grand”. A titre d’exemple, on donne la distance de COOK très utilisée dans la pratique : Ci = 1 pii × · T2 p 1 − pii i Une donnée (yi , xi ) sera influente si Ci > s où s est un seuil, au choix du statisticien. Ci s ^y i 3.3. CRITIQUES DU MODÈLE LINÉAIRE GAUSSIEN 65 Exemple : s = Fp;n−p;α (v.a.r. de Fisher à p et n − p d.d.`. qui est dépassée avec une probabilité α) Remarques : 1 k ŷ − ŷ(i) k2 1. Ci = p σ̂ 2 2. Dans les logiciels, des règles équivalentes à celles de COOK sont utilisées avec des seuils s qui sont fonction du caractère très influent ou anormalement influent. 3.3.4 Sélection des variables exogènes Pour avoir un modèle plus stable et ayant un bon pouvoir prédictif, l’objectif est d’éliminer les variables redondantes. a) Recherche exhaustive : 2p − 1 modèles linéaires possibles Si on envisage tous les sous-ensembles de k variables exogènes parmi les p régresseurs : Critères de choix de modèle 1. Test d’un modèle M0 contre un modèle M1 (avec M0 ⊂ M1 ) 2. Si l’objectif est de minimiser l’erreur de prévision (moyenne quadratique) pour une observation future y0 = x00 β + e0 définie par : M SEP (y0 ) = E[(y0 − x00 β̂)2 ]. On utilise le n 1X critère PRESS qui est un estimateur sans biais de M SEP (y) = E[(yi − ŷi )2 ], qui n i=1 s’écrit : n 1 X (yi − ŷi )2 P RESS = n i=1 (1 − pii )2 où pii = x0i (XX)−1 xi et ŷ = X β̂ = X(X 0 X)−1 X 0 y Remarques : – La v.a. PRESS est un estimateur sans biais de M SEP (y). – Parmi tous les modèles linéaires correspondant aux sous-ensembles de k variables exogènes (k ≤ p), on choisira le modèle correspondant à la valeur PRESS minimum. – n σ̂ 2 X 2 P RESS = T n i=1 i où yi − ŷi Ti = √ σ̂ 1 − pii résidu studentisé 66 CHAPITRE 3. INDUCTION STATISTIQUE DANS LE MODÈLE LINÉAIRE 3. Autres critères de choix de modèles linéaires – Le coefficient R2 de détermination uniquement si les modèles linéaires ont le même nombre k de paramètres non liés R2 = Σ(ŷi − y)2 Σ(yi − y)2 – R2 ajusté maximum ou σ̂ 2 minimum (cf. Chapitre 2). – Cp Mallows minimum Σ(yi − ŷi )2 Cp = + 2p σ̃ 2 où σ̃ 2 est un estimateur de σ 2 . – Critère AIC (d’Akaike) minimum. 2 AIC(Mk ) = log σ̂M + 2k k |{z} n ↓ Estimation de la variance résiduelle dans le modèle Mk contenant k coefficients de régression. b) Recherche par méthode pas à pas : (step technique) – Méthode ascendante : On introduit la variable explicative la plus corrélée (linéairement) avec y. On ajoute ensuite la variable qui fait progresser le plus le coefficient R2 . A chaque étape on teste (test de Student) la signification de chaque coefficient de régression. – Méthode descendante : Dans le modèle linéaire contenant les p variables explicatives, on élimine la variable correspondant au t de Student le moins significatif. On recalcule les estimations des coefficients dans le modèle linéaire ayant p − 1 variables. On recommence jusqu’à ce que tous les coefficients soient significatifs. 67 3.3. CRITIQUES DU MODÈLE LINÉAIRE GAUSSIEN Application : Exemple 2, analyse des résultats obtenus par le logiciel SAS. A. Ajustement du modèle complet Variable Coefficient Ecartestimé type Constante -8239,362677 42718,42313 Cylindrée -3,505182 5,550595 Largeur 208,693773 412,047884 Longueur -15,037660 129,747488 Poids 12,574678 24,622191 Puissance 282,168803 174,882966 Vitesse -111,113551 222,256575 * facteur d’inflation : 1 1 − Rj2 T si H0 : coeff. = 0 -0,193 -0,631 0,506 -0,116 0,511 1,613 -0,500 Sig T 0,8506 0,5406 0,6225 0,9098 0,6197 0,1349 0,6270 Facteur d’inflation* 0 3,77201352 11,11881980 7,20419514 4,19760475 9,95728271 6,37511213 Rj2 carré du coefficient de corrélation multiple de la variable xj et des (p − 2) autres. Mais : le test de H0 : β2 = β3 = · · · = β7 = 0 est significatif à 5 % (P (F > 4.489) = 0.016). Résidus ALFASUD-TI-1350 AUDI-100-L SIMCA-1307-GLS CITROEN-CG-CLUB FIAT-132-1600GLS LANCIA-BETA-1300 PEUGEOT-504 RENAULT-16-TL RENAULT-30-TS TOYOTA-COROLLA ALFETTA-1.66 PRINCESS-1800-HL DATSUN-200L TAUNUS-2000-GL RANCHO MAZDA-9295 OPEL-REKORD-L LADA-1300 PRIX PRIX ESTIME E-TYPE PREDICT LIMITE INF 95% LIMITE SUP 95% RESIDU RESIDU STUDENT. 30570 39990 29600 28250 34900 35480 32300 32000 47700 26540 42395 33990 43980 35010 39450 27900 32700 22100 29616,1 36259,7 31411,1 26445,8 37043,0 34972,8 33749,1 26580,0 44445,6 24650,2 38270,5 34830,4 44872,4 36343,5 35638,1 32233,4 37103,5 30389,8 2914,0 3572,5 2486,0 2259,2 2160,8 2707,1 1945,4 2760,8 3683,5 3039,9 3006,8 2018,2 3343,6 2320,9 2453,2 2726,5 2535,7 2755,1 17989,1 23774,5 20276,0 15547,2 26241,5 23590,7 23147,9 15135,5 31805,2 12868,1 26529,5 24163,5 32698,3 25382,4 24538,2 20828,9 25914,2 18952,0 41243,1 48744,8 42546,3 37344,3 47844,5 46355,0 44350,3 38024,5 57086,0 36432,4 50011,4 45497,4 57046,6 47304,6 46737,9 43638,0 48292,8 41827,6 953,891 3730,345 -1811,149 1804,249 -2142,997 507,166 -1449,145 5420,043 3254,423 1889,759 4124,538 -840,418 -892,423 -1333,489 3811,935 -4333,420 -4403,495 -8289,814 0,2886 1,4463 -0,4978 0,4769 -0,5581 0,1459 -0,3665 1,5783 1,3459 0,5925 1,2806 -0,2146 -0,3110 -0,3560 1,0415 -1,2519 -1,2220 -2,4108 DISTANCE DE COOK 0,009 0,573 0,017 0,012 0,014 0,002 0,005 0,230 0,600 0,046 0,204 0,002 0,019 0,007 0,070 0,139 0,106 0,533 68 CHAPITRE 3. INDUCTION STATISTIQUE DANS LE MODÈLE LINÉAIRE B. Recherche exhaustive k 1 2 3 4 5 6 R2 0,638 0,686 0,699 0,702 0,709 0,709 Modèle Puis. Puis., Poids Cyl., Puis., Poids Cyl., Puis., Larg., Poids Cyl., Puis., Larg., Poids, Vitesse Complet σ̂ 4076,0 3916,4 3974,4 4103,7 4221,2 4406,2 C. Modèle le meilleur (pour le critère σ̂ ou P RESS) : Prixi = β1 + β2 Puisi + β3 Poidsi + ei i = 1, . . . , 18. Résidus ALFASUD-TI-1350 AUDI-100-L SIMCA-1307-GLS CITROEN-CG-CLUB FIAT-132-1600GLS LANCIA-BETA-1300 PEUGEOT-504 RENAULT-16-TL RENAULT-30-TS TOYOTA-COROLLA ALFETTA-1.66 PRINCESS-1800-HL DATSUN-200L TAUNUS-2000-GL RANCHO MAZDA-9295 OPEL-REKORD-L LADA-1300 PRIX PRIX ESTIME LIMITE INF 95% LIMITE SUP 95% RESIDU 30570 39990 29600 28250 34900 35480 32300 32000 47700 26540 42395 33990 43980 35010 39450 27900 32700 22100 29752,5 34738,6 30811,1 27280,2 36904,9 33726,2 34523,4 27904,5 45630,9 24696,5 38067,3 35042,3 44204,9 36493,6 34186,3 34145,9 37497,6 29248,2 20216,0 26136,2 21981,3 18325,9 28170,9 25139,5 25565,3 18637,2 36023,3 15274,9 28559,2 26191,4 34599,8 27676,7 25431,9 25549,8 28742,6 20470,3 39289,0 43341,0 39640,9 36234,6 45638,9 42312,8 43481,4 37171,8 55238,6 34118,1 47575,3 43893,1 53810,1 45310,6 42940,8 42742,0 46252,6 38026,2 817,5 5251,4 -1211,1 969,8 -2004,9 1753,8 -2223,4 4095,5 2069,1 1843,5 4327,7 -1052,3 -224,9 -1483,6 5263,7 -6245,9 -4797,6 -7148,2 RESIDU STUDENT. 0,2504 1,3845 -0,3294 0,2687 -0,5381 0,4614 -0,6164 1,1937 0,6429 0,5524 1,3183 -0,2871 -0,0699 -0,4028 1,4166 -1,6453 -1,2913 -1,9302 DISTANCE DE COOK 0,009 0,042 0,005 0,004 0,010 0,004 0,023 0,144 0,066 0,038 0,245 0,004 0,001 0,007 0,074 0,058 0,062 0,147 Paramètres estimés Variable POIDS PUIS (Constant) paramètre 16,451161 172,967225 1775,601201 écart-type 10,774488 72,419998 8030,952416 T 1,527 2,388 0,221 Sig T 0,1476 0,0305 0,8280 69 3.3. CRITIQUES DU MODÈLE LINÉAIRE GAUSSIEN D. Régression pas à pas ascendante Les analyses ont été réalisées avec le logiciel SPSS. * * * * M U L T I P L E Equation Number 1 Block Number 1. CYL LAR R E G R E S S I O N Dependent Variable.. Method: LON Stepwise POIDS * * * * PRIX Criteria PIN 0,1500 PUIS VITESSE POUT 0,2000 Variable(s) Entered on Step Number 1.. PUIS Multiple R 0,79870 R Square 0,63792 Adjusted R Square 0,61529 Standard Error 4076,00771 Analysis of Variance DF Regression 1 Residual 16 F = Sum of Squares 468334369,05604 265821421,22173 28,18941 Mean Square 468334369,05604 16613838,82636 Signif F = 0,0001 ------------------ Variables in the Equation -----------------Variable PUIS (Constant) B SE B Beta 257,589788 12363,652921 48,516071 4215,922818 0,798700 T Sig T 5,309 0,0001 2,933 0,0098 ------------- Variables not in the Equation ------------Variable CYL LAR LON POIDS Beta In Partial Min Toler T Sig T 0,006334 0,179298 0,223392 0,342858 0,006363 0,254366 0,284837 0,366762 0,365384 0,728734 0,588654 0,414327 0,025 1,019 1,151 1,527 0,9807 0,3245 0,2678 0,1476 70 CHAPITRE 3. INDUCTION STATISTIQUE DANS LE MODÈLE LINÉAIRE VITESSE -0,322784 -0,287389 0,287023 -1,162 0,2634 Variable(s) Entered on Step Number 2.. POIDS Multiple R 0,82863 R Square 0,68663 Adjusted R Square 0,64484 Standard Error 3916,33023 Analysis of Variance DF Regression 2 Residual 15 F = Sum of Squares 504091153,79101 230064636,48677 16,43314 Mean Square 252045576,89550 15337642,43245 Signif F = 0,0002 ------------------ Variables in the Equation -----------------Variable SE B Beta 16,451161 172,967225 1775,601201 10,774488 72,419998 8030,952416 0,342858 0,536314 POIDS PUIS (Constant) B T Sig T 1,527 2,388 0,221 0,1476 0,0305 0,8280 ------------- Variables not in the Equation ------------Variable CYL LAR LON VITESSE Beta In Partial Min Toler T Sig T -0,205562 0,044471 0,008787 -0,159514 -0,196994 0,055281 0,007772 -0,133170 0,287794 0,275311 0,172546 0,117236 -0,752 0,207 0,029 -0,503 0,4646 0,8389 0,9772 0,6230 End Block Number 1 PIN = 0,150 Limits reached. Remarque : Au niveau 15 %, on rejette l’hypothèse H0 : “le modèle M1 est bon” pour considérer que le modèle M2 est meilleur que le modèle M1 . Test de Fisher de H0 : β2 = 0 contre β2 6= 0 F = (RSS1 − RSS2 )/1 = 2.33 > F1;15;0.15 RSS2 /15 Chapitre 4 Modèles linéaires gaussiens particuliers On considère le cas où les variables exogènes peuvent être des variables qualitatives, c’està-dire des variables indicatrices dites “auxiliaires”. Exemple : Considérons le modèle linéaire simple relatif à une série chronologique comportant une tendance linéaire et une composante saisonnière trimestrielle (par exemple le volume d’importations ou le nombre de chômeurs ou le prix des biens alimentaires,. . .) : t = 1, . . . , n s = 1, . . . , 4 yts = a + bt + αs + ets indice du mois indice du trimestre où les paramètres αs représentant l’effet de la saison s vérifient la contrainte 4 X αs = 0. s=1 Ecriture matricielle : Expliciter X dans le modèle linéaire suivant : y = Xβ + e où y = (n×1) y11 y21 y31 y41 y52 .. . yn4 β = (5×1) Remarque : Si on n’impose pas la contrainte 4 X a b α1 α2 α3 e= e11 e21 e31 e41 e52 .. . en4 αs = 0, pour que la matrice X soit de rang s=1 5, il faut contraindre par exemple le terme constant : a = 0. 71 72 CHAPITRE 4. MODÈLES LINÉAIRES GAUSSIENS PARTICULIERS Dans ce cas le modèle s’écrit : y = Xβ + e où X = 1 2 3 4 5 6 .. . .. . 1 1 1 1 0 0 .. . .. . 0 0 0 0 1 1 .. . .. . 0 0 0 0 0 0 .. . .. . 0 0 0 0 0 0 .. . .. . b α1 1 2 3 4 5 ] et β = = [x α2 |x x {zx x} α3 variables indicatrices α4 de la saison “trimestre” 4.1 Analyse de variance à un facteur La variable endogène est expliquée par une variable qualitative ayant I modalités, appelée facteur explicatif ou cause contrôlée ou variable indicatrice auxiliaire. 4.1.1 Exemple On considère une étude sur les salaires de responsables de ventes auprès de 6 entreprises. On a obtenu le tableau des salaires annuels bruts en centaine de FF : Entreprise i 1 2 3 4 5 6 1602 1615 1624 1631 1472 1477 1485 1493 1496 1504 1510 1548 1555 1559 1563 1575 1435 1438 1448 1449 1454 1458 1467 1475 1493 1498 1509 1516 1521 1523 1585 1592 1598 1604 1609 1612 Question : Peut-on considérer que les salaires moyens d’un responsable de ventes différent suivant le type d’entreprise ? 73 4.1. ANALYSE DE VARIANCE À UN FACTEUR On souhaite donc étudier l’influence du type d’entreprise sur la variable salaire. Le type d’entreprise est un facteur ayant 6 niveaux. 4.1.2 Approche intuitive de l’analyse de variance Notations : n : nombre total d’individus. yij : observation de la variable aléatoire correspondant au salaire du jème individu dans le niveau i (i = 1, . . . , I; j = 1, . . . , ni ). ni : nombre d’individus du niveau i (n = I X ni ). i=1 yi = 1 ni ni X yij ; y = j=1 1 n ni I X X yij = i=1 j=1 1 n I X y i ni . i=1 Equation d’analyse de variance (E) ni I X X (yij − y)2 = ni I X X (yij − y i )2 + | {z | {z i=1 j=1 i=1 j=1 } VARIATION TOTALE } I X |i=1 ni (y i − y)2 {z } VARIATION INTRA VARIATION INTER (effet du hasard) (effet du facteur x) Si le facteur x a un effet sur la variable exogène y, la variation rapport à la variation INTRA. INTER sera importante par Modélisation statistique (1) yij = µi + eij (i = 1, . . . , I; j = 1, . . . , ni ) Le paramètre µi représente l’effet du niveau i du facteur x. Le terme eij est la réalisation d’une variable aléatoire N (0, σ 2 ) et les n v.a.r. eij sont indépendantes. Ecriture matricielle du modèle linéaire gaussien (1) y (n×1) = Xβ (n×I)(I×1) + e (n×1) 74 CHAPITRE 4. MODÈLES LINÉAIRES GAUSSIENS PARTICULIERS avec β= µ1 µ2 .. . µI y11 .. . y1n1 . y= .. y I1 . .. yInI 0 ··· 0 .. . . · · · .. . 0 · · · .. . 1 · · · .. .. .. . ··· . .. 1 ··· . 0 ··· 0 .. . ··· 1 .. .. . ··· . 0 0 ··· 1 1 .. . 1 0 . .. X= .. . . .. . .. .. . n1 lignes n2 lignes .. . nI lignes La matrice X a pour ligne i : (x1i , . . . , xIi ). Les vecteurs colonnes de X correspondant à x = (x1 , . . . , xI ) ne sont autres que les variables indicatrices des I niveaux du facteur x. Comme dans les hypothèses du modèle linéaire gaussien, on suppose de plus : e ∼ Nn (0, σ 2 In ) et on vérifie d’autre part : X matrice non aléatoire de rang I. Autre paramétrisation 1 Si l’on décompose l’effet µi du niveau i en un effet moyen général µ = n I X ni µi et un i=1 effet différentiel αi = −µ + µi , on peut reparamétriser le modèle (1) de façon équivalente pour obtenir la modélisation (2) : yij = µ + αi + eij avec la contrainte : I X i=1 ni αi = 0 (i = 1, . . . , I j = 1, . . . , ni ) 75 4.1. ANALYSE DE VARIANCE À UN FACTEUR Ecriture matricielle du modèle linéaire gaussien (2) avec β = (I×1) µ α1 α2 .. . αI−1 et X = (n×I) 1 1 .. . 0 .. . 1 .. . 1 0 .. . 0 1 .. .. .. . . . .. .. . . 1 .. .. . . 0 .. .. .. . . . .. .. .. . . . .. .. .. . . . .. . 0 0 n2 n1 .. − . − nI nI .. .. 1 . . n1 n2 1 − − nI nI y = Xβ + e ··· ··· 0 .. . .. . .. . .. . .. . .. . ··· 0 ··· 1 .. . ··· ··· ··· ··· ··· ··· ··· ··· ··· ··· 1 nI−1 − nI .. . nI−1 − nI . .. n1 lignes n2 lignes nI−1 lignes nI lignes et e ∼ Nn (0, σ 2 In ) 4.1.3 Estimation des paramètres On peut considérer les résultats obtenus dans le chapitre 3 pour le modèle linéaire gaussien, que l’on applique par exemple au modèle (1) correspondant à la matrice X des variables indicatrices des I niveaux du facteur x. µ1 y1 Propriété : l’EMCO (ou MV) de β = ... est β̂ = ... le vecteur des I moyennes des µI yI valeurs de yij pour chaque niveau i. Démonstration : Il suffit de calculer β̂ = (X 0 X)−1 X 0 y en remarquant que X 0 y a pour ième composante ni X j=1 yij et que X 0 X = diag (n1 , n2 , . . . , nI ). 76 CHAPITRE 4. MODÈLES LINÉAIRES GAUSSIENS PARTICULIERS 2 Une deuxième démonstration possible est de minimiser k y − Xβ k = ni i X X (yij − µi )2 , i=1 j=1 expression obtenue également en écrivant la vraisemblance de y. Remarque : On vérifiera que µ̂ = y et α̂i = y i − y, estimations des paramètres du modèle (2). Estimation de la variance résiduelle σ 2 : σ̂ 2 = k y − X β̂ k2 = n−I ni I X X (yij − y i )2 i=1 j=1 n−I d’après les propriétés démontrées dans le chapitre 3 : σ̂ 2 estimateur sans biais et Var (σ̂ 2 ) = 2σ 4 . n−I On retrouve au numérateur de σ̂ 2 la variation hasard. INTRA qui est la variation résiduelle due au Intervalle de confiance, au coefficient de confiance γ = 1 − α a) d’un paramètre µi : σ̂ σ̂ [y i − tn−I; α2 × √ ; y i + tn−I; α2 × √ ] ni ni b) de q paramètres µi1 , . . . , µiq (q ≤ I) : h p p i µij ∈ y ij − bij , y ij + bij où pour j = 1 à q. q bij = ni × σ̂ 2 × Fq;n−I;α j c) des différences µi − µi0 : On ordonne suivant les valeurs croissantes les estimations y i des paramètres µi . On obtient alors µ̂i1 ≤ µ̂i2 ≤ · · · ≤ µ̂iI . On considère alors les (I − 1) différences µi − µi0 pour deux indices i et i0 successifs. L’intervalle de confiance des (I − 1) différences est alors : h p p i 1 1 y i − y i0 − bii0 , y i − y i0 + bii0 avec bii0 = (I − 1) + σ̂ 2 fI−1;n−I;α . ni ni0 Dans la pratique, on regarde si 0 appartient à l’intervalle en commençant par µi1 − µi2 et on regroupe les 2 niveaux i1 et i2 si c’est le cas. On continue alors avec µi2 − µi3 , . . . . 77 4.1. ANALYSE DE VARIANCE À UN FACTEUR 4.1.4 Test d’hypothèses (On applique la théorie des tests vue au chapitre 3). On souhaite tester l’hypothèse H0 : µ1 = · · · = µI = µ, c’est-à-dire la variable auxiliaire x n’a pas d’effet sur la variable à expliquer y. Modèle quand H0 est vraie yij = µ + eij avec eij v.a. i.i.d. de loi N (0, σ02 ) Les paramètres µ et σ02 sont estimés par : µ̂ = y et 1 = n− 1 σ̂02 ni I X X (yij − y)2 . i=1 j=1 Tableau d’analyse de variance Source de variation INTER Somme des carrés RSS (SCR) I X ni (y i − y)2 Degré de liberté d.f. (d.d.`) I X I −1 Statistique F de Fisher Somme des carrés moyens i=1 I −1 i=1 I X ni (y i − y)2 F0 = (due au facteur x) INTRA ni I X X ni I X X (yij − y i )2 n−I σ̂ 2 = i=1 j=1 (yij − y i )2 i=1 j=1 n−I (due au hasard) TOTALE ni I X X ni I X X (yij − y)2 n−1 σ̂02 = i=1 j=1 (yij − y)2 i=1 j=1 n−1 La statistique de Fisher, compte tenu de l’équation (E) s’écrit aussi : " I n # ni I X i XX X (yij − y)2 − (yij − y i )2 /(I − 1) F0 = i=1 j=1 i=1 j=1 ni I X X i=1 j=1 (yij − y i )2 /(n − I) · ni (y i − y)2 i=1 (I − 1)σ̂ 2 78 CHAPITRE 4. MODÈLES LINÉAIRES GAUSSIENS PARTICULIERS Règle de décision : au niveau α de l’hypothèse H0 contre H1 : non H0 On rejette H0 si F0 > FI−1;n−I;α où fI−1;n−I;α est déterminée d’après la v.a. FI−1;n−I de Fisher par : P [FI−1;n−I > FI−1;n−I;α ] = α. Remarque : Dans les sorties de logiciel on dispose de la “tail probability” : P (FI−1;n−I > F0 ), et on rejette alors H0 si P (FI−1;n−I > F0 ) ≤ α. 4.2 Analyse de variance à deux facteurs La variable endogène est expliquée par 2 variables qualitatives ayant respectivement I et J modalités ou niveaux. 4.2.1 Exemple Le tableau ci-dessous donne les rendements laitiers de 40 vaches pour des modes d’alimentation différents. On se propose d’étudier l’influence des 2 variables Dose et Produit de base sur le rendement laitier. Produit de base Paille Foin Herbe Aliments ensilés Dose Dose faible 8 11 11 10 7 12 13 14 11 10 10 12 12 13 14 17 13 17 14 13 Dose forte 8 9 8 10 9 10 7 10 12 11 11 9 11 11 12 17 19 17 16 21 79 4.2. ANALYSE DE VARIANCE À DEUX FACTEURS Notation : n : Nombre total d’observations. nij : Nombre d’observations relatives au niveau i du facteur F1 et au niveau j du facteur F2 (i = 1, . . . , I et j = 1, . . . , J) yijk : Observation de la variable y pour le kième individu dans la cellule (i, j) ∈ I × J. X : Matrice (n × IJ) dont les vecteurs colonnes sont les indicatrices xij de la cellule (i, j) ∈ {1, . . . , I} × {1, . . . , J} nij I J nij 1 XXX 1 X y= yij ; y ij = yij n i=1 j=1 k=1 k nij k=1 k pour (i, j) tel que nij ≥ 1. Définition : Le plan d’expérience est complet si nij ≥ 1 pour tout couple (i, j). n Le plan est dit équilibré si nij = IJ pour tout couple (i, j). 4.2.2 Modélisation statistique et estimation (On considère un plan complet). L’observation yijk se décompose additivement en un effet fixe µij des niveaux i et j des facteurs F1 et F2 respectivement, et en un effet aléatoire eijk : yijk = µij + eijk où eijk i.i.d. N (0, σ 2 ) C’est donc un modèle linéaire gaussien qui s’écrit matriciellement : (3) 1 0 ··· .. .. . . ··· µ11 1 0 ··· .. . 0 1 ··· µ1J .. .. µ21 . . ··· . . y = Xβ + e . (n×1) .. . 1 ··· avec β = X = . µ2J (n×IJ) .. 0 · · · (IJ×1) . où e ∼ Nn (0, σ 2 In ) .. .. .. . . ··· µ I1 .. .. .. . . ··· . . . .. .. · · · µIJ . . .. .. · · · 0 0 ··· 0 .. . .. . .. . .. . .. . .. . .. . 0 1 .. . 1 n11 lignes n12 lignes .. . nIJ lignes 80 CHAPITRE 4. MODÈLES LINÉAIRES GAUSSIENS PARTICULIERS La variable x est la variable indicatrice des IJ niveaux des 2 facteurs F1 et F2 . Autre paramétrisation : (Voir section 4.2.4, pour la signification des interactions γij12 ). yijk = µ + αi1 + βj2 + γij12 + eijk (4) avec les contraintes : I X αi1 = i=1 J X j=1 βj2 = I X i=1 où eijk i.i.d. N (0, σ 2 ) γij12 = J X γij12 = 0. j=1 Exercice : Dans le cas où I = 2, J = 3 et nij = 2, écrire matriciellement le modèle d’analyse de variance selon les paramétrisations (3) et (4). Combien de paramètres non liés doit-on estimer dans la modélisation (4) ? Estimation des paramètres, pour la modélisation (3) µ̂ij = y ij pour tout couple (i, j) ∈ {1, . . . , I} × {1, . . . , J} (composante de β̂ = (X 0 X)−1 X 0 y) nij I X J X X (yijk − y ij )2 2 k y − X β̂ k i=1 j=1 k=1 σ̂ 2 = = n − IJ n − IJ Démonstration : Soit en calculant β̂ (cf Chapitre 2), soit en maximisant la vraisemblance. Estimation par intervalle de confiance, de q paramètres µij conjointement au coefficient de confiance γ = 1 − α : h p p i q y ij − bij ; y ij + bij avec bij = · σ̂ 2 · fq,n−IJ;α nij 4.2.3 Tests d’hypothèses On peut s’intéresser aux 3 hypothèses nulles suivantes : H01 : αi1 = 0 pour tout i = 1, . . . , I “le facteur F1 n’a pas d’effet moyen sur y”. H02 : βj2 = 0 pour tout j = 1, . . . , J “le facteur F2 n’a pas d’effet moyen sur y 00 . H02 : γij12 = 0 pour tout (i, j) ∈ {1, . . . , I} × {1, . . . , J} “les facteurs F1 et F2 n’ont pas d’effet d’interaction sur y. 81 4.2. ANALYSE DE VARIANCE À DEUX FACTEURS 1. Cas général d’un plan complet déséquilibré (c’est-à-dire nij différents). Pour chacune des hypothèses H01 , H02 ou H03 , on considère les matrices correspondant aux contraintes linéaires : R1 , R2 ou R3 . On utilise alors le test de Fisher d’une hypothèse linéaire (cf. II.4 Chapitre 3). La statistique du test de Fisher ne s’explicite pas simplement dans le cas d’un plan complet déséquilibré. 2. Cas d’un plan complet équilibré (c’est-à-dire nij = n IJ que l’on notera K.) On peut établir dans ce cas l’équation d’analyse de variance qui donne la décomposition de la variation totale de façon orthogonale : (E) I X J X K X i=1 j=1 k=1 X (yijk − y ij )2 + JK (y i· − y)2 i X j k XX i 2 + IK (y ·j − y) + K (y ij − y i· − y ·j + y)2 (yijk − y)2 = XXX j i j I J K J I 1 XXX 1X 1X avec y = yij ; y i· = y ; y ·j = y n i=1 j=1 k=1 k J j=1 ij I i=1 ij 82 CHAPITRE 4. MODÈLES LINÉAIRES GAUSSIENS PARTICULIERS On en déduit, dans le cas d’un plan complet équilibré, le tableau d’analyse de variance : Source de variation Somme des carrés Due au facteur F1 JK d.d.`. Statistique du test de Fisher JK I X (y i· − y)2 I −1 J X (y ·j − y)2 J −1 Hyp. nulle FI−1;n−IJ;α H01 FJ−1;n−IJ;α H02 F(I−1)(J−1);n−IJ;α H03 Fn−1;n−IJ;α H04 I X (y i· − y)2 i=1 σ̂ 2 (I − 1) i=1 Valeur théorique RSS23 − RSS Due au facteur F2 IK IK j=1 P j (y ·j σ̂ 2 (J − − y)2 1) RSS13 − RSS Due à l’interaction F1 × F2 des 2 facteurs K (y ij − y i· − y ·j + y)2 i XX (y ij − y i· − y ·j + y)2 (I − 1) × (J − 1) I X J X j i j (I − 1)(J − 1)σ̂ 2 RSS12 − RSS Résiduelle RSS I X J X K X (yijk − y ij )2 n − IJ i=1 j=1 k=1 Totale TSS I X J X K X (yijk − y)2 R2 n − IJ × 1 − R2 IJ − 1 n−1 i=1 j=1 k=1 2 où σ̂ = P P P i j k (yijk − y ij )2 n − IJ L’hypothèse nulle H04 correspond à la nullité des IJ − 1 paramètres αi1 , βj1 , γi1 ce qui revient encore à tester tous les paramètres µij égaux à µ. La statistique du test de l’hypothèse H04 s’explicite alors en fonction du coefficient de détermination : (cf Chapitre 2) XXX (y ij − y)2 k ŷ − y1In k2 i j k R2 = X X X = k y − y1In k2 (yij − y)2 k i j k Notation : RSS23 (resp. RSS13 et RSS12 ) désigne la somme des carrés des résidus estimés sous l’hypothèse H2 ∩ H3 (resp. H1 ∩ H3 et H1 ∩ H2 ) Application : Pour l’exemple II.1, construire le tableau d’analyse de variance. Au niveau 5%, peut-on conclure s’il y a un effet moyen de la dose sur le rendement laitier ? s’il 83 4.2. ANALYSE DE VARIANCE À DEUX FACTEURS y a un effet moyen du produit de base ? s’il y a une interaction des facteurs dose et produit ? Expliquer la signification de l’effet de l’interaction, en précisant quel est l’effet de la dose sur le rendement laitier. 4.2.4 Interprétation de l’interaction de deux facteurs On considère le modèle linéaire gaussien (3) : yijk = µij + eijk i = 1, . . . , I j = 1, . . . , J k = 1, . . . , nij Le paramètre µij peut se décomposer : µij = µ·· + (µi· − µ·· ) + (µ·j − µ·· ) + (µij − µi· − µ·j + µ·· ) avec I J 1 XX µ·· = µij IJ i=1 j=1 représentant l’effet moyen général commun à tous les traitements. J 1X µi· = µij J j=1 représentant l’effet principal du niveau i du facteur F1 . J µ·j = 1X µij I j=1 représentant l’effet principal du niveau j du facteur F2 . Définitions : – αi1 = µi· − µ·· est l’effet différentiel du niveau i du facteur F1 (i = 1, . . . , I). – βj2 = µ·j − µ·· est l’effet différentiel du niveau j du facteur F2 (j = 1, . . . , J). – γij12 = µij − µi· − µ·j + µ·· est l’interaction entre le niveau i du facteur F1 et le niveau j du facteur F2 . Remarque : On vérifie que I X i=1 αi1 = J X j=1 βj2 = I X i=1 γij12 = J X j=1 γij12 = 0 84 CHAPITRE 4. MODÈLES LINÉAIRES GAUSSIENS PARTICULIERS On déduit de ces définitions une reparamétrisation équivalente du modèle (3) : yijk = µ·· + αi1 + βj2 + γij12 + eijk I X avec (4) αi1 i=1 = J X βj2 = j=1 I X γij12 J X = i=1 γij12 j=1 i = 1, . . . , I j = 1, . . . , J =0 k = 1, . . . , nij eijk réalisation d’une v.a. Eijk ∼ N (0, σ 2 ) et les v.a. Eijk indépendantes. L’écriture matricielle est dans ce cas : y= Xβ +e (n×IJ)(IJ×1) où β est le vecteur des IJ paramètres inconus : 1 2 12 12 , β12 , . . . , βJ−1 , γ11 , . . . , γ(I−1)(J−1) ) β 0 = (µ·· , α11 , . . . , αI−1 et X est une matrice dont les éléments sont 0,−1 ou +1, qui s’écrit dans l’exemple : I = 2, J = 3 et nij = K = 2 : y y111 y112 y121 y122 y131 y132 y211 y212 y221 y222 y231 y232 = = × X 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 −1 −1 −1 −1 −1 −1 1 1 0 0 −1 −1 1 1 0 0 −1 −1 0 0 1 1 −1 −1 0 0 1 1 −1 −1 1 1 0 0 −1 −1 −1 −1 0 0 1 1 0 0 1 1 −1 −1 0 0 −1 −1 1 1 + β · µ·· α11 β12 β22 12 γ11 12 γ12 + e e111 .. . .. . .. . .. . .. . .. . .. . .. . .. . e232 85 4.2. ANALYSE DE VARIANCE À DEUX FACTEURS Interprétation et signification des interactions Pour expliquer la signification des interactions, nous allons considérer deux exemples fictifs donnant le tableau des valeurs des paramètres µij . 1er exemple : Facteur F1 à 2 niveaux et F2 à 3 niveaux. F2 j=1 j=2 j=3 F1 i=1 µ11 = 20 µ12 = 10 µ13 = 30 i=2 µ21 = 20 µ22 = 10 µ23 = 30 On calcule : µ1· = µ2· = µ·· = 20 µ·1 = 20; µ·2 = 10; µ·3 = 30 Ce qui entraine : α11 = α21 = 0 ⇐⇒ le facteur F1 n’a pas d’effet différentiel. 12 γij = 0 ∀(i, j) ⇐⇒ les facteurs F1 et F2 sont sans interaction. Si on représente dans un repère, les points de coordonnées (i, µij ), on obtient : µij 30 δ3 20 δ 10 δ2 1 =δ i i=1 ? δj ligne polygonale des points (i, µij ). ? δ ligne polygonale des points (i, µi· ). i=2 86 CHAPITRE 4. MODÈLES LINÉAIRES GAUSSIENS PARTICULIERS Remarque : – Le parallélisme entre δ et l’axe des abscisses des niveaux du facteur F1 , caractérise l’absence d’effet moyen du facteur F2 . – Le parallélisme des lignes polygonales entre elles caractérise l’absence d’interaction entre les facteurs F1 et F2 . 2ème exemple : Facteur F1 à 3 niveaux et F2 à 4 niveaux. F1 j=1 j=2 j=3 j=4 F2 i=1 16 6 7 11 i=2 8 10 17 5 i=3 6 14 6 14 Tableau des paramètres µij On calcule : µ1· = µ2· = µ3· = µ·· = 10 µ·1 = µ·2 = µ·3 = µ·4 = µ·· = 10 Ce qui entraine : αi1 = 0 ∀i = 1, 2, 3 ⇐⇒ Pas d’effet moyen de F1 . 2 βj = 0 ∀j = 1, 2, 3, 4 ⇐⇒ Pas d’effet moyen de F2 . De plus les paramètres µij étant différents, on a obligatoirement existence d’interaction entre F1 et F2 . 12 12 12 12 12 On calcule γ11 = 6, γ12 = −4; γ13 = −3; γ14 = +1; γ21 = −2; . . . . 87 4.3. ANALYSE DE COVARIANCE µij δ 1 15 δ 4 δ 10 δ δ 3 2 5 i i=1 i=2 i=3 ? Parallélisme entre δ et l’axe des abscisses ⇒ pas d’effet moyen de F1 . ? Les lignes polygonales δi ne sont pas parallèlles et recoupent δ souvent ⇒ les interactions sont fortes. 4.3 Analyse de covariance La variable endogène est expliquée par une variable quantitative z et par les I indicatrices correspondant à une variable qualitative F ayant I modalités ou niveaux. 4.3.1 Modélisation avec interaction yij = µi + ai zij + eij pour i = 1, . . . , I et où eij i.i.d. N (0, σ 2 ) j = 1, . . . , ni et n = I X i=1 Le coefficient µi représente l’effet du niveau i du facteur F . ni tel que n > ni > 1 88 CHAPITRE 4. MODÈLES LINÉAIRES GAUSSIENS PARTICULIERS Le coefficient ai est le coefficient de régression de z correspondant aux observations du niveau i du facteur F . Il représente l’interaction entre la variable quantitative z et le facteur F . Exemple : I = 2, n1 = 13, n2 = 17. y y =µ + a z 2j 2 2 2j y µ +a1z 1j = 1 1j z observations du niveau 1 observations du niveau 2 89 4.3. ANALYSE DE COVARIANCE Le modèle linéaire s’écrit matriciellement : y = (n×1) 1 z11 .. .. . . 1 z 1n1 0 0 µ1 a1 .. .. . . µ2 . .. . . a2 . où β = , X = . .. .. .. . . .. .. . µI . . .. aI .. . . .. .. . . . .. .. 0 0 Xβ + e (n×2I)(2I×1) 0 .. . 0 .. . 0 0 1 .. . z21 .. . 0 .. . .. . .. . .. . 1 z2n2 0 0 .. . .. . .. . .. . 0 0 .. . .. . .. . .. . 0 ··· ··· ··· ··· ··· ··· ··· 0 .. . .. . .. . .. . .. . .. . .. . ··· ··· ··· 0 ··· 0 .. . 1 .. . 0 1 0 .. . 0 ··· 0 .. . .. . .. . .. . ··· 0 ··· ··· ··· ··· ··· .. . 0 zI1 .. . zInI 0 .. . .. . .. . .. . .. . .. . .. . n1 lignes n2 lignes nI lignes Les (2i − 1)ème et (2i)ème vecteurs colonnes de X étant orthogonaux à tous les autres vecteurs colonnes, on peut déterminer les estimateurs de µi et ai pour tout i = 1, . . . , I, en considérant I modèles linéaires successifs : 1 zi1 yi1 .. µi .. . zi2 yi = Xi · + ei avec y(i) = . X = . . ai .. .. (ni ×2) (ni ×1) yini 1 zini Estimateurs (cf. RLS). Pour tout i = 1, . . . , I : µ̂i = y i − âi z i où yi = 1 ni ni X yij ni X zij j=1 ni X âi = (yij − y i )(zij − z i ) j=1 ni X j=1 zi = 2 (zij − z i ) 1 ni j=1 90 CHAPITRE 4. MODÈLES LINÉAIRES GAUSSIENS PARTICULIERS La variance des résidus est alors estimée par : σ̂ 2 = 4.3.2 ni I X X k y − X β̂ k2 = n − 2I [yij − y i − âi (zij − z i )]2 i=1 j=1 si n > 2I n − 2I Tests d’hypothèses On peut s’intéresser aux hypothèses suivantes : H01 : ai = a pour tout i = 1, I. H02 : ai = 0 pour tout i = 1, I. H03 : µi = µ pour tout i = 1, I. Test de l’hypothèse H01 , relatif au paralléllisme des droites de régression. 1 La règle de décision, de H01 : ai = a pour tout i = 1, I contre H 0 : ∃i 6= j, ai 6= aj , est au niveau α : ni I X X (â2i − â2 ) · (zij − z i )2 on rejette H01 si i=1 j=1 σ̂ 2 · (I − 1) > fI−1;n−2I;α On montrera, à titre d’exercice, ce résultat (cf. test de Fisher Chapitre 3) en précisant l’estimateur â qui est l’estimateur de a sous l’hypothèse H01 . Test de l’hypothèse H02 contre l’hypothèse H01 , pour µi quelconque. La règle de décision, au niveau α est : " # XX XX 2 2 (yij − y i ) − (yij − y i − â(zij − zi )) on rejette H02 si i j i XX i j (yij − y i − â(zij − z i ))2 /(n − I − 1) > f1;n−I−1;α j A titre d’exercice, on montreraX queX la statistique de ce test s’écrit de façon équivalente en 2 remplaçant le numérateur par : â (zij − z i )2 . i j Exercice : Montrer que l’estimation de a est différente dans les 2 modèles suivants : 1) yij = azij + µi + eij 2) yij = azij + eij Chapitre 5 Généralisation du modèle linéaire gaussien Le modèle linéaire gaussien, s’il n’est pas adapté au problème considéré, peut être étendu dans les cas des différentes hypothèses : – Hypothèse de linéarité y = Xβ + e → y = f (x, β) + e. MODÈLE DE RÉGRESSION NON LINÉAIRE – Hypothèse sur le vecteur x des variables exogènes. X de rang p → X de rang inférieur à p ( MULTICOLINÉARITÉ ) MODÈLE CONTRAINT : Rβ = 0 x vecteur non aléatoire → x vecteur aléatoire de IR p – Loi du p + 1-uple (y, x). – Loi de y sachant x. MODÈLE CONDITIONNEL – Variable x, corrélée avec les résidus. MODÈLES À ERREUR sur les variables exogènes (variables instrumentales). 91 92 CHAPITRE 5. GÉNÉRALISATION DU MODÈLE LINÉAIRE GAUSSIEN – Hypothèse sur les résidus Var (ei ) = σ 2 (Résidus homogènes) → var(ei ) = σi2 (Résidus hétérogènes) MOINDRES CARRÉS PONDÉRÉS E(ei ej ) = 0 si i 6= j (Résidus non corrélés) → E(ei ej ) 6= 0 si i 6= j (Résidus autocorrélés) MOINDRES CARRÉS GÉNÉRALISÉS ei v.a. gaussienne (Normalité des résidus) → Loi de probabilité de yi paramétrique : – Binomiale – Poisson – Gamma .. . VRAISEMBLANCE L(y1 , . . . , yn ; β), (Si x aléatoire, vraisemblance conditionnelle). → Loi de probabilité de (y, x) sans spécification de lois particulières paramétriques. (STATISTIQUE NON PARAMÉTRIQUE). 5.1 Moindres carrés généralisés 5.1.1 Estimateur des moindres carrés généralisés On le note MCG ou GLS (Generalized Least Squares). On se place dans le cas où l’hypothèse H3 des perturbations sphériques : E(ee0 ) = σ 2 In du modèle linéaire, n’est plus vraie. Définition du modèle linéaire (Lorsque les perturbations ne sont pas sphériques). H1 y (n×1) = Xβ (n×p)(p×1) + e (n×1) H2 X matrice non aléatoire de rang p et la première colonne de X est 1In . H300 E(e) = 0 et E(ee0 ) = σ 2 Ω rang n. où Ω matrice d’ordre n, symétrique définie positive, de 93 5.1. MOINDRES CARRÉS GÉNÉRALISÉS Définition L’estimateur M CG (ou estimateur d’Aitken) est : β̂M CG = (X 0 Ω−1 X)−1 X 0 Ω−1 y Propriété de Gauss-Markov : Sous les hypothèses H1 , H2 et H300 , l’estimateur β̂M CG est sans biais, de variance : σ 2 (X 0 Ω−1 X)−1 et meilleur que tout estimateur linéaire et sans biais. Démonstration : On vérifie : E(β̂M CG ) = β et Var (β̂M CG ) = σ 2 (X 0 Ω−1 X)−1 On se ramène au cas du théorème de Gauss-Markov énoncé pour le modèle linéaire classique. On utilise la propriété (cf. Chapitre I) : Ω matrice symétrique définie positive (d’ordre n). ⇒ Il existe une matrice P d’ordre n, inversible telle que : Ω = P P0 On pose : z = P −1 y – L’hypothèse H1 : y = Xβ + e s’écrit : P −1 y = P −1 Xβ + P −1 e avec A = P −1 X . u = P −1 e – L’hypothèse H300 sur les résidus e, s’écrit pour les résidus u : C’est-à-dire z = Aβ + u ? ? E(u) = 0 E(uu0 ) = σ 2 In – Dans le modèle linéaire : z = Aβ + u, l’estimateur des moindres carrés s’écrit : 0 0 −1 −1 −1 0 −1 −1 (A0 A)−1 A0 z = (X 0 P | {zP } X) X P | {zP } y = β̂M CG Ω−1 ⇒ Théorème de Gauss-Markov (Chapitre 2). Ω−1 94 CHAPITRE 5. GÉNÉRALISATION DU MODÈLE LINÉAIRE GAUSSIEN Propriétés : 1. Sous l’hypothèse H300 , l’estimateur M CO β̂M CO = (X 0 X)−1 X 0 y, qui est linéaire et toujours sans biais, n’est plus de variance minimale. Exercice : Calculer Var (β̂M CO ). 2. L’estimateur M CG β̂M CG = (X 0 Ω0 X)−1 X 0 Ω−1 y est l’estimateur qui : – MINIMISE k y − Xβ k2Ω−1 – MAXIMISE LA VRAISEMBLANCE DU MODÈLE LINÉAIRE G AUSSIEN (y, Xβ, σ 2 Ω) défini par H1 , H2 , H300 et l’hypothèse de normalité des résidus e. 1 L(y, β) = σ −n · (2π)−n/2 · (det Ω)−1/2 exp{− 2 k y − Xβ k2Ω−1 } 2σ Exercice : Montrer que β̂M CG = arg minβ k y − Xβ k2Ω−1 = β̂M V Remarques : 1. Si la matrice Ω est connue : – β̂M CG = (X 0 Ω−1 X)−1 X 0 Ω−1 y est un estimateur sans biais de β. k y − X β̂M CG k2Ω−1 – σ̂ 2 = est un estimateur sans biais de σ 2 . (à montrer à titre d’exern−p cice). 2. Si la matrice Ω est inconnue : n(n − 1) paramètres Ωij de la matrice Ω à estimer ainsi que n paramètres Ωii . – Il y a 2 ⇒ Problème insoluble dans le cas général. – Estimation de Ω possible dans des cas simples particuliers : * Ω diagonale * Ω a une expression particulière, par exemple : 1 ρ ρ2 · · · ρn−1 ρ 1 Processus autorégressif 1 . . . 1 du premier ordre : Ω= 1 − ρ2 . et = ρet−1 + ut .. 1 ρn−1 1 Test dans le modèle (y, Xβ, σ 2 , Ω) gaussien où Ω connue : Test de Fisher. (cf. Chapitre 3.) – Hypothèse nulle : H0 : Rβ = r contre Rβ 6= r avec R(q × p) de rang q et r(q × 1) 95 5.1. MOINDRES CARRÉS GÉNÉRALISÉS – Règle de décision au niveau α. On rejette H0 si F > Fq,n−p,α où la statistique de Fisher s’écrit de façon analogue au chapitre 3. 1 k r − Rβ̂M CG k2[R(X 0 Ω−1 X)−1 R0 ]−1 q F = 1 k y − X β̂M CG k2Ω−1 n−p Exercice : Par analogie aux résultats du chapitre 3, écrire : – L’expression de l’estimateur contraint par Rβ = r. – Le test de student de signification d’un coefficient βj . – Le test de Fisher de signification de q coefficients. 1 – Le numérateur de F sous la forme (RSSC − RSS). q 5.1.2 Estimateur des moindres carrés pondérés On le note MCP ou WLS (Weighted Least Squares). Hétéroscédasticité et non corrélation des résidus Exemple 1 : Cas de données groupées. i = 1, . . . , I; j = 1, . . . , ni 1 eij indépendantes yij = β1 + β2 xij + eij avec E(eij ) = 0 Var (eij ) = σ 2 ⇐⇒ y i = β1 + β2 x1i + ui avec Var u = σ 2 Ω = σ 2 1 n1 0 0 .. . β̂ = arg min β 1 nI I X i=1 u indépendants i σ2 E(ui ) = 0 Var (ui ) = ni ! ni (y i − β1 − β2 x1i )2 96 CHAPITRE 5. GÉNÉRALISATION DU MODÈLE LINÉAIRE GAUSSIEN Exemple 2 : Hétéroscédasticité due à une (ou plusieurs) variable exogène xj . y = Xβ + e avec E(e) = 0 où Var (e) = σ 2 Ω β̂ = arg min β n X (yi − i=1 Ω = diag ((xj1 )2 , . . . , (xjn )2 ) p X xji βj )2 wi j=1 où la pondération wi = 1 , (xji )2 Estimateur M CP C’est l’estimateur M CG dans le modèle particulier (y, Xβ, σ 2 Ω) où Ω est une matrice diagonale : Ω = diag ( w11 , . . . , w1n ) définie par : β̂M CP = arg min β n X i=1 wi (yi − p X xji βj )2 j=1 = arg minβ k y − Xβ k2Ω−1 et égal à : β̂M CP = (X 0 Ω−1 X)−1 X 0 Ω−1 y 5.1.3 Autocorrélation des résidus On considère le modèle linéaire dans le cas de résidus corrélés, c’est-à-dire : y = Xβ + e avec E(e) = 0 et E(ee0 ) = Σ où Σ est une matrice symétrique, définie positive, non diagonale, inversible. On traitera le cas de corrélation temporelle, très classique dans les séries chronologiques : 97 5.1. MOINDRES CARRÉS GÉNÉRALISÉS Autocorrélation du 1er ordre dans les processus autorégressifs : Définition : Les résidus et suivent un processus autorégressif d’ordre 1 (AR(1)) si : ut indépendant de et−1 E(ut ) = 0 et = ρet−1 + ut (pour t = 2, . . . , n) avec Var (ut ) = σ 2 E(ut u0t ) = 0 si t 6= t0 c’est-à-dire le résidu et dépend du résidu et−1 : E(et /et−1 ) = ρet−1 Le paramètre ρ est tel que : | ρ |< 1. Propriétés : Si les résidus et du modèle linéaire (y, Xβ, Σ) suivent un processus AR(1), alors : 1. La matrice Σ s’écrit : X (n×n) σ2 = 1 − ρ2 Ω−1 = 1 1 ρ ρ2 .. . ρ 1 ρ .. . ··· ··· ··· .. . ρn−1 ρn−2 ρn−3 .. . ρn−1 ρn−2 ρn−3 · · · 1 ρ 0 −ρ 1 + ρ2 −ρ 0 .. . .. . 0 ρ2 ρ 1 .. . −ρ .. . .. . ··· ··· ··· 1 + ρ2 · · · .. . −ρ ··· 0 1 + ρ2 −ρ 0 .. . .. . = σ2Ω 1 et det Ω = 1 − ρ2 0 −ρ 1 2. Les paramètres β et ρ sont estimés : – Soit par une méthode en 2 étapes : Etape 1 : ? Calcul de β̂M CO = (X 0 X)−1 X 0 y. ? Calcul de ê = y − X β̂M CO . ? Calcul de ρ̂M CO dans le modèle linéaire : êt = ρêt−1 + ut t = 2, . . . , n 98 CHAPITRE 5. GÉNÉRALISATION DU MODÈLE LINÉAIRE GAUSSIEN n X ⇒ ρ̂M CO = t=2 n X êt êt−1 (ê2t−1 ) t=2 Etape 2 : ? Calcul de Ω̂, estimation de Ω obtenue en remplaçant ρ par ρ̂M CO ? Calcul de l’estimateur M CG : β̂M CG = (X 0 Ω̂−1 X)−1 X 0 Ω̂−1 y – Soit par M V (difficile) 3. Un test de l’autocorrélation pour l’hypothèse nulle H0 : ρ = 0 (c’est-à-dire σ 2 Ω = σ 2 In ) contre ρ 6= 0 (ou ρ > 0), peut être réalisé à partir de la statistique de DURBIN-WATSON : n X DW = (êt − êt−1 )2 t=2 n X où ê = y − X(X 0 X)−1 X 0 y (ê2t ) t=1 Des tables de Durbin-Watson permettent de déterminer la procédure du test suivant. Si DW < dinf , on rejette H0 . Si DW > dsup , on ne rejette pas H0 . Si dinf < DW < dsup , on ne peut pas conclure. Conditions d’utilisation du test : – x1i = 1 – X non aléatoire – les variables exogènes ne contiennent pas la variable endogène retardée. 5.2 Régression stochastique On a supposé jusqu’à présent que les variables exogènes xi = (x1i , . . . , xpi ) étaient déterministes et que les erreurs ei étaient aléatoires (ce qui entraîne que la variable endogène yi est aléatoire). En fait, dans beaucoup d’exemples considérés, les variables exogènes sont aléatoires. On suppose donc que xi = (x1i , . . . , xpi ) est un vecteur aléatoire de IR p , et donc X est une matrice aléatoire. 99 5.2. RÉGRESSION STOCHASTIQUE Remarque : Dans ce cas on ne considère plus l’hypothèse x1i = 1, et si le modèle comprend un terme constant (où des variables exogènes déterministes) il conviendra de le faire intervenir additionnellement à X. On se bornera à donner quelques idées générales suivant les 2 cas : – On considère la loi conditionnelle de yi sachant xi . – On considère la loi du couple (yi , xi ), dans le cas yi ∈ IR et xi ∈ IR p . 5.2.1 Modèles linéaires conditionnels Définitions : Un modèle linéaire conditionnel à X = X̃ (X matrice (n × p) aléatoire) est défini par les hypothèses : A1 y = Xβ + e. A2 La matrice X est aléatoire et sa réalisation X̃ est de rang p (la loi de probabilité de x ne dépend pas de β.) A3 E(e/X = X̃) = 0; Var (e/X = X̃) = σ 2 Ω. (Ω matrice de rang n, symétrique et définie positive, connue). Remarques : 1. L’hypothèse A3 est équivalente à E(y/X = X̃) = X̃β; Var (y/X = X̃) = σ 2 Ω 2. Si, de plus, on suppose la normalité pour la loi conditionnelle de y sachant X (cas du modèle linéaire gaussien conditionnel), on a : la loi de y sachant X = X̃ est Nn (X̃β; σ 2 Ω) 3. Si le modèle contient un terme constant, on écrira : y = β0 + Xβ + e avec les mêmes hypothèses A2 et A3 . 4. Tous les calculs et propriétés démontrés dans les chapitres précédents sont valables, pour des raisonnements évidemment conditionnellement à X. 5.2.2 Approximation d’une v.a. y par un vecteur aléatoire x Dans cette section, on considère le vecteur aléatoire de IR p+1 : z = (y, x) où y v.a.r. et x = (x1 , . . . , xp ) ∈ IR p 100 CHAPITRE 5. GÉNÉRALISATION DU MODÈLE LINÉAIRE GAUSSIEN Régression de y en x Problème : Peut-on trouver une fonction f de IR p dans IR telle que : y= f (x) + e |{z} |{z} reste expliquée indépendant par x de x en considérant comme critère à minimiser “l’erreur moyenne quadratique” : E[(y − f (x))2 ] où l’espérance E est relative à la loi de z = (y, x) Propriété 1 : E(y) est le nombre le plus proche de y en moyenne quadratique, c’est-à-dire : E(y) = arg min E[(y − k)2 ] k Démonstration : On décompose : E[(y − k)2 ] = V (y) + (E(y) − k)2 Car E[(y − E(y))(E(y) − k)] = 0 Propriété 2 : La fonction f qui minimise E[(y − f (x))2 ] est celle qui à x̃ associe l’espérance conditionnelle de y sachant x = x̃, notée E(y/x = x̃) ou R(x̃) et appelée régression de y en x. Démonstration : On rappelle : E(U ) = E[E(U/x = x̃)] si U est une fonction de x et de y. On décompose : E[(y − f (x))2 ] = E [y − E(y/x = x̃)]2 + E [E(y/x = x̃) − f (x̃)]2 car le double produit est nul. La fonction f qui minimise E[(y − f (x))2 ] est donc f (x̃) = E(y/x = x̃) pour toute valeur x̃ de la variable aléatoire x. Remarque : R(x̃) s’explicite : 101 5.2. RÉGRESSION STOCHASTIQUE – Dans le cas où (y, x) a une densité g. Z g(y, x̃1 , . . . , x̃p ) R R(x̃) = y × dy g(y, x̃1 , . . . , x̃p )dy – Dans le cas où (y, x) est un vecteur aléatoire discret : R(x̃) = X ỹ · ỹ P (y = ỹ, x = x̃) P (x = x̃) Remarque : Si y et x indépendants, alors R(x̃) = E(y) pour tout x̃ Exemples : Sachant que x = x̃, que prévoir pour y ? (1) 1 (y, x) de densité g(y, x) = √ si 0 < y < x < 1 2 xy y (2) 0 1 25/174 120/174 4/174 25/174 x (y, x) discrète de loi : 0 1 Propriété 3 : Analyse de variance : V (y) = V (y − R(x)) + V (R(x)) Régression linéaire de y en x. p Problème : Peut-on trouver une fonction affine f de IR dans IR (c’est-à-dire f (x) = p X aj x j + j=1 2 a0 ) telle que : y = f (x) + e en considérant comme critère le minimum de E[(y − f (x)) ] ? # " p X c’est-à-dire E (y − aj xj − a0 )2 minimum j=1 C’est la méthode des moindres carrés probabiliste. 102 CHAPITRE 5. GÉNÉRALISATION DU MODÈLE LINÉAIRE GAUSSIEN Propriété 4 : La fonction affine f (x) = p X aj xj + a0 qui minimise E[(y − f (x))2 ] est la j=1 fonction notée EL(y/x) (appelée Régression linéaire de y par x) : EL(y/x = x̃) = E(y) + cov (y, x)[V (x)]−1 (x̃ − E(x)) (1×p) Démonstration : On pose 0 ax = (1×p)(p×1) p X (p×p) (p×1) aj xj =< a, x >. j=1 On décompose : E[(y − a0 x − a0 )2 ] = E[(y ∗ − a0 x∗ )2 ] + (E(y) − a0 E(x) − a0 )2 car le double produit est nul avec y ∗ = y − E(y) et x∗ = x − E(x) On décompose : E[(y ∗ − a0 x∗ )2 ] = V (y) − cov (y, x)(V (x))−1 cov (x, y) + (a − (V (x))−1 cov (x, y))0 V (x)(a − (V (x))−1 cov (x, y)) ⇒ E[(y − a0 x − a0 )2 ] minimum si : a = (V (x))−1 cov (x, y) a0 = E(Y ) − a0 E(x) ⇒ f (x) = a0 x + a0 qui minimise E[(y − a0 x − a0 )2 ] est : EL(y | x) = (cov (x, y))0 (V (x))−1 (x − E(x)) + E(y) CQFD 103 5.2. RÉGRESSION STOCHASTIQUE Aspect statistique Quand on ne connait pas la loi de (y, x) mais quand on dispose d’un échantillon (yi , xi )i=1,n de taille n, on peut estimer EL(y/x). Propriété : Soit (y, x) centrée (E(y) = 0 et E(x) = 0) x11 · · · xp1 y1 Soit y = ... et X = ... . . . ... les observations de (y, x) (n×p) yn x1n · · · xpn Alors la régréssion linéaire de y par x, EL(y/x) est estimée à l’aide des moments empiriques, par : x1i . 0 −1 0 0 d EL(y i /xi ) = xi (X X) X y où xi = .. xpi Remarque : On retrouve les formules du modèle linéaire (Chapitre 2). Démonstration : On a vu que a = (V (x))−1 cov (x, y) comme y et x sont centrées : −1 a = (E(xx0 )) E(xy) – E(xx0 ) est estimée par la matrice de variance covariance empirique (p×p) 1 général : n n X 1 0 X X de terme n 0 xjt xjt . t=1 n 1 X j j0 0 xt xt ) = E(xj xj ) terme général de E(xx0 ). En effet, E( n t=1 n X 1 – E(xy) est estimée par le vecteur de covariance empirique X 0 y, de composantes : n1 yt xit . n (p×1) t=1 En effet, E 1 n n X yt xjt ! = E(yt xjt ) = E(yxj ) t=1 jème composante de E(xy) – Donc â = (X 0 X)−1 X 0 y et ŷi = x0i â. (j = 1, . . . , p) 104 CHAPITRE 5. GÉNÉRALISATION DU MODÈLE LINÉAIRE GAUSSIEN Application : Au concours de tir à l’arc de la forêt de Brocéliande, les archers visent une cible triangulaire. Merlin l’Enchanteur, en avance sur son temps, a repéré les points de cette cible dans un système d’axes orthonormés, selon le schéma : y A(2.2) 2 1 0 1 −1 2 x B(2.−1) −2 La cible a atteindre est OAB et le résultat d’un tir est un couple (x, y) représentant les coordonnées du point atteint. On suppose que (x, y) suit une loi uniforme sur le triangle OAB, nulle en dehors. - Calculer la régression de y par x. - Calculer la régression linéaire de y par x. Bibliographie A NTONIADIS A., B ERRUYER J., C ARMONA R. (1992), “Régression non linéaire et applications”, Economica. B OURBONNAIS R. (1998), “Econométrie : manuel et exercices corrigés”, Dunod. M ADDALA G.S. (1977), “Econometrics”, International Student Edition. F OURGEAUD C., L ENCLUD B. (1978), “Econométrie”, PUF. G REENE W. H. (1993), “Econometric Analysis”, Prentice Hall. G IRAUD R., C HAIX N. (1989), “Econométrie”, PUF. M ONFORT A. (1982), “Cours de statistique mathématique”, Economica, ENSAE. R AFFIN C. [1993), “ Econométrie”, Flash U, Armand Colin. T OMASSONE R., L ESQUOY E., M ILLIER C. (1983), “La régression : nouveaux regards sur une ancienne méthode statistique”, Masson. J OHNSTON J. (1985), “Méthodes économétriques : tomes 1 et 2”, Economica. S APORTA G. (1990), “Probabilités, analyse des données et statistique”, Technip. 105 106 BIBLIOGRAPHIE Tables statistiques Loi de Student α tα d.d.l. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 ∞ α 0.10 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.282 0.05 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.645 0.025 12.706 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 1.960 107 0.01 31.821 6.965 4.541 3.747 3.365 3.143 2.998 2.896 2.821 2.764 2.718 2.681 2.650 2.624 2.602 2.583 2.567 2.552 2.539 2.528 2.518 2.508 2.500 2.492 2.485 2.479 2.473 2.467 2.462 2.326 0.005 63.657 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.576 108 TABLES STATISTIQUES Loi normale F(u) u u 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 0.00 0.5000 0.5398 0.5793 0.6179 0.6554 0.6915 0.7257 0.7580 0.7881 0.8159 0.8413 0.8643 0.8849 0.9032 0.9192 0.9332 0.9452 0.9554 0.9641 0.9713 0.9772 0.9821 0.9861 0.9893 0.9918 0.9938 0.9953 0.9965 0.9974 0.9981 0.01 0.5040 0.5438 0.5832 0.6217 0.6591 0.6950 0.7291 0.7611 0.7910 0.8186 0.8438 0.8665 0.8869 0.9049 0.9207 0.9345 0.9463 0.9564 0.9649 0.9719 0.9778 0.9826 0.9864 0.9896 0.9920 0.9940 0.9955 0.9966 0.9975 0.9982 0.02 0.5080 0.5478 0.5871 0.6255 0.6628 0.6985 0.7324 0.7642 0.7939 0.8212 0.8461 0.8686 0.8888 0.9066 0.9222 0.9357 0.9474 0.9573 0.9656 0.9726 0.9783 0.9830 0.9868 0.9898 0.9922 0.9941 0.9956 0.9967 0.9976 0.9982 0.03 0.5120 0.5517 0.5910 0.6293 0.6664 0.7019 0.7357 0.7673 0.7967 0.8238 0.8485 0.8708 0.8907 0.9082 0.9236 0.9370 0.9484 0.9582 0.9664 0.9732 0.9788 0.9834 0.9871 0.9901 0.9925 0.9943 0.9957 0.9968 0.9977 0.9983 0.04 0.5160 0.5557 0.5948 0.6331 0.6700 0.7054 0.7389 0.7704 0.7995 0.8264 0.8508 0.8729 0.8925 0.9099 0.9251 0.9382 0.9495 0.9591 0.9671 0.9738 0.9793 0.9838 0.9875 0.9904 0.9927 0.9945 0.9959 0.9969 0.9977 0.9984 0.05 0.5199 0.5596 0.5987 0.6368 0.6736 0.7088 0.7422 0.7734 0.8023 0.8289 0.8531 0.8749 0.8944 0.9115 0.9265 0.9394 0.9505 0.9599 0.9678 0.9744 0.9798 0.9842 0.9878 0.9906 0.9929 0.9946 0.9960 0.9970 0.9978 0.9984 0.06 0.5239 0.5636 0.6026 0.6406 0.6772 0.7123 0.7454 0.7764 0.8051 0.8315 0.8554 0.8770 0.8962 0.9131 0.9279 0.9406 0.9515 0.9608 0.9686 0.9750 0.9803 0.9846 0.9881 0.9909 0.9931 0.9948 0.9961 0.9971 0.9979 0.9985 0.07 0.5279 0.5675 0.6064 0.6443 0.6808 0.7157 0.7486 0.7794 0.8078 0.8340 0.8577 0.8790 0.8980 0.9147 0.9292 0.9418 0.9525 0.9616 0.9693 0.9756 0.9808 0.9850 0.9884 0.9911 0.9932 0.9949 0.9962 0.9972 0.9979 0.9985 0.08 0.5319 0.5714 0.6103 0.6480 0.6844 0.7190 0.7517 0.7823 0.8106 0.8365 0.8599 0.8810 0.8997 0.9162 0.9306 0.9429 0.9535 0.9625 0.9699 0.9761 0.9812 0.9854 0.9887 0.9913 0.9934 0.9951 0.9963 0.9973 0.9980 0.9986 Table pour les grandes valeurs de u : u F (u) 3.0 0.998650 3.1 0.999032 3.2 0.999313 3.3 0.999517 3.4 0.999663 3.5 0.999767 u F (u) 3.6 0.999841 3.7 0.999892 3.8 0.999928 3.9 0.999952 4.0 0.999968 4.5 0.999997 0.09 0.5359 0.5753 0.6141 0.6517 0.6879 0.7224 0.7549 0.7852 0.8133 0.8389 0.8621 0.8830 0.9015 0.9177 0.9319 0.9441 0.9545 0.9633 0.9706 0.9767 0.9817 0.9857 0.9890 0.9916 0.9936 0.9952 0.9964 0.9974 0.9981 0.9986 109 TABLES STATISTIQUES Loi du khi-deux α χ 2α d.d.l. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 α 0.95 0.004 0.103 0.352 0.711 1.145 1.635 2.167 2.733 3.325 3.940 4.575 5.226 5.892 6.571 7.261 7.962 8.672 9.390 10.117 10.851 11.591 12.338 13.091 13.848 14.611 15.379 16.151 16.928 17.708 18.493 26.509 34.764 43.188 51.739 60.391 69.126 77.929 0.90 0.016 0.211 0.584 1.064 1.610 2.204 2.833 3.490 4.168 4.865 5.578 6.304 7.042 7.790 8.547 9.312 10.085 10.865 11.651 12.443 13.240 14.041 14.848 15.659 16.473 17.292 18.114 18.939 19.768 20.599 29.051 37.689 46.459 55.329 64.278 73.291 82.358 0.50 0.455 1.386 2.366 3.357 4.351 5.348 6.346 7.344 8.343 9.342 10.341 11.340 12.340 13.339 14.339 15.338 16.338 17.338 18.338 19.337 20.337 21.337 22.337 23.337 24.337 25.336 26.336 27.336 28.336 29.336 39.335 49.335 59.335 69.334 79.334 89.334 99.334 0.30 1.074 2.408 3.665 4.878 6.064 7.231 8.383 9.524 10.656 11.781 12.899 14.011 15.119 16.222 17.322 18.418 19.511 20.601 21.689 22.775 23.858 24.939 26.018 27.096 28.172 29.246 30.319 31.391 32.461 33.530 44.165 54.723 65.227 75.689 86.120 96.524 106.906 0.20 1.642 3.219 4.642 5.989 7.289 8.558 9.803 11.030 12.242 13.442 14.631 15.812 16.985 18.151 19.311 20.465 21.615 22.760 23.900 25.037 26.171 27.301 28.429 29.553 30.675 31.795 32.912 34.027 35.139 36.250 47.269 58.164 68.972 79.715 90.405 101.054 111.667 0.10 2.706 4.605 6.251 7.779 9.236 10.645 12.017 13.362 14.684 15.987 17.275 18.549 19.812 21.064 22.307 23.542 24.769 25.989 27.204 28.412 29.615 30.813 32.007 33.196 34.382 35.563 36.741 37.916 39.087 40.256 51.805 63.167 74.397 85.527 96.578 107.565 118.498 0.05 3.841 5.991 7.815 9.488 11.07 12.592 14.067 15.507 16.919 18.307 19.675 21.026 22.362 23.685 24.996 26.296 27.587 28.869 30.144 31.410 32.671 33.924 35.172 36.415 37.652 38.885 40.113 41.337 42.557 43.773 55.758 67.505 79.082 90.531 101.879 113.145 124.342 0.02 5.412 7.824 9.837 11.668 13.388 15.033 16.622 18.168 19.679 21.161 22.618 24.054 25.471 26.873 28.259 29.633 30.995 32.346 33.687 35.020 36.343 37.659 38.968 40.270 41.566 42.856 44.140 45.419 46.693 47.962 60.436 72.613 84.580 96.388 108.069 119.648 131.142 0.01 6.635 9.210 11.345 13.277 15.086 16.812 18.475 20.090 21.666 23.209 24.725 26.217 27.688 29.141 30.578 32.000 33.409 34.805 36.191 37.566 38.932 40.289 41.638 42.980 44.314 45.642 46.963 48.278 49.588 50.892 63.691 76.154 88.379 100.425 112.329 124.116 135.807 0.001 10.828 13.816 16.266 18.467 20.515 22.458 24.322 26.124 27.877 29.588 31.264 32.909 34.528 36.123 37.697 39.252 40.790 42.312 43.820 45.315 46.797 48.268 49.728 51.179 52.620 54.052 55.476 56.892 58.301 59.703 73.402 86.661 99.607 112.317 124.839 137.208 149.449 √ Quand√le nombre de degrés de liberté est élevé, 2χ2 est à peu près distribué normalement autour de 2d.d.l. − 1 avec une variance égale à 1. 110 TABLES STATISTIQUES Loi de Fisher : α = 0.10 α Degrés de liberté du dénominateur : ν2 Fα 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 ∞ 1 39.86 8.53 5.54 4.54 4.06 3.78 3.59 3.46 3.36 3.29 3.23 3.18 3.14 3.10 3.07 3.05 3.03 3.01 2.99 2.97 2.96 2.95 2.94 2.93 2.92 2.91 2.90 2.89 2.89 2.88 2.84 2.79 2.75 2.71 2 49.50 9.00 5.46 4.32 3.78 3.46 3.26 3.11 3.01 2.92 2.86 2.81 2.76 2.73 2.70 2.67 2.64 2.62 2.61 2.59 2.57 2.56 2.55 2.54 2.53 2.52 2.51 2.50 2.50 2.49 2.44 2.39 2.35 2.30 Degrés de liberté du numérateur : ν1 3 4 5 6 7 53.59 55.83 57.24 58.20 58.91 9.16 9.24 9.29 9.33 9.35 5.39 5.34 5.31 5.28 5.27 4.19 4.11 4.05 4.01 3.98 3.62 3.52 3.45 3.40 3.37 3.29 3.18 3.11 3.05 3.01 3.07 2.96 2.88 2.83 2.78 2.92 2.81 2.73 2.67 2.62 2.81 2.69 2.61 2.55 2.51 2.73 2.61 2.52 2.46 2.41 2.66 2.54 2.45 2.39 2.34 2.61 2.48 2.39 2.33 2.28 2.56 2.43 2.35 2.28 2.23 2.52 2.39 2.31 2.24 2.19 2.49 2.36 2.27 2.21 2.16 2.46 2.33 2.24 2.18 2.13 2.44 2.31 2.22 2.15 2.10 2.42 2.29 2.20 2.13 2.08 2.40 2.27 2.18 2.11 2.06 2.38 2.25 2.16 2.09 2.04 2.36 2.23 2.14 2.08 2.02 2.35 2.22 2.13 2.06 2.01 2.34 2.21 2.11 2.05 1.99 2.33 2.19 2.10 2.04 1.98 2.32 2.18 2.09 2.02 1.97 2.31 2.17 2.08 2.01 1.96 2.30 2.17 2.07 2.00 1.95 2.29 2.16 2.06 2.00 1.94 2.28 2.15 2.06 1.99 1.93 2.28 2.14 2.05 1.98 1.93 2.23 2.09 2.00 1.93 1.87 2.18 2.04 1.95 1.87 1.82 2.13 1.99 1.90 1.82 1.77 2.08 1.94 1.85 1.77 1.72 8 59.44 9.37 5.25 3.95 3.34 2.98 2.75 2.59 2.47 2.38 2.30 2.24 2.20 2.15 2.12 2.09 2.06 2.04 2.02 2.00 1.98 1.97 1.95 1.94 1.93 1.92 1.91 1.90 1.89 1.88 1.83 1.77 1.72 1.67 9 59.86 9.38 5.24 3.94 3.32 2.96 2.72 2.56 2.44 2.35 2.27 2.21 2.16 2.12 2.09 2.06 2.03 2.00 1.98 1.96 1.95 1.93 1.92 1.91 1.89 1.88 1.87 1.87 1.86 1.85 1.79 1.74 1.68 1.63 111 TABLES STATISTIQUES Loi de Fisher : α = 0.10 (suite) α Degrés de liberté du dénominateur : ν2 Fα 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 ∞ 10 60.19 9.39 5.23 3.92 3.30 2.94 2.70 2.54 2.42 2.32 2.25 2.19 2.14 2.10 2.06 2.03 2.00 1.98 1.96 1.94 1.92 1.90 1.89 1.88 1.87 1.86 1.85 1.84 1.83 1.82 1.76 1.71 1.65 1.60 12 60.71 9.41 5.22 3.90 3.27 2.90 2.67 2.50 2.38 2.28 2.21 2.15 2.10 2.05 2.02 1.99 1.96 1.93 1.91 1.89 1.87 1.86 1.84 1.83 1.82 1.81 1.80 1.79 1.78 1.77 1.71 1.66 1.60 1.55 15 61.22 9.42 5.20 3.87 3.24 2.87 2.63 2.46 2.34 2.24 2.17 2.10 2.05 2.01 1.97 1.94 1.91 1.89 1.86 1.84 1.83 1.81 1.80 1.78 1.77 1.76 1.75 1.74 1.73 1.72 1.66 1.60 1.55 1.49 Degrés de liberté du numérateur : ν1 20 24 30 40 60 61.74 62.00 62.26 62.53 62.79 9.44 9.45 9.46 9.47 9.47 5.18 5.18 5.17 5.16 5.15 3.84 3.83 3.82 3.80 3.79 3.21 3.19 3.17 3.16 3.14 2.84 2.82 2.80 2.78 2.76 2.59 2.58 2.56 2.54 2.51 2.42 2.40 2.38 2.36 2.34 2.30 2.28 2.25 2.23 2.21 2.20 2.18 2.16 2.13 2.11 2.12 2.10 2.08 2.05 2.03 2.06 2.04 2.01 1.99 1.96 2.01 1.98 1.96 1.93 1.90 1.96 1.94 1.91 1.89 1.86 1.92 1.90 1.87 1.85 1.82 1.89 1.87 1.84 1.81 1.78 1.86 1.84 1.81 1.78 1.75 1.84 1.81 1.78 1.75 1.72 1.81 1.79 1.76 1.73 1.70 1.79 1.77 1.74 1.71 1.68 1.78 1.75 1.72 1.69 1.66 1.76 1.73 1.70 1.67 1.64 1.74 1.72 1.69 1.66 1.62 1.73 1.70 1.67 1.64 1.61 1.72 1.69 1.66 1.63 1.59 1.71 1.68 1.65 1.61 1.58 1.70 1.67 1.64 1.60 1.57 1.69 1.66 1.63 1.59 1.56 1.68 1.65 1.62 1.58 1.55 1.67 1.64 1.61 1.57 1.54 1.61 1.57 1.54 1.51 1.47 1.54 1.51 1.48 1.44 1.40 1.48 1.45 1.41 1.37 1.32 1.42 1.38 1.34 1.30 1.24 120 63.06 9.48 5.14 3.78 3.12 2.74 2.49 2.32 2.18 2.08 2.00 1.93 1.88 1.83 1.79 1.75 1.72 1.69 1.67 1.64 1.62 1.60 1.59 1.57 1.56 1.54 1.53 1.52 1.51 1.50 1.42 1.35 1.26 1.17 ∞ 63.33 9.49 5.13 3.76 3.10 2.72 2.47 2.29 2.16 2.06 1.97 1.90 1.85 1.80 1.76 1.72 1.69 1.66 1.63 1.61 1.59 1.57 1.55 1.53 1.52 1.50 1.49 1.48 1.47 1.46 1.38 1.29 1.19 1.00 112 TABLES STATISTIQUES Loi de Fisher : α = 0.05 α Degrés de liberté du dénominateur : ν2 Fα 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 ∞ 1 161.45 18.51 10.13 7.71 6.61 5.99 5.59 5.32 5.12 4.96 4.84 4.75 4.67 4.60 4.54 4.49 4.45 4.41 4.38 4.35 4.32 4.30 4.28 4.26 4.24 4.23 4.21 4.20 4.18 4.17 4.08 4.00 3.92 3.84 2 199.50 19.00 9.55 6.94 5.79 5.14 4.74 4.46 4.26 4.10 3.98 3.89 3.81 3.74 3.68 3.63 3.59 3.55 3.52 3.49 3.47 3.44 3.42 3.40 3.39 3.37 3.35 3.34 3.33 3.32 3.23 3.15 3.07 3.00 Degrés de liberté du numérateur : ν1 3 4 5 6 7 215.71 224.58 230.16 233.99 236.77 19.16 19.25 19.30 19.33 19.35 9.28 9.12 9.01 8.94 8.89 6.59 6.39 6.26 6.16 6.09 5.41 5.19 5.05 4.95 4.88 4.76 4.53 4.39 4.28 4.21 4.35 4.12 3.97 3.87 3.79 4.07 3.84 3.69 3.58 3.50 3.86 3.63 3.48 3.37 3.29 3.71 3.48 3.33 3.22 3.14 3.59 3.36 3.20 3.09 3.01 3.49 3.26 3.11 3.00 2.91 3.41 3.18 3.03 2.92 2.83 3.34 3.11 2.96 2.85 2.76 3.29 3.06 2.90 2.79 2.71 3.24 3.01 2.85 2.74 2.66 3.20 2.96 2.81 2.70 2.61 3.16 2.93 2.77 2.66 2.58 3.13 2.90 2.74 2.63 2.54 3.10 2.87 2.71 2.60 2.51 3.07 2.84 2.68 2.57 2.49 3.05 2.82 2.66 2.55 2.46 3.03 2.80 2.64 2.53 2.44 3.01 2.78 2.62 2.51 2.42 2.99 2.76 2.60 2.49 2.40 2.98 2.74 2.59 2.47 2.39 2.96 2.73 2.57 2.46 2.37 2.95 2.71 2.56 2.45 2.36 2.93 2.70 2.55 2.43 2.35 2.92 2.69 2.53 2.42 2.33 2.84 2.61 2.45 2.34 2.25 2.76 2.53 2.37 2.25 2.17 2.68 2.45 2.29 2.18 2.09 2.60 2.37 2.21 2.10 2.01 8 238.88 19.37 8.85 6.04 4.82 4.15 3.73 3.44 3.23 3.07 2.95 2.85 2.77 2.70 2.64 2.59 2.55 2.51 2.48 2.45 2.42 2.40 2.37 2.36 2.34 2.32 2.31 2.29 2.28 2.27 2.18 2.10 2.02 1.94 9 240.54 19.38 8.81 6.00 4.77 4.10 3.68 3.39 3.18 3.02 2.90 2.80 2.71 2.65 2.59 2.54 2.49 2.46 2.42 2.39 2.37 2.34 2.32 2.30 2.28 2.27 2.25 2.24 2.22 2.21 2.12 2.04 1.96 1.88 113 TABLES STATISTIQUES Loi de Fisher : α = 0.05 (suite) α Degrés de liberté du dénominateur : ν2 Fα 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 ∞ 10 241.88 19.40 8.79 5.96 4.74 4.06 3.64 3.35 3.14 2.98 2.85 2.75 2.67 2.60 2.54 2.49 2.45 2.41 2.38 2.35 2.32 2.30 2.27 2.25 2.24 2.22 2.20 2.19 2.18 2.16 2.08 1.99 1.91 1.83 12 243.91 19.41 8.74 5.91 4.68 4.00 3.57 3.28 3.07 2.91 2.79 2.69 2.60 2.53 2.48 2.42 2.38 2.34 2.31 2.28 2.25 2.23 2.20 2.18 2.16 2.15 2.13 2.12 2.10 2.09 2.00 1.92 1.83 1.75 15 245.95 19.43 8.70 5.86 4.62 3.94 3.51 3.22 3.01 2.85 2.72 2.62 2.53 2.46 2.40 2.35 2.31 2.27 2.23 2.20 2.18 2.15 2.13 2.11 2.09 2.07 2.06 2.04 2.03 2.01 1.92 1.84 1.75 1.67 Degrés de liberté du numérateur : ν1 20 24 30 40 248.01 249.05 250.10 251.14 19.45 19.45 19.46 19.47 8.66 8.64 8.62 8.59 5.80 5.77 5.75 5.72 4.56 4.53 4.50 4.46 3.87 3.84 3.81 3.77 3.44 3.41 3.38 3.34 3.15 3.12 3.08 3.04 2.94 2.90 2.86 2.83 2.77 2.74 2.70 2.66 2.65 2.61 2.57 2.53 2.54 2.51 2.47 2.43 2.46 2.42 2.38 2.34 2.39 2.35 2.31 2.27 2.33 2.29 2.25 2.20 2.28 2.24 2.19 2.15 2.23 2.19 2.15 2.10 2.19 2.15 2.11 2.06 2.16 2.11 2.07 2.03 2.12 2.08 2.04 1.99 2.10 2.05 2.01 1.96 2.07 2.03 1.98 1.94 2.05 2.01 1.96 1.91 2.03 1.98 1.94 1.89 2.01 1.96 1.92 1.87 1.99 1.95 1.90 1.85 1.97 1.93 1.88 1.84 1.96 1.91 1.87 1.82 1.94 1.90 1.85 1.81 1.93 1.89 1.84 1.79 1.84 1.79 1.74 1.69 1.75 1.70 1.65 1.59 1.66 1.61 1.55 1.50 1.57 1.52 1.46 1.39 60 252.20 19.48 8.57 5.69 4.43 3.74 3.30 3.01 2.79 2.62 2.49 2.38 2.30 2.22 2.16 2.11 2.06 2.02 1.98 1.95 1.92 1.89 1.86 1.84 1.82 1.80 1.79 1.77 1.75 1.74 1.64 1.53 1.43 1.32 120 253.25 19.49 8.55 5.66 4.40 3.70 3.27 2.97 2.75 2.58 2.45 2.34 2.25 2.18 2.11 2.06 2.01 1.97 1.93 1.90 1.87 1.84 1.81 1.79 1.77 1.75 1.73 1.71 1.70 1.68 1.58 1.47 1.35 1.22 ∞ 254.30 19.50 8.53 5.63 4.36 3.67 3.23 2.93 2.71 2.54 2.40 2.30 2.21 2.13 2.07 2.01 1.96 1.92 1.88 1.84 1.81 1.78 1.76 1.73 1.71 1.69 1.67 1.65 1.64 1.62 1.51 1.39 1.25 1.00 114 TABLES STATISTIQUES Loi de Fisher : α = 0.025 α Degrés de liberté du dénominateur : ν2 Fα 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 ∞ 1 647.79 38.51 17.44 12.22 10.01 8.81 8.07 7.57 7.21 6.94 6.72 6.55 6.41 6.30 6.20 6.12 6.04 5.98 5.92 5.87 5.83 5.79 5.75 5.72 5.69 5.66 5.63 5.61 5.59 5.57 5.42 5.29 5.15 5.02 2 799.50 39.00 16.04 10.65 8.43 7.26 6.54 6.06 5.71 5.46 5.26 5.10 4.97 4.86 4.77 4.69 4.62 4.56 4.51 4.46 4.42 4.38 4.35 4.32 4.29 4.27 4.24 4.22 4.20 4.18 4.05 3.93 3.80 3.69 Degrés de liberté du numérateur : ν1 3 4 5 6 7 864.16 899.58 921.85 937.11 948.22 39.17 39.25 39.30 39.33 39.36 15.44 15.10 14.88 14.73 14.62 9.98 9.60 9.36 9.20 9.07 7.76 7.39 7.15 6.98 6.85 6.60 6.23 5.99 5.82 5.70 5.89 5.52 5.29 5.12 4.99 5.42 5.05 4.82 4.65 4.53 5.08 4.72 4.48 4.32 4.20 4.83 4.47 4.24 4.07 3.95 4.63 4.28 4.04 3.88 3.76 4.47 4.12 3.89 3.73 3.61 4.35 4.00 3.77 3.60 3.48 4.24 3.89 3.66 3.50 3.38 4.15 3.80 3.58 3.41 3.29 4.08 3.73 3.50 3.34 3.22 4.01 3.66 3.44 3.28 3.16 3.95 3.61 3.38 3.22 3.10 3.90 3.56 3.33 3.17 3.05 3.86 3.51 3.29 3.13 3.01 3.82 3.48 3.25 3.09 2.97 3.78 3.44 3.22 3.05 2.93 3.75 3.41 3.18 3.02 2.90 3.72 3.38 3.15 2.99 2.87 3.69 3.35 3.13 2.97 2.85 3.67 3.33 3.10 2.94 2.82 3.65 3.31 3.08 2.92 2.80 3.63 3.29 3.06 2.90 2.78 3.61 3.27 3.04 2.88 2.76 3.59 3.25 3.03 2.87 2.75 3.46 3.13 2.90 2.74 2.62 3.34 3.01 2.79 2.63 2.51 3.23 2.89 2.67 2.52 2.39 3.12 2.79 2.57 2.41 2.29 8 956.66 39.37 14.54 8.98 6.76 5.60 4.90 4.43 4.10 3.85 3.66 3.51 3.39 3.29 3.20 3.12 3.06 3.01 2.96 2.91 2.87 2.84 2.81 2.78 2.75 2.73 2.71 2.69 2.67 2.65 2.53 2.41 2.30 2.19 9 963.28 39.39 14.47 8.90 6.68 5.52 4.82 4.36 4.03 3.78 3.59 3.44 3.31 3.21 3.12 3.05 2.98 2.93 2.88 2.84 2.80 2.76 2.73 2.70 2.68 2.65 2.63 2.61 2.59 2.57 2.45 2.33 2.22 2.11 115 TABLES STATISTIQUES Loi de Fisher : α = 0.025 (suite) α Degrés de liberté du dénominateur : ν2 Fα 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 ∞ 10 968.63 39.40 14.42 8.84 6.62 5.46 4.76 4.30 3.96 3.72 3.53 3.37 3.25 3.15 3.06 2.99 2.92 2.87 2.82 2.77 2.73 2.70 2.67 2.64 2.61 2.59 2.57 2.55 2.53 2.51 2.39 2.27 2.16 2.05 12 976.71 39.41 14.34 8.75 6.52 5.37 4.67 4.20 3.87 3.62 3.43 3.28 3.15 3.05 2.96 2.89 2.82 2.77 2.72 2.68 2.64 2.60 2.57 2.54 2.51 2.49 2.47 2.45 2.43 2.41 2.29 2.17 2.05 1.94 15 984.87 39.43 14.25 8.66 6.43 5.27 4.57 4.10 3.77 3.52 3.33 3.18 3.05 2.95 2.86 2.79 2.72 2.67 2.62 2.57 2.53 2.50 2.47 2.44 2.41 2.39 2.36 2.34 2.32 2.31 2.18 2.06 1.94 1.83 Degrés de liberté du numérateur : ν1 20 24 30 40 993.10 997.25 1001.41 1005.60 39.45 39.46 39.46 39.47 14.17 14.12 14.08 14.04 8.56 8.51 8.46 8.41 6.33 6.28 6.23 6.18 5.17 5.12 5.07 5.01 4.47 4.41 4.36 4.31 4.00 3.95 3.89 3.84 3.67 3.61 3.56 3.51 3.42 3.37 3.31 3.26 3.23 3.17 3.12 3.06 3.07 3.02 2.96 2.91 2.95 2.89 2.84 2.78 2.84 2.79 2.73 2.67 2.76 2.70 2.64 2.59 2.68 2.63 2.57 2.51 2.62 2.56 2.50 2.44 2.56 2.50 2.44 2.38 2.51 2.45 2.39 2.33 2.46 2.41 2.35 2.29 2.42 2.37 2.31 2.25 2.39 2.33 2.27 2.21 2.36 2.30 2.24 2.18 2.33 2.27 2.21 2.15 2.30 2.24 2.18 2.12 2.28 2.22 2.16 2.09 2.25 2.19 2.13 2.07 2.23 2.17 2.11 2.05 2.21 2.15 2.09 2.03 2.20 2.14 2.07 2.01 2.07 2.01 1.94 1.88 1.94 1.88 1.82 1.74 1.82 1.76 1.69 1.61 1.71 1.64 1.57 1.48 60 1009.80 39.48 13.99 8.36 6.12 4.96 4.25 3.78 3.45 3.20 3.00 2.85 2.72 2.61 2.52 2.45 2.38 2.32 2.27 2.22 2.18 2.14 2.11 2.08 2.05 2.03 2.00 1.98 1.96 1.94 1.80 1.67 1.53 1.39 120 1014.02 39.49 13.95 8.31 6.07 4.90 4.20 3.73 3.39 3.14 2.94 2.79 2.66 2.55 2.46 2.38 2.32 2.26 2.20 2.16 2.11 2.08 2.04 2.01 1.98 1.95 1.93 1.91 1.89 1.87 1.72 1.58 1.43 1.27 ∞ 1018 39.50 13.90 8.26 6.02 4.85 4.14 3.67 3.33 3.08 2.88 2.72 2.60 2.49 2.40 2.32 2.25 2.19 2.13 2.09 2.04 2.00 1.97 1.94 1.91 1.88 1.85 1.83 1.81 1.79 1.64 1.48 1.31 1.00 116 TABLES STATISTIQUES Loi de Fisher : α = 0.01 α Degrés de liberté du dénominateur : ν2 Fα 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 ∞ 1 4052.18 98.50 34.12 21.20 16.26 13.75 12.25 11.26 10.56 10.04 9.65 9.33 9.07 8.86 8.68 8.53 8.40 8.29 8.18 8.10 8.02 7.95 7.88 7.82 7.77 7.72 7.68 7.64 7.60 7.56 7.31 7.08 6.85 6.63 2 4999.50 99.00 30.82 18.00 13.27 10.92 9.55 8.65 8.02 7.56 7.21 6.93 6.70 6.51 6.36 6.23 6.11 6.01 5.93 5.85 5.78 5.72 5.66 5.61 5.57 5.53 5.49 5.45 5.42 5.39 5.18 4.98 4.79 4.61 Degrés de liberté du numérateur : ν1 3 4 5 6 7 5403.35 5624.58 5763.65 5858.99 5928.36 99.17 99.25 99.30 99.33 99.36 29.46 28.71 28.24 27.91 27.67 16.69 15.98 15.52 15.21 14.98 12.06 11.39 10.97 10.67 10.46 9.78 9.15 8.75 8.47 8.26 8.45 7.85 7.46 7.19 6.99 7.59 7.01 6.63 6.37 6.18 6.99 6.42 6.06 5.80 5.61 6.55 5.99 5.64 5.39 5.20 6.22 5.67 5.32 5.07 4.89 5.95 5.41 5.06 4.82 4.64 5.74 5.21 4.86 4.62 4.44 5.56 5.04 4.69 4.46 4.28 5.42 4.89 4.56 4.32 4.14 5.29 4.77 4.44 4.20 4.03 5.18 4.67 4.34 4.10 3.93 5.09 4.58 4.25 4.01 3.84 5.01 4.50 4.17 3.94 3.77 4.94 4.43 4.10 3.87 3.70 4.87 4.37 4.04 3.81 3.64 4.82 4.31 3.99 3.76 3.59 4.76 4.26 3.94 3.71 3.54 4.72 4.22 3.90 3.67 3.50 4.68 4.18 3.85 3.63 3.46 4.64 4.14 3.82 3.59 3.42 4.60 4.11 3.78 3.56 3.39 4.57 4.07 3.75 3.53 3.36 4.54 4.04 3.73 3.50 3.33 4.51 4.02 3.70 3.47 3.30 4.31 3.83 3.51 3.29 3.12 4.13 3.65 3.34 3.12 2.95 3.95 3.48 3.17 2.96 2.79 3.78 3.32 3.02 2.80 2.64 8 5981.07 99.37 27.49 14.80 10.29 8.10 6.84 6.03 5.47 5.06 4.74 4.50 4.30 4.14 4.00 3.89 3.79 3.71 3.63 3.56 3.51 3.45 3.41 3.36 3.32 3.29 3.26 3.23 3.20 3.17 2.99 2.82 2.66 2.51 9 6022.47 99.39 27.35 14.66 10.16 7.98 6.72 5.91 5.35 4.94 4.63 4.39 4.19 4.03 3.89 3.78 3.68 3.60 3.52 3.46 3.40 3.35 3.30 3.26 3.22 3.18 3.15 3.12 3.09 3.07 2.89 2.72 2.56 2.41 117 TABLES STATISTIQUES Loi de Fisher : α = 0.01 (suite) α Degrés de liberté du dénominateur : ν2 Fα 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 ∞ 10 6055.85 99.40 27.23 14.55 10.05 7.87 6.62 5.81 5.26 4.85 4.54 4.30 4.10 3.94 3.80 3.69 3.59 3.51 3.43 3.37 3.31 3.26 3.21 3.17 3.13 3.09 3.06 3.03 3.00 2.98 2.80 2.63 2.47 2.32 12 6106.32 99.42 27.05 14.37 9.89 7.72 6.47 5.67 5.11 4.71 4.40 4.16 3.96 3.80 3.67 3.55 3.46 3.37 3.30 3.23 3.17 3.12 3.07 3.03 2.99 2.96 2.93 2.90 2.87 2.84 2.66 2.50 2.34 2.18 15 6157.28 99.43 26.87 14.20 9.72 7.56 6.31 5.52 4.96 4.56 4.25 4.01 3.82 3.66 3.52 3.41 3.31 3.23 3.15 3.09 3.03 2.98 2.93 2.89 2.85 2.81 2.78 2.75 2.73 2.70 2.52 2.35 2.19 2.04 Degrés de liberté du numérateur : ν1 20 24 30 40 6208.73 6234.63 6260.65 6286.78 99.45 99.46 99.47 99.47 26.69 26.60 26.50 26.41 14.02 13.93 13.84 13.75 9.55 9.47 9.38 9.29 7.40 7.31 7.23 7.14 6.16 6.07 5.99 5.91 5.36 5.28 5.20 5.12 4.81 4.73 4.65 4.57 4.41 4.33 4.25 4.17 4.10 4.02 3.94 3.86 3.86 3.78 3.70 3.62 3.66 3.59 3.51 3.43 3.51 3.43 3.35 3.27 3.37 3.29 3.21 3.13 3.26 3.18 3.10 3.02 3.16 3.08 3.00 2.92 3.08 3.00 2.92 2.84 3.00 2.92 2.84 2.76 2.94 2.86 2.78 2.69 2.88 2.80 2.72 2.64 2.83 2.75 2.67 2.58 2.78 2.70 2.62 2.54 2.74 2.66 2.58 2.49 2.70 2.62 2.54 2.45 2.66 2.58 2.50 2.42 2.63 2.55 2.47 2.38 2.60 2.52 2.44 2.35 2.57 2.49 2.41 2.33 2.55 2.47 2.39 2.30 2.37 2.29 2.20 2.11 2.20 2.12 2.03 1.94 2.03 1.95 1.86 1.76 1.88 1.79 1.70 1.59 60 6313.03 99.48 26.32 13.65 9.20 7.06 5.82 5.03 4.48 4.08 3.78 3.54 3.34 3.18 3.05 2.93 2.83 2.75 2.67 2.61 2.55 2.50 2.45 2.40 2.36 2.33 2.29 2.26 2.23 2.21 2.02 1.84 1.66 1.47 120 6339.39 99.49 26.22 13.56 9.11 6.97 5.74 4.95 4.40 4.00 3.69 3.45 3.25 3.09 2.96 2.84 2.75 2.66 2.58 2.52 2.46 2.40 2.35 2.31 2.27 2.23 2.20 2.17 2.14 2.11 1.92 1.73 1.53 1.32 ∞ 6366 99.50 26.13 13.46 9.02 6.88 5.65 4.86 4.31 3.91 3.60 3.36 3.17 3.00 2.87 2.75 2.65 2.57 2.49 2.42 2.36 2.31 2.26 2.21 2.17 2.13 2.10 2.06 2.03 2.01 1.80 1.60 1.38 1.00 118 TABLES STATISTIQUES Test de Durbin et Watson Valeurs critiques au seuil α = 0.05 pour H0 : ρ = 0 p : nombre de variables explicatives (constante exclue) n : nombre d’observations 0 n 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 45 50 55 60 65 70 75 80 85 90 95 100 refusée p=1 d1 d2 1.08 1.36 1.10 1.37 1.13 1.38 1.16 1.39 1.18 1.40 1.20 1.41 1.22 1.42 1.24 1.43 1.26 1.44 1.27 1.45 1.29 1.45 1.30 1.46 1.32 1.47 1.33 1.48 1.34 1.48 1.35 1.49 1.36 1.50 1.37 1.50 1.38 1.51 1.39 1.51 1.40 1.52 1.41 1.52 1.42 1.53 1.43 1.54 1.43 1.54 1.44 1.54 1.48 1.57 1.50 1.59 1.53 1.60 1.55 1.62 1.57 1.63 1.58 1.64 1.60 1.65 1.61 1.66 1.62 1.67 1.63 1.68 1.64 1.69 1.65 1.69 Incertitude p=2 d1 d2 0.95 1.54 0.98 1.54 1.02 1.54 1.05 1.53 1.08 1.53 1.10 1.54 1.13 1.54 1.15 1.54 1.17 1.54 1.19 1.55 1.21 1.55 1.22 1.55 1.24 1.56 1.26 1.56 1.27 1.56 1.28 1.57 1.30 1.57 1.31 1.57 1.32 1.58 1.33 1.58 1.34 1.58 1.35 1.59 1.36 1.59 1.37 1.59 1.38 1.60 1.39 1.60 1.43 1.62 1.46 1.63 1.49 1.64 1.51 1.65 1.54 1.66 1.55 1.67 1.57 1.68 1.59 1.69 1.60 1.70 1.61 1.70 1.62 1.71 1.63 1.72 p=3 d1 d2 0.82 1.75 0.86 1.73 0.90 1.71 0.93 1.69 0.97 1.68 1.00 1.68 1.03 1.67 1.05 1.66 1.08 1.66 1.10 1.66 1.12 1.66 1.14 1.65 1.16 1.65 1.18 1.65 1.20 1.65 1.21 1.65 1.23 1.65 1.24 1.65 1.26 1.65 1.27 1.65 1.28 1.65 1.29 1.65 1.31 1.66 1.32 1.66 1.33 1.66 1.34 1.66 1.38 1.67 1.42 1.67 1.45 1.68 1.48 1.69 1.50 1.70 1.52 1.70 1.54 1.71 1.56 1.72 1.57 1.72 1.59 1.73 1.60 1.73 1.61 1.74 acceptée p=4 d1 d2 0.69 1.97 0.74 1.93 0.78 1.90 0.82 1.87 0.86 1.85 0.90 1.83 0.93 1.81 0.96 1.80 0.99 1.79 1.01 1.78 1.04 1.77 1.06 1.76 1.08 1.76 1.10 1.75 1.12 1.74 1.14 1.74 1.16 1.74 1.18 1.73 1.19 1.73 1.21 1.73 1.22 1.73 1.24 1.73 1.25 1.72 1.26 1.72 1.27 1.72 1.29 1.72 1.34 1.72 1.38 1.72 1.41 1.72 1.44 1.73 1.47 1.73 1.49 1.74 1.51 1.74 1.53 1.74 1.55 1.75 1.57 1.75 1.58 1.75 1.59 1.76 2 p=5 d1 d2 0.56 2.21 0.62 2.15 0.67 2.10 0.71 2.06 0.75 2.02 0.79 1.99 0.83 1.96 0.86 1.94 0.90 1.92 0.93 1.90 0.95 1.89 0.98 1.88 1.01 1.86 1.03 1.85 1.05 1.84 1.07 1.83 1.09 1.83 1.11 1.82 1.13 1.81 1.15 1.81 1.16 1.80 1.18 1.80 1.19 1.80 1.21 1.79 1.22 1.79 1.23 1.79 1.29 1.78 1.34 1.77 1.38 1.77 1.41 1.77 1.44 1.77 1.46 1.77 1.49 1.77 1.51 1.77 1.52 1.77 1.54 1.78 1.56 1.78 1.57 1.78