UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2015 – 2016 L1 Économie Cours de B. Desgraupes Corrigé des exercices de Statistiques Descriptives Séance 10: Régression linéaire Corrigé ex. 1 : Vitesse et distance de freinage Vitesse Distance Vitesse Distance 4 2 14 36 7 4 15 26 8 16 15 54 9 10 16 40 10 26 17 50 11 17 18 76 11 28 19 46 12 20 20 48 12 28 24 92 13 26 25 85 a) Calcul des moyennes arithmétiques. On trouve facilement µV = 14 et µD = 36, 5. b) Calcul des variances. On trouve Var(V ) = 28, 3 et Var(D) = 610, 65. c) Calcul de la droite de régression DD|V de la distance par rapport à la vitesse. Notons y = a x + b l’équation de cette droite. Il faut trouver a et b. On commence par calculer la covariance des variables V et D : Cov(V, D) = 1 X (Vi − µV ) (Di − µD ) = · · · = 121, 6 20 i La pente de la droite de régression de D par rapport à V est définie comme a= On obtient donc a= Cov(V, D) Var(V ) 121, 6 = 4, 297 28, 3 On calcule ensuite le coefficient b par la formule b = ȳ − a x̄ = µD − a µV = 36, 5 − 4, 297 × 14 = −23, 658 Finalement l’équation de la droite est : DD|V : y = 4, 297 x − 23, 658 d) Calcul de la droite de régression DV |D de la vitesse par rapport à la distance. On procède comme précédemment en inversant le rôle de D et de V . Notons x = a0 y + b0 l’équation de cette droite. Il faut trouver a0 et b0 . La covariance est symétrique en les deux variables : Cov(D, V ) = Cov(V, D) = 121, 6 La pente de la droite de régression de D par rapport à V est définie comme a0 = Cov(D, V ) Var(D) On obtient donc 121, 6 = 0, 199 610, 65 On calcule ensuite le coefficient b0 par la formule a0 = b0 = x̄ − a0 ȳ = µV − a0 µD = 14 − 0, 199 × 36, 5 = 6, 736 Finalement l’équation de la droite est : DV |D : x = 0, 199 y + 6, 736 e) Représentation graphique des deux droites de régression. Pour représenter les deux droites sur le même graphique, on réécrit l’équation de la seconde sous la forme : 1 b0 y = 0x − 0 a a On obtient la figure suivante. Les deux droites se coupent au barycentre G dont les coordonnées sont respectivement les moyennes µV et µD . Distances de freinage 40 20 G 0 Distance 60 80 droite D|V droite V|D 5 10 15 Vitesse 2 20 25 D’après le cours, la racine carrée du produit des pentes représente le cosinus de l’angle que font les deux droites. On calcule : √ p a a0 = 4, 297 × 0, 199 = 0, 925 Cela correspond à un angle de 22,33˚. f) Calcul du coefficient de corrélation linéaire. D’après le cours, le coefficient de corrélation linéaire est défini par r= On calcule : r= √ Cov(D, V ) σD σV 121, 6 = 0, 925 610, 65 × 28, 3 √ On retrouve la quantité a a0 calculée dans la question précédente. C’est normal car effectivement on a la relation r2 = a a0 . La valeur 0,925 est proche de 1 : on en déduit qu’il y a une forte corrélation linéaire entre les deux variables. Cela suggère une forte dépendance linéaire (qu’il faudrait vérifier par la connaissance des deux variables). Le diagramme de dispersion, par sa forme allongée et rectiligne, semble confirmer cette dépendance. Corrigé ex. 2 : Geyser Old Faithful Attente Éruption Attente Éruption Attente Éruption 79 3.6 54 1.8 51 1.8 54 1.8 84 3.9 48 1.8 74 3.3 78 4.2 78 3.5 62 2.3 48 1.8 69 3.1 85 4.5 83 4.7 74 4.5 55 2.9 52 2.2 83 3.6 88 4.7 62 1.8 55 2.0 85 3.6 84 4.8 76 4.1 51 2.0 52 1.6 78 3.8 85 4.3 79 4.2 79 4.4 a) Calcul des moyennes et des variances des durées d’éruption et des temps d’attente. Le calcul ne présente aucune difficulté en appliquant les formules. On trouve : Attente Éruption Moyenne 69.5 3.22 Variance 188.45 1.214 b) Calculer la droite de régression DE|A des éruptions par rapport aux temps d’attente par la méthode des moindres carrés. Notons y = a x + b l’équation de cette droite. Il faut trouver a et b. 3 On commence par calculer la covariance des variables A et E : Cov(A, E) = 1 X (Ai − µA ) (Ei − µE ) = · · · = 13.98 30 i La pente de la droite de régression de E par rapport à A est définie comme a= Cov(A, E) Var(A) On obtient donc 13.98 = 0.074 188.45 On calcule ensuite le coefficient b par la formule a= b = ȳ − a x̄ = µE − a µA = 3.22 − 0.074 × 69.5 = −1.923 Finalement l’équation de la droite est : DE|A : y = 0.074 x − 1.923 c) Représentation graphique du diagramme de dispersion et de la droite de régression. 3.5 µE = 3.22 3.0 G 2.0 2.5 Eruption 4.0 4.5 Geyser Old Faithful 1.5 µA = 69.5 50 60 70 80 Attente On a placé le barycentre G du nuage de points qui a pour coordonnées les moyennes des deux variables (69.5, 3.22). d) Pour les deux variables, répartir les données en 4 classes d’amplitude égale et dresser le tableau de contingence. 4 Les valeurs extrêmes de la variable A (temps d’attente) sont 48 et 88. On construit les classe d’amplitude égale suivantes : [48, 58), [58, 68), [68, 78) et [78, 88]. Pour les calculs, on remplacera chaque classe par son milieu (respectivement 53, 63, 73, 83). Les valeurs extrêmes de la variable E (durée d’éruption) sont 1,6 et 4,8. On construit les classe d’amplitude égale suivantes : [1.6, 2.4), [2.4, 3.2), [3.2, 4) et [4, 4.8]. Pour les calculs, on remplacera chaque classe par son milieu (respectivement 2, 2.8, 3.6, 4.4). En répartissant les données selon ces classes, on obtient le tableau de contingence suivant : A\E [48, 58) [58, 68) [68, 78) [78, 88] [1.6, 2.4) 9 2 0 0 [2.4, 3.2) 1 0 1 0 [3.2, 4) 0 0 1 6 [4, 4.8] 0 0 2 8 e) À partir du tableau de contingence, nous allons représenter les courbes de régression CE|A et CA|E . Ajoutant les marges au tableau de contingence afin de pourvoir calculer les distributions conditionnelles : A\E [48, 58) [58, 68) [68, 78) [78, 88] Total [1.6, 2.4) 9 2 0 0 11 [2.4, 3.2) 1 0 1 0 2 [3.2, 4) 0 0 1 6 7 [4, 4.8] 0 0 2 8 10 Total 10 2 4 14 30 • Courbe de régression CE|A . On en déduit les distributions conditionnelles de E sachant A (les classes de E ont été remplacées par leur centre) : A\E [48, 58) [58, 68) [68, 78) [78, 88] 2 0.90 1.00 0.00 0.00 2.8 0.10 0.00 0.25 0.00 3.6 0.00 0.00 0.25 0.43 4.4 0.00 0.00 0.50 0.57 et les moyennes conditionnelles correspondantes : Classes Moyennes [48, 58) 2.08 [58, 68) 2.00 [68, 78) 3.80 [78, 88] 4.06 Ces moyennes permettent de tracer la courbe de régression CE|A . 5 3.0 2.0 2.5 Éruptions 3.5 4.0 Courbe de régression C_E|A 55 60 65 70 75 80 Attentes • Courbe de régression CA|E . De la même manière, on calcule les distributions conditionnelles de A sachant E (les classes de A ont été remplacées par leur centre) : A\E 53 63 73 83 [1.6, 2.4) 0.82 0.18 0.00 0.00 [2.4, 3.2) 0.50 0.00 0.50 0.00 [3.2, 4) 0.00 0.00 0.14 0.86 [4, 4.8] 0.00 0.00 0.20 0.80 et les moyennes conditionnelles correspondantes : Classes Moyennes [1.6, 2.4) 54.82 [2.4, 3.2) 63.00 [3.2, 4) 81.57 [4, 4.8] 81.00 Ces moyennes permettent de tracer la courbe de régression CA|E . 6 70 55 60 65 Attentes 75 80 Courbe de régression C_A|E 2.0 2.5 3.0 3.5 4.0 Éruptions f) Calcul des rapports de corrélation. Les attentes jouent le rôle de la variable X et les durées d’éruption le rôle de la variable Y . On a besoin de connaître la moyenne marginale de chaque variable. En remplaçant chaque classe par son milieu et en utilisant les marges calculées précédemment, on trouve : ¯ = 70.33 x̄ ȳ¯ = 3.23 Commençons par calculer le rapport de corrélation de Y en X. 2 est la suivante : La formule de ηy,x 2 ηy,x P ¯2 i ni• (ȳi − ȳ ) P = ¯2 j n•j (yj − ȳ ) On a déjà calculé précédemment les moyennes conditionnelles ȳi de E sachant A. Calculons le numérateur : X ni• (ȳi − ȳ¯)2 = 10 × (2.08 − 3.23)2 + 2 × (2.00 − 3.23)2 i + 4 × (3.80 − 3.23)2 + 14 × (4.06 − 3.23)2 = 27.195 Calculons le dénominateur : X n•j (yj − ȳ¯)2 = 11 × (2 − 3.23)2 + 2 × (2.8 − 3.23)2 j + 7 × (3.6 − 3.23)2 + 10 × (4.4 − 3.23)2 = 31.659 7 On obtient finalement 27.195 = 0.8589 ≈ 86% 31.659 2 ηy,x = Pour le calcul de l’autre coefficient de corrélation, la démarche est identique. La 2 formule de ηx,y est la suivante : P 2 ηx,y ¯)2 n•j (x̄j − x̄ ¯2 i ni• (xi − x̄) j = P On a déjà calculé précédemment les moyennes conditionnelles x̄j de A sachant E. Calculons le numérateur : X ¯)2 = 11 × (54.82 − 70.33)2 + 2 × (63 − 70.33)2 n•j (x̄j − x̄ j + 7 × (81.57 − 70.33)2 + 10 × (81 − 70.33)2 = 4776.47 Calculons le dénominateur : X ¯)2 = 10 × (53 − 70.33)2 + 2 × (63 − 70.33)2 ni• (xi − x̄ i + 4 × (73 − 70.33)2 + 14 × (83 − 70.33)2 = 5386.67 On obtient finalement 2 ηx,y = 4776.47 = 0.8867 ≈ 89% 5386.67 Les deux coefficients de corrélation sont élevés et les courbes de régression résument donc bien le nuage de points. g) Faire l’analyse de la variance de la variable E consiste à la décomposer selon la formule suivante : V (X) = r2 V (X) + (1 − r2 ) V (X) où r2 est le coefficient de détermination. Il est le carré du coefficient de corrélation : r2 = Cov(X, Y )2 Var(X) × Var(Y ) On doit donc calculer la covariance et les variances marginales. On fait les calculs à partir du tableau de contingence. On trouve : Cov(X, Y ) = 1 XX ¯ȳ¯ nij xi yj − x̄ N i j 7178.4 − 70.33 × 3.23 30 = 12.114 = ··· = 8 On calcule facilement les variances marginales Var(X) = 179.55 et Var(Y ) = 1.055. On trouve finalement : r2 = 12.1142 Cov(X, Y ) = = 0.8036 ≈ 80% Var(X) × Var(X) 179.55 × 1.055 Si on compare le coefficient de détermination avec les rapports de corrélation, on observe que : 2 2 r2 < ηy,x et r2 < ηx,y Cette propriété est toujours vraie. Corrigé ex. 3 : Relation de Clausius–Clapeyron a) Calculons les logarithmes log(P ) de la pression : -8.52 2.85 -6.73 3.47 -5.12 4.04 -3.51 4.56 -2.41 5.06 -1.31 5.51 -0.29 5.93 0.62 6.32 1.44 6.69 2.17 Pour convertir les degrés Celsius en degrés Kelvin, on ajoute 273,15. On inverse ensuite les valeurs obtenues pour avoir 1/T : 0.00366 0.00242 0.00181 0.00341 0.00231 0.00174 0.00319 0.00221 0.00169 0.00300 0.00211 0.00163 0.00283 0.00203 0.00158 0.00268 0.00195 0.00254 0.00188 b) La série log(P ) va jouer le rôle de la variable Y et la série 1/T celui de la variable X. On va faire une régression de Y par rapport à X. Notons y = a x + b l’équation de la droite de régression. Il faut trouver a et b. Les moyennes des variables sont X̄ = 0.00235 et Ȳ = 1.093. On commence par calculer la covariance des variables X et Y : Cov(X, Y ) = 1 X (Xi − µX ) (Yi − µY ) = · · · = −0.002743 19 i La variance de la variable X est égale à 3.75 × 10−7 (calcul à faire...). La pente de la droite de régression de Y par rapport à X est définie comme a= Cov(X, Y ) Var(X) On obtient donc 0.002743 = −7319.98 3.75 × 10−7 On calcule ensuite le coefficient b par la formule a=− b = ȳ − a x̄ = 1.093 + 7319.98 × 0.00235 = 18.295 Finalement l’équation de la droite est : DY |X : y = −7319.98 x + 18.295 9 c) En remplaçant y par log(P ) et x par 1/T dans l’équation de la droite de régression, on obtient : 7319.98 log(P ) = − + 18.295 T En prenant l’exponentielle des deux membres, on obtient : 7319.98 P = exp 18.295 − T Les coefficient de la régression donnent donc une estimation des constantes de la formule de Clausius–Clapeyron : ( A = 18.295 B = 7319.98 10