Corrigé de la séance 10

publicité
UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE
U.F.R. SEGMI
Année universitaire 2015 – 2016
L1 Économie
Cours de B. Desgraupes
Corrigé des exercices de Statistiques Descriptives
Séance 10: Régression linéaire
Corrigé ex. 1 : Vitesse et distance de freinage
Vitesse
Distance
Vitesse
Distance
4
2
14
36
7
4
15
26
8
16
15
54
9
10
16
40
10
26
17
50
11
17
18
76
11
28
19
46
12
20
20
48
12
28
24
92
13
26
25
85
a) Calcul des moyennes arithmétiques.
On trouve facilement µV = 14 et µD = 36, 5.
b) Calcul des variances.
On trouve Var(V ) = 28, 3 et Var(D) = 610, 65.
c) Calcul de la droite de régression DD|V de la distance par rapport à la vitesse.
Notons y = a x + b l’équation de cette droite. Il faut trouver a et b.
On commence par calculer la covariance des variables V et D :
Cov(V, D) =
1 X
(Vi − µV ) (Di − µD ) = · · · = 121, 6
20 i
La pente de la droite de régression de D par rapport à V est définie comme
a=
On obtient donc
a=
Cov(V, D)
Var(V )
121, 6
= 4, 297
28, 3
On calcule ensuite le coefficient b par la formule
b = ȳ − a x̄ = µD − a µV = 36, 5 − 4, 297 × 14 = −23, 658
Finalement l’équation de la droite est :
DD|V :
y = 4, 297 x − 23, 658
d) Calcul de la droite de régression DV |D de la vitesse par rapport à la distance.
On procède comme précédemment en inversant le rôle de D et de V .
Notons x = a0 y + b0 l’équation de cette droite. Il faut trouver a0 et b0 .
La covariance est symétrique en les deux variables :
Cov(D, V ) = Cov(V, D) = 121, 6
La pente de la droite de régression de D par rapport à V est définie comme
a0 =
Cov(D, V )
Var(D)
On obtient donc
121, 6
= 0, 199
610, 65
On calcule ensuite le coefficient b0 par la formule
a0 =
b0 = x̄ − a0 ȳ = µV − a0 µD = 14 − 0, 199 × 36, 5 = 6, 736
Finalement l’équation de la droite est :
DV |D :
x = 0, 199 y + 6, 736
e) Représentation graphique des deux droites de régression.
Pour représenter les deux droites sur le même graphique, on réécrit l’équation de la
seconde sous la forme :
1
b0
y = 0x − 0
a
a
On obtient la figure suivante. Les deux droites se coupent au barycentre G dont les
coordonnées sont respectivement les moyennes µV et µD .
Distances de freinage
40
20
G
0
Distance
60
80
droite D|V
droite V|D
5
10
15
Vitesse
2
20
25
D’après le cours, la racine carrée du produit des pentes représente le cosinus de
l’angle que font les deux droites. On calcule :
√
p
a a0 = 4, 297 × 0, 199 = 0, 925
Cela correspond à un angle de 22,33˚.
f) Calcul du coefficient de corrélation linéaire.
D’après le cours, le coefficient de corrélation linéaire est défini par
r=
On calcule :
r= √
Cov(D, V )
σD σV
121, 6
= 0, 925
610, 65 × 28, 3
√
On retrouve la quantité a a0 calculée dans la question précédente. C’est normal
car effectivement on a la relation r2 = a a0 .
La valeur 0,925 est proche de 1 : on en déduit qu’il y a une forte corrélation linéaire
entre les deux variables. Cela suggère une forte dépendance linéaire (qu’il faudrait
vérifier par la connaissance des deux variables). Le diagramme de dispersion, par sa
forme allongée et rectiligne, semble confirmer cette dépendance.
Corrigé ex. 2 : Geyser Old Faithful
Attente
Éruption
Attente
Éruption
Attente
Éruption
79
3.6
54
1.8
51
1.8
54
1.8
84
3.9
48
1.8
74
3.3
78
4.2
78
3.5
62
2.3
48
1.8
69
3.1
85
4.5
83
4.7
74
4.5
55
2.9
52
2.2
83
3.6
88
4.7
62
1.8
55
2.0
85
3.6
84
4.8
76
4.1
51
2.0
52
1.6
78
3.8
85
4.3
79
4.2
79
4.4
a) Calcul des moyennes et des variances des durées d’éruption et des temps d’attente.
Le calcul ne présente aucune difficulté en appliquant les formules. On trouve :
Attente
Éruption
Moyenne
69.5
3.22
Variance
188.45
1.214
b) Calculer la droite de régression DE|A des éruptions par rapport aux temps d’attente par la méthode des moindres carrés.
Notons y = a x + b l’équation de cette droite. Il faut trouver a et b.
3
On commence par calculer la covariance des variables A et E :
Cov(A, E) =
1 X
(Ai − µA ) (Ei − µE ) = · · · = 13.98
30 i
La pente de la droite de régression de E par rapport à A est définie comme
a=
Cov(A, E)
Var(A)
On obtient donc
13.98
= 0.074
188.45
On calcule ensuite le coefficient b par la formule
a=
b = ȳ − a x̄ = µE − a µA = 3.22 − 0.074 × 69.5 = −1.923
Finalement l’équation de la droite est :
DE|A :
y = 0.074 x − 1.923
c) Représentation graphique du diagramme de dispersion et de la droite de régression.
3.5
µE = 3.22
3.0
G
2.0
2.5
Eruption
4.0
4.5
Geyser Old Faithful
1.5
µA = 69.5
50
60
70
80
Attente
On a placé le barycentre G du nuage de points qui a pour coordonnées les moyennes
des deux variables (69.5, 3.22).
d) Pour les deux variables, répartir les données en 4 classes d’amplitude égale et
dresser le tableau de contingence.
4
Les valeurs extrêmes de la variable A (temps d’attente) sont 48 et 88. On construit
les classe d’amplitude égale suivantes : [48, 58), [58, 68), [68, 78) et [78, 88]. Pour les
calculs, on remplacera chaque classe par son milieu (respectivement 53, 63, 73, 83).
Les valeurs extrêmes de la variable E (durée d’éruption) sont 1,6 et 4,8. On construit
les classe d’amplitude égale suivantes : [1.6, 2.4), [2.4, 3.2), [3.2, 4) et [4, 4.8]. Pour les
calculs, on remplacera chaque classe par son milieu (respectivement 2, 2.8, 3.6, 4.4).
En répartissant les données selon ces classes, on obtient le tableau de contingence
suivant :
A\E
[48, 58)
[58, 68)
[68, 78)
[78, 88]
[1.6, 2.4)
9
2
0
0
[2.4, 3.2)
1
0
1
0
[3.2, 4)
0
0
1
6
[4, 4.8]
0
0
2
8
e) À partir du tableau de contingence, nous allons représenter les courbes de régression CE|A et CA|E .
Ajoutant les marges au tableau de contingence afin de pourvoir calculer les distributions conditionnelles :
A\E
[48, 58)
[58, 68)
[68, 78)
[78, 88]
Total
[1.6, 2.4)
9
2
0
0
11
[2.4, 3.2)
1
0
1
0
2
[3.2, 4)
0
0
1
6
7
[4, 4.8]
0
0
2
8
10
Total
10
2
4
14
30
• Courbe de régression CE|A .
On en déduit les distributions conditionnelles de E sachant A (les classes de E ont
été remplacées par leur centre) :
A\E
[48, 58)
[58, 68)
[68, 78)
[78, 88]
2
0.90
1.00
0.00
0.00
2.8
0.10
0.00
0.25
0.00
3.6
0.00
0.00
0.25
0.43
4.4
0.00
0.00
0.50
0.57
et les moyennes conditionnelles correspondantes :
Classes
Moyennes
[48, 58)
2.08
[58, 68)
2.00
[68, 78)
3.80
[78, 88]
4.06
Ces moyennes permettent de tracer la courbe de régression CE|A .
5
3.0
2.0
2.5
Éruptions
3.5
4.0
Courbe de régression C_E|A
55
60
65
70
75
80
Attentes
• Courbe de régression CA|E .
De la même manière, on calcule les distributions conditionnelles de A sachant E
(les classes de A ont été remplacées par leur centre) :
A\E
53
63
73
83
[1.6, 2.4)
0.82
0.18
0.00
0.00
[2.4, 3.2)
0.50
0.00
0.50
0.00
[3.2, 4)
0.00
0.00
0.14
0.86
[4, 4.8]
0.00
0.00
0.20
0.80
et les moyennes conditionnelles correspondantes :
Classes
Moyennes
[1.6, 2.4)
54.82
[2.4, 3.2)
63.00
[3.2, 4)
81.57
[4, 4.8]
81.00
Ces moyennes permettent de tracer la courbe de régression CA|E .
6
70
55
60
65
Attentes
75
80
Courbe de régression C_A|E
2.0
2.5
3.0
3.5
4.0
Éruptions
f) Calcul des rapports de corrélation.
Les attentes jouent le rôle de la variable X et les durées d’éruption le rôle de la
variable Y .
On a besoin de connaître la moyenne marginale de chaque variable. En remplaçant
chaque classe par son milieu et en utilisant les marges calculées précédemment, on
trouve :
¯ = 70.33
x̄
ȳ¯ = 3.23
Commençons par calculer le rapport de corrélation de Y en X.
2
est la suivante :
La formule de ηy,x
2
ηy,x
P
¯2
i ni• (ȳi − ȳ )
P
=
¯2
j n•j (yj − ȳ )
On a déjà calculé précédemment les moyennes conditionnelles ȳi de E sachant A.
Calculons le numérateur :
X
ni• (ȳi − ȳ¯)2 = 10 × (2.08 − 3.23)2 + 2 × (2.00 − 3.23)2
i
+ 4 × (3.80 − 3.23)2 + 14 × (4.06 − 3.23)2
= 27.195
Calculons le dénominateur :
X
n•j (yj − ȳ¯)2 = 11 × (2 − 3.23)2 + 2 × (2.8 − 3.23)2
j
+ 7 × (3.6 − 3.23)2 + 10 × (4.4 − 3.23)2
= 31.659
7
On obtient finalement
27.195
= 0.8589 ≈ 86%
31.659
2
ηy,x
=
Pour le calcul de l’autre coefficient de corrélation, la démarche est identique. La
2
formule de ηx,y
est la suivante :
P
2
ηx,y
¯)2
n•j (x̄j − x̄
¯2
i ni• (xi − x̄)
j
= P
On a déjà calculé précédemment les moyennes conditionnelles x̄j de A sachant E.
Calculons le numérateur :
X
¯)2 = 11 × (54.82 − 70.33)2 + 2 × (63 − 70.33)2
n•j (x̄j − x̄
j
+ 7 × (81.57 − 70.33)2 + 10 × (81 − 70.33)2
= 4776.47
Calculons le dénominateur :
X
¯)2 = 10 × (53 − 70.33)2 + 2 × (63 − 70.33)2
ni• (xi − x̄
i
+ 4 × (73 − 70.33)2 + 14 × (83 − 70.33)2
= 5386.67
On obtient finalement
2
ηx,y
=
4776.47
= 0.8867 ≈ 89%
5386.67
Les deux coefficients de corrélation sont élevés et les courbes de régression résument donc bien le nuage de points.
g) Faire l’analyse de la variance de la variable E consiste à la décomposer selon la
formule suivante :
V (X) = r2 V (X) + (1 − r2 ) V (X)
où r2 est le coefficient de détermination.
Il est le carré du coefficient de corrélation :
r2 =
Cov(X, Y )2
Var(X) × Var(Y )
On doit donc calculer la covariance et les variances marginales.
On fait les calculs à partir du tableau de contingence. On trouve :
Cov(X, Y ) =
1 XX
¯ȳ¯
nij xi yj − x̄
N i j
7178.4
− 70.33 × 3.23
30
= 12.114
= ··· =
8
On calcule facilement les variances marginales Var(X) = 179.55 et Var(Y ) =
1.055.
On trouve finalement :
r2 =
12.1142
Cov(X, Y )
=
= 0.8036 ≈ 80%
Var(X) × Var(X)
179.55 × 1.055
Si on compare le coefficient de détermination avec les rapports de corrélation, on
observe que :
2
2
r2 < ηy,x
et r2 < ηx,y
Cette propriété est toujours vraie.
Corrigé ex. 3 : Relation de Clausius–Clapeyron
a) Calculons les logarithmes log(P ) de la pression :
-8.52
2.85
-6.73
3.47
-5.12
4.04
-3.51
4.56
-2.41
5.06
-1.31
5.51
-0.29
5.93
0.62
6.32
1.44
6.69
2.17
Pour convertir les degrés Celsius en degrés Kelvin, on ajoute 273,15. On inverse
ensuite les valeurs obtenues pour avoir 1/T :
0.00366
0.00242
0.00181
0.00341
0.00231
0.00174
0.00319
0.00221
0.00169
0.00300
0.00211
0.00163
0.00283
0.00203
0.00158
0.00268
0.00195
0.00254
0.00188
b) La série log(P ) va jouer le rôle de la variable Y et la série 1/T celui de la
variable X. On va faire une régression de Y par rapport à X.
Notons y = a x + b l’équation de la droite de régression. Il faut trouver a et b.
Les moyennes des variables sont X̄ = 0.00235 et Ȳ = 1.093.
On commence par calculer la covariance des variables X et Y :
Cov(X, Y ) =
1 X
(Xi − µX ) (Yi − µY ) = · · · = −0.002743
19 i
La variance de la variable X est égale à 3.75 × 10−7 (calcul à faire...).
La pente de la droite de régression de Y par rapport à X est définie comme
a=
Cov(X, Y )
Var(X)
On obtient donc
0.002743
= −7319.98
3.75 × 10−7
On calcule ensuite le coefficient b par la formule
a=−
b = ȳ − a x̄ = 1.093 + 7319.98 × 0.00235 = 18.295
Finalement l’équation de la droite est :
DY |X :
y = −7319.98 x + 18.295
9
c) En remplaçant y par log(P ) et x par 1/T dans l’équation de la droite de régression, on obtient :
7319.98
log(P ) = −
+ 18.295
T
En prenant l’exponentielle des deux membres, on obtient :
7319.98
P = exp 18.295 −
T
Les coefficient de la régression donnent donc une estimation des constantes de la
formule de Clausius–Clapeyron :
(
A = 18.295
B = 7319.98
10
Téléchargement