4 Régression avec R
Plus la valeur à prévoir s’éloigne du centre de gravité, plus la valeur prévue sera variable
(i.e. de variance élevée).
Exercice 1.9 (Variance de l’erreur de prévision)
Nous obtenons la variance de l’erreur de prévision en nous servant du fait que yn+1 est
fonction de εn+1 seulement, alors que ˆyp
n+1 est fonction des autres εi,i= 1,···, n. Les
deux quantités ne sont pas corrélées. Nous avons alors
V(ˆεp
n+1) =V yn+1 −ˆyp
n+1= V(yn+1)+V(ˆyp
n+1) = σ21 + 1
n+(xn+1 −¯x)2
P(xi−¯x)2.
Exercice 1.10 (R2et coefficient de corrélation)
Le coefficient R2s’écrit
R2=Pn
i=1 ˆ
β1+ˆ
β2xi−¯y2
Pn
i=1 (yi−¯y)2=Pn
i=1 ¯y−ˆ
β2¯x+ˆ
β2xi−¯y2
Pn
i=1(yi−¯y)2
=ˆ
β2
2Pn
i=1 (xi−¯x)2
Pn
i=1 (yi−¯y)2=Pn
i=1 (xi−¯x)(yi−¯y)2Pn
i=1 (xi−¯x)2
Pn
i=1 (xi−¯x)22Pn
i=1(yi−¯y)2
=Pn
i=1 (xi−¯x)(yi−¯y)2
Pn
i=1 (xi−¯x)2Pn
i=1 (yi−¯y)2=ρ2(X, Y ).
Exercice 1.11 (Les arbres)
Le calcul donne
ˆ
β1=6.26
28.29 = 0.22 ˆ
β0= 18.34 −0.22 ×34.9 = 10.662.
Nous nous servons de la propriété Pn
i=1 ˆεi= 0 pour obtenir
R2=P20
i=1(ˆyi−¯y)2
P20
i=1(yi−¯y)2=P20
i=1(ˆ
β1xi−ˆ
β1¯x)2
P20
i=1(yi−¯y)2= 0.222×28.29
2.85 = 0.48.
Les statistiques de test valent 5.59 pour β0et 4.11 pour β1. Elles sont à comparer à un
fractile de la loi de Student admettant 18 ddl, soit 2.1. Nous rejetons dans les deux cas
l’hypothèse de nullité du coefficient. Nous avons modélisé la hauteur par une fonction
affine de la circonférence, il semblerait évident que la droite passe par l’origine (un arbre
admettant un diamètre proche de zéro doit être petit), or nous rejetons l’hypothèse
β0= 0. Les données mesurées indiquent des arbres dont la circonférence varie de 26 à 43
cm, les estimations des paramètres du modèle sont valides pour des données proches de
[26; 43].
Exercice 1.12 (Modèle quadratique)
Les modèles sont
O3 =β1+β2T12 +εmodèle classique,
O3 =γ1+γ2T122+ǫmodèle demandé.
L’estimation des paramètres donne
c
O3 = 31.41 + 2.7T12 R2= 0.28 modèle classique,
c
O3 = 53.74 + 0.075 T122R2= 0.35 modèle demandé.
Les deux modèles ont le même nombre de paramètres, nous préférons le modèle quadra-
tique car le R2est plus élevé.