Exam2016bis Fichier

publicité
Modèle linéaire – HMMA201
Examen 2ème session
Documents et calculatrice autorisés.
Durée : 2 heures.
Exercice 1. Dans le modèle linéaire simple (yi = β1 +β2 xi +i ), on considère
ici que les erreurs i , i = 1, · · · , n, ne sont pas gaussiennes mais suivent une
loi de densité
1
f (t) =
, t ∈ R.
π(1 + t2 )
1) Montrer que la fonction f est bien une densité de probabilité. Quelle est
l’espérance de i ?
2) Exprimer la vraisemblance des observations L(β1 , β2 ). En déduire que les
estimateurs du maximum de vraisemblance de β1 et β2 sont les réels β̃1 et
n
Y
β̃2 minimisant
(1 + ˆ2i ).
i=1
Exercice 2. On examine l’évolution d’une variable Y en fonction de deux
variables x et z. On dispose de n observations de ces variables. On note
X = (11 x z) où 11 est le vecteur constant et x, z sont les vecteurs des variables
explicatives. Nous avons obtenu les résultats suivants :


30 20 0
X 0 X =  20 20 0  ,
0 0 10
X 0 Y = (15, 20, 10)0 et Y 0 Y = 59.5.
1) Vérifier que β̂ = (−1/2, 3/2, 1)0 sans inverser de matrice.
2) Calculer les coefficients de corrélation linéaire ρ(x,
P y), ρ(x, z) et ρ(y, z).
3) Calculer la somme des carrés totaux : SCT = ni=1 (yi − ȳ)2 .
4) Calculer la somme des carrés expliqués par le modèle complet :
P
SCE = ni=1 (ŷi − ȳ)2 .
5) En déduire le R2 du modèle complet.
6) Doit-on supprimer la variable x ou la variable z du modèle de régression ?
Exercice 3. Soit le jeu de données suivant :
sexe
F M F F M M M M
niveau études + + + − − + − −
revenu
14 17 13 10 8 9 11 6
où + désigne les personnes ayant un niveau supérieur ou égal au bac.
1) Combien a-t-on de facteurs ? Combien de modalités prennent-ils ?
2) Que peut-on dire du plan d’expérience ?
3) On cherche à minimiser les erreurs en valeur absolue. Donner une estimation du revenu d’une femme bachelière et d’une personne n’ayant pas son
bac.
Exercice 4. On dispose de deux vecteurs x et y décrivant les valeurs prises
par 2 variables X et Y .
Les instructions effectuées sur R ainsi que les sorties sont données ci-dessous :
> mod1=lm(y~x)
> summary(mod1)
Call:
lm(formula = y ~ x)
Residuals:
Min
1Q
Median
3Q
Max
-0.47094 -0.25211 -0.05736 0.23325 0.48702
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.02088
0.07030 -0.297
0.7698
x
0.17161
0.06703
2.560
0.0197 *
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1
1
Residual standard error: 0.3102 on 18 degrees of freedom
Multiple R-squared: 0.2669,
Adjusted R-squared: 0.2262
F-statistic: 6.555 on 1 and 18 DF, p-value: 0.01967
> mod2=lm(y~x-1)
> summary(mod2)
Call:
lm(formula = y ~ x - 1)
Residuals:
Min
1Q
Median
3Q
Max
-0.48607 -0.27308 -0.08198 0.21265 0.46651
Coefficients:
Estimate Std. Error t value Pr(>|t|)
x 0.17485
0.06453
2.709
0.0139 *
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1
1
Residual standard error: 0.3027 on 19 degrees of freedom
Multiple R-squared: 0.2787,
Adjusted R-squared: 0.2407
F-statistic: 7.341 on 1 and 19 DF, p-value: 0.01390
a) Quelle est la différence entre le premier et le deuxième modèle ? Donner
les équations des deux droites de régression estimées.
b) On s’intéresse au premier modèle. Que dire de la significativité des coefficients ? Justifier.
c) Rappeler quelles sont les hypothèses faites sur les erreurs qui mènent à
cette interprétation.
Téléchargement