TD5 - Régression linéaire - Validation de mod`ele

publicité
Master Ingénierie Mathématique M1
Université Paris-Sud 11
2008-2009
Calcul de risques et prédictions
TD5 - Régression linéaire - Validation de modèle
Exercice 1: Régression linéaire simple sur deux populations ou analyse de la covariance à un
facteur sur deux populations.
On mesure le taux de leucocytes T4 chez le chat x jours après lui avoir inoculé un virus. On
appelle Y le logarithme de ce taux. Le tableau ci-dessous donne les mesures faı̂tes sur 17 chats
et 15 chattes:
Chats :
x1j
Y1j
Chattes :
44
4.66
x2j
Y2j
317 292 179
39
257 354 349
3.08 1.28 3.17 5.59 2.88 1.60 3.48
166
57
198
20
187 270
2.90 4.83 2.96 5.17 3.44 3.18
84
47
20
209 106 343 325
3.45 3.89 3.79 3.79 3.81 0.61 2.04
267
80
249 341 189
50
0.89 4.39 2.56 0.28 2.43 3.85
195
3.39
346
0.41
245
3.47
270
3.20
151
2.67
1. On définit le modèle M0 comme celui où, pour chaque sexe, Y varie linéairement en
fonction de x:
½
Y1j = b1 + a1 x1j + ε1j , ∀j ∈ {1, . . . , n1 = 17} avec ε1j ∼ N (0, σ12 ) i.i.d
Y2j = b2 + a2 x2j + ε2j , ∀j ∈ {1, . . . , n2 = 15} avec ε2j ∼ N (0, σ22 ) i.i.d
Pour chaque groupe, ajuster la droite de régression. Tester l’égalité des variances des
erreurs puis estimer les paramètres du modèle M0 .
2. On définit le modèle Ma comme celui où a1 = a2 , le modèle Mb comme celui où b1 = b2
et le modèle M1 comme celui où une droite de régression commune explique les mesures
des deux sexes (a1 = a2 et b1 = b2 ).
(a) Tester séparément à 5% Ma contre M0 et Mb contre M0 .
(b) Tester à 5% Ma contre M0 et si on garde Ma , tester à 5% M1 contre Ma .
(c) Tester à 5% Mb contre M0 et si on garde Mb , tester à 5% M1 contre Mb .
Montrer que nous disposons de cette façon de 3 tests de niveau 10 %. Que dire de leurs
performances respectives ? Quel test optimal permet de tester M1 contre M0 ?
3. Dans le modèle M0 , construire
• un intervalle de confiance à 95% pour a1 − a2 puis pour b1 − b2 . En déduire un pavé
de confiance au niveau de confiance supérieur ou égal à 90% pour (a1 − a2 , b1 − b2 ).
• une ellipse de confiance à 90% pour (a1 − a2 , b1 − b2 ).
Quel est le lien entre les tests de la question 2 et les régions de confiance de la question 3?
1
Exercice 2: Validation de modèle.
Un test est mené sur un processus de fabrication dans le but de déterminer l’effet d’une variable
x (la température) sur une propriété caractéristique Y (la densité) du produit de fabrication.
Quatre observations de Y sont relevées aux cinq températures x = 1, 3, 5, 7, 9.
1. On suppose qu’il n’est pas possible de faire toutes les mesures simultanément. Afin
d’étudier au mieux le phénomène et de se prémunir contre les risques de dérive, comment planifiez vous les 20 mesures à relever ?
2. Avant même d’effectuer les mesures, une interprétation physique du phénomène nous a
suggéré d’utiliser un modèle de régression linéaire : Yi = β0 + β1 xi + ²i . A l’issue des
mesures, on obtient :
x̄ = 5 , ȳ = 3 ,
20
X
20
20
X
X
2
(xi − x̄) = 160 ,
(yi − ȳ) = 83.2 ,
(xi − x̄)(yi − ȳ) = 80
2
i=1
i=1
i=1
Estimez la droite de régression et la variance de Y . Établissez l’expression formelle de
l’intervalle de confiance de E[Y ].
3. On se pose le problème de la validité du modèle de régression dans les deux cas de figures
suivants :
7
6
1
0
5
−1
4
Y
−2
Y
3
−3
−4
2
−5
1
−6
0
0
2
4
6
8
−7
10
X
0
2
4
6
8
10
X
Figure 1: Représentation des données.
(a) En supposant que le graphe des observations soit celui de gauche, quel modèle plus
général que celui du 2) proposeriez-vous ?
La somme des carrés résiduels résultant de ce nouveau modèle est égale à 42. Testez
si la droite de régression estimée en 2) ajuste correctement les données.
(b) En supposant que le graphe des observations soit celui de droite, quel modèle plus
général que celui de 2) proposeriez-vous ?
La somme des carrés résiduels résultant de ce nouveau modèle est égale à 23.2. Testez
si la droite de régression estimée en 2) ajuste correctement les données.
L’intervalle de confiance du 2) est-il utilisable?
2
Téléchargement