Master Ingénierie Mathématique M1 Université Paris-Sud 11 2008-2009 Calcul de risques et prédictions TD5 - Régression linéaire - Validation de modèle Exercice 1: Régression linéaire simple sur deux populations ou analyse de la covariance à un facteur sur deux populations. On mesure le taux de leucocytes T4 chez le chat x jours après lui avoir inoculé un virus. On appelle Y le logarithme de ce taux. Le tableau ci-dessous donne les mesures faı̂tes sur 17 chats et 15 chattes: Chats : x1j Y1j Chattes : 44 4.66 x2j Y2j 317 292 179 39 257 354 349 3.08 1.28 3.17 5.59 2.88 1.60 3.48 166 57 198 20 187 270 2.90 4.83 2.96 5.17 3.44 3.18 84 47 20 209 106 343 325 3.45 3.89 3.79 3.79 3.81 0.61 2.04 267 80 249 341 189 50 0.89 4.39 2.56 0.28 2.43 3.85 195 3.39 346 0.41 245 3.47 270 3.20 151 2.67 1. On définit le modèle M0 comme celui où, pour chaque sexe, Y varie linéairement en fonction de x: ½ Y1j = b1 + a1 x1j + ε1j , ∀j ∈ {1, . . . , n1 = 17} avec ε1j ∼ N (0, σ12 ) i.i.d Y2j = b2 + a2 x2j + ε2j , ∀j ∈ {1, . . . , n2 = 15} avec ε2j ∼ N (0, σ22 ) i.i.d Pour chaque groupe, ajuster la droite de régression. Tester l’égalité des variances des erreurs puis estimer les paramètres du modèle M0 . 2. On définit le modèle Ma comme celui où a1 = a2 , le modèle Mb comme celui où b1 = b2 et le modèle M1 comme celui où une droite de régression commune explique les mesures des deux sexes (a1 = a2 et b1 = b2 ). (a) Tester séparément à 5% Ma contre M0 et Mb contre M0 . (b) Tester à 5% Ma contre M0 et si on garde Ma , tester à 5% M1 contre Ma . (c) Tester à 5% Mb contre M0 et si on garde Mb , tester à 5% M1 contre Mb . Montrer que nous disposons de cette façon de 3 tests de niveau 10 %. Que dire de leurs performances respectives ? Quel test optimal permet de tester M1 contre M0 ? 3. Dans le modèle M0 , construire • un intervalle de confiance à 95% pour a1 − a2 puis pour b1 − b2 . En déduire un pavé de confiance au niveau de confiance supérieur ou égal à 90% pour (a1 − a2 , b1 − b2 ). • une ellipse de confiance à 90% pour (a1 − a2 , b1 − b2 ). Quel est le lien entre les tests de la question 2 et les régions de confiance de la question 3? 1 Exercice 2: Validation de modèle. Un test est mené sur un processus de fabrication dans le but de déterminer l’effet d’une variable x (la température) sur une propriété caractéristique Y (la densité) du produit de fabrication. Quatre observations de Y sont relevées aux cinq températures x = 1, 3, 5, 7, 9. 1. On suppose qu’il n’est pas possible de faire toutes les mesures simultanément. Afin d’étudier au mieux le phénomène et de se prémunir contre les risques de dérive, comment planifiez vous les 20 mesures à relever ? 2. Avant même d’effectuer les mesures, une interprétation physique du phénomène nous a suggéré d’utiliser un modèle de régression linéaire : Yi = β0 + β1 xi + ²i . A l’issue des mesures, on obtient : x̄ = 5 , ȳ = 3 , 20 X 20 20 X X 2 (xi − x̄) = 160 , (yi − ȳ) = 83.2 , (xi − x̄)(yi − ȳ) = 80 2 i=1 i=1 i=1 Estimez la droite de régression et la variance de Y . Établissez l’expression formelle de l’intervalle de confiance de E[Y ]. 3. On se pose le problème de la validité du modèle de régression dans les deux cas de figures suivants : 7 6 1 0 5 −1 4 Y −2 Y 3 −3 −4 2 −5 1 −6 0 0 2 4 6 8 −7 10 X 0 2 4 6 8 10 X Figure 1: Représentation des données. (a) En supposant que le graphe des observations soit celui de gauche, quel modèle plus général que celui du 2) proposeriez-vous ? La somme des carrés résiduels résultant de ce nouveau modèle est égale à 42. Testez si la droite de régression estimée en 2) ajuste correctement les données. (b) En supposant que le graphe des observations soit celui de droite, quel modèle plus général que celui de 2) proposeriez-vous ? La somme des carrés résiduels résultant de ce nouveau modèle est égale à 23.2. Testez si la droite de régression estimée en 2) ajuste correctement les données. L’intervalle de confiance du 2) est-il utilisable? 2