Régression – fiche de TP

publicité
ENSM.SE
Axe MSA
20 novembre 06
Régression – fiche de TP
Avertissement
Ce TP a pour but d'apprendre à mener une étude de régression dans son ensemble. Il
fait l'objet d'une séance de travaux dirigés en salle informatique d'une durée de 3 heures. Le
travail effectué sera évalué à partir d'un compte rendu complet et détaillé. L’évaluation du
compte rendu tiendra bien évidemment compte de la qualité du résultat obtenu, mais le focus
sera mis sur la pertinence de la démarche et la justification des choix opérés. Par ailleurs, il
n'est pas question ici de « terminer » l’étude mais plutôt d'avancer sans laisser de points
d'ombre. Ainsi une étude maîtrisée, même incomplète, sera très bien évaluée. Ce compte
rendu sera effectué par groupes de deux et sera rendu le 21 novembre soir dernier délai.
Il s'agit ici d'étudier comment la taille des enfants est influencée par les tailles et poids
de leurs parents. Les données ont été recueillies parmi les élèves de l'axe MSA de la
promotion 2003, en y ajoutant frères et sœurs, ce qui a permis d'obtenir 81 données
exploitables.
L'objectif de l'étude est d'aboutir à un modèle permettant de prédire la taille de l'enfant
à partir des tailles et poids des parents.
Les questions naturelles qui se posent dans ce contexte sont :
 Quels sont les prédicteurs influents ?
 Construction, estimation et validation d'un modèle.
 Précision du modèle construit.
Fichier de données
Les données sont contenues dans le fichier tailles.txt, situé à l'adresse
http://www.emse.fr/~carraro/enseignement.html
Pour vous aider



On recommande la lecture attentive du chapitre "practicalities" du polycopié.
Passer du temps sur la corrélation des prédicteurs.
Utiliser les fichiers cours1.R et cours2.R qui donnent des exemples de commandes.
TSVP…/…
ENSM.SE
Axe MSA
20 novembre 06
Fonctions utiles dans l'environnement R









ls.str(pat="msa") donne la structure de l'objet msa.
summary fournit un résumé de ce que contient la variable auquel il s'applique.
Evidemment, summary donne des résultats qui dépendent de la structure de la variable
considérée (en fait de sa classe).
read.table permet de lire un tableau de données.
hist (resp. density) donne une estimation de la densité d'un jeu de données par
histogramme (resp. par lissage par noyau).
pairs permet d'obtenir la matrice des graphiques de tous les couples de variables
contenues dans le tableau considéré.
plot, boxplot…
lm qui effectue l'ajustement d'un modèle de régression linéaire. Le résultat est un objet
de la classe "lm" qui est composée de modèles linéaires ajustés sur des données. Cet
objet a beaucoup de propriétés et on peut lui appliquer des fonctions générales
(summary, anova, plot…).
cov donne la matrice de covariance d'un vecteur ou d'un objet (notamment de type lm).
cov2cor (lire "cov to cor") donne la matrice de corrélation associée à une matrice de
covariance donnée.
Les formules dans l'environnement R
Les formules sont des objets centraux dans R et sont basées sur le caractère ~ qui
signifie "en fonction de". Elles sont utilisées dans de nombreuses fonctions. Par exemple :
plot(taille~age,data=tailles)
coplot(taille~t.mère|age,data=tailles) (| signifie "conditionnellement à")
etc…
Mais leur utilisation est cruciale lorsque l'on cherche à ajuster des modèles à des
données. Pour ce qui nous concerne, la fonction lm s'applique à une formule et à des données.
Sous leur forme la plus simple, les formules ressemblent aux expressions qui suivent :
y~x1+x2 (qui considère un modèle y  a + b x1 + c x2)
y~x1+x2-1 (qui considère un modèle y  b x1 + c x2)
y~x1+x2+x1:x2 (qui considère un modèle y  a + b x1 + c x2 + d x1 x2)
Noter que les deux formules y~x1+x2+x1:x2 et y~x1*x2 sont équivalentes.
Pour toutes les précisions nécessaires concernant les formules, voir l'aide sur formula.
Téléchargement