Tutoriels Tanagra pour la Data Science
http://tutoriels-data-mining.blogspot.fr/ 3
Le problème de la sélection de variables
Quelles variables conserver dans la régression ?
Régression « CONSO » sans les données atypiques
La régression est d’excellente qualité
A 5%, seul « poids » semble significatif, les autres ne
semblent pas pertinentes. Deux raisons possibles à
cela :
(1) La variable n’a aucun lien avec la variable à
prédire
(2) La variable est liée avec Y, mais elle est gênée
(redondante) avec une (ou plusieurs) des autres
variables exogènes, qui elle même peut ne pas
paraître significative colinéarité