Introduction
Le travail proposé vient compléter le cours sur l’apprentissage statistique. Son objectif est double :
1. illustrer l’emploi de chacune des méthodes du cours sur un exemple en vraie grandeur mais relativement simple,
2. mettre en œuvre une procédure systématique de comparaison des erreurs de prévisions estimées sur un échantillon
test par les différentes méthodes.
Il s’intéresse à un jeu de données bancaires et se propose de comparer plusieurs méthodes de modélisation (régression
logistique, analyse discriminante, réseaux de neurones, arbres de décision, SVM, agrégation de modèles) pour aborder
un problème très classique en Gestion de la Relation Client : construire un score d’appétence. Il s’agit du score
d’appétence de la carte Visa Premier mais ce pourrait être un score d’attrition (churn) d’un opérateur téléphonique
ou encore un score de défaillance d’un emprunteur ou de faillite d’une entreprise ; les outils de modélisation sont les
mêmes et sont très largement utilisés dans tout le secteur tertiaire pour l’aide à la décision.
0.1 Rapport
0.1.1 Contenu
Le rapport correspondra à un compte rendu synthétique tout en précisant et interprétant les résultats obtenus au
cours des séances de projet. L’objectif central est la comparaison des méthodes afin de conseiller l’emploi de la plus
pertinente sur le problème considéré.
Point important : La taille de l’échantillon test est relativement modeste et donc l’estimation des erreurs sujette
à caution. On se propose d’améliorer la précision par une procédure de validation croisée simplifiée. Elle est en effet
facile à mettre en œuvre dans R. Il suffit de mettre une boucle autour des programmes précédemment réalisés afin de
faire varier l’initialisation du générateur de nombres aléatoires et donc d’obtenir, pour chaque méthode et pour chaque
initialisation, une estimation de l’erreur sur un échantillon test différent.
Comparer les distributions des taux d’erreur obtenues pour chaque méthode : boîtes à moustaches parallèles,
analyse de variance pour tester l’effet du facteur “méthode”.
0.1.2 Organisation
Comme tout rapport (de stage ou autre) le document (word avec feuille de style ou L
A
T
E
X) doit être succinct et contenir
•couverture,
•court résumé incluant problème et principaux résultats,
•sommaire (automatique) incluant les annexes numérotées,
•table des illustrations (facultative mais automatique)
•introduction présentant les données, la problématique, l’objectif, le déroulement du travail,
•développement pas nécessairement chronologique ni exhaustif du travail en insistant sur les points directement
liés à l’objectif. Illustrer chaque point par un graphique ou un tableau comparatif de résultats (erreurs de
prévision).
•conclusion,
•bibliographie,
•annexes (programmes réalisés).
3