Apprentissage Statistique
Bureau d’étude :
Score d’appétence en GRC
Hélène Milhem
IUP SID — M2 — 2011/2012
Institut de Mathématiques de Toulouse — UMR CNRS C5219
Equipe de Statistique et Probabilités
Université de Toulouse
Institut National des Sciences Appliquées — 31077 – Toulouse cedex 4.
2IUP SID de Toulouse — M2 — Fouille de données — Hélène Milhem
Introduction
Le travail proposé vient compléter le cours sur l’apprentissage statistique. Son objectif est double :
1. illustrer l’emploi de chacune des méthodes du cours sur un exemple en vraie grandeur mais relativement simple,
2. mettre en œuvre une procédure systématique de comparaison des erreurs de prévisions estimées sur un échantillon
test par les différentes méthodes.
Il s’intéresse à un jeu de données bancaires et se propose de comparer plusieurs méthodes de modélisation (régression
logistique, analyse discriminante, réseaux de neurones, arbres de décision, SVM, agrégation de modèles) pour aborder
un problème très classique en Gestion de la Relation Client : construire un score d’appétence. Il s’agit du score
d’appétence de la carte Visa Premier mais ce pourrait être un score d’attrition (churn) d’un opérateur téléphonique
ou encore un score de défaillance d’un emprunteur ou de faillite d’une entreprise ; les outils de modélisation sont les
mêmes et sont très largement utilisés dans tout le secteur tertiaire pour l’aide à la décision.
0.1 Rapport
0.1.1 Contenu
Le rapport correspondra à un compte rendu synthétique tout en précisant et interprétant les résultats obtenus au
cours des séances de projet. L’objectif central est la comparaison des méthodes afin de conseiller l’emploi de la plus
pertinente sur le problème considéré.
Point important : La taille de l’échantillon test est relativement modeste et donc l’estimation des erreurs sujette
à caution. On se propose d’améliorer la précision par une procédure de validation croisée simplifiée. Elle est en effet
facile à mettre en œuvre dans R. Il suffit de mettre une boucle autour des programmes précédemment réalisés afin de
faire varier l’initialisation du générateur de nombres aléatoires et donc d’obtenir, pour chaque méthode et pour chaque
initialisation, une estimation de l’erreur sur un échantillon test différent.
Comparer les distributions des taux d’erreur obtenues pour chaque méthode : boîtes à moustaches parallèles,
analyse de variance pour tester l’effet du facteur “méthode”.
0.1.2 Organisation
Comme tout rapport (de stage ou autre) le document (word avec feuille de style ou L
A
T
E
X) doit être succinct et contenir
couverture,
court résumé incluant problème et principaux résultats,
sommaire (automatique) incluant les annexes numérotées,
table des illustrations (facultative mais automatique)
introduction présentant les données, la problématique, l’objectif, le déroulement du travail,
développement pas nécessairement chronologique ni exhaustif du travail en insistant sur les points directement
liés à l’objectif. Illustrer chaque point par un graphique ou un tableau comparatif de résultats (erreurs de
prévision).
conclusion,
bibliographie,
annexes (programmes réalisés).
3
4IUP SID de Toulouse — M2 — Fouille de données — Hélène Milhem
Chapter 1
Prise en compte des données
Cette partie n’est qu’une description des données et des principaux traitement préliminaires à la mise en oeuvre des
techniques de data-mining. Il ne vise qu’à illustrer la plus ou moins bonne séparation des deux classes de la variable
“possession de la carte VP”. Elle doit être traitée rapidement et donner lieu à un compte rendu détaillé mais succint.
1.1 Description des données
La liste des variables est issue d’une base de données retraçant l’historique mensuel bancaire et les caractéristiques
de tous les clients. Un sondage a été réalisé afin d’alléger les traitements ainsi qu’une première sélection de variables.
Les variables contenues dans le fichier initial sont décrites dans le tableau 1.1. Elles sont observées sur 1425 clients.
Sur la demande de leur propriétaire (Informatique Banque Populaire), ces données de doivent pas sortir de ce module
d’enseignement.
5
1 / 9 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !