Projet - moodle@insa

Téléchargement

Apprentissage Statistique

Bureau d’étude :

Score d’appétence en GRC

Hélène Milhem

IUP SID — M2 — 2011/2012

Institut de Mathématiques de Toulouse — UMR CNRS C5219

Equipe de Statistique et Probabilités

Université de Toulouse

Institut National des Sciences Appliquées — 31077 – Toulouse cedex 4.

2IUP SID de Toulouse — M2 — Fouille de données — Hélène Milhem

Introduction

Le travail proposé vient compléter le cours sur l’apprentissage statistique. Son objectif est double :

1. illustrer l’emploi de chacune des méthodes du cours sur un exemple en vraie grandeur mais relativement simple,

2. mettre en œuvre une procédure systématique de comparaison des erreurs de prévisions estimées sur un échantillon

test par les diﬀérentes méthodes.

Il s’intéresse à un jeu de données bancaires et se propose de comparer plusieurs méthodes de modélisation (régression

logistique, analyse discriminante, réseaux de neurones, arbres de décision, SVM, agrégation de modèles) pour aborder

un problème très classique en Gestion de la Relation Client : construire un score d’appétence. Il s’agit du score

d’appétence de la carte Visa Premier mais ce pourrait être un score d’attrition (churn) d’un opérateur téléphonique

ou encore un score de défaillance d’un emprunteur ou de faillite d’une entreprise ; les outils de modélisation sont les

mêmes et sont très largement utilisés dans tout le secteur tertiaire pour l’aide à la décision.

0.1 Rapport

0.1.1 Contenu

Le rapport correspondra à un compte rendu synthétique tout en précisant et interprétant les résultats obtenus au

cours des séances de projet. L’objectif central est la comparaison des méthodes aﬁn de conseiller l’emploi de la plus

pertinente sur le problème considéré.

Point important : La taille de l’échantillon test est relativement modeste et donc l’estimation des erreurs sujette

à caution. On se propose d’améliorer la précision par une procédure de validation croisée simpliﬁée. Elle est en eﬀet

facile à mettre en œuvre dans R. Il suﬃt de mettre une boucle autour des programmes précédemment réalisés aﬁn de

faire varier l’initialisation du générateur de nombres aléatoires et donc d’obtenir, pour chaque méthode et pour chaque

initialisation, une estimation de l’erreur sur un échantillon test diﬀérent.

Comparer les distributions des taux d’erreur obtenues pour chaque méthode : boîtes à moustaches parallèles,

analyse de variance pour tester l’eﬀet du facteur “méthode”.

0.1.2 Organisation

Comme tout rapport (de stage ou autre) le document (word avec feuille de style ou L

X) doit être succinct et contenir

•couverture,

•court résumé incluant problème et principaux résultats,

•sommaire (automatique) incluant les annexes numérotées,

•table des illustrations (facultative mais automatique)

•introduction présentant les données, la problématique, l’objectif, le déroulement du travail,

•développement pas nécessairement chronologique ni exhaustif du travail en insistant sur les points directement

liés à l’objectif. Illustrer chaque point par un graphique ou un tableau comparatif de résultats (erreurs de

prévision).

•conclusion,

•bibliographie,

•annexes (programmes réalisés).

4IUP SID de Toulouse — M2 — Fouille de données — Hélène Milhem

Chapter 1

Prise en compte des données

Cette partie n’est qu’une description des données et des principaux traitement préliminaires à la mise en oeuvre des

techniques de data-mining. Il ne vise qu’à illustrer la plus ou moins bonne séparation des deux classes de la variable

“possession de la carte VP”. Elle doit être traitée rapidement et donner lieu à un compte rendu détaillé mais succint.

1.1 Description des données

La liste des variables est issue d’une base de données retraçant l’historique mensuel bancaire et les caractéristiques

de tous les clients. Un sondage a été réalisé aﬁn d’alléger les traitements ainsi qu’une première sélection de variables.

Les variables contenues dans le ﬁchier initial sont décrites dans le tableau 1.1. Elles sont observées sur 1425 clients.

Sur la demande de leur propriétaire (Informatique Banque Populaire), ces données de doivent pas sortir de ce module

d’enseignement.

1 / 9 100%

Documents connexes

Chap 7 Le recueil et l`analyse des informations

Math 9 – Numerical Methods Assessment Record

Une loi (8 points) 1 Variables Gaussiennes (12 points)

Méthodologie de l`enquête statistique

Programme - Moodle Lille 2

Solutions du chapitre I

TP2 COMMENT SE DEROULE LA DIVISION CELLULAIRE

Projets soutenus entre 2005 et 2013

3. Préparation : 4. Réalisation de l`herbier :

les comptes de la france en 1990 - Nouvelobs

Isolement de cellules rares

filieres - Burkinapmepmi.com

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Projet - moodle@insa

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Projet - moodle@insa

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib