Jeu de slides... - Vincent Lemaire

publicité
Analyse des fraudes
sur la carte France
Télécom
Vincent Lemaire
FTR&D/DTL/TIC
Le présent document contient des informations qui sont la propriété de France Télécom.
L'acceptation de ce document par son destinataire implique, de la part de ce dernier, la
reconnaissance du caractère confidentiel de son contenu et l'engagement de n'en faire aucune
reproduction, aucune transmission à des tiers, aucune divulgation et aucune utilisation
commerciale sans l'accord préalable écrit de France Télécom R&D
Plan de la présentation
• Description du problème
• Un processus complet de data mining
• Innovation FTR&D
• Recherche du meilleur modèle
• Discussion - Conclusion
France Télécom R&D
La communication de ce document est soumise à autorisation de France Télécom R&D
Description du problème
Création
Liste des
cartes suivies
carte FT
• seuils de consommation
Beaucoup d’alertes !
• journaliers, mensuels, …
Alertes traitées !
Historique,…
France Télécom R&D
La communication de ce document est soumise à autorisation de France Télécom R&D
Description du problème
Ce double but nécessite une intervention humaine :
• pour pouvoir prévenir le possesseur de la carte d'un usage
anormal
• pour s'assurer qu'une carte n'est pas mise en opposition
abusivement.
Ainsi, le système ne peut et ne doit pas être entièrement
automatique.
En accord avec nos partenaires de l'UGC, l'objectif visé est
l'ordonnancement automatique des dossiers à traiter selon la
probabilité de fraude calculée par le système, et ce pour
augmenter le rendement du traitement final qui reste lui réalisé
par les opérateurs humains.
France Télécom R&D
La communication de ce document est soumise à autorisation de France Télécom R&D
Plan de la présentation
• Description du problème
• Un processus complet de data mining
• Innovation FTR&D
• Recherche du meilleur modèle
• Discussion - Conclusion
France Télécom R&D
La communication de ce document est soumise à autorisation de France Télécom R&D
Étape 1 : Acquérir une compréhension du domaine
•
•
•
•
où va s'exercer le processus de data mining
de manière à identifier les informations a priori importantes
en ayant présent à l'esprit le but du processus de data mining
vis à vis du point de vue du client.
• dans un projet le temps passé à la découverte d'informations 20 %
⇒ plus de 80% du temps est dédié à la compréhension du domaine et aux
opérations de sélection, nettoyage, codage, etc.
La présence à l'UGC de Nancy, dans le cadre d'un stage terrain, a
permise :
• d'acquérir une connaissance du domaine, les cartes France
Télécom
• de comprendre qu'elle est la connaissance que les agents de
l'UGC utilisent pour déterminer si une alarme (dépassement de
seuils commerciaux, parallélisme, ...) correspond ou non à une
fraude
France Télécom R&D
La communication de ce document est soumise à autorisation de France Télécom R&D
Étape 2 : Extraction ou échantillonnage
On ne peut résoudre un problème que si l'on dispose des données nécessaires :
• consiste à récupérer les données à analyser depuis le système d'information.
→ L'échantillonnage consiste à ne conserver pour l'analyse qu'un sous ensemble
tiré au hasard (un pour N) des données disponibles.
Cette technique statistique permet de limiter le temps de traitement. L'échantillonnage
entraîne une perte d'informations qui peut être gênante lors de la recherche de segment de
``niche''.
Après concertation avec l'UGC il est apparu que le problème à traiter
n'était pas la recherche de segment de niche : 14% des dossiers sont
des dossiers douteux et
8.2% des dossiers sont des dossiers de
fraudes; parmi les dossiers suivis par l'UGC.
Un échantillonnage des dossiers traités par les agents de l'UGC à alors
été réalisé.
Le jeu de données porte sur 12267 dossiers datant de janvier à
2000.
France Télécom R&D
mai
La communication de ce document est soumise à autorisation de France Télécom R&D
Étape 3 : Nettoyage
• consiste à améliorer la qualité des données
• essentielle car elle conditionne le succès de l'exploration.
Il s'agit de traiter de manière appropriée : les données aberrantes, les données
incomplètes, les valeurs nulles, ... etc.
L'UGC avait fourni une première base de données à FTR\&D.
Suite à des discussions menées, il a été décidé conjointement par les
différentes parties de réaliser une nouvelle campagne de mesure.
Cette nouvelle campagne de mesure a permis de collecter davantage
d'informations concernant les alarmes dues à des dépassements de
seuils commerciaux et de définir un format de ticket de consommation
de taille unique.
Les variables à échantillonner ont été définies.
Ces dernières ont été choisies en fonction de l'expertise des agents de
l'UGC.
France Télécom R&D
La communication de ce document est soumise à autorisation de France Télécom R&D
Étape 4 : Enrichissement
• On peut avoir recours à d'autres bases, achetées (exemple à l'INSEE) ou
produites en un autre lieu, pour enrichir les données. L'opération va se traduire
par l'ajout de nouveaux champs en conservant souvent le même nombre
d'enregistrements. Une première difficulté ici est de pouvoir relier des données
qui parfois sont hétérogènes.
• Des problèmes de format de données apparaissent et des conversions sont
souvent nécessaires. Une deuxième difficulté est l'introduction de nouvelles
valeurs manquantes ou aberrantes et la phase de nettoyage sera certainement
de nouveau utile.
Après étude et concertation aucune base n'a été adjointe à celle fournie
par l'UGC.
France Télécom R&D
La communication de ce document est soumise à autorisation de France Télécom R&D
Étape 5 : Transformation, codage, normalisation
• Certaines variables doivent être transformées, agrégées ou calculées afin de
mieux interpréter leur signification.
• Certains attributs prennent un très grand nombre de valeurs discrètes.
• Lorsqu'il est important de considérer ces attributs pour la fouille de données il
est important d'opérer des regroupements et ainsi obtenir un nombre de valeurs
raisonnable.
• Certains modèles (exemple réseaux bayésiens) nécessitent de discrétiser les
variables continues il est alors important d'utiliser soit une discrétisation
manuelle réalisée par un expert soit une discrétisation automatique ciblée sur le
but à réaliser.
• On peut encore citer d'autres opérations nécessaires comme le changement de
type des variables, l'uniformisation d'échelle, etc.
France Télécom R&D
La communication de ce document est soumise à autorisation de France Télécom R&D
Étape 5 : Transformation, codage, normalisation
• Lorsqu'une alarme parvient à l'UGC elle est accompagnée d'un ticket
de consommation.
• Ce ticket est de taille variable, taille qui dépend du type d'alarme.
• De manière à agréger ces tickets de consommation les variables ont
été calculées sur 5 tailles de fenêtre d'observation (1, 5, 10, 20, 30
jour(s)).
• Des informations, sur
« générale » ont été crées.
les
statistiques
du
trafic
écoulé,
plus
• Pour chaque variables une discrétisation ``métier'' a été proposée par
les agents de l'UGC.
France Télécom R&D
La communication de ce document est soumise à autorisation de France Télécom R&D
Étape 5 : Que veut-on réaliser ?
• Classification
• Estimation
• Prédiction
• Segmentation
• Détection de variation
• Agrégation
• Description
France Télécom R&D
La communication de ce document est soumise à autorisation de France Télécom R&D
Étape 6 : Modélisation
Quelles que soient les méthodes employées, la démarche de data
mining aboutit très souvent à la construction d'un modèle : c'est-àdire d'un système permettant plus ou moins bien de
décrire
expliquer
prévoir
une variable de sortie correspondant à un phénomène observé, en
fonction des mesures de variables d'entrée liées à ce phénomène.
France Télécom R&D
La communication de ce document est soumise à autorisation de France Télécom R&D
Plan de la présentation
• Description du problème
• Un processus complet de data mining
• Innovation FTR&D
• Recherche du meilleur modèle
• Discussion - Conclusion
France Télécom R&D
La communication de ce document est soumise à autorisation de France Télécom R&D
Innovation FTR&D
France Télécom R&D
CHA ou K-means...
La communication de ce document est soumise à autorisation de France Télécom R&D
Sélection - Recodage de variables
Choix d ’une variable
par feuille
Nommée « parangon »
Utilisation des
parangons seuls
N Classes de variables
France Télécom R&D
Recodage des
variables de chaque
feuille d ’après leur
parangon respectif
La communication de ce document est soumise à autorisation de France Télécom R&D
Plan de la présentation
• Description du problème
• Un processus complet de data mining
• Innovation FTR&D
• Recherche du meilleur modèle
• Discussion - Conclusion
France Télécom R&D
La communication de ce document est soumise à autorisation de France Télécom R&D
Performances obtenues
France Télécom R&D
La communication de ce document est soumise à autorisation de France Télécom R&D
Interprétations :
Exemple de résultats sur 4 variables :
SURVPLL : plus le parallélisme est fort, plus l'individu a un
comportement frauduleux,
CADMOB3 : plus le chiffre d'affaire vers les mobiles est
important,plus le comportement est frauduleux,
MOYNAT : plus la moyenne nationale est élevée, moins le
comportement est frauduleux,
CAOPUB3 : plus le nombre d'appels via les publiphones est grand,
plus le comportement est frauduleux.
Le seuil !
France Télécom R&D
La communication de ce document est soumise à autorisation de France Télécom R&D
Plan de la présentation
• Description du problème
• Un processus complet de data mining
• Innovation FTR&D
• Recherche du meilleur modèle
• Discussion - Conclusion
France Télécom R&D
La communication de ce document est soumise à autorisation de France Télécom R&D
Au sein de l’UGC
Réalisation d’une fonction logicielle insérée dans
l’application informatique temps réel de l’UGC
⇒ Contrat (maintenance, mise à jour, …)
France Télécom R&D
Probabilité de
Fraude
La communication de ce document est soumise à autorisation de France Télécom R&D
Téléchargement