Analyse des fraudes sur la carte France Télécom Vincent Lemaire FTR&D/DTL/TIC Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire implique, de la part de ce dernier, la reconnaissance du caractère confidentiel de son contenu et l'engagement de n'en faire aucune reproduction, aucune transmission à des tiers, aucune divulgation et aucune utilisation commerciale sans l'accord préalable écrit de France Télécom R&D Plan de la présentation • Description du problème • Un processus complet de data mining • Innovation FTR&D • Recherche du meilleur modèle • Discussion - Conclusion France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D Description du problème Création Liste des cartes suivies carte FT • seuils de consommation Beaucoup d’alertes ! • journaliers, mensuels, … Alertes traitées ! Historique,… France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D Description du problème Ce double but nécessite une intervention humaine : • pour pouvoir prévenir le possesseur de la carte d'un usage anormal • pour s'assurer qu'une carte n'est pas mise en opposition abusivement. Ainsi, le système ne peut et ne doit pas être entièrement automatique. En accord avec nos partenaires de l'UGC, l'objectif visé est l'ordonnancement automatique des dossiers à traiter selon la probabilité de fraude calculée par le système, et ce pour augmenter le rendement du traitement final qui reste lui réalisé par les opérateurs humains. France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D Plan de la présentation • Description du problème • Un processus complet de data mining • Innovation FTR&D • Recherche du meilleur modèle • Discussion - Conclusion France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D Étape 1 : Acquérir une compréhension du domaine • • • • où va s'exercer le processus de data mining de manière à identifier les informations a priori importantes en ayant présent à l'esprit le but du processus de data mining vis à vis du point de vue du client. • dans un projet le temps passé à la découverte d'informations 20 % ⇒ plus de 80% du temps est dédié à la compréhension du domaine et aux opérations de sélection, nettoyage, codage, etc. La présence à l'UGC de Nancy, dans le cadre d'un stage terrain, a permise : • d'acquérir une connaissance du domaine, les cartes France Télécom • de comprendre qu'elle est la connaissance que les agents de l'UGC utilisent pour déterminer si une alarme (dépassement de seuils commerciaux, parallélisme, ...) correspond ou non à une fraude France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D Étape 2 : Extraction ou échantillonnage On ne peut résoudre un problème que si l'on dispose des données nécessaires : • consiste à récupérer les données à analyser depuis le système d'information. → L'échantillonnage consiste à ne conserver pour l'analyse qu'un sous ensemble tiré au hasard (un pour N) des données disponibles. Cette technique statistique permet de limiter le temps de traitement. L'échantillonnage entraîne une perte d'informations qui peut être gênante lors de la recherche de segment de ``niche''. Après concertation avec l'UGC il est apparu que le problème à traiter n'était pas la recherche de segment de niche : 14% des dossiers sont des dossiers douteux et 8.2% des dossiers sont des dossiers de fraudes; parmi les dossiers suivis par l'UGC. Un échantillonnage des dossiers traités par les agents de l'UGC à alors été réalisé. Le jeu de données porte sur 12267 dossiers datant de janvier à 2000. France Télécom R&D mai La communication de ce document est soumise à autorisation de France Télécom R&D Étape 3 : Nettoyage • consiste à améliorer la qualité des données • essentielle car elle conditionne le succès de l'exploration. Il s'agit de traiter de manière appropriée : les données aberrantes, les données incomplètes, les valeurs nulles, ... etc. L'UGC avait fourni une première base de données à FTR\&D. Suite à des discussions menées, il a été décidé conjointement par les différentes parties de réaliser une nouvelle campagne de mesure. Cette nouvelle campagne de mesure a permis de collecter davantage d'informations concernant les alarmes dues à des dépassements de seuils commerciaux et de définir un format de ticket de consommation de taille unique. Les variables à échantillonner ont été définies. Ces dernières ont été choisies en fonction de l'expertise des agents de l'UGC. France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D Étape 4 : Enrichissement • On peut avoir recours à d'autres bases, achetées (exemple à l'INSEE) ou produites en un autre lieu, pour enrichir les données. L'opération va se traduire par l'ajout de nouveaux champs en conservant souvent le même nombre d'enregistrements. Une première difficulté ici est de pouvoir relier des données qui parfois sont hétérogènes. • Des problèmes de format de données apparaissent et des conversions sont souvent nécessaires. Une deuxième difficulté est l'introduction de nouvelles valeurs manquantes ou aberrantes et la phase de nettoyage sera certainement de nouveau utile. Après étude et concertation aucune base n'a été adjointe à celle fournie par l'UGC. France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D Étape 5 : Transformation, codage, normalisation • Certaines variables doivent être transformées, agrégées ou calculées afin de mieux interpréter leur signification. • Certains attributs prennent un très grand nombre de valeurs discrètes. • Lorsqu'il est important de considérer ces attributs pour la fouille de données il est important d'opérer des regroupements et ainsi obtenir un nombre de valeurs raisonnable. • Certains modèles (exemple réseaux bayésiens) nécessitent de discrétiser les variables continues il est alors important d'utiliser soit une discrétisation manuelle réalisée par un expert soit une discrétisation automatique ciblée sur le but à réaliser. • On peut encore citer d'autres opérations nécessaires comme le changement de type des variables, l'uniformisation d'échelle, etc. France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D Étape 5 : Transformation, codage, normalisation • Lorsqu'une alarme parvient à l'UGC elle est accompagnée d'un ticket de consommation. • Ce ticket est de taille variable, taille qui dépend du type d'alarme. • De manière à agréger ces tickets de consommation les variables ont été calculées sur 5 tailles de fenêtre d'observation (1, 5, 10, 20, 30 jour(s)). • Des informations, sur « générale » ont été crées. les statistiques du trafic écoulé, plus • Pour chaque variables une discrétisation ``métier'' a été proposée par les agents de l'UGC. France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D Étape 5 : Que veut-on réaliser ? • Classification • Estimation • Prédiction • Segmentation • Détection de variation • Agrégation • Description France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D Étape 6 : Modélisation Quelles que soient les méthodes employées, la démarche de data mining aboutit très souvent à la construction d'un modèle : c'est-àdire d'un système permettant plus ou moins bien de décrire expliquer prévoir une variable de sortie correspondant à un phénomène observé, en fonction des mesures de variables d'entrée liées à ce phénomène. France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D Plan de la présentation • Description du problème • Un processus complet de data mining • Innovation FTR&D • Recherche du meilleur modèle • Discussion - Conclusion France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D Innovation FTR&D France Télécom R&D CHA ou K-means... La communication de ce document est soumise à autorisation de France Télécom R&D Sélection - Recodage de variables Choix d ’une variable par feuille Nommée « parangon » Utilisation des parangons seuls N Classes de variables France Télécom R&D Recodage des variables de chaque feuille d ’après leur parangon respectif La communication de ce document est soumise à autorisation de France Télécom R&D Plan de la présentation • Description du problème • Un processus complet de data mining • Innovation FTR&D • Recherche du meilleur modèle • Discussion - Conclusion France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D Performances obtenues France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D Interprétations : Exemple de résultats sur 4 variables : SURVPLL : plus le parallélisme est fort, plus l'individu a un comportement frauduleux, CADMOB3 : plus le chiffre d'affaire vers les mobiles est important,plus le comportement est frauduleux, MOYNAT : plus la moyenne nationale est élevée, moins le comportement est frauduleux, CAOPUB3 : plus le nombre d'appels via les publiphones est grand, plus le comportement est frauduleux. Le seuil ! France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D Plan de la présentation • Description du problème • Un processus complet de data mining • Innovation FTR&D • Recherche du meilleur modèle • Discussion - Conclusion France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D Au sein de l’UGC Réalisation d’une fonction logicielle insérée dans l’application informatique temps réel de l’UGC ⇒ Contrat (maintenance, mise à jour, …) France Télécom R&D Probabilité de Fraude La communication de ce document est soumise à autorisation de France Télécom R&D