Masters Spécialisés « Actuariat et Prévoyance » et « Actuariat et Finance » Introduction au Data Mining K. EL HIMDI [email protected] 1 Sommaire du MODULE Partie 1 : Introduction au Data Mining Partie 2 : Présentation de la plate-forme de Data Mining PASW Modeler Partie 3 : Ateliers de manipulation de base de PASW Modeler 2 Partie 1 : Introduction au Data Mining 1- Qu’est ce que le Data Mining ? 2- Domaines d’applications 3- Principales techniques 3.1 Techniques non supervisées 3.2 Techniques supervisées 4- Méthodologie de Projets 3 Contexte économique Les entreprises doivent améliorer La qualité des produits & services La connaissance des marchés et leur dynamique Leur position face à la concurrence Les coûts de production La connaissance des technologies pour en tirer profit La maîtrise de l’information par un processus d’intelligence La collecte de l’information, Le traitement de l’information, La diffusion de l’information à des fins stratégiques D’où l’importance du « Data Mining» 4 Plate-forme analytique et opérationnelle pour l’entreprise Intégration des canaux de communication et des processus métiers Finances Credit Scoring Notation Interne & Risque (ex. Bâle II, Patriot Act) Optimisation des grilles tarifaires Valorisation des sinistres Détection de Fraude (sinistres, cartes, prêt) Blanchiment d’Argent Analyses Data mining Acquisition client, ventes croisées et rétention Optimisation des campagnes Marketing Segmentation Client Valeur Comportement Simulation tarifaire Optimisation des interactions Web Ventes Organisation Analyse du portefeuille client Ventes croisées et rétention sur le point de contact du client Affectation des prospects aux commerciaux Analyse de la performance Force de vente Secteurs géographiques Statistiques Sortantes Service Client pro-actif Call center monitoring et tuning Analyse automatique des emails Satisfaction Client Recrutement des employés Satisfaction des employés Rétention des employés Entrantes Direction Générale : Analyses et Reporting Marketing Actions Vision Client Unique Datamart Marketing Données déclaratives Données contrats Navigation Web Call Center Données opérationnelles 5 De l’analyse historique à l’analyse Predictive Analyse Historique (BI) Valeur Business Combien de clients avons nous perdu? perdu? Analyse Prédictive (DM) Quelle est leur localisation? localisation? Real time distribution Data mining OLAP Query & Reporting Quels clients type sont à risques et pourquoi? pourquoi? Que devons nous offrir à ce client aujourd’hui? Temps Point de départ de la chaîne de prise de décision : le Reporting Soucis pour les entreprises : données incompatibles, lourdeur du traitement, difficultés de consolidations, …. 6 Le Data Mining : Un champs multidisciplinaire Intelligence Artificielle, Machine Learning Statistiques Régression logistique Analyse discriminante Arbre de décision : CHAID Classification : K-Means Réseaux de neurones Règles d’inductions Kohonen Data Mining Familles d’algorithmes Prédictive – prédit une valeur numérique ou symbolique Classement (Segmentation ou Clustering) – Identifier des groupes d’items ayant un comportement similaire. Association – trouver des événements ayant une forte probabilité de se réaliser ensemble Database Technology ETL, ROLAP, MOLAP Reporting 7 I. BERRADA 1 Qu’est ce que le Data Mining? 8 Qu’est ce que le Data Mining ? Data Mining est un sujet qui dépasse le cercle restreint des scientifiques et suscite un vif intérêt dans le monde des affaires «l’extraction d’information originale, auparavant inconnues et potentiellement utiles, à partir de données » (Piateski-Shapiro). «la découverte de nouvelles corrélation (ou coefficient de coïncidence), tendances et modèles par tamisage d’un large volume de données» (John Page). «un processus d’aide à la décision où les utilisateurs cherchent des modèles d’interprétation dans les données» (Kamran Parsaye). 9 Qu’est ce que le Data Mining ? «l’exploration et l’analyse, par des moyens automatiques ou semi-automatiques, d’un large volume de données afin de découvrir des tendances ou des règles» (M. Berry). «un processus non élémentaire de mise à jour de relation, corrélation, dépendances, association, modèles, structure, tendance, classes, facteurs obtenus en naviguant à travers de grands ensembles de données» (M. Jambu). Avec poésie: « …torturer l’information disponible jusqu’à ce qu’elle avoue …» (Dimitris Chorafas). Avec cynisme et réalisme «… passer les données dans la machine à saucisses pour obtenir des Merguez … douces ou épicées …» (Moktar Outtas) 10 Le data mining : une définition Le data mining est un processus de gestion et de valorisation de l’information client au service de la performance de l’entreprise. Le data mining doit permettre de : 1. Décrire un phénomène « client » (choix, désaffection…). 2. Comprendre ce phénomène (relations, dépendances). 3. Modéliser (abstraire le phénomène dans un modèle). 4. Prédire (anticiper sur de nouvelles données à l’aide du modèle). 11 Quelle Problématique du Data Mining ? Comment gérer la grande quantité des données “brutes” provenant de plusieurs sources pour les rendre accessibles et lisibles par le décideur ? 12 Définition du Data mining Extraction d’information d’intérêt (non triviale, implicite, inconnue à priori et potentiellement utile) à partir de données stockées dans de large entrepôts de données, en utilisant des procédures automatiques ou semi-automatiques pour une prise de décision. Appelé aussi KDD (Knowledge Discovery in Databases ) 13 De la donnée vers la connaissance Data mining: noyau du processus de découverte de la connaissance. Data Mining Enrichissement des variables Utilisation de la connaissance Qualification des données Information découverte Sélection des données Information exploitée et diffusée Données Transformées Données sources Données validées Données cibles 14 Processus de Data Mining : Etude de cas - ciblage Mk ACTION Périmètre d’un projet DM pilote DATAMINING ENRICHISSEMENT DES VARIABLES TRANSFORMATION DES DONNEES Information Exploitée et diffusée BD Développement BDI MARKETING DW Données Validées Information Scoring Modélisation Reporting Données Transformées Données Marketing Données sources Plate-forme analytique d’un projet DM 15 2 Domaines d’applications 16 Applications clefs du Data Mining Finance / Service Acquisition Clientè Clientèle Détection souscripteurs emprunteurs à risque Satisfaction Clientè Clientèle matière de crédit ou d'assurance rie st du In (bon payeur/ mauvais payeur client non risqué/client à risque moyen/client à risque élevé). Data mining ou en Ventes Croisé Croisées, Ventes Additionnelles Fidé Fidélisation Fidé Fidélisation Contrôle Qualité Qualité Analyse de Panier d’ d’Achat Détection des Fraudes Analyse Base de Donné Données Analyse de marché : identifier les segments les plus porteurs sur un Di st r ib ut eu r /V PC des Utilisation des Ressources Qualité Qualité des Soins Credit Scoring : identifier les profils des Fraudes m co lé Té Marketing direct : identifier les profils des prospects ayant les meilleurs taux de réponses à une action marketing donnée (réponse / non réponse - réponse achat / réponse non achat / non réponse). Sa nt é Application Secteur Secteur Public marché - Déterminer les variables influant sur la vente d’un produit ou Médical : déterminer les facteurs de risques liées à une d'un service - Identifier les profils maladie (développement / non développement) - identifier des clients de tel ou tel produit ou tel les profils des patients susceptibles de réagir ou tel service. favorablement à un traitement (guérison / non guérison). 17 Champs disciplinaire du CRM 4 champs disciplinaires 1 Problématique 2 4 d’acquisition Problématique de fidélisation Problématique de rétention Problématique de migration Rétention/Attrition Migration 3 Mouvement des clients dans les segments actifs de la pyramide de valeur Mouvements des consommateurs depuis les segments actifs vers les segments inactifs. Sup Acquisition/Fidélisation Basée notamment sur la segmentation et le profilage Grands Moyens Actifs Petits Inactifs Inactifs 18 I. BERRADA L’historique du Data Mining Ces techniques ne sont pas récentes Ce qui est nouveau Capacité de stockage et de calcul // (matériel puissant) Package de techniques de natures différentes qui peuvent s’enchaîner les unes aux autres L’intégration du DM dans le processus de production Elle permettent de traiter de grands volumes de données et font sortir le DM des Laboratoires de Recherche pour entrer dans les entreprises. Modélisation – le “noyau” du data mining C’est ce qui permet de différencier le DM de ces ancêtres Les requêtes, le reporting, la visualisation et les statistiques simples permettent de tester les hypothèses Les hypothèses, les idées, sont spécifiées par l’utilisateur La Modélisation permet la génération des hypothèses Utiliser les outils de data mining pour suggérer de nouvelles idées et directions 19 Des statistiques ….. Au Data Mining Statistiques Quelques centaines d’individus Quelques variables recueillies avec protocole spécial (échantillonnage, plan d’expérience, etc.) Fortes hypothèses sur les lois statistiques suivies Data Mining Quelques millions d’individus Quelques centaines de variables Nombreuses var non numériques Données recueillies avant l’étude et souvent à d’autres fins Population constamment évolutive Données imparfaites avec erreur de codification Nécessité de calculs rapides On ne cherche pas l’optimum mathématique mais le modèle le + facile à appréhender par les utilisateurs non statisticiens 20 Différence entre le Data Mining et la Statistique traditionnelle Les techniques de Data Mining remplacent-elles les statistiques ? Les statistiques sont omniprésentes. On les utilise : Pour faire une analyse préalable, Pour estimer ou alimenter les valeurs manquantes, Pendant le processus pour évaluer la qualité des estimations, Après le processus pour mesurer les actions entreprises et faire un bilan. Statistiques et Data complémentaires Mining sont tout à fait 21 3 Principales techniques 3.1 Techniques descriptives Classification Typologie Règles d’association 3.2 Techniques prédictives Classement Arbre de décision Réseau de neurone 22 Principales approches de modélisation Prédictive – prédit une valeur numérique ou symbolique Classement (Segmentation ou Clustering) – Identifier des groupes d’items ayant un comportement similaire. Association – trouver des événements ayant une forte probabilité de se réaliser ensemble 23 Les 2 types de techniques de DM Les techniques descriptives visent à mettre en évidence des informations présentes mais cachées par le volume des données (ex: segmentation de clientèles et recherche d’associations de produits sur les tickets de caisse) Réduisent, résument, synthétisent les données il n’ y a pas de var cible à expliquer & & Les techniques prédictives visent à extrapoler de nouvelles informations à partir des informations présentes (ex. Scoring) Expliquent des données Il y a une variable cible à prédire. 24 Méthodes descriptives de DM Type Famille Modèles géométriques Sous famille Analyse factorielle (projection sur un espace de dimension inférieure) Méthodes descriptives Modèles à base de règles logiques Détection de liens Algorithme Analyse en composantes principales ACP (var. continues) Analyse des correspondances multiples ACM (var. catégorielle) Centre mobiles, k_means, nuées dynamiques Classification hiérarchique Classification neuronale (carte de Kohonen) Classification relationnelle Détection d’associations Recherche de séries similaires 25 Méthodes prédictives de DM Type Famille Sous famille Algorithme Modèles à base de règles logiques Arbre de décision Arbre de décision (var. à expliquer continue ou catégorielle) Modèles à base de fonctions mathématique Réseaux de neurones Réseaux à apprentissage supervisé perceptron, réseau à fonction radiale de base Modèles paramétriques ou semi paramétriques Régression linéaire (var. à expliquer continue) Modèle linéaire général (var. à expliquer continue) Méthodes prédictives Régression logistique (var. à expliquer catégorielle) Analyse discriminante de Fisher (var. à expliquer catégorielle) Modèle log-linéaire (var. à expliquer discrète) Modèles linéaire généralisé (var. à expliquer continue, discrète ou catégorielle) Modèle additif généralisé (var. à expliquer continue, discrète ou catégorielle) Prédiction sans modèle K plus proche voisin (K-NN) 26 Principales techniques Zoom sur les techniques descriptives Classification – Typologie Règles d’associations 27 3.1 Principales techniques Zoom sur les techniques descriptives Classification – Typologie Règles d’associations 28 Pourquoi et Quand utiliser la classification ? Quand on souhaite trouver des patterns sans cible Pour trouver des anomalies / cas atypiques Ex. détection de fraude Plusieurs terminologies Clustering Attention, il est employé par les anglo-saxons (classification désigne la technique prédictive Classement en français) Segmentation : employé en Marketing Typologie Taxinomie (Biologie) Nosologie (Médecine) 29 Plusieurs algorithmes de classification Méthode hiérarchique Ascendantes (agglomérations) Basées sur une notion de distance Basée sur une notion de densité Descendante (divisives) Méthodes de partitionnement Centres mobiles : K-means Réseaux de Kohonen Méthodes Two Step 30 Comparatif entre les différentes méthodes de classification de partitions Méthode Two Step Méthode Hié Hiérarchique Méthode K_Means Il n'est pas nécessaire de sélectionner à l'avance le nombre de classes. Etant donné k entier, Partitionner les cas en k groupes. Traite les données de grandes tailles. Calculer un centre ou point moyen de chaque groupe Utilisée pour les variables continues et catégorielles Constituée de deux étapes : on rassemble les pairs de sous-classes avec la plus petite distance. Ceci est répété jusqu’à obtenir une classe qui regroupe tout. Affecter chaque cas (point) au groupe ayant le centre le plus proche Retour à l’étape 2, stopper lorsqu’il n’y plus d’affectation possible. Validité = Étape 1 : Regroupement préliminaire (sub-cluster) . Etape 2 : Regroupement final (cluster) : l'utilisation de la méthode de classification hiérarchique pour fusionner progressivement les sousclasses de l’étape 1 en classes de plus en plus importantes, sans qu'un nouvel examen des données soit nécessaire. inter intra 31 Principe du Réseau de Kohonen Il s’agit d’un algorithme original de classification qui a été défini par Teuvo Kohonen dans les années 80. L’algorithme regroupe les observations en classes en respectant la topologie de l’espace des observations. On se définit une notion de voisinage entre classes et les observations voisines dans l’espace des variables. En général, on suppose que les classes sont disposées sur une grille rectangulaire qui définit naturellement les voisins de chaque classe. Couche cachée, lxm nœuds connectés avec un certain poids pijk Couche d’entrée, 1 nœud par var (-> n nœuds) Principe de l’algorithme L’algorithme de classement est itératif L’initialisation : associer à chaque classe un vecteur code dans l’espace des observations choisi de manière aléatoire Ensuite, à chaque étape, on choisit une observation au hasard, on la compare à tous les vecteurs codes et on détermine la classe gagnante, i.e. celle dont le vecteur code est le plus proche au sens d’une distance donnée à priori. On rapproche de l’observation les codes de classe gagnante et des classes voisines On ne modifie à chaque étape que le code de la classe gagnante. C’est un algorithme compétitif. 32 Description de Kohonen L'analyse Kohonen est une méthode de classification non supervisée. Elle a les propriétés: de représenter les données en conservant la topologie. des données proches (dans l'espace d'entrée) vont avoir des représentations proches dans l'espace de sortie et vont donc être classés dans une même classe ou dans des classes voisines. Un réseau de Kohonen est constitué: d'une couche d'entrée: Tout individu à classer est représenté par un vecteur multidimensionnel (le vecteur d'entrée). A chaque individu est affecté un neurone qui représente le centre de la classe d'une couche de sortie (ou couche de compétition). Les neurones de cette couche entrent en compétition.Seuls les meilleurs gagnent("WTA ou Winner takes all") 33 Representation de kohonen A chaque neurone, on fait correspondre un espace de sortie qui, en général, est un espace 2D défini par une grille soit rectangulaire soit hexagonale. Chaque neurone posséde 8 plus proches voisins 34 Description de Kohonen Le neurone biologique Le neurone de Kohonen a une fonction d'activation qui ne prend que des valeurs positives. Compétition Chaque neurone reçoit les signaux de ses voisins. Son excitation (ou son inhibition) dépend de la distance et peut être représentée par la fonction ci-aprés. : + exitation :-inhibition Les neurones voisins ont une action d'excitation. Les neurones éloignés ont une action d'inhibition. La loi d'évolution de la couche fait que: le réseau s'organise de telle façon à créer un amas de neurones autour du neurone le plus stimulé par le signal d'entrée. Les autres neurones se stabilisent dans un état d'activation faible. 35 Algorithme 1) Prétraitement des données Chaque vecteur d'entrée V est normalisé de telle façon à ce que sa longueur soit égale à 1. Les poids initiaux W (générés aléatoirement) des neurones de compétition sont également normalisés à 1. 2) Présentation des données Les données d'entrée peuvent être présentées soit dans leur ordre initial soit de façon aléatoire. 3) Recherche du neurone gagnant Le programme recherche le neurone dit "gagnant" en minimisant(V-W). Les neurones voisins du gagnant sont modifiés, à chaque itération, comme suit: W=W+alpha(V-W) alpha est la vitesse d'apprentissage. Elle peut être linéaire (et décroissante en fonction du temps) ou gaussienne des distances (et décroissante en fonction du temps). 4) Visualisation de la couche de sortie La visualisation de la carte finale est en générale faite en projetant les neurones gagnants dans un espace 3D/2D("Non linear mapping"). 36 Algorithme d’Apprentissage d’un réseau Kohonen Initialisation aléatoire des poids pijk Pour tout individu x=(x1,x2, …, xn) présenté au réseau sont calculées les distances le séparant de lxm nœuds : Nœud retenu pour représenter x est len nœud (i,j) pour lequel dij(x) est minimum. dij ( x) ( xk pijk )2 k 1 Ce nœud et tous les nœuds voisins voient leurs poids ajustés pijk + (xk - pijk) pour les rapprocher de x. [0,1] est le taux d’apprentissage pendant l’apprentissage. C’est cet ajustement des poids dans tout le voisinage du nœud « gagnant » qui rapproche les nœuds voisins de (i,j) de l’individu x. On diminue la taille du voisinage et on prend un autre individu (enregistrement) x. 37 Conseils d’ordre général sur les solutions de classification Il existe un certain nombre de principes standard pouvant être appliqués à chaque solution de classification. Les plus critiques sont : Nombre d’enregistrements par classe Les classes ne doivent pas être trop petites dans la pratique. Certains cas isolés peuvent constituer leur propre classe (5 ou 10 cas dans un jeu de données de 1 000 enregistrements). Nombre de classes Le nombre de classes étant arbitraire, il est courant d’essayer des solutions avec différents nombres de classes en examinant chacune tour à tour pour déterminer laquelle est la plus utile. 38 3.2 Principales techniques Zoom sur les techniques prédictives Classement – Arbre de décision Réseau de neurone 39 Techniques prédictives Passé pour prédire l’avenir 40 Concepts de la modélisation Données test / apprentissage Généralement créées par l’utilisateur pour permettre une validation “indépendante” des modèles. Parfois l’algorithme divise automatiquement les données en données d’apprentissage/test Prédire la cible – qu’est-ce que nous essayons de prédire? Rôle de chaque champs dans le modèle “Directions” (terminologie de Clementine) IN, OUT, LES DEUX, AUCUNE Précision – Combien de fois le modèle prédit correctement? Confiance – à quel point cette prédiction peut être correcte? Ou pour les nombres, moyenne d’erreur, corrélation, … Parfois ce n’est pas une probabilité, mais juste une indication Les questions de “l’équilibre” Est-ce les “oui”/”non” sont de proportions égales 50/50? Quelle différence peut-il faire? 41 Modèles Prédictifs Certains modèles sont meilleurs que d’autres : Précision Compréhension Modèles varient entre “incompréhensible “ Arbre de Décision Règles d’induction Modèles de Régression Réseaux de Neurones “facile à comprendre” à Simple Complexe 42 Classification vs Classement Classification des données consiste regrouper les données en classes (non définie à priori) basées sur le principe conceptuel : maximiser la similarité intra classe et minimiser la similarité interclasse. Classement (affecter à un classe pré-définie, Analyse Discriminante, Rég. Logistique) est une méthode d’apprentissage supervisée, alors que la classification est une méthode non supervisée. 43 Principe des arbres de décision Les méthodes de segmentation par Induction de Règles sont des techniques statistiques (CHAID, CART et non statistiques C5) multivariées et supervisées. Elles permettent : d'étudier plusieurs variables simultanément, et, plus précisément, la relation entre une variable dite dépendante (cible) et des variables dites indépendantes. Le résultat de la segmentation, décrit sous la forme d'un arbre dit arbre de décision: indique quels sont, parmi les variables indépendantes considérées, les meilleurs prédicteurs de la variable cible, et affiche les caractéristiques des groupes définis par ces prédicteurs. De partitionner de manière séquentielle, les données en des groupes (segments), en fonction des modalités des variables indépendantes retenues pour leur pouvoir explicatif sur la variable dépendante. 44 Exemple: Arbre de décision age : du chef du foyer, sexe : le sexe du chef du foyer, enfant : existence d’enfants, revenu : revenu du ménage, carte : présence de carte bancaire, nbpers : # de personne dans le foyer, occup : type de profession I. BERRADA 45 Prédire le risque client par l’arbre de décision 46 Les individus entre 25 à 35 ans sont tous bons payeurs lorsqu’ils perçoivent un salaire mensuel, mais majoritairement des mauvais payeurs lorsqu’ils perçoivent un salaire hebdomadaire. Les individus de moins de 25 ans sont en majorité de mauvais payeurs lorsqu’ils sont payés à la semaine et se répartissent entre bons et mauvais lorsqu’ils sont payés au mois. Les individus de plus de 35 ans sont toujours des bons payeurs, quel que soit le mode de rémunération. 47 I. BERRADA Pourquoi / quand utiliser les règles d’Association ? Exploration Générale “Ne sait pas exactement ce que je cherche, je veux juste savoir ce qui va avec quoi” Pannier de la ménagère Analyse des transactions commerciales à l’aide d’un moteur d’associations grande distribution, Analyse des mouvements dans les grandes banques, Analyse des incidents en assurance Analyse des associations des pages Web … 48 Exemple de règles d’association Analyse du panier de la ménagère Découverte d’associations et de corrélations entre les articles achetés par clients en analysant les achats effectués (panier) Quels items tendent à se retrouver ensemble ? Une règle est une expression de la forme : Si condition alors Résultat La règle Soda & Boucherie => Conserve légumes si vous avez Soda et Boucherie, vous achèteriez probablement Conserve légumes probablement = confiance, Combien de cas = couverture (ou “support”). L’indice de confiance = p(conditions et résultat) / p(condition) L’indice de support = p(condition et résultat) 49 Exemple de calcul des indices de confiance et du support 50 Application des règles d’association pour le choix des plans tarifaires par les clients Le Support correspond au pourcentage d'enregistrements contenus dans les données d'apprentissage pour lesquels les antécédents sont vrais (true). 13% des cas vérifient la règle Forfait maîtrisé Forfait plafonné est vraie avec une confiance de 89,7% 51 Les réseaux de neurones Simulation des neurones dans le cerveau humain par apprentissage de règles et généralisations Une classe d’outils et d’algorithmes très puissants pour : La prédiction La classification La segmentation ou Clustering Ils sont utilisés dans plusieurs domaines : Prévision des séries temporelles dans les finances Diagnostic médical Identification de segments de clients potentiels Détection de fraude Etc. 52 Qu’est ce qu’un réseau de neurones? Un réseau de neurone typique présente plusieurs neurones rangés en couches afin de créer un réseau. Chaque neurone peut être considéré comme un calculateur élémentaire à qui l’on attribue une tâche simple et unique. Les connexions entre neurones donnent au réseau sa capacité à apprendre des caractéristiques et des relations. Une représentation simple d’un réseau de neurones : Perceptron 53 Exemples de fonctions d’activation x Sigmoïde ou logistique : f (x) e x 1 e Tangente hyperbolique : f ( x ) 2e x 1 1 ex Linéaire : f ( x) x L’unité ou neurone combine ses entrées (valeurs entre 0 et 1) en une seule valeur, qu’elle transforme après pour produire la sortie (entre 0 et 1). Cette combinaison et cette transformation sont appelées la fonction d’activation. Quand la fonction d’activation est linéaire, le réseau de neurones n’est autre qu’une régression linéaire multiple avec comme entrées les variables indépendantes xi et comme sortie la variable dépendante y. Les poids wi ne sont autres que les coefficients βi du modèle de régression. Lorsque la fonction d’activation est logistique, le réseau de neurones s’assimile à un modèle de régression logistique. La différence avec le modèle de régression linéaire est que la variable dépendante y est binaire (valeurs : 0 ou 1). Quand la fonction d’activation est la tangente hyperbolique, le réseau de neurones est un perceptron multi-couches (MLP), variante la plus fréquemment utilisée. On note ici que le modèle se complique avec la présence d’une couche cachée. 54 Mise en œuvre d’un réseau de neurone rétropropagation Les étapes pour la mise en œuvre d’un réseau pour la prédiction ou le classement sont : Identification des données en entrée et en sortie Normalisation des données (entre 0 et 1) Constitution d’un réseau avec une topologie adaptée (nb de couches, …) Apprentissage ou entraînement du réseau Test du réseau Application du modèle généré par l’apprentissage Dénormalisation des données en sortie L’entraînement est le processus de choisir les poids optimaux sur les arêtes minimisant SEC pour chaque observation: SEC = ∑ ∑ (données réelles – données en sorties)² Utiliser l’ensemble d’apprentissage afin de calculer les poids et s’approcher le possible de la sortie. w nouveau = w encours + ∆ w encours ∆ w encours = - η (∂SEC/∂w encours) + α W antérieur η : taux d’apprentissage 0<η<1 contrôle l’importance de la modification des poids. C’est la vitesse de déplacement : plus il est élevé, plus l’apprentissage est rapide mais plus le réseau risque de converger vers une solution globalement non optimale. α Le terme de moment aide à diminuer les oscillations autour de l’optimum en encourageant les ajustements à rester On peut ne pas atteindre l’optimum si α est petit dans la même direction 55 Forces et faiblesses des réseaux de neurones Un RN «apprend itérativement» les patterns dans les données : A chaque itération, le modèle est testé puis raffiné. Alors que les Analyses Statistiques supposent un type de modèle pour les données puis testent son adéquation aux données. Forces Aptitude à modéliser des structures complexes et des données irrégulières Prise en compte des relations non linéaires (interactions) entre les variables. Assez bonne robustesse aux données bruitées Aptitude à modéliser des problèmes très variés. Faiblesses Résultats totalement non explicites Sensibilité à un trop grand nombre de variables non discriminantes (contrairement aux arbres de décision) Convergence vers la meilleure solution globale pas toujours assurée Paramètres nombreux et délicats à régler (nb et taille des couches cachées, taux d’apprentissage, moment, etc.) Ne s’applique naturellement qu’aux variables continues dans l’intervalle (0,1) – Nécessité de normaliser les données. 56 Quel modèle retenir? Plusieurs itérations Data Miners exécutent plusieurs modèles en utilisant les paramètres par défault. Affinent les paramètres ou reviennent à la phase de préparation pour effectuer des transformations requises par le modèle choisi. Courbe ROC 57 En guise de synthèse : Quels problèmes : Fiche technique • La Segmentation (clustering) Rechercher des groupes homogènes dans une population d’individus Par exemple, segmenter les comportements d’achat des clients. Techniques: K-means, CAH (Classification Ascendante Hiérarchique), Nuées Dynamiques, Cartes de Kohonen... 58 Quels problèmes : Fiche technique • L’Association Rapprocher les caractéristiques, les comportements ou les préférences d’un individu Un exemple particulièrement populaire est celui de l’analyse du panier de la ménagère Techniques: Règles d’associations, analyse des corrélations, analyse des correspondances (ACM)… 59 Quels problèmes : Fiche technique • La Classification Prévoir l’appartenance d’un individu à un groupe donné. = Expliquer une caractéristique qualitative à partir d’autres variables qualitatives ou quantitatives Exemple: Un client donné fera t il parti des «churners »? Techniques: Arbres de décisions (CART, ChAID, C4.5, ID3,..), Analyse Factorielle Discriminante, Régression Logistique, Réseaux de neurones... 60 Quels problèmes : Fiche technique • L’ Estimation Évaluer une caractéristique quantitative d’un individu (taille, revenu, montant d ’achat,…) = Expliquer une caractéristique quantitative à partir d’autres variables qualitatives ou quantitatives Exemple: Évaluer le montant d’ achat d’un client? Techniques : Modèles linéaires ou non linéaire, Réseaux de neurones, GLM, Poursuite de projection en Régression... 61 Projet Data Mining Coût et Gain Facteurs Clés de succès et quelques freins 62 Principaux besoins décisionnels Systèmes sources enrichissement Fiabilisation des données Interrogation et Reporting Requête sur des données de détail et peu consolidées Visualisation Combien de mouvements chaque client a-t-il effectué au cours du dernier mois ? Data Mining OLAP Analyse, détection de problèmes et opportunités Découverte de tendances cachées, règles significatives Analyse multidimensionnell e Connaissance et prévision Quelle est l’évolution sur 5 ans du nombre mensuel de mouvements pour chaque catégorie de clients ? Quels clients clôtureront leur compte au cours des 6 prochains mois ? 63 Déroulement du projet de DM Selon le modèle CRISP-DM Principales interactions avec le Business Gestion et Coordination Techniques : IT & MRK Evaluation et Validation Source: CRISP-DM 1.0, Step-by-step Data Mining Guide, SPSS Publication 64 Méthodologie Data Mining Compréhension de la problématique Compréhension des données Préparation des données Déterminer les objectifs Critères de réussite Collecter les données Analyse descriptive Sélectionner des données Inclusion/Exclusion Situation Ressources Risques Couts et bénéfices attendus Analyse exploratoire Nettoyer les données Vérifier la qualité des données Construire de nouveaux agrégats Déterminer les objectifs du DM Critères de réussite Planification des tâches Reformater les données Modélisation Sélectionner les techniques de Modélisation Supervisé Non-supervisé Construire les modèles Choix des paramètres Description des modèles Construction des échantillons Evaluation Evaluation des résultats Critères de réussite Choix des modèles Déploiement Plan de déploiement Maintenance du déploiement Revoir le process Production du Retourner à l‘étape de rapport final préparation des données Rapport final Présentation finale Déterminer les prochaines étapes Liste des actions possibles Décision Clementine propose un support intégré de la méthodologie CRISP-DM (CRoss Industry Standard Process for Data Mining, http://www.crisp-dm.org/ ). 65 Répartition de la charge d’étude 83% 66 Facteurs clés de succès d’un projet décisionnel Des objectifs précis, stratégiques et réalistes La qualité et la richesse des informations collectées Stockage des informations relationnelles sur les clients (réponses aux sollicitations commerciales; aux enquêtes de satisfaction, etc. Collaboration des compétences métiers et statistiques Maîtrise des techniques de Data Mining utilisées Bonne restitution des résultats et implication de tous les partenaires chargés de leur mise en œuvre L’analyse de retour de chaque action pour la suivante 67 Freins et blocages au développement d’un Data Mining Au niveau « Business » Méconnaissance / crainte / scepticisme Manque de soutien du Top Management Engagement de la force de vente Difficulté à « vulgariser » certains résultats (neurones,…) Intégration des activités de Data Mining dans l’entreprise Au niveau des données Disponibilité Mise à jour / qualité Structure / historisation 60% du projet de Data Mining 68 Freins et blocages au développement du Data Mining Au niveau des outils Complexité des logiciels Spécificités des outils (intégration, fonctionnalités,…) Coûts liés aux applications de Data Mining Au niveau des compétences Absence ou rareté de filière de formation « Marketing Intelligence » Profil complexe : Marketing, quantitatif, informatique,… 69 Retour sur investissement Le RSI est difficile à évaluer : Les gains proviennent du Data Mining mais aussi d’une bonne communication, d’un marketing efficace, de commerciaux motivés Le RSI vient de : L’augmentation des taux de réponse des actions marketing Augmentation de la productivité des commerciaux Meilleure utilisation des canaux Fidélisation des clients Réduction des impayés On peut tenter de l’estimer avec un échantillon témoin. 70 Exemple de calcul RSI 71 RSI d’un score d’attrition 72 Impact du Data Mining sur le cycle de vie d’un client MORE Acquisition EFFICIENT ACQUISITION +Aquisition efficiente MORE FREQUENT Plus Fréquent Vente de Produits Prolonger la Relation Fin de la Relation UP/CROSS SELL UP/CROSS SELL & Services MORE Plus dePROFIT Profit Encore Plus profitable Profit Profit PROFIT REVENU Coût moindre coût TEMPS 73 KDnuggets : Polls : Data Mining (Analytic) Tools (May 2006) I. BERRADA 74