Data Mining 1 Ce qu’est le Data Mining Extraction d’informations intéressantes non triviales, implicites, préalablement inconnues et potentiellement utiles à partir de données. Autres appellations: ECD (Extraction de Connaissances à partir de Données) KDD (Knowledge Discovery from Databases) Analyse de données/patterns, business 2 Des statistiques … Statistique Quelques centaines d’individus Quelques variables recueillies Fortes hypothèses sur les lois statistiques suivies Analyse de données Quelques dizaines de milliers d’individus Quelques dizaines de variables Construction de tableaux: Individus * Variables Importance du calcul et de la représentation visuelle 3 … au datamining Datamining Quelques millions d’individus Quelques centaines de variables Nombreuses variables non numériques Population constamment évolutive (difficulté de l’échantillonage) Nécessité de calcul rapide On ne cherche pas nécessairement l’optimum mathématique mais plutôt un modèle qu’un non statisticien pourrait appréhender 4 Qu’est ce que le datamining? Exemple: CRM La richesse d’une entreprise est sa clientèle Objectifs de l’entreprise Un moyen d’y parvenir Augmenter la rentabilité et la fidélité de ses clients En maitrisant les risques En utilisant les bons canaux au bon moment pour vendre le bon produit Gestion de la relation client (GRC) Customer Relationship Management (CRM) Sur quoi se bases-t-on ? Les données sur les clients 5 De plus en plus de données L’accroissement des expertises et de la technicité … font perdre l’approche globale … obligent à stocker de plus en plus de données pour les besoins opérationnels de la gestion quotidienne Mais « trop de données tue la donnée » on connaît de moins en moins les clients 6 Fouiller les données Le datamining est l’ensemble des: Algorithmes et méthodes Destinés à l’exploration et l’analyse De grandes quantités de données Sans a priori En vue de détecter des règles, des tendances inconnues ou cachées, des structures particulières restituant de façon concise l’essentiel de l’information utile … pour l’aide à la décision 7 Datamining vs Statistiques Les profils de clientèle à découvrir sont en général des profils complexes, pas seulement: Jeunes/séniors Citadins/ruraux que l’on pourrait deviner en tâtonnant par des statistiques descriptives mais des combinaisons plus complexes qui ne pourraient pas être découvertes par hasard. La datamining fait passer d’une analyse confirmatoire à une analyse exploratoire 8 Le datamining aujourd’hui Ses techniques ne sont pas toutes récentes Ce qui est nouveau Grandes capacités de stockage et de traitement Ce qui permet de faire sortir le DM des labos de recherche pour entrer dans les entreprises 9 Le datamining aujourd’hui Il est particulièrement utilisé dans les secteurs qui par leur activité, détiennent des très grandes quantités de données Banques Assurances Téléphonie Grande distribution VPC Biotechnologies … 10 Applications du datamining au CRM Analyse du panier de la ménagère dans les grandes surfaces (pour déterminer les produits souvent achetés ensemble) Etude « d’appétence » dans les sociétés commerciales (se concentrer sur les clients susceptibles de répondre favorablement) Prédiction de l’attrition (départ d’un client pour un concurrent) 11 Autres application Détection de la fraude : assurance, cartes bancaires… Credit scoring Etudes de marché Détection de risques (épidimiologie, …) … Selon le MIT (Massachussets Institute of Technology) le datamining est l’une des 10 technologies émergentes qui changeront le monde au XXI siècle 12 Assurance Des produits obligatoires (habitation, automobile) D’où les sujets dominants Soit prendre un client au concurrent Soit faire monter en gamme un client qu’on a déjà Attrition Ventes croisées Montées en gamme Besoin de décisionnel dû à: Concurrence des nouveaux entrants (bancassurance) Bases des clients des assureurs mal organisées Classées en général par agent Structurée par contrat et non par client 13 Téléphonie Deux événements Sujets dominants Fin du monopole de France télécom Arrivée à saturation du marché Score d’attrition (churn=changement d’opérateur) Text mining (analyse des lettres de réclamation) Optimisation des campagnes marketing Problème du churn: Coût d’acquisition d’un nouveau client:: 300 euros + d’un million d’utilisateurs changent chaque année d’opérateur 14 Commerce La vente par correspondance (VPC) E-commerce Utilise depuis longtemps des scores d’appétence Optimiser les cibles pour réduire les coûts La Redoute envoie 250 millions de documents à sa clientèle Personnalisation des pages du site en fonction du profil de l’internaute (Amazon le fait) Distribution Détermination des profils de consommateurs, « le panier de la ménagère », l’effet des soldes ou de la publicité Détermination des meilleurs implantations (géomarketing) 15 Médecine Déterminer les segments de patients susceptibles d’êtes soumis à des protocoles thérapeutiques déterminés Mettre en évidence les facteurs de risque ou de rémission Décryptage du génome Prédire les effets sur la peau humaine de nouveaux produits cosmétiques en limitant le nombre de tests sur les animaux 16 Les 2 grandes familles d’outils Techniques descriptives Techniques prédictives 17 Description Il s’agit de mettre en évidence des informations présentes mais cachées par le volume des données Réduit, résume et synthétise les données Il n’y a pas de variable cible à prédire 18 Techniques descriptives Regroupement (ou segmentation, ou clustering) Recherche d’associations, de corrélations Recherche de séquences similaires 19 Prédiction Vise à extrapoler de nouvelles informations à partir d’informations déjà présentes Explique les données Il y a une variable cible à prédire 20 Techniques prédictives Classification Arbres de décision Classification bayésienne Réseaux neuronaux Méthodes SVM (support vector machine) Régression … Certaines techniques ne s’appliquent qu’à un type de variable cible (quantitative ou qualitative) 21 Quels types d’information Rechercher ? La typologie de l’information que l’on veut extraire dépend du type d’action que le décideur veut entreprendre Nous allons considérer Recherche des liens entre éléments de la base de données (Règles d’association) Analyse des comportement des éléments de la base de données (prédiction) Recherche de similitudes entre éléments de la base (Regroupement) 22 Associations (1) Les enseignes de grands magasins proposent régulièrement des promotions sur divers produits Une promotion représente un manque à gagner pour le magasin Dilemme : Comment proposer des promotions intéressantes pour les clients tout en réduisant le manque à gagner ? Regarder les habitudes d’achats des clients : si en général, les clients qui achètent du lait achètent aussi du sucre, alors il n’est pas intéressant de faire des promotions sur les 2 produits en même temps 23 Associations (2) Règles d’association : motifs de la forme : Corps Tête Exemple : Lait sucre Etant donnés: (1) une base de transactions, (2) chaque transaction est décrite par un identifiant et une liste d’items Trouver: toutes les règles qui expriment une association entre la présence d’un item avec la présence d’un ensemble d’items Ex., 98% des personnes qui achètent du lait achètent du sucre 24 Associations: Support et Confiance (3) Trouver les règles X & Y Z avec un support > s et une confiance >c Clients achetant les deux Clients achetant du lait support s, probabilité qu’une transaction contienne {X, Y, Z} confiance c, probabilité conditionnelle qu’une transaction qui contient {X, Y} contienne aussi Z Clients achetant du sucre Confiance=support(X,Y,Z)/support(X,Y) ID Transaction Items 2000 A,B,C 1000 A,C 4000 A,D 5000 B,E,F Soit support minimum 50%, et confiance minimum 50%, A C (50%, 66.6%) C A (50%, 100%) 25 Problème algorithmique Si on a 1010 produits, on a 210^10 itemsets à vérifier ! Idée: Exploiter la propriété de non monotonicité : Si {A,B,C} n’est pas fréquent, alors {A,B,C,D} ne peut pas l’être 26 Prévision (1) Les établissements financiers accordent des crédits à leurs clients L’attribution d’un crédit dépend de certains critères que le client doit satisfaire Dilemme : Si on ne prête qu’aux très riches, on n’aura pas de problèmes de remboursement mais on perd les autres clients (pas de risque). Si on prête aux moins riches, on ne va pas perdre les clients mais on est exposé aux non remboursements (trop de risque) Idée : se baser sur l’historique des clients pour dresser des profils de bons clients, clients moyens, et mauvais payeurs 27 Prévision (2) L’organisme dispose d’un fichier décrivant ses différents clients à qui il a attribué un crédit Chaque client est décrit par un certain nombre d’attributs : Salaire, situation marital, emploi, locataire/propriétaire, personnes à charge, montant crédit, … A chaque client, on ajoute un attribut particulier qui est le nom de la classe et qui est égal à bon, mauvais ou moyen Le but consiste à extraire à partir de ce fichier un ensemble de règles qu’on va utiliser lorsqu’un nouveau client demande un crédit pour savoir si l’on peut le lui attribuer ou pas 28 Prévision (3) Exemples de règles de production: Si crédit > 1/3 salaire mauvais Si crédit <1/3 salaire & charges >4 mauvais Si crédit <1/3 salaire & charges <4 & propriétaire = oui bon Si crédit <1/3 salaire & charges <4 & propriétaire=non & cadre=oui bon Si crédit <1/3 salaire & charges <4 & propriétaire=non & cadre = non moyen … Ces règles peuvent être représentées par un arbre de décision 29 Prévision (4) Endettement >1/3 <1/3 Mauvais charges <4 >4 Mauvais oui Bon oui Bon En pratique, les systèmes construisent Propriétaire d’abord les arbres d’où ils dérivent les règles non Cadre non moyen 30 Association versus prévision Dans les deux cas, on cherche à extraire des règles Les règles d’association expriment une notion de lien entre objets de même type (ex: les produits vendus par un magasin). Attention : Une règle d’association n’exprime pas une corrélation Les règles de production expliquent le lien entre une classe particulière et la valeur des caractéristiques de plusieurs objets Les deux types de règles ne véhiculent pas le même type d’information 31 Regroupement (1) Considérons une entreprise de vente par correspondance qui veut envoyer des prospectus publicitaires à ses clients L’entreprise a un fichier de 100.000 clients. Le coût de la campagne est estimé à 0,5 € ce qui fait un coût global de 50.000 € D’où l’intérêt de cibler les envois : un client qui a l’habitude d’acheter du matériel de pêche n’a que faire d’une pub qui porte sur les vêtements pour le golf (en général …) Dilemme : ne pas envoyer de prospectus versus en envoyer mais en ciblant les clients Idée : construire des groupes de clients. Chaque groupe sera soit destinataire d’un prospectus ciblé soit on ne lui envoie pas du tout. 32 Regroupement (2) Les groupes (ou clusters) sont construits de sorte à Maximiser la similarité entre éléments d’un même groupe Maximiser la dissimilarité entre groupes Les questions auxquelles le décideur est confronté : Si chaque individu forme à lui seul un groupe, alors la similarité intra-groupe est maximale mais la dissimilarité inter-groupes peut ne pas l’être Si on ne forme qu’un seul groupe, la dissimilarité intergroupes est maximale, mais la similarité intra-groupe peut ne pas l’être des techniques qui permettent à l’utilisateur de fixer le nombre k de groupes qu’il veut construire 33 Regroupement 34 Regroupement (3) L’information extraite se présente sous forme d’un ensemble de groupes G={G1, G2, …, Gk} Toutes les techniques utilisent une mesure de similarité ou distance entre Individus (similarité intra) Groupes d’individus (similarité inter) Les mesures dépendent du type des attributs décrivant les individus : Attributs numériques distance au sens mathématique Attributs binaires (oui ou non) coefficient de similarité Ex: o1=(1,2), o2=(0,3), dist(o1,o2)= |1-0|+|2-3|=2 Ex: o1=(oui, non, oui), o2=(oui, oui, non) dist(o1,o2)=1/3 Attributs catégoriels. Ex: taille : grand, petit, moyen 35 Prévision Versus Regroupement Dans la littérature, souvent l’un est dénommé : Apprentissage supervisé et l’autre Apprentissage nonsupervisé Le regroupement pourrait être utilisé pour affecter une classe à un nouvel individu : la classe du groupe d’individus auxquels il ressemble le plus La prévision pourrait être considérée comme du regroupement : Chaque valeur de l’attribut particulier « Classe » correspond à un groupe 36 Autres types d’information Séquences similaires : trouver les actions boursières qui évoluent d’une manière similaire, trouver les internautes dont le comportement lors de la visite d’un site marchand est similaire, … Les exceptions : trouver les clients d’une entreprise de téléphonie dont les factures ne ressemblent pas aux autres; travail à domicile, fraude … 37 Conclusion Utiliser un système de datamining est intéressant quand on sait Quelles actions nous voulons entreprendre Quelles types d’information nous devons rechercher Pour chaque type d’information, il existe plusieurs techniques qui ne sont dans la plupart des cas, pas équivalentes mais complémentaires Pour bien exploiter les informations extraites, il est important de comprendre les techniques sous jacentes 38