Introduction au Datamining

publicité
Data Mining
1
Ce qu’est le Data Mining


Extraction d’informations intéressantes
 non triviales,
 implicites,
 préalablement inconnues et
 potentiellement utiles
à partir de données.
Autres appellations:
 ECD (Extraction de Connaissances à partir de
Données)
 KDD (Knowledge Discovery from Databases)
 Analyse de données/patterns, business
2
Des statistiques …

Statistique




Quelques centaines d’individus
Quelques variables recueillies
Fortes hypothèses sur les lois statistiques suivies
Analyse de données




Quelques dizaines de milliers d’individus
Quelques dizaines de variables
Construction de tableaux: Individus * Variables
Importance du calcul et de la représentation visuelle
3
… au datamining

Datamining
 Quelques millions d’individus
 Quelques centaines de variables
 Nombreuses variables non numériques
 Population constamment évolutive (difficulté de
l’échantillonage)
 Nécessité de calcul rapide
 On ne cherche pas nécessairement l’optimum mathématique
mais plutôt un modèle qu’un non statisticien pourrait
appréhender
4
Qu’est ce que le datamining?

Exemple: CRM
La richesse d’une entreprise est sa clientèle
 Objectifs de l’entreprise





Un moyen d’y parvenir



Augmenter la rentabilité et la fidélité de ses clients
En maitrisant les risques
En utilisant les bons canaux au bon moment pour vendre
le bon produit
Gestion de la relation client (GRC)
Customer Relationship Management (CRM)
Sur quoi se bases-t-on ?

Les données sur les clients
5
De plus en plus de données

L’accroissement des expertises et de la
technicité



… font perdre l’approche globale
… obligent à stocker de plus en plus de données
pour les besoins opérationnels de la gestion
quotidienne
Mais « trop de données tue la donnée »  on
connaît de moins en moins les clients
6
Fouiller les données

Le datamining est l’ensemble des:

Algorithmes et méthodes





Destinés à l’exploration et l’analyse
De grandes quantités de données
Sans a priori
En vue de détecter des règles, des tendances inconnues
ou cachées, des structures particulières restituant de
façon concise l’essentiel de l’information utile
… pour l’aide à la décision
7
Datamining vs Statistiques

Les profils de clientèle à découvrir sont en général des
profils complexes, pas seulement:
Jeunes/séniors
 Citadins/ruraux
que l’on pourrait deviner en tâtonnant par des statistiques
descriptives mais des combinaisons plus complexes qui ne
pourraient pas être découvertes par hasard.


La datamining fait passer


d’une analyse confirmatoire
à une analyse exploratoire
8
Le datamining aujourd’hui


Ses techniques ne sont pas toutes récentes
Ce qui est nouveau


Grandes capacités de stockage et de traitement
Ce qui permet de faire sortir le DM des labos de
recherche pour entrer dans les entreprises
9
Le datamining aujourd’hui

Il est particulièrement utilisé dans les secteurs qui par
leur activité, détiennent des très grandes quantités de
données







Banques
Assurances
Téléphonie
Grande distribution
VPC
Biotechnologies
…
10
Applications du datamining au CRM



Analyse du panier de la ménagère dans les grandes
surfaces (pour déterminer les produits souvent
achetés ensemble)
Etude « d’appétence » dans les sociétés commerciales
(se concentrer sur les clients susceptibles de répondre
favorablement)
Prédiction de l’attrition (départ d’un client pour un
concurrent)
11
Autres application





Détection de la fraude : assurance, cartes bancaires…
Credit scoring
Etudes de marché
Détection de risques (épidimiologie, …)
…
Selon le MIT (Massachussets Institute of Technology) le
datamining est l’une des 10 technologies émergentes
qui changeront le monde au XXI siècle
12
Assurance

Des produits obligatoires (habitation, automobile)



D’où les sujets dominants




Soit prendre un client au concurrent
Soit faire monter en gamme un client qu’on a déjà
Attrition
Ventes croisées
Montées en gamme
Besoin de décisionnel dû à:


Concurrence des nouveaux entrants (bancassurance)
Bases des clients des assureurs mal organisées


Classées en général par agent
Structurée par contrat et non par client
13
Téléphonie

Deux événements



Sujets dominants




Fin du monopole de France télécom
Arrivée à saturation du marché
Score d’attrition (churn=changement d’opérateur)
Text mining (analyse des lettres de réclamation)
Optimisation des campagnes marketing
Problème du churn:


Coût d’acquisition d’un nouveau client:: 300 euros
+ d’un million d’utilisateurs changent chaque année d’opérateur
14
Commerce

La vente par correspondance (VPC)




E-commerce


Utilise depuis longtemps des scores d’appétence
Optimiser les cibles pour réduire les coûts
La Redoute envoie 250 millions de documents à sa clientèle
Personnalisation des pages du site en fonction du profil de l’internaute
(Amazon le fait)
Distribution


Détermination des profils de consommateurs, « le panier de la
ménagère », l’effet des soldes ou de la publicité
Détermination des meilleurs implantations (géomarketing)
15
Médecine

Déterminer les segments de patients susceptibles d’êtes soumis
à des protocoles thérapeutiques déterminés

Mettre en évidence les facteurs de risque ou de rémission

Décryptage du génome

Prédire les effets sur la peau humaine de nouveaux produits
cosmétiques en limitant le nombre de tests sur les animaux
16
Les 2 grandes familles d’outils

Techniques descriptives

Techniques prédictives
17
Description

Il s’agit de mettre en évidence des
informations présentes mais cachées par
le volume des données

Réduit, résume et synthétise les données

Il n’y a pas de variable cible à prédire
18
Techniques descriptives

Regroupement (ou segmentation, ou
clustering)

Recherche d’associations, de corrélations

Recherche de séquences similaires
19
Prédiction

Vise à extrapoler de nouvelles informations à
partir d’informations déjà présentes

Explique les données

Il y a une variable cible à prédire
20
Techniques prédictives

Classification







Arbres de décision
Classification bayésienne
Réseaux neuronaux
Méthodes SVM (support vector machine)
Régression
…
Certaines techniques ne s’appliquent qu’à un type de
variable cible (quantitative ou qualitative)
21
Quels types d’information Rechercher ?


La typologie de l’information que l’on veut extraire
dépend du type d’action que le décideur veut
entreprendre
Nous allons considérer



Recherche des liens entre éléments de la base de
données (Règles d’association)
Analyse des comportement des éléments de la base
de données (prédiction)
Recherche de similitudes entre éléments de la base
(Regroupement)
22
Associations (1)




Les enseignes de grands magasins proposent
régulièrement des promotions sur divers produits
Une promotion représente un manque à gagner pour le
magasin
Dilemme : Comment proposer des promotions
intéressantes pour les clients tout en réduisant le manque
à gagner ?
Regarder les habitudes d’achats des clients : si en général,
les clients qui achètent du lait achètent aussi du sucre,
alors il n’est pas intéressant de faire des promotions sur
les 2 produits en même temps
23
Associations (2)


Règles d’association :

motifs de la forme : Corps  Tête

Exemple : Lait  sucre
Etant donnés: (1) une base de transactions, (2)
chaque transaction est décrite par un identifiant
et une liste d’items

Trouver: toutes les règles qui expriment une
association entre la présence d’un item avec la
présence d’un ensemble d’items

Ex., 98% des personnes qui achètent du lait
achètent du sucre
24
Associations: Support et Confiance (3)
Trouver les règles X & Y  Z avec un
support > s et une confiance >c
Clients achetant les deux
Clients achetant
du lait


support s, probabilité qu’une transaction
contienne {X, Y, Z}
confiance c, probabilité conditionnelle
qu’une transaction qui contient {X, Y}
contienne aussi Z
Clients achetant du sucre
Confiance=support(X,Y,Z)/support(X,Y)
ID Transaction Items
2000
A,B,C
1000
A,C
4000
A,D
5000
B,E,F
Soit support minimum
50%, et confiance
minimum 50%,
A  C (50%, 66.6%)
C  A (50%, 100%)
25
Problème algorithmique

Si on a 1010 produits, on a 210^10 itemsets à
vérifier !

Idée: Exploiter la propriété de non
monotonicité :

Si {A,B,C} n’est pas fréquent, alors {A,B,C,D} ne
peut pas l’être
26
Prévision (1)

Les établissements financiers accordent des
crédits à leurs clients

L’attribution d’un crédit dépend de certains
critères que le client doit satisfaire

Dilemme :



Si on ne prête qu’aux très riches, on n’aura pas de problèmes de
remboursement mais on perd les autres clients (pas de risque).
Si on prête aux moins riches, on ne va pas perdre les clients mais
on est exposé aux non remboursements (trop de risque)
Idée : se baser sur l’historique des clients pour
dresser des profils de bons clients, clients moyens,
et mauvais payeurs
27
Prévision (2)




L’organisme dispose d’un fichier décrivant ses différents
clients à qui il a attribué un crédit
Chaque client est décrit par un certain nombre d’attributs :
Salaire, situation marital, emploi, locataire/propriétaire,
personnes à charge, montant crédit, …
A chaque client, on ajoute un attribut particulier qui est le
nom de la classe et qui est égal à bon, mauvais ou moyen
Le but consiste à extraire à partir de ce fichier un ensemble
de règles qu’on va utiliser lorsqu’un nouveau client demande
un crédit pour savoir si l’on peut le lui attribuer ou pas
28
Prévision (3)


Exemples de règles de production:
 Si crédit > 1/3 salaire  mauvais
 Si crédit <1/3 salaire & charges >4  mauvais
 Si crédit <1/3 salaire & charges <4 &
propriétaire = oui  bon
 Si crédit <1/3 salaire & charges <4 &
propriétaire=non & cadre=oui  bon
 Si crédit <1/3 salaire & charges <4 &
propriétaire=non & cadre = non  moyen
 …
Ces règles peuvent être représentées par un arbre de
décision
29
Prévision (4)
Endettement
>1/3
<1/3
Mauvais
charges
<4
>4
Mauvais
oui
Bon
oui
Bon
En pratique, les
systèmes construisent
Propriétaire d’abord les arbres d’où
ils dérivent les règles
non
Cadre
non
moyen
30
Association versus prévision

Dans les deux cas, on cherche à extraire des règles

Les règles d’association expriment une notion de
lien entre objets de même type (ex: les produits
vendus par un magasin). Attention : Une règle
d’association n’exprime pas une corrélation


Les règles de production expliquent le lien entre
une classe particulière et la valeur des
caractéristiques de plusieurs objets
Les deux types de règles ne véhiculent pas le même
type d’information
31
Regroupement (1)





Considérons une entreprise de vente par correspondance
qui veut envoyer des prospectus publicitaires à ses clients
L’entreprise a un fichier de 100.000 clients. Le coût de la
campagne est estimé à 0,5 € ce qui fait un coût global de
50.000 €
D’où l’intérêt de cibler les envois : un client qui a
l’habitude d’acheter du matériel de pêche n’a que faire
d’une pub qui porte sur les vêtements pour le golf (en
général …)
Dilemme : ne pas envoyer de prospectus versus en
envoyer mais en ciblant les clients
Idée : construire des groupes de clients. Chaque groupe
sera soit destinataire d’un prospectus ciblé soit on ne lui
envoie pas du tout.
32
Regroupement (2)


Les groupes (ou clusters) sont construits de sorte à
 Maximiser la similarité entre éléments d’un même groupe
 Maximiser la dissimilarité entre groupes
Les questions auxquelles le décideur est confronté :
 Si chaque individu forme à lui seul un groupe, alors la
similarité intra-groupe est maximale mais la dissimilarité
inter-groupes peut ne pas l’être


Si on ne forme qu’un seul groupe, la dissimilarité
intergroupes est maximale, mais la similarité intra-groupe
peut ne pas l’être
 des techniques qui permettent à l’utilisateur de fixer le
nombre k de groupes qu’il veut construire
33
Regroupement
34
Regroupement (3)

L’information extraite se présente sous forme d’un ensemble
de groupes G={G1, G2, …, Gk}

Toutes les techniques utilisent une mesure de similarité ou
distance entre



Individus (similarité intra)
Groupes d’individus (similarité inter)
Les mesures dépendent du type des attributs décrivant les
individus :

Attributs numériques  distance au sens mathématique


Attributs binaires (oui ou non)  coefficient de similarité


Ex: o1=(1,2), o2=(0,3), dist(o1,o2)= |1-0|+|2-3|=2
Ex: o1=(oui, non, oui), o2=(oui, oui, non)
dist(o1,o2)=1/3
Attributs catégoriels. Ex: taille : grand, petit, moyen
35
Prévision Versus Regroupement



Dans la littérature, souvent l’un est dénommé :
Apprentissage supervisé et l’autre Apprentissage nonsupervisé
Le regroupement pourrait être utilisé pour affecter une
classe à un nouvel individu : la classe du groupe
d’individus auxquels il ressemble le plus
La prévision pourrait être considérée comme du
regroupement : Chaque valeur de l’attribut particulier
« Classe » correspond à un groupe
36
Autres types d’information



Séquences similaires : trouver les actions boursières
qui évoluent d’une manière similaire, trouver les
internautes dont le comportement lors de la visite d’un
site marchand est similaire, …
Les exceptions : trouver les clients d’une entreprise de
téléphonie dont les factures ne ressemblent pas aux
autres; travail à domicile, fraude
…
37
Conclusion

Utiliser un système de datamining est intéressant
quand on sait




Quelles actions nous voulons entreprendre
Quelles types d’information nous devons
rechercher
Pour chaque type d’information, il existe plusieurs
techniques qui ne sont dans la plupart des cas, pas
équivalentes mais complémentaires
Pour bien exploiter les informations extraites, il est
important de comprendre les techniques sous
jacentes
38
Téléchargement