Au Data Mining

publicité
Masters Spécialisés
« Actuariat et Prévoyance » et
« Actuariat et Finance »
Introduction au Data Mining
K. EL HIMDI
[email protected]
1
Sommaire du MODULE
 Partie 1 : Introduction au Data Mining
 Partie 2 : Présentation de la plate-forme de
Data Mining PASW Modeler
 Partie 3 : Ateliers de manipulation de base de
PASW Modeler
2
Partie 1 : Introduction au Data
Mining
1- Qu’est ce que le Data Mining ?
2- Domaines d’applications
3- Principales techniques
3.1 Techniques non supervisées
3.2 Techniques supervisées
4- Méthodologie de Projets
3
Contexte économique
Les entreprises doivent améliorer

La qualité des produits & services

La connaissance des marchés et leur dynamique

Leur position face à la concurrence

Les coûts de production

La connaissance des technologies pour en tirer profit

La maîtrise de l’information par un processus d’intelligence

La collecte de l’information,

Le traitement de l’information,

La diffusion de l’information à des fins stratégiques
D’où l’importance du « Data Mining»
4
Plate-forme analytique et
opérationnelle pour l’entreprise
Intégration des canaux de communication et des processus métiers
Finances





Credit Scoring
Notation Interne & Risque
(ex. Bâle II, Patriot Act)
Optimisation des grilles
tarifaires
Valorisation des sinistres
Détection de Fraude
(sinistres, cartes, prêt)
Blanchiment d’Argent





Analyses Data mining
Acquisition client, ventes
croisées et rétention
Optimisation des
campagnes Marketing
Segmentation Client
 Valeur
 Comportement
Simulation tarifaire
Optimisation des
interactions Web
Ventes
Organisation
Analyse du portefeuille
client
 Ventes croisées et
rétention sur le point de
contact du client
 Affectation des prospects
aux commerciaux
 Analyse de la performance
 Force de vente
 Secteurs
géographiques


Statistiques
Sortantes






Service Client pro-actif
Call center monitoring et
tuning
Analyse automatique des
emails
Satisfaction Client
Recrutement des employés
Satisfaction des employés
Rétention des employés
Entrantes
Direction Générale :
Analyses et Reporting

Marketing
Actions
Vision Client Unique
Datamart Marketing Données déclaratives Données contrats
Navigation Web
Call Center
Données opérationnelles
5
De l’analyse historique à
l’analyse Predictive
Analyse Historique (BI)
Valeur Business
Combien de
clients avons
nous perdu?
perdu?
Analyse Prédictive (DM)
Quelle est
leur
localisation?
localisation?
Real time
distribution
Data
mining
OLAP
Query &
Reporting
Quels clients
type sont à
risques et
pourquoi?
pourquoi?
Que devons
nous offrir à
ce client
aujourd’hui?
Temps
Point de départ de la chaîne de prise de décision : le Reporting
Soucis pour les entreprises : données incompatibles, lourdeur du traitement,
difficultés de consolidations, ….
6
Le Data Mining : Un champs
multidisciplinaire
Intelligence
Artificielle,
Machine
Learning
Statistiques
Régression logistique
Analyse discriminante
Arbre de décision : CHAID
Classification : K-Means
Réseaux de neurones
Règles d’inductions
Kohonen
Data Mining
Familles d’algorithmes

Prédictive – prédit une valeur
numérique ou symbolique

Classement (Segmentation ou
Clustering) – Identifier des
groupes d’items ayant un
comportement similaire.

Association – trouver des
événements ayant une forte
probabilité de se réaliser
ensemble
Database
Technology
ETL, ROLAP, MOLAP
Reporting
7
I. BERRADA
1
Qu’est ce que le Data Mining?
8
Qu’est ce que le Data Mining ?
Data Mining est un sujet qui dépasse le cercle restreint des
scientifiques et suscite un vif intérêt dans le monde des
affaires
 «l’extraction
d’information
originale,
auparavant
inconnues et potentiellement utiles, à partir de données
» (Piateski-Shapiro).
 «la découverte de nouvelles corrélation (ou coefficient
de coïncidence), tendances et modèles par tamisage
d’un large volume de données» (John Page).
 «un processus d’aide à la décision où les utilisateurs
cherchent des modèles d’interprétation dans les
données» (Kamran Parsaye).
9
Qu’est ce que le Data Mining ?

«l’exploration
et l’analyse, par des moyens
automatiques ou semi-automatiques, d’un large volume
de données afin de découvrir des tendances ou des
règles» (M. Berry).

«un processus non élémentaire de mise à jour de
relation,
corrélation,
dépendances,
association,
modèles, structure, tendance, classes, facteurs obtenus
en naviguant à travers de grands ensembles de
données» (M. Jambu).

Avec poésie: « …torturer l’information disponible
jusqu’à ce qu’elle avoue …» (Dimitris Chorafas).

Avec cynisme et réalisme «… passer les données dans
la machine à saucisses pour obtenir des Merguez …
douces ou épicées …» (Moktar Outtas)
10
Le data mining : une définition
Le data mining est un processus de gestion
et de valorisation de l’information client au
service de la performance de l’entreprise.
Le data mining doit permettre de :
1.
Décrire un phénomène « client » (choix, désaffection…).
2.
Comprendre ce phénomène (relations, dépendances).
3.
Modéliser (abstraire le phénomène dans un modèle).
4.
Prédire (anticiper sur de nouvelles données à l’aide du
modèle).
11
Quelle Problématique du Data
Mining ?
Comment gérer la grande quantité des
données “brutes” provenant de plusieurs
sources pour les rendre accessibles et
lisibles par le décideur ?
12
Définition du Data mining

Extraction d’information d’intérêt (non
triviale, implicite, inconnue à priori et
potentiellement utile) à partir de
données stockées dans de large
entrepôts de données, en utilisant
des procédures automatiques ou
semi-automatiques pour une prise de
décision.

Appelé aussi KDD (Knowledge
Discovery in Databases )
13
De la donnée vers la connaissance
Data mining: noyau du
processus de découverte
de la connaissance.
Data Mining
Enrichissement
des variables
Utilisation
de la connaissance
Qualification
des données
Information
découverte
Sélection des
données
Information
exploitée
et diffusée
Données Transformées
Données sources
Données validées
Données cibles
14
Processus de Data Mining : Etude de
cas - ciblage Mk
ACTION
Périmètre d’un projet DM pilote
DATAMINING
ENRICHISSEMENT
DES VARIABLES
TRANSFORMATION
DES DONNEES
Information
Exploitée
et diffusée
BD Développement
BDI
MARKETING
DW
Données Validées
Information
Scoring
Modélisation
Reporting
Données
Transformées
Données Marketing
Données sources
Plate-forme analytique d’un projet DM
15
2
Domaines d’applications
16
Applications clefs du Data Mining
Finance / Service
Acquisition Clientè
Clientèle
Détection
souscripteurs
emprunteurs
à
risque
Satisfaction
Clientè
Clientèle
matière de crédit ou d'assurance
rie
st
du
In
(bon payeur/ mauvais payeur client non risqué/client à risque
moyen/client à risque élevé).

Data
mining
ou
en
Ventes Croisé
Croisées,
Ventes
Additionnelles
Fidé
Fidélisation
Fidé
Fidélisation
Contrôle Qualité
Qualité
Analyse de
Panier d’
d’Achat
Détection
des Fraudes
Analyse Base de Donné
Données
Analyse de marché : identifier les
segments les plus porteurs sur un
Di
st
r ib
ut
eu
r /V
PC
des
Utilisation des
Ressources
Qualité
Qualité
des Soins
Credit Scoring : identifier les
profils
des Fraudes
m
co
lé
Té

Marketing direct : identifier les
profils des prospects ayant les
meilleurs taux de réponses à une
action marketing donnée (réponse /
non réponse - réponse achat /
réponse non achat / non réponse).
Sa
nt
é

Application
Secteur
Secteur Public
marché - Déterminer les variables
influant sur la vente d’un produit ou

Médical : déterminer les facteurs de risques liées à une
d'un service - Identifier les profils
maladie (développement / non développement) - identifier
des clients de tel ou tel produit ou tel
les profils des patients susceptibles de réagir
ou tel service.
favorablement à un traitement (guérison / non guérison).
17
Champs disciplinaire du CRM
4 champs disciplinaires
1
Problématique
2
4
d’acquisition
Problématique
de fidélisation
Problématique
de rétention
Problématique
de migration
Rétention/Attrition
Migration
3
Mouvement des
clients dans les
segments actifs de la
pyramide de valeur
Mouvements des
consommateurs
depuis les segments
actifs vers les
segments inactifs.
Sup
Acquisition/Fidélisation
Basée notamment sur la
segmentation et le
profilage
Grands
Moyens
Actifs
Petits
Inactifs
Inactifs
18
I. BERRADA
L’historique du Data Mining


Ces techniques ne sont pas récentes

Ce qui est nouveau
 Capacité de stockage et de calcul //
(matériel puissant)
 Package de techniques de natures
différentes qui peuvent s’enchaîner les
unes aux autres
 L’intégration du DM dans le processus de
production

Elle permettent de traiter de grands volumes de
données et font sortir le DM des Laboratoires de
Recherche pour entrer dans les entreprises.
Modélisation – le “noyau” du data mining
 C’est ce qui permet de différencier le DM de ces ancêtres
 Les requêtes, le reporting, la visualisation et les statistiques simples permettent de
tester les hypothèses
 Les hypothèses, les idées, sont spécifiées par l’utilisateur
 La Modélisation permet la génération des hypothèses
 Utiliser les outils de data mining pour suggérer de nouvelles idées et
directions
19
Des statistiques ….. Au Data Mining

Statistiques

 Quelques centaines d’individus
 Quelques variables recueillies
avec protocole spécial
(échantillonnage, plan
d’expérience, etc.)
 Fortes hypothèses sur les lois
statistiques suivies
Data Mining








Quelques millions d’individus
Quelques centaines de variables
Nombreuses var non numériques
Données recueillies avant l’étude et
souvent à d’autres fins
Population constamment évolutive
Données imparfaites avec erreur de
codification
Nécessité de calculs rapides
On ne cherche pas l’optimum
mathématique mais le modèle le +
facile à appréhender par les
utilisateurs non statisticiens
20
Différence entre le Data Mining
et la Statistique traditionnelle

Les techniques de Data Mining remplacent-elles les
statistiques ?

Les statistiques sont omniprésentes. On les utilise :
Pour faire une analyse préalable,
 Pour estimer ou alimenter les valeurs manquantes,
 Pendant le processus pour évaluer la qualité des estimations,
 Après le processus pour mesurer les actions entreprises et faire
un bilan.

Statistiques et Data
complémentaires
Mining
sont
tout
à
fait
21
3
Principales techniques
3.1 Techniques descriptives
Classification
Typologie
Règles d’association
3.2 Techniques prédictives
Classement
Arbre de décision
Réseau de neurone
22
Principales approches de modélisation

Prédictive – prédit une valeur numérique ou
symbolique

Classement (Segmentation ou Clustering) –
Identifier des groupes d’items ayant un
comportement similaire.

Association – trouver des événements ayant une
forte probabilité de se réaliser ensemble
23
Les 2 types de techniques de DM

Les techniques descriptives
visent à mettre en évidence des
informations présentes mais cachées par le
volume des données (ex: segmentation de
clientèles et recherche d’associations de
produits sur les tickets de caisse)
 Réduisent,
résument, synthétisent les
données
 il n’ y a pas de var cible à expliquer


&
&
Les techniques prédictives
visent à extrapoler de nouvelles
informations à partir des informations
présentes (ex. Scoring)
 Expliquent des données
 Il y a une variable cible à prédire.

24
Méthodes descriptives de DM
Type
Famille
Modèles
géométriques
Sous famille
Analyse factorielle
(projection sur un
espace de dimension
inférieure)
Méthodes
descriptives
Modèles à base
de règles
logiques
Détection de liens
Algorithme
Analyse en composantes
principales ACP (var.
continues)
Analyse des
correspondances multiples
ACM (var. catégorielle)
Centre mobiles, k_means,
nuées dynamiques
Classification hiérarchique
Classification neuronale
(carte de Kohonen)
Classification relationnelle
Détection d’associations
Recherche de séries
similaires
25
Méthodes prédictives de DM
Type
Famille
Sous famille
Algorithme
Modèles à base de
règles logiques
Arbre de décision
Arbre de décision (var. à expliquer
continue ou catégorielle)
Modèles à base de
fonctions
mathématique
Réseaux de neurones
Réseaux à apprentissage supervisé
perceptron, réseau à fonction
radiale de base
Modèles paramétriques ou
semi paramétriques
Régression linéaire (var. à expliquer
continue)
Modèle linéaire général (var. à
expliquer continue)
Méthodes
prédictives
Régression
logistique
(var.
à
expliquer catégorielle)
Analyse discriminante de Fisher (var.
à expliquer catégorielle)
Modèle log-linéaire (var. à expliquer
discrète)
Modèles linéaire généralisé (var. à
expliquer continue, discrète ou
catégorielle)
Modèle additif généralisé (var. à
expliquer continue, discrète ou
catégorielle)
Prédiction sans modèle
K plus proche voisin (K-NN)
26
Principales techniques
Zoom sur les techniques descriptives
Classification – Typologie
Règles d’associations
27
3.1
Principales techniques
Zoom sur les techniques descriptives
Classification – Typologie
Règles d’associations
28
Pourquoi et Quand utiliser la
classification ?

Quand on souhaite trouver des patterns sans
cible

Pour trouver des anomalies / cas atypiques
 Ex. détection de fraude
Plusieurs terminologies

Clustering

Attention, il est employé par les anglo-saxons
(classification désigne la technique prédictive 
Classement en français)

Segmentation : employé en Marketing

Typologie

Taxinomie (Biologie)

Nosologie (Médecine)
29
Plusieurs algorithmes de
classification

Méthode hiérarchique

Ascendantes (agglomérations)
Basées sur une notion de distance
 Basée sur une notion de densité



Descendante (divisives)
Méthodes de partitionnement
Centres mobiles : K-means
 Réseaux de Kohonen


Méthodes Two Step
30
Comparatif entre les différentes méthodes
de classification de partitions


Méthode Two Step
Méthode Hié
Hiérarchique
Méthode K_Means
Il n'est pas nécessaire de
sélectionner à l'avance le
nombre de classes.
Etant donné k entier,

 Partitionner les cas en k
groupes.
Traite les données de grandes
tailles.

 Calculer un centre ou point
moyen de chaque groupe
Utilisée pour les variables
continues et catégorielles

Constituée de deux étapes :
on rassemble les pairs de
sous-classes avec la plus
petite distance. Ceci est
répété jusqu’à obtenir
une classe qui regroupe
tout.
 Affecter chaque cas (point)
au groupe ayant le centre le
plus proche
Retour à l’étape 2, stopper
lorsqu’il
n’y
plus
d’affectation possible.

Validité =
Étape
1
:
Regroupement
préliminaire (sub-cluster) .
Etape 2 : Regroupement final
(cluster) :
l'utilisation de la méthode de
classification
hiérarchique
pour
fusionner
progressivement les sousclasses de l’étape 1 en classes
de plus en plus importantes,
sans qu'un nouvel examen des
données soit nécessaire.
inter
intra
31
Principe du Réseau de Kohonen

Il s’agit d’un algorithme original de
classification qui a été défini par Teuvo
Kohonen dans les années 80.

L’algorithme regroupe les observations en
classes en respectant la topologie de
l’espace des observations.

On se définit une notion de voisinage
entre classes et les observations voisines
dans l’espace des variables.

En général, on suppose que les classes
sont disposées sur une grille rectangulaire
qui définit naturellement les voisins de
chaque classe.
Couche
cachée,
lxm
nœuds
connectés avec un
certain poids pijk
Couche d’entrée,
1 nœud par var (-> n nœuds)
Principe de l’algorithme

L’algorithme de classement est itératif

L’initialisation : associer à chaque classe
un vecteur code dans l’espace des
observations choisi de manière aléatoire

Ensuite, à chaque étape, on choisit une
observation au hasard, on la compare à tous
les vecteurs codes et on détermine la classe
gagnante, i.e. celle dont le vecteur code est
le plus proche au sens d’une distance
donnée à priori.

On rapproche de l’observation les codes de
classe gagnante et des classes voisines

On ne modifie à chaque étape que le code de
la classe gagnante.

C’est un algorithme compétitif.
32
Description de Kohonen

L'analyse Kohonen est une méthode de classification
non supervisée. Elle a les propriétés:



de représenter les données en conservant la topologie.
des données proches (dans l'espace d'entrée) vont avoir
des représentations proches dans l'espace de sortie et
vont donc être classés dans une même classe ou dans
des classes voisines.
Un réseau de Kohonen est constitué:


d'une couche d'entrée: Tout individu à classer est représenté par un
vecteur multidimensionnel (le vecteur d'entrée). A chaque individu est
affecté un neurone qui représente le centre de la classe
d'une couche de sortie (ou couche de compétition). Les neurones de
cette couche entrent en compétition.Seuls les meilleurs gagnent("WTA
ou Winner takes all")
33
Representation de kohonen

A chaque neurone, on fait correspondre un espace de sortie qui,
en général, est un espace 2D défini par une grille soit
rectangulaire soit hexagonale.
Chaque neurone posséde 8 plus proches voisins
34
Description de Kohonen

Le neurone biologique

Le neurone de Kohonen a une fonction d'activation qui ne prend que des valeurs
positives.

Compétition

Chaque neurone reçoit les signaux de ses voisins. Son excitation (ou son
inhibition) dépend de la distance et peut être représentée par la fonction ci-aprés.

: + exitation :-inhibition

Les neurones voisins ont une action d'excitation. Les neurones éloignés ont une
action d'inhibition. La loi d'évolution de la couche fait que: le réseau s'organise de
telle façon à créer un amas de neurones autour du neurone le plus stimulé par le
signal d'entrée. Les autres neurones se stabilisent dans un état d'activation faible.
35
Algorithme
1) Prétraitement des données

Chaque vecteur d'entrée V est normalisé de telle façon à ce que sa longueur soit
égale à 1. Les poids initiaux W (générés aléatoirement) des neurones de
compétition sont également normalisés à 1.
2) Présentation des données

Les données d'entrée peuvent être présentées soit dans leur ordre initial soit de
façon aléatoire.
3) Recherche du neurone gagnant

Le programme recherche le neurone dit "gagnant" en minimisant(V-W). Les
neurones voisins du gagnant sont modifiés, à chaque itération, comme suit:
W=W+alpha(V-W)
 alpha est la vitesse d'apprentissage. Elle peut être linéaire (et décroissante en
fonction du temps) ou gaussienne des distances (et décroissante en fonction
du temps).
4) Visualisation de la couche de sortie

La visualisation de la carte finale est en générale faite en projetant les neurones
gagnants dans un espace 3D/2D("Non linear mapping").
36
Algorithme d’Apprentissage d’un
réseau Kohonen
 Initialisation aléatoire des poids pijk
 Pour
tout individu x=(x1,x2, …, xn) présenté au réseau
sont calculées les distances le séparant de lxm nœuds :
 Nœud
retenu pour représenter x est len nœud (i,j) pour
lequel dij(x) est minimum.
dij ( x)  ( xk  pijk )2

k 1
 Ce
nœud et tous les nœuds voisins voient leurs poids
ajustés pijk + (xk - pijk) pour les rapprocher de x.  
[0,1] est le taux d’apprentissage  pendant
l’apprentissage.
 C’est cet ajustement des poids dans tout le voisinage
du nœud « gagnant » qui rapproche les nœuds voisins
de (i,j) de l’individu x.
 On
diminue la taille du voisinage et on prend un autre
individu (enregistrement) x.
37
Conseils d’ordre général sur les
solutions de classification
Il existe un certain nombre de principes standard pouvant être
appliqués à chaque solution de classification. Les plus
critiques sont :
Nombre d’enregistrements par classe
 Les classes ne doivent pas être trop petites dans la pratique.
 Certains cas isolés peuvent constituer leur propre classe (5 ou
10 cas dans un jeu de données de 1 000 enregistrements).
Nombre
de classes
Le nombre de classes étant arbitraire, il est courant d’essayer
des solutions avec différents nombres de classes en
examinant chacune tour à tour pour déterminer laquelle est la
plus utile.
38
3.2
Principales techniques
Zoom sur les techniques prédictives
Classement – Arbre de décision
Réseau de neurone
39
Techniques prédictives
Passé
pour
prédire
l’avenir
40
Concepts de la modélisation

Données test / apprentissage
Généralement créées par l’utilisateur pour permettre une validation
“indépendante” des modèles.
 Parfois l’algorithme divise automatiquement les données en données
d’apprentissage/test



Prédire la cible – qu’est-ce que nous essayons de prédire?

Rôle de chaque champs dans le modèle

“Directions” (terminologie de Clementine) IN, OUT, LES DEUX, AUCUNE
Précision – Combien de fois le modèle prédit correctement?


Confiance – à quel point cette prédiction peut être correcte?


Ou pour les nombres, moyenne d’erreur, corrélation, …
Parfois ce n’est pas une probabilité, mais juste une indication
Les questions de “l’équilibre”

Est-ce les “oui”/”non” sont de proportions égales 50/50? Quelle
différence peut-il faire?
41
Modèles Prédictifs


Certains modèles sont meilleurs que d’autres :

Précision

Compréhension
Modèles varient entre
“incompréhensible “
Arbre de Décision
 Règles d’induction
 Modèles de Régression
 Réseaux de Neurones

“facile
à
comprendre”
à
Simple
Complexe
42
Classification vs Classement

Classification
des données consiste regrouper les
données en classes (non définie à priori) basées sur le
principe conceptuel : maximiser la similarité intra classe
et minimiser la similarité interclasse.

Classement (affecter à un classe pré-définie, Analyse
Discriminante,
Rég.
Logistique)
est
une
méthode
d’apprentissage supervisée, alors que la classification est
une méthode non supervisée.
43
Principe des arbres de décision
Les méthodes de segmentation par
Induction de Règles sont des techniques
statistiques
(CHAID,
CART
et
non
statistiques C5) multivariées et supervisées.
Elles permettent :
d'étudier
plusieurs
variables
simultanément, et, plus précisément, la
relation
entre
une
variable
dite
dépendante (cible) et des variables dites
indépendantes.

Le résultat de la segmentation,
décrit sous la forme d'un arbre dit
arbre de décision:
indique quels sont, parmi les
variables
indépendantes
considérées,
les
meilleurs
prédicteurs de la variable cible, et

affiche les caractéristiques des
groupes définis par ces prédicteurs.

De
partitionner
de
manière
séquentielle, les données en des
groupes (segments), en fonction des
modalités des variables indépendantes
retenues pour leur pouvoir explicatif sur
la variable dépendante.

44
Exemple: Arbre de décision
age : du chef du foyer,
sexe : le sexe du chef du
foyer,
enfant : existence d’enfants,
revenu : revenu du
ménage,
carte : présence de carte
bancaire,
nbpers : # de personne
dans le foyer,
occup : type de profession
I. BERRADA
45
Prédire le risque client par l’arbre
de décision
46
Les individus entre 25 à 35 ans sont tous bons
payeurs lorsqu’ils perçoivent un salaire
mensuel, mais majoritairement des mauvais
payeurs lorsqu’ils perçoivent un salaire
hebdomadaire.
Les individus de
moins de 25 ans
sont en majorité de
mauvais
payeurs
lorsqu’ils
sont
payés à la semaine
et se répartissent
entre
bons
et
mauvais lorsqu’ils
sont
payés
au
mois.
Les individus de plus
de 35 ans sont toujours
des bons payeurs, quel
que soit le mode de
rémunération.
47
I. BERRADA
Pourquoi / quand utiliser les règles
d’Association ?

Exploration Générale


“Ne sait pas exactement ce que je cherche, je
veux juste savoir ce qui va avec quoi”
Pannier de la ménagère

Analyse des transactions commerciales à l’aide
d’un moteur d’associations  grande distribution,

Analyse des mouvements dans les grandes
banques,

Analyse des incidents en assurance

Analyse des associations des pages Web …
48
Exemple de règles d’association

Analyse du panier de la ménagère
Découverte d’associations et de corrélations entre les
articles achetés par clients en analysant les achats
effectués (panier)

Quels items tendent à se retrouver ensemble ?
Une règle est une expression de la forme :
Si condition alors Résultat
La règle Soda & Boucherie => Conserve légumes
si vous avez Soda et Boucherie, vous achèteriez
probablement Conserve légumes
probablement = confiance, Combien de cas = couverture (ou
“support”).

L’indice de confiance = p(conditions et résultat) / p(condition)

L’indice de support = p(condition et résultat)
49
Exemple de calcul des indices de
confiance et du support
50
Application des règles d’association pour
le choix des plans tarifaires par les clients
Le Support correspond au
pourcentage
d'enregistrements
contenus
dans
les
données d'apprentissage
pour
lesquels
les
antécédents sont vrais
(true).
13% des cas vérifient la
règle Forfait maîtrisé 
Forfait plafonné est vraie
avec une confiance de
89,7%
51
Les réseaux de neurones

Simulation des neurones dans le cerveau
humain par apprentissage de règles et
généralisations

Une classe d’outils et d’algorithmes très
puissants pour :
 La prédiction
 La classification
 La segmentation ou Clustering

Ils sont utilisés dans plusieurs domaines :





Prévision des séries temporelles dans les
finances
Diagnostic médical
Identification de segments de clients
potentiels
Détection de fraude
Etc.
52
Qu’est ce qu’un réseau de neurones?
Un réseau de neurone typique présente plusieurs neurones
rangés en couches afin de créer un réseau.
Chaque neurone peut être considéré comme un calculateur
élémentaire à qui l’on attribue une tâche simple et unique.
Les connexions entre neurones donnent au réseau sa capacité à
apprendre des caractéristiques et des relations.
Une représentation
simple d’un réseau de
neurones : Perceptron
53
Exemples de fonctions d’activation
x
Sigmoïde ou logistique : f (x)  e
x
1 e
Tangente hyperbolique : f ( x ) 
2e x
1
1 ex
Linéaire : f ( x)  x
L’unité ou neurone combine ses entrées (valeurs entre 0 et 1) en une seule
valeur, qu’elle transforme après pour produire la sortie (entre 0 et 1). Cette
combinaison et cette transformation sont appelées la fonction d’activation.
Quand
la
fonction
d’activation est linéaire, le
réseau de neurones n’est
autre qu’une régression
linéaire
multiple
avec
comme
entrées
les
variables indépendantes xi
et comme sortie la variable
dépendante y. Les poids wi
ne sont autres que les
coefficients βi du modèle de
régression.
Lorsque
la
fonction
d’activation est logistique,
le réseau de neurones
s’assimile à un modèle de
régression logistique. La
différence avec le modèle
de régression linéaire est
que la variable dépendante
y est binaire (valeurs : 0 ou
1).
Quand la fonction
d’activation
est
la
tangente hyperbolique,
le réseau de neurones
est
un
perceptron
multi-couches (MLP),
variante
la
plus
fréquemment utilisée.
On note ici que le
modèle se complique
avec
la
présence
d’une couche cachée.
54
Mise en œuvre d’un réseau de neurone
rétropropagation

Les étapes pour la mise en œuvre d’un
réseau pour la prédiction ou le classement
sont :

Identification des données en entrée et en sortie
Normalisation des données (entre 0 et 1)
Constitution d’un réseau avec une topologie
adaptée (nb de couches, …)
Apprentissage ou entraînement du réseau
Test du réseau
Application du modèle généré par
l’apprentissage
Dénormalisation des données en sortie







L’entraînement est le processus de choisir
les poids optimaux sur les arêtes
minimisant SEC pour chaque observation:
SEC = ∑ ∑ (données réelles – données en
sorties)²

Utiliser l’ensemble d’apprentissage afin de
calculer les poids et s’approcher le
possible de la sortie.
w nouveau = w encours + ∆ w encours
∆ w encours = - η (∂SEC/∂w encours) + α W antérieur

η : taux d’apprentissage 0<η<1 contrôle
l’importance de la modification des poids.
C’est la vitesse de déplacement : plus il
est élevé, plus l’apprentissage est
rapide mais plus le réseau risque de
converger vers une solution globalement
non optimale.
α Le terme de moment aide à diminuer
les oscillations autour de l’optimum en
encourageant les ajustements à rester
On peut ne pas atteindre l’optimum si α est petit
dans la même direction

55
Forces et faiblesses des
réseaux de neurones
Un RN «apprend itérativement» les patterns dans les données : A chaque itération,
le modèle est testé puis raffiné. Alors que les Analyses Statistiques supposent un
type de modèle pour les données puis testent son adéquation aux données.
Forces

Aptitude à modéliser des structures
complexes et des données irrégulières
 Prise en compte des relations
non linéaires (interactions) entre
les variables.

Assez bonne robustesse aux données
bruitées

Aptitude à modéliser des problèmes
très variés.
Faiblesses

Résultats totalement non explicites

Sensibilité à un trop grand nombre de
variables non discriminantes
(contrairement aux arbres de décision)

Convergence vers la meilleure solution
globale pas toujours assurée

Paramètres nombreux et délicats à régler
(nb et taille des couches cachées, taux
d’apprentissage, moment, etc.)

Ne s’applique naturellement qu’aux
variables continues dans l’intervalle (0,1)
– Nécessité de normaliser les données.
56
Quel modèle retenir?

Plusieurs itérations

Data
Miners
exécutent
plusieurs
modèles
en
utilisant les paramètres par
défault.

Affinent les paramètres ou
reviennent à la phase de
préparation pour effectuer
des transformations requises
par le modèle choisi.
Courbe
ROC
57
En guise de synthèse :
Quels problèmes : Fiche technique
• La Segmentation (clustering)
Rechercher des groupes homogènes dans
une population d’individus
Par exemple, segmenter les comportements
d’achat des clients.
Techniques: K-means, CAH (Classification
Ascendante Hiérarchique), Nuées
Dynamiques, Cartes de Kohonen...
58
Quels problèmes : Fiche technique
• L’Association
Rapprocher les caractéristiques, les
comportements ou les préférences d’un individu
Un exemple particulièrement populaire est celui
de l’analyse du panier de la ménagère
Techniques: Règles d’associations, analyse des
corrélations, analyse des correspondances
(ACM)…
59
Quels problèmes : Fiche technique
• La Classification
Prévoir l’appartenance d’un individu à un groupe donné.
= Expliquer une caractéristique qualitative à partir
d’autres variables qualitatives ou quantitatives
Exemple: Un client donné fera t il parti des
«churners »?
Techniques: Arbres de décisions (CART, ChAID, C4.5,
ID3,..), Analyse Factorielle Discriminante, Régression
Logistique, Réseaux de neurones...
60
Quels problèmes : Fiche technique
• L’ Estimation
Évaluer une caractéristique quantitative d’un individu (taille,
revenu, montant d ’achat,…)
= Expliquer une caractéristique quantitative à partir
d’autres variables qualitatives ou quantitatives
Exemple: Évaluer le montant d’ achat d’un client?
Techniques : Modèles linéaires ou non linéaire, Réseaux
de neurones, GLM, Poursuite de projection en Régression...
61
Projet Data Mining
Coût et Gain
Facteurs Clés de succès et quelques
freins
62
Principaux besoins décisionnels
Systèmes sources
enrichissement
Fiabilisation des données
Interrogation et Reporting
Requête sur des
données de détail
et peu consolidées
Visualisation
Combien de mouvements
chaque client a-t-il
effectué au cours du
dernier mois ?
Data Mining
OLAP
Analyse, détection
de problèmes et
opportunités
Découverte de
tendances cachées,
règles significatives
Analyse
multidimensionnell
e
Connaissance et
prévision
Quelle est l’évolution sur 5
ans du nombre mensuel de
mouvements pour chaque
catégorie de clients ?
Quels clients clôtureront leur
compte au cours des 6
prochains mois ?
63
Déroulement du projet de DM
Selon le modèle CRISP-DM
Principales interactions
avec le Business
 Gestion et Coordination
 Techniques : IT & MRK
 Evaluation et Validation
Source: CRISP-DM 1.0, Step-by-step Data Mining Guide, SPSS Publication
64
Méthodologie Data Mining
Compréhension
de la
problématique
Compréhension
des données
Préparation
des données
Déterminer les
objectifs
Critères de réussite
Collecter les données
Analyse descriptive
Sélectionner des
données
Inclusion/Exclusion
Situation
Ressources
Risques
Couts et bénéfices
attendus
Analyse exploratoire
Nettoyer les données
Vérifier la qualité des
données
Construire de
nouveaux agrégats
Déterminer les
objectifs du DM
Critères de réussite
Planification des
tâches

Reformater les
données
Modélisation
Sélectionner les
techniques de
Modélisation
Supervisé
Non-supervisé
Construire les
modèles
Choix des paramètres
Description des
modèles
Construction des
échantillons
Evaluation
Evaluation des
résultats
Critères de réussite
Choix des modèles
Déploiement
Plan de déploiement
Maintenance du
déploiement
Revoir le process
Production du
Retourner à l‘étape de
rapport final
préparation des données Rapport final
Présentation finale
Déterminer les
prochaines étapes
Liste des actions
possibles
Décision
Clementine propose un support intégré de la
méthodologie CRISP-DM (CRoss Industry Standard
Process for Data Mining, http://www.crisp-dm.org/ ).
65
Répartition de la charge d’étude
83%
66
Facteurs clés de succès d’un projet
décisionnel

Des objectifs précis, stratégiques et réalistes

La qualité et la richesse des informations collectées

Stockage des informations relationnelles sur les clients
(réponses aux sollicitations commerciales; aux enquêtes
de satisfaction, etc.

Collaboration des compétences métiers et statistiques

Maîtrise des techniques de Data Mining utilisées

Bonne restitution des résultats et implication de tous
les partenaires chargés de leur mise en œuvre

L’analyse de retour de chaque action pour la suivante
67
Freins et blocages au
développement d’un Data Mining


Au niveau « Business »

Méconnaissance / crainte / scepticisme

Manque de soutien du Top Management

Engagement de la force de vente

Difficulté à « vulgariser » certains résultats (neurones,…)

Intégration des activités de Data Mining dans l’entreprise
Au niveau des données

Disponibilité

Mise à jour / qualité

Structure / historisation
60% du projet de Data Mining
68
Freins et blocages au
développement du Data Mining


Au niveau des outils

Complexité des logiciels

Spécificités des outils (intégration, fonctionnalités,…)

Coûts liés aux applications de Data Mining
Au niveau des compétences

Absence ou rareté de filière de formation « Marketing
Intelligence »
Profil complexe : Marketing, quantitatif, informatique,…

69
Retour sur investissement

Le RSI est difficile à évaluer :



Les gains proviennent du Data Mining mais aussi d’une
bonne communication, d’un marketing efficace, de
commerciaux motivés
Le RSI vient de :

L’augmentation des taux de réponse des actions marketing

Augmentation de la productivité des commerciaux

Meilleure utilisation des canaux

Fidélisation des clients

Réduction des impayés
On peut tenter de l’estimer avec un échantillon témoin.
70
Exemple de calcul RSI
71
RSI d’un score d’attrition
72
Impact du Data Mining sur le
cycle de vie d’un client
MORE
Acquisition
EFFICIENT
ACQUISITION
+Aquisition
efficiente
MORE
FREQUENT
Plus Fréquent
Vente
de
Produits Prolonger la Relation
Fin de la Relation
UP/CROSS
SELL
UP/CROSS
SELL
& Services
MORE
Plus
dePROFIT
Profit
Encore
Plus profitable
Profit
Profit
PROFIT
REVENU
Coût moindre
coût
TEMPS
73
KDnuggets : Polls : Data Mining (Analytic) Tools (May 2006)
I. BERRADA
74
Téléchargement