Séminairemai2015

publicité
Séminaire IBM-SPSS
Comment mieux préparer, mieux cibler et mieux prévoir
Présentation de SolutionStat
Juin 2015
Ordre du jour
•
Qui sommes-nous?
•
Gagner du temps à préparer vos données avec SPSS Data
Preparation
•
Mieux segmenter vos marchés avec SPSS Direct Marketing
•
Optimiser vos modèles prédictifs et mieux analyser le panier d’achats
avec SPSS Modeler
•
Questions et discussion
www.SolutionStat.ca
2
Qui sommes-nous?
Notre offre
SolutionStat Inc. offre des services de consultation en statistique et
en analytique prédictive et des services de formation portant sur
l’utilisation de logiciels et divers aspects de l’analyse statistique.
Notre mission
• Exploiter l’extraordinaire potentiel des données.
• Optimiser l’utilisation des outils d’analyse statistique
• Faciliter l’établissement de stratégies analytiques, la prise de
décision et l’atteinte d’objectifs de développement des affaires.
www.SolutionStat.ca
3
Nos experts
Notre équipe est composée de consultants qui possèdent :
• Une formation universitaire en statistique et méthodes quantitatives.
• Plusieurs années d'expérience dans le domaine du forage de
données (« Data mining ») et de l'intelligence d'affaires.
• Une capacité à bien comprendre les besoins des clients, à formuler
ces besoins en un langage quantitatif et à communiquer
efficacement les résultats des analyses.
Nos valeurs
•
•
•
•
www.SolutionStat.ca
Flexibilité
Travail d’équipe
Partage de connaissances
Stabilité
4
Nos services
Consultation statistique
Un aperçu de nos services
• Modèles prédictifs / analyses prédictives
• Segmentation
• Analyse de données de sondage
• Analyse de marché
• Géomarketing
• Analyse du panier d’épicerie
• Gestion et création de sondages en ligne
Nos clients
• Vente au détail
• Banques
• Télécommunications
• Organismes
• Gouvernement
Formations en statistique
Cours et formules
• Utilisation du logiciel SPSS
• Application de méthodes statistiques
• Formations en laboratoire (publiques)
• Formations en entreprise
www.SolutionStat.ca
Clientèle visée
• Entreprises privées
• Organismes gouvernementaux
• Universités
• Centres de recherche
5
Aperçu de nos clients
www.SolutionStat.ca
6
Nos solutions
•
Grâce à des partenariats stratégiques, SolutionStat fournit des
solutions multifonctionnelles pour vos besoins en analytique des
affaires.
www.SolutionStat.ca
7
Nos réalisations
Sondage en ligne et gestion/analyses de données: RONA OPINION
www.SolutionStat.ca
8
IBM-SPSS
IBM propose des outils d’analytique prédictive conviviaux qui
permettent gérer et d’analyser les données afin d’en tirer de
l’information stratégique utile aux décideurs. Parmi les produits
proposés on retrouve :
IBM SPSSMD Statistics
Composé de plusieurs modules, IBM SPSS Statistics permet de
manipuler une base de données, produire des rapports, tester des
hypothèses et faire de la modélisation.
IBM SPSS Modeler
Un puissant ensemble d'utilitaires d'exploration de données
permettant de créer des modèles prédictifs rapidement et
intuitivement sans programmation.
www.SolutionStat.ca
9
IBM SPSS Statistics
Planification
IBM SPSS Complex Samples
IBM SPSS Conjoint
Gestion et préparation
des données
IBM SPSS Data Preparation
IBM SPSS Missing Values
2
1
Analyse de données
3
4
Production de rapports
IBM SPSS Statistics Base
IBM SPSS Advanced Statistics
IBM SPSS Regression
IBM SPSS Categories
IBM SPSS Decision Trees
IBM SPSS Forecasting
IBM SPSS Bootstrapping
IBM SPSS Direct Marketing
IBM SPSS Exact Tests
IBM SPSS Neural Networks
IBM SPSS Custom Tables
www.SolutionStat.ca
10
Forfait SPSS Modeler
SPSS Modeler Gold
Offre à l’organisation la possibilité de construire et déployer des
modèles prédictifs directement dans le processus d’affaire pour
aider le personnel et les systèmes à prendre la bonne décision
en tout temps.
SPSS Modeler Premium
En plus de la grande variété d’algorithmes pour l’analyse
prédictive :
• Text analytics
• Entity analytics
• Social network analysis
SPSS Modeler Professional
Offre une grande variété d’algorithmes pour l’analyse
prédictive.
www.SolutionStat.ca
11
Ordre du jour
 Qui sommes-nous?
• Gagner du temps à préparer vos données avec SPSS
Data Preparation
•
Mieux segmenter vos marchés avec SPSS Direct Marketing
•
Optimiser vos modèles prédictifs et mieux analyser le panier d’achats
avec SPSS Modeler
• Questions et discussion
www.SolutionStat.ca
12
Préparer vos données avec le
module « DATA PREPARATION» de
SPSS Statistics
Module Data Preparation
1. Validation des données
2. Préparation des données pour la modélisation
3. Regroupement optimal des variables en classes
Simplifie la préparation des données
SolutionStat Inc.
SPSS Data Preparation
2
Module Data Preparation
1. Validation des données
2. Préparation des données pour la modélisation
3. Regroupement optimal des variables en classes
Simplifie la préparation des données
SolutionStat Inc.
SPSS Data Preparation
3
Validation des données
•
Repérer rapidement les erreurs dans les données
•
Identifier des valeurs suspectes ou invalides
Exemples :
– un individu âgé de 136 ans
– un homme enceinte
•
Uniformiser la validation d’un projet à l’autre
SolutionStat Inc.
SPSS Data Preparation
4
Validation des données
•
Les outils de validation
Validation de base
Règles de validation
Règles prédéfinies
Règles définies par
l’usager
L’usager peut modifier
les paramètres des
règles
Règles de variable unique
Règles de variables croisées
SolutionStat Inc.
SPSS Data Preparation
5
Validation de base
Les observations dupliquées
Les variables d’identification manquantes
SolutionStat Inc.
SPSS Data Preparation
Les observations vides
6
Validation de base
Les variables avec un grand nombre de valeurs manquantes
Les variables catégorielles pour
lesquelles la majorité des
observations appartiennent à la
même catégorie ou pour lesquelles
on retrouve plusieurs catégories
avec très peu d’observations.
SolutionStat Inc.
SPSS Data Preparation
7
Validation des données
•
Les outils de validation
Validation de base
Règles de validation
Règles prédéfinies
Règles définies par
l’usager
L’usager peut modifier
les paramètres des
règles
Règles de variable unique
Règles de variables croisées
SolutionStat Inc.
SPSS Data Preparation
8
Règles de validation
Étape #1 : Création des règles de validation
• Exemple :
• Nom de la règle : echelle5
• Valeurs permises : 1, 2, 3, 4 et 5
Étape #2 : Appliquer cette règle aux variables appropriées
• Exemple : la règle « echelle5 » est appliquée aux variables question1,
question2 et question3.
SolutionStat Inc.
Question 1
Question 2
Question 3
3
2
0
4
1
3
9
4
3
3
1
2
SPSS Data Preparation
9
Règles de variable unique
•
L’onglet « Single-Variable Rules » permet de
créer, d’afficher et de modifier les règles de
validation de variable unique
SolutionStat Inc.
SPSS Data Preparation
10
Règles de variables croisées
•
L’onglet « Cross-Variable Rules » permet de créer, d’afficher et
de modifier les règles de validation de variables croisées.
Inscrire l’expression logique :
•
(sexe=‘H’) & (grossesse=‘OUI’)
•
(emploi=‘non’) & (salaire>0)
•
exam1 + exam2 + exam3 < note_final
SolutionStat Inc.
SPSS Data Preparation
11
Validation des données
Conclusion :
•
La validation des données est une étape obligatoire qui doit se
faire avant les analyses.
•
Les commandes de validation de données du module « Data
Preparation » permettent de valider plus rapidement les données, ce
qui est un avantage considérable sur de grands fichiers de
données.
•
La validation des données permet d’identifier les anomalies.
L’usager doit ensuite prendre action pour corriger les erreurs :
exclure des observations, exclure des variables, recoder des
variables, imputer des valeurs,…
SolutionStat Inc.
SPSS Data Preparation
12
Module Data Preparation
1. Validation des données
2. Préparation des données pour la modélisation
3. Regroupement optimal des variables en classes
Simplifie la préparation des données
SolutionStat Inc.
SPSS Data Preparation
13
Modèle prédictif
•
Un modèle prédictif est un modèle statistique qui tente d’expliquer un
phénomène Y par une combinaison de facteurs (X1, X2,….Xn).
Facteurs ou Variables
explicatives
Cible ou Variable à expliquer
Variable binaire, catégorielle ou
d’échelle dont le but est
d’expliquer les variations et/ou
de prévoir les valeurs futures.
Variables ordinales, nominales
ou d’échelle qui sont
sélectionnées pour expliquer ou
prévoir un phénomène.
•
Selon la nature de la variable à expliquer (cible) et l’objectif du projet
différentes méthodologies peuvent être considérées :
–
–
–
–
–
Régression linéaire multiple;
Régression logistique;
Régression multinomiale;
Arbres de décision;
Régression de Cox.
SolutionStat Inc.
SPSS Data Preparation
14
Introduction à la modélisation
•
Pour s’assurer de construire un bon modèle, il faut que les données
respectent certaines règles. Par exemple,
– Éviter la présence de valeurs extrêmes;
– Éviter d’inclure des variables ayant des catégories avec peu
d’effectifs;
– Éviter d’inclure des variables avec plusieurs valeurs
manquantes;
– Etc…
• La préparation des données transforment les variables pour
augmenter leurs capacités prédictives.
SolutionStat Inc.
SPSS Data Preparation
15
Introduction à la modélisation
•
La préparation automatique des données (ADP) :
– analyse vos données;
– identifie les corrections;
– supprime les variables problématiques ou inutiles;
– dérive de nouvelles variables si nécessaire;
– améliore les performances grâce à des techniques d’analyse
intelligentes.
•
L’utilisation de l’ADP vous permet de préparer facilement et
rapidement vos données pour la création de modèle, sans qu’il soit
nécessaire de maîtriser les concepts de statistiques utilisés.
SolutionStat Inc.
SPSS Data Preparation
16
Rôle des variables
•
L’utilisation de l’ADP nécessite d’avoir spécifié le rôle de vos
variables au préalable.
None = aucun rôle
Input = facteurs ou variables explicatives
Target = cible ou variable à expliquer
•
L’importance des variables explicatives pour prévoir la
variable cible sera calculée et présentée.
SolutionStat Inc.
SPSS Data Preparation
17
Mise en situation
•
•
Un compagnie d’assurances souhaite construire un modèle pour rechercher
les demandes suspectes et potentiellement frauduleuses.
La compagnie dispose d’informations provenant de demandes précédentes
dans le fichier insurance_claims.sav
CIBLE
SolutionStat Inc.
SPSS Data Preparation
18
Préparation interactive des
données
•
L’algorithme peut être utilisé
en mode interactif ou
automatisé.
Cliquez sur « Analyze » pour
obtenir les analyses sur les
variables transformées.
SolutionStat Inc.
SPSS Data Preparation
19
Préparation interactive des
données
•
Exécutez la commande.
Nouvelles variables
•
Les variables transformées sont ajoutées au fichier de données. Le rôle des
variables a été mis à jour pour considérer que les variables avec une
puissance de prévision intéressante lors de la construction du modèle.
SolutionStat Inc.
SPSS Data Preparation
20
Module Data Preparation
1. Validation des données
2. Préparation des données pour la modélisation
3. Regroupement optimal des variables en classes
Simplifie la préparation des données
SolutionStat Inc.
SPSS Data Preparation
21
Recodage supervisé optimal
•
La procédure de recodage supervisé optimal permet de catégoriser
une variable d’échelle en choisissant les catégories de façon
optimale par rapport à une variable guide catégorielle.
SolutionStat Inc.
SPSS Data Preparation
22
Recodage supervisé optimal
•
La procédure tente de catégoriser la variable d’échelle de sorte que
la nouvelle catégorielle est la puissance prévisionnelle la plus
élevée.
Bin
Taux de
défaut
1
2
3
4
43%
30%
15%
8%
Points de coupure
SolutionStat Inc.
SPSS Data Preparation
23
Recodage supervisé optimal
•
L’entropie est une mesure de
performance sur la capacité de la
nouvelle variable catégorielle à
prévoir la variable guide.
•
Plus l’entropie est petite,
meilleure est la variable.
SolutionStat Inc.
SPSS Data Preparation
24
IBM SPSS Direct Marketing
Mieux segmenter ses marchés
Que peut-on faire avec
Direct Marketing ?
Mieux connaître vos clients
• Développer facilement une
segmentation RFM
Optimiser le résultat de vos
campagnes marketing
• Identifier les clients susceptibles
de répondre à des offres
spécifiques
•
Comparer l’efficacité des
campagnes de publipostage
SolutionStat
2
Développer facilement une
segmentation RFM
• L’analyse RFM a pour but d’identifier les clients qui ont le
plus de chance de répondre à une nouvelle offre selon
leur comportement d’achat historique :
– Facteur de récence (R)
 le client est venu récemment ?
– Facteur de fréquence (F)
 le client vient souvent ?
– Facteur monétaire (M)
 le client dépense beaucoup ?
SolutionStat
3
RFM - Description des facteurs/variables
Importance
du facteur
Variables
Comportement en faveur
d’un nouvel achat
Récence
(R)
Principal
Date de l’achat le plus récent
ou
Intervalle de temps
depuis le dernier achat
A acheté récemment
Fréquence
(F)
Deuxième
Nombre de transactions sur
une période
A acheté souvent dans le
passé
Monétaire
(M)
Troisième
Total des dépenses sur une
période
A dépensé beaucoup
d’argent dans le passé
Facteur
SolutionStat
4
RFM - Base de données par transactions
Base de données organisée par transactions
Plusieurs lignes
par client
SolutionStat
Date de chacune des
transactions (récence
et fréquence)
Valeur de chacune des
transactions (montant)
5
RFM- Fonctionnement de l’analyse
• Les clients obtiennent un score de récence, de
fréquence et monétaire (par défaut entre 1 et 5 dans
SPSS Direct Marketing).
Facteur
1
…
5
Récence (R)
N’a pas acheté récemment
A acheté récemment
Fréquence (F)
Ne vient pas souvent
Vient souvent
Montant (M)
Dépense peu
Dépense beaucoup
SolutionStat
6
RFM - Fonctionnement de l’analyse
La combinaison des valeurs de ces trois facteurs donne le
score RFM. Au total, il y a 125 profils/casiers RFM
différents.
La combinaison 555
caractérise un profil
d’acheteur élevé.
La combinaison 111
caractérise un profil
d’acheteur faible.
SolutionStat
7
Analyse RFM dans Direct Marketing
SolutionStat
8
RFM - Résultats de l’analyse
• L’analyse RFM crée automatiquement une colonne
pour chaque facteur et pour le score RFM.
• De plus, il est possible de
voir la répartition des clients
dans les différents casiers
RFM
SolutionStat
9
Démo RFM
DÉMONSTRATION AVEC IBM SPSS
DIRECT MARKETING
Menu → Direct Marketing
→ Choose Technique
SolutionStat
10
Comment utiliser les résultats
de l’analyse RFM ?
• Segmentation
– Regroupement des catégories
dont les zones thermiques sont
similaires
– Plus les zones sont foncées,
plus le segment est prestigieux
SolutionStat
11
Comment utiliser les résultats
de l’analyse RFM ?
Segments
% Clients/Membres
OR
8%
% Ventes
31%
70%
25%
ARGENT
BRONZE
NOIR
17%
39%
30%
20%
46%
10%
Développez des stratégies pour vos meilleurs clients!
SolutionStat
12
Direct Marketing
En résumé,
• Le module Direct Marketing de SPSS :
Permet de faire la segmentation RFM
rapidement
Remplace plusieurs lignes de syntaxe
L’interface est simple d’utilisation
Permet d’essayer différentes méthodes
• Regroupement indépendant ou imbriqué
SolutionStat
13
Que peut-on faire avec
Direct Marketing ?
Mieux connaître vos clients
• Développer facilement une
segmentation RFM
Optimiser le résultat de vos
campagnes marketing
• Identifier les clients susceptibles
de répondre à des offres
spécifiques
•
Comparer l’efficacité des
campagnes de publipostage
SolutionStat
14
Comparer l’efficacité des
campagnes de publipostage
• On veut comparer différentes campagnes de marketing
afin de déterminer s’il y a une différence statistiquement
significative entre leur taux de réponse respectif.
A
Campagne
B
vs
Clients qui
répondu
SolutionStat
ont
Taux de réponse B > A ?
15
Variables et hypothèses
• Variables
– Campagne : variable qualitative (nominale ou ordinale)
spécifiant par quelle campagne le client a été ciblé.
– Réponse d’efficacité : variable indiquant si le client a
répondu à la campagne.
• Variable nominale : oui/non.
• Variable numérique : montant dépensé ($). Il est considéré
que le client à répondu positivement si ses dépenses sont
supérieures à 0 $.
• Hypothèse : l’attribution client/campagne a été effectuée
aléatoirement.
SolutionStat
16
Exemple de données
• Une compagnie de marketing veut savoir si son nouveau
package a un meilleur taux de réponse que le package
traditionnel (contrôle).
• Elle procède donc a un envoi :
– Un groupe de clients reçoit le package contrôle
– Un groupe de clients reçoit le nouveau package.
La réponse d’efficacité pourrait être
remplacée par le montant dépensé pour la
campagne (dépense > 0$  réponse positive)
Il est possible de comparer plus de deux
campagnes, par exemple campagnes A vs B
vs C.
SolutionStat
17
Sorties de l’analyse
• Le tableau montre le nombre et la proportion de clients
qui ont répondu à leur campagne respective.
• Puisque le but est de comparer le taux de réponse de
chacune des campagnes, le test compare 3,8 % avec
6,2 %.
• S’il y a plus de deux campagnes, chaque paire est
comparée.
SolutionStat
18
Démo efficacité de campagnes
marketing
DÉMONSTRATION AVEC IBM SPSS
DIRECT MARKETING
Menu → Direct Marketing
→ Choose Technique
SolutionStat
19
Ordre du jour
 Qui sommes-nous?
 Gagner du temps à préparer vos données avec SPSS
Data Preparation
 Mieux segmenter vos marchés avec SPSS Direct
Marketing
• Optimiser vos modèles prédictifs et mieux
analyser le panier d’achats avec SPSS Modeler
• Questions et discussion
www.SolutionStat.ca
20
Démonstration du logiciel
IBM SPSS Modeler
Présentation de SolutionStat
Caractéristiques générales de modeler
www.SolutionStat.ca
2
IBM SPSS Modeler
Qu’est que le produit IBM SPSS Modeler offre?
• Plate-forme complète pour l’analyse prédictive
• Gère et déploie des indicateurs de performance dans l'organisation
et transmet des décisions optimisées aux systèmes opérationnels et
aux décideurs.
• Offre une gamme complète d'analyses avancées - l'analyse de
texte, l'analyse des réseaux sociaux et l'optimisation.
www.SolutionStat.ca
3
Stratégie de Data Mining : CRISP-DM
Étapes du CRISP-DM :
• Comprendre le besoin d’affaire
• Comprendre les données
• Préparation des données
• Modélisation
• Évaluation
• Déploiement
www.SolutionStat.ca
4
Qu’est-ce que l’outil Modeler permet
de faire? Quels sont les algorithmes
disponibles?
www.SolutionStat.ca
5
Interface
www.SolutionStat.ca
6
Techniques de modélisation
• Classification et Prediction
• Segmentation
• Association
www.SolutionStat.ca
7
Classification et Prediction
Aide à la prévision d’un résultat :
•
Quels clients va acheter ou quitter?
•
Est-ce que la transaction suit un profil de fraude?
•
Quelle est la quantité d’items à prévoir (inventaire)?
•
Prévoir le nombre de produits achetés.
Techniques
•
Arbres de décision
•
Réseaux de neurones
•
Régression linéaire
•
Régression logistique
•
Séries chronologique
•
Modèles d’apprentissage
•
Modèles “Support Vector”
•
Modèles “Nearest Neighbor”
Segmentation
Aide à classer les observations dans des groupes:
• Identifier des nouveaux profils de fraudes
• Segmenter les consommateurs sur la base de la consommation
Techniques
• Kohonen
• K-Means
• TwoStep
Association
Aide à découvrir des règles d’association:
• Aide à trouver des associations rapidement sur un gros volume de
données
• Analyse du panier d’épicerie
Techniques
• Apriori
• CARMA
• Sequence Model
Exemples – Mise en situation
www.SolutionStat.ca
11
Mise en situation
•
Vous travaillez pour la compagnie ACME (une compagnie fictive qui vend
du matériel de sport via internet et des campagnes postales).
•
Vous avez 2 projets :
– Construire un modèle prédictif pour prévoir la réponse à un envoi
postal.
– Faire une segmentation
•
Information disponible
– Les variables considérées pour le modèle prédictif et la segmentation
seront les éléments du RFM :
• Récence (recency)
• Fréquence (frequency)
• Valeur monétaire (monetary value)
www.SolutionStat.ca
12
SPSS Statistics et SPSS Modeler
www.SolutionStat.ca
13
Différences
Questions
IBM SPSS Statistics
IBM SPSS Modeler
Quel est le but de l’étude?
Modèles prédictifs, production de
tableaux, analyses statistiques
Construire des modèles prédictifs
rapidement
À qui s’adresse le produit?
Analystes quantitatifs,
statisticiens, chercheurs
Analystes d’affaire
Quel type de données sont
utlisées?
Données structurées
Données structurées et non
structurées
Quel type de données peut on
lire?
Excel, fichiers textes, ...
Entrepôt de données
Volume de données?
Petit : moins de 1 millions
Grand : des milliers, des
millions,..
Besoins d’analyse?
Ad-hoc et récurrent
Récurrent (semaine, mois,...)
Comment présenter/utiliser les
résultats?
Rapport (excel et PDF)
Les résultats sont déployés dans
d’autres systèmes.
www.SolutionStat.ca
14
Intégration de modeler et
statistics
•
L’onglet « IBM SPSS Statistics » permet d’accéder dans Modeler aux
fonctionnalités de SPSS Statistics.
•
Permet d’accéder aux commandes de SPSS Statistics par des boîtes de
dialogue ou une syntaxe.
Les résultats sont disponibles dans une fenêtre de résultat (output) à même
le logiciel modeler.
Les fonctionnalités de SPSS Statistics sont disponibles dans Modeler mais
pas l’inverse.
Il faut disposer d’une licence IBM SPSS Statistics.
•
•
•
www.SolutionStat.ca
15
L’analyse du panier d’épicerie
www.SolutionStat.ca
16
Market Basket analysis
•
•
•
En data mining, on utilise la technique des règles d’association pour
déterminer les éléments qui se retrouvent ensembles.
L’analyse du panier d’épicerie (« market basket analysis ») est un
terme plus spécifique au commerce aux détails. Cette analyse utilise
les règles d’association.
Dans une épicerie, les règles d’association décrivent les produits qui
se retrouvent dans le même panier.
Beurre
d’arachides
www.solutionstat.ca
Pain en
tranches
Produits concomitants
17
Market basket analysis
•
Définitions
– Transactions : achats fait par un seul client.
– Items : produits achetés.
– Règle d’association : énoncé de la forme (item A)  (item B).
• Item A = produit à analyser (antecedent)
• Item B = produit associé (consequent)
•
Règle d’association :
– On choisira d’étudier des règles d’association permettant d’en apprendre
davantage sur le comportement des clients. Les résultats de l’analyse
devront être utiles et pratiques.
– On choisira un niveau de granularité. On peut étudier l’association entre des
ensembles de produits : ceux qui achètent des céréales achètent aussi du
lait. Ou l’association entre des produits plus précis : ceux qui achètent du
vin rouge bon marché achètent des cubes de bœuf pour ragoût.
www.solutionstat.ca
Produits concomitants
18
Market basket analysis
•
La force d’association sera mesurée par :
– Support de la règle : probabilité d’acheter le produit A et le produit B.
Nombre de transactions contenant les produits A et B
Nombre total de transactions
– Confiance : probabilité d’acheter le produit B étant donné que le produit
A a été acheté.
Nombre de transactions contenant les produits A et B
Nombre de transactions contenant le produit A
Règle
Support de la règle
Confiance
AB
25%
59%
AC
5%
33%
www.solutionstat.ca
Produits concomitants
19
Market basket analysis
•
Calcul du lift :
– Le lift est une bonne mesure de performance de la règle d’association.
– Le lift est la confiance de la règle divisée par la valeur espérée de la
confiance.
– Pour la règle d’association A  B, le calcul de la valeur espérée de la
confiance est le suivant :
Nombre de transactions contenant le produit B
Nombre total de transactions
Règle
Support de
la règle
Confiance
Confiance
espérée
Lift
AB
25%
59%
42.5%
1.31
AC
5%
33%
45%
0.74
www.solutionstat.ca
Produits concomitants
20
Market basket analysis
•
Interprétation du lift
– Un lift supérieur à 1 :
• Indique une corrélation positive;
• Parmi les paniers contenant le produit A, on retrouve plus souvent le
produit B que dans l’ensemble des paniers.
– Un lift de 1 indique une corrélation nulle;
– Un lift inférieur à 1
• Indique une corrélation négative;
• Dans cette situation, la règle négative aura plus d’intérêt : A  non B.
Règle
Support
Confiance
Confiance
espérée
Lift
AB
25%
0.59
42.5%
1.31
AC
5%
0.33
45%
0.74
www.solutionstat.ca
Produits concomitants
21
Market basket analysis
•
Les règles étudiées peuvent être composées de plusieurs items
Item A , item B et item C
Antécédents
(Antecedent)
•
Item D
Conséquence
(Consequent)
Attention aux règles trop complexes : la meilleure règle est celle
qu’on peut interpréter et appliquer.
www.SolutionStat.ca
22
Algorithme
•
Trois algorithmes permettant d’étudier les règles d’association sont
disponibles dans Modeler :
– Apriori
– Carma
– Sequence
www.SolutionStat.ca
23
Remerciements
•
Nous voulons remercier nos partenaires pour leur participation dans
l’organisation de ce séminaire.
Questions?
www.SolutionStat.ca
24
Nous joindre
SolutionStat Consultation et formation en statistique inc.
10905, boul. Henri-Bourassa Est
Montréal (Québec)
H1C 1H1
Courriel: [email protected]
•
Jean-François Allaire, associé
Téléphone: (514) 648-8461, poste 625
Courriel : [email protected]
•
Julie Meloche
Téléphone: (514) 648-8461, poste 629
Courriel : [email protected]
www.SolutionStat.ca
25
Téléchargement