Séminaire IBM-SPSS Comment mieux préparer, mieux cibler et mieux prévoir Présentation de SolutionStat Juin 2015 Ordre du jour • Qui sommes-nous? • Gagner du temps à préparer vos données avec SPSS Data Preparation • Mieux segmenter vos marchés avec SPSS Direct Marketing • Optimiser vos modèles prédictifs et mieux analyser le panier d’achats avec SPSS Modeler • Questions et discussion www.SolutionStat.ca 2 Qui sommes-nous? Notre offre SolutionStat Inc. offre des services de consultation en statistique et en analytique prédictive et des services de formation portant sur l’utilisation de logiciels et divers aspects de l’analyse statistique. Notre mission • Exploiter l’extraordinaire potentiel des données. • Optimiser l’utilisation des outils d’analyse statistique • Faciliter l’établissement de stratégies analytiques, la prise de décision et l’atteinte d’objectifs de développement des affaires. www.SolutionStat.ca 3 Nos experts Notre équipe est composée de consultants qui possèdent : • Une formation universitaire en statistique et méthodes quantitatives. • Plusieurs années d'expérience dans le domaine du forage de données (« Data mining ») et de l'intelligence d'affaires. • Une capacité à bien comprendre les besoins des clients, à formuler ces besoins en un langage quantitatif et à communiquer efficacement les résultats des analyses. Nos valeurs • • • • www.SolutionStat.ca Flexibilité Travail d’équipe Partage de connaissances Stabilité 4 Nos services Consultation statistique Un aperçu de nos services • Modèles prédictifs / analyses prédictives • Segmentation • Analyse de données de sondage • Analyse de marché • Géomarketing • Analyse du panier d’épicerie • Gestion et création de sondages en ligne Nos clients • Vente au détail • Banques • Télécommunications • Organismes • Gouvernement Formations en statistique Cours et formules • Utilisation du logiciel SPSS • Application de méthodes statistiques • Formations en laboratoire (publiques) • Formations en entreprise www.SolutionStat.ca Clientèle visée • Entreprises privées • Organismes gouvernementaux • Universités • Centres de recherche 5 Aperçu de nos clients www.SolutionStat.ca 6 Nos solutions • Grâce à des partenariats stratégiques, SolutionStat fournit des solutions multifonctionnelles pour vos besoins en analytique des affaires. www.SolutionStat.ca 7 Nos réalisations Sondage en ligne et gestion/analyses de données: RONA OPINION www.SolutionStat.ca 8 IBM-SPSS IBM propose des outils d’analytique prédictive conviviaux qui permettent gérer et d’analyser les données afin d’en tirer de l’information stratégique utile aux décideurs. Parmi les produits proposés on retrouve : IBM SPSSMD Statistics Composé de plusieurs modules, IBM SPSS Statistics permet de manipuler une base de données, produire des rapports, tester des hypothèses et faire de la modélisation. IBM SPSS Modeler Un puissant ensemble d'utilitaires d'exploration de données permettant de créer des modèles prédictifs rapidement et intuitivement sans programmation. www.SolutionStat.ca 9 IBM SPSS Statistics Planification IBM SPSS Complex Samples IBM SPSS Conjoint Gestion et préparation des données IBM SPSS Data Preparation IBM SPSS Missing Values 2 1 Analyse de données 3 4 Production de rapports IBM SPSS Statistics Base IBM SPSS Advanced Statistics IBM SPSS Regression IBM SPSS Categories IBM SPSS Decision Trees IBM SPSS Forecasting IBM SPSS Bootstrapping IBM SPSS Direct Marketing IBM SPSS Exact Tests IBM SPSS Neural Networks IBM SPSS Custom Tables www.SolutionStat.ca 10 Forfait SPSS Modeler SPSS Modeler Gold Offre à l’organisation la possibilité de construire et déployer des modèles prédictifs directement dans le processus d’affaire pour aider le personnel et les systèmes à prendre la bonne décision en tout temps. SPSS Modeler Premium En plus de la grande variété d’algorithmes pour l’analyse prédictive : • Text analytics • Entity analytics • Social network analysis SPSS Modeler Professional Offre une grande variété d’algorithmes pour l’analyse prédictive. www.SolutionStat.ca 11 Ordre du jour Qui sommes-nous? • Gagner du temps à préparer vos données avec SPSS Data Preparation • Mieux segmenter vos marchés avec SPSS Direct Marketing • Optimiser vos modèles prédictifs et mieux analyser le panier d’achats avec SPSS Modeler • Questions et discussion www.SolutionStat.ca 12 Préparer vos données avec le module « DATA PREPARATION» de SPSS Statistics Module Data Preparation 1. Validation des données 2. Préparation des données pour la modélisation 3. Regroupement optimal des variables en classes Simplifie la préparation des données SolutionStat Inc. SPSS Data Preparation 2 Module Data Preparation 1. Validation des données 2. Préparation des données pour la modélisation 3. Regroupement optimal des variables en classes Simplifie la préparation des données SolutionStat Inc. SPSS Data Preparation 3 Validation des données • Repérer rapidement les erreurs dans les données • Identifier des valeurs suspectes ou invalides Exemples : – un individu âgé de 136 ans – un homme enceinte • Uniformiser la validation d’un projet à l’autre SolutionStat Inc. SPSS Data Preparation 4 Validation des données • Les outils de validation Validation de base Règles de validation Règles prédéfinies Règles définies par l’usager L’usager peut modifier les paramètres des règles Règles de variable unique Règles de variables croisées SolutionStat Inc. SPSS Data Preparation 5 Validation de base Les observations dupliquées Les variables d’identification manquantes SolutionStat Inc. SPSS Data Preparation Les observations vides 6 Validation de base Les variables avec un grand nombre de valeurs manquantes Les variables catégorielles pour lesquelles la majorité des observations appartiennent à la même catégorie ou pour lesquelles on retrouve plusieurs catégories avec très peu d’observations. SolutionStat Inc. SPSS Data Preparation 7 Validation des données • Les outils de validation Validation de base Règles de validation Règles prédéfinies Règles définies par l’usager L’usager peut modifier les paramètres des règles Règles de variable unique Règles de variables croisées SolutionStat Inc. SPSS Data Preparation 8 Règles de validation Étape #1 : Création des règles de validation • Exemple : • Nom de la règle : echelle5 • Valeurs permises : 1, 2, 3, 4 et 5 Étape #2 : Appliquer cette règle aux variables appropriées • Exemple : la règle « echelle5 » est appliquée aux variables question1, question2 et question3. SolutionStat Inc. Question 1 Question 2 Question 3 3 2 0 4 1 3 9 4 3 3 1 2 SPSS Data Preparation 9 Règles de variable unique • L’onglet « Single-Variable Rules » permet de créer, d’afficher et de modifier les règles de validation de variable unique SolutionStat Inc. SPSS Data Preparation 10 Règles de variables croisées • L’onglet « Cross-Variable Rules » permet de créer, d’afficher et de modifier les règles de validation de variables croisées. Inscrire l’expression logique : • (sexe=‘H’) & (grossesse=‘OUI’) • (emploi=‘non’) & (salaire>0) • exam1 + exam2 + exam3 < note_final SolutionStat Inc. SPSS Data Preparation 11 Validation des données Conclusion : • La validation des données est une étape obligatoire qui doit se faire avant les analyses. • Les commandes de validation de données du module « Data Preparation » permettent de valider plus rapidement les données, ce qui est un avantage considérable sur de grands fichiers de données. • La validation des données permet d’identifier les anomalies. L’usager doit ensuite prendre action pour corriger les erreurs : exclure des observations, exclure des variables, recoder des variables, imputer des valeurs,… SolutionStat Inc. SPSS Data Preparation 12 Module Data Preparation 1. Validation des données 2. Préparation des données pour la modélisation 3. Regroupement optimal des variables en classes Simplifie la préparation des données SolutionStat Inc. SPSS Data Preparation 13 Modèle prédictif • Un modèle prédictif est un modèle statistique qui tente d’expliquer un phénomène Y par une combinaison de facteurs (X1, X2,….Xn). Facteurs ou Variables explicatives Cible ou Variable à expliquer Variable binaire, catégorielle ou d’échelle dont le but est d’expliquer les variations et/ou de prévoir les valeurs futures. Variables ordinales, nominales ou d’échelle qui sont sélectionnées pour expliquer ou prévoir un phénomène. • Selon la nature de la variable à expliquer (cible) et l’objectif du projet différentes méthodologies peuvent être considérées : – – – – – Régression linéaire multiple; Régression logistique; Régression multinomiale; Arbres de décision; Régression de Cox. SolutionStat Inc. SPSS Data Preparation 14 Introduction à la modélisation • Pour s’assurer de construire un bon modèle, il faut que les données respectent certaines règles. Par exemple, – Éviter la présence de valeurs extrêmes; – Éviter d’inclure des variables ayant des catégories avec peu d’effectifs; – Éviter d’inclure des variables avec plusieurs valeurs manquantes; – Etc… • La préparation des données transforment les variables pour augmenter leurs capacités prédictives. SolutionStat Inc. SPSS Data Preparation 15 Introduction à la modélisation • La préparation automatique des données (ADP) : – analyse vos données; – identifie les corrections; – supprime les variables problématiques ou inutiles; – dérive de nouvelles variables si nécessaire; – améliore les performances grâce à des techniques d’analyse intelligentes. • L’utilisation de l’ADP vous permet de préparer facilement et rapidement vos données pour la création de modèle, sans qu’il soit nécessaire de maîtriser les concepts de statistiques utilisés. SolutionStat Inc. SPSS Data Preparation 16 Rôle des variables • L’utilisation de l’ADP nécessite d’avoir spécifié le rôle de vos variables au préalable. None = aucun rôle Input = facteurs ou variables explicatives Target = cible ou variable à expliquer • L’importance des variables explicatives pour prévoir la variable cible sera calculée et présentée. SolutionStat Inc. SPSS Data Preparation 17 Mise en situation • • Un compagnie d’assurances souhaite construire un modèle pour rechercher les demandes suspectes et potentiellement frauduleuses. La compagnie dispose d’informations provenant de demandes précédentes dans le fichier insurance_claims.sav CIBLE SolutionStat Inc. SPSS Data Preparation 18 Préparation interactive des données • L’algorithme peut être utilisé en mode interactif ou automatisé. Cliquez sur « Analyze » pour obtenir les analyses sur les variables transformées. SolutionStat Inc. SPSS Data Preparation 19 Préparation interactive des données • Exécutez la commande. Nouvelles variables • Les variables transformées sont ajoutées au fichier de données. Le rôle des variables a été mis à jour pour considérer que les variables avec une puissance de prévision intéressante lors de la construction du modèle. SolutionStat Inc. SPSS Data Preparation 20 Module Data Preparation 1. Validation des données 2. Préparation des données pour la modélisation 3. Regroupement optimal des variables en classes Simplifie la préparation des données SolutionStat Inc. SPSS Data Preparation 21 Recodage supervisé optimal • La procédure de recodage supervisé optimal permet de catégoriser une variable d’échelle en choisissant les catégories de façon optimale par rapport à une variable guide catégorielle. SolutionStat Inc. SPSS Data Preparation 22 Recodage supervisé optimal • La procédure tente de catégoriser la variable d’échelle de sorte que la nouvelle catégorielle est la puissance prévisionnelle la plus élevée. Bin Taux de défaut 1 2 3 4 43% 30% 15% 8% Points de coupure SolutionStat Inc. SPSS Data Preparation 23 Recodage supervisé optimal • L’entropie est une mesure de performance sur la capacité de la nouvelle variable catégorielle à prévoir la variable guide. • Plus l’entropie est petite, meilleure est la variable. SolutionStat Inc. SPSS Data Preparation 24 IBM SPSS Direct Marketing Mieux segmenter ses marchés Que peut-on faire avec Direct Marketing ? Mieux connaître vos clients • Développer facilement une segmentation RFM Optimiser le résultat de vos campagnes marketing • Identifier les clients susceptibles de répondre à des offres spécifiques • Comparer l’efficacité des campagnes de publipostage SolutionStat 2 Développer facilement une segmentation RFM • L’analyse RFM a pour but d’identifier les clients qui ont le plus de chance de répondre à une nouvelle offre selon leur comportement d’achat historique : – Facteur de récence (R) le client est venu récemment ? – Facteur de fréquence (F) le client vient souvent ? – Facteur monétaire (M) le client dépense beaucoup ? SolutionStat 3 RFM - Description des facteurs/variables Importance du facteur Variables Comportement en faveur d’un nouvel achat Récence (R) Principal Date de l’achat le plus récent ou Intervalle de temps depuis le dernier achat A acheté récemment Fréquence (F) Deuxième Nombre de transactions sur une période A acheté souvent dans le passé Monétaire (M) Troisième Total des dépenses sur une période A dépensé beaucoup d’argent dans le passé Facteur SolutionStat 4 RFM - Base de données par transactions Base de données organisée par transactions Plusieurs lignes par client SolutionStat Date de chacune des transactions (récence et fréquence) Valeur de chacune des transactions (montant) 5 RFM- Fonctionnement de l’analyse • Les clients obtiennent un score de récence, de fréquence et monétaire (par défaut entre 1 et 5 dans SPSS Direct Marketing). Facteur 1 … 5 Récence (R) N’a pas acheté récemment A acheté récemment Fréquence (F) Ne vient pas souvent Vient souvent Montant (M) Dépense peu Dépense beaucoup SolutionStat 6 RFM - Fonctionnement de l’analyse La combinaison des valeurs de ces trois facteurs donne le score RFM. Au total, il y a 125 profils/casiers RFM différents. La combinaison 555 caractérise un profil d’acheteur élevé. La combinaison 111 caractérise un profil d’acheteur faible. SolutionStat 7 Analyse RFM dans Direct Marketing SolutionStat 8 RFM - Résultats de l’analyse • L’analyse RFM crée automatiquement une colonne pour chaque facteur et pour le score RFM. • De plus, il est possible de voir la répartition des clients dans les différents casiers RFM SolutionStat 9 Démo RFM DÉMONSTRATION AVEC IBM SPSS DIRECT MARKETING Menu → Direct Marketing → Choose Technique SolutionStat 10 Comment utiliser les résultats de l’analyse RFM ? • Segmentation – Regroupement des catégories dont les zones thermiques sont similaires – Plus les zones sont foncées, plus le segment est prestigieux SolutionStat 11 Comment utiliser les résultats de l’analyse RFM ? Segments % Clients/Membres OR 8% % Ventes 31% 70% 25% ARGENT BRONZE NOIR 17% 39% 30% 20% 46% 10% Développez des stratégies pour vos meilleurs clients! SolutionStat 12 Direct Marketing En résumé, • Le module Direct Marketing de SPSS : Permet de faire la segmentation RFM rapidement Remplace plusieurs lignes de syntaxe L’interface est simple d’utilisation Permet d’essayer différentes méthodes • Regroupement indépendant ou imbriqué SolutionStat 13 Que peut-on faire avec Direct Marketing ? Mieux connaître vos clients • Développer facilement une segmentation RFM Optimiser le résultat de vos campagnes marketing • Identifier les clients susceptibles de répondre à des offres spécifiques • Comparer l’efficacité des campagnes de publipostage SolutionStat 14 Comparer l’efficacité des campagnes de publipostage • On veut comparer différentes campagnes de marketing afin de déterminer s’il y a une différence statistiquement significative entre leur taux de réponse respectif. A Campagne B vs Clients qui répondu SolutionStat ont Taux de réponse B > A ? 15 Variables et hypothèses • Variables – Campagne : variable qualitative (nominale ou ordinale) spécifiant par quelle campagne le client a été ciblé. – Réponse d’efficacité : variable indiquant si le client a répondu à la campagne. • Variable nominale : oui/non. • Variable numérique : montant dépensé ($). Il est considéré que le client à répondu positivement si ses dépenses sont supérieures à 0 $. • Hypothèse : l’attribution client/campagne a été effectuée aléatoirement. SolutionStat 16 Exemple de données • Une compagnie de marketing veut savoir si son nouveau package a un meilleur taux de réponse que le package traditionnel (contrôle). • Elle procède donc a un envoi : – Un groupe de clients reçoit le package contrôle – Un groupe de clients reçoit le nouveau package. La réponse d’efficacité pourrait être remplacée par le montant dépensé pour la campagne (dépense > 0$ réponse positive) Il est possible de comparer plus de deux campagnes, par exemple campagnes A vs B vs C. SolutionStat 17 Sorties de l’analyse • Le tableau montre le nombre et la proportion de clients qui ont répondu à leur campagne respective. • Puisque le but est de comparer le taux de réponse de chacune des campagnes, le test compare 3,8 % avec 6,2 %. • S’il y a plus de deux campagnes, chaque paire est comparée. SolutionStat 18 Démo efficacité de campagnes marketing DÉMONSTRATION AVEC IBM SPSS DIRECT MARKETING Menu → Direct Marketing → Choose Technique SolutionStat 19 Ordre du jour Qui sommes-nous? Gagner du temps à préparer vos données avec SPSS Data Preparation Mieux segmenter vos marchés avec SPSS Direct Marketing • Optimiser vos modèles prédictifs et mieux analyser le panier d’achats avec SPSS Modeler • Questions et discussion www.SolutionStat.ca 20 Démonstration du logiciel IBM SPSS Modeler Présentation de SolutionStat Caractéristiques générales de modeler www.SolutionStat.ca 2 IBM SPSS Modeler Qu’est que le produit IBM SPSS Modeler offre? • Plate-forme complète pour l’analyse prédictive • Gère et déploie des indicateurs de performance dans l'organisation et transmet des décisions optimisées aux systèmes opérationnels et aux décideurs. • Offre une gamme complète d'analyses avancées - l'analyse de texte, l'analyse des réseaux sociaux et l'optimisation. www.SolutionStat.ca 3 Stratégie de Data Mining : CRISP-DM Étapes du CRISP-DM : • Comprendre le besoin d’affaire • Comprendre les données • Préparation des données • Modélisation • Évaluation • Déploiement www.SolutionStat.ca 4 Qu’est-ce que l’outil Modeler permet de faire? Quels sont les algorithmes disponibles? www.SolutionStat.ca 5 Interface www.SolutionStat.ca 6 Techniques de modélisation • Classification et Prediction • Segmentation • Association www.SolutionStat.ca 7 Classification et Prediction Aide à la prévision d’un résultat : • Quels clients va acheter ou quitter? • Est-ce que la transaction suit un profil de fraude? • Quelle est la quantité d’items à prévoir (inventaire)? • Prévoir le nombre de produits achetés. Techniques • Arbres de décision • Réseaux de neurones • Régression linéaire • Régression logistique • Séries chronologique • Modèles d’apprentissage • Modèles “Support Vector” • Modèles “Nearest Neighbor” Segmentation Aide à classer les observations dans des groupes: • Identifier des nouveaux profils de fraudes • Segmenter les consommateurs sur la base de la consommation Techniques • Kohonen • K-Means • TwoStep Association Aide à découvrir des règles d’association: • Aide à trouver des associations rapidement sur un gros volume de données • Analyse du panier d’épicerie Techniques • Apriori • CARMA • Sequence Model Exemples – Mise en situation www.SolutionStat.ca 11 Mise en situation • Vous travaillez pour la compagnie ACME (une compagnie fictive qui vend du matériel de sport via internet et des campagnes postales). • Vous avez 2 projets : – Construire un modèle prédictif pour prévoir la réponse à un envoi postal. – Faire une segmentation • Information disponible – Les variables considérées pour le modèle prédictif et la segmentation seront les éléments du RFM : • Récence (recency) • Fréquence (frequency) • Valeur monétaire (monetary value) www.SolutionStat.ca 12 SPSS Statistics et SPSS Modeler www.SolutionStat.ca 13 Différences Questions IBM SPSS Statistics IBM SPSS Modeler Quel est le but de l’étude? Modèles prédictifs, production de tableaux, analyses statistiques Construire des modèles prédictifs rapidement À qui s’adresse le produit? Analystes quantitatifs, statisticiens, chercheurs Analystes d’affaire Quel type de données sont utlisées? Données structurées Données structurées et non structurées Quel type de données peut on lire? Excel, fichiers textes, ... Entrepôt de données Volume de données? Petit : moins de 1 millions Grand : des milliers, des millions,.. Besoins d’analyse? Ad-hoc et récurrent Récurrent (semaine, mois,...) Comment présenter/utiliser les résultats? Rapport (excel et PDF) Les résultats sont déployés dans d’autres systèmes. www.SolutionStat.ca 14 Intégration de modeler et statistics • L’onglet « IBM SPSS Statistics » permet d’accéder dans Modeler aux fonctionnalités de SPSS Statistics. • Permet d’accéder aux commandes de SPSS Statistics par des boîtes de dialogue ou une syntaxe. Les résultats sont disponibles dans une fenêtre de résultat (output) à même le logiciel modeler. Les fonctionnalités de SPSS Statistics sont disponibles dans Modeler mais pas l’inverse. Il faut disposer d’une licence IBM SPSS Statistics. • • • www.SolutionStat.ca 15 L’analyse du panier d’épicerie www.SolutionStat.ca 16 Market Basket analysis • • • En data mining, on utilise la technique des règles d’association pour déterminer les éléments qui se retrouvent ensembles. L’analyse du panier d’épicerie (« market basket analysis ») est un terme plus spécifique au commerce aux détails. Cette analyse utilise les règles d’association. Dans une épicerie, les règles d’association décrivent les produits qui se retrouvent dans le même panier. Beurre d’arachides www.solutionstat.ca Pain en tranches Produits concomitants 17 Market basket analysis • Définitions – Transactions : achats fait par un seul client. – Items : produits achetés. – Règle d’association : énoncé de la forme (item A) (item B). • Item A = produit à analyser (antecedent) • Item B = produit associé (consequent) • Règle d’association : – On choisira d’étudier des règles d’association permettant d’en apprendre davantage sur le comportement des clients. Les résultats de l’analyse devront être utiles et pratiques. – On choisira un niveau de granularité. On peut étudier l’association entre des ensembles de produits : ceux qui achètent des céréales achètent aussi du lait. Ou l’association entre des produits plus précis : ceux qui achètent du vin rouge bon marché achètent des cubes de bœuf pour ragoût. www.solutionstat.ca Produits concomitants 18 Market basket analysis • La force d’association sera mesurée par : – Support de la règle : probabilité d’acheter le produit A et le produit B. Nombre de transactions contenant les produits A et B Nombre total de transactions – Confiance : probabilité d’acheter le produit B étant donné que le produit A a été acheté. Nombre de transactions contenant les produits A et B Nombre de transactions contenant le produit A Règle Support de la règle Confiance AB 25% 59% AC 5% 33% www.solutionstat.ca Produits concomitants 19 Market basket analysis • Calcul du lift : – Le lift est une bonne mesure de performance de la règle d’association. – Le lift est la confiance de la règle divisée par la valeur espérée de la confiance. – Pour la règle d’association A B, le calcul de la valeur espérée de la confiance est le suivant : Nombre de transactions contenant le produit B Nombre total de transactions Règle Support de la règle Confiance Confiance espérée Lift AB 25% 59% 42.5% 1.31 AC 5% 33% 45% 0.74 www.solutionstat.ca Produits concomitants 20 Market basket analysis • Interprétation du lift – Un lift supérieur à 1 : • Indique une corrélation positive; • Parmi les paniers contenant le produit A, on retrouve plus souvent le produit B que dans l’ensemble des paniers. – Un lift de 1 indique une corrélation nulle; – Un lift inférieur à 1 • Indique une corrélation négative; • Dans cette situation, la règle négative aura plus d’intérêt : A non B. Règle Support Confiance Confiance espérée Lift AB 25% 0.59 42.5% 1.31 AC 5% 0.33 45% 0.74 www.solutionstat.ca Produits concomitants 21 Market basket analysis • Les règles étudiées peuvent être composées de plusieurs items Item A , item B et item C Antécédents (Antecedent) • Item D Conséquence (Consequent) Attention aux règles trop complexes : la meilleure règle est celle qu’on peut interpréter et appliquer. www.SolutionStat.ca 22 Algorithme • Trois algorithmes permettant d’étudier les règles d’association sont disponibles dans Modeler : – Apriori – Carma – Sequence www.SolutionStat.ca 23 Remerciements • Nous voulons remercier nos partenaires pour leur participation dans l’organisation de ce séminaire. Questions? www.SolutionStat.ca 24 Nous joindre SolutionStat Consultation et formation en statistique inc. 10905, boul. Henri-Bourassa Est Montréal (Québec) H1C 1H1 Courriel: [email protected] • Jean-François Allaire, associé Téléphone: (514) 648-8461, poste 625 Courriel : [email protected] • Julie Meloche Téléphone: (514) 648-8461, poste 629 Courriel : [email protected] www.SolutionStat.ca 25