Les systèmes d'information analytiques PLAN • • Le cycle de decision Les composants analytiques ETL (Extract, Transform and Load) Entrepot de données (Data warehouse) Reporting Traitement analytique en ligne (OLAP) Fouille de données Dr A.R. Baba-ali Maitre de conferences USTHB A.R Baba-ali 1 Exemples de décisions • Décisions opérationnelles – Peut on vendre à un client la quantité demandée ? – Peut on lui faire une remise ? • Décisions tactiques – A quel client peut on proposer ce type de produit ? – Peut on accorder à ce client un prêt d’acquisition de véhicule ? – Quel est le profil des clients fraudeurs, et que faut il faire ? • Décisions stratégiques – Quels sont les segments de clientèles de l’entreprise ? Et quels sont ceux qu’il faut cibler ? – Quels sont les types de nouveaux produits faut il lancer cette année ? – Comment Estimer et prédire les revenus l’année prochaine ? Remarque: ne pas prendre de décision, est la plus mauvaise décision. A.R Baba-ali 3 Exemple A.R Baba-ali 2 Etapes de decision Prise de décision • Etudier les données du passé • Pour comprendre les connaissances du présent Connaissances Données • Pour entreprendre les actions du futur Decisions Passé A.R Baba-ali Futur Présent 5 A.R Baba-ali 6 Les Composants analytiques Cycle de decision autres Planification Analyse source s Bases donnees Operationnelles Connaissances OLAP analysis Extract Transform Load ( ETL ) ENTREPOT Données DATA mining Reporting Données Decisions Acquisition données Historiser A.R Baba-ali 7 Stockage données A.R Baba-ali Acquisition Connaissances Decisions 8 Les Composants analytiques Les Outils ETL autres source s Bases donnees Operationnelles OLAP analysis Extract Transform Load ( ETL ) DATA mining ENTREPOT Données Reporting Acquisition données Stockage données Acquisition Connaissances A.R Baba-ali Decisions 9 A.R Baba-ali 10 Les Composants analytiques Les outils d’extraction autres source s • Fonctions attendues: – Rassembler des données de sources diverses et de formats différents Bases donnees Operationnelles – Unification des représentations OLAP analysis Extract Transform Load ( ETL ) ENTREPOT Données – Transformation de données Reporting – Corrections d ’irrégularités, compléter les données manquantes A.R Baba-ali DATA mining 11 Acquisition données Stockage données A.R Baba-ali Acquisition Connaissances Decisions 12 Bases de données Entrepôt de données Bases de données Entrepôt de données • Représente l’état d’une entreprise • Représente l’archive d’une entreprise • Transactions courtes, isolées • Analyses longues • Données détaillées, et instantanées • Données historisées, résumés temporels • lire et mettre à jour très rapidement quelques données • lire des millions de données, les données sont uniquement ajoutées et jamais supprimées ou modifiées • Données relationnelles • Données multidimensionnelles A.R Baba-ali Définition 14 Définition Cube : • Un ensemble de mesures organisées selon un ensemble de dimensions (aussi hypercube) Exemple. Un cube de ventes qui comprend : Dimension : • Une dimension peut être définie comme un thème, ou un axe (attributs), selon lequel les données seront analysées (en fonction de …) – Ex. Temps, Découpage administratif, Produits • Les dimensions Temps, Produit, Magasin • La mesure Ventes en $ • Une dimension contient des membres organisés en hiérarchie, chacun des membres appartenant à un niveau hiérarchique (ou niveau de granularité) particulier client – Ex. Pour la dimension Temps, les années, les mois et les jours peuvent être des exemples de niveaux hiérarchiques. 1998 est un exemple de membre du niveau Année article Temps A.R Baba-ali 15 A.R Baba-ali 16 Définition Données Multidimentionnelles • Volume des ventes en function des produits, mois, et region Hierarchie des dimensions Re gi on Fait : • Un fait représente la valeur d’une mesure, mesurée ou calculée, selon un membre de chacune des dimensions (ex. ce qui est recueilli par les systèmes transactionnels). Industrie Region Année Categorie Pays Produit Mesure : • Une mesure est un élément de donnée sur lequel portent les analyses, en fonction des différentes dimensions Produit Ville Trimestre Mois Antenne – Ex. coût des travaux, nombre d’accidents, ventes, dépenses A.R Baba-ali Temps 17 A.R Baba-ali 18 Exemple de vues d’un cube Exemple de cube Mesure Dimensions 1trim 2trim 3trim 4trim ∑ U.S.A ∑ Canada Mexico Pays Pr od ui t Date TV PC VCR Somme∑ A.R Baba-ali 19 A.R Baba-ali 20 semaine Jour Les Composants analytiques Le reporting traditionnel autres source s Bases donnees Operationnelles OLAP analysis Extract Transform Load ( ETL ) ENTREPOT Données DATA mining Reporting Acquisition données Stockage données A.R Baba-ali Acquisition Connaissances Decisions 21 Tableaux de bord • Accès facile & convivial – Aux informations • sur l'entreprise • sur son environnement • Destiné aux dirigeants – Construits sur-mesure – Temps réel • Systèmes d’information des dirigeants A.R Baba-ali A.R Baba-ali 22 Exemple d’indicateurs Cliquez pour ajouter un plan 23 A.R Baba-ali 24 Exemples d’ Operations OLAP Les Composants analytiques autres Operationnelles Extract Transform Load ( ETL ) Date • Drill down : DATA mining ENTREPOT Données TV PC VCR 1trim 2trim 3trim 4trim ∑ U.S.A ∑ Canada • Slice : Mexico Reporting • Pivot (rotate): Acquisition données Stockage données Acquisition Connaissances A.R Baba-ali Decisions 25 Slice A.R Baba-ali Somme∑ A.R Baba-ali 26 Rotation (Pivot Table) 27 A.R Baba-ali 28 Pays Bases donnees • Drill-up: OLAP analysis Pr od ui t source s Possibilités de Visualisation avec combinaisons des mesures et des dimensions A.R Baba-ali Possibilités de visualisation (suite) A.R Baba-ali 31 30 Possibilités de visualisation graphiques A.R Baba-ali 32 Visualisation automatique d’exceptions A.R Baba-ali 33 A.R Baba-ali Les Composants analytiques autres source s Bases donnees Operationnelles OLAP analysis Extract Transform Load ( ETL ) ENTREPOT Données DATA mining Reporting Acquisition données Stockage données A.R Baba-ali Acquisition Connaissances Decisions 35 Possibilités de calcul étendues 34 Exemple de données pour le data mining Illustration de données tabulaires et de modèle Decision Attributs Attributs Ou Attribut de classe Code Situation familliale Nombre enfants epargne maison Ancienneté Historique Code Situation familliale Nombre enfants epargne maison Ancienneté Historique 1 M 2 120 000 P 2 remboursé 1 C 0 120 000 P 2 remboursé 2 C 0 20 000 L 1 Non remboursé 2 M 3 20 000 L 1 Non remboursé 3 C 0 450 000 P 12 remboursé 3 C 0 450 000 P 12 remboursé …. … … …. … …. … … …. … … …. Instances Instances classe … …. Data Mining Attributs numériques Modèle Si (Situation=célibataire ) Attributs nominaux A.R Baba-ali et (Epargne >50000) Alors 37 Definition: Modèle prédictif : 38 Exemple de modèle de classification (modèle de réponse) 10 000 mails Réponse : 2.6 % Sexe=femme Sexe=homme 5323 4677 Réponse : 2.1 % Réponse : 3.2 % Classer Preter ou Ne pas preter ? (classe ou nominal) Age Situation familiale Modèle Nombre d’enfants Estimer % Risque ? (numerique) Crédit Oui A.R Baba-ali • Une connaissance qui permet de faire des predictions sur le futur basées sur des données du présent et du passé. Montant epargne Données D’apprentissage Revenu < 30000 Revenu > 45000 Age < 40 30000 <= Revenu <= 45000 Age >= 40 1290 2106 1281 3112 2211 Réponse : 1.7 % Réponse : 3.6 % Réponse : 4.1 % Réponse : 0.7 % Réponse : 4.3 % Modèle : Si ( homme ET revenu> 45K ) OU ( femme ET age>=40 ) A.R Baba-ali 39 A.R avec Baba-ali 40 > 4% ALORS réponse=oui une probabilité de réponse Exemples de Classes • • • • Bon ou mauvais client Client solvable ou non solvable Client fraudeur ou pas Prospect ou client susceptible d’être intéressé par une offre ou pas • Client partant ou pas A.R Baba-ali Segmentation C'est le processus de partitionnement d'une population de clients par exemple, en sous populations homogènes. 41 A.R Baba-ali 42 Segmentation Example de la segmentation age age 10 10 9 9 8 8 7 7 6 6 5 5 4 4 3 Question : Quelles catégories ? Cluster algorithm 3 2 2 1 1 0 0 1 2 3 4 5 6 7 8 9 10 0 0 1 2 3 4 5 6 7 8 taille Le CRM par A.R Baba-ali 9 10 taille 43 Données de départ Données Clusterisées Processus de Clusterisation Le CRM par A.R Baba-ali 44 OLAP vs Data Mining • OLAP (qu’est ce qu’il y a) Fournit une vue de ce qui se passe, mais ne peut pas dire pourquoi cela se passe. • DM (pourquoi, comment dans le futur) Donne des explications (modèles descriptifs) et donne des moyens de prédire (modèles prédictifs) A.R Baba-ali 45