25/05/2012 Business Intelligence Prof. Mourad Oubrich Plan de Présentation Définition de la BI Chaine de la valeur de la BI Marché de la BI Métiers de la BI Architecture de la BI Technologie SAP BI Les priorités des DSI pour 2012 1 25/05/2012 Données, Information, Connaissance Harris (1996) : Data => is facts, observations, or perceptions Information => involves manipulation of data Knowledge => is a combination of information, context, and experience. Mack (1995) : Information = data + humain interpretation Durand (1992) : Actes Données Assimiler Information Connaissance Exemple d’illustration 1 C001090824000000001425000 C002071231000000189001250 Données … + Interprétation Solde Date de dernière opération 2 = Information Code Client 3 Fouille de donnée Recherche des comptes Gelés : Tout compte présentant une date de dernière opération qui dépasse 1 an : Le client C002 est gelé (car sa date de DO : 31-12-2007) Interprétation 4 / Évaluation / Décision : Connaissance Recherche des causes du gel (historiques des événement), Génération des messages de relance des clients gelés Domaines d’application de la BI Shipping and Logistics Human Resources Customer Service Budgeting and Planning Forecasting Marketing Sales Finance and Accounting 0% 10% 20% 30% 40% 50% 60% 70% (Gartner Research, 2009) 2 25/05/2012 Platformes BI Mobile Devices Operational Application E-mail Corporate Portal Desktop Application Web Application 0% 10% 20% 30% 40% 50% Vendeurs de solution BI Business Intelligence (BI) ? BI is a broad category of applications, technologies, and processes for gathering, storing, accessing, and analyzing data to help business users make better decisions (Wikipedia) BI is a set of technologies and processes that use data to understand and analyze business performance (Davenport and Harris, 2007). 3 25/05/2012 Source Systems Many possible sources – relational database, ERP, XML, Excel… Many platforms – IBM, Oracle Other issues – which sources to use, granularity, etc. Data Integration Traditionally known as extract, transform, and load – ETL Normally performed using commercial (DataStage, Informatica…) and Open Source software (SAS Data Integration Studio, SQL Integration Service, Pentaho Data Integration, Talend Open Studio…) The data is transformed following business rules 4 25/05/2012 Metadata Is data about the data Can be sourced from many different tools and systems Should be managed in a central directory Table Colonne Type donnée Description Client Id Client Numeric … Client Nom Client Varchar (20) … Produit Id Produit Numeric … Data Quality Garbage in Garbage out Most companies have serious data quality problems Data profiling is the starting point for understanding the problems There are many reasons for “dirty data” Example Data Quality 5 25/05/2012 Example Data Quality Data warehouse Architectures Enterprise data warehouse (Bill Inmon) Data mart bus (Ralph Kimball) BI Tools and Applications SQL queries ETL OLAP reports Excel (PivotTable) Dashboards Data mining 6 25/05/2012 Why BI ? Make more informed business decisions: Customer behavior analysis Marketing segmentation Sales strategies Forecasting Financial management BI Drivers Abundance of data ERP Systems Inexpensive storage Mature data warehouse technologies Powerful and easy to use analytical software Extraction Transformation Loading Data Warehouse 7 25/05/2012 Architecture BI Qualité de donnée The Data Warehousing Institute estimates that data quality problems cost U.S. businesses more than $600 billion a year. Sources de problème de la qualité de donnée 80% Data entry by employees Data entry by customers 60% Changes to your source system Data migration or conversion projects 40% Mixed expectation by users External data 20% Systems errors 0% Source: The Data Warehousing Institute Other 8 25/05/2012 ETL (1/1) Extraction : Consiste à lire et à copier les données sources dans une zone de préparation (staging area) pour les manipulations ultérieures. Transformation : Consiste au nettoyage des données (correction orthographique, résolution de conflits de domaine, traitement des éléments manquants, etc.). Loading : Charger dans le DW des masses de données nettoyées pour une utilisation à des fins décisionnelles. Technologie SQL Server Integration Services (SSIS) SAS® Data Integration Studio Pentaho Data Integration ETL Informatica Talend Open Studio PL/SQL (Manuellement) Datamart Datamart est un sous-ensemble de données et ciblé sur un sujet unique ou un domaine d’activité de l’entreprise. Bases de production Data Marts SGBD relationnel Bases externes Outils d’alimentation Data warehouse “A data warehouse is a subject oriented integrated nonvolatile time variant collection of data in support of management’s decisions.” Subject Oriented Integrated Data Warehouse Non Volatile Time Variant Inmon 1992 27 9 25/05/2012 Données Orientées Sujet Organisées autour de sujets majeurs comme Client, Produit, Ventes, Promotion… Données pour l’analyse et la modélisation en vue de l’aide à la décision, et non pas pour les opérations et transactions journalières Vue synthétique des données selon les sujets intéressant les décideurs Données Intégrées Construit en intégrant des sources de données multiples et hétérogènes BD relationnelles, fichiers, enregistrements de transactions Nettoyage et intégration des données Consistence dans les noms des champs, le codage des données issues de plusieurs sources La conversion se fait quand les donnés sont transférées dans le DW Données historisées L’échelle de temps dans le DW est beaucoup plus longue que dans les BD BD opérationnelle : valeur courante des données DW : information dans une perspective historique (ex: les 5 dernières années) Chaque structure dans le DW contient un élément décrivant le temps 10 25/05/2012 Données Non Volatiles Stockage indépendant des BD opérationnelles Pas de mises à jour des données dans le DW 2 actions sur le DW Alimentation du DW à partir des données des BD opérationnelles Accès (lecture) de ces données Définition OLAP « Il s’agit d’une catégorie de logiciels axés sur l’exploration et l’analyse rapide des données selon une approche multidimensionnelle à plusieurs niveaux d’agrégation » (Caron, 1998) Exploration et analyse rapide : OLAP vise à assister l’usager dans son analyse en lui facilitant l’exploration de ses données et en lui donnant la possibilité de le faire rapidement Rapidité et facilité Avantages OLAP Facilité L’usager n’a pas à maîtriser des langages d’interrogation et des interfaces complexes L’usager interroge directement les données, en interagissant avec celles-ci Rapidité L’usager devient opérationnel en très peu de temps L’usager peut se concentrer sur son analyse et non sur le processus (les moyens utilisés pour l’analyse). 11 25/05/2012 MOLAP (OLAP Multidimensionnel) Les données détaillées de base ainsi que les données agrégées de DW sont stockées dans une base de données multidimensionnelle (souvent appelée cube ou hypercube) Le serveur MOLAP extrait les données de l’hypercube et les présente directement au module client ROLAP (OLAP Relationnel) Les données détaillées de base ainsi que les données agrégées de DW sont stockées sous forme de tables dans une base de données relationnelle La base de données relationnelle doit être structurée selon un modèle particulier (étoile, flocon, …) Le serveur extrait les données par des requêtes SQL et interprète les données selon une vue multidimensionnelle avant de les présenter au module client S e rv e u r R O L A P B ase de données r e la t io n n e lle ( é t o ile o u f lo c o n ) C lie n t O L A P Vue m u lt id im e n s io n n e lle HOLAP (OLAP Hybride) Les données détaillées de base de DW sont stockées dans une base de données relationnelle et les données agrégées sont stockées dans une base de données multidimensionnelle Le serveur HOLAP accède deux bases de données et les présente au module client, selon une vue multidimensionnelle. 12 25/05/2012 SOLAP (Spatial OLAP) SIG + OLAP ? : combiner des technologies spatiales et nonspatiales : SIG et OLAP Quelques logiciels combinant des fonctionnalités SIG et OLAP ont été mis sur le marché : Cognos Visualizer ProClarity MapX AC OLAP Map SOLAP : Une plate-forme visuelle supportant l’exploration et l’analyse spatio-temporelle des données selon une approche multidimensionnelle à plusieurs niveaux d’agrégation via un affichage cartographique, ou en diagramme statistique SOLAP (Spatial OLAP) 3 types de présentation des données : Descriptive Mixte Géométrique Dimension spatiale descriptive Centre Dimension spatiale géométrique Maroc Maroc Sud Dimension spatiale mixte … Nord Casablanca Rabat … Mesure numérique Ventes en $ Composantes OLAP L’architecture OLAP consiste en trois services : Base de données (SQL, Access, Oracle…) Doit supporter les données agrégées ou résumées Doit posséder une structure multidimensionnelle (SGDB multidimensionnel ou relationnel) Serveur OLAP (ex. Designer BO) Gère la structure multidimensionnelle dans le SGBD Gère l’accès aux données de la part des usagers Module client (ex. Desktop Intelligence BO ) : Permet aux usagers de manipuler et d’explorer les données Affiche les données sous forme de graphiques statistiques et de tableaux 13 25/05/2012 OLAP = cubes Un DW est basé sur une modélisation multidimensionnelle qui réprésente les données dans un cube Un cube, ventes par ex, permet de voir les données suivant plusieurs axes d’analyse Axe d’analyse : Article, Promotion,Temps Des mesures : Somme des Ventes par article Modèle dimensionnel : Notion de Cube Un cube est un ensemble de mesures organisées selon un ensemble de dimensions (aussi hypercube). Ex. Un cube de ventes qui comprend : Les dimensions Temps, Produit, Magasin La mesure Ventes en $ Produit Temps Magasin 41 Table de faits (1/1) Un fait représente la valeur d’une mesure, calculée, selon un membre de chacune des dimensions. Ex. « le coût des travaux en 1995 pour la région 02 est 250 000 $ » est un fait qui exprime la valeur de la mesure « coût des travaux » pour le membre « 1995 » du niveau « année » de la dimension « temps » et le membre « 02 » du niveau « région » de la dimension « découpage administratif ». 42 14 25/05/2012 Table de faits (1/2) Date Découpage administratif Id Date Année Mois Jours … Id Région Numéro région …. Suivi des travaux Id Date Id région Coût des travaux Mesures (1/1) Une mesure est un élément de donnée sur lequel portent les analyses, en fonction des différentes dimensions Ex. coût des travaux, nombre d’accidents, ventes, dépenses Les mesures les plus utiles d’une table de faits sont numérique, de valeur continue, et additive. Table de faits des Ventes journalières Clé date (CE) Clé produit (CE) Clé magasin (CE) Quantité vendue Montant des ventes Mesures Mesures (1/3) Additivité : Exemple : CA ; Quantité vendue Semi-additivité : Exemple : Nbre de contacts clients Non-additivité Exemple : Moyen des ventes du mois 15 25/05/2012 Tables de dimension (1/1) Une dimension peut être définie comme un thème, ou un axe, selon lequel les données seront analysées Ex. Produit, Client, Temps… Une dimension contient des membres organisés en hiérarchie, chacun des membres appartenant à un niveau hiérarchique (ou niveau de granularité) particulier. Ex. Pour la dimension Temps, les années, les mois et les jours peuvent être des exemples de niveaux hiérarchiques. 1998 est un exemple de membre du niveau Année 46 Tables de dimension (1/2) Table de dimension produit Clé produit (CP) Description du produit Description de la marque Description de la catégorie Description du rayon Description du type d’emballage Taille de l’emballage Description matière grasses Description type de régime Poids Unités de mesures de poids Types de stockage …et bien d’autres attributs • Des attributs de dimensions nombreux permettent de varier les possibilité d’analyse. • Les meilleurs attributs sont textuelles. Ils doivent être des mots plutôt que des abréviations. La granularité des dimensions 16 25/05/2012 Exemple de granularité des dimensions Exemple DW Dimension produit Clé produit (CP) Description du produit Description de la marque Description de la catégorie …et d’autres attributs Faits de vente journaliers Clé date (CE) Clé produit (CE) Clé magasin (CE) Quantité vendue Montant vente (dh) Dimension magasin Clé magasin (CP) Numéro magasin Nom magasin Adresse magasin Ville du magasin Département du magasin Région du magasin Pays du magasin Continent du magasin … et d’autres attributs Région du Magasin Centre Centre Centre Sud Sud Sud Dimension date Clé date (CP) Date Jour de la semaine Mois Année … et d’autres attributs Description de la Marque Vitpropre Costal Ekla Vitpropre Costal Elka Montant vente 1 233 2 239 848 2 097 2 428 6 33 Quantité Vendue 1 370 2 035 707 2 330 2 207 527 Opérations OLAP Roll up : Analyse ascendante « synthétiser » Vente par Géographie (ville > département > région > pays > continent) Drill down : Analyse descendante «détailler» Vente par Géographie (continent > pays > région > département > ville) Slice and dice : Projection et sélection Selection: Mois 04 Année 2008. Projection (Magasin, Produit) Pivot : Réorienter le cube Vente par Produit (Colonne) et Date (Ligne) Vente par Produit (Ligne) et Date (Colonne) Drill-across : Permet de passer d’une mesure à l’autre ou de passer d’un membre de dimension à un autre Ex. visualiser les Quantité Vendues au lieu du Montant des ventes Ex. visualiser les Ventes de Centre (Rabat ) au lieu de celles de Sud (Marrakech) 17 25/05/2012 Schéma en étoile (Star Schema) Le schéma en étoile se compose de : Objet central, nommé table des faits, qui contient les faits Connecté à un certain nombre d’axe d’analyse ou de dimension, les tables de dimension, qui contiennent les attributs définissant chacun des membres des dimensions. 52 Schéma en étoile Dimension 3 Dimension 1 Temps Product Table de Faits Numbers de faits Dimension 2 Dimension 4 Magasin Promotion 53 Schéma en flocon (Snowflake Schema) Le schéma en flocon est dérivé du schéma en étoile où les tables de dimension sont normalisées. Avec ce schéma, chacune des dimensions est décomposée selon sa ou ses hiérarchie(s) 18 25/05/2012 Schéma en flocon Quarter Season Time Product Sales Numbers Package Promotion Category 55 Schéma en constellation Le schéma en constellation est en fait composé de plusieurs schémas en étoile qui partagent des tables de dimension Schéma en constellation 19 25/05/2012 Data Warehouse Etape 1 : Analyse Choisir le processus d’affaires à modéliser Identifier les besoins Identifier les utilisateurs Identifier les sources de données Choisir le grain du processus d’affaires Identifier la plus petite granularité Choisir les dimensions Identifier les dimensions à historier et leur type Choisir les mesures de la table de faits Identifier les indicateurs Kimball 1998 58 L’offre SAP Business Object Module Nom commercial Description ETL Data Integrator C’est la couche intégration de données de l’offre Business Objects. Elle concerne l’extraction, la transformation et le chargement des données de quelle que soit la source/cible et la fréquence. Issu du rachat de l’ETL Acta. Tableau de bord Xcelsius Xcelsius est un outil de mise en forme et de synthèse de données doté de fonctionnalités avancées permettant de transformer simplement tous types de données en tableau de bord interactif. La restitution des rapports est entièrement en HTML et en flash, donc accessible depuis un navigateur. Produit issu du rachat de Xcelsius. Accès aux données Designer Designer destiné au concepteur d’univers, couche sémantique d’accès aux données d’une base de données, qui évite aux utilisateurs finaux de faire face à la technicité de la structuration de la base. Analyse et Reporting Desktop Intelligence Desktop Intelligence permet d’accéder aux données, de construire des rapports avec diverses mises en forme avant de les diffuser aux utilisateurs. Diffusion en masse Crystal Reports Crystal Reports est un puissant logiciel d'élaboration de rapport dynamique et interactif conçu pour les développeurs. Il permet de concevoir, d'explorer, de visualiser et de diffuser des rapports à partir du Web ou d'intégrer dans des applications d'entreprises. Qualité des données Data Quality Permet de vérifier si la donneés est correcte, consistente et complète par une analyse et profiling des sources de données. Offre issue du rachat de Fuzzy Informatik et FirstLogic Modules Business Object Designer Définition de la couche sémantique (univers) Classes d'objets et objets Conditions prédéfinis Liste de valeurs Objets personnels Jointures relationnelles Desktop Intelligence Accès aux données Analyse multi - dimensionnelle Filtres Rotation des dimensions Exploration Tableaux simples, croisés, graphiques, structure maître/détail Tris, ruptures, filtres, alerteurs, palmarès Combinaison de plusieurs requêtes Accès optimal au SGBD (micro-cube) Sauvegarde en format HTML Exportation des données sous divers formats 20