Business Intelligence

publicité
25/05/2012
Business Intelligence
Prof. Mourad Oubrich
Plan de Présentation
Définition de la BI
Chaine de la valeur de la BI
Marché de la BI
Métiers de la BI
Architecture de la BI
Technologie SAP BI
Les priorités des DSI pour 2012
1
25/05/2012
Données, Information, Connaissance
Harris (1996) :
Data => is facts, observations, or perceptions
Information => involves manipulation of data
Knowledge => is a combination of information, context,
and experience.
Mack (1995) :
Information = data + humain interpretation
Durand (1992) :
Actes
Données
Assimiler
Information
Connaissance
Exemple d’illustration
1
C001090824000000001425000
C002071231000000189001250
Données
…
+
Interprétation
Solde
Date de dernière opération
2
=
Information
Code Client
3
Fouille de donnée
Recherche des comptes Gelés : Tout compte présentant une date de dernière opération qui
dépasse 1 an : Le client C002 est gelé (car sa date de DO : 31-12-2007)
Interprétation 4 / Évaluation / Décision : Connaissance
Recherche des causes du gel (historiques des événement),
Génération des messages de relance des clients gelés
Domaines d’application de la BI
Shipping and Logistics
Human Resources
Customer Service
Budgeting and Planning
Forecasting
Marketing
Sales
Finance and Accounting
0%
10% 20% 30% 40% 50% 60% 70%
(Gartner Research, 2009)
2
25/05/2012
Platformes BI
Mobile Devices
Operational Application
E-mail
Corporate Portal
Desktop Application
Web Application
0%
10%
20%
30%
40%
50%
Vendeurs de solution BI
Business Intelligence (BI) ?
BI is a broad category of applications, technologies, and
processes for gathering, storing, accessing, and analyzing
data to help business users make better decisions
(Wikipedia)
BI is a set of technologies and processes that use data to
understand and analyze business performance (Davenport
and Harris, 2007).
3
25/05/2012
Source Systems
Many possible sources – relational database, ERP, XML,
Excel…
Many platforms – IBM, Oracle
Other issues – which sources to use, granularity, etc.
Data Integration
Traditionally known as extract, transform, and load – ETL
Normally performed using commercial (DataStage,
Informatica…) and Open Source software (SAS Data
Integration Studio, SQL Integration Service, Pentaho Data
Integration, Talend Open Studio…)
The data is transformed following business rules
4
25/05/2012
Metadata
Is data about the data
Can be sourced from many different tools and systems
Should be managed in a central directory
Table
Colonne
Type donnée
Description
Client
Id Client
Numeric
…
Client
Nom Client
Varchar (20)
…
Produit
Id Produit
Numeric
…
Data Quality
Garbage in Garbage out
Most companies have serious data quality problems
Data profiling is the starting point for understanding
the problems
There are many reasons for “dirty data”
Example Data Quality
5
25/05/2012
Example Data Quality
Data warehouse Architectures
Enterprise data warehouse (Bill Inmon)
Data mart bus (Ralph Kimball)
BI Tools and Applications
SQL queries
ETL
OLAP reports
Excel (PivotTable)
Dashboards
Data mining
6
25/05/2012
Why BI ?
Make more informed business decisions:
Customer behavior analysis
Marketing segmentation
Sales strategies
Forecasting
Financial management
BI Drivers
Abundance of data
ERP Systems
Inexpensive storage
Mature data warehouse technologies
Powerful and easy to use analytical software
Extraction Transformation
Loading
Data Warehouse
7
25/05/2012
Architecture BI
Qualité de donnée
The Data Warehousing Institute
estimates that data quality problems
cost U.S. businesses more than
$600 billion a year.
Sources de problème de la qualité de donnée
80%
Data entry by employees
Data entry by customers
60%
Changes to your source system
Data migration or conversion projects
40%
Mixed expectation by users
External data
20%
Systems errors
0%
Source: The Data Warehousing Institute
Other
8
25/05/2012
ETL (1/1)
Extraction : Consiste à lire et à copier les données sources dans
une zone de préparation (staging area) pour les manipulations
ultérieures.
Transformation : Consiste au nettoyage des données (correction
orthographique, résolution de conflits de domaine, traitement des
éléments manquants, etc.).
Loading : Charger dans le DW des masses de données nettoyées
pour une utilisation à des fins décisionnelles.
Technologie
SQL Server Integration Services (SSIS)
SAS® Data Integration Studio
Pentaho Data Integration
ETL Informatica
Talend Open Studio
PL/SQL (Manuellement)
Datamart
Datamart est un sous-ensemble de données et ciblé sur un
sujet unique ou un domaine d’activité de l’entreprise.
Bases de
production
Data Marts
SGBD
relationnel
Bases externes
Outils
d’alimentation
Data warehouse
“A data warehouse is a
subject oriented
integrated
nonvolatile
time variant
collection of data in
support of management’s
decisions.”
Subject
Oriented
Integrated
Data
Warehouse
Non Volatile
Time Variant
Inmon 1992
27
9
25/05/2012
Données Orientées Sujet
Organisées autour de sujets majeurs comme Client, Produit,
Ventes, Promotion…
Données pour l’analyse et la modélisation en vue de l’aide à la
décision, et non pas pour les opérations et transactions
journalières
Vue synthétique des données selon les sujets intéressant les
décideurs
Données Intégrées
Construit en intégrant des sources de données
multiples et hétérogènes
BD relationnelles, fichiers, enregistrements de transactions
Nettoyage et intégration des données
Consistence dans les noms des champs, le codage des
données issues de plusieurs sources
La conversion se fait quand les donnés sont transférées
dans le DW
Données historisées
L’échelle de temps dans le DW est beaucoup plus
longue que dans les BD
BD opérationnelle : valeur courante des données
DW : information dans une perspective historique (ex: les 5
dernières années)
Chaque structure dans le DW contient un élément
décrivant le temps
10
25/05/2012
Données Non Volatiles
Stockage indépendant des BD opérationnelles
Pas de mises à jour des données dans le DW
2 actions sur le DW
Alimentation du DW à partir des données des BD opérationnelles
Accès (lecture) de ces données
Définition OLAP
« Il s’agit d’une catégorie de logiciels axés sur
l’exploration et l’analyse rapide des données selon une
approche multidimensionnelle à plusieurs niveaux
d’agrégation » (Caron, 1998)
Exploration et analyse rapide :
OLAP vise à assister l’usager dans son analyse en lui
facilitant l’exploration de ses données et en lui
donnant la possibilité de le faire rapidement
Rapidité et facilité
Avantages OLAP
Facilité
L’usager n’a pas à maîtriser des langages d’interrogation
et des interfaces complexes
L’usager interroge directement les données, en
interagissant avec celles-ci
Rapidité
L’usager devient opérationnel en très peu de temps
L’usager peut se concentrer sur son analyse et non sur le
processus (les moyens utilisés pour l’analyse).
11
25/05/2012
MOLAP (OLAP Multidimensionnel)
Les données détaillées de base ainsi que les données
agrégées de DW sont stockées dans une base de données
multidimensionnelle (souvent appelée cube ou hypercube)
Le serveur MOLAP extrait les données de l’hypercube et les
présente directement au module client
ROLAP (OLAP Relationnel)
Les données détaillées de base ainsi que les données agrégées
de DW sont stockées sous forme de tables dans une base de
données relationnelle
La base de données relationnelle doit être structurée selon un
modèle particulier (étoile, flocon, …)
Le serveur extrait les données par des requêtes SQL et
interprète les données selon une vue multidimensionnelle
avant de les présenter au module client
S e rv e u r R O L A P
B ase de données
r e la t io n n e lle
( é t o ile o u f lo c o n )
C lie n t O L A P
Vue
m u lt id im e n s io n n e lle
HOLAP (OLAP Hybride)
Les données détaillées de base de DW sont stockées dans une
base de données relationnelle et les données agrégées sont
stockées dans une base de données multidimensionnelle
Le serveur HOLAP accède deux bases de données et les
présente au module client, selon une vue multidimensionnelle.
12
25/05/2012
SOLAP (Spatial OLAP)
SIG + OLAP ? : combiner des technologies spatiales et nonspatiales : SIG et OLAP
Quelques logiciels combinant des fonctionnalités SIG et OLAP
ont été mis sur le marché :
Cognos Visualizer
ProClarity MapX
AC OLAP Map
SOLAP : Une plate-forme visuelle supportant l’exploration et
l’analyse spatio-temporelle des données selon une approche
multidimensionnelle à plusieurs niveaux d’agrégation via un
affichage cartographique, ou en diagramme statistique
SOLAP (Spatial OLAP)
3 types de présentation des données :
Descriptive
Mixte
Géométrique
Dimension spatiale
descriptive
Centre
Dimension spatiale
géométrique
Maroc
Maroc
Sud
Dimension spatiale
mixte
…
Nord
Casablanca Rabat
…
Mesure numérique
Ventes en $
Composantes OLAP
L’architecture OLAP consiste en trois services :
Base de données (SQL, Access, Oracle…)
Doit supporter les données agrégées ou résumées
Doit posséder une structure multidimensionnelle (SGDB
multidimensionnel ou relationnel)
Serveur OLAP (ex. Designer BO)
Gère la structure multidimensionnelle dans le SGBD
Gère l’accès aux données de la part des usagers
Module client (ex. Desktop Intelligence BO ) :
Permet aux usagers de manipuler et d’explorer les données
Affiche les données sous forme de graphiques statistiques et
de tableaux
13
25/05/2012
OLAP = cubes
Un DW est basé sur une modélisation multidimensionnelle
qui réprésente les données dans un cube
Un cube, ventes par ex, permet de voir les données suivant
plusieurs axes d’analyse
Axe d’analyse : Article, Promotion,Temps
Des mesures : Somme des Ventes par article
Modèle dimensionnel : Notion de Cube
Un cube est un ensemble de mesures organisées selon un
ensemble de dimensions (aussi hypercube).
Ex. Un cube de ventes qui comprend :
Les dimensions Temps, Produit, Magasin
La mesure Ventes en $
Produit
Temps
Magasin
41
Table de faits (1/1)
Un fait représente la valeur d’une mesure, calculée, selon
un membre de chacune des dimensions.
Ex. « le coût des travaux en 1995 pour la région 02
est 250 000 $ » est un fait qui exprime la valeur de la
mesure « coût des travaux » pour le membre « 1995 »
du niveau « année » de la dimension « temps » et le
membre « 02 » du niveau « région » de la dimension «
découpage administratif ».
42
14
25/05/2012
Table de faits (1/2)
Date
Découpage
administratif
Id Date
Année
Mois
Jours
…
Id Région
Numéro région
….
Suivi des travaux
Id Date
Id région
Coût des travaux
Mesures (1/1)
Une mesure est un élément de donnée sur lequel
portent les analyses, en fonction des différentes
dimensions
Ex. coût des travaux, nombre d’accidents, ventes, dépenses
Les mesures les plus utiles d’une table de faits sont
numérique, de valeur continue, et additive.
Table de faits des Ventes
journalières
Clé date (CE)
Clé produit (CE)
Clé magasin (CE)
Quantité vendue
Montant des ventes
Mesures
Mesures (1/3)
Additivité :
Exemple : CA ; Quantité vendue
Semi-additivité :
Exemple : Nbre de contacts clients
Non-additivité
Exemple : Moyen des ventes du mois
15
25/05/2012
Tables de dimension (1/1)
Une dimension peut être définie comme un thème, ou
un axe, selon lequel les données seront analysées
Ex. Produit, Client, Temps…
Une dimension contient des membres organisés en
hiérarchie, chacun des membres appartenant à un
niveau hiérarchique (ou niveau de granularité)
particulier.
Ex. Pour la dimension Temps, les années, les mois et les
jours peuvent être des exemples de niveaux hiérarchiques.
1998 est un exemple de membre du niveau Année
46
Tables de dimension (1/2)
Table de dimension produit
Clé produit (CP)
Description du produit
Description de la marque
Description de la catégorie
Description du rayon
Description du type d’emballage
Taille de l’emballage
Description matière grasses
Description type de régime
Poids
Unités de mesures de poids
Types de stockage
…et bien d’autres attributs
• Des attributs de dimensions nombreux permettent
de varier les possibilité d’analyse.
• Les meilleurs attributs sont textuelles. Ils doivent
être des mots plutôt que des abréviations.
La granularité des dimensions
16
25/05/2012
Exemple de granularité des dimensions
Exemple DW
Dimension produit
Clé produit (CP)
Description du produit
Description de la marque
Description de la catégorie
…et d’autres attributs
Faits de vente journaliers
Clé date (CE)
Clé produit (CE)
Clé magasin (CE)
Quantité vendue
Montant vente (dh)
Dimension magasin
Clé magasin (CP)
Numéro magasin
Nom magasin
Adresse magasin
Ville du magasin
Département du magasin
Région du magasin
Pays du magasin
Continent du magasin
… et d’autres attributs
Région du
Magasin
Centre
Centre
Centre
Sud
Sud
Sud
Dimension date
Clé date (CP)
Date
Jour de la semaine
Mois
Année
… et d’autres attributs
Description
de la Marque
Vitpropre
Costal
Ekla
Vitpropre
Costal
Elka
Montant
vente
1 233
2 239
848
2 097
2 428
6 33
Quantité
Vendue
1 370
2 035
707
2 330
2 207
527
Opérations OLAP
Roll up : Analyse ascendante « synthétiser »
Vente par Géographie (ville > département > région > pays > continent)
Drill down : Analyse descendante «détailler»
Vente par Géographie (continent > pays > région > département > ville)
Slice and dice : Projection et sélection
Selection: Mois 04 Année 2008. Projection (Magasin, Produit)
Pivot : Réorienter le cube
Vente par Produit (Colonne) et Date (Ligne)
Vente par Produit (Ligne) et Date (Colonne)
Drill-across : Permet de passer d’une mesure à l’autre ou de passer d’un
membre de dimension à un autre
Ex. visualiser les Quantité Vendues au lieu du Montant des ventes
Ex. visualiser les Ventes de Centre (Rabat ) au lieu de celles de Sud (Marrakech)
17
25/05/2012
Schéma en étoile (Star Schema)
Le schéma en étoile se compose de :
Objet central, nommé table des faits, qui contient les faits
Connecté à un certain nombre d’axe d’analyse ou de
dimension, les tables de dimension, qui contiennent les
attributs définissant chacun des membres des dimensions.
52
Schéma en étoile
Dimension 3
Dimension 1
Temps
Product
Table de Faits
Numbers de faits
Dimension 2
Dimension 4
Magasin
Promotion
53
Schéma en flocon
(Snowflake Schema)
Le schéma en flocon est dérivé du schéma en étoile où
les tables de dimension sont normalisées.
Avec ce schéma, chacune des dimensions est
décomposée selon sa ou ses hiérarchie(s)
18
25/05/2012
Schéma en flocon
Quarter
Season
Time
Product
Sales Numbers
Package
Promotion
Category
55
Schéma en constellation
Le schéma en constellation est en fait composé de
plusieurs schémas en étoile qui partagent des tables
de dimension
Schéma en constellation
19
25/05/2012
Data Warehouse
Etape 1 : Analyse
Choisir le processus d’affaires à modéliser
Identifier les besoins
Identifier les utilisateurs
Identifier les sources de données
Choisir le grain du processus d’affaires
Identifier la plus petite granularité
Choisir les dimensions
Identifier les dimensions à historier et leur type
Choisir les mesures de la table de faits
Identifier les indicateurs
Kimball 1998
58
L’offre SAP Business Object
Module
Nom
commercial
Description
ETL
Data Integrator
C’est la couche intégration de données de l’offre Business Objects.
Elle concerne l’extraction, la transformation et le chargement des
données de quelle que soit la source/cible et la fréquence. Issu du
rachat de l’ETL Acta.
Tableau de bord
Xcelsius
Xcelsius est un outil de mise en forme et de synthèse de données
doté de fonctionnalités avancées permettant de transformer
simplement tous types de données en tableau de bord interactif. La
restitution des rapports est entièrement en HTML et en flash, donc
accessible depuis un navigateur. Produit issu du rachat de Xcelsius.
Accès aux
données
Designer
Designer destiné au concepteur d’univers, couche sémantique d’accès
aux données d’une base de données, qui évite aux utilisateurs finaux
de faire face à la technicité de la structuration de la base.
Analyse et
Reporting
Desktop
Intelligence
Desktop Intelligence permet d’accéder aux données, de construire
des rapports avec diverses mises en forme avant de les diffuser aux
utilisateurs.
Diffusion en
masse
Crystal Reports
Crystal Reports est un puissant logiciel d'élaboration de rapport
dynamique et interactif conçu pour les développeurs. Il permet de
concevoir, d'explorer, de visualiser et de diffuser des rapports à partir
du Web ou d'intégrer dans des applications d'entreprises.
Qualité des
données
Data Quality
Permet de vérifier si la donneés est correcte, consistente et complète
par une analyse et profiling des sources de données. Offre issue du
rachat de Fuzzy Informatik et FirstLogic
Modules Business Object
Designer
Définition de la couche
sémantique (univers)
Classes d'objets et objets
Conditions prédéfinis
Liste de valeurs
Objets personnels
Jointures relationnelles
Desktop Intelligence
Accès aux données
Analyse multi - dimensionnelle
Filtres
Rotation des dimensions
Exploration
Tableaux simples, croisés, graphiques,
structure maître/détail
Tris, ruptures, filtres, alerteurs, palmarès
Combinaison de plusieurs requêtes
Accès optimal au SGBD (micro-cube)
Sauvegarde en format HTML
Exportation des données sous divers formats
20
Téléchargement