Les Data WareHouse - LITIS

publicité
Introduction
Motivations
Mettre en œuvre un Data Warehouse
Modèles de représentation
Les Data WareHouse
Claude Duvallet
Université du Havre
UFR Sciences et Techniques
25 rue Philippe Lebon - BP 540
76058 LE HAVRE CEDEX
[email protected]
http://litis.univ-lehavre.fr/∼duvallet/
Claude Duvallet — 1/37
Les Data WareHouse
Introduction
Motivations
Mettre en œuvre un Data Warehouse
Modèles de représentation
Plan du cours
Introduction et définition
Pourquoi un Data Warehouse ?
Mettre en œuvre un Data Warehouse
Modélisation et implémentation
Conclusion
Claude Duvallet — 2/37
Les Data WareHouse
Introduction
Motivations
Mettre en œuvre un Data Warehouse
Modèles de représentation
Introduction et contexte
En français : les entrepôts de données.
En anglais : les Data Warehouse.
Définition d’un entrepôt de données selon Inmon (1992) :
L’entrepôt de données (ED) est une collection de données
thématiques, intégrées, non volatiles et historisées, organisées
pour le support d’un processus d’aide à la décision.
Principe :
Base de Données utilisée à des fins d’analyse.
Caractéristiques :
orientation sujets (« métiers »),
données intégrées,
données non volatiles,
données datées.
Claude Duvallet — 3/37
Les Data WareHouse
Introduction
Motivations
Mettre en œuvre un Data Warehouse
Modèles de représentation
Caractéristiques des données d’un entrepôt de données
Orientées sujet : un ED rassemble et organise des données
associées aux différentes structures fonctionnelles de
l’entreprise, pertinentes pour un sujet ou thème et nécessaire aux
besoins d’analyse.
Intégrées : les données résultent de l’intégration de données
provenant de différentes sources pouvant être hétérogènes.
Historisées : les données d’un ED représentent l’activité d’une
entreprise durant une certaine période (plusieurs années)
permettant d’analyser les variations d’une donnée dans le temps.
Non-volatiles : les données de l’ED sont essentiellement
utilisées en interrogation (consultation) et ne peuvent pas être
modifiées (sauf certains cas de rafraîchissement).
Claude Duvallet — 4/37
Les Data WareHouse
Introduction
Motivations
Mettre en œuvre un Data Warehouse
Modèles de représentation
Data Warehouse : définition
Entrepôt de données :
Ensemble de données
historisées variant dans le temps,
organisées par sujets,
consolidées dans une base de données unique,
gérées dans un environnement de stockage particulier,
aidant à la prise de décision dans l’entreprise.
Trois fonctions essentielles :
Collecter des données de bases existantes et les charger,
Gérer des données dans l’entrepôt,
Analyser les données en de la prise de décision.
Magasin de données (Data Mart) :
C’est un sous-ensemble de l’entrepôt de données qui contient les
données pour un secteur particulier de l’entreprise.
Exemple : un département, une direction, un service, une gamme
de produit,...
Claude Duvallet — 5/37
Les Data WareHouse
Introduction
Motivations
Mettre en œuvre un Data Warehouse
Modèles de représentation
Caractéristiques des magasins de données
Ils contiennent une portion du contenu d’un entrepôt de données.
Ils se focalisent sur un seul sujet d’analyse tel que, par exemple,
les ventes de produits ou leur livraison mais pas les deux.
Ils servent à faire des analyses simples et concentrées.
Le nombre de sources est limité et provient la plupart du temps
d’un même département.
L’extraction et le transfert de données rudimentaires sont souvent
fait par transfert de fichiers ou par du code propriétaire.
Le même processus de conception que les entrepôts de données
est utilisé mais il nécessite moins de ressources.
Claude Duvallet — 6/37
Les Data WareHouse
Introduction
Motivations
Mettre en œuvre un Data Warehouse
Modèles de représentation
Comptoirs des données opérationnelles (1)
En anglais : Operational Data Store.
Caractéristiques :
Ils intègrent et consolident des données de sources hétérogènes
dans le but de faciliter certaines opérations de l’entreprise.
Ils peuvent servir de sources à des systèmes opérationnels ou un
entrepôt de données.
Utilisations :
Ils servent à régler des règles d’affaires complexes impliquant des
données de plusieurs sources.
Ils permettent d’analyser des données consolidées quasiment en
temps réel.
Ils simplifient le processus ETL (Extraction, Transformation et
Chargement) d’un entrepôt de données.
Claude Duvallet — 7/37
Les Data WareHouse
Introduction
Motivations
Mettre en œuvre un Data Warehouse
Modèles de représentation
Comptoirs des données opérationnelles (2)
Comptoirs des données versus Entrepôts de données :
Ils contiennent rarement des données historiques.
Ils mettent à jour les données au lieu de les ajouter.
Ils effectuent les changements presque instantanément au lieu de
les faire en lots.
Ils ne remplacent pas les entrepôts de données.
Exemples d’applications :
Dans le domaine Bancaire, on peut valider en temps réel la
solvabilité d’un client demandant un prêt bancaire, lorsque les
comptes, les placements, et les dossiers de gestions de risques
sont gérés par des applications différentes.
Dans le domaine des Télécommunications, on peut suggérer un
nouveau forfait à un client, en se basant sur des statistiques
récentes d’utilisation.
Claude Duvallet — 8/37
Les Data WareHouse
Introduction
Motivations
Mettre en œuvre un Data Warehouse
Modèles de représentation
Les méta-données (1)
Définitions :
Ce sont des informations qui définissent et décrivent les
structures, opérations et le contenu du système d’informatique
décisionnelle.
Il existe trois types de méta-données : technique, d’affaire et de
processus.
Méta-données techniques :
ETL (Extract-Transform-Load) : ce sont les sources et les cibles
pour les transferts de données, les transformations, les règles
d’affaires, etc.
Stockage : Ce sont les tables, les champs, les types, les indexes,
les partitions, les dimensions, etc.
Présentation : Ce sont les modèles de données, les rapports, les
privilèges d’accès, etc.
Claude Duvallet — 9/37
Les Data WareHouse
Introduction
Motivations
Mettre en œuvre un Data Warehouse
Modèles de représentation
Les méta-données (2)
Méta-données d’affaires :
Elles décrivent le contenu de l’entrepôt de données dans des
termes compréhensibles par les utilisateurs d’affaires.
Exemples : les descripteurs des tables et des champs.
Méta-données de processus :
Elles décrivent le résultats de diverses opérations du système
d’informatique décisionnelle.
Exemple : Les logs "ETL" (début, fin, écritures disques, ...), les
statistiques sur les requêtes, etc.
Les méta-données permettent :
de découpler la dépendance entre la technologie et son utilisation.
de contrôler l’état et la performance de la solution reposant sur le
système d’informatique décisionnelle.
de fournir de la documentation pour le système.
de déterminer l’impact d’un changement.
⇒ Dans l’idéal, il faudrait avoir un seul répertoire pour les
méta-données, partagé toutes les composantes de l’ED.
Claude Duvallet — 10/37
Les Data WareHouse
Introduction
Motivations
Mettre en œuvre un Data Warehouse
Modèles de représentation
Définitions
Data Mining : Fouille de données
Le forage de données a pour but de mettre en évidence des
corrélations éventuelles dans un volume important de données
afin de dégager des tendances.
OLAP : On-Line Analytical Processing
Le but de l’OLAP est de permettre une analyse
multidimensionnelle sur des bases de données volumineuses afin
de mettre en évidence une analyse particulière des données
(Cubes OLAP).
Claude Duvallet — 11/37
Les Data WareHouse
Introduction
Motivations
Mettre en œuvre un Data Warehouse
Modèles de représentation
Motivations des entreprises
Besoin des entreprises :
accéder à toutes les données de l’entreprise.
regrouper les informations disséminées.
analyser et prendre des décisions rapidement (OLAP).
Exemples d’applications concernées :
Grande distribution : marketing, maintenance, ...
produits à succès, modes, habitudes d’achat.
préférences par secteurs géographiques.
Bancaire : suivi des clients, gestion de portefeuilles
mailing ciblés pour le marketing.
Télécommunications : pannes, fraudes, mobiles, ...
classification des clients, détection fraudes, fuites de clients.
Claude Duvallet — 12/37
Les Data WareHouse
Introduction
Motivations
Mettre en œuvre un Data Warehouse
Modèles de représentation
Les bénéfices (1)
Une meilleur capacité d’analyse :
Il est possible de découvrir ainsi des tendances cachées.
On possède une vue d’ensemble.
On peut prendre de meilleures décisions.
Une augmentation de la productivité des employés :
On peut générer des rapports au niveau des usagers.
On a une meilleure synthèse de l’information et un temps
d’extraction réduit.
On utilise une définition commune des données.
Une diminution des coûts :
Il y a moins de rapports Ad Hoc pour les technologies de
l’information.
Il y a donc aussi une baisse du coût d’accès à l’information.
Claude Duvallet — 13/37
Les Data WareHouse
Introduction
Motivations
Mettre en œuvre un Data Warehouse
Modèles de représentation
Les bénéfices (2)
Une augmentation des revenus :
De l’information non disponible via le ERP est désormais
disponible.
Il existe une meilleure communication entre les services.
Il existe de meilleures analyses du marché et donc, des décisions
stratégiques peuvent être prises.
L’intégration des données sur une plateforme unique.
L’accent est mis sur le client :
Les données concernant les clients sont disponibles et
accessibles par tout le monde.
Il est possible d’effectuer des ventes croisées.
Claude Duvallet — 14/37
Les Data WareHouse
Introduction
Motivations
Mettre en œuvre un Data Warehouse
Modèles de représentation
Concevoir le Data Warehouse
Export de données des sources :
Hétérogènes et variées.
Fichiers, BD patrimoniales, Web,...
Définition des vues exportées.
Définition d’un schéma global :
Il intègre les données utiles.
Il s’appuie sur le modèle relationnel.
Nécessité d’une gestion des méta-données pour :
la description des sources,
la description des vues exportées,
la description du schéma global.
Claude Duvallet — 15/37
Les Data WareHouse
Introduction
Motivations
Mettre en œuvre un Data Warehouse
Modèles de représentation
Acquisition des données
Trois étapes :
Déterminer et recenser les données à entreposer : recherche des
données dans les sources de données de l’entreprise
Nettoyage des données :
conversions de données,
filtrages,
intégration
Alimentation :
Incrémental ou total,
Hors ligne ou en ligne,
Fréquence de chargement : chaque nuit, 1/mois...
Détermination de la taille de l’historique (5 ans, 10 ans...).
Réalisée généralement par des outils dédiés (e.g. Powermart, Info
Suite...)
Claude Duvallet — 16/37
Les Data WareHouse
Introduction
Motivations
Mettre en œuvre un Data Warehouse
Modèles de représentation
Nettoyage et stockage des données
Nettoyage des données :
Il s’agit par exemple d’uniformiser les unités de mesures utilisées
dans différentes données.
Il aussi s’agit d’uniformiser les formats de dates.
On peut aussi agréger des données présentes dans plusieurs
bases de données afin de réduire la redondance des données.
Choix de l’implémentation :
MOLAP,
ROLAP,
HOLAP.
Implémentation du modèle en étoile et/ou des cubes et/ou des
vues matérialisées.
Définition des indexes.
Stockage des données.
Claude Duvallet — 17/37
Les Data WareHouse
Introduction
Motivations
Mettre en œuvre un Data Warehouse
Modèles de représentation
Restitution des données
C’est le but du processus d’entreposage des données.
Elle conditionne souvent le choix de l’architecture du DW et de sa
construction.
Elle doit permettre toutes les analyses nécessaires pour la
construction des indicateurs recherchés.
Les outils de restitution des données :
Les requêteurs et les outils d’analyse.
Les outils de data mining.
Exemples : Cognos PowerPlay, Impromptu (rapports), DBminer
(Data Mining).
Claude Duvallet — 18/37
Les Data WareHouse
Introduction
Motivations
Mettre en œuvre un Data Warehouse
Modèles de représentation
Les concepts d’un entrepôt de données
Claude Duvallet — 19/37
Les Data WareHouse
Introduction
Motivations
Mettre en œuvre un Data Warehouse
Modèles de représentation
Les obstacles
Les coûts d’implantation :
Technologie onéreuse.
Les coûts cachés (matériel, logiciels, prestations de consultant,
maintenance, mise à jour, administration, ...)
Les forces contradictoires : les méta-données sont tiraillés dans
des sens opposés entre les aspects intégration, consistance et
uniformité d’un côté, et l’autonomie des usagers de l’autre côté.
Les sources de données incompatibles.
La nécessité d’obtenir un rendement immédiat.
Claude Duvallet — 20/37
Les Data WareHouse
Introduction
Motivations
Mettre en œuvre un Data Warehouse
Modèles de représentation
Mesure de qualité d’un entrepôt de données
Qualité d’affaires : Est-ce que cela aide à atteindre les buts
organisationnels ?
Qualité d’information : Est-ce que les usagers savent quand et
comment l’entrepôt de données peut les aider pour prendre de
meilleures décisions économiques ?
Qualité technique : Est-ce que l’entrepôt de données satisfait
les usagers en terme de contenu d’information ?
Trois types de succès :
Succès économique : L’entrepôt de données possède un impact
positif sur les résultats financiers.
Succès politique : L’entrepôt de données est utilisé par les
usagers.
Succès technique : Il s’agit du plus facile à accomplir. La
technologie est appropriée pour la tâche requise et elle
fonctionne correctement.
Claude Duvallet — 21/37
Les Data WareHouse
Introduction
Motivations
Mettre en œuvre un Data Warehouse
Modèles de représentation
Les facteurs de succès
Une définition commune des données.
Des règles de transformation des données bien définies.
Une formation des usagers adéquate.
Des attentes organisationnelles bien communiquées aux
usagers.
Une implication des usagers.
Une implication de la hiérarchie.
L’équipe d’implantation possède les bonnes connaissances
techniques.
L’échéance du projet est réaliste.
Les bons outils ont été choisi (exemples : OLAP - MOLAP ROLAP).
Claude Duvallet — 22/37
Les Data WareHouse
Introduction
Motivations
Mettre en œuvre un Data Warehouse
Modèles de représentation
La structure multi-dimensionnelle
Les BD relationnelles ne sont pas adaptées à l’OLAP car :
Pas les mêmes objectifs.
Pas les mêmes données : Les données nécessaires à l’OLAP
sont multi-dimensionnelles (i.e. ventes par vendeur, par date, par
ville...). Les tables en représentent une vue aplatie.
Pas les mêmes traitements et requêtes : Non seulement perte de
performances mais aussi nécessité pour les utilisateurs de savoir
comment trouver les liens entre les tables pour recréer la vue
multi-dimensionnelle.
Il est donc nécessaire de disposer d’une structure de stockage
adaptée à l’OLAP, i.e. permettant de :
représenter les données dans plusieurs dimensions,
manipuler les données facilement et efficacement.
Claude Duvallet — 23/37
Les Data WareHouse
Introduction
Motivations
Mettre en œuvre un Data Warehouse
Modèles de représentation
L’implémantation d’un entrepôt de données
Trois méthodes :
1
Relational OLAP (ROLAP)
Les données sont stockées dans un SGBD relationnel.
Un moteur OLAP permet de simuler le comportement d’un SGBD
multi-dimensionnel.
2
Multidimensional OLAP (MOLAP)
Structure de stockage en cube
Accès direct aux données dans le cube
3
Hybrid OLAP (HOLAP)
Les données sont stockées dans SGBD relationnel (données de
base).
La structure de stockage en cube (données agrégées).
Claude Duvallet — 24/37
Les Data WareHouse
Introduction
Motivations
Mettre en œuvre un Data Warehouse
Modèles de représentation
ROLAP
Idées :
Données stockées en relationnel.
La conception du schéma est particulière : schéma en étoile,
schéma en flocon.
Des vues (matérialisées) sont utilisées pour la représentation
multidimensionnelle.
Les requêtes OLAP (slice, rollup...) sont traduites en SQL.
Utilisation d’index spéciaux : bitmap.
Administration (tuning) particulier de la base de données.
Avantages/Inconvénients :
Souplesse, évolution facile, permet de stocker de gros volumes.
Mais peu efficace pour les calculs complexes
Claude Duvallet — 25/37
Les Data WareHouse
Introduction
Motivations
Mettre en œuvre un Data Warehouse
Modèles de représentation
MOLAP
Idées :
Modélisation directe du cube.
Ces cubes sont implémentés comme des matrices à plusieurs
dimensions.
Le cube est indexé sur ses dimensions.
Avantages/Inconvénients :
rapide.
formats propriétaires.
ne supporte pas de très gros volumes de données.
Claude Duvallet — 26/37
Les Data WareHouse
Introduction
Motivations
Mettre en œuvre un Data Warehouse
Modèles de représentation
HOLAP
Idées :
MOLAP + ROLAP.
Les données sont stockées dans des tables relationnelles.
Les données agrégées sont stockées dans des cubes.
Les requêtes vont chercher les données dans les tables et les
cubes.
Claude Duvallet — 27/37
Les Data WareHouse
Introduction
Motivations
Mettre en œuvre un Data Warehouse
Modèles de représentation
Les entrepôts de données
Implémentation :
ROLAP
MOLAP
HOLAP
Structure de la base de données :
Les données sont redondantes et normalisées.
Cela permet de faciliter l’utilisation et d’améliorer les
performances lors de l’analyse des données.
Modèle de représentation :
Cubes.
Étoile et Flocon.
Constellation de faits.
Claude Duvallet — 28/37
Les Data WareHouse
Introduction
Motivations
Mettre en œuvre un Data Warehouse
Modèles de représentation
Hyper Cube
Base de données multi-dimensionnelle
Axes : dimensions (date, type de produits, région).
Chaque cellule de l’hypercube contient une valeur calculée (vente
de produits).
Principe de base : ce sont les analyses des indicateurs qui
intéressent l’utilisateur.
Le modèle multidimensionnel contient 2 types d’attributs : les
dimensions et les mesures.
Les mesures sont les valeurs numériques que l’on compare
(exemple : montant_ventes, quantite_vendue) :
Ces valeurs sont le résultat d’une opération d’agrégation des
données.
C’est un élément de donnée sur lequel portent les analyses, en
fonction des différentes dimensions (Exemple : coût des travaux,
nombre d’accidents, ventes).
Claude Duvallet — 29/37
Les Data WareHouse
Introduction
Motivations
Mettre en œuvre un Data Warehouse
Modèles de représentation
Schémas en étoile, en flocons et en constellation de faits
Schéma en étoile :
Une table de faits centrale et plusieurs tables de dimensions
dénormalisées.
Les mesures sont stockées dans la table de faits.
Il existe une table de dimension pour chaque dimension avec tous
les niveaux d’agrégation.
Schéma en flocon
Version normalisée du schéma en étoile.
Traitement explicite des hiérarchies de dimension (chaque niveau
est représenté dans une table différente).
Plus facile à maintenir, plus lent lors de l’interrogation.
Schéma en constellation de faits :
La modélisation en constellation consiste à fusionner plusieurs
modèles en étoile qui utilisent des dimensions communes.
Un modèle en constellation comprend donc plusieurs tables de
faits et des tables de dimensions communes ou non à ces tables
de faits.
Claude Duvallet — 30/37
Les Data WareHouse
Introduction
Motivations
Mettre en œuvre un Data Warehouse
Modèles de représentation
Modélisation en étoile ou en flocons
Modélisation conceptuelle BD : entité et relation.
Modélisation de l’entrepôt de données : dimensions et mesures.
Les dimensions sont les points de vues depuis lesquels les
mesures peuvent être observées :
Exemple : date, localisation, produit, etc.
Elles sont stockées dans les tables de dimensions.
Une dimension peut être définie comme :
un thème, ou un axe (attributs), selon lequel les données seront
analysées.
Exemple : Temps, Découpage administratif, Produits.
Une dimension contient des membres organisés en hiérarchie :
Chacun des membres appartient à un niveau hiérarchique (ou
niveau de granularité) particulier.
Exemple : pour la dimension Temps : année – semestre – mois –
jour.
Claude Duvallet — 31/37
Les Data WareHouse
Introduction
Motivations
Mettre en œuvre un Data Warehouse
Modèles de représentation
Les faits
Un fait représente la valeur d’une mesure, mesurée ou calculée,
selon un membre de chacune des dimensions :
Exemple : "250 000 euros" est un fait qui exprime la valeur de la
mesure "coût des travaux" pour le membre "2013" du niveau
année de la dimension "temps" et le membre "Le Havre" du
niveau "ville" de la dimension "découpage administratif".
La table des faits :
Les mesures sont stockées dans les tables de faits qui
contiennent les valeurs des mesures et les clés vers les tables de
dimensions.
Claude Duvallet — 32/37
Les Data WareHouse
Introduction
Motivations
Mettre en œuvre un Data Warehouse
Modèles de représentation
Le modèle en étoile (1)
Une (ou plusieurs) table(s) de faits comprenant une ou plusieurs
mesures.
Plusieurs tables de dimension dénormalisées : descripteurs des
dimensions.
Les tables de dimension n’ont pas de liens entre elles.
Avantages :
Facilité de navigation.
Performances : nombre de jointures limité ; gestion des données
creuses.
Gestion des agrégats
Inconvénients :
Toutes les dimensions ne concernent pas les mesures
Redondances dans les dimensions
Alimentation complexe.
Claude Duvallet — 33/37
Les Data WareHouse
Introduction
Motivations
Mettre en œuvre un Data Warehouse
Modèles de représentation
Le modèle en étoile (2)
"Data Warehouse Models and OLAP Operations", Franconi.
Claude Duvallet — 34/37
Les Data WareHouse
Introduction
Motivations
Mettre en œuvre un Data Warehouse
Modèles de représentation
Exemple de modèle en étoile
"Data Warehouse Models and OLAP Operations", Franconi.
Claude Duvallet — 35/37
Les Data WareHouse
Introduction
Motivations
Mettre en œuvre un Data Warehouse
Modèles de représentation
Conclusions
L’implantation d’un entrepôt de données et d’outils analytiques
permet d’améliorer l’intelligence d’affaire de l’entreprise.
C’est une décision d’ordre stratégique.
Ce sont des solutions plus adaptées pour les moyennes et
grandes entreprises.
Travail à faire :
Installer Oracle Warehouse Builder 11g avec Oracle DataBase
sous Linux ;
Claude Duvallet — 36/37
Les Data WareHouse
Téléchargement