Big data management Entrepôts de données

publicité
25/10/2016
Actualités du cours
Big data management
http://eric.univ-lyon2.fr/~jdarmont/?page_id=3144
- partie -
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/?feed=rss2
Master 2 Data Mining
Année 2016-2017
Jérôme Darmont
https://twitter.com/darmont_lyon2 hashtag #dmed
http://eric.univ-lyon2.fr/~jdarmont/
Entrepôts de données
Plan du cours
1
BI or not BI?
Informatique décisionnelle (business intelligence) :
à l’usage des décideurs
Introduction : le processus décisionnel
Accéder rapidement et simplement aux informations stratégiques
Donner du sens aux données
Donner une vision transversale des données d’une organisation
Extraire, grouper, organiser, agréger corréler les données
Modélisation conceptuelle des entrepôts
Modélisation logique des entrepôts
Quelle est
l’évolution du taux
d’occupation des
chambres ?
Mise en œuvre d’un entrepôt de données
Analyse en ligne (OLAP)
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
Qui sont mes
meilleurs
clients ?
http://eric.univ-lyon2.fr/~jdarmont/
2
Problématique
Entrepôts de données
Quelle est l’efficacité
des politiques
publiques en matière
d’écologie ?
http://eric.univ-lyon2.fr/~jdarmont/
3
Système d’information décisionnel
Décision
Données disponibles
Volumineuses
Hétérogènes
Très détaillées
Traitement
Synthétiser/résumer
Visualiser
Analyser
Utilisateurs
Non informaticiens
Non statisticiens
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
4
www.rhpsoft.com
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
5
1
25/10/2016
Entrepôt de données, la définition
Orientées sujet
Agrégation des informations de différents métiers
Pas de prise en compte de l’organisation fonctionnelle des
données
Un entrepôt de données est une collection de
données orientées sujet, intégrées, non
volatiles et historisées, organisées pour le
support d'un processus d'aide à la décision.
W.H. Inmon, 1991
Lydie Soler, AgroParisTech/INRA
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
6
Intégrées
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
7
Non volatiles
Base de données opérationnelle
Entrepôt de données
Lydie Soler, AgroParisTech/INRA
Lydie Soler, AgroParisTech/INRA
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
8
Historisées
On Line Transaction Processing vs. On Line Analytical Processing
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
9
Processus d’entreposage de données
Base de données opérationnelle
Entrepôt
de
données
www.kahassoc.com
Lydie Soler, AgroParisTech/INRA
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
10
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
11
2
25/10/2016
Plan du cours
Métaphore du cube de données
Fait : sujet d’analyse
Dimensions : axes d’analyse
Ensemble de mesures
Introduction : le processus décisionnel
Produit
Modélisation conceptuelle des entrepôts
Modélisation logique des entrepôts
Mise en œuvre d’un entrepôt de données
Analyse en ligne (OLAP)
Localisation
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
12
Hiérarchie de dimension
Temps
Entrepôts de données
docs.oracle.com
http://eric.univ-lyon2.fr/~jdarmont/
13
Hiérarchies multiples
docs.oracle.com
Elsa Nègre, Université Paris Dauphine
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
14
Attributs de dimensions
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
15
Schéma en étoile
DIM PRODUIT
DIM PRODUIT
Paramètres
Définissent les niveaux hiérarchiques
Attribut faibles
Descriptifs
Nom
Type
Gamme
Prix unitaire
Couleur
Modèle dénormalisé
+ Limitation des jointures
- Redondance
Nom
Type
Gamme
Prix unitaire
Couleur
DIM TEMPS
DIM LOCALISATION
Jour
Mois
Trimestre
Année
Ville
Région
Pays
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
16
Entrepôts de données
FAIT VENTE
Chiffre d’affaire
http://eric.univ-lyon2.fr/~jdarmont/
17
3
25/10/2016
Schéma en flocon de neige
H GAMME
H TYPE
H PRODUIT
H VILLE
FAIT
VENTE
Schéma en constellation
DIM
PRODUIT
FAIT
PRIX
FAIT
VENTE
DIM
TEMPS
DIM
VENDEUR
FAIT
SAL.
H JOUR
DIM
LOCALISATION
H MOIS
H REGION
H TRIM.
H PAYS
H ANNEE
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
18
Modèle multidimensionnel de Rizzi et Golfarelli
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
19
Plan du cours
Introduction : le processus décisionnel
Modélisation conceptuelle des entrepôts
Modélisation logique des entrepôts
Mise en œuvre d’un entrepôt de données
Analyse en ligne (OLAP)
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
20
Quelle approche pour l’OLAP ?
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
21
Approche ROLAP
Relational OLAP : Stockage de l’entrepôt dans une base
de données relationnelle
Faits, dimensions ou niveaux hiérarchiques : tables
Analyse OLAP : requêtes SQL99 (GROUP BY CUBE…)
Avantages
Facilité et faible coût de mise en œuvre
Stockage de gros volumes de données
Evolution facile
SQL
Inconvénients
Performance (jointures)
Reformatage nécessaire des résultats pour les utilisateurs finaux
olap.com/which-olap-is-best/
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
22
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
23
4
25/10/2016
Étoile ROLAP
Flocon ROLAP
H_PRODUIT(IDproduit, Nom, PrixUnitaire, Couleur, IDtype#)
H_TYPE(IDtype, NomType, IDgamme#
DIM_PRODUIT
H_GAMME(IDgamme, NomGamme)
DIM_PRODUIT(IDproduit, Nom, Type, Gamme,
PrixUnitaire, Couleur)
H_VILLE(IDville, NomVille, IDrégion#)
H_REGION(IDrégion, NomRégion, IDpays#)
H_PAYS(IDpays, NomPays)
DIM_LOCALISATION(IDloc, Ville, Région, Pays)
DIM_TEMPS(IDtemps, Jour, Mois, Trimestre, Année)
DIM_LOCALISATION
H_JOUR(IDjour, Jour, IDmois#)
H_MOIS(IDmois, Mois, IDtrim#)
H_TRIMESTRE(IDtrim, Trimestre, IDannée#)
H_ANNEE(IDannée, Année)
FAIT_VENTE(IDproduit#, IDloc#, IDtemps#,
ChiffreAffaire)
DIM_TEMPS
FAIT_VENTE(IDproduit#, IDville#, IDjour#, Chiffre_affaire)
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
24
Index binaires
ID
Titre
Année
25
Genre
Brazil
1984
Science Fiction
2
Underground
1995
Drame
3
Easy Rider
1969
Drame
4
Psychose
1960
Drame
5
Annie Hall
1977
Comédie
6
Jurasic Park
1992
Science Fiction
7
Metropolis
1926
Science Fiction
8
Manhattan
1979
Comédie
9
Smoke
1995
Comédie
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
Index binaires et entrepôts
1
Index binaire
sur l’attribut
Genre
Entrepôts de données
Avantages
Faible coût de stockage
Rapides en lecture, pas d’accès aux données pour :
Relation Film
Requêtes de comptage
Opérations bits à bits
Inconvénient
N-uplet
9
8
7
6
5
4
3
2
1
Science Fiction
0
0
1
1
0
0
0
0
1
Drame
0
0
0
0
0
1
1
1
0
Comédie
1
1
0
0
1
0
0
0
0
http://eric.univ-lyon2.fr/~jdarmont/
Peu performants si mises à jour nombreuses
Rafraîchissement des index
26
Opérations sur index binaires
Nombre de comédies
Compter le nombre de 1 dans
le bitmap associé
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
Vues matérialisées
N-uplet
9
8
7
6
5
4
3
2
Science Fiction
0
0
1
1
0
0
0
0
1
Drame
0
0
0
0
0
1
1
1
0
Comédie
1
1
0
0
1
0
0
0
0
27
Problématique :
que matérialiser ?
1
Nombre de comédies
en 1995
N-uplet
9
8
7
6
5
4
3
2
1
Comédie
1
1
0
0
1
0
0
0
0
AND entre les deux bitmaps
correspondants et comptage
1995
1
0
0
0
0
0
0
1
0
AND
1
0
0
0
0
0
0
0
0
Hector Garcia-Molina, Stanford
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
28
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
29
5
25/10/2016
Fragmentation (horizontale dérivée)
Approche MOLAP
Multidimensional OLAP : Stockage natif des cubes dans
des tableaux multidimensionnels
FAITS
DIM2
P1
DIM1
Avantage
P2.1
P1.1
P2
P1.2
Calculs d’agrégats rapides
P2.2
Inconvénients
P3
P2.3
P4
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
www.wikixbrl.info
Difficulté de mise en œuvre, systèmes majoritairement propriétaires
Volume de données limité
Problème d’éparsité des cubes
Redondance des données avec l’entrepôt source
Rafraîchissement limité (reconstruction périodique complète)
30
Compression de cube
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
31
Approche HOLAP
Hybrid OLAP :
Stockage de l’entrepôt dans une base de données relationnelle
Stockage des données agrégées dans des cubes MOLAP
Avantages
Bon compromis coût/performance sur de gros volumes de données
Exploite les fonctionnalités de SQL
Cube connecté à l’entrepôt relationnel
Inconvénients
Yannis Sismanis et al., 1992
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
Approche HTAP
32
Difficulté de mise en œuvre
Pas aussi rapide que MOLAP
Passage à l’échelle moins facile qu’en ROLAP
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
33
Plan du cours
2014
Hybrid Transaction / Analytical Processing :
SGBD en mémoire vive
Traitements OLTP et OLAP simultanés
Introduction : le processus décisionnel
Modélisation conceptuelle des entrepôts
Avantages
Calcul distribué rapide des requêtes
Pas de redondance des données
Informations transactionnelles rendues disponibles rapidement
dans les modèles décisionnels
Unification des tables relationnelles et des modèles décisionnels
Modélisation logique des entrepôts
Mise en œuvre d’un entrepôt de données
Analyse en ligne (OLAP)
Inconvénient
Modification drastique des architectures décisionnelles
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
34
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
35
6
25/10/2016
Approche top-down (Inmon)
Approche bottom-up (Kimball)
Conception intégrale de l’entrepôt a priori
Construction incrémentale de l’entrepôt
Magasins de données (datamarts) extraits de l’entrepôt
L’entrepôt de données est une union de magasins de données
Notion de bus décisionnel et de dimensions conformes
Avantages
Avantages
Vision conceptuelle globale de l’entrepôt
Architecture intégrée
Normalisation des données, absence de redondance
Simplicité de mise en œuvre
Résultats rapides
Inconvénient
Inconvénients
Difficulté de mise en œuvre
Manque d’évolutivité
Entrepôts de données
Schémas
multidimensionnels,
magasin de données
Problèmes d’intégration
des magasins de données
http://eric.univ-lyon2.fr/~jdarmont/
36
Cycle de vie d’un entrepôt
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
37
Alimentation de l’entrepôt
Extract, Transform, Load
www.imc.com
holowczak.com
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
38
Extraction
http://eric.univ-lyon2.fr/~jdarmont/
39
Transformation
Sources de données variées
Unification des données
Bases de données opérationnelles
Fichiers
Logs
Web…
Noms des attributs
Types (ex. précision numérique)
Formats (ex. dates)
Unités de mesure
Stratégies de rafraîchissement de l’entrepôt
Nettoyage des données
Push : déclencheurs dans les sources
Pull : requêtage des sources
Vérification des contraintes d’intégrité
Suppression des doublons
Traitement des valeurs manquantes
Détection des valeurs erronées ou incohérentes
Périodicité du rafraîchissement
Contrainte : ne pas perturber les opérations OLTP
Entrepôts de données
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
40
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
41
7
25/10/2016
Transformation
Chargement
Politiques de chargement
Complet / incrémental
En ligne / hors ligne
Mises à jour des dimensions
Ecrasement de l’ancienne valeur
Versionnement
Traitement particulier des dimensions à évolution rapide
Rafraîchissement des index et vues matérialisées
Oubli des données anciennes
Didier Donsez, Université Grenoble 1
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
42
Plan du cours
Suppression
Agrégation
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
43
Algèbre OLAP
OLAP = navigation interactive dans un cube de données
« Spreadsheet on steroids » (T.B. Pedersen)
Introduction : le processus décisionnel
Modélisation conceptuelle des entrepôts
E.F. Codd
Opérateurs ensemblistes
Projections et restrictions classiques
Modélisation logique des entrepôts
Opérateurs de restructuration
Mise en œuvre d’un entrepôt de données
Changement de point de vue
Réorientation selon les dimensions
Analyse en ligne (OLAP)
Opérateurs liés à la granularité
« Zoom » et « dézoom »
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
44
Slice (projection selon une dimension)
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
1923-2003
45
Dice (restriction)
Localisation
Produit
Temps
Didier Donsez, Université Grenoble 1
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
46
Didier Donsez, Université Grenoble 1
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
47
8
25/10/2016
Rotate (pivot)
Rollup/Drill down (forages)
Rollup
Rollup
Drill down
Drill down
Didier Donsez, Université Grenoble 1
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
48
SQL vs. MDX
http://eric.univ-lyon2.fr/~jdarmont/
49
SQL vs. MDX
SQL
MDX
Table(s)
Cube
Attribut
Niveau hiérarchique
Attributs liés ou
table(s) de dimension
Dimension
Attribut
Mesure
Valeur d’attribut dimension
Membre de dimension
SQL
SQL
MDX
SELECT COUNT(*) AS [Internet Order
Quantity],
SUM(SalesAmount) AS [Internet Sales
Amount]
SELECT { [Measures].[Internet Order
Quantity],
[Measures].[Internet Sales Amount] }
ON COLUMNS
FROM FactInternetSales
FROM [Internet Sales]
MDX
SELECT attribut(s)
SELECT axe(s)
FROM table(s)
FROM cube
WHERE condition(s)
WHERE filtre(s)
Entrepôts de données
Didier Donsez, Université Grenoble 1
Entrepôts de données
www.mssqltips.com
http://eric.univ-lyon2.fr/~jdarmont/
50
SQL vs. MDX
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
51
SQL vs. MDX
SQL
SQL
MDX
MDX
SELECT d1.Education AS [Customer
Education Level],
COUNT(*) AS [Internet Order Quantity],
SUM(f1.SalesAmount) AS [Internet Sales
Amount]
SELECT { [Measures].[Internet Order
Quantity],
[Measures].[Internet Sales Amount] } ON
COLUMNS, { (
[Customer].[Education].[Education].MEMBERS
) } ON ROWS
SELECT g.Country,
sum(rs.OrderQuantity) as OrderQuantity
SELECT [Measures].[Reseller Order Quantity] ON
ROWS, [Geography].[Country].[Country].MEMBERS
ON COLUMNS FROM [Adventure Works] )
FROM FactResellerSales rs, dimReseller r,
dimGeography g
WHERE r.ResellerKey = rs.ResellerKey
AND g.GeographyKey = r.GeographyKey
FROM (
FROM FactInternetSales f1, DimCustomer d1
WHERE f1.CustomerKey = d1.CustomerKey
FROM [Internet Sales]
AND g.City IN ('Melbourne', 'Sydney', 'Seattle',
'New York')
SELECT {[Geography].[City].[Melbourne],
[Geography].[City].[Sydney],
[Geography].[City].[Seattle],
[Geography].[City].[New York]} ON ROWS
GROUP BY g.Country
FROM [Reseller Sales] )
GROUP BY d1.EnglishEducation
www.mssqltips.com
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
geekswithblogs.net/darrengosbell/
52
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
53
9
25/10/2016
Plan du cours
What next? Big data warehouses!
Volume
Optimisation/parallélisation des agrégations
OLAP dans le nuage
Introduction : le processus décisionnel
Variété
Modélisation conceptuelle des entrepôts
Nouveaux modèles multidimensionnels et opérateurs d’agrégation
Entrepôts NoSQL
Modélisation logique des entrepôts
Vélocité
Mise en œuvre d’un entrepôt de données
Travailler en mémoire : gare à l’explosion dimensionnelle
Fonctions d’oubli
Analyse en ligne (OLAP)
Véracité
Qualité des données sources
Sécurité des données entreposées
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
54
Du tableur collaboratif…
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
55
…au décisionnel mobile
Utilisateur
Fusion tables
Analyses à la demande
Requêtage façon moteur de recherche
Drill beyond
Quasi temps réel
Collaboratif
non expert
Entrepôts de données / OLAP
Web sémantique
Gestion de documents
Fouille de données
Ingénierie sociale
Technos
Problèmes ouverts
Modèle de données avancé, algèbre de requêtes
Equilibre entre partage et confidentialité des données
Formalisation de l’intelligence collaborative, interfaces
Modèle économique
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
56
Travail basé sur CryptDB
Réalisé avec S. Sobati Moghadam et G. Gavin
http://eric.univ-lyon2.fr/~jdarmont/
57
BI4people : le décisionnel pour tous
Source documents
Confidentialité de données
décisionnelles partagées dans le nuage
Entrepôts de données
NoETL
semantic
integration
Automatic
visualization
Datamart
Automatic
modeling
Simple
OLAP
css.csail.mit.edu/cryptdb/
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
58
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
59
10
25/10/2016
…or Data swamps?
timoelliott.com
Data lakes…
www.digitalnewsasia.com
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
Data vaults
60
hanshultgren.files.wordpress.com
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
61
Filling data vaults with data lakes?
Links
Hubs
Satellites
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
62
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
63
Sujet de TER
Les data vaults comme solution de stockage des
métadonnées des data lakes
s3.amazonaws.com
Comparaison de performance
Métadonnées stockées en data vault
Métadonnées stockées en BD NoSQL
Entrepôts de données
http://eric.univ-lyon2.fr/~jdarmont/
64
11
Téléchargement