Entrepôts de données

publicité
Chapitre Préliminaire
Entrepôts de données
Christelle Scharff
IFI
Juin 2004
1
Plan et objectifs








Informatique de production
Transactions
Informatique décisionnelle
Entrepôts de données
Datamarts
Construction des entrepôts
Opérations OLAP
Problèmes
2
Informatique de production





Interrogations et modifications fréquentes
des données par de nombreux utilisateurs
Nécessité de conserver la cohérence des
données
Les systèmes transactionnels (OLTP)
garantissent la cohérence des données
L’informatique de production est optimisée
pour les tâches répétitives et planifiées
Exemples:

Factures, commandes…
3
Transactions

Programmes informatiques qui interagissent avec les bases de données
ayant les propriétés suivantes:




A - Atomicité
C - Consistance
I - Isolation
D - Durée
4
Informatique décisionnelle





Chargement périodique des données
Pas de modifications des données
Interrogations non régulières, planifiées, parfois
longues des systèmes d’information décisionnels
Exemples de questions:
 Quelles sont les ventes du produit X pendant le
trimestre A de l'année B dans la région C ?
 Comment se comporte le produit X par rapport au
produit Y?
 Quel type de client peut acheter le produit X?
Exemple: OLAP (Codd)
5
OLTP
Utilisateurs
OLAP
Lambda
Spécialisés
Fonctions
Journalier
Décision
Design DB
Oriente application
Oriente sujet
Courantes, détaillées,
plates, à jour
Historiques, résumées,
multi-dimensionnelles,
intégrées, consolidées
Répétitive
Ad hoc
Données
Utilisation
Accès
Écrire/Lire
Lire
Index / Hachage sur les
clés primaires
Transactions/Requêt Transaction courte et
es
simple
# lignes accédées
Requêtes complexes
Dizaines
Millions
Milliers
Centaines
Taille DB
100 MG-GB
100 GB-TB
Métriques
# Transactions
Réponses, # requêtes
6
# utilisateurs
Entrepôt de données (1)

Contient de grandes quantités de données




provenant de diverses sources,
sauvées sous un schéma de données unique, et
résidant à un endroit unique
Construit par:

Nettoyage, transformation, intégration,
chargement et rafraîchissement périodiques des
données
7
Entrepôt de données (2)







Organisés suivant des thèmes précis (clients,
activités, items…)
Organisés suivant une chronologie historique
Résument les données
Plus lisibles et plus simples que les données
initiales
Introduction de redondance éventuelle
Cohérence globale des données
Les données / informations des entrepôts ne
sont pas modifiees
8
Datamarts

Versions simplifiées, car plus ciblées,
des entrepôts des données
9
Nettoyage des données


Erreurs de saisie
Intégrité des domaines


Exemple: Les dates
Données manquantes
10
Transformations des données

Format


Consolidation


Exemple: Type des données
Exemple: Choix des unités et des
représentations
Uniformisation d’échelle

Exemple: Homogénéisation des échelles
11
Requêtes sur les entrepôts de
données

Extraire des données:


Les outils OLAP
Le progiciel SAS




Un progiciel est un logiciel de gestion
Outils de création de rapports
Outils dans les SGBD
Un language (Exemple: DMQL)
12
Représentation conceptuelle
des entrepôts de données*

Souvent représentés par une structure à
plusieurs dimensions




Une dimension est un attribut ou un ensemble
d’attributs
Les cellules sauvent des données agrégées
appelées faits
Représentations: Relations, cube de données,
hyper-cube de données
Utilisation d’un language (Exemples: SQL ou
DMQL) pour peupler les entrepôts
13
Exemple

Total des ventes à un client dans une
tranche horaire d'un jour précis, pour
un produit choisi
14
Représentation logique des
entrepôts de données*

Implantation classique: Modèle en étoile:






Au centre la table des faits
Les dimensions comme autant de branches à
l'étoile.
Les branches de l'étoile sont des relations de 1 à
plusieurs
La table des faits est énorme contrairement aux
tables des dimensions
Le modèle est très dissymétrique en
comparaison avec les modèles relationnels
des bases de production
L’étoile est un modèle simple
15
Exemple

Un enregistrement dans la table des faits
Ventes correspond à un total des ventes à un
client dans une tranche horaire d'un jour
précis, pour un produit choisi.
16
Autres modèles

Le modèle en flocon de neige


Les tables des dimensions sont normalisées
Le modèle de la constellation des faits

Une table de faits peut être partagée par
plusieurs tables de dimension
17
Hiérarchies*

Hiérarchies de schémas




Ordre total ou partiel sur les attributs des schémas
Décrivent des relations sémantiques entre les
attributs
Exemple: Rue < Ville < État_ou_Province < Pays
Hiérarchies de groupes



Organise les valeurs d’attributs ou de dimensions
en groupes
Un ordre total ou partiel peut être défini entre les
groupes
Exemples: {0…45}  Jeune, {46…150}  Agé ,
{Jeune, Agé}  all(age)
18
Opération: Navigation ou
Forage*


Pour obtenir plus de détails sur la signification
d'un résultat en affinant une dimension ou en
ajoutant une dimension
Exemple:

Supposons qu'un utilisateur final demande les chiffres
d'affaires par produit, et s'étonne d'un résultat pour un
produit donné. Il aura sûrement l'envie d'en analyser les
raisons. Une solution consisterait à ajouter la dimension
temps, dans l'unité de temps trimestrielle pour trouver une
variation saisonnière, dans l'unité hebdomadaire pour
envisager l'effet week-end ou encore la dimension magasin
pour mettre en évidence un effet géographique.
19
Opération: Agrégats*



Pour obtenir moins de détails
Élimination d’une dimension ou
regroupement des éléments d’une
dimension
Exemple:


Ville < Etat < Province < Pays
Au lieu de regrouper les données par ville,
elles sont regroupées par pays
20
Autres opérations*



Sélection sur une dimension ou
plusieurs dimensions (tranche du cube)
Rotation / pivot du cube
D’autres opérations impliquent plus
d’une table des faits
21
Problèmes

Supports physiques

Peupler l’entrepôt


Structure creuse



Calcul des valeurs de la table des faits
La valeur est 0
Exemple: 300 des 3000 produits sont vendus
chaque jour
Problèmes des clés et des indexes


Organisation physique importante du point de vue
des performances
Les tables de dimension sont souvent indexées
suivant tous leurs champs
22
Exercice*

Exercice du magasin d’électronique
23
Références


http://www.grappa.univlille3.fr/polys/fouille/
J. Han, and M. Kamber. Data Mining
Concepts and Techniques. Morgan
Kaufmann.
24
Téléchargement