un Data Warehouse

publicité
Data Warehouse and Datamining
Entrepôts de Données et Fouille de Données

Université d'Alexandrie, Faculté de Commerce, les 17 et 18 Décembre 2011
1
Plan
 Introduction
 Entrepôts de données
 Datamarts
 Architecture
 Modélisation
 Bases de données multidimensionnelles
 Fouille de données
 Marché du décisionnel
2
Le contexte




Besoin: prise de décisions stratégiques et tactiques
Pourquoi: besoin de réactivité
Qui: les décideurs (non informaticiens)
Comment: répondre aux demandes d’analyse des données, dégager
des informations qualitatives nouvelles
Qui sont mes
meilleurs
clients?
Quels
algériens
consomment
beaucoup de
poisson?
Pourquoi et
comment le
chiffre
d’affaire a
baissé?
A combien
s’élèvent mes
ventes
journalières?
3
Les données utilisables par les décideurs
 Données opérationnelles (de production)
 Bases de données (Oracle, SQL Server)
 Fichiers, …
 Gestion des RH, gestion des commandes…
 Caractéristiques de ces données:
 Distribuées: systèmes éparpillés
 Hétérogènes: systèmes et structures de données différents
 Détaillées: organisation des données selon les processus
fonctionnels, données surabondantes pour l’analyse
 Peu/pas adaptées à l’analyse : les requêtes lourdes peuvent
bloquer le système transactionnel
 Volatiles: pas d’historisation systématique
4
Problématique
 Comment répondre aux demandes des décideurs?
 En donnant un accès rapide et simple à l’information
stratégique
 En donnant du sens aux données
Mettre en place un système d’information dédié aux
applications décisionnelles:
un Data Warehouse
5
Le processus de prise de décision
Champs d’application des
systèmes décisionnels
Définir le Rassembler Analyser les Établir des Décider
solutions
problème les données données
Temps de prise d’une décision
6
Le processus de prise de décision
Prise de
décision
Bases de
production
Data
warehouse
Base multi dimensionnelle
Prédiction /
simulation
7
Domaines d’utilisation des DW
 Banque
 Risques d’un prêt, prime plus précise
 Santé
 Épidémiologie
 Risque alimentaire
 Commerce
 Ciblage de clientèle
 Déterminer des promotions
 Logistique
 Adéquation demande/production
 Assurance
 Risque lié à un contrat d’assurance (voiture)
 …
8
Quelques métiers du décisionnel
 Strategic Performance Management
Déterminer et contrôler les indicateurs clé de la performance de
l’entreprise
Finance Intelligence
 Planifier, analyser et diffuser l’information financière. Mesurer et
gérer les risques
Human Capital Management (gestion de la relation avec les employés)
 Aligner les stratégies RH, les processus et les technologies.
Customer Relationship Management (gestion de la relation client)
 Améliorer la connaissance client, identifier et prévoir la
rentabilité client, accroitre l’efficacité du marketing client
Supplier Relationship Management (gestion de la relation fournisseur)
 Classifier et évaluer l’ensemble des fournisseurs. Planifier et
9
piloter la stratégie Achat.





Plan
 Introduction
 Entrepôts de données
 Datamarts
 Architecture
 Modélisation
 Bases de données multidimensionnelles
 Fouille de données
 Marché du décisionnel
10
Définition
W. H. Inmon (1996):
« Le Data Warehouse est une collection de
données
orientées
sujet,
intégrées,
non
volatiles et historisées, organisées pour le
support d’un processus d’aide à la décision »
11
Les 4 caractéristiques d'un data warehouse
1. Données orientées sujet:
 Regroupe les informations des différents métiers
 Ne tiens pas compte de l’organisation fonctionnelle
des données
Ass. Vie
Ass. Auto
Ass. Santé
Client
Police
12
Les 4 caractéristiques des data warehouse
2. Données intégrées:
 Normalisation des données
 Définition d’un référentiel unique
h,f
1,0
h,f
homme, femme
GBP
CHF
USD
EUR
13
Les 4 caractéristiques des data warehouse
3. Données non volatiles
 Traçabilité des informations et des décisions prises
 Copie des données de production
Bases de production
Entrepôts de données
Ajout
Suppression
Accès
Modification
Chargement
14
Les 4 caractéristiques des data warehouse
4. Données datées
 Les données persistent dans le temps
 Mise en place d’un référentiel temps
Image de la base en Mai 2010
Image de la base en Juillet 2011
Répertoire
Répertoire
Base de
production
Nom
Ville
Nom
Ville
Med
Alger
Med
Oran
Ali
Cne
Ali
Cne
Répertoire
Calendrier
Entrepôt
de
données
Code Année
Mois
Année
Code Nom
Mois
Ville
1
2005
Mai
1
Med
Alger
2
2006
Juillet
1
Ali
Cne
15
2
Med
Oran
Plan
 Introduction
 Entrepôts de données
 Datamarts
 Architecture
 Modélisation
 Bases de données multidimensionnelles
 Fouille de données
 Marché du décisionnel
16
Datamarts
 Sous-ensemble d’un entrepôt de données
 Destiné à répondre aux besoins d’un secteur ou
d’une fonction particulière de l’entreprise
 Point de vue spécifique selon des critères métiers
Datamart du
service Marketing
DW de l’entreprise
Datamart du
service Ressources
Humaines
17
Intérêt des Datamarts
 Nouvel environnement structuré et formaté en
fonction des besoins d’un métier ou d’un usage
particulier
 Moins de données que DW


Plus facile à comprendre, à manipuler
Amélioration des temps de réponse
 Utilisateurs plus ciblés: DM plus facile à définir
18
Plan
 Introduction
 Entrepôts de données
 Datamart
 Architecture
 Modélisation
 Bases de données multidimensionnelles
 Fouille de données
 Marché du décisionnel
19
Architecture générale
Zone de stockage
Zone de préparation
E
X
T
R
A
C
T
I
O
N
Sources de
données
Transformations:
Nettoyage
Standardisation
…
C
H
A
R
G
E
M
E
N
T
Data
warehouse
Zone de
présentation
Requêtes
Rapports
Visualisation
Data Mining
…
Datamart
20
Plan
 Introduction
 Entrepôts de données
 Datamart
 Architecture
 Modélisation
 Bases de données multidimensionnelles
 Fouille de données
 Marché du décisionnel
21
Modélisation des DW
 Nouvelle méthode de conception autour des
concepts métiers

Ne pas normaliser au maximum
 Introduction de nouveaux types de table:


Table de faits
Table de dimensions
 Introduction de nouveaux modèles:


Modèle en étoile
Modèle en flocon
22
Table de faits
 Table principale du modèle dimensionnel
 Contient les données observables (les faits) sur le sujet
étudié selon divers axes d’analyse (les dimensions)
Clés étrangères
vers les
dimensions
Faits
Table de faits des ventes
Clé date (CE)
Clé produit (CE)
Clé magasin (CE)
Quantité vendue
Coût
Montant des ventes
23
Table de faits (suite)
 Fait:

Ce que l’on souhaite mesurer


Quantités vendues, montant des ventes…
Contient les clés étrangères des axes d’analyse
(dimension)

Date, produit, magasin
24
Table de dimension
 Axe d’analyse selon lequel vont être étudiées les données
observables (faits)
 Contient le détail sur les faits
Clé de substitution
Attributs de la
dimension
Dimension produit
Clé produit (CP)
Code produit
Description du produit
Famille du produits
Marque
Emballage
Poids
25
La dimension Temps
 Commune à l’ensemble du
DW
 Reliée à toute table de
faits
Dimension Temps
Clé temps (CP)
Jour
Mois
Trimestre
Semestre
Année
Num_jour_dans_année
Num_semaine_ds_année
26
Les types de modèles
Modèle en étoile
Modèle en flocon
27
Modèle en étoile
 Une table de fait centrale et des dimensions
 Les dimensions n’ont pas de liaison entre elles
 Avantages:


Facilité de navigation
Nombre de jointures limité
 Inconvénients:


Redondance dans les dimensions
Toutes les dimensions ne concernent pas les
mesures
28
Modèle en étoile
Dimension Magasin
ID magasin
description
ville
surface
…
Dimension Region
ID région
pays
description
district vente
….
Dimension Temps
ID temps
année
mois
jour
…
Table de faits Achat
ID client
ID temps
ID magasin
ID région
ID produit
Quantité achetée
Montant des achats
Dimension produit
ID produit
nom
code
prix
poids
groupe
famille
…
Dimension Client
ID client
nom
prénom
adresse
…
29
Modèle en flocon
 Une table de fait et des dimensions décomposées en sous
hiérarchies
 On a un seul niveau hiérarchique dans une table de
dimension
 La table de dimension de niveau hiérarchique le plus bas
est reliée à la table de fait. On dit qu’elle a la granularité la
plus fine
 Avantages:


Normalisation des dimensions
Économie d’espace disque
 Inconvénients:
 Modèle plus complexe (jointure)
 Requêtes moins performantes
30
Modèle en flocon
Dimension Magasin
ID magasin
description
ville
surface
…
Dimension Temps
ID temps
annee
mois
jour
…
Dimension Region
ID région
ID division vente
pays
description
….
Dimension
Division vente
ID division vente
description
….
Dimension produit
ID produit
ID groupe
nom
code
prix
poids
…
Table de faits Achat
ID client
ID temps
ID magasin
ID région
ID produit
Quantité achetée
Montant des achats
Dimension Client
ID client
nom
prénom
adresse
…
Dimension groupe
ID groupe
ID famille
nom
…
Dimension Famille
ID famille
nom
…
31
Plan
 Introduction
 Entrepôts de données
 Datamart
 Architecture
 Modélisation
 Bases de données multidimensionnelles
 Fouille de données
 Marché du décisionnel
32
Base de Données Multidimensionnelles
Produits
oranges
poires
Produit
PK id_produit
Espagne
Allemagne
dattes
Libellé
Famille
Pays
Achat
France
PK id_achat
FK id_client
client
PK
id_client
Nom
id_produit
Quantité
janvier
avril
février
Temps
Vente de
dattes en
Allemagne
en avril
adresse
33
Plan
 Introduction
 Entrepôts de données
 Les Datamarts
 Architecture
 Modélisation
 Bases de données multidimensionnelles
 Fouille de données
 Marché du décisionnel
34
Pourquoi Fouiller les Données (1)
 De nombreuses données sont collectées et
entreposées:



Données du Web, e-commerce
Achats dans les supermarchés
Transactions de cartes bancaires
 Les ordinateurs deviennent de moins en moins
chers et de plus en plus puissants
 La pression de la compétition est de plus en plus
forte

Fournir de meilleurs services, s’adapter aux clients
35
Pourquoi Fouiller les Données (2)
 Les données sont collectées et stockées
rapidement (GB/heures)





Capteurs
Télescopes
Puces à ADN générant des expressions de gènes
Simulations générant des téraoctets de données
…..
36
Pourquoi Fouiller les Données (3)
 Les techniques traditionnelles ne sont pas
adaptées
 Volume de données trop grands (trop de tuples,
trop d’attributs)
Comment explorer des millions d’enregistrements
avec des milliers d’attributs ?
 Besoins de répondre rapidement aux opportunités
 Requêtes traditionnelles (SQL) impossibles
Rechercher tous les enregistrements
indiquant une fraude
37
Un Enjeu Stratégique
Déterminer
les moyens
pour fidéliser
les clients
Identifier
les nouveaux
marchés
Anticiper les
changements de
comportement
Minimiser les
risques
Identifier les
nouveaux
produits ou
services
38
Qu'est-ce que le Data Mining?
Frawley et Piatesky-Shapiro
"l'extraction d'informations originales, auparavant inconnues,
potentiellement utiles à partir de données"
John Page
"la découverte de nouvelles corrélations, tendances et modèles par le
tamisage d'un large volume de données"
Kamran Parsaye
"un processus d'aide à la décision où les utilisateurs cherchent des
modèles d'interprétation dans les données"
Dimitris Chorafas
"torturer l'information disponible jusqu'à ce qu'elle avoue"
39
Processus d'ECD (KDD)
40
Techniques de Fouille de Données (1)
 Méthodes non-supervisées




Extraire des informations nouvelles et originales
(aucun attribut n’est plus important qu’un autre)
Analyse du résultat fourni (retenu ou rejeté)
Isoler l’information utile
Constituer des groupes homogènes d’objets (grouper
des patients qui ont le même comportement).
41
Techniques de Fouille de Données (2)
 Exemples

Réseau de Neurones

Recherche des K Plus Proches Voisins

Recherche d'Associations (Règles Associatives)

…
42
Techniques de Fouille de Données (3)
 Méthodes supervisées
 Découverte de règles ou formules (patterns) pour
ranger les données dans des classes prédéfinies
 Processus en deux étapes


Construction d'un modèle sur les données dont la
classe est connue (training data set)
Utilisation pour classification des nouveaux arrivants
43
Techniques de Fouille de Données (2)
 Exemples
 Discrimination
linéaire
 Régression
 Arbres
de décision
 Machines

à vecteur de support (SVM)
…
44
Domaines d'Application
 Médecine: biomédecine, drogue, Sida, séquence






génétique, gestion hôpitaux, ...
Finance, assurance: crédit, prédiction du marché,
détection de fraudes, …
Social: données démographiques, votes, résultats des
élections,
Marketing et ventes: comportement des utilisateurs,
prédiction des ventes, espionnage industriel, …
Militaire: fusion de données .. (secret défense)
Astrophysique: astronomie, …
Informatique: agents, IHM, réseau, DataWarehouse,
Internet (moteurs intelligent, text mining, …)
45
Plan
 Introduction
 Entrepôts de données
 Les Datamarts
 Architecture
 Modélisation
 Bases de données multidimensionnelles
 Fouille de données
 Marché du décisionnel
46
Le marché du décisionnel
SAP/Business Objects 22,4%
Oracle 14,5%
SAS Institute 14,2%
IBM 12,2%
Microsoft 7,9%
Microstrategy 3,2%
47
Quelques solutions commerciales
48
Quelques solutions open source
ETL
Entrepôt
de données
OLAP
Octopus
MySql
Mondrian Birt
Weka
Kettle
Postgresql
Palo
R-Project
CloverETL Greenplum/Biz
Talend
gres
Reporting
Open Report
Data Mining
Jasper Report Orange
JFreeReport
Xelopes
Intégré
Pentaho (Kettle, Mondrian, JFreeReport, Weka)
SpagoBI
49
50
Téléchargement