sianalytic

publicité
Les systèmes d'information
analytiques
PLAN
•
•
Le cycle de decision
Les composants analytiques
ETL (Extract, Transform and Load)
Entrepot de données (Data warehouse)
Reporting
Traitement analytique en ligne (OLAP)
Fouille de données
Dr A.R. Baba-ali
Maitre de conferences USTHB
A.R Baba-ali
1
Exemples de décisions
• Décisions opérationnelles
– Peut on vendre à un client la quantité demandée ?
– Peut on lui faire une remise ?
• Décisions tactiques
– A quel client peut on proposer ce type de produit ?
– Peut on accorder à ce client un prêt d’acquisition de véhicule ?
– Quel est le profil des clients fraudeurs, et que faut il faire ?
• Décisions stratégiques
– Quels sont les segments de clientèles de l’entreprise ? Et quels sont ceux qu’il faut cibler ?
– Quels sont les types de nouveaux produits faut il lancer cette année ?
– Comment Estimer et prédire les revenus l’année prochaine ?
Remarque: ne pas prendre de décision, est la plus mauvaise décision.
A.R Baba-ali
3
Exemple
A.R Baba-ali
2
Etapes de decision
Prise de décision
• Etudier les données du passé
• Pour comprendre les connaissances du
présent
Connaissances
Données
• Pour entreprendre les actions du futur
Decisions
Passé
A.R Baba-ali
Futur
Présent
5
A.R Baba-ali
6
Les Composants analytiques
Cycle de decision
autres
Planification
Analyse
source
s
Bases donnees
Operationnelles
Connaissances
OLAP
analysis
Extract
Transform
Load
( ETL )
ENTREPOT
Données
DATA
mining
Reporting
Données
Decisions
Acquisition
données
Historiser
A.R Baba-ali
7
Stockage
données
A.R Baba-ali
Acquisition
Connaissances
Decisions
8
Les Composants analytiques
Les Outils ETL
autres
source
s
Bases donnees
Operationnelles
OLAP
analysis
Extract
Transform
Load
( ETL )
DATA
mining
ENTREPOT
Données
Reporting
Acquisition
données
Stockage
données
Acquisition
Connaissances
A.R Baba-ali
Decisions
9
A.R Baba-ali
10
Les Composants analytiques
Les outils d’extraction
autres
source
s
• Fonctions attendues:
– Rassembler des données de sources diverses
et de formats différents
Bases donnees
Operationnelles
– Unification des représentations
OLAP
analysis
Extract
Transform
Load
( ETL )
ENTREPOT
Données
– Transformation de données
Reporting
– Corrections d ’irrégularités, compléter les
données manquantes
A.R Baba-ali
DATA
mining
11
Acquisition
données
Stockage
données
A.R Baba-ali
Acquisition
Connaissances
Decisions
12
Bases de données
Entrepôt de données
Bases de données
Entrepôt de données
•
Représente l’état d’une entreprise
•
Représente l’archive d’une entreprise
•
Transactions courtes, isolées
•
Analyses longues
•
Données détaillées, et instantanées
•
Données historisées, résumés temporels
•
lire et mettre à jour très rapidement
quelques données
•
lire des millions de données, les données
sont uniquement ajoutées et jamais
supprimées ou modifiées
•
Données relationnelles
•
Données multidimensionnelles
A.R Baba-ali
Définition
14
Définition
Cube :
• Un ensemble de mesures organisées selon un
ensemble de dimensions (aussi hypercube)
Exemple. Un cube de ventes qui comprend :
Dimension :
• Une dimension peut être définie comme un thème, ou un axe
(attributs), selon lequel les données seront analysées (en
fonction de …)
– Ex. Temps, Découpage administratif, Produits
• Les dimensions Temps, Produit, Magasin
• La mesure Ventes en $
• Une dimension contient des membres organisés en
hiérarchie, chacun des membres appartenant à un niveau
hiérarchique (ou niveau de granularité) particulier
client
– Ex. Pour la dimension Temps, les années, les mois et les jours peuvent
être des exemples de niveaux hiérarchiques. 1998 est un exemple de
membre du niveau Année
article
Temps
A.R Baba-ali
15
A.R Baba-ali
16
Définition
Données Multidimentionnelles
• Volume des ventes en function des
produits, mois, et region
Hierarchie des dimensions
Re
gi
on
Fait :
• Un fait représente la valeur d’une mesure, mesurée ou
calculée, selon un membre de chacune des dimensions
(ex. ce qui est recueilli par les systèmes transactionnels).
Industrie Region
Année
Categorie Pays
Produit
Mesure :
• Une mesure est un élément de donnée sur lequel
portent les analyses, en fonction des différentes
dimensions
Produit
Ville
Trimestre
Mois
Antenne
– Ex. coût des travaux, nombre d’accidents, ventes, dépenses
A.R Baba-ali
Temps
17
A.R Baba-ali
18
Exemple de vues d’un cube
Exemple de cube
Mesure
Dimensions
1trim
2trim 3trim
4trim ∑
U.S.A
∑
Canada
Mexico
Pays
Pr
od
ui
t
Date
TV
PC
VCR
Somme∑
A.R Baba-ali
19
A.R Baba-ali
20
semaine
Jour
Les Composants analytiques
Le reporting traditionnel
autres
source
s
Bases donnees
Operationnelles
OLAP
analysis
Extract
Transform
Load
( ETL )
ENTREPOT
Données
DATA
mining
Reporting
Acquisition
données
Stockage
données
A.R Baba-ali
Acquisition
Connaissances
Decisions
21
Tableaux de bord
• Accès facile & convivial
– Aux informations
• sur l'entreprise
• sur son
environnement
• Destiné aux dirigeants
– Construits sur-mesure
– Temps réel
• Systèmes d’information
des dirigeants
A.R Baba-ali
A.R Baba-ali
22
Exemple d’indicateurs
Cliquez pour ajouter un plan
23
A.R Baba-ali
24
Exemples d’ Operations OLAP
Les Composants analytiques
autres
Operationnelles
Extract
Transform
Load
( ETL )
Date
• Drill down :
DATA
mining
ENTREPOT
Données
TV
PC
VCR
1trim
2trim 3trim
4trim ∑
U.S.A
∑
Canada
• Slice :
Mexico
Reporting
• Pivot (rotate):
Acquisition
données
Stockage
données
Acquisition
Connaissances
A.R Baba-ali
Decisions
25
Slice
A.R Baba-ali
Somme∑
A.R Baba-ali
26
Rotation (Pivot Table)
27
A.R Baba-ali
28
Pays
Bases donnees
• Drill-up:
OLAP
analysis
Pr
od
ui
t
source
s
Possibilités de Visualisation
avec combinaisons des mesures et des dimensions
A.R Baba-ali
Possibilités de visualisation (suite)
A.R Baba-ali
31
30
Possibilités de visualisation
graphiques
A.R Baba-ali
32
Visualisation automatique
d’exceptions
A.R Baba-ali
33
A.R Baba-ali
Les Composants analytiques
autres
source
s
Bases donnees
Operationnelles
OLAP
analysis
Extract
Transform
Load
( ETL )
ENTREPOT
Données
DATA
mining
Reporting
Acquisition
données
Stockage
données
A.R Baba-ali
Acquisition
Connaissances
Decisions
35
Possibilités de calcul étendues
34
Exemple de données pour
le data mining
Illustration de données tabulaires
et de modèle
Decision
Attributs
Attributs
Ou
Attribut de classe
Code
Situation
familliale
Nombre
enfants
epargne
maison
Ancienneté
Historique
Code
Situation
familliale
Nombre
enfants
epargne
maison
Ancienneté
Historique
1
M
2
120 000
P
2
remboursé
1
C
0
120 000
P
2
remboursé
2
C
0
20 000
L
1
Non
remboursé
2
M
3
20 000
L
1
Non
remboursé
3
C
0
450 000
P
12
remboursé
3
C
0
450 000
P
12
remboursé
….
…
…
….
…
….
…
…
….
…
… ….
Instances
Instances
classe
… ….
Data Mining
Attributs
numériques
Modèle
Si (Situation=célibataire )
Attributs nominaux
A.R Baba-ali
et (Epargne >50000) Alors
37
Definition: Modèle prédictif
:
38
Exemple de modèle de classification
(modèle de réponse)
10 000 mails
Réponse : 2.6 %
Sexe=femme
Sexe=homme
5323
4677
Réponse : 2.1 %
Réponse : 3.2 %
Classer
Preter ou Ne pas preter ?
(classe ou nominal)
Age
Situation familiale
Modèle
Nombre d’enfants
Estimer
% Risque ?
(numerique)
Crédit Oui
A.R Baba-ali
• Une connaissance qui permet de faire
des predictions sur le futur basées
sur des données du présent et du
passé.
Montant epargne
Données
D’apprentissage
Revenu < 30000
Revenu > 45000
Age < 40
30000 <= Revenu <= 45000
Age >= 40
1290
2106
1281
3112
2211
Réponse : 1.7 %
Réponse : 3.6 %
Réponse : 4.1 %
Réponse : 0.7 %
Réponse : 4.3 %
Modèle :
Si ( homme ET revenu> 45K ) OU ( femme ET age>=40 )
A.R Baba-ali
39
A.R avec
Baba-ali
40 > 4%
ALORS réponse=oui
une probabilité de réponse
Exemples de Classes
•
•
•
•
Bon ou mauvais client
Client solvable ou non solvable
Client fraudeur ou pas
Prospect ou client susceptible d’être
intéressé par une offre ou pas
• Client partant ou pas
A.R Baba-ali
Segmentation
C'est le processus de partitionnement d'une
population de clients par exemple, en sous
populations homogènes.
41
A.R Baba-ali
42
Segmentation
Example de la segmentation
age
age
10
10
9
9
8
8
7
7
6
6
5
5
4
4
3
Question : Quelles catégories ?
Cluster
algorithm
3
2
2
1
1
0
0
1
2
3
4
5
6
7
8
9
10
0
0
1
2
3
4
5
6
7
8
taille
Le CRM par A.R Baba-ali
9
10
taille
43
Données de
départ
Données Clusterisées
Processus de Clusterisation
Le CRM par A.R Baba-ali
44
OLAP vs Data Mining
• OLAP (qu’est ce qu’il y a)
Fournit une vue de ce qui se passe, mais
ne peut pas dire pourquoi cela se passe.
• DM (pourquoi, comment dans le futur)
Donne des explications (modèles descriptifs)
et
donne des moyens de prédire (modèles prédictifs)
A.R Baba-ali
45
Téléchargement