Telechargé par Marcel NGUIDJOE

LES ENTREPOTS DE DONNEES

publicité
Module B4 : Projet des Systèmes d’information
Introduction
Lille, le 25 mars 2002
LES ENTREPOTS DE DONNEES
Présentation
Application
Structure
Construction
Exploitation
Data mining
Problématique :
Pour capitaliser ses informations, une entreprise doit-elle commencer
par mettre en œuvre des Data marts puis évoluer vers un Data warehouse
ou commencer tout de suite par un Data warehouse ?
Conclusion
www.bouchaboun.com
Nordine BOUCHABOUN
Michel M.
Sébastien L.
Jean-Pierre F.
Plan Général
1. Présentation du data warehouse
2. Le périmètre d’application
Introduction
Présentation
3. La structure des données
Application
Structure
Construction
Exploitation
Data mining
4. Construction du data warehouse
5. L’exploitation de l’information
Conclusion
6. Data mining
7. Conclusion Générale
PRESENTATION DU DATA WAREHOUSE
Introduction
Les facteurs de changements
Présentation
Application
Historique du décisionnel
Structure
Construction
Exploitation
Data mining
Conclusion
Définition
Comparaison OLTP/OLAP
Les Facteurs de changements
Facteurs stratégiques
Introduction
Prix, qualité, délais, services, personnalisation
Présentation
Application
Structure
Facteurs technologiques
Construction
Exploitation
Facteurs économiques
Data mining
Conclusion
Facteurs financiers
Facteurs économiques
Introduction
Présentation
Application
Structure
Construction
Exploitation
Data mining
Conclusion
Le passage à la net économie
Facteurs financiers
Introduction
Présentation
Application
Structure
Construction
Exploitation
Data mining
Conclusion
IDC 2001
Evolution du marché du décisionnel pour l’année 2000
PRESENTATION DU DATA WAREHOUSE
Introduction
Les facteurs de changements
Présentation
Application
Historique du décisionnel
Structure
Construction
Définition du Data warehouse
Exploitation
Data mining
Conclusion
Comparaison OLTP/OLAP
Historique
L’infocentre
Introduction
Présentation
Application
Le côté technique
Structure
Construction
Exploitation
Data mining
Conclusion
L’apparition du data warehouse
PRESENTATION DU DATA WAREHOUSE
Introduction
Les facteurs de changements
Présentation
Application
Historique du décisionnel
Structure
Construction
Définition du Data warehouse
Exploitation
Data mining
Conclusion
Comparaison OLTP/OLAP
Définition
Introduction
Présentation
Application
Structure
Construction
« Le data warehouse est une collection de
données orientées sujet, intégrées, non volatiles
et historisées, organisées pour le support d’un
processus d’aide à la décision »
Exploitation
Data mining
Conclusion
(Bill IMMON -Using the data warehouse -1994)
Définition (suite)
Introduction
• Données organisées par thèmes
Présentation
Application
• Données consolidées et cohérentes
Structure
Construction
Exploitation
Data mining
Conclusion
• Données historiques et non volatiles
• Data mart & data warehouse
PRESENTATION DU DATA WAREHOUSE
Introduction
Les facteurs de changements
Présentation
Application
Historique du décisionnel
Structure
Construction
Définition du Data warehouse
Exploitation
Data mining
Conclusion
Comparaison OLTP/OLAP
Comparaison OLTP/OLAP
On Line Transaction Processing
&
On Line Analytical Processing
Introduction
Présentation
Application
L’utilisation
Structure
Construction
Exploitation
Data mining
Conclusion
Les accès
Les origines des données
Le Volume des données
LE PERIMETRE D’APPLICATION
Introduction
Les secteurs d’activités
Présentation
Application
Structure
Construction
Exploitation
Data mining
Les principaux domaines d’application
CRM
SCM
SEM
Conclusion
Data warehouse centralisé ou data marts ?
Les secteurs d’activités
La répartition des ventes 2000 de licences d’outils décisionnels
par secteurs d’activités
Introduction
Présentation
Application
Structure
Telecom
13%
Services
publics
11%
Distribution /
Commerce
14%
Autres
6%
Construction
Exploitation
Data mining
Conclusion
Banques /
Assurances
/ Finances
27%
Industrie
29%
LE PERIMETRE D’APPLICATION
Introduction
Les secteurs d’activités
Présentation
Application
Structure
Construction
Exploitation
Data mining
Les principaux domaines d’application
CRM
SCM
SEM
Conclusion
Data warehouse centralisé ou data marts ?
Les domaines d’application
Stratégie E-business et Changement
Introduction
Présentation
Application
Structure
Partenaires et
Achat &
Fournisseurs <> Logistique
Ressources
Vente &
de
Suivi
l'Entreprise
Construction
Exploitation
Data mining
Conclusion
Intégration E-business
Système d'Information Interne
<> Clients
Customer Relationship Management
Gestion de la Relation Client
Introduction
Présentation
Application
Les concepts
Structure
Construction
Exploitation
Data mining
Conclusion
Le rôle du décisionnel
Supply Chain Management
Gestion de la chaîne logistique
Introduction
Présentation
Application
Les objectifs
Structure
Construction
Exploitation
Data mining
Conclusion
Le rôle du décisionnel
Strategic Enterprise Management
Gestion la stratégie d’entreprise
Introduction
Présentation
Application
Les objectifs
Structure
Construction
Exploitation
Data mining
Conclusion
Le rôle du décisionnel
LE PERIMETRE D’APPLICATION
Introduction
Les secteurs d’activités
Présentation
Application
Structure
Construction
Exploitation
Data mining
Les principaux domaines d’application
CRM
SCM
SEM
Conclusion
Data warehouse centralisé ou data marts ?
STRUCTURE DES DONNEES
Introduction
Présentation
La modélisation des données
Application
Structure
Les agrégats
Construction
Exploitation
Data mining
Conclusion
Les métadonnées
Le modèle normalisé
PAYS
Introduction
Présentation
GAMME
FOURNISSEUR
Gamme_id
Libelle
Marque
Fournisseur_id
Nom
Adresse
Pays
Application
Structure
Construction
Exploitation
Data mining
Conclusion
PRODUIT
Produit_id
Nom
Fournisseur
Gamme
Code_pays
Caracteristique
Prix_ht
Code_Pays
Libellé
CLIENT
COMMANDE
Commande_id
Client
Produit
Quantité
Date
Client_id
Nom
Prenom
Adresse
Pays
Relationnel pur → éviter la redondance
Le modèle dénormalisé
Introduction
GAMME
FOURNISSEUR
Gamme_id
Libelle
Marque
Fournisseur_id
Nom
Adresse
Pays
Présentation
PRODUIT
Application
Produit_id
Nom
Fournisseur
Gamme
Code_pays
Caracteristique
Prix_ht
Structure
Construction
Exploitation
Data mining
Conclusion
PAYS
Code_Pays
Libellé
CLIENT
COMMANDE
Commande_id
Client
Produit
Quantité
Date
Client_id
Nom
Prenom
Adresse
Pays
VENTE
Produit_id
CA_janvier
CA_fevrier
…
→ Résultat de calculs , agrégats
Le modèle dimensionnel
Introduction
Présentation
PERIODE
GEOGRAPHIE
JJMMAA *
Jour_Semaine
Semaine_année
Point_vente_id *
Region
Pays
Application
Structure
PRODUIT
Construction
Produit_id *
Nom
Fournisseur
Gamme
Code_pays
Caracteristique
Exploitation
Data mining
VENTES
JJMMAA *
Produit_id *
Point_vente_id *
Client_id *
CA
Marges
Quantité
…
Conclusion
Schéma en étoile
CLIENT
Client_id *
Nom
Prenom
Adresse
Pays
Le modèle dimensionnel
tables des dimensions
Introduction
PERIODE
Présentation
JJMMAA *
Jour_Semaine
Semaine_année
Application
GEOGRAPHIE
Point_vente_id *
Region
Pays
Structure
Construction
Exploitation
Data mining
Conclusion
CLIENT
PRODUIT
VENTES
Produit_id *
Nom
Fournisseur
Gamme
Code_pays
Caracteristique
JJMMAA *
Produit_id *
Point_vente_id *
Client_id *
Client_id *
Nom
Prenom
Adresse
Pays
CA
Marges
Quantité
…
table des faits
Le modèle dimensionnel
table des faits = HYPERCUBE
Introduction
Présentation
Application
VENTES
JJMMAA *
Produit_id *
Point_vente_id *
PERIODE
Structure
CA
Construction
Exploitation
Marges
Quantité
…
PRODUIT
Data mining
GEOGRAPHIE
Conclusion
Le modèle des données
hiérarchie
Dimension temporelle :
Introduction
Présentation
jour
jour
Dimension géographique : ville
Dimension article :
article
semaine
mois
département
type
Application
Structure
Construction
Exploitation
granularité
Plus petit élément d’une dimension: jour, ville, article
Data mining
Conclusion
profondeur
Nombre d’éléments dans une dimension
Exemple: 5 ans = 1826 jours environ
année
année
pays
catégorie
STRUCTURE DES DONNEES
Introduction
Présentation
La modélisation des données
Application
Structure
Les agrégats
Construction
Exploitation
Data mining
Conclusion
Les métadonnées
Les agrégats
Ensemble d’enregistrements avec des
cumuls, sur une ou plusieurs hiérarchies
Introduction
Présentation
VENTES
Application
JJMMAA *
Produit_id *
Point_vente_id *
Client_id *
Structure
Construction
Exploitation
Data mining
Conclusion
CA
Marges
Quantité
…
- Vente par semaine, produit, point de vente, client
- Vente par jour, produit
- Vente par mois, client
- Vente par mois, gamme de produit, région de
vente
Les agrégats
Introduction
Réduit considérablement le nombre
d’accès de la plupart des requêtes
Présentation
Application
Occupe de l’espace disque supplémentaire
Structure
Construction
Ressemble au principe des clés secondaires
Exploitation
Data mining
Conclusion
Doit être transparent pour les requêtes
utilisateurs
Définitions stockées dans des métadonnées
STRUCTURE DES DONNEES
Introduction
Présentation
La modélisation des données
Application
Structure
Les agrégats
Construction
Exploitation
Data mining
Conclusion
Les métadonnées
Les métadonnées
Introduction
Présentation
Application
Structure
Ensemble des référentiels de l’entrepôt
de données, utilisés par l’OLAP :
- définitions des objets
- définitions des agrégats
- autorisations d’accès
-…
Construction
Exploitation
Data mining
Conclusion
Dictionnaire
de la BD
Métadonnées
Données
Espace de
chargement
CONSTRUCTION DU DATA WAREHOUSE
La gestion de projet
Introduction
Présentation
Application
Structure
Construction
L’acquisition des données
L’architecture physique
Exploitation
Data mining
L’architecture logicielle
Conclusion
Data warehouse centralisé ou data marts ?
La gestion de projet
ALIMENTER
EXPLOITER
DECIDER
Introduction
Présentation
Application
Structure
Données
opérationnelles
+
Construction
Exploitation
Données
externes
Extraire
Nettoyer
Stockage
Stockage
tempon
Tampon
(facultatif)
(facultatif)
Transformer
Transporter
Entrepôt de
données
Utiliser
Outils d'Analyse
Data mining
'
Conclusion
CONSTRUCTION DU DATA WAREHOUSE
La gestion de projet
Introduction
Présentation
Application
Structure
Construction
L’acquisition des données
L’architecture physique
Exploitation
Data mining
L’architecture logicielle
Conclusion
Data warehouse centralisé ou data marts ?
L’acquisition des données
Introduction
Présentation
Application
Structure
Construction
Exploitation
Data mining
Conclusion
L’acquisition des données
Découvrir
Introduction
Présentation
Application
Structure
Construction
Exploitation
Data mining
Conclusion
Sous quelles formes sont les informations ?
Les informations sont-elles valides ?
Où sont les informations ?
Comment et quand les informations sont-elles
modifiées ?
…
L’acquisition des données
Extraire
Introduction
Présentation
Application
Structure
Construction
Exploitation
Data mining
Conclusion
Extraction possible à partir de plusieurs plateformes (OLTP, ERP, Web , …)
Chargement incrémental ou complet
L’acquisition des données
Transformer
Introduction
Présentation
Exploitation
Uniformiser l’information
Gérer les différents codes page
Majuscule / minuscule
Orthographe
Data mining
…
Application
Structure
Construction
Conclusion
L’acquisition des données
Transporter
Introduction
Présentation
Application
Structure
Construction
Exploitation
Data mining
Conclusion
par FTP ou autre outil de transfert de
fichiers
par EAI
L’acquisition des données
Charger
Introduction
Application
Les tables
Les agrégats
Structure
…
Présentation
Construction
Exploitation
Data mining
Conclusion
CONSTRUCTION DU DATA WAREHOUSE
La gestion de projet
Introduction
Présentation
Application
Structure
Construction
L’acquisition des données
L’architecture physique
Exploitation
Data mining
L’architecture logicielle
Conclusion
Data warehouse centralisé ou data marts ?
L’architecture physique
Introduction
Dépend de la taille de l’entrepôt de
données et des contraintes
Présentation
Application
Structure
Construction
Exploitation
Data mining
Conclusion
Ordinateur
processeur INTEL, RISC , Mainframe
simple ou multiprocesseur
Disques
RAID1 , RAID5
duplication sur une baie distante
Réseau
Sauvegarde
CONSTRUCTION DU DATA WAREHOUSE
La gestion de projet
Introduction
Présentation
Application
Structure
Construction
L’acquisition des données
L’architecture physique
Exploitation
Data mining
L’architecture logicielle
Conclusion
Data warehouse centralisé ou data marts ?
L’architecture logicielle
Le système d’exploitation
Introduction
Présentation
Application
UNIX 32 ou 64 bits
Windows NT, 2000
Mainframe
Structure
Construction
Exploitation
Data mining
Conclusion
La base de données
Oracle, DB2 d’IBM, Informix, Sybase
Microsoft SQL server (Windows uniquement)
Les outils d’ETL (Extract,Transform,Load)
CONSTRUCTION DU DATA WAREHOUSE
La gestion de projet
Introduction
Présentation
Application
Structure
Construction
L’acquisition des données
L’architecture physique
Exploitation
Data mining
L’architecture logicielle
Conclusion
Data warehouse centralisé ou data marts ?
EXPLOITATION DE L’INFORMATION
La Business Intelligence
Introduction
Présentation
Les différents types d’utilisation et les
services de restitution
Application
Structure
Construction
Exploitation
Data mining
Le reporting
L’accès libre service
Conclusion
Analyse OLAP
Data warehouse centralisé ou data marts ?
La Business Intelligence
Introduction
Présentation
Application
Structure
Construction
Exploitation
Data mining
Conclusion
Restituer l’information pour:
Informer
Analyser
Décider et piloter
EXPLOITATION DE L’INFORMATION
La Business Intelligence
Introduction
Présentation
Les différents types d’utilisation et les
services de restitution
Application
Structure
Construction
Exploitation
Data mining
Le reporting
L’accès libre service
Conclusion
Analyse OLAP
Data warehouse centralisé ou data marts ?
Les différents types d’utilisation
Utilisation passive
Introduction
Navigation dans un référentiel
Présentation
Application
Structure
Construction
Exploitation
Data mining
Conclusion
Requête
Analyse stratégique
Les services logiques de restitution
Navigation dans l’entrepôt
Introduction
Authentification et autorisation
Présentation
Application
Structure
Construction
Exploitation
Data mining
Conclusion
Surveillance des activités
Gestion des requêtes
Génération d’états standards
Navigation dans l’entrepôt
Basé sur les métadonnées
Introduction
Recherche des sujets disponibles
Présentation
Application
Structure
Construction
Exploitation
Data mining
Conclusion
Permettre à l’utilisateur d’accéder aux
contenus
Authentification et autorisation
Authentification
Introduction
Présentation
Application
Structure
Construction
Exploitation
Identifier l’utilisateur (login / mot de
passe)
Autorisation
Détermination des informations visibles
Table des filtres
Data mining
Conclusion
Utilisateur X / Filtre A / Rapport X
Utilisateur Y / Filtre B / Rapport X
Utilisateur Z / Filtre C / Rapport X
Authentification et autorisation
Introduction
Utilisateur X
Présentation
Filtre A
Application
Structure
Construction
Exploitation
Utilisateur Y
Filtre B
Data mining
Conclusion
Filtre C
Utilisateur Z
Rapport X
Autres services
Surveillance de l’activité
Introduction
Présentation
Application
Structure
Construction
Exploitation
Data mining
Conclusion
Informations sur le fonctionnement
Gestion des requêtes
Formulation, exécution, envoi du résultat
Génération d’états standards
Génération et mise à disposition
EXPLOITATION DE L’INFORMATION
La Business Intelligence
Introduction
Présentation
Les différents types d’utilisation et les
services de restitution
Application
Structure
Le reporting
Construction
Exploitation
L’accès libre service
Data mining
Conclusion
Analyse OLAP
Data warehouse centralisé ou data marts ?
Le mode pull
Introduction
Client browser
HTML / XML
LDAP
Présentation
Application
Structure
Construction
Exploitation
Data mining
Métadonnées
Intranet
Intranet/ /
Internet
Internet
Datamarts ou
Datawarehouse
Conclusion
HTTP
Firewall
Serveur web
Serveur de rapport
Le mode pull: avantages et inconvénients
Introduction
Présentation
Application
Structure
Construction
Exploitation
Data mining
Conclusion
Avantage
Nombre de traitements limité
Inconvénient
Utilisation des rapports pas optimisée
par rapport aux filtres
Le mode push
LDAP
Introduction
Présentation
Application
Client browser
HTML / XML
Structure
Métadonnées
Construction
Datamarts ou
Datawarehouse
Exploitation
Data mining
Conclusion
Intranet
Intranet/ /
Internet
Internet
Firewall
Serveur web
Serveur de rapport
HTTP
E-mail
SMTP
Scheduler
Le mode push: avantages et inconvénients
Introduction
Présentation
Application
Structure
Construction
Exploitation
Data mining
Conclusion
Avantage
Génération des rapports planifiable
Inconvénients
Utilisation des rapports pas optimisée
par rapport aux filtres
Pas d’adéquation par rapport au
besoin utilisateur
Le mode mixte
LDAP
Introduction
Présentation
Application
Client browser
HTML / XML
Structure
Métadonnées
Construction
Cache
mémoire
Exploitation
Data mining
Conclusion
Intranet
Intranet/ /
Internet
Internet
Firewall
Serveur web
Serveur de rapport
HTTP
Scheduler
Datamarts ou
Datawarehouse
Le mode mixte: avantages et inconvénients
Introduction
Présentation
Application
Structure
Construction
Exploitation
Data mining
Conclusion
Avantages
Génération des rapports planifiable
Adéquation au besoin utilisateur
Optimisation de la génération des
rapports par rapport aux filtres
Inconvénient
Stockage intermédiaire des rapports
EXPLOITATION DE L’INFORMATION
La Business Intelligence
Introduction
Présentation
Les différents types d’utilisation et les
services de restitution
Application
Structure
Le reporting
Construction
Exploitation
Data mining
Conclusion
L’accès libre service
Analyse OLAP
Data warehouse centralisé ou data marts ?
L’accès libre service
Requête simple
Introduction
Sur des données simples opérationnelles
Présentation
Application
Structure
Construction
Exploitation
Data mining
Conclusion
Interfaces utilisateurs
EXPLOITATION DE L’INFORMATION
La Business Intelligence
Introduction
Présentation
Les différents types d’utilisation et les
services de restitution
Application
Structure
Le reporting
Construction
Exploitation
L’accès libre service
Data mining
Conclusion
Analyse OLAP
Data warehouse centralisé ou data marts ?
La logique OLAP: les principes
Un principe logique
Introduction
Présentation
Application
Méthodologie de modélisation de données
Structure
Construction
Outils de restitution
Exploitation
Data mining
Conclusion
La navigation dans un cube
La logique OLAP: exemple d’analyse
Clients
•Secteur
•Famille
•Type client
•Client
Introduction
Présentation
Application
Structure
Construction
Exploitation
Data mining
Temps
•Années
•Trimestre
•Mois
•Jour
Mesures
•Quantité
•Délai de livraison
•CA
•Marge
Conclusion
Géographie
•Région
•Département
•Point de vente
Produits
•Gammes
•Produits
La logique OLAP: la pyramide d’analyse
Introduction
Présentation
Indicateurs
(CA, Quantité…)
CA / Gamme / Année
DRILL
DOWN
CA / Gamme / Mois
Agrégation
Application
Structure
Construction
CA / Gamme / Jour
Exploitation
Axe d’analyse Période
(Année, trimestre, jour…)
Data mining
Conclusion
Axe d’analyse Produit (Gamme, produit unitaire)
SLICE
AND DICE
Axe d’analyse Client
(Secteur, famille, client…)
La mise en œuvre par MOLAP
Base
Multi
dimensionnelle
Vue multidimensionnelle
Introduction
Présentation
Application
CA / Gamme / Année
Structure
Construction
CA / Gamme / Mois
Exploitation
Data mining
Conclusion
CA / Gamme / Jour
Axe d’analyse Période
(Année, trimestre, jour…)
Axe d’analyse Produit (Gamme, produit unitaire)
La mise en œuvre par MOLAP
Introduction
Présentation
Avantages
Temps de réponse très court
Navigation facilitée
Application
Structure
Construction
Exploitation
Data mining
Conclusion
Limites
Stockage des données
Pré-agrégation des indicateurs
Volumes importants difficile à gérer
La mise en œuvre par ROLAP
Vue multidimensionnelle
Mapping Vue relationnelle
Introduction
Présentation
Application
Axe d’analyse Période
(Année, trimestre, jour…)
Structure
Construction
Exploitation
Data mining
Conclusion
Axe d’analyse Produit
(Gamme, produit unitaire)
CA / Gamme
/ Année
CA / Gamme / Jour
Base
relationnelle
La mise en œuvre par ROLAP
Introduction
Présentation
Application
Avantages
Axes d’analyse non nécessairement
pré-définis
Monde relationnel
Structure
Construction
Exploitation
Data mining
Conclusion
Limites
Temps de réponse
La mise en œuvre par HOLAP
Vue multidimensionnelle
Base
Multi
dimensionnelle
Base
relationnelle
SQL
dynamique
Introduction
Présentation
CA / Gamme / Année
Application
Structure
Construction
Exploitation
CA / Gamme / Mois
Axe d’analyse Période
(Année, trimestre, jour…)
Data mining
Conclusion
Axe d’analyse Produit (Gamme, produit unitaire)
CA / Gamme / Jour
DRILL
THROUGH
La mise en œuvre par HOLAP
Introduction
Avantages
Temps de réponse
Présentation
Application
Structure
Construction
Exploitation
Data mining
Conclusion
Limites
Gestion du passage du multidimensionnel
au relationnel
EXPLOITATION DE L’INFORMATION
La Business Intelligence
Introduction
Présentation
Les différents types d’utilisation et les
services de restitution
Application
Structure
Le reporting
Construction
Exploitation
L’accès libre service
Data mining
Conclusion
Analyse OLAP
Data warehouse centralisé ou data marts ?
Data warehouse centralisé ou data marts
Data
mart
Demande HOLAP
Introduction
Présentation
Demande ROLAP
Data
mart
Application
Structure
Construction
Demande MOLAP
Exploitation
Data mining
Conclusion
Requête
Data
mart
Demande de rapport
Data
warehouse
DATAMINING
Définition du Data minig
Introduction
Présentation
Processus
Application
Structure
Les techniques utilisées
Construction
Exploitation
Data mining
Conclusion
Choix des outils
Data warehouse centralisé ou data marts ?
Définition du Data mining
Data mining = Forage des données
Introduction
Présentation
Application
Structure
Construction
Exploitation
Data mining
Conclusion
Concepts et outils dérivés de l'intelligence
artificielle permettant d'analyser des données
pour en déduire, sans a priori, des corrélations.
DATAMINING
Définition
Introduction
Présentation
Processus
Application
Structure
Les techniques utilisées
Construction
Exploitation
Data mining
Conclusion
Choix des outils
Data warehouse centralisé ou data marts ?
Processus
Application
Structure
Construction
Exploitation
Data mining
Conclusion
Nbre d ’exemples
Présentation
Zone
optimale
Temps de
calcul trop
long
Multiplication
des
apprentissages
pour s ’assurer
de la stabilité
Trop peu
d ’exemples
par rapport à
la taille du
problème
-
Introduction
+
Extraction de l’information
-
Nbre de variables +
Processus
La sélection des données
Les actions sur les variables
Introduction
Présentation
Application
La recherche du modèle
Structure
Construction
Exploitation
Data mining
Conclusion
L’évaluation des résultats
DATAMINING
Définition
Introduction
Présentation
Processus
Application
Structure
Les techniques utilisées
Construction
Exploitation
Data mining
Conclusion
Choix des outils
Data warehouse centralisé ou data marts ?
Les techniques
Raisonnement à base de cas
Nouvelles
expériences
Expériences
passées
Introduction
Recherche de
cas similaires
Présentation
Application
Situation
Nouvelle
situation
Structure
Construction
Exploitation
Data mining
Conclusion
Solution et
explication
Adaptation
Amélioration de l’expérience
Solution
Les techniques
Les arbres de décisions
Décomposition de la durée d’un appel en sec.
Moyenne = 245,72
Écart type= 203,06
N= 1000 (100,0%)
Introduction
Revenu
Présentation
Application
Structure
<= 30000
> 30000
Moyenne = 241,02
Écart type= 137,51
N= 9403 (94,0%)
Moyenne = 319,76
Écart type= 622,60
N= 597 (6,0%)
Construction
Exploitation
Data mining
Possède un PC
Conclusion
Non
Oui
Moyenne = 234,94
Écart type= 150,85
N= 422 (4,2%)
Moyenne = 524,31
Écart type= 1101,43
N= 175 (1,8%)
Les techniques
Les algorithmes génétiques
Chromosomes = 10111
Introduction
Présentation
Application
Structure
Construction
Hybridation
01 010
⇒
10 101
⇒
10 010
01 101
Mutation
01 0 10
⇒
01 1 10
Inversion
01 010
⇒
10 010
Exploitation
Data mining
Conclusion
Les techniques
Les réseaux de neurones
Introduction
Présentation
Application
Structure
Construction
Exploitation
Data mining
Conclusion
Neurones
d’entrée
Neurones
cachés
Neurones
de sortie
Les techniques
Introduction
Présentation
Les associations
Ensemble de règles conditionnelles de
type:
Si A <opérateur> B
Alors C
Application
Structure
Construction
Exploitation
Data mining
Conclusion
Exemple
Si achat SALADE Et TOMATE
Alors achat HUILE
Les techniques
Evaluation: analyse de tickets de caisses
Ticket 1
Introduction
Présentation
Application
Farine
Sucre
Lait
Ticket 2
Ticket 3
Ticket 4
Œufs
Sucre
Chocolat
Farine
Œufs
Sucre
Chocolat
Œufs
Oeufs
Chocolat
Thé
Structure
Construction
Exploitation
Data mining
Conclusion
Niveau de confiance de l’association Oeufs
Farine ⇒
⇒ Chocolat
Sucre : 100%
: 100%
Niveau de support de l’association Farine ⇒ Sucre : 66.6%
Niveau de support de l’association Oeufs ⇒ Chocolat : 100%
Association réversible
Les techniques
Introduction
Présentation
Utilisations principales
Analyse de tickets de caisses
Diagnostiques de crédits
Application
Structure
Construction
Exploitation
Avantage
Facilement compréhensible
Data mining
Conclusion
Inconvénient
Le volume de calcul croit au carré ou au
cube avec le volume de données de
crédits
DATAMINING
Définition
Introduction
Présentation
Processus
Application
Structure
Les techniques utilisées
Construction
Exploitation
Data mining
Conclusion
Choix des outils
Data warehouse centralisé ou data marts ?
Le choix d’un outils
Apprécier la pertinence des données
Introduction
Présentation
Obtenir des modèles sans modifier les
données
Application
Structure
Le traitement du volume de données
Construction
Exploitation
Data mining
Conclusion
Plusieurs types de variables et de les
travailler
La possibilité d'utiliser plusieurs
techniques de data mining
Le choix d’un outil
La qualité d'ajustement du résultat
Introduction
Présentation
Application
Structure
Facilité de compréhension du résultat
L’introduction des résultats dans les
systèmes de gestion
Construction
Exploitation
La volonté de l'entreprise à s'investir
Data mining
Conclusion
Le prix
Les impacts sur l'organisation de
l'entreprise
DATAMINING
Définition
Introduction
Présentation
Processus
Application
Structure
Les techniques utilisées
Construction
Exploitation
Data mining
Conclusion
Choix des outils
Data warehouse centralisé ou data marts ?
CONCLUSION GENERALE
Problématique :
Introduction
Pour capitaliser ses informations, une entreprise doit-elle commencer par
mettre en œuvre des Data marts puis évoluer vers un Data warehouse ou
commencer tout de suite par un Data warehouse ?
Présentation
Application
Structure
Construction
Les avantages et inconvénients du data
warehouse centralisé
Exploitation
Conclusion
Les avantages et inconvénients des data marts
Notre réponse
Le data warehouse centralisé
Avantages et Inconvénients
Introduction
Présentation
Application
Structure
Construction
Exploitation
Conclusion
Demande une coopération étroite entre les
différents acteurs
Demande énormément de ressources
financières et de compétences
Facilite l’uniformisation par une administration
unique
Les data marts
Avantages et Inconvénients
Introduction
Présentation
Application
Structure
Construction
Exploitation
Conclusion
Permet de commencer petit pour voir grand
(notion de projet pilote)
Faciliter de mise en place
Permet d’utiliser des outils spécialisés sur le
thème métier de chaque Data mart
Notre réponse
Les directions organisationnelles sont
demandeurs et pressées
Introduction
Présentation
Application
Créer un environnement centralisé pose des
problèmes de gigantisme
Structure
Construction
Grouper les thèmes ne semble pas nécessaire
Exploitation
Conclusion
Aujourd’hui, les restrictions budgétaires font que
souvent, seuls les data marts voient le jour…
Questions / Réponses
Introduction
Présentation
Application
Structure
Construction
Exploitation
Conclusion
Annexes
Introduction
Présentation
Application
Structure
Construction
Exploitation
Conclusion
Annexe 1 Répartion des licences
Introduction
Présentation
Application
Structure
Construction
IDC 2001
Exploitation
Conclusion
Répartition des licences du marché par type d’outils
pour l’année 2000
Annexe 2 Répartition du marché
Introduction
Présentation
Application
Structure
Construction
IDC 2001
Exploitation
Conclusion
Répartition du marché entre les éditeurs et les SSII
pour l’année 2000
Annexe 3 Quelques ouvrages
Introduction
Présentation
Application
Structure
Construction
Exploitation
Conclusion
Quelques ouvrages :
Jean-Michel FRANCO & Sandrine DE LIGNEROLLES – Eyrolles – 2000
« Piloter l’entreprise grâce au data warehouse »
R. KIMBALL & L. REEVES & M. ROSS & W. THORNTHWAITE – Eyrolles – 2000
« Concevoir et déployer un data warehouse »
R. LEFEBURE & G VENTURI – Eyrolles - 1999
« Le Data Mining »
ANNEXE 4 Tableau comparatif OLTP/OLAP
On Line Transaction
Processing
On Line Analytical
Processing
Caractéristique
Base opérationnelle
Base décisionnelle
Utilisateurs
La majorité de l’entreprise
Quelques décideurs
Mises à jour
Au fil de l’eau, générées
surtout par les utilisateurs
De nuit et week-end, par lot
(extraction)
Application
Fréquence d’accès
Continue, Pics de charge
Sur demande des utilisateurs
Structure
Performances
Rapidité impérative
Charge dépend des requêtes
Construction
Modèle principal des
données
Normalisé ( 3NF )
Dimensionnel (en étoile, en
flocon)
Origine des données
Application unique
Sources multiples possibles
Souplesse d’accès au
données
Faible, accès par programmes
Grande, accès par requêtes
d’application
Besoins en données
Bien compris
Flou, travail de recherche
Ancienneté des données
Récente
Historisée
Taille de la base :
100 MB à 1GB
1 GB à 1 TB
Introduction
Présentation
Exploitation
Data mining
Conclusion
Téléchargement