Data Warehouse and Datamining Entrepôts de Données et Fouille de Données Université d'Alexandrie, Faculté de Commerce, les 17 et 18 Décembre 2011 1 Plan Introduction Entrepôts de données Datamarts Architecture Modélisation Bases de données multidimensionnelles Fouille de données Marché du décisionnel 2 Le contexte Besoin: prise de décisions stratégiques et tactiques Pourquoi: besoin de réactivité Qui: les décideurs (non informaticiens) Comment: répondre aux demandes d’analyse des données, dégager des informations qualitatives nouvelles Qui sont mes meilleurs clients? Quels algériens consomment beaucoup de poisson? Pourquoi et comment le chiffre d’affaire a baissé? A combien s’élèvent mes ventes journalières? 3 Les données utilisables par les décideurs Données opérationnelles (de production) Bases de données (Oracle, SQL Server) Fichiers, … Gestion des RH, gestion des commandes… Caractéristiques de ces données: Distribuées: systèmes éparpillés Hétérogènes: systèmes et structures de données différents Détaillées: organisation des données selon les processus fonctionnels, données surabondantes pour l’analyse Peu/pas adaptées à l’analyse : les requêtes lourdes peuvent bloquer le système transactionnel Volatiles: pas d’historisation systématique 4 Problématique Comment répondre aux demandes des décideurs? En donnant un accès rapide et simple à l’information stratégique En donnant du sens aux données Mettre en place un système d’information dédié aux applications décisionnelles: un Data Warehouse 5 Le processus de prise de décision Champs d’application des systèmes décisionnels Définir le Rassembler Analyser les Établir des Décider solutions problème les données données Temps de prise d’une décision 6 Le processus de prise de décision Prise de décision Bases de production Data warehouse Base multi dimensionnelle Prédiction / simulation 7 Domaines d’utilisation des DW Banque Risques d’un prêt, prime plus précise Santé Épidémiologie Risque alimentaire Commerce Ciblage de clientèle Déterminer des promotions Logistique Adéquation demande/production Assurance Risque lié à un contrat d’assurance (voiture) … 8 Quelques métiers du décisionnel Strategic Performance Management Déterminer et contrôler les indicateurs clé de la performance de l’entreprise Finance Intelligence Planifier, analyser et diffuser l’information financière. Mesurer et gérer les risques Human Capital Management (gestion de la relation avec les employés) Aligner les stratégies RH, les processus et les technologies. Customer Relationship Management (gestion de la relation client) Améliorer la connaissance client, identifier et prévoir la rentabilité client, accroitre l’efficacité du marketing client Supplier Relationship Management (gestion de la relation fournisseur) Classifier et évaluer l’ensemble des fournisseurs. Planifier et 9 piloter la stratégie Achat. Plan Introduction Entrepôts de données Datamarts Architecture Modélisation Bases de données multidimensionnelles Fouille de données Marché du décisionnel 10 Définition W. H. Inmon (1996): « Le Data Warehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d’un processus d’aide à la décision » 11 Les 4 caractéristiques d'un data warehouse 1. Données orientées sujet: Regroupe les informations des différents métiers Ne tiens pas compte de l’organisation fonctionnelle des données Ass. Vie Ass. Auto Ass. Santé Client Police 12 Les 4 caractéristiques des data warehouse 2. Données intégrées: Normalisation des données Définition d’un référentiel unique h,f 1,0 h,f homme, femme GBP CHF USD EUR 13 Les 4 caractéristiques des data warehouse 3. Données non volatiles Traçabilité des informations et des décisions prises Copie des données de production Bases de production Entrepôts de données Ajout Suppression Accès Modification Chargement 14 Les 4 caractéristiques des data warehouse 4. Données datées Les données persistent dans le temps Mise en place d’un référentiel temps Image de la base en Mai 2010 Image de la base en Juillet 2011 Répertoire Répertoire Base de production Nom Ville Nom Ville Med Alger Med Oran Ali Cne Ali Cne Répertoire Calendrier Entrepôt de données Code Année Mois Année Code Nom Mois Ville 1 2005 Mai 1 Med Alger 2 2006 Juillet 1 Ali Cne 15 2 Med Oran Plan Introduction Entrepôts de données Datamarts Architecture Modélisation Bases de données multidimensionnelles Fouille de données Marché du décisionnel 16 Datamarts Sous-ensemble d’un entrepôt de données Destiné à répondre aux besoins d’un secteur ou d’une fonction particulière de l’entreprise Point de vue spécifique selon des critères métiers Datamart du service Marketing DW de l’entreprise Datamart du service Ressources Humaines 17 Intérêt des Datamarts Nouvel environnement structuré et formaté en fonction des besoins d’un métier ou d’un usage particulier Moins de données que DW Plus facile à comprendre, à manipuler Amélioration des temps de réponse Utilisateurs plus ciblés: DM plus facile à définir 18 Plan Introduction Entrepôts de données Datamart Architecture Modélisation Bases de données multidimensionnelles Fouille de données Marché du décisionnel 19 Architecture générale Zone de stockage Zone de préparation E X T R A C T I O N Sources de données Transformations: Nettoyage Standardisation … C H A R G E M E N T Data warehouse Zone de présentation Requêtes Rapports Visualisation Data Mining … Datamart 20 Plan Introduction Entrepôts de données Datamart Architecture Modélisation Bases de données multidimensionnelles Fouille de données Marché du décisionnel 21 Modélisation des DW Nouvelle méthode de conception autour des concepts métiers Ne pas normaliser au maximum Introduction de nouveaux types de table: Table de faits Table de dimensions Introduction de nouveaux modèles: Modèle en étoile Modèle en flocon 22 Table de faits Table principale du modèle dimensionnel Contient les données observables (les faits) sur le sujet étudié selon divers axes d’analyse (les dimensions) Clés étrangères vers les dimensions Faits Table de faits des ventes Clé date (CE) Clé produit (CE) Clé magasin (CE) Quantité vendue Coût Montant des ventes 23 Table de faits (suite) Fait: Ce que l’on souhaite mesurer Quantités vendues, montant des ventes… Contient les clés étrangères des axes d’analyse (dimension) Date, produit, magasin 24 Table de dimension Axe d’analyse selon lequel vont être étudiées les données observables (faits) Contient le détail sur les faits Clé de substitution Attributs de la dimension Dimension produit Clé produit (CP) Code produit Description du produit Famille du produits Marque Emballage Poids 25 La dimension Temps Commune à l’ensemble du DW Reliée à toute table de faits Dimension Temps Clé temps (CP) Jour Mois Trimestre Semestre Année Num_jour_dans_année Num_semaine_ds_année 26 Les types de modèles Modèle en étoile Modèle en flocon 27 Modèle en étoile Une table de fait centrale et des dimensions Les dimensions n’ont pas de liaison entre elles Avantages: Facilité de navigation Nombre de jointures limité Inconvénients: Redondance dans les dimensions Toutes les dimensions ne concernent pas les mesures 28 Modèle en étoile Dimension Magasin ID magasin description ville surface … Dimension Region ID région pays description district vente …. Dimension Temps ID temps année mois jour … Table de faits Achat ID client ID temps ID magasin ID région ID produit Quantité achetée Montant des achats Dimension produit ID produit nom code prix poids groupe famille … Dimension Client ID client nom prénom adresse … 29 Modèle en flocon Une table de fait et des dimensions décomposées en sous hiérarchies On a un seul niveau hiérarchique dans une table de dimension La table de dimension de niveau hiérarchique le plus bas est reliée à la table de fait. On dit qu’elle a la granularité la plus fine Avantages: Normalisation des dimensions Économie d’espace disque Inconvénients: Modèle plus complexe (jointure) Requêtes moins performantes 30 Modèle en flocon Dimension Magasin ID magasin description ville surface … Dimension Temps ID temps annee mois jour … Dimension Region ID région ID division vente pays description …. Dimension Division vente ID division vente description …. Dimension produit ID produit ID groupe nom code prix poids … Table de faits Achat ID client ID temps ID magasin ID région ID produit Quantité achetée Montant des achats Dimension Client ID client nom prénom adresse … Dimension groupe ID groupe ID famille nom … Dimension Famille ID famille nom … 31 Plan Introduction Entrepôts de données Datamart Architecture Modélisation Bases de données multidimensionnelles Fouille de données Marché du décisionnel 32 Base de Données Multidimensionnelles Produits oranges poires Produit PK id_produit Espagne Allemagne dattes Libellé Famille Pays Achat France PK id_achat FK id_client client PK id_client Nom id_produit Quantité janvier avril février Temps Vente de dattes en Allemagne en avril adresse 33 Plan Introduction Entrepôts de données Les Datamarts Architecture Modélisation Bases de données multidimensionnelles Fouille de données Marché du décisionnel 34 Pourquoi Fouiller les Données (1) De nombreuses données sont collectées et entreposées: Données du Web, e-commerce Achats dans les supermarchés Transactions de cartes bancaires Les ordinateurs deviennent de moins en moins chers et de plus en plus puissants La pression de la compétition est de plus en plus forte Fournir de meilleurs services, s’adapter aux clients 35 Pourquoi Fouiller les Données (2) Les données sont collectées et stockées rapidement (GB/heures) Capteurs Télescopes Puces à ADN générant des expressions de gènes Simulations générant des téraoctets de données ….. 36 Pourquoi Fouiller les Données (3) Les techniques traditionnelles ne sont pas adaptées Volume de données trop grands (trop de tuples, trop d’attributs) Comment explorer des millions d’enregistrements avec des milliers d’attributs ? Besoins de répondre rapidement aux opportunités Requêtes traditionnelles (SQL) impossibles Rechercher tous les enregistrements indiquant une fraude 37 Un Enjeu Stratégique Déterminer les moyens pour fidéliser les clients Identifier les nouveaux marchés Anticiper les changements de comportement Minimiser les risques Identifier les nouveaux produits ou services 38 Qu'est-ce que le Data Mining? Frawley et Piatesky-Shapiro "l'extraction d'informations originales, auparavant inconnues, potentiellement utiles à partir de données" John Page "la découverte de nouvelles corrélations, tendances et modèles par le tamisage d'un large volume de données" Kamran Parsaye "un processus d'aide à la décision où les utilisateurs cherchent des modèles d'interprétation dans les données" Dimitris Chorafas "torturer l'information disponible jusqu'à ce qu'elle avoue" 39 Processus d'ECD (KDD) 40 Techniques de Fouille de Données (1) Méthodes non-supervisées Extraire des informations nouvelles et originales (aucun attribut n’est plus important qu’un autre) Analyse du résultat fourni (retenu ou rejeté) Isoler l’information utile Constituer des groupes homogènes d’objets (grouper des patients qui ont le même comportement). 41 Techniques de Fouille de Données (2) Exemples Réseau de Neurones Recherche des K Plus Proches Voisins Recherche d'Associations (Règles Associatives) … 42 Techniques de Fouille de Données (3) Méthodes supervisées Découverte de règles ou formules (patterns) pour ranger les données dans des classes prédéfinies Processus en deux étapes Construction d'un modèle sur les données dont la classe est connue (training data set) Utilisation pour classification des nouveaux arrivants 43 Techniques de Fouille de Données (2) Exemples Discrimination linéaire Régression Arbres de décision Machines à vecteur de support (SVM) … 44 Domaines d'Application Médecine: biomédecine, drogue, Sida, séquence génétique, gestion hôpitaux, ... Finance, assurance: crédit, prédiction du marché, détection de fraudes, … Social: données démographiques, votes, résultats des élections, Marketing et ventes: comportement des utilisateurs, prédiction des ventes, espionnage industriel, … Militaire: fusion de données .. (secret défense) Astrophysique: astronomie, … Informatique: agents, IHM, réseau, DataWarehouse, Internet (moteurs intelligent, text mining, …) 45 Plan Introduction Entrepôts de données Les Datamarts Architecture Modélisation Bases de données multidimensionnelles Fouille de données Marché du décisionnel 46 Le marché du décisionnel SAP/Business Objects 22,4% Oracle 14,5% SAS Institute 14,2% IBM 12,2% Microsoft 7,9% Microstrategy 3,2% 47 Quelques solutions commerciales 48 Quelques solutions open source ETL Entrepôt de données OLAP Octopus MySql Mondrian Birt Weka Kettle Postgresql Palo R-Project CloverETL Greenplum/Biz Talend gres Reporting Open Report Data Mining Jasper Report Orange JFreeReport Xelopes Intégré Pentaho (Kettle, Mondrian, JFreeReport, Weka) SpagoBI 49 50