Gestion des données TP5: Datawarehouse Olivier Schwander <[email protected]> 27 février 2017 1 Lancement de PostgreSQL et de Kettle (rappels) Lancement de PostgreSQL Ces consignes sont les mêmes que pour le TP1. Elles s’appliquent aux machines Ubuntu 14.04 du chariot et des salles de TP et de la machine virtuelle fournie sur le site. Télécharger les fichier http://www-connex.lip6.fr/~schwander/enseignement/2016-2017/m2stat_ bi/start-pgsql.sh. Dans un premier terminal : Changez le répertoire courant du terminal pour aller là où vous avez enregistré le fichier. Par exemple, si vous avez enregistré le fichier dans le répertoire ~/Téléchargements : cd ~/Téléchargements Lancer le fichier start-pgsql.sh sh start-sql.sh Ce terminal n’est désormais plus utilisable, il affichera les messages du serveur. Dans un second terminal : On crée une base de données sur le serveur, nommée datawarehouse : createdb -h localhost -p 5433 datawarehouse On peut ensuite accéder interactivement à la base avec le client : psql -h localhost -p 5433 datawarehouse La sortie devrait être la suivante : psql (9.5) Type "help" for help. datawarehouse=# Si la sortie est correcte, taper ctrl+d pour quitter le client. 1 Lancement de Kettle Dans un terminal, lancer les 3 commandes suivantes : cd /opt/data-integration sh spoon.sh (Attention au \ dans la commande export, tout est à taper sur une seule ligne.) 2 Analyse des données Télécharger le fichier http://www-connex.lip6.fr/~schwander/enseignement/2016-2017/m2stat_ gd/bug_report.xls. Ce fichier contient un extrait des rapports de bug du logiciel Pentaho. L’objectif est d’analyser les rapports en fonction du type de bug, de la personne en charge, de la priorité, et du statut. Question 2.1 Dessiner un schéma en étoile pour stocker ces données. Question 2.2 Au cours de la vie du gestionnaire de bug, le type New Feature est renommé en Feature Request. Proposer une stratégie pour gérer ça. 3 Stockage On va commencer par stocker les données de façon naïve, sans schéma en étoile. Question 3.1 Créer une table SQL pour stocker les rapports directement. Question 3.2 Écrire une transformation Kettle pour charger le fichier (outil Extraction depuis fichier MS Excel ) et stocker les données dans la table créée précédemment (outil Insertion dans table). Télécharger le fichier http://www-connex.lip6.fr/~schwander/enseignement/2016-2017/m2stat_ gd/fact_issue.sql et l’appliquer sur la base de donnée. Ce script crée l’ensemble des tables nécessaires pour le schéma en étoile. 2 Question 3.3 Écrire une transformation Kettle pour charger les données dans les tables du schéma en étoile (outil Mise à jour dimension junk ). Question 3.4 Adapter la transformation pour gérer le renommage de New Feature en Feature Request (outil Dimension à variation lente). 3