Gestion des données TP5: Datawarehouse

publicité
Gestion des données
TP5: Datawarehouse
Olivier Schwander <[email protected]>
27 février 2017
1
Lancement de PostgreSQL et de Kettle (rappels)
Lancement de PostgreSQL Ces consignes sont les mêmes que pour le TP1. Elles s’appliquent
aux machines Ubuntu 14.04 du chariot et des salles de TP et de la machine virtuelle fournie sur le
site.
Télécharger les fichier http://www-connex.lip6.fr/~schwander/enseignement/2016-2017/m2stat_
bi/start-pgsql.sh.
Dans un premier terminal : Changez le répertoire courant du terminal pour aller là où
vous avez enregistré le fichier. Par exemple, si vous avez enregistré le fichier dans le répertoire
~/Téléchargements :
cd ~/Téléchargements
Lancer le fichier start-pgsql.sh
sh start-sql.sh
Ce terminal n’est désormais plus utilisable, il affichera les messages du serveur.
Dans un second terminal : On crée une base de données sur le serveur, nommée datawarehouse :
createdb -h localhost -p 5433 datawarehouse
On peut ensuite accéder interactivement à la base avec le client :
psql -h localhost -p 5433 datawarehouse
La sortie devrait être la suivante :
psql (9.5)
Type "help" for help.
datawarehouse=#
Si la sortie est correcte, taper ctrl+d pour quitter le client.
1
Lancement de Kettle Dans un terminal, lancer les 3 commandes suivantes :
cd /opt/data-integration
sh spoon.sh
(Attention au \ dans la commande export, tout est à taper sur une seule ligne.)
2
Analyse des données
Télécharger le fichier http://www-connex.lip6.fr/~schwander/enseignement/2016-2017/m2stat_
gd/bug_report.xls. Ce fichier contient un extrait des rapports de bug du logiciel Pentaho. L’objectif est d’analyser les rapports en fonction du type de bug, de la personne en charge, de la priorité,
et du statut.
Question 2.1
Dessiner un schéma en étoile pour stocker ces données.
Question 2.2
Au cours de la vie du gestionnaire de bug, le type New Feature est renommé en Feature Request.
Proposer une stratégie pour gérer ça.
3
Stockage
On va commencer par stocker les données de façon naïve, sans schéma en étoile.
Question 3.1
Créer une table SQL pour stocker les rapports directement.
Question 3.2
Écrire une transformation Kettle pour charger le fichier (outil Extraction depuis fichier MS Excel )
et stocker les données dans la table créée précédemment (outil Insertion dans table).
Télécharger le fichier http://www-connex.lip6.fr/~schwander/enseignement/2016-2017/m2stat_
gd/fact_issue.sql et l’appliquer sur la base de donnée. Ce script crée l’ensemble des tables nécessaires pour le schéma en étoile.
2
Question 3.3
Écrire une transformation Kettle pour charger les données dans les tables du schéma en étoile (outil
Mise à jour dimension junk ).
Question 3.4
Adapter la transformation pour gérer le renommage de New Feature en Feature Request (outil
Dimension à variation lente).
3
Téléchargement