i
Sommaire
De nos jours, les entreprises récoltent de plus en plus de données de sources différentes pour
construire une mine d’informations dans le but d’essayer de comprendre le comportement et le
besoin de leurs clients et utilisateurs. D’autres utilisent ces données pour aligner la vision de
l’entreprise et pour faciliter la prise de décisions.
Plusieurs solutions basés sur les entrepôts de données de type ROLAP existent sur le marché
où les données sont stockées principalement en mode relationnel et sous forme de schéma
étoile avec des tables de dimension et de fait. Ces entrepôts permettent une multitude
d’options d’analyses comme : le traitement analytique en ligne OLAP, les requêtes SQL, les
rapports ainsi que le forage des données.
Les problèmes de lenteur dans les entrepôts de données ROLAP commencent à manifester dès
que la quantité de données dans les tables faits et dimensions commence à grandir.
Aujourd’hui dans le domaine informatique, on parle beaucoup du « Big Data » et du
fameux « Framework » de calcul « Hadoop ». Ce dernier est conçu principalement pour des
calculs distribués de type « batch » en mode « offline » qui ne nécessite pas un résultat dans
l’immédiat.
Le but de l’essai est de concevoir et d’implémenter une solution basée sur Hadoop afin
d’interroger des données en mode SQL depuis un entrepôt de données ROLAP stocké sur un
système de fichier de type « HDFS ». Le but est de voir si on peut tirer un avantage en termes
de performances en utilisant l’écosystème de Hadoop.