Telechargé par hamid ouhnni

hadoop (1)

publicité
Master Spécialisé
Ingénierie de Données et Développement Logiciel
BIG DATA ANALYTICS
Apache Hadoop Labs
L’objectif de de ce TP 1 – Hadoop MapReduce : est de coder une application
MapReduce en utilisant Java, cette application a pour but de trouver la
température moyenne mensuelle la plus élevée.
Après le téléchargement des outils nécessaires (VMware Workstation,
Machine viruelle VMWare Cloudera CDH, Putty, WinSCP), nous configurons
les paramètres réseau de la machine virtuelle
Nous démarrons notre machine virtuelle et nous récupérons son adressage
ip.
Nous se connectons sur notre machine via SSH depuis le client putty
On se loge en utilisant le login Cloudera et le mot de passe cloudera
Nous configurons le client WInSCP de la façon suivante afin de pouvoir
transférer les fichiers.
TP1
Charger et examiner les données de l'échantillon (Sample Data)
Sur Putty :
Nous transférons le fichier BDU_MapReduce_and_YARN.tar sur notre
machine via winSCP
Nous téléchargeons les données de température vers HDFS
Démarrage du Projet Java
Créons un répertoire contenant les trois fichiers Java que nous allons créer
et rendez-le accessible. Le répertoire sera utilisé pour contenir les artefacts
du programme et pour le séparer des autres éléments du système de
fichiers.
Classe Mapper
Nous créons un nouveau fichier Java MaxTempMapper.java
Classe Reducer
Le Driver
Compilation et création du fichier JAR
Nous lançons notre fichier JAR
Ajoutons la fonction combiner
Nous relançons l’application en utilisant l’utilisateur HDFS
Téléchargement