Master Spécialisé Ingénierie de Données et Développement Logiciel BIG DATA ANALYTICS Apache Hadoop Labs L’objectif de de ce TP 1 – Hadoop MapReduce : est de coder une application MapReduce en utilisant Java, cette application a pour but de trouver la température moyenne mensuelle la plus élevée. Après le téléchargement des outils nécessaires (VMware Workstation, Machine viruelle VMWare Cloudera CDH, Putty, WinSCP), nous configurons les paramètres réseau de la machine virtuelle Nous démarrons notre machine virtuelle et nous récupérons son adressage ip. Nous se connectons sur notre machine via SSH depuis le client putty On se loge en utilisant le login Cloudera et le mot de passe cloudera Nous configurons le client WInSCP de la façon suivante afin de pouvoir transférer les fichiers. TP1 Charger et examiner les données de l'échantillon (Sample Data) Sur Putty : Nous transférons le fichier BDU_MapReduce_and_YARN.tar sur notre machine via winSCP Nous téléchargeons les données de température vers HDFS Démarrage du Projet Java Créons un répertoire contenant les trois fichiers Java que nous allons créer et rendez-le accessible. Le répertoire sera utilisé pour contenir les artefacts du programme et pour le séparer des autres éléments du système de fichiers. Classe Mapper Nous créons un nouveau fichier Java MaxTempMapper.java Classe Reducer Le Driver Compilation et création du fichier JAR Nous lançons notre fichier JAR Ajoutons la fonction combiner Nous relançons l’application en utilisant l’utilisateur HDFS