Certificat Big Data – Outils pour le cloud TP1: Débuts avec

Téléchargement

Certiﬁcat Big Data – Outils pour le cloud

TP1: Débuts avec Hadoop

Olivier Schwander <[email protected]>

1 Clefs en main

Note : sur les machines virtuelles, lancer la commande suivante pour installer un compilateur java :

sudo apt-get install default-jdk

Système de ﬁchier distribué Les données traitées par un programme Hadoop doivent être

stockée sur HDFS, le système de ﬁchiers distribué fourni par Hadoop.

Création d’un répertoire hadoop fs -mkdir /chemin/du/répertoire

Liste des ﬁchiers hadoop fs -ls /chemin/du/répertoire

Copier vers HDFS hadoop fs -copyFromLocal /chemin/source /chemin/destination

Depuis vers HDFS hadoop fs -copyToLocal /chemin/source /chemin/destination

Question 1.1

Créer un répertoire HDFS puis copier des données depuis votre machine vers ce répertoire. Lister

le contenu de ce répertoire. Recopier les données vers votre machine.

Question 1.2

Il y a une arnaque. Trouvez-là. Où sont les données ?

Lancement d’un programme On va maintenant lancer un programme MapReduce déjà com-

pilé. Le lancement d’une tâche se fait de la façon suivante :

/opt/hadoop-2.6.3/bin/hadoop jar /chemin/vers/bibliothèque.jar NomDeLaClasse [arguments]

Par exemple, pour lancer le programme WordCount contenu dans la bibliothèque d’exemples fournis

avec Hadoop, on utilise :

/opt/hadoop-2.6.3/bin/hadoop jar \

/opt/hadoop-2.6.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.3.jar \

WordCount input/ output/

Note : la commande précédente est à taper sur une seule ligne, sans les \.

Question 1.3

Lancer le programme et observer les ﬁchiers générés.

Compilation d’un programme Télécharger le ﬁchier source Java http://www-connex.lip6.

fr/~schwander/enseignement/2015-2016/m2bigdata_cloud/WordCount.java.

La première étape est de compiler le ﬁchier WordCount.java avec :

javac -cp $(/opt/hadoop-2.6.3/bin/hadoop classpath) WordCount.java

La partie dans le $(...) appelle une commande qui renvoie les arguments à donner au compilateur

Java (javac) pour que la compilation fonctionne (on peut lancer directement hadoop classpath

pour voir ces arguments).

La deuxième étape est de créer une bibliothèque (le ﬁchier .jar), avec la commande suivante

jar cf wc.jar WordCount*.class

/opt/hadoop-2.6.3/bin/hadoop jar \

wc.jar \

WordCount input/ output2/

Question 1.4

Compiler la bibliothèque à partir du ﬁchier source.

Question 1.5

Lancer le programme qui vient d’être compilé. Comparer les résultats générés par les deux pro-

grammes.

2 À vous

On veut désormais calculer des moyennes d’étudiants. Télécharger le ﬁchier http://www-connex.

lip6.fr/~schwander/enseignement/2015-2016/m2bigdata_cloud/notes.zip contenant les notes

d’étudiants pour diﬀérentes matières.

Chaque ﬁchier est de la forme (nom, matière, coefficient, note), chaque colonne étant séparée

par une tabulation ("\t") :

Etudiant 1 math 5 4

Etudiant 2 math 5 12

Etudiant 3 math 5 9

Etudiant 4 math 5 12

Etudiant 5 math 5 10

Etudiant 6 math 5 13

Etudiant 7 math 5 20

Etudiant 8 math 5 16

Etudiant 9 math 5 7

Etudiant 10 math 5 1

Question 2.1

En utilisant le ﬁchier WordCount.java comme base, écrire un programme MapReduce pour calculer

la moyenne de chaque étudiant. On ignorera les coeﬃcients de pondération.

Note : la documentation Hadoop est disponible à l’adresse https://hadoop.apache.org/docs/

r2.6.3/api/index.html. Par exemple, pour la classe Text :https://hadoop.apache.org/docs/

r2.6.3/api/org/apache/hadoop/io/Text.html. La documentation Java est disponible à l’adresse

http://docs.oracle.com/javase/7/docs/api/. Par exemple pour la classe String :http://

docs.oracle.com/javase/7/docs/api/java/lang/String.html.

Question 2.2

Comment adapter le programme pour faire une moyenne pondérée ?

Question 2.3

Comment trouver l’étudiant avec la meilleure moyenne ?

1 / 3 100%

Documents connexes

Ateliers Page 2 Mardi 30 Juin matin matin après-midi

voir le détail de l`offre

Data Engineer

TP 2 - 10/10/2016

François Royer 06 72 33 75 02 TIC Valley 425, rue Jean

Formation Hadoop : Déployer du Big Data à Nantes, à Paris, à Lyon

Mise en page 1

Hadoop calcul moyenne mobile

Stage IT Quant Big Data

L`implémentation Big Data

tp1

Hadoop par la pratique

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Certificat Big Data – Outils pour le cloud TP1: Débuts avec

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Certificat Big Data – Outils pour le cloud TP1: Débuts avec

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib