Hadoop - Semaine 5

Téléchargement

Hadoop - Semaine 5

Pierre Nerzic

février-mars 2017

1 / 29 Pierre Nerzic

Hadoop - Semaine 5

Le cours de cette semaine présente le système de programmation

Spark, un autre mécanisme de Hadoop pour écrire des programmes

de type MapReduce, nettement plus performants et plus polyvalents

que ceux basés sur YARN. Nous programmerons sur Spark en

Python, mais d’autres langages sont possibles.

2 / 29 Pierre Nerzic

Hadoop - Semaine 5

Introduction

3 / 29 Pierre Nerzic

Hadoop - Semaine 5

Introduction

Présentation de Spark

Spark est une API de programmation parallèle sur des données.

L’objet principal de Spark est le RDD : Resilient Distributed

Dataset. C’est un dispositif pour traiter une collection de données

par des algorithmes parallèles robustes. Un RDD ne contient pas

vraiment de données, mais seulement un traitement.

Ce traitement n’est eﬀectué que lorsque cela apparaît nécessaire.

On appelle cela l’évaluation paresseuse. D’autre part, Spark fait en

sorte que le traitement soit distribué sur le cluster, donc calculé

rapidement, et n’échoue pas même si des machines tombent en

panne.

4 / 29 Pierre Nerzic

Hadoop - Semaine 5

Introduction

Intérêts de Spark

Spark permet d’écrire des traitements complexes composés de

plusieurs phases map-reduce. On peut le faire également avec

YARN, mais les données issues de chaque phase doivent être

stockées sur HDFS, pour être réutilisées immédiatement après dans

la phase suivante. Cela prend beaucoup de temps et d’espace.

Les jobs YARN sont assez longs à lancer et exécuter. Il y a des

temps de latence considérables.

Au contraire, Spark utilise beaucoup mieux la mémoire centrale des

machines du cluster et gère lui-même l’enchaînement des tâches.

Les traitements peuvent être écrits dans plusieurs langages : Scala,

Java et Python. On utilisera ce dernier pour sa simplicité

pédagogique et le fait que vous l’apprenez dans d’autres cours.

5 / 29 Pierre Nerzic

1 / 29 100%

Documents connexes

Titre: Requêtes sur les grandes bases de connaissance

20170120_Ecole_Spark

Ateliers Page 2 Mardi 30 Juin matin matin après-midi

Faire tomber la stigmatisation liée aux troubles de l`alimentation

Stage Développeur C

humide

Data Engineer

voir le détail de l`offre

Entretenir écologiquement sa pelouse en milieu riverain.

Fiche de Poste: Analyste Programmeur Big Data (H/F)

Ateliers de Technologies des Grosses Données

Intégration de données géo-localisées satellitaires dans une

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d'utilisation

Hadoop - Semaine 5

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Hadoop - Semaine 5

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib