Big Data et MapReduce - Démonstration avec Hadoop

publicité
Big Data et MapReduce
Démonstration avec Hadoop
Marion Dalle
1/9
Problématique et enjeu du Big Data
Explosion de la quantité de données
1969 : 32KB pour marcher sur la lune
2013 : 8GB de RAM dans mon ordinateur
Enjeu économique sur leur traitement
Traitement en base de données dépassé
2/9
Qu’est ce que MapReduce ?
⇒ Patron d’architecture de développement informatique pour la
calcul parallèle et distribué de données importante
Grands utilisateurs :
Google, qui l’a rendu célèbre
Amazon
Facebook
3/9
Utilisation du MapReduce
Grep distribué
Tri distribué
Inversion de graphe des liens webs
Classification automatique
Traduction automatique
4/9
Fonctionnement Map et Reduce
Map
<clé,valeur> → liste<clé,valeur>
Reduce
<clé,liste(valeur)> → liste(valeur)
5/9
Déroulement de l’algorithme
6/9
Déroulement de l’algorithme
6/9
Déroulement de l’algorithme
6/9
Déroulement de l’algorithme
6/9
Déroulement de l’algorithme
6/9
Déroulement de l’algorithme
6/9
Déroulement de l’algorithme
6/9
Maître/Esclave
7/9
Inconvénients
Pas de SQL
Mémoriser et parser les données pour les transformer en objet
Un seul flot de données
Méthode bloquante
Aucune optimisation du transfert
Performances
8/9
Questions ?
9/9
Téléchargement