L`algorithme MapReduce: son rôle dans la révolution des Big Data

publicité
L’algorithme MapReduce:
son rôle dans la révolution des Big Data
Guillaume Poulain
MapReduce : un algorithme simple…
data
2
map
(Key,Value)
sort
(Ki,V1,V2,…,VN)
reduce
output
…une implémentation géniale…
 Idées et concepts de Google
MapReduce: Simplified Data Processing on Large Clusters
Jeffrey Dean and Sanjay Ghemawat (2004)
Compute nodes
Storage nodes
Fast
The Google File System
Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung (2003)
Structure
d data
Data
Extraction
Slow
Raw
data
Raw
data
Raw
data
Raw
data
Raw
data
Raw
data
Raw Data
Compute and storage nodes
Archives
3
…une implémentation géniale, Open Source,…
4
…une implémentation géniale, Open Source et intégrée
Yarn
(K1,V1)
HDFS
IMPORT
Initial
Dataset
(K1,V2)
5
(K1,(V1,V2))
Conclusion
 Beaucoup d’algorithmes peuvent être implémentés en MapReduce
 Les développements sont concentrés dans les fonctions Map et Reduce
 Le parallélisme est implicite
 Hadoop peut traiter des gros volumes, est Open Source (fondation
Apache), stable et tolèrent aux pannes
 Hadoop fonctionne sur des architectures standard et passe à l’échelle
MapReduce
=
Démocratisation du calcul distribué
6
Téléchargement