L’algorithme MapReduce: son rôle dans la révolution des Big Data Guillaume Poulain MapReduce : un algorithme simple… data 2 map (Key,Value) sort (Ki,V1,V2,…,VN) reduce output …une implémentation géniale… Idées et concepts de Google MapReduce: Simplified Data Processing on Large Clusters Jeffrey Dean and Sanjay Ghemawat (2004) Compute nodes Storage nodes Fast The Google File System Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung (2003) Structure d data Data Extraction Slow Raw data Raw data Raw data Raw data Raw data Raw data Raw Data Compute and storage nodes Archives 3 …une implémentation géniale, Open Source,… 4 …une implémentation géniale, Open Source et intégrée Yarn (K1,V1) HDFS IMPORT Initial Dataset (K1,V2) 5 (K1,(V1,V2)) Conclusion Beaucoup d’algorithmes peuvent être implémentés en MapReduce Les développements sont concentrés dans les fonctions Map et Reduce Le parallélisme est implicite Hadoop peut traiter des gros volumes, est Open Source (fondation Apache), stable et tolèrent aux pannes Hadoop fonctionne sur des architectures standard et passe à l’échelle MapReduce = Démocratisation du calcul distribué 6