Parallélisation de certains algorithmes de Data Mining en utilisant le framework MapReduce Proposition de projet de fin d’études - option IAD LARIS-EISTI Maria Malek Description Le traitement des données massives est un thème très fédérateur aujourd’hui. Nous nous intéressons dans le cadre de ce stage à l’étude de la parallélisation de certains algorithmes de fouille de données afin de faire face à la problématique de la performance liée à la masse incrémentale des données. Deux algorithmes non supervisés sont étudiés : le premier algorithme est l’algorithme k-means, ainsi que la variante k-medoid dont le but est de chercher à segmenter un ensemble de données de façon à regrouper les données similaires dans une même catégorie. Le deuxième algorithme est l’algorithme Apriori dont le but est de chercher les associations (entre les items) dans une base de transactions [1]. Nous étudions et expérimentons également les implémentations parallèles de ces deux algorithme dans un environnement "cloud" en utilisant le framework MapReduce. Dans un deuxième temps, nous étudions une nouvelle proposition de l’algorithme Apriori dont le but est la recherche des sous-ensembles fréquents à partir des centroides. Nous proposons une parallélisation de cette version sur MapReduce [3]. Un bilan d’expérimentations est finalement défini et réalisé afin de démontrer l’amélioration des performances attendue. Etapes et réalisations Nous présentons les étapes de l’étude ainsi que les réalisations attendues : 1. Etude du framework MapReduce et installation [6]. 2. Etude des implémentations de k-means et de FPGrowth et expérimentations [7, 4, 2] 1 3. Etude de la proposition d’une version parallèle de l’algorithme Apriori amélioré [5]. 4. Implémentation sur MapReduce et expérimentations. Mots Clés DataMining, MapReduce, Règles d’association, Segmentation. Références [1] Rakesh Agrawal and Ramakrishnan Srikant. Fast algorithms for mining association rules in large databases. In VLDB, pages 487–499, 1994. [2] Cheng-Tao Chu, Sang Kyun Kim, Yi-An Lin, YuanYuan Yu, Gary R. Bradski, Andrew Y. Ng, and Kunle Olukotun. Map-reduce for machine learning on multicore. In NIPS, pages 281–288, 2006. [3] Jeffrey Dean and Sanjay Ghemawat. Mapreduce : Simplified data processing on large clusters. In OSDI, pages 137–150, 2004. [4] Wei Jiang, Vignesh T. Ravi, and Gagan Agrawal. A map-reduce system with an alternate api for multi-core environments. In CCGRID, pages 84–93, 2010. [5] Maria Malek and Hubert Kadima. Searching frequent itemsets by clustering data : towards a parallel approach using mapreduce. In Web Information System Engineering 2011 and 2012 Combined Workshops, LNCS 7652 proceeding, pages 251–258. Springer, 2013. [6] Owen Sean, Anil Robin, Dunning Ted, and Friedman Ellen. Mahout in Action. Manning Publications, 1 edition, January 2011. [7] Weizhong Zhao, Huifang Ma, and Qing He. Parallel k-means clustering based on mapreduce. In CloudCom, pages 674–679, 2009. 2