Parallélisation de certains algorithmes de Data Mining en utilisant le

publicité
Parallélisation de certains algorithmes de Data
Mining en utilisant le framework MapReduce
Proposition de projet de fin d’études - option IAD
LARIS-EISTI
Maria Malek
Description
Le traitement des données massives est un thème très fédérateur aujourd’hui. Nous nous intéressons dans le cadre de ce stage à l’étude de la parallélisation de certains algorithmes de fouille de données afin de faire face à la
problématique de la performance liée à la masse incrémentale des données.
Deux algorithmes non supervisés sont étudiés : le premier algorithme est l’algorithme k-means, ainsi que la variante k-medoid dont le but est de chercher
à segmenter un ensemble de données de façon à regrouper les données similaires dans une même catégorie. Le deuxième algorithme est l’algorithme
Apriori dont le but est de chercher les associations (entre les items) dans
une base de transactions [1]. Nous étudions et expérimentons également les
implémentations parallèles de ces deux algorithme dans un environnement
"cloud" en utilisant le framework MapReduce.
Dans un deuxième temps, nous étudions une nouvelle proposition de l’algorithme Apriori dont le but est la recherche des sous-ensembles fréquents à
partir des centroides. Nous proposons une parallélisation de cette version sur
MapReduce [3]. Un bilan d’expérimentations est finalement défini et réalisé
afin de démontrer l’amélioration des performances attendue.
Etapes et réalisations
Nous présentons les étapes de l’étude ainsi que les réalisations attendues :
1. Etude du framework MapReduce et installation [6].
2. Etude des implémentations de k-means et de FPGrowth et expérimentations [7, 4, 2]
1
3. Etude de la proposition d’une version parallèle de l’algorithme Apriori
amélioré [5].
4. Implémentation sur MapReduce et expérimentations.
Mots Clés
DataMining, MapReduce, Règles d’association, Segmentation.
Références
[1] Rakesh Agrawal and Ramakrishnan Srikant. Fast algorithms for mining
association rules in large databases. In VLDB, pages 487–499, 1994.
[2] Cheng-Tao Chu, Sang Kyun Kim, Yi-An Lin, YuanYuan Yu, Gary R.
Bradski, Andrew Y. Ng, and Kunle Olukotun. Map-reduce for machine
learning on multicore. In NIPS, pages 281–288, 2006.
[3] Jeffrey Dean and Sanjay Ghemawat. Mapreduce : Simplified data processing on large clusters. In OSDI, pages 137–150, 2004.
[4] Wei Jiang, Vignesh T. Ravi, and Gagan Agrawal. A map-reduce system
with an alternate api for multi-core environments. In CCGRID, pages
84–93, 2010.
[5] Maria Malek and Hubert Kadima. Searching frequent itemsets by clustering data : towards a parallel approach using mapreduce. In Web Information System Engineering 2011 and 2012 Combined Workshops, LNCS
7652 proceeding, pages 251–258. Springer, 2013.
[6] Owen Sean, Anil Robin, Dunning Ted, and Friedman Ellen. Mahout in
Action. Manning Publications, 1 edition, January 2011.
[7] Weizhong Zhao, Huifang Ma, and Qing He. Parallel k-means clustering
based on mapreduce. In CloudCom, pages 674–679, 2009.
2
Téléchargement