Parallélisation de certains algorithmes de Data Mining en utilisant le

Parallélisation de certains algorithmes de Data
Mining en utilisant le framework MapReduce
Proposition de projet de fin d’études - option IAD
LARIS-EISTI
Maria Malek
Description
Le traitement des données massives est un thème très fédérateur aujour-
d’hui. Nous nous intéressons dans le cadre de ce stage à l’étude de la paral-
lélisation de certains algorithmes de fouille de données afin de faire face à la
problématique de la performance liée à la masse incrémentale des données.
Deux algorithmes non supervisés sont étudiés : le premier algorithme est l’al-
gorithme k-means, ainsi que la variante k-medoid dont le but est de chercher
à segmenter un ensemble de données de façon à regrouper les données si-
milaires dans une même catégorie. Le deuxième algorithme est l’algorithme
Apriori dont le but est de chercher les associations (entre les items) dans
une base de transactions [1]. Nous étudions et expérimentons également les
implémentations parallèles de ces deux algorithme dans un environnement
"cloud" en utilisant le framework MapReduce.
Dans un deuxième temps, nous étudions une nouvelle proposition de l’al-
gorithme Apriori dont le but est la recherche des sous-ensembles fréquents à
partir des centroides. Nous proposons une parallélisation de cette version sur
MapReduce [3]. Un bilan d’expérimentations est finalement défini et réalisé
afin de démontrer l’amélioration des performances attendue.
Etapes et réalisations
Nous présentons les étapes de l’étude ainsi que les réalisations attendues :
1. Etude du framework MapReduce et installation [6].
2. Etude des implémentations de k-means et de FPGrowth et expérimen-
tations [7, 4, 2]
1
3. Etude de la proposition d’une version parallèle de l’algorithme Apriori
amélioré [5].
4. Implémentation sur MapReduce et expérimentations.
Mots Clés
DataMining, MapReduce, Règles d’association, Segmentation.
Références
[1] Rakesh Agrawal and Ramakrishnan Srikant. Fast algorithms for mining
association rules in large databases. In VLDB, pages 487–499, 1994.
[2] Cheng-Tao Chu, Sang Kyun Kim, Yi-An Lin, YuanYuan Yu, Gary R.
Bradski, Andrew Y. Ng, and Kunle Olukotun. Map-reduce for machine
learning on multicore. In NIPS, pages 281–288, 2006.
[3] Jeffrey Dean and Sanjay Ghemawat. Mapreduce : Simplified data pro-
cessing on large clusters. In OSDI, pages 137–150, 2004.
[4] Wei Jiang, Vignesh T. Ravi, and Gagan Agrawal. A map-reduce system
with an alternate api for multi-core environments. In CCGRID, pages
84–93, 2010.
[5] Maria Malek and Hubert Kadima. Searching frequent itemsets by cluste-
ring data : towards a parallel approach using mapreduce. In Web Infor-
mation System Engineering 2011 and 2012 Combined Workshops, LNCS
7652 proceeding, pages 251–258. Springer, 2013.
[6] Owen Sean, Anil Robin, Dunning Ted, and Friedman Ellen. Mahout in
Action. Manning Publications, 1 edition, January 2011.
[7] Weizhong Zhao, Huifang Ma, and Qing He. Parallel k-means clustering
based on mapreduce. In CloudCom, pages 674–679, 2009.
2
1 / 2 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !