Parallélisation de certains algorithmes de Data Mining en utilisant le

Téléchargement

Parallélisation de certains algorithmes de Data

Mining en utilisant le framework MapReduce

Proposition de projet de ﬁn d’études - option IAD

LARIS-EISTI

Maria Malek

Description

Le traitement des données massives est un thème très fédérateur aujour-

d’hui. Nous nous intéressons dans le cadre de ce stage à l’étude de la paral-

lélisation de certains algorithmes de fouille de données aﬁn de faire face à la

problématique de la performance liée à la masse incrémentale des données.

Deux algorithmes non supervisés sont étudiés : le premier algorithme est l’al-

gorithme k-means, ainsi que la variante k-medoid dont le but est de chercher

à segmenter un ensemble de données de façon à regrouper les données si-

milaires dans une même catégorie. Le deuxième algorithme est l’algorithme

Apriori dont le but est de chercher les associations (entre les items) dans

une base de transactions [1]. Nous étudions et expérimentons également les

implémentations parallèles de ces deux algorithme dans un environnement

"cloud" en utilisant le framework MapReduce.

Dans un deuxième temps, nous étudions une nouvelle proposition de l’al-

gorithme Apriori dont le but est la recherche des sous-ensembles fréquents à

partir des centroides. Nous proposons une parallélisation de cette version sur

MapReduce [3]. Un bilan d’expérimentations est ﬁnalement déﬁni et réalisé

aﬁn de démontrer l’amélioration des performances attendue.

Etapes et réalisations

Nous présentons les étapes de l’étude ainsi que les réalisations attendues :

1. Etude du framework MapReduce et installation [6].

2. Etude des implémentations de k-means et de FPGrowth et expérimen-

tations [7, 4, 2]

3. Etude de la proposition d’une version parallèle de l’algorithme Apriori

amélioré [5].

4. Implémentation sur MapReduce et expérimentations.

Mots Clés

DataMining, MapReduce, Règles d’association, Segmentation.

Références

[1] Rakesh Agrawal and Ramakrishnan Srikant. Fast algorithms for mining

association rules in large databases. In VLDB, pages 487–499, 1994.

[2] Cheng-Tao Chu, Sang Kyun Kim, Yi-An Lin, YuanYuan Yu, Gary R.

Bradski, Andrew Y. Ng, and Kunle Olukotun. Map-reduce for machine

learning on multicore. In NIPS, pages 281–288, 2006.

[3] Jeﬀrey Dean and Sanjay Ghemawat. Mapreduce : Simpliﬁed data pro-

cessing on large clusters. In OSDI, pages 137–150, 2004.

[4] Wei Jiang, Vignesh T. Ravi, and Gagan Agrawal. A map-reduce system

with an alternate api for multi-core environments. In CCGRID, pages

84–93, 2010.

[5] Maria Malek and Hubert Kadima. Searching frequent itemsets by cluste-

ring data : towards a parallel approach using mapreduce. In Web Infor-

mation System Engineering 2011 and 2012 Combined Workshops, LNCS

7652 proceeding, pages 251–258. Springer, 2013.

[6] Owen Sean, Anil Robin, Dunning Ted, and Friedman Ellen. Mahout in

Action. Manning Publications, 1 edition, January 2011.

[7] Weizhong Zhao, Huifang Ma, and Qing He. Parallel k-means clustering

based on mapreduce. In CloudCom, pages 674–679, 2009.

1 / 2 100%

Parallélisation de certains algorithmes de Data Mining en utilisant le

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Parallélisation de certains algorithmes de Data Mining en utilisant le

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib