Cloud Computing et MapReduce
Parall´elisation de l’algorithme K-means
Parall´elisation de l’algorithme Apriori
Notre approche
Impl´ementation parall`ele de certains algorithmes de
fouille de donn´ees avec le framework MapReduce
Algorithmes : K-means et Apriori
Maria Malek
LARIS-EISTI
eminaire de recherche@LARIS Fouille de donn´ees parall`ele et MapReduce
Cloud Computing et MapReduce
Parall´elisation de l’algorithme K-means
Parall´elisation de l’algorithme Apriori
Notre approche
1Cloud Computing et MapReduce
Introduction `a MapReduce
2Parall´elisation de l’algorithme K-means
L’algorithme k-means : version s´equentielle
Impl´ementation de K-means avec une architecture MIMD
Impl´ementation de K-means sur MapReduce
3Parall´elisation de l’algorithme Apriori
Description de l’algorithme Apriori
Impl´ementation de Apriori sur MapReduce
Impl´ementation de Apriori sur MATE !
4Notre approche
eminaire de recherche@LARIS Fouille de donn´ees parall`ele et MapReduce
Cloud Computing et MapReduce
Parall´elisation de l’algorithme K-means
Parall´elisation de l’algorithme Apriori
Notre approche
Introduction `a MapReduce
Cloud Computing
Le cloud computing : d´eporter sur des serveurs distants des
stockages et des traitements informatiques traditionnellement
localis´es sur des serveurs locaux ou sur le poste de
l’utilisateur.
le cloud computing est l’acc`es via le r´eseau, `a la demande et
en libre-service `a des ressources informatiques virtualis´ees et
mutualis´ees.
Le cloud a ´emerg´e principalement pour r´epondre aux
exigences de continuit´e et de qualit´e du service :
l’application, qui est en contact avec le client ;
la plate-forme, qui ex´ecute l’application ;
l’infrastructure, qui est le support de la plate-forme ;
les donn´ees, qui sont fournies sur demande.
eminaire de recherche@LARIS Fouille de donn´ees parall`ele et MapReduce
Cloud Computing et MapReduce
Parall´elisation de l’algorithme K-means
Parall´elisation de l’algorithme Apriori
Notre approche
Introduction `a MapReduce
MapReduce
MapReduce est un framework de d´eveloppement informatique,
introduit par Google, dans lequel sont effectu´es des calculs
parall`eles, et souvent distribu´es, de donn´ees potentiellement
tr`es volumineuses ( Terabyte et plus).
Les terminologies de Map et Reduce, sont emprunt´ees aux
langages de programmation fonctionnelle utilis´es pour leur
construction.
MapReduce s’articule en deux ´etapes (fonctions) :
Map :
prend en argument un enregistrement,
calcule une liste de couples clef/valeur interm´ediaires.
Reduce :
prend en argument une clef et la liste des valeurs interm´ediaire
g´en´er´ees par les diff´erentes instances de la fonction Map,
effectue un traitement.
eminaire de recherche@LARIS Fouille de donn´ees parall`ele et MapReduce
Cloud Computing et MapReduce
Parall´elisation de l’algorithme K-means
Parall´elisation de l’algorithme Apriori
Notre approche
Introduction `a MapReduce
MapReduce : Sch´ema
eminaire de recherche@LARIS Fouille de donn´ees parall`ele et MapReduce
1 / 36 100%