Page 2 sur 9
clustering h-means en phase de présélection du processus PMML [18] (Predictive Model
Markup Language) permettrait d’assurer un partitionnement optimal des données et de
déterminer un nombre de VM optimal. Nous présentons dans ce papier notre approche qui
consiste de partitionner les données en fonction de leurs similarités. Nous procédons par
deux étapes : l’exécution de l’algorithme de partitionnement puis distribuer les données
partitionnées sur le nombre de machines virtuelles trouvé.
Dans notre environnement d’exécution, les applications de fouille de données sont
représentées sous forme d’un workflow conformément au processus PMML. Toute activité
du workflow impliquant la manipulation de données génère des requêtes sur les données
distribuées dans le Cloud. On trouve dans [3] une présentation de plusieurs techniques
spécifiques utilisées par les systèmes de workflows pour exécuter les applications workflows
data intensive en utilisant des ressources globalement distribuées. La plupart des systèmes
utilisent une combinaison des techniques pour fournir les performances élevées et la haute
disponibilité à faibles coûts. Une seule technique n’est pas suffisante pour minimiser les
effets sur la performance et les coûts et augmenter l’efficacité des opérations de transferts
de données.
Le partitionnement de données, le placement de données ou la réplication peuvent être
réalisés avant ou durant l’exécution de workflows dans un environnement Cloud Data
Intensive pour améliorer les performances d’exécution de l’application. Kosar et al. *4+ ont
défini un scheduler pour les activités de placement de données dans le Grid. Ils proposent
d’en faire un axe majeur des travaux de recherche à effectuer dans ce domaine. Les activités
de placement de données peuvent être intégrées ou découplées des activités de scheduling
des tasks. La réplication de données dans des ressources distribuées est le mécanisme
commun pour augmenter la disponibilité de données. La décision de placement et de
réplication de données sont basées sur les objectifs à optimiser, la localité de référence de
données et la minimisation de la distance de répartition entre les données et les traitements
associés.
La réponse apportée par h-means pour répondre à ces derniers problèmes se traduit en
termes de traitement des requêtes par similarité sur de gros volumes de données,
notamment à travers, par exemple, les calculs des k plus proches voisins (kNN). Au processus
de clustering, s’ajoutent les problèmes de parallélisme de traitements et de la distribution
de données. On doit se donner les moyens d’étudier les performances de cette approche de
partitionnement appliquée sur une grosse base de données pour obtenir et exploiter des
classes et déterminer une taille et un nombre optimal de ces classes pour que les requêtes
issues du workflow puissent être traitées en temps optimal et avec une haute précision. La
mise en œuvre de h-means parallèle introduit des méthodes de traitement de requêtes
parallèles sur une grille de machines pour réaliser l’allocation optimale des données grâce à
la recherche efficace des kNN en parallèle. On vise l’obtention d’un nombre réduit de VM
distribués à travers les Clouds permettant néanmoins des temps de recherche sous-linéaires
et optimaux vis-à-vis des classes déterminées précédemment.
Dans un premier temps, une application structurée en workflow et utilisant les techniques
de fouille de données est exécutée pour des besoins de tests dans un environnement Cloud
hybride comportant l’infrastructure Cloud OpenNebula [5] interconnectée à Amazon EC2 [6].