Equilibrage de charge en fonction de la popularité des données dans un système pair-à-pair Responsable : Maha Abdallah, [email protected] Mots-clés : Systèmes pair-à-pair, Indexation, Table de hachage distribuées (DHT), Equilibrage de charge. I. Introduction Dans ce stage, le but est d'étudier des techniques d'équilibrage de charge dans les systèmes de partage de données en pair-à-pair. En particulier, il s'agit de proposer des techniques tenant compte de la popularité des données lors de l'évaluation de la charge d'un nœud. II. Contexte et motivations La croissance qu'a connue le Web ces dernières années met à notre disposition un ensemble gigantesque de ressources d'une richesse sans précédent. En particulier, les systèmes de bases de données et d'informations actuellement connectés contiennent de gros volumes de données réparties à l'échelle mondiale. Permettre le partage d'un tel volume de données offrira un système d'information d'une richesse sans précédent, mais soulève de nombreux défis scientifiques et technologiques, notamment concernant la localisation des données. Dans ce sens, les techniques traditionnelles de recherche de données ont été revisitées dans un contexte grande échelle et de nouvelles techniques d'indexation basées sur la technologie pair-à-pair (P2P) ont été proposées. Parmi ces techniques, les tables de hachage distribuées (communément appelées DHTs) semblent être les plus prometteuses [3, 4]. Ces tables appliquent le concept de hachage au contexte grande échelle afin de permettre une localisation rapide des données et un routage direct des requêtes au travers d'un réseau logique. Malgré leur efficacité prouvée, les DHTs souffrent cependant d'un inconvénient majeur lié à leur mécanisme d'équilibrage de charge. Ce mécanisme, dans ses diverses variantes [1, 2, 3, 4], ne tient en effet pas compte de la popularité des données indexées et de la charge qui en résulte. Ceci pénalise considérablement les nœuds responsables de données populaires et provoque des goulots d'étranglement, dégradant ainsi les performances du système. Ce stage a pour but d'étudier ce problème. III. Objectifs et travail à réaliser Une première étude autour de ce problème a déjà été menée au sein du LIP6. L'objectif principal du stage est donc d'approfondir cette première étude, et de proposer un mécanisme permettant, dans un système à base de hachage réparti, d'équilibrer la charge des nœuds en fonction de la popularité des données. Ceci permettra une organisation dynamique du réseau logique et une répartition de l'index entre les nœuds du système en fonction de la réelle charge induite par les données populaires. Le travail à réaliser se déroulera en trois étapes: 1. Etude de l'état de l'art des techniques d'équilibrage de charge dans les systèmes pair-à-pair à base de DHT. 2. Proposition d'une technique d'équilibrage de charge tenant compte de la popularité des données. 3. Réalisation d'un prototype validant la technique proposée. IV. Prérequis et apports du stage Ce stage requiert une bonne connaissance en bases de données, algorithmes répartis, et environnements pair-àpair. Une bonne expérience de programmation en java est nécessaire. Le grand apport du stage sera une bonne maîtrise des systèmes P2P, et pourra éventuellement être prolongé par une thèse dans ce domaine. V. Rémunération Le stage sera rémunéré d'environ 380 Euros/mois. 1 VI. Références [1] M. Abdallah, E. Buyukkaya, “Efficient Routing in Non-Uniform DHTs for Range Query Support”. In Proc. of the 18th International Conference on Parallel and Distributed Computing and Systems (PDCS), USA, November 2006. [2] M. Abdallah, H. C. Le, “Scalable Range Query Processing for Large-Scale Distributed Database Applications”. In Proc. of the 17th International Conference on Parallel and Distributed Computing and Systems (PDCS), USA, November 2005. [3] D. Karger and M. Ruhl, “Simple Efficient Load Balancing Algorithms for Peer-to-Peer Systems”. In Proc. of the 16th ACM Symposium on Parallelism in Algorithms and Architectures (SPAA), June 2004. [4] I. Stoica, R. Morris, D. Karger, F. Kaashoek, and H. Balakrishnan, “Chord: A scalable peer-to-peer lookup service for internet applications”. In Proc. of the ACM SIGCOMM 2001 Conference, August 2001. [5] S. Ratnasamy, P. Francis, M. Handley, R. Karp, S. Shenker, “A Scalable Content-Addressable Network”. In Proc. of the ACM SIGCOMM 2001 Conference, August 2001. 2