Vieira Julien
Castelein Maxime
IMA2i
Avant Projet
GLOBUS/GGM
Responsable : N. Melab Année 2004/2005
2
SOMMAIRE
Introduction : ........................................................................................................................... 3
1) Présentation générale du projet GGM .......................................................................... 4
11) Définition de la grille géno médicale ........................................................................ 4
12) Le grid computing ..................................................................................................... 5
13) les responsables du projet : ....................................................................................... 6
2) Solutions ........................................................................................................................... 6
21) Le concept de réseaux virtuels : Principe et fonctionnement ................................ 6
22) Le réseau RENATER ................................................................................................ 8
23) Vtun............................................................................................................................. 9
231) Contexte et objectif .............................................................................................. 9
232) Architecture de la grille .................................................................................... 10
a) Aperçu global ..................................................................................................... 10
b) Architecture détaillée ........................................................................................ 10
233) Plan d’adressage ................................................................................................ 11
24) Globus ....................................................................................................................... 13
241) Présentation de Globus ..................................................................................... 13
242) Globus ................................................................................................................. 14
243) Déploiement d’un service .................................................................................. 15
244) Web Services ...................................................................................................... 15
245) Créer un fichier GAR avec ANT ...................................................................... 16
3) Résultats: ........................................................................................................................ 17
31) Choix de l’environnement de travail ..................................................................... 17
311) Choix du système d’exploitation (OS) ............................................................. 17
312) Choix de la version de Globus .......................................................................... 18
32) Installation de Globus ............................................................................................. 18
321) Logiciels pré requis ............................................................................................ 18
322) Configuration de Globus ................................................................................... 19
323) Déploiement d’une application simple ............................................................. 19
33) Mise en œuvre logicielle du VPN ............................................................................ 20
331) Installation de VTUN ........................................................................................ 20
332) Autorisation d’accès à Internet ........................................................................ 21
333) Création et activation des tunnels .................................................................... 21
Conclusion: ............................................................................................................................. 23
ANNEXES .............................................................................................................................. 24
1) Déploiement d’une application : Fichiers exemples ............................................... 24
2) Logiciels requis .......................................................................................................... 30
3) Globus toolkit :........................................................................................................... 34
4) Test Globus ................................................................................................................. 35
3
Introduction :
Cet avant projet rentre dans le cadre du projet national Grille Geno Médicale (GGM)
regroupant trois laboratoires de recherche en informatique, à savoir LIFL (Lille), LIRIS
(Lyon) et l'IRIT (Toulouse). Ce projet vise à proposer une architecture logicielle s'appuyant
sur les grilles de calculs, capables de gérer des données hétérogènes et dynamiques au sein
d'entrepôts de données distribuées, à des fins d'analyse et de traitement intensifs de données
géno-médicales.
4
1) Présentation générale du projet GGM
11) Définition de la grille géno médicale
Une Grille Géno-Médicale est basée sur une architecture pour la gestion et l'analyse de
données géno-médicales sur une grille de calcul.
Les grilles de calcul ont connu un fort développement ces 5 dernières années. Des
financements conséquents ont été consentis pour faire émerger des infrastructures de grilles
de calcul fonctionnelles. Si les travaux sur les intergiciels (middleware) permettant d'utiliser
la grille pour des besoins de calcul commencent à donner des résultats positifs, le travail reste
entier, ou presque, pour la gestion et l'analyse des données partagées sur la grille.
Ce projet vise ainsi à proposer une architecture logicielle s'appuyant sur les grilles de calcul
capable de gérer des données hétérogènes et dynamiques au sein d'entrepôts de données
distribués, à des fins d'analyse et de traitement intensifs.
Ce challenge est particulièrement important dans le cadre des grilles biomédicales. En effet,
la diffusion des technologies haut débit en génomique et la gestion informatique du dossier
médical réparti ouvrent des perspectives diagnostiques totalement novatrices.
Parce qu'elles exigent une capacité d'analyse et de traitement considérable et un partage
d'informations hétérogènes et très volumineuses à grande échelle, ces technologies
apparaissent comme des " cibles " naturelles des grilles de calcul. Or, aucun des outils
nécessaires à leur mise en oeuvre effective n'existe actuellement :
1) les entrepôts de données n'ont pas encore été déployés sur grille de calcul, et des
problèmes multiples de gestion de données dans ce contexte (hétérogénéité, dynamicité,
sécurité, traçabilité, efficacité d'accès) devront être résolus;
2) le portage efficace sur grille de calcul des algorithmes d'extraction de connaissances
(datamining) doit être généralisé à des masses importantes de données dynamiques et
hétérogènes réparties à grande échelle ;
5
3) des mandataires (proxys) sémantiques doivent être développés pour optimiser l'utilisation
des ressources (calcul, stockage) et assurer une adaptation des données aux droits et besoins
des utilisateurs finaux.
Le but du projet GGM est d'étudier ces problématiques en les intégrant dans un cadre logiciel
cohérent. Les travaux des équipes participant au projet, ainsi que les travaux classiques de la
littérature, seront adaptés à la nature des données manipulées dans ce projet.
Au-delà du domaine médical, ces problématiques se situent au coeur de l'ouverture des grilles
de calcul vers la gestion de communautés et d'organisation virtuelles et en conditionnent le
déploiement. Par la complexité des données et des processus impliqués, l'analyse géno-
médicale et le diagnostic intégré constituent des champs d'application particulièrement
pertinents en terme scientifique comme en terme d'impact socio-économique.
12) Le grid computing
Le grid computing, également appelé calcul partagé ou calcul distribué, consiste à exploiter
pleinement les ressources de l'intégralité d'un parc informatique (serveurs et PC) afin de
réaliser rapidement des calculs complexes qui prendraient plusieurs mois voire plusieurs
années avec des supercalculateurs classiques.
Cette idée de mutualisation des ressources informatiques est née dans le milieu de la
recherche scientifique où depuis quelques années, les besoins de puissance de calcul et de
traitement des données augmentent démesurément. Cette augmentation se produit alors que le
prix des supercalculateurs continue de grimper au point de rendre leur achat trop onéreux
pour de nombreux laboratoires.
C'est en voulant faire des économies que les chercheurs ont décidé d'exploiter ces ressources
informatiques délaissées. Ils se sont alors aperçus qu'ils "étaient capables de traiter
pratiquement 240 GigaFLOPS (le GigaFLOP correspond à 1 milliard d'opérations en virgule
flottante par seconde), soit l'équivalent de quatre serveurs Sun Entreprise 10000, en reliant en
interne, "2000 ' vieux ' PC de type Pentium cadencés à 166Mhz et une centaine de Pentium
III à 4 Ghz, ".
1 / 36 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !