Proposition pour réaliser un cluster d`unités de calcul ultra

publicité
NEPAL
Proposition pour réaliser un cluster
d'unités de calcul ultra communicantes
NEPAL
 Objectif scientifique
 Méthode de calcul, défis
 Concept Nepal, innovations
 Conclusion
Pierre Matricon
2
Objectif scientifique
Faire de la science et des
découvertes grâce à des calculs
de Chromodynamique Quantique, théorie physique qui décrit l’interaction forte.
Cf. Présentations de G.Grosdidier devant le conseil scientifique,
le 27 janvier 2012, et devant le CS restreint le 11 mars 2012.
Pierre Matricon
3
Méthode de calcul
• Échantillonner (discrétiser) un morceau d'espace‐temps
• Refermer le réseau maillé (lattice) obtenu sur lui‐même
• Effectuer des calculs en chaque point (site) du lattice
Lattice 3D (3*2*1)
Lattice 4D (1*1*1*1)
Lattice 4D (1*1*1*1)
dont 1 dimension refermée
La dimension "Temps" est représentée ici par le cube bleu
Pierre Matricon
4
Défis
Le lattice "scientifiquement productif" (256*128**3) contient (10**9) sites et demande ‐ une puissance de calcul considérable, ‐ et 12 TB de mémoire rapide.
Pour répondre à cette demande, une solution consiste à :
• Décomposer le gros lattice en 1000 sous‐lattices de (48*24**3) sites,
• Affecter chaque sous‐lattice à une Unité de calcul dotée de 12 GB de mémoire rapide,
• Utiliser des GPU pour leur puissance de calcul (500‐1000 TFlops /GPU pour des calculs en nombres flottants sur 64 bits en double précision),
• Inventer un système d'interconnexion entre GPU le plus efficace possible.
Pierre Matricon
5
Concept Nepal
• Utiliser des cartes GPU et CPU commerciales, permettant le meilleur choix au moment opportun
• Obtenir la puissance de calcul nécessaire avec des GPU (+ CPU un peu)
• Réaliser des communications à haut débit entre cartes GPU voisines (8 directions à double sens)
Mise en application du concept Nepal :
•
•
•
•
•
Concevoir la carte Nepal,
L'intégrer au sein du système GPU‐CPU,
Trouver une solution pour réaliser un cluster en préservant les performances,
Évaluer les possibilités de détection et de gestion d'erreurs et de pannes,
Trouver des solutions aux problèmes d'alimentation électrique, de refroidissement, de coût...
GPU Nvidia Tesla
DELL serveur R5500
Pierre Matricon
6
Unité de calcul
Carte à réaliser
Cartes à acheter
Pierre Matricon
7
Carte Nepal et câbles optiques actifs
Connecteur
Côté GPU
Cages d'accueil pour 8 câbles optiques actifs
Connecteur PCIe
Côté CPU
Fonctions du circuit FPGA :
FPGA
‐ 64 SerDes
‐ 4 ports PCIe
‐ Transmettre les données GPU‐GPU
‐ Transmettre des messages de n'importe quelle Unité à n'importe quelle autre Unité du cluster (fonction Routeur)
Pierre Matricon
8
La nouveauté de l'architecture LAL ouvre des perspectives de performances supérieures à celle "qui va de soi"
La carte GPU est montée sur la carte Nepal
Carte GPU installée
à côté d'une carte Nepal
Performances attendues de l'architecture LAL
‐ Latence entre cartes GPU inférieure à 1 microseconde,
soit 5 à 10 fois mieux que les compétiteurs
‐ Performances préservées en cas de cluster multi‐racks
Débits de données entre cartes au sein de l'Unité de calcul
PCI‐Express est l'interconnexion standard entre les cartes.
L'interconnexion PCIe ressemble à une "autoroute" à double sens comprenant de multiples voies. Les cartes GPU utilisent une autoroute à 16 voies dans chaque sens.
Le débit maximal est lié à la technologie des composants mis en œuvre, de génération 2 ou 3 :
Gen2x16 :
80 GT/s soit
8 GB/s
Gen3x16 :
126 GT/s soit 15,7 GB/s
Pierre Matricon
11
Débits de données entre Unités de calcul au sein du cluster
8‐15 GB/s dans chaque sens
4‐6 GB/s dans chaque sens
Pierre Matricon
12
Conclusion
Si les résultats confirment les performances attendues, alors il sera techniquement possible de construire immédiatement un calculateur pour LQCD, avec un premier cluster de 16 Unités installées dans une baie.
K.Petrov LAL 29/09/2011
Pierre Matricon
13
Téléchargement