NEPAL Proposition pour réaliser un cluster d'unités de calcul ultra communicantes NEPAL Objectif scientifique Méthode de calcul, défis Concept Nepal, innovations Conclusion Pierre Matricon 2 Objectif scientifique Faire de la science et des découvertes grâce à des calculs de Chromodynamique Quantique, théorie physique qui décrit l’interaction forte. Cf. Présentations de G.Grosdidier devant le conseil scientifique, le 27 janvier 2012, et devant le CS restreint le 11 mars 2012. Pierre Matricon 3 Méthode de calcul • Échantillonner (discrétiser) un morceau d'espace‐temps • Refermer le réseau maillé (lattice) obtenu sur lui‐même • Effectuer des calculs en chaque point (site) du lattice Lattice 3D (3*2*1) Lattice 4D (1*1*1*1) Lattice 4D (1*1*1*1) dont 1 dimension refermée La dimension "Temps" est représentée ici par le cube bleu Pierre Matricon 4 Défis Le lattice "scientifiquement productif" (256*128**3) contient (10**9) sites et demande ‐ une puissance de calcul considérable, ‐ et 12 TB de mémoire rapide. Pour répondre à cette demande, une solution consiste à : • Décomposer le gros lattice en 1000 sous‐lattices de (48*24**3) sites, • Affecter chaque sous‐lattice à une Unité de calcul dotée de 12 GB de mémoire rapide, • Utiliser des GPU pour leur puissance de calcul (500‐1000 TFlops /GPU pour des calculs en nombres flottants sur 64 bits en double précision), • Inventer un système d'interconnexion entre GPU le plus efficace possible. Pierre Matricon 5 Concept Nepal • Utiliser des cartes GPU et CPU commerciales, permettant le meilleur choix au moment opportun • Obtenir la puissance de calcul nécessaire avec des GPU (+ CPU un peu) • Réaliser des communications à haut débit entre cartes GPU voisines (8 directions à double sens) Mise en application du concept Nepal : • • • • • Concevoir la carte Nepal, L'intégrer au sein du système GPU‐CPU, Trouver une solution pour réaliser un cluster en préservant les performances, Évaluer les possibilités de détection et de gestion d'erreurs et de pannes, Trouver des solutions aux problèmes d'alimentation électrique, de refroidissement, de coût... GPU Nvidia Tesla DELL serveur R5500 Pierre Matricon 6 Unité de calcul Carte à réaliser Cartes à acheter Pierre Matricon 7 Carte Nepal et câbles optiques actifs Connecteur Côté GPU Cages d'accueil pour 8 câbles optiques actifs Connecteur PCIe Côté CPU Fonctions du circuit FPGA : FPGA ‐ 64 SerDes ‐ 4 ports PCIe ‐ Transmettre les données GPU‐GPU ‐ Transmettre des messages de n'importe quelle Unité à n'importe quelle autre Unité du cluster (fonction Routeur) Pierre Matricon 8 La nouveauté de l'architecture LAL ouvre des perspectives de performances supérieures à celle "qui va de soi" La carte GPU est montée sur la carte Nepal Carte GPU installée à côté d'une carte Nepal Performances attendues de l'architecture LAL ‐ Latence entre cartes GPU inférieure à 1 microseconde, soit 5 à 10 fois mieux que les compétiteurs ‐ Performances préservées en cas de cluster multi‐racks Débits de données entre cartes au sein de l'Unité de calcul PCI‐Express est l'interconnexion standard entre les cartes. L'interconnexion PCIe ressemble à une "autoroute" à double sens comprenant de multiples voies. Les cartes GPU utilisent une autoroute à 16 voies dans chaque sens. Le débit maximal est lié à la technologie des composants mis en œuvre, de génération 2 ou 3 : Gen2x16 : 80 GT/s soit 8 GB/s Gen3x16 : 126 GT/s soit 15,7 GB/s Pierre Matricon 11 Débits de données entre Unités de calcul au sein du cluster 8‐15 GB/s dans chaque sens 4‐6 GB/s dans chaque sens Pierre Matricon 12 Conclusion Si les résultats confirment les performances attendues, alors il sera techniquement possible de construire immédiatement un calculateur pour LQCD, avec un premier cluster de 16 Unités installées dans une baie. K.Petrov LAL 29/09/2011 Pierre Matricon 13