D´eploiement de l’algorithme L sur GPU
Premiers r´esultats
Pierre Fortin, Mourad Gouicem, Stef Graillat
´
Equipe PEQUAN, LIP6/UPMC
R´eunion ANR TaMaDi
Sofia-Antipolis, 22-23 F´evrier 2010
Pr´esentation des GPU
L’algorithme L
Perspectives
1Pr´esentation des GPU
Architecture et programmation CUDA
Arithm´etique sur Fermi (C2050)
2L’algorithme L
Pr´esentation de l’algorithme
D´eploiement sur GPU
3Perspectives
M. Gouicem eploiement de l’algorithme L sur GPU 2 / 26
Pr´esentation des GPU
L’algorithme L
Perspectives
Architecture et programmation CUDA
Arithm´etique sur Fermi (C2050)
1Pr´esentation des GPU
Architecture et programmation CUDA
Arithm´etique sur Fermi (C2050)
2L’algorithme L
Pr´esentation de l’algorithme
D´eploiement sur GPU
3Perspectives
M. Gouicem eploiement de l’algorithme L sur GPU 3 / 26
Pr´esentation des GPU
L’algorithme L
Perspectives
Architecture et programmation CUDA
Arithm´etique sur Fermi (C2050)
Architecture des GPU
Source : CUDA Programming Guide
Architecture many-core
Ex´ecution partiellement SIMD
14 Stream Multiprocessor (SM) sur Fermi (C2050)
Chaque SM poss`ede 32 CUDA cores
soit 14 ×32 = 448 CUDA Cores sur le C2050
Registres de 32-bit (32 768 par SM)
M. Gouicem eploiement de l’algorithme L sur GPU 4 / 26
Pr´esentation des GPU
L’algorithme L
Perspectives
Architecture et programmation CUDA
Arithm´etique sur Fermi (C2050)
Hi´erarchie des threads
Source : CUDA Programming Guide
Programmation
Bloc compos´e de threads
Grille compos´ee de blocs
Sch´ema d’ex´ecution
1blocestaect´e`a1SM
SM ex´ecutent chaque bloc par
warps
Un warp est un groupe de 32
threads
M. Gouicem eploiement de l’algorithme L sur GPU 5 / 26
1 / 35 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !