Introduction
Le Calcul Haute Performance connaˆıt un fort essor ces derni`eres ann´ees. Au-
paravant r´eserv´e aux simulations nucl´eaires ou climatiques, il s’´etend maintenant
`a de nombreuses branches en r´epondant `a de nombreux besoins diff´erents. De la
physique au monde de la finance en passant par les sciences du vivant, le HPC
(Calcul Haute Performance) est devenu plus qu’un besoin, une n´ecessit´e.
Alors que les solutions ´etaient tr`es complexes et coˆuteuses il y a peu, certaines
se basent aujourd’hui sur des processeurs standards et des logiciels libres.
Dans cette course au meilleur rapport performances/prix, les GPU ont com-
menc´e `a percer d`es 2003, proposant des solutions de calculs peu coˆuteuses.
Nvidia et ATI (maintenant AMD) ont chacun d´evelopp´e une API, respective-
ment CUDA et CMD, permettant d’utiliser au mieux la puissance de calcul de
ces puces graphiques. En mˆeme temps, ils ont profit´e de l’augmentation quasi
exponentielle de la puissance de leur puces. N´eanmoins, les GPU n’ont pas les
mˆemes fonctions que les CPU. C’est pour cette raison que tout algorithme ne
s’adapte pas forc´ement bien sur carte graphique, ces derni`eres exploitant leur
parall´elisme au maximum.
D’un autre cˆot´e, d’autres solutions sont actuellement ´etudi´ees. Le processeur
d’IBM d´evelopp´e pour la PlayStation3, le CELL, est une vraie r´eussite. Il est
logiquement entr´e dans le monde des superordinateurs, et de bien belle mani`ere :
il ´equipe le premier superordinateur d´epassant le p´etaflop. Les FPGA sont pro-
bablement la solution la plus int´eressante en termes de performances car ils sont
cr´e´es pour des utilisations bien particuli`eres, mais le coˆut de d´eveloppement et
de production reste probl´ematique. CUDA a l’avantage d’ˆetre utilisable simple-
ment sans coˆut exhorbitant ni infrastructures particuli`eres.
Le sujet de mon stage est motiv´e par le fait que CUDA doit bien s’adapter
au traitement d’image. En effet, nombre d’algorithmes de ce domaine sont de
type local, ce qui se prˆete parfaitement `a la parall´elisation. Le choix de CUDA
n’est donc pas anodin.
Nous allons commencer par une pr´esentation de CUDA. Ensuite, nous verrons
au travers d’un algorithme tr`es simple par quelles difficult´es nous sommes pass´es
pour l’impl´ementer sur le GPU. De mani`ere g´en´erale, nous avons choisi cet
algorithme afin de voir quels gains nous pourrions potentiellement esp´erer pour
d’autres cas.
5