TD7 - UFMG

Téléchargement

ASR1 – TD7 : Lara l’abeille S. Collange, A. Panhaleux

ASR1 – TD7 : Lara l’abeille

{ , }

novembre 2010

Ce TD s’étale sur 3 séances. Lors des deux premières séances, chaque groupe crée un jeu

d’instruction pour un « CGPU ». À l’issu de ces deux séances, nous (les TD-men) choisirons

le meilleur des deux jeux d’instructions. Le processeur basé dessus sera construit dans la troi-

sième séance, puis décrit en VHDL pour être enﬁn implémenté dans un FPGA dans les TD

suivants.

Présentation générale

Nous voulons construire un GPU moderne, c’est-à-dire un processeur parallèle qui est op-

timisé pour faire des dessins (calculer la couleur de plein de pixels). Dans la réalité, le GPU est

le plus souvent séparé du CPU. Ici, nous choisissons d’exécuter le code séquentiel (type CPU)

et le code parallèle (type GPU) sur le même processeur. Pour simpliﬁer, on se limitera à du

rendu 2D.

Les programmes que notre CGPU exécutera seront semblables à ceci :

Les boucles pour en parallèle correspondent à des sections de code qui sont exécutées en

mode parallèle. Nous interdisons au programmeur d’introduire des dépendances entre les

différentes itérations d’une boucle parallèle : leur ordre d’exécution n’est pas spéciﬁé. Cette

restriction va bien nous simpliﬁer le vie par la suite.

1. Avec du copier-coller, on peut construire un processeur multi-cœur et distribuer les itéra-

tions d’une boucle parallèle entre les cœurs. Quels sont les avantages et les inconvénients

de cette approche ? (penser au cas où le code parallèle est simple)

2. Avec un seul cœur muni d’instructions SIMD, comment peut-on faire ? Quelles sont les

difﬁcultés ? (penser au cas où le code parallèle est complexe)

Les contraintes de notre processeur sont :

– être à peu près aussi efﬁcace qu’un processeur SIMD sur du code parallèle régulier,

– permettre d’exécuter du code parallèle arbitrairement complexe (être aussi souple qu’un

multi-cœur),

ASR1 – TD7 : Lara l’abeille S. Collange, A. Panhaleux

– pouvoir varier le nombre d’unités d’exécution à souhait sans toucher aux programmes

existants,

– partager le maximum de matériel (et d’effort de conception) entre l’exécution de la partie

séquentielle et de la partie parallèle.

Notre CGPU pourra fonctionner dans deux modes différents.

– Le processeur démarre en mode séquentiel. Ce mode offre toutes les fonctionnalités que

l’on est en droit d’attendre d’un CPU : calculs, lectures et écritures en mémoire à des

adresses arbitraires, structures de contrôle arbitraires, appels de fonctions.. .

Il doit également permettre de démarrer une section parallèle. On spéciﬁe alors les bornes

de la boucle parallèle. On peut voir le corps de la boucle parallèle comme une fonction

séparée. Il faudra offrir au programmeur un moyen de passer des paramètres à ce corps

de boucle.

On prévoira aussi quelques moyens de discuter avec le contrôleur vidéo que vous faites

en DM : choix de la zone à afﬁcher, signal de synchronisation verticale1.

– La partie parallèle doit être capable de lire n’importe où en mémoire (lecture de sprites,

textures...) On notera que si l’itération (i, j)lit ses données aux coordonnées (x+i, y +j),

c’est plus simple que si c’est à (ftordu(i, j), gbizarre (i, j)).

On doit pouvoir écrire le pixel résultant aux coordonnées (i, j)dans l’image ﬁnale. Cette

opération doit être efﬁcace. Accessoirement, c’est pas plus mal si on peut écrire n’importe-

où aussi.

On doit pouvoir effectuer des if-then-else, des boucles for et while, et indiquer la ﬁn de

l’itération.

La première partie consiste à déﬁnir le jeu d’instructions, le format du mot d’instructions,

et à l’essayer sur quelques exemples. La seconde partie construit le processeur lui-même.

3. Quelles structures de données notre processeur va-t-il être amené à manipuler ? Quel

espace d’adressage et modes d’adressage le processeur va-t-il employer ?

4. Quelle est la taille mémoire qu’il peut adresser ?

5. Combien d’instructions aura-t-il au maximum ?

6. Dessinez la boîte noire de ce processeur, comportant tous les signaux d’interface avec la

mémoire et le contrôleur vidéo.

1 Le jeu d’instructions

On va découper le mot d’instruction en différents champs codant (entre autres) l’instruction

à effectuer, ses différents opérandes, etc.

Le principe d’orthogonalité de la philosophie RISC dit que ce découpage doit être constant,

même pour des instructions très différentes.

1. Discutez le principe d’orthogonalité. Qu’en est-il dans le cas de notre CGPU?

1.1 Choix du nombre de registres

Il y a plusieurs grandes architectures possibles pour la partie calcul d’un processeur :

1. Ce qui nous permettra de faire du double-buffering entre autres choses rigolotes.

ASR1 – TD7 : Lara l’abeille S. Collange, A. Panhaleux

–Machine à trois adresses : implémente des instructions de type ←, où est

le registre destination, et sont les registres opérandes, et est une opération arith-

métique ou logique.

–Machine à deux adresses : le registre destination est obligatoirement un des registres opé-

randes, donc les instructions sont du type ←.

–Machine à une adresse, ou machine à accumulateur : toute opération met en jeu un registre

spécial, l’accumulateur (noté ), qui est à la fois destination et l’un des opérandes, soit

←.

1. Donnez des exemples de processeurs (réels) qui sont des machines à trois, deux, une ou

quatre adresses.

2. Peut-on imaginer une machine à zéro adresse ?

3. Donnez le nombre de bits que va nécessiter le codage des opérandes et de la destina-

tion dans notre mot d’instruction, en fonction du choix d’architecture et du nombre de

registres du processeur.

4. Discutez et choisissez.

1.2 Registres

1. Quels sont les types de données dont nous avons besoin ?

2. Peut-on décomposer ces types en unités plus petites ? Peut-on rassembler ces types pour

former des unités plus grosses ?

3. Quelle sera une taille raisonnable pour nos registres ?

4. Peut-on accéder à un registre séquentiel en mode parallèle ? Peut-on accéder à un re-

gistre parallèle en mode séquentiel ? En lecture et/ou en écriture ? Si oui, quelle est la

sémantique associée ?

5. Les registres séquentiels forment-t-il un sous-ensemble des registres parallèles, ou sont-

ils indépendants ?

6. Comment le processeur sait-il s’il doit considérer un registre séquentiel ou un registre

parallèle ? (dépend des réponses aux questions précédentes)

1.3 Instructions arithmétiques et logiques

Nous allons maintenant déﬁnir les quelques bits de notre mot d’instruction codant l’ins-

truction (le champ instruction).

1. Quelles sont les opérations que nous avons besoin d’effectuer sur les types de données

choisis dans la section précédente ?

2. Déﬁnissez un jeu d’instructions minimal (ou en tout cas assez Reduced), qui permette

d’effectuer tout ça. Attention à la tentation d’intégrer toute l’algèbre linéaire et complexe

dans le jeu d’instruction.

3. Discutez les différentes possibilités pour faire des opérations par des constantes.

4. Récapitulez précisément le jeu d’instructions et discutez son codage le plus simple pos-

sible dans le champ instruction.

ASR1 – TD7 : Lara l’abeille S. Collange, A. Panhaleux

1.4 Opérations mémoire

La philosophie RISC distingue bien les opérations de calcul, dont opérandes et destination

ne sont que des registres, et les opérations d’accès à la mémoire, qui n’effectuent aucun calcul.

1. Discutez les avantages et inconvénients de cette approche.

2. En mode parallèle, à quoi correspond une lecture/écriture ? Si vous avez autorisé le mé-

lange de registres séquentiels et parallèles dans une même instruction, quelle est la sé-

mantique associée ?

3. Comment réaliser les modes d’adressage que vous avez choisi au début ? Peut-on sim-

pliﬁer ou uniﬁer en restant raisonnablement efﬁcace ?

4. Y a-t-il des motifs d’accès particuliers qui offrent des possibilités d’optimisation ? Est-ce

que ça vaut la peine de compliquer le jeu d’instructions pour ça ? Discuter de ce qui peut

être fait en matériel par rapport à ce qui peut être fait par un compilateur.

5. Quelle est la largeur minimale d’une écriture en mémoire ? Peut-on émuler l’écriture de

mots plus petits en logiciel ?

6. Que faire en cas d’accès hors bornes ?

7. Que faire si on a plusieurs écritures concurrentes à la même adresse ?

1.5 Contrôle d’exécution

En cours, nous avons vu quelques techniques à base de prédication, piles, compteurs ou

PC multiples pour regrouper les instructions identiques.

1. Quelle solution choisir pour notre processeur ?

2. Quelles sont les conséquences sur le jeu d’instructions ?

3. Récapituler les différentes instructions de contrôle et leur sémantique.

4. Que fait-on lorsque le nombre d’itérations parallèles n’est pas un multiple du nombre

d’unités d’exécution ?

1.6 Récapitulation et bouche-trous

1. Récapitulez le mot d’instruction jusqu’ici. Reste-t-il des bits inutilisés et du temps libre ?

Si oui, voici des suggestions d’utilisation :

– Permettre des instructions SIMD en mode séquentiel.

– Donner des indications au matériel pour exécuter efﬁcacement le code : durée de vie

des registres, structuration du contrôle...

– On peut faire jouer son imagination.

2. Complétez le jeu d’instruction, vériﬁez qu’il n’y a pas (trop) de redondance dans les

instructions, récapitulez.

3. Votre CGPU connaît un grand succès. Vous êtes riches. Vous pouvez devenir encore plus

riches si vous construisez une version 2 avec plus de registres plus larges et plein de

nouvelles instructions. Mais il faut impérativement qu’elle reste compatible avec les pro-

grammes compilés pour la version 1. Comment faites-vous ? Peut-on faire mieux si on a

pensé à l’extensibilité dès le début ?

ASR1 – TD7 : Lara l’abeille S. Collange, A. Panhaleux

1.7 Test : programmation en assembleur

1. Pour se convaincre de la qualité de notre jeu d’instruction, écrire quelques-uns des pro-

grammes suivants :

– dessin d’une nappe à carreaux (damier),

– produit de matrices,

– ﬁltre basé sur une convolution genre détection des contours / ﬂou gaussien,

– produit matrice creuse ×vecteur (on choisira une représentation qui va bien pour la

matrice),

– afﬁchage d’une image avec un effet de vague (ou drapeau qui ﬂotte) 2,

– dessin d’une fractale de Mandelbrot (ou de Julia, au choix),

– lancer de rayon,

– Pong, Space Invaders,

– moteur de rendu 3D (rastérisation),

– Quake n,

– n’importe quel programme parallèle de votre choix.

2. Corrigez les réponses aux questions précédentes en fonction des oublis.

2. Par la transformation des coordonnées (x, y)→(x, y +βsin(αty)), où tvarie avec le temps.

1 / 5 100%

Documents connexes

Le microprocesseur, élément le plus important de tout l

PLAN Général

Structure-fonctionnement d`un système informatique

Résumé de l`architecture élémentaire d`un PC

Télécharger le fichier

Informatique - Décrypter les mots

Cours M1 – Correction de la section rédigée

devoir.01.10 - WLPCS Upper School

soft-processeur NIOS sur carte Altera.

– Instructions Se mettre dans la peau du client ses principales préoccupations,

TD 4 - CONCEPTION D`UN MICROPROCESSEUR Exercice 4.1

Architecture et programmation du processeur ARM

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

TD7 - UFMG

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

TD7 - UFMG

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib