Architectures matérielles, puissance et énergie Daniel Etiemble [email protected] Densité de puissance 1000 Nuclear Nuclear Reactor Reactor 2 Watts/cm 100 Rocket Nozzle Pentium® Pentium® 4 Hot plate 10 Pentium® Pentium® III Pentium® Pentium® II Pentium® Pentium® Pro Pentium® Pentium® i386 i486 1 1.5µ 1µ 0.7µ 0.5µ 0.35µ 0.25µ 0.18µ 0.13µ 0.1µ 0.07µ * “New Microarchitecture Challenges in the Coming Generations of CMOS CMOS Process Technologies” Technologies” – Fred Pollack, Intel Corp. Micro32 conference key note - 1999. M1 Informatique 2007-2008 Architectures avancées D. Etiemble 2 1 Le spectre d’implémentation Microprocesseur Matériel Reconfigurable ASIC – ASIC • Haute performance – dédié à l’application • Non modifiable – Processeur • Programmable • Non dédié à l’application – Matériel reconfigurable • Bon compromis M1 Informatique 2007-2008 Architectures avancées D. Etiemble 3 Le conflit énergie/flexibilité Opérations/Watt [MOps/mW] 10 1 0.1 0.01 DSP-ASIPs rables ASIC configu e r s e /systèm Circuits seurs Proces 1.0µ 0.5µ 0.25µ 0.13µ Nécessiter Nécessiterd’optimiser d’optimiser M1 Informatique 2007-2008 Architectures avancées D. Etiemble µPs 0.07µ Technologie [H. de Man, Keynote, DATE‘02; T. Claasen, ISSCC99] 4 2 La technologie MOS Grille G • Source S Drain D • Grille Oxyde (Si O2 ) S D Semiconducteur Silicium dopé • substrat (bulk) M1 Informatique 2007-2008 Au début (RCA 1962) la grille était en Aluminium d'où le nom MOS : Métal/Oxyde/Semiconducteur Le MOS est parfaitement symétrique et on appelle SOURCE (d'électrons) le coté le plus négatif (le plus positif pour les PMos) Le substrat est mis à la masse (à Vdd pour les PMOS) Architectures avancées D. Etiemble 5 Coupe d’un transistor Un circuit intégré est une superposition de couches, semi-conductrices, conductrices ou isolante contacts diffusion poly métal (aluminium) oxyde poly oxyde substrat Si O2 oxyde diffusion substrat M1 Informatique 2007-2008 Architectures avancées D. Etiemble 6 3 Equations (simplifiées) du transistor MOS S Si Vgs − Vt < 0, mode bloqué : I ds = 0 n+ Si 0 < Vds <Vgs − Vt , mode linéaire I ds = µ G D n+ L (p) Cox W (2(Vgs − Vt )Vds − Vds2 ) 2 L e W Si 0 <Vgs − Vt < Vds , mode saturé n+ Cox W I ds = µ (Vgs − Vt ) 2 2 L M1 Informatique 2007-2008 n+ L (p) Architectures avancées D. Etiemble 7 Modélisation du comportement dynamique Vdd Vdd Entrée Vc p Ip Sortie n 0V 0 In Sortie Entrée Td CL Somme des capacités parasites l'inverseur est un générateur de courant déclenché par le passage du seuil M1 Informatique 2007-2008 Architectures avancées D. Etiemble Tm Td = Vc CL I satn Tm = Vc CL I satp 8 4 Consommation d’énergie • Consommation d’énergie – Quand une capacité est chargée ou déchargée – Une capacité chargée est un 1 logique, déchargée est un 0 logique E=CV2 E S 10 01 • Les capacités peuvent être les grilles d’autres transistors ou des fils (bus et interconnexion longues) M1 Informatique 2007-2008 Architectures avancées D. Etiemble 9 Consommation d’énergie • Des effets secondaires comme les courants de fuite et de court-circuits augmentent avec les technologies modernes IN OUT 0 Fuites IN OUT 1 1/2 CourtCourt-circuit (sub(sub-threshold) threshold) • Les fuites augmentent considérablement avec les technologies modernes M1 Informatique 2007-2008 Architectures avancées D. Etiemble 10 5 L’extensibilité (scalability) Largeur = W = 0, 7 Longueur = L = 0, 7 tox = 0, 7 Les dimensions latérales et verticales diminuent de 30% 0, 7 × 0, 7 = 0, 7 0, 7 C ap. bord = C f = 0, 7 C ap. surface = C a = C ap. totale ⇒ C = 0, 7 Les capacités diminuent de 30% Surface puce = X × Y = 0, 7 × 0, 7 = 0, 7 2 La surface de puce diminue de 50% M1 Informatique 2007-2008 Architectures avancées D. Etiemble 11 L’extensibilité (scalability) Cap 0, 7 = = 0, 7 Transistor 1 La capacité par transistor diminue de 30% Cap 0, 7 1 = = Surface 0, 7 × 0, 7 0, 7 La capacité par unité de surface augmente de 43% Vdd = 0, 7 Vt = 0, 7 I = T= 1 W 0, 7 2 (Vdd − Vt ) 2 = = 0, 7 tox L 0, 7 C × Vdd 0, 7 × 0, 7 0, 7 × 0, 7 2 = = 0.7, Puissance = C × V 2 × f = = 0, 7 2 I 0, 7 0, 7 Délai diminue de 30%, puissance diminue de 50% M1 Informatique 2007-2008 Architectures avancées D. Etiemble 12 6 Puissance et énergie Energie • “Capacité à faire quelque chose d’utile” • Important pour – Durée de vie des piles et batteries – Facture d’électricité • Mesurée au cours du temps • Proportionnelle à la somme des capacités et au carré de la tension (CV2) M1 Informatique 2007-2008 Architectures avancées D. Etiemble 13 Puissance et énergie Puissance • Travail effectué par unité de temps • – Mesuré en Watts P = αCV2f (α : activité, C: capacités, V: tension, f : fréquence) • “Mesurée” à sa valeur maximale • Plus de puissance Plus de courant – Ne peut dépasser les contraintes de puissance maximale disponible • Plus de puissance Température plus élevée – Ne peut dépasser les contraintes thermiques M1 Informatique 2007-2008 Architectures avancées D. Etiemble 14 7 Tension, puissance et fréquence • Les transistors commutent plus vite à une tension plus élevée tension plus élevé permet des fréquences plus élevées • La fréquence maximale croît presque linéairement avec la tension … dans une plage Vmin-Vmax – V < Vmin les transistors ne commutent pas 1000 XScale processor freq. & power vs. voltage * 900 800 – V > Vmax risque de destruction par surchauffe 600 500 • “Loi cubique”: P= Fequency(M hz) Power (mWatt) 700 400 kV3 300 200 (or ~1%V=3%P) 100 0 0.5 0.7 0.9 1.1 1.3 1.5 1.7 1.9 * Source: Intel Corp. Corp. (http://developer.intel.com (http://developer.intel.com)) M1 Informatique 2007-2008 Architectures avancées D. Etiemble 15 Technologie de fabrication : l’extensibilité Objectif (Idéal) : à chaque génération (2-3 ans) • Réduire le délai des portes de 30% – Gain de fréquence de 50% • Doubler la densité d’intégration – Réduction d’un facteur 0,7 par côté – Les dimensions Z et L du transistor sont réduites de 30% – Le pas d’interconnexion est réduit de 30% – On ajoute des niveaux d’interconnexion pour tenir compte des pas et des capacités RC M1 Informatique 2007-2008 Architectures avancées D. Etiemble 16 8 Technologie de fabrication • A chaque génération (tous les 2-3 ans), idéalement : – Réduire le délai des portes de 30% gain de fréquence d’environ ~50% (100/70) – Vdd réduit de ~30% Résultats : Réduction de 2/3 de l’énergie par transition (CV2 0.7 x 0.72 = 0.34X) Réduction de moitié en puissance (CV2f0.7 x 0.72 x 1.5 =0.5X) » La densité de puissance est inchangée M1 Informatique 2007-2008 Architectures avancées D. Etiemble 17 Des scénarii idéaux • “Réduction parfaite” – Nb transistors 1X – Taille 0.5X – Fréquence 1.5X – – – – Puissance 0.5X IPC 1X (instr./cycle) Performance 1.5X Densité de puissance 1X M1 Informatique 2007-2008 • Nouvelle µarchi (CPU) – – – – Même taille de puce Nb transistors 2X Taille 1X Fréquence 1.5X – – – – Puissance 1X IPC 2X Performance 3X Densité de puissance 1X Architectures avancées D. Etiemble 18 9 Les technologies de fabrication : la réalité • En réalité – Les nouvelles réalisations multiplient par 2X la fréquence – Les nouvelles réalisations utilisent plus de transistors (2X-3X pour 1.5X1.7X performance) • A chaque nouveau procédé et génération d’architecture – La puissance augmente d’un facteur proche de 2X – La densité de puissance augmente de 30 à 80% • Cela va empirer avec les prochaines générations de procédé de fabrication – La réduction des tensions va diminuer – Les fuites augmentent considérablement M1 Informatique 2007-2008 Architectures avancées D. Etiemble 19 La loi de Moore Transistors Par puce 108 256M Mémoire Microprocesseur 107 106 256K i486™ i486™ 64K 4K 16K 1K 103 102 4M 1M 105 104 16M 64M 4004 80286 Pentium® Pentium® III Pentium® II Pentium® Pro i386™ i386™ 8086 8080 101 100 ’70 ’73 M1 Informatique 2007-2008 ’76 ’79 ’82 ’85 ’88 Architectures avancées D. Etiemble ’91 ’94 '97 2000 Source: Intel 20 10 Les microprocesseurs ces 25 dernières années • • La densité de transistors double tous les 30 mois Augmentation de la taille de puce source Fred Pollack, MicroMicro-32 – Augmentation de la taille des “wafers” – Progrès technologiques • ⇒ Doublement du nombre de transistors tous les 18 mois Tech 1,0µ 0,7µ 0,5µ 0,18µ mm 6,5 9,5 12,2 10,3 µArch (n) i386C i486C Pentium® Pentium® III mm 11,5 17 17,3 ? µArch (n+1) i486 Pentium® Pentium® Pro Pentium 4 Ratio Ratio 3,1 3,2 2,1 2--3 Implications : (pour la même technologie) 1. Nouvelle µArch ~ surface de puce 2-3X par rapport à l’ancienne 2. Fournit 1.5-1.7X les performances “entières” de l’ancienne M1 Informatique 2007-2008 Architectures avancées D. Etiemble 21 Evolution de la puissance dissipée des CPU ? 100 Pentium® II Pentium® Pentium® 4 Max Power (Watts) Pentium® Pro Pentium® III 10 Pentium® Pentium® w/MMX tech. i486 i386 1 1.5µ 1µ 0.8µ 0.6µ 0.35µ 0.25µ 0.18µ 0.13µ La nouvelle génération augmente toujours la puissance Réduction : performance plus élevé levée avec moins de puissance On part du haut de gamme et on réduit vers les “portables” portables” M1 Informatique 2007-2008 Architectures avancées D. Etiemble 22 11 La densité de puissance 1000 Rocket Nozzle Watts/cm 2 Nuclear Nuclear Reactor Reactor 100 Pentium® Pentium® 4 Pentium® Pentium® III Pentium® Pentium® II Hot plate 10 Pentium® Pentium® Pro Pentium® Pentium® i386 i486 1 1.5µ 1µ 0.7µ 0.5µ 0.35µ 0.25µ 0.18µ 0.13µ 0.1µ 0.07µ * “New Microarchitecture Challenges in the Coming Generations of CMOS CMOS Process Technologies” Technologies” – Fred Pollack, Intel Corp. Micro32 conference key note - 1999. M1 Informatique 2007-2008 Architectures avancées D. Etiemble 23 Efficacité des µarchitectures Tech 1.0µ 0.7µ 0.5µ 0.18µ µArch (n) i386C i486C Pentium® proc Pentium III® proc mm 6.5 9.5 12.2 10.3 µArch (n+1) i486 Pentium® proc Pentium Pro® proc Pentium® 4 proc mm 11.5 17 17.3 14.7 RapportRapport Surface Perf. 3.1 3.2 1.8 2.1 1.5 2 1.4 3,5 Implications: Implications: (dans (dans la même technologie) technologie) 1. µarch(n) arch(n) ~2~2-3X surface de (n(n-1) 2. Fournit 1.41.4-1.8X performance entiè entière de (n(n-1) Area 3 Perf. 2,5 2 1,5 1 0,5 0 486=>PP M1 Informatique 2007-2008 Architectures avancées D. Etiemble PP=>Ppro PIII=>P4P 24 12 Evolution de puissance (théorique) 200 200 100 100 Puissance Puissance de de fuite fuite Puissance Puissance active active Densité Densité de de puissance puissance 75 75 Watts 150 150 50 50 100 100 25 25 50 50 00 Power Density (W/cm 2) 250 250 00 0.25µ 0.25µ 0.18µ 0.18µ 0.13µ 0.13µ 0.1µ 0.1µ Puce de 15 mm de côté côté (225 mm2) Doublement de fré fréquence à chaque génération Estimation pour les générations futures M1 Informatique 2007-2008 Architectures avancées D. Etiemble 25 Réduction de la tension d’alimentation • Tension plus élevée = fréquence plus élevé • Compromis fréquence - puissance – Statiquement, à la fabrication – Dynamiquement, à l’exécution (e.g., Intel’s SpeedStep® Technology) • L’étendue réelle dépend de la conception et du procédé de fabrication • Exemples*: 1000 – Les processeurs Intel® XScale™ fonctionnent de 0,75V (150MHz/50mW) à 1,65V (800MHz/900mW) – Le processeur Intel mobile Pentium® III fonctionnait de 1,1V (600MHz) à 1,7V (1GHz) 700 XScale proc. freq & power vs voltage 900 800 Fequency(Mhz) Power (mWatt) 600 500 400 300 200 100 * Source: Intel Corp. (http://developer.intel.com) 0 0.5 M1 Informatique 2007-2008 Architectures avancées D. Etiemble 0.7 0.9 1.1 1.3 1.5 1.7 1.9 26 13 Réduction de la tension d’alimentation (2) • Effet considérable sur la puissance 20% diminution de fréquence 20% diminution de tension 35% diminution d’énergie (αCV = αC*0,8 = αC*0,64) 50% diminution de puissance. (αCV f = αC*0,8 = αC*0,51) 2 2 2 3 • Encore plus impressionnant par rapport à la performance – 20% variation de fréquence seulement 10%-15% variation de performance* • La diminution de tension peut être utilisée pour un compromis performance - puissance * Dé Dépend essentiellement du rapport de fré fréquence processeur/bus et de la taille des caches M1 Informatique 2007-2008 Architectures avancées D. Etiemble 27 Réduction de Vdd M1 Informatique 2007-2008 Architectures avancées D. Etiemble 28 14 Compromis performance - puissance La réduction de tension d’alimentation seule n’est pas suffisante. On doit effectuer un compromis performance – puissance • Réduction de la taille de puce => réduction des capacités active => réduction Perf(C) et Puissance(C) • Réduction de Vdd et fréquence => Perf(freq) et Puissance (freq, Vdd2) • Réduction de la taille des puces, de Vdd et de la fréquence Prendre une métrique qui prend en compte performance et puissance Utiliser le produit Energie* Délai (E*D) pour évaluer le compromis M1 Informatique 2007-2008 Architectures avancées D. Etiemble 29 Compromis Energie*Délai E = énergie / instruction = Puissance * sec / instruction = Watt / MIPS D = sec / instruction = 1 / MIPS 2 3 2 1 0 0 0 1 2 Vdd (volts) 0 1 2 Vdd (volts) 3 400 ExD E *D ~ Watt / MIPS 1 Delay Energy (PJ) 4 300 200 100 M1 Informatique 2007-2008 3 Architectures avancées D. Etiemble 15 Les différents “segments” • Les systèmes enfouis/embarqués – – – – • L’essentiel de la puissance est consommée par le CPU Pas de limitation thermique Essentiel : durée de vie de la batterie Dans les systèmes temps réels, on peut tirer partie des contraintes temporelles connues Ordinateurs portables – Limitation thermique – Pas d’utilisation des contraintes temporelles des applications – Optimisation pour une durée de vie maximale de la batterie et la performance maximale pour une puissance déterminée • Ordinateurs de bureau: – Problèmes de puissance et de dissipation thermique M1 Informatique 2007-2008 Architectures avancées D. Etiemble 31 La conception “faible consommation” • • • • • Niveau technologique Niveau circuit/logique Niveau architectural Niveau algorithmique Niveau système M1 Informatique 2007-2008 Architectures avancées D. Etiemble 32 16 Niveau technologique • Dimensionement des transistors – Ajuster les W/L aux besoins • Action sur Vt • SOI – Silicium on Insulator • Diminution d’un facteur 2 à 3 des capacités parasites • Meilleure résistance à la température • Action sur Vdd – Plusieurs Vdd • Alimenter les parties lentes avec Vdd plus faible • Séparer le coeur du circuit des circuits d’E/S M1 Informatique 2007-2008 Architectures avancées D. Etiemble 33 Niveau circuit/logique • Dimensionement des portes • Choix du type de logique – Statique/dynamique, synchrone/asynchrone – Adiabatique, préchargement, pass-transistor, etc • • • • • • Optimisations logiques Extraction des sous-fonctions communes Partage des ressources Format de codage Choix des opérateurs Actions sur l’horloge M1 Informatique 2007-2008 Architectures avancées D. Etiemble 34 17 Format de codage M1 Informatique 2007-2008 Architectures avancées D. Etiemble 35 Format de codage • Ajustement du chemin de données suivant la précision demandée M1 Informatique 2007-2008 Architectures avancées D. Etiemble 36 18 Prédiction ou précalcul • Exemple : comparaison – Précalcul des deux bits de poids fort M1 Informatique 2007-2008 Architectures avancées D. Etiemble 37 Choix des opérateurs : additionneurs FA • Il y a plusieurs algorithmes pour un additionneur “entier” – “Ripple, select, skip (x2), Look-ahead, conditional-sum”. – Chaque type a ses caractéristiques temporelles et de puissance. Ripple Carry Carry Select FA FA FA FA FA FA FA FA 0 FA FA 1 Variable/Fixed Variable/Fixed Width Carry Skip Carry LookLook-ahead FA FA FA FA FA M1 Informatique 2007-2008 Architectures avancées D. Etiemble FA FA FA 38 19 Puissance et délai (additionneurs) • D’après Callaway et Swartzlander*: Ripple Carry Constant Width Carry Skip Variable Width Carry Skip Carry Lookahead Carry Select Conditional Sum FA Energie (pJ) Délai (ns) 117 54.27 109 28.38 126 21.84 171 17.13 216 19.56 304 20.05 En ne choisissant qu’ qu’un critè critère : – Puissance – utiliser “constant width carry skip” skip” – Délai – utiliser “carry looklook-ahead” ahead” * “Estimating the power consumption of CMOS adders” adders” - Callaway, Callaway, T.K.; Swartzlander, Swartzlander, E.E., Jr. Jr. 11th Symposium on Computer Arithmetic, Arithmetic, 1993. Proceedings. Proceedings. M1 Informatique 2007-2008 Architectures avancées D. Etiemble 39 Niveau architectural • Optimisation – – – – – Diminuer Vdd Parallélisme/Pipeline Encodage de bus Eteindre les modules inutilisés Partage des ressources exploitant la localité spatiale M1 Informatique 2007-2008 Architectures avancées D. Etiemble 40 20 Parallélisme • Fréquence divisée par 2 • Complexité multipliée par 2 • Puissance de traitement inchangée M1 Informatique 2007-2008 Architectures avancées D. Etiemble 41 Pipeline • Puissance de traitement inchangée • Fréquence inchangée • Complexité inchangée M1 Informatique 2007-2008 Architectures avancées D. Etiemble 42 21 Codage de bus • Ne transmettre que les transitions : intéressant si forte corrélation entre les données (images) • Code T0 – 1 bit supplémentaire INC • =1 pour deux adresses consécutives (et on ne transmet pas les adresses) • = 0 et on utilise les adresses normales. M1 Informatique 2007-2008 Architectures avancées D. Etiemble 43 Codage de bus • Codage de bus inversé M1 Informatique 2007-2008 Architectures avancées D. Etiemble 44 22 Niveau système • • • • • Contrôle d’activité Partitionement Réduction de tension d’alimentation Gestion de la puissance Mises en veille M1 Informatique 2007-2008 Architectures avancées D. Etiemble 45 Gestion dynamique de la puissance Exemple: STRONGARM SA1100 •RUN : opérationnel •IDLE: une routine logicielle peut arrêter le CPU s’il est inutilisé, tout en continuant à “suivre” les interruptions •SLEEP: Arrêt de l’activité du circuit 400mW RUN 10µs 90µs 160ms 10µs 90µs IDLE SLEEP 50mW M1 Informatique 2007-2008 Architectures avancées D. Etiemble 160µW 46 23 Les mémoires • Pour la mémoire, l’efficacité est aussi un problème – – – – – Vitesse (latence et débit), “timing” prévisible ou non Efficacité énergétique Taille Coût Volatilité ou non M1 Informatique 2007-2008 Architectures avancées D. Etiemble 47 Les problèmes du temps d‘accès •Ecart croissant entre mémoire et CPU Vitesse •• Années Années60 60(Atlas): (Atlas): défaut de défaut de page page ~~2500 2500instructions instructions •• 2002 (µP 2 GHz ): 2002 (µP 2 GHz ): accès accès DRAM DRAM ~~500 500 instructions instructions pénalité d’échec cache pénalité d’échec cache bientôt bientôt similaire au défaut de page dans similaire au défaut de page dans ≥ 2x l’Atlas l’Atlas tous les 2 ans -2 p. a. ) 8 CP U (1 .5 4 2 .a.) 1.07 p ( M A DR 1 0 1 M1 Informatique 2007-2008 2 3 4 5 [P. Machanik: Approaches to Addressing the Memory Wall, TR Nov. 2002, U. Brisbane] Années Architectures avancées D. Etiemble 48 24 Temps d‘accès et consommation d‘énérgie „Actuellement, la taille de certaines applications double tous les 10 mois " Exemple (Modèle CACTI ): [STMicroelectronics, Medea+ Workshop, Stuttgart, Nov. 2003] M1 Informatique 2007-2008 Architectures avancées D. Etiemble 49 Bancs de registres multiports Surface (λ λ2x106) Puissance (W) 1.8 7 14 1.7 6 12 5 10 4 8 3 6 1.2 2 4 1.1 1 2 1 0 1.6 1.5 1.4 1.3 16 32 64 Taille du banc de registres 128 Source and © H. Valero, 2001 Temps cycle (ns) 0 16 32 GP6M2 64 GP6M3 128 16 32 64 128 Taille du banc de registres •Rixner’s et al. [HPCA’00], Technologie 0,18 µm •Configurations VLIW GPxMyREGz avec : x={6}, y={2, 3} and z={16, 32, 64, 128} M1 Informatique 2007-2008 Architectures avancées D. Etiemble 50 25 Puissance dissipée par la mémoire Mobile PC Average System Power Mobile PC Thermal Design (TDP) System Power Other 13% Other 13% 600/500 MHz uP 37% Power Supply 10% 600/500 MHz uP 13% Power Supply 10% Memory+Graphics 12% LCD 10" 30% Memory+Graphics 15% HDD 9% LCD 10" 19% [Courtesy: N. Dutt; Source: V. Tiwari] HDD 19% Note: Based on Actual Measurements Multiple Platform Components Comprise Average Power CPU Dominates Thermal Design Power M1 Informatique 2007-2008 Architectures avancées D. Etiemble 51 Puissance dissipée du processeur EBOX 8% DMMU 8% Others 5% Icache 26% 42%/40% pour la mémoire ! Clock 10% IMMU 9% Ibox 18% Dcache 16% Strong ARM IEEE Journal of SSC Nov. 96 Control L. 16% Data Flow 11% I/O 7% Clock 19% PLA 5% ROM 2% Cache 23% Power PC Based on slide by and ©: Osman S. Unsal, Israel Koren, C. Mani Krishna, Csaba Andras Moritz, University of Massachusetts, Amherst, 2001 M1 Informatique 2007-2008 TLB 17% Proceedings of ISSCC 94 Architectures avancées D. Etiemble 52 26 Mémoire Scratch pad (SPM) Hiérarchie Hiérarchie Exemple Exemple MP SPM Espace d‘adressage Coeurs ARM7TDMI réputés pour la faible consommation processeur 0 Pas de mémoire d‘étiquettes FFF.. M1 Informatique 2007-2008 Mémoire scratch pad Architectures avancées D. Etiemble 53 Consommation Scratchpad et MP Exemple: Carte d’évaluation Atmel ARM Réduction Réductionen en courant courant::// 3.02 3.02 Courant 32 Bit-Load Instruction (Thumb) 200 Mémoire (sur carte) mA principale 150 100 116 77.2 82.2 50.9 44.4 50 48.2 1.16 53.1 0 SPM (Sur puce) Prog Off-Chip/ Data Prog Off-Chip/ Data Prog On-Chip/ Data Prog On-Chip/ Data Off-Chip On-Chip Off-Chip On-Chip Courant cœur + mémoire interne (mA) Courant mémoire externe (mA) Processeur M1 Informatique 2007-2008 Architectures avancées D. Etiemble 54 27 Energie Scratchpad et Mémoire principale Les accès en MP prennent beaucoup de cycles. Le gain (86%) est plus grand que pour le courant. Exemple: Carte d’évaluation Atmel ARM Energie nJ 32 Bit-Load Instruction (Thumb) 140.0 120.0 100.0 80.0 60.0 40.0 20.0 0.0 115.8 Réduction Réduction d’énergie d’énergie :: // 7.06 7.06 76.5 51.6 16.4 Prog Off-Chip/ Data Off-Chip Prog Off-Chip/ Data On-Chip Prog On-Chip/ Data Off-Chip 100% 100% prévisible prévisible Prog On-Chip/ Data On-Chip Energy M1 Informatique 2007-2008 Architectures avancées D. Etiemble 55 L’inconvénient des caches 1. Problème des défauts de cache Le pire cas (WCET) peut être grand [P. Marwedel et al., ASPDAC, 2004] M1 Informatique 2007-2008 Architectures avancées D. Etiemble 56 28 L’inconvénient des caches 2. Energie consommée pour l’accès parallèle des ensembles, dans les comparateurs, les multiplexeurs . 9 8 7 Energie par accès [nJ] 6 Scratch pad 5 Cache, 2 voies, 32 bits 4 Cache, 2 voies, 24 bits Cache, 2 voies, 20 bits 3 2 1 0 256 512 1024 2048 4096 8192 Taille cache M1 Informatique 2007-2008 Architectures avancées D. Etiemble 16384 [R. Banakar, S. Steinke, B.-S. Lee, 2001] 57 Influence de l‘associativité [P. Marwedel et al., ASPDAC, 2004] M1 Informatique 2007-2008 Architectures avancées D. Etiemble 58 29 Références • Un certain nombre de transparents utilisent ou s’inspirent de transparents des cours suivants – Avi Mendelson: “Low Power Architecture”, Technion, Israel – Prabhat Mishra : “Components of Embedded Systems”, University of Florida – Alain Guyot : “Comportement électrique de la porte CMOS”, DEA Micro-électronique, Grenoble, 1997 • http://tima-cmp.imag.fr/~guyot/Cours/Microelectronique/index.html – Alain Guyot : “Conception pour la faible consommation”, DEA Microélectronique, Grenoble, 1996. • http://tima-cmp.imag.fr/~guyot/Cours/Basseconso/BasseConso.pdf – Nathalie Julien : “Conception faible consommation”, DEA Electronique, Lorient, 2003 • Les références pour d’autres transparents sont citées dans le transparent. M1 Informatique 2007-2008 Architectures avancées D. Etiemble 59 30