Architectures avancées : Introduction Daniel Etiemble [email protected] Les ordinateurs : de 1946 à aujourd’hui • ENIAC (1946) – – – – 19000 tubes 30 tonnes surface de 72 m2 consomme 140 kilowatts. Horloge : 100 KHz. – ≈ 330 multiplications/s • Mon portable (2006) – Intel Duo Processor 2GHz – 1 Go DRAM, 100 Go disque – 1, 9 kg M2R NSI – M2R SETI 2011-2012 Architectures avancées D. Etiemble 2 1 « Systèmes informatiques » M2R NSI – M2R SETI 2011-2012 Architectures avancées D. Etiemble 3 Systèmes embarqués ou enfouis • “Ordinateurs” camouflés Sony Playstation 2 Casio Camera Watch Nokia 7110 Browser Phone Philips TiVo Recorder Philips DVD player M2R NSI – M2R SETI 2011-2012 Prof. Stephen A. Edwards of Columbia University Architectures avancées D. Etiemble 2 Les grandes classes de système Caractéristique Ordinateur de bureau Serveur Enfoui/embarqué Prix du microprocesseur 100 à 1000 € 200 à 2000 € par processeur 0,20 à 200 € par processeur Microprocesseurs vendus en 2000 150 millions 4 millions 300 millions (en ne comptant que les 32 et 64 bits) Critères Prixperformance Performance graphique Débit, disponibilité, extensibilité Prix, puissance dissipée, performance pour l’application M2R NSI – M2R SETI 2011-2012 Architectures avancées D. Etiemble 5 Ventes des microprocesseurs (fin du siècle dernier ☺) • Processeurs enfouis/embarqués – – – – 4 bits : 2 milliards 8 bits : 4,7 milliards 16 bits : 700 millions 32 bits : 400 millions • DSP (traitement du signal) – 600 millions • Généralistes classiques – 150 millions M2R NSI – M2R SETI 2011-2012 Architectures avancées D. Etiemble 6 3 Gammes de processeurs • Haut de gamme • Contraintes – Processeurs des PC et serveurs • Spécialisé – Haut de gamme des générations précédentes Ex : MIPS « enfouis » – – – – – Prix Performance Encombrement Consommation Temps réel • temps d’exécution déterministe ou non • Spécialisé embarqué – Faible consommation – Temps réel M2R NSI – M2R SETI 2011-2012 Architectures avancées D. Etiemble 7 Les applications • • • • • • • • Usage général Calcul Scientifique GRAPHIQUE Traitement du signal JAVA Bases de données WEB Enfoui et embarqué M2R NSI – M2R SETI 2011-2012 Architectures avancées D. Etiemble 8 4 “Roadmap” des applications enfouies M2R NSI – M2R SETI 2011-2012 Architectures avancées D. Etiemble 9 “Roadmap” du traitement enfoui x 40 Source ITRS Design ITWG July 2003 Process Technology (nm) Operation voltage (V) Clock frequency (MHz) Application (MAX performance required) Application (Others) 130 1,2 150 90 65 45 32 1 0,8 0,6 0,5 300 450 600 900 Real Time Video Codec Real Time Interpretation Still Image Processing MPEG4/CIF Web Browser TV phone (1:1) TV phone (>3:1) Voice recognition (input) Voice recognition (operation) Electric mailer Scheduler Authentification (Crypto engine) Processing Performance (GOPS) 0,3 2 14 77 461 Parallelism factor 1 4 4 4 4 Communication speed (Kbps) 64 384 2304 13824 82944 Energy Efficiency (MOPS/mW) 3 20 140 770 4160 Peak Power Concumption (mW) 100 100 100 100 100 Stand-by Power Concumption (mW) 2 2 2 2 2 Battery Capacity (Wh/kg) 120 200 400 22 0,4 1200 2458 4 497664 24580 100 2 Performance Efficacité énergétique (MOPS/mW) Puissance dissipée Capacité batterie M2R NSI – M2R SETI 2011-2012 Architectures avancées D. Etiemble 10 5 Exemple : industrie automobile Hétérogénéité M2R NSI – M2R SETI 2011-2012 Architectures avancées D. Etiemble Sources : C. Balle – Renault 11 Les moteurs de l’évolution • Les contraintes économiques – Lois économiques – Volumes de vente PCs MARCHE GRAND PUBLIC Consoles de jeux PDA Stations M2R NSI – M2R SETI 2011-2012 Intel, Microsoft Sony, 3Com, Sun Architectures avancées D. Etiemble 12 6 Le modèle économique Intel Nouveau modèle plus performant tous les x années Performance relative 40 30 20 10 0 0 1 Années 2 3 4 5 6 Disponible M2R NSI – M2R SETI 2011-2012 7 8 9 10 Besoins Architectures avancées D. Etiemble 13 Un autre modèle économique Performance supérieure aux besoins de « masse » Performance relative 40 30 20 10 0 0 1 Années 2 3 4 5 Disponible 6 7 8 9 10 Besoins Recherche des “killer applications” applications” M2R NSI – M2R SETI 2011-2012 Architectures avancées D. Etiemble 14 7 Killer Application M2R NSI – M2R SETI 2011-2012 Architectures avancées D. Etiemble 15 Performance : Microprocesseur Texécution = NI * CPI * Tc = NI IPC * F Temps de cycle Nombre de cycles/Instruction 10000 1000 CPU 100 Microarchitecture (IPC) F(MHz) 10 M2R NSI – M2R SETI 2011-2012 Technologie 96 20 00 92 88 84 80 1 Architectures avancées D. Etiemble 16 8 DES EXPONENTIELLES MICROPROCESSEURS 2x/1,5an CPU Performance après 1987 Performance avant 1986 Fréquence d'horloge (MOS) 0% Evolution/an M2R NSI – M2R SETI 2011-2012 10% 20% 30% 40% 50% 60% Architectures avancées D. Etiemble 17 DES EXPONENTIELLES MEMOIRES 2x/1,5an 0,5/10 ans Bande passante Latence Quantité/Prix Capacité 0% Evolution/an M2R NSI – M2R SETI 2011-2012 20% DISK Architectures avancées D. Etiemble 40% 60% DRAM 18 9 La loi de Moore Transistors par puce 108 256M Mémoire Microprocesseur 107 106 256K i486™ i486™ 64K 4K 16K 1K 80286 Pentium® Pentium® III Pentium® II Pentium® Pro i386™ i386™ 8086 103 102 4M 1M 105 104 16M 64M 4004 8080 101 100 ’70 ’73 ’76 ’79 ’82 ’85 ’88 ’91 ’94 '97 2000 Source: Intel M2R NSI – M2R SETI 2011-2012 Architectures avancées D. Etiemble 19 Processeurs Intel : nombre de transistors l’année d’introduction 1000000000 Itanium2 P4 Nb de transistors 100000000 10000000 1000000 i486 100000 i286 10000 1000 PIIPIII Pentium Itanium2 Itanium i386 8086 4004 8080 100 10 1 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 M2R NSI – M2R SETI 2011-2012 Architectures avancées D. Etiemble 20 10 LES DIFFERENTIELS 10000 1000 CPU 100 Mémoire 10 2000 98 96 94 92 90 88 86 84 82 80 1 Complexité croissante de la hiérarchie mémoire : L1, L2, L3, MP M2R NSI – M2R SETI 2011-2012 Architectures avancées D. Etiemble 21 La densité de puissance 1000 Nuclear Nuclear Reactor Reactor 2 Watts/cm 100 Rocket Nozzle Pentium® Pentium® 4 Hot plate 10 Pentium® Pentium® III Pentium® Pentium® II Pentium® Pentium® Pro Pentium® Pentium® i386 i486 1 1.5µ 1µ 0.7µ 0.5µ 0.35µ 0.25µ 0.18µ 0.13µ 0.1µ 0.07µ * “New Microarchitecture Challenges in the Coming Generations of CMOS CMOS Process Technologies” Technologies” – Fred Pollack, Intel Corp. Micro32 conference key note - 1999. M2R NSI – M2R SETI 2011-2012 Architectures avancées D. Etiemble 22 11 Multiprocesseurs et puissance (d’après F. Anceau) M2R NSI – M2R SETI 2011-2012 Architectures avancées D. Etiemble 23 Le grand virage… • Evolution des processeurs pour PC (Intel, AMD) – De l’augmentation de la fréquence d’horloge… – Au parallélisme • Hyperthread • Multi-cœurs M2R NSI – M2R SETI 2011-2012 Architectures avancées D. Etiemble 24 12 Processeurs Intel et AMD : Multithread et Multiprocesseurs Processeur logique 2 Processeur logique 1 Etat archit. (registres) Etat archit. (registres) Processeur physique 2 Processeur physique 1 Etat archit. (registres) Unités fonctionnelles Unités fonctionnelles Caches Caches Mémoire principale Etat archit. (registres) Unités fonctionnelles Caches Mémoire principale M2R NSI – M2R SETI 2011-2012 Architectures avancées D. Etiemble 25 CPU et GPU 10000 T12 GTX285 8800 Ultra GFLOPS 1000 GTX280 7800 GTX 8800 GTX 7900 GTX 6800 Ultra 100 10 Dual core P4 P4 Dual core P4 NVIDIA GPU Xeon Westmere Quad Core 2 Duo Intel CPU M2R NSI – M2R SETI 2011-2012 -1 0 9 Architectures avancées D. Etiemble ja nv -0 8 ja nv -0 7 ja nv -0 ja nv -0 6 5 ja nv -0 ja nv ja nv ja nv -0 -0 3 4 1 26 13 Puissance et énergie Energie • “Capacité à faire quelque chose d’utile” • Important pour – Durée de vie des piles et batteries – Facture d’électricité • Mesurée au cours du temps • Proportionnelle à la somme des capacités et au carré de la tension (CV2) M2R NSI – M2R SETI 2011-2012 Architectures avancées D. Etiemble 27 Les batteries Batteries au lithium : 1992 : 90 Wh/kg, 2000 : 140 à 160 Wh/kg . 2007 : de 190 à 200 Wh/kg. Source : CEA M2R NSI – M2R SETI 2011-2012 Architectures avancées D. Etiemble 28 14 Puissance et énergie Puissance • Travail effectué par unité de temps • – Mesuré en Watts P = αCV2f (α : activité, C: capacités, V: tension, f : fréquence) • “Mesurée” à sa valeur maximale • Plus de puissance Plus de courant – Ne peut dépasser les contraintes de puissance maximale disponible • Plus de puissance Température plus élevée – Ne peut dépasser les contraintes thermiques M2R NSI – M2R SETI 2011-2012 Architectures avancées D. Etiemble 29 Evolution de la puissance (à taille de puce constante) 250 100 Watts 200 150 Puissance utile 75 Puissance/cm2 50 100 25 50 0 Puissance (W/cm2) Puissance fuite ~ puce 15mm Fréquence X 1.5 chaque génération 0 0.25µ M2R NSI – M2R SETI 2011-2012 0.18µ 0.13µ 0.1µ Architectures avancées D. Etiemble Limites: Limites: 1. 1.Puissance Puissance dissipée, dissipée, 2. Alimentation, 2. Alimentation, et et 3. 3. Densité Densité de de puissance puissance 30 15 Le spectre d’implémentation Microprocesseur Matériel Reconfigurable ASIC – ASIC • Haute performance – dédié à l’application • Non modifiable – Processeur • Programmable • Non dédié à l’application – Matériel reconfigurable • Bon compromis M2R NSI – M2R SETI 2011-2012 Architectures avancées D. Etiemble 31 M2R NSI – M2R SETI 2011-2012 Architectures avancées D. Etiemble 32 16 Espace d’implémentation M2R NSI – M2R SETI 2011-2012 Architectures avancées D. Etiemble 33 Un grand défi : la réduction de l’énergie consommée et de la puissance dissipée • Effort à tous les niveaux – – – – – Niveau technologique Niveau circuit/logique Niveau architectural Niveau algorithmique Niveau système M2R NSI – M2R SETI 2011-2012 Architectures avancées D. Etiemble 34 17 Systèmes multiprocesseurs sur puce (MPSoC) Méthodologies de conception DSP External Memory IP CORE D$ Engine I$ MMU CONTROL BUS IP Platform IP IP . . CONTROL BUS . Middleware / OS Niveau d’abstraction considéré IP MEMORY BUS Application IP Conception à base de plateformes RISC CORE D$ Engine I$ SW HW RTL RTL TA Mers de processeurs SW Portes Blocs matériels + logiciel Transistors Mer de portes Mer de transistors Dessins de masques Années 80’s 70’s Années 90 (fin) Années 90 (début) M2R NSI – M2R SETI 2011-2012 2005+ Architectures avancées D. Etiemble 35 Les écarts de productivité • Évolution comparée du temps de conception d’un circuit et du nombre de portes disponibles Écart de productivité de conception 10,000 100,000 1,000 10,000 100 Transistors par 10 puce 1 (en millions) 0.1 Capacité des circuits intégrés Ecart 10 1 productivité 0.01 1000 100 Productivité (K)Transistors par Homme-Mois. 0.1 0.001 2009 2007 2005 2001 Architectures avancées D. Etiemble 2003 1999 1997 1993 1995 1989 1991 1985 1987 1981 M2R NSI – M2R SETI 2011-2012 1983 0.01 36 18 Où va l’effort de conception ? Logiciel Matériel Source : IBS 2002 M2R NSI – M2R SETI 2011-2012 Architectures avancées D. Etiemble 37 Les technologies du futur • • • • Les interconnexions devenant prédominante, jouer sur la fréquence d’horloge n’est plus efficace La puissance de fuite devient plus importante que la puissance active La dispersion des composants augmentent (problèmes de conception, de rendement) La conception traditionnelle “pire cas” devient trop pessimiste. 2.2 Performances relatives de l’inverseur (sortance 4) 2.0 1.8 fast process T=-40degC 1.6 typ process T=25degC 1.4 1.2 1.0 slow process T=125degC 0.8 Performance degradation!!! 0.6 0.19 M2R NSI – M2R SETI 2011-2012 0.17 CMOS18 0.15 0.13 0.11 CMOS090 0.09 0.07 0.05 CMOS065 CMOS12 Architectures avancées D. Etiemble 38 19