Architectures A hit t avancées é : Introduction Daniel Etiemble d @l i f [email protected] Les ordinateurs : de 1946 à hier/aujourd’hui • ENIAC (1946) – – – – 19000 tubes 30 tonnes surface de 72 m2 consomme 140 kilowatts. Horloge : 100 KHz. – ≈ 330 multiplications/s • Un pportable ((2006)) – Intel 2 cœurs 2,3 GHz – 4 Go DRAM, 500 Go disque – 1, 72 kg M2R NSI-SETI 2013-2014 Architectures avancées D. Etiemble 2 1 Systèmes informatiques M2R NSI-SETI 2013-2014 Architectures avancées D. Etiemble 3 Systèmes embarqués ou enfouis ORDINATEURS INVISIBLES M2R NSI-SETI 2013-2014 Architectures avancées D. Etiemble 4 2 Les grandes classes de système Caractéristique Ordinateur de bureau Serveur Enfoui/embarqué Prix du microprocesseur 100 à 1000 € 200 à 2000 € par processeur 0,20 à 200 € par processeur Microprocesseurs vendus en 2000 150 millions 4 millions 300 millions (en ne comptant que les 32 et 64 bits) Critères Prixperformance Performance graphique Débit, disponibilité, extensibilité Prix, puissance dissipée, performance pour l’application M2R NSI-SETI 2013-2014 Architectures avancées D. Etiemble 5 Ventes des microprocesseurs (fin du siècle dernier ) • Processeurs enfouis/embarqués – – – – 4 bits bit : 2 milliards illi d 8 bits : 4,7 milliards 16 bits : 700 millions 32 bits : 400 millions • DSP (traitement du signal) – 600 millions • Généralistes classiques – 150 millions M2R NSI-SETI 2013-2014 Architectures avancées D. Etiemble 6 3 Gammes de processeurs • Haut de gamme • Contraintes – Processeurs des PC et serveurs • Spécialisé – Haut de gamme des générations précédentes Ex : MIPS, PowerPC « enfouis » – – – – – • Spécialisé p embarqué q Prix Performance Encombrement Consommation Temps réel • temps d’exécution déterministe ou non – Faible consommation – Temps réel M2R NSI-SETI 2013-2014 Architectures avancées D. Etiemble 7 Problème du temps réel strict T Indéterminisme M2R NSI-SETI 2013-2014 Architectures avancées D. Etiemble 8 4 Les applications • • • • • • • • • Usage général Calcul Scientifique GRAPHIQUE Traitement du signal JAVA Bases de données WEB Cloud Enfoui et embarqué M2R NSI-SETI 2013-2014 Architectures avancées D. Etiemble 9 Le modèle économique Intel Nouveau modèle plus performant tous les x années Performance relative 40 30 20 10 0 0 1 Années 2 3 4 5 6 Disponible M2R NSI-SETI 2013-2014 Architectures avancées D. Etiemble 7 8 9 10 Besoins 10 5 Un autre modèle économique Performance supérieure aux besoins de « masse » P f Performance relative l ti 40 30 20 10 0 0 1 Années 2 3 4 5 6 Disponible 7 8 9 10 Besoins Recherche des “killer applications” M2R NSI-SETI 2013-2014 Architectures avancées D. Etiemble 11 Les moteurs de l’évolution • Les contraintes économiques – Lois L i économiques é i – Volumes de vente MARCHE GRAND PUBLIC PCs Consoles de jeux C j Smartphones Tablettes M2R NSI-SETI 2013-2014 Intel, Intel Microsoft Apple, Samsung Architectures avancées D. Etiemble 12 6 “Roadmap” des applications enfouies M2R NSI-SETI 2013-2014 Architectures avancées D. Etiemble 13 “Roadmap” du traitement enfoui x 40 Source ITRS Design ITWG July 2003 Process Technology (nm) Operation p voltage g ((V)) Clock frequency (MHz) Application (MAX performance required) Application (Others) 130 1,2 150 90 65 45 32 1 0,8 0,6 0,5 300 450 600 900 Real Time Video Codec Real Time Interpretation Still Image Processing MPEG4/CIF Web Browser TV phone (1:1) TV phone (>3:1) Electric mailer Voice recognition (input) Voice recognition (operation) Scheduler Authentification (Crypto engine) Processing Performance (GOPS) 0,3 2 14 77 461 Parallelism factor 1 4 4 4 4 Communication speed (Kbps) 64 384 2304 13824 82944 Energy Efficiency (MOPS/mW) 3 20 140 770 4160 Peak Power Concumption (mW) 100 100 100 100 100 St d b P Stand-by Power C Concumption ti ((mW) W) 2 2 2 2 2 Battery Capacity (Wh/kg) 120 200 400 22 0,4 1200 2458 4 497664 24580 100 2 Performance Efficacité énergétique (MOPS/mW) Puissance dissipée Capacité batterie M2R NSI-SETI 2013-2014 Architectures avancées D. Etiemble 14 7 Exemple : industrie automobile Hétérogénéité M2R NSI-SETI 2013-2014 Architectures avancées D. Etiemble Sources : C. Balle – Renault 15 Les contraintes ergonomiques • Les smart-phones Samsung iPhone Blackberry M2R NSI-SETI 2013-2014 Architectures avancées D. Etiemble 16 8 Les contraintes économiques Fenêtre de vente d’un produit grand public M2R NSI-SETI 2013-2014 « Time to market » Architectures avancées D. Etiemble 17 Performance : Microprocesseur Texécution = NI * CPI * Tc = NI IPC * F Temps de cycle Nombre de cycles/Instruction 10000 1000 CPU 100 Microarchitecture ((IPC)) F(MHz) 10 M2R NSI-SETI 2013-2014 Technologie 96 20 00 92 88 84 80 1 Architectures avancées D. Etiemble 18 9 DES EXPONENTIELLES MICROPROCESSEURS 2 /1 5 2x/1,5an CPU Performance après 1987 Performance avant 1986 Fréquence d'horloge (MOS) 0% Evolution/an M2R NSI-SETI 2013-2014 10% 20% 30% 40% 50% 60% Architectures avancées D. Etiemble 19 DES EXPONENTIELLES MEMOIRES 2x/1,5an 0,5/10 ans Bande passante Latence Quantité/Prix Capacité 0% Evolution/an M2R NSI-SETI 2013-2014 20% DRAM Architectures avancées D. Etiemble 40% 60% DISK 20 10 Les technologies CMOS M2R NSI-SETI 2013-2014 Architectures avancées D. Etiemble 21 La loi de Moore Transistors par puce 108 256M 64M Mémoire Mi Microprocesseur 107 16M 4M 106 1M 256K 105 4K 16K 104 1K 103 102 i486™ 64K 4004 80286 Pentium® Pentium® III Pentium® II Pentium® Pro i386™ 8086 8080 101 100 ’70 ’73 ’76 ’79 ’82 ’85 ’88 ’91 ’94 '97 2000 Source: Intel M2R NSI-SETI 2013-2014 Architectures avancées D. Etiemble 22 11 Processeurs Intel : nombre de transistors l’année d’introduction 1000000000 Itanium2 P4 Nb de transistors 100000000 10000000 1000000 i486 100000 i286 10000 PIIPIII Pentium Itanium2 Itanium i386 8086 1000 4004 8080 100 10 1 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 M2R NSI-SETI 2013-2014 Architectures avancées D. Etiemble 23 LES DIFFERENTIELS 10000 1000 CPU 100 Mémoire 10 20 000 98 96 94 92 90 88 86 84 82 80 1 Complexité croissante de la hiérarchie mémoire : L1, L2, L3, MP M2R NSI-SETI 2013-2014 Architectures avancées D. Etiemble 24 12 Evolution des hiérarchies mémoire (1985-2000) Bus spécial CPU a) L1 cache MP d) Bus système + 386 CPU + Caches L1 b) MP Caches L1 Cache L2 MP PentiumII Bus système Bus système Bus spécial Pentium MP RDRAM CPU superscalaire + Caches L1 e) CPU Cache superscalaire + L2 Caches L1 c) Cache L2 CPU superscalaire MP Bus système Pentium4 Cache L2 Pentium Pro Bus système M2R NSI-SETI 2013-2014 Architectures avancées D. Etiemble 25 La densité de puissance 1000 Réacteur nucléaire Watts/cm2 100 Trainée fusée Pentium® 4 Plat chaud 10 Pentium® III Pentium® II Pentium® Pro Pentium® i386 i486 1 * “New Microarchitecture Challenges in the Coming Generations of CMOS Process Technologies” – Fred Pollack, Intel Corp. Micro32 conference key note - 1999. M2R NSI-SETI 2013-2014 Architectures avancées D. Etiemble 26 13 Multiprocesseurs et puissance (d’après F. Anceau) M2R NSI-SETI 2013-2014 Architectures avancées D. Etiemble 27 Le grand virage… • Evolution des processeurs pour PC (Intel, AMD) et dans l’enfoui embarqué (ARM, etc) – De l’augmentation de la fréquence d’horloge… – Au parallélisme • Hyperthread • Multi-cœurs Multi cœurs / many-cores many cores M2R NSI-SETI 2013-2014 Architectures avancées D. Etiemble 28 14 Processeurs Intel et AMD : Multithread et Multiprocesseurs Processeur logique 1 Etat archit. (registres) Processeur logique 2 Processeur physique 1 Etat archit. (registres) Etat archit. (registres) Unités fonctionnelles Unités fonctionnelles Caches Caches Mémoire principale M2R NSI-SETI 2013-2014 Processeur physique 2 Etat archit. (registres) Unités fonctionnelles Caches Mémoire principale Architectures avancées D. Etiemble 29 Les multi-cœurs Power M2R NSI-SETI 2013-2014 Architectures avancées D. Etiemble 30 15 CPU et GPU 10000 T12 GTX285 8800 Ultra GFLOPS 1000 GTX280 7800 GTX 8800 GTX 7900 GTX 6800 Ultra 100 10 Dual core P4 P4 Dual core P4 NVIDIA GPU Xeon Westmere Quad Core 2 Duo Intel CPU Architectures avancées D. Etiemble 0 -1 ja nv ja nv -0 -0 9 8 7 ja nv -0 6 ja nv -0 ja nv -0 5 4 M2R NSI-SETI 2013-2014 ja nv -0 ja nv ja nv -0 3 1 31 GPU Fermi M2R NSI-SETI 2013-2014 Architectures avancées D. Etiemble 32 16 Puissance et énergie Energie • “Capacité p à faire qquelque q chose d’utile” • Important pour – Durée de vie des piles et batteries – Facture d’électricité • Mesurée au cours du temps p à la somme des capacités p et au carré • Proportionnelle 2 de la tension (CV ) M2R NSI-SETI 2013-2014 Architectures avancées D. Etiemble 33 Les batteries Batteries au lithium : 1992 : 90 Wh/kg, g, 2000 : 140 à 160 Wh/kg . 2007 : de 190 à 200 Wh/kg. Source : CEA M2R NSI-SETI 2013-2014 Architectures avancées D. Etiemble 34 17 Puissance et énergie Puissance • Travail effectué par unité de temps • – Mesuré en Watts P = CV2f (: activité, C: capacités, V: tension, f : fréquence) • “Mesurée” à sa valeur maximale • Plus de puissance Plus de courant – Ne peut dépasser les contraintes de puissance maximale disponible • Plus de puissance Température plus élevée – Ne peut dépasser les contraintes thermiques M2R NSI-SETI 2013-2014 Architectures avancées D. Etiemble 35 Diminuer la puissance • Pd proportionnel à CVdd2f – Li Limiter it l’augmentation l’ t ti de d fréquence fé – Limiter la tension d’alimentation • Environ 1V • Problème VT Transistor T i t passantt Vgs – VT > 0 Vdd- VT > 0 M2R NSI-SETI 2013-2014 Architectures avancées D. Etiemble 36 18 Courants de fuite (subtreshold leakage) M2R NSI-SETI 2013-2014 Architectures avancées D. Etiemble 37 Evolution de la puissance (à taille de puce constante) 250 100 Watts 200 150 Puissance utile 75 Puissance/cm2 50 100 25 50 0 Puissance (W/c cm2) Puissance fuite ~ puce 15mm Fréquence q X 1.5 chaque génération 0 M2R NSI-SETI 2013-2014 Architectures avancées D. Etiemble Limites: 1. Puissance dissipée, 2. Alimentation, et 3. Densité de puissance 38 19 Un grand défi : la réduction de l’énergie consommée et de la puissance dissipée • Effort à tous les niveaux – – – – – Niveau technologique Niveau circuit/logique Niveau architectural Niveau algorithmique Niveau système M2R NSI-SETI 2013-2014 Architectures avancées D. Etiemble 39 Le spectre d’implémentation Microprocesseur Matériel Reconfigurable ASIC – ASIC • Haute performance – dédié à l’application • Non modifiable – Processeur • Programmable • Non dédié à l’application – Matériel reconfigurable • Bon compromis M2R NSI-SETI 2013-2014 Architectures avancées D. Etiemble 40 20 M2R NSI-SETI 2013-2014 Architectures avancées D. Etiemble 41 Les processeurs utilisables 1998 • Les microcontrôleurs 7000 6000 5000 4000 3000 2000 1000 0 4 bits 8 bits DSP (C55x) • Composants du commerce Applications temps réel OMAP 1610 (TI) Traitement voix/ audio/vidéo/ graphique Modems et périphériques communications M2R NSI-SETI 2013-2014 2008 8000 Millions de dolllars – µP P (4 à 32 bits) bit ) – RAM-ROM-Horloge – Périphériques 2003 9000 Architectures avancées D. Etiemble 16 bits Contrôleur communications DSP-RISC 32 bits RISC (ARM92x) A li ti Applications Accélérateurs matériels Système d’exploitation Périphériques applications 42 21 Les systèmes sur puce RISC MIPS™ SDRAM MIPSMIPS CPU CPU MMI Nexperia (NXP) TM-xxxx BLOC IP BLOC IP plateforme . . . BLOC IP Besoins utilisateurs TriMedia CPU TriMedia CPU PRxxxx PI BUS BUS PI contraintes Conceptions anciennes I$ $ TriMedia™ DSP D$ I$ $ BLOC IP PI BUS BUS PI D$ BUS MEMORY Mémoire DVP DVP BUS Les plate-formes DEVICE BLOC IPIP . BLOCK . BLOC IP . SYSTEME DVP produit MEM Processeurs RISC $ I$ D$ MEM Processeurs spécifiques MPSoC de ST MEM DSP DSP DSP,DSP hw Matériel spécialisé I$ Réseau sur puce Entrées Sorties M2R NSI-SETI 2013-2014 MEM DSP DSP RISC DSP MT I$ MEMOIRE Ordonnanceur SOC Ordonnanceur multiprocesseur Architectures avancées D. Etiemble 43 Systèmes sur puce (FPGA) Blocs d’E/S Blocs logiques Blocs logiques (LUT et bascules) Blocs SRAM Blocs multiplieurs PLL Interfaces spécialisées (Ethernet, PCI) µP (en dur) Composants programmés (IP) - µP, RAM, E/S, périphériques -TS, audio, images, vidéo - modulation, démodulation Réseau d’interconnexion ALTERA, XILINX, … M2R NSI-SETI 2013-2014 Architectures avancées D. Etiemble 44 22 Les écarts de productivité • Évolution comparée du temps de conception d’un circuit et du nombre de portes disponibles Écart de productivité de conception 10,000 100,000 1,000 10,000 100 Transistors par 10 puce 1 (en millions) 0.1 0.01 Capacité des circuits intégrés Ecart productivité 0.001 M2R NSI-SETI 2013-2014 1000 100 10 1 Productivité (K)Transistors par Homme-Mois. 0.1 0.01 Architectures avancées D. Etiemble 45 Où va l’effort de conception ? Lo ogiciel Matériel Source : IBS 2002 M2R NSI-SETI 2013-2014 Architectures avancées D. Etiemble 46 23