Introduction

publicité
Architectures
A
hit t
avancées
é :
Introduction
Daniel Etiemble
d @l i f
[email protected]
Les ordinateurs : de 1946 à hier/aujourd’hui
• ENIAC (1946)
–
–
–
–
19000 tubes
30 tonnes
surface de 72 m2
consomme 140 kilowatts.
Horloge : 100 KHz.
– ≈ 330 multiplications/s
• Un pportable ((2006))
– Intel 2 cœurs 2,3 GHz
– 4 Go DRAM, 500 Go disque
– 1, 72 kg
M2R NSI-SETI 2013-2014
Architectures avancées
D. Etiemble
2
1
Systèmes informatiques
M2R NSI-SETI 2013-2014
Architectures avancées
D. Etiemble
3
Systèmes embarqués ou enfouis
ORDINATEURS INVISIBLES
M2R NSI-SETI 2013-2014
Architectures avancées
D. Etiemble
4
2
Les grandes classes de système
Caractéristique
Ordinateur de
bureau
Serveur
Enfoui/embarqué
Prix du
microprocesseur
100 à 1000 €
200 à 2000 € par
processeur
0,20 à 200 € par
processeur
Microprocesseurs
vendus en 2000
150 millions
4 millions
300 millions (en
ne comptant que
les 32 et 64 bits)
Critères
Prixperformance
Performance
graphique
Débit,
disponibilité,
extensibilité
Prix, puissance
dissipée,
performance
pour
l’application
M2R NSI-SETI 2013-2014
Architectures avancées
D. Etiemble
5
Ventes des microprocesseurs
(fin du siècle dernier )
• Processeurs enfouis/embarqués
–
–
–
–
4 bits
bit : 2 milliards
illi d
8 bits : 4,7 milliards
16 bits : 700 millions
32 bits : 400 millions
• DSP (traitement du signal)
– 600 millions
• Généralistes classiques
– 150 millions
M2R NSI-SETI 2013-2014
Architectures avancées
D. Etiemble
6
3
Gammes de processeurs
• Haut de gamme
• Contraintes
– Processeurs des PC et
serveurs
• Spécialisé
– Haut de gamme des
générations précédentes
Ex : MIPS, PowerPC « enfouis »
–
–
–
–
–
• Spécialisé
p
embarqué
q
Prix
Performance
Encombrement
Consommation
Temps réel
• temps d’exécution
déterministe ou non
– Faible consommation
– Temps réel
M2R NSI-SETI 2013-2014
Architectures avancées
D. Etiemble
7
Problème du temps réel strict
T
Indéterminisme
M2R NSI-SETI 2013-2014
Architectures avancées D. Etiemble
8
4
Les applications
•
•
•
•
•
•
•
•
•
Usage général
Calcul Scientifique
GRAPHIQUE
Traitement du signal
JAVA
Bases de données
WEB
Cloud
Enfoui et embarqué
M2R NSI-SETI 2013-2014
Architectures avancées
D. Etiemble
9
Le modèle économique Intel
Nouveau modèle plus performant tous les x années
Performance relative
40
30
20
10
0
0
1
Années
2
3
4
5
6
Disponible
M2R NSI-SETI 2013-2014
Architectures avancées
D. Etiemble
7
8
9
10
Besoins
10
5
Un autre modèle économique
Performance supérieure aux besoins de « masse »
P f
Performance
relative
l ti
40
30
20
10
0
0
1
Années
2
3
4
5
6
Disponible
7
8
9
10
Besoins
Recherche des “killer applications”
M2R NSI-SETI 2013-2014
Architectures avancées
D. Etiemble
11
Les moteurs de l’évolution
• Les contraintes économiques
– Lois
L i économiques
é
i
– Volumes de vente
MARCHE GRAND PUBLIC
PCs
Consoles
de jeux
C
j
Smartphones
Tablettes
M2R NSI-SETI 2013-2014
Intel,
Intel Microsoft
Apple, Samsung
Architectures avancées
D. Etiemble
12
6
“Roadmap” des applications enfouies
M2R NSI-SETI 2013-2014
Architectures avancées
D. Etiemble
13
“Roadmap” du traitement enfoui
x 40
Source ITRS Design ITWG July 2003
Process Technology (nm)
Operation
p
voltage
g ((V))
Clock frequency (MHz)
Application
(MAX performance required)
Application
(Others)
130
1,2
150
90
65
45
32
1
0,8
0,6
0,5
300
450
600
900
Real Time Video Codec
Real Time Interpretation
Still Image Processing
MPEG4/CIF
Web Browser
TV phone (1:1)
TV phone (>3:1)
Electric mailer
Voice recognition (input) Voice recognition (operation)
Scheduler
Authentification (Crypto engine)
Processing Performance (GOPS)
0,3
2
14
77
461
Parallelism factor
1
4
4
4
4
Communication speed (Kbps)
64
384
2304
13824
82944
Energy Efficiency (MOPS/mW)
3
20
140
770
4160
Peak Power Concumption (mW)
100
100
100
100
100
St d b P
Stand-by
Power C
Concumption
ti ((mW)
W)
2
2
2
2
2
Battery Capacity (Wh/kg)
120
200
400
22
0,4
1200
2458
4
497664
24580
100
2
Performance
Efficacité énergétique (MOPS/mW)
Puissance dissipée
Capacité batterie
M2R NSI-SETI 2013-2014
Architectures avancées
D. Etiemble
14
7
Exemple : industrie automobile
Hétérogénéité
M2R NSI-SETI 2013-2014
Architectures avancées
D. Etiemble
Sources : C. Balle – Renault
15
Les contraintes ergonomiques
• Les smart-phones
Samsung
iPhone
Blackberry
M2R NSI-SETI 2013-2014
Architectures avancées D. Etiemble
16
8
Les contraintes économiques
Fenêtre de vente d’un produit
grand public
M2R NSI-SETI 2013-2014
« Time to market »
Architectures avancées D. Etiemble
17
Performance : Microprocesseur
Texécution = NI * CPI * Tc =
NI
IPC * F
Temps de cycle
Nombre de cycles/Instruction
10000
1000
CPU
100
Microarchitecture
((IPC))
F(MHz)
10
M2R NSI-SETI 2013-2014
Technologie
96
20
00
92
88
84
80
1
Architectures avancées
D. Etiemble
18
9
DES EXPONENTIELLES
MICROPROCESSEURS
2 /1 5
2x/1,5an
CPU
Performance après 1987
Performance avant 1986
Fréquence d'horloge (MOS)
0%
Evolution/an
M2R NSI-SETI 2013-2014
10% 20% 30% 40% 50% 60%
Architectures avancées
D. Etiemble
19
DES EXPONENTIELLES
MEMOIRES
2x/1,5an
0,5/10 ans
Bande passante
Latence
Quantité/Prix
Capacité
0%
Evolution/an
M2R NSI-SETI 2013-2014
20%
DRAM
Architectures avancées
D. Etiemble
40%
60%
DISK
20
10
Les technologies CMOS
M2R NSI-SETI 2013-2014
Architectures avancées
D. Etiemble
21
La loi de Moore
Transistors
par puce
108
256M
64M
Mémoire
Mi
Microprocesseur
107
16M
4M
106
1M
256K
105
4K 16K
104
1K
103
102
i486™
64K
4004
80286
Pentium®
Pentium® III
Pentium® II
Pentium® Pro
i386™
8086
8080
101
100
’70
’73
’76
’79
’82
’85
’88
’91
’94
'97
2000
Source: Intel
M2R NSI-SETI 2013-2014
Architectures avancées
D. Etiemble
22
11
Processeurs Intel :
nombre de transistors l’année d’introduction
1000000000
Itanium2
P4
Nb de transistors
100000000
10000000
1000000
i486
100000
i286
10000
PIIPIII
Pentium
Itanium2
Itanium
i386
8086
1000
4004 8080
100
10
1
1965 1970 1975 1980 1985 1990 1995 2000 2005 2010
M2R NSI-SETI 2013-2014
Architectures avancées
D. Etiemble
23
LES DIFFERENTIELS
10000
1000
CPU
100
Mémoire
10
20
000
98
96
94
92
90
88
86
84
82
80
1
Complexité croissante de la hiérarchie mémoire : L1, L2, L3, MP
M2R NSI-SETI 2013-2014
Architectures avancées
D. Etiemble
24
12
Evolution des hiérarchies mémoire (1985-2000)
Bus spécial
CPU
a)
L1
cache
MP
d)
Bus système
+
386
CPU
+
Caches L1
b)
MP
Caches L1
Cache
L2
MP
PentiumII
Bus système
Bus système
Bus spécial
Pentium
MP
RDRAM
CPU
superscalaire
+
Caches L1
e)
CPU
Cache
superscalaire
+
L2
Caches L1
c)
Cache L2
CPU
superscalaire
MP
Bus système
Pentium4
Cache L2
Pentium Pro
Bus système
M2R NSI-SETI 2013-2014
Architectures avancées
D. Etiemble
25
La densité de puissance
1000
Réacteur nucléaire
Watts/cm2
100
Trainée
fusée
Pentium® 4
Plat chaud
10
Pentium® III
Pentium® II
Pentium® Pro
Pentium®
i386
i486
1










* “New Microarchitecture Challenges in the Coming Generations of CMOS Process Technologies” –
Fred Pollack, Intel Corp. Micro32 conference key note - 1999.
M2R NSI-SETI 2013-2014
Architectures avancées
D. Etiemble
26
13
Multiprocesseurs et puissance (d’après F. Anceau)
M2R NSI-SETI 2013-2014
Architectures avancées
D. Etiemble
27
Le grand virage…
• Evolution des processeurs
pour PC (Intel, AMD) et
dans l’enfoui embarqué
(ARM, etc)
– De l’augmentation de la
fréquence d’horloge…
– Au parallélisme
• Hyperthread
• Multi-cœurs
Multi cœurs / many-cores
many cores
M2R NSI-SETI 2013-2014
Architectures avancées D. Etiemble
28
14
Processeurs Intel et AMD : Multithread et Multiprocesseurs
Processeur
logique 1
Etat archit.
(registres)
Processeur
logique 2
Processeur
physique 1
Etat archit.
(registres)
Etat archit.
(registres)
Unités fonctionnelles
Unités
fonctionnelles
Caches
Caches
Mémoire principale
M2R NSI-SETI 2013-2014
Processeur
physique 2
Etat archit.
(registres)
Unités
fonctionnelles
Caches
Mémoire principale
Architectures avancées
D. Etiemble
29
Les multi-cœurs Power
M2R NSI-SETI 2013-2014
Architectures avancées
D. Etiemble
30
15
CPU et GPU
10000
T12
GTX285
8800 Ultra
GFLOPS
1000
GTX280
7800 GTX
8800 GTX
7900 GTX
6800 Ultra
100
10
Dual
core
P4
P4
Dual
core
P4
NVIDIA GPU
Xeon Westmere
Quad
Core 2
Duo
Intel CPU
Architectures avancées
D. Etiemble
0
-1
ja
nv
ja
nv
-0
-0
9
8
7
ja
nv
-0
6
ja
nv
-0
ja
nv
-0
5
4
M2R NSI-SETI 2013-2014
ja
nv
-0
ja
nv
ja
nv
-0
3
1
31
GPU Fermi
M2R NSI-SETI 2013-2014
Architectures avancées
D. Etiemble
32
16
Puissance et énergie
Energie
• “Capacité
p
à faire qquelque
q chose d’utile”
• Important pour
– Durée de vie des piles et batteries
– Facture d’électricité
• Mesurée au cours du temps
p
à la somme des capacités
p
et au carré
• Proportionnelle
2
de la tension (CV )
M2R NSI-SETI 2013-2014
Architectures avancées
D. Etiemble
33
Les batteries
Batteries au lithium :
1992 : 90 Wh/kg,
g,
2000 : 140 à 160 Wh/kg .
2007 : de 190 à 200 Wh/kg.
Source : CEA
M2R NSI-SETI 2013-2014
Architectures avancées
D. Etiemble
34
17
Puissance et énergie
Puissance
• Travail effectué par unité de temps
•
– Mesuré en Watts
P = CV2f
(: activité, C: capacités, V: tension, f : fréquence)
• “Mesurée” à sa valeur maximale
• Plus de puissance  Plus de courant
– Ne peut dépasser les contraintes de puissance maximale
disponible
• Plus de puissance  Température plus élevée
– Ne peut dépasser les contraintes thermiques
M2R NSI-SETI 2013-2014
Architectures avancées
D. Etiemble
35
Diminuer la puissance
• Pd proportionnel à CVdd2f
– Li
Limiter
it l’augmentation
l’
t ti de
d fréquence
fé
– Limiter la tension d’alimentation
• Environ 1V
• Problème VT
Transistor
T
i t passantt
Vgs – VT > 0
Vdd- VT > 0
M2R NSI-SETI 2013-2014
Architectures avancées
D. Etiemble
36
18
Courants de fuite (subtreshold leakage)
M2R NSI-SETI 2013-2014
Architectures avancées
D. Etiemble
37
Evolution de la puissance
(à taille de puce constante)
250
100
Watts
200
150
Puissance utile
75
Puissance/cm2
50
100
25
50
0
Puissance (W/c
cm2)
Puissance fuite
~ puce 15mm
Fréquence
q
X 1.5
chaque génération
0

M2R NSI-SETI 2013-2014



Architectures avancées
D. Etiemble
Limites:
1. Puissance dissipée,
2. Alimentation, et
3. Densité de puissance
38
19
Un grand défi : la réduction de l’énergie
consommée et de la puissance dissipée
• Effort à tous les niveaux
–
–
–
–
–
Niveau technologique
Niveau circuit/logique
Niveau architectural
Niveau algorithmique
Niveau système
M2R NSI-SETI 2013-2014
Architectures avancées
D. Etiemble
39
Le spectre d’implémentation
Microprocesseur
Matériel
Reconfigurable
ASIC
– ASIC
• Haute performance – dédié à l’application
• Non modifiable
– Processeur
• Programmable
• Non dédié à l’application
– Matériel reconfigurable
• Bon compromis
M2R NSI-SETI 2013-2014
Architectures avancées
D. Etiemble
40
20
M2R NSI-SETI 2013-2014
Architectures avancées
D. Etiemble
41
Les processeurs utilisables
1998
• Les microcontrôleurs
7000
6000
5000
4000
3000
2000
1000
0
4 bits
8 bits
DSP (C55x)
• Composants du
commerce
Applications
temps réel
OMAP
1610
(TI)
Traitement voix/
audio/vidéo/
graphique
Modems et
périphériques
communications
M2R NSI-SETI 2013-2014
2008
8000
Millions de dolllars
– µP
P (4 à 32 bits)
bit )
– RAM-ROM-Horloge
– Périphériques
2003
9000
Architectures avancées D. Etiemble
16 bits
Contrôleur
communications
DSP-RISC
32 bits
RISC
(ARM92x)
A li ti
Applications
Accélérateurs
matériels
Système
d’exploitation
Périphériques
applications
42
21
Les systèmes sur puce
RISC
MIPS™
SDRAM
MIPSMIPS
CPU
CPU
MMI
Nexperia (NXP)
TM-xxxx
BLOC IP
BLOC IP
plateforme
.
.
.
BLOC IP
Besoins
utilisateurs
TriMedia
CPU
TriMedia
CPU
PRxxxx
PI
BUS
BUS
PI
contraintes
Conceptions
anciennes
I$
$
TriMedia™
DSP
D$
I$
$
BLOC IP
PI BUS
BUS
PI
D$
BUS MEMORY
Mémoire DVP
DVP
BUS
Les plate-formes
DEVICE
BLOC
IPIP
. BLOCK
.
BLOC IP .
SYSTEME DVP
produit
MEM
Processeurs
RISC
$
I$
D$
MEM
Processeurs
spécifiques
MPSoC de ST
MEM
DSP
DSP
DSP,DSP
hw
Matériel
spécialisé
I$
Réseau sur puce
Entrées Sorties
M2R NSI-SETI 2013-2014
MEM
DSP
DSP
RISC DSP
MT
I$
MEMOIRE
Ordonnanceur
SOC
Ordonnanceur
multiprocesseur
Architectures avancées D. Etiemble
43
Systèmes sur puce (FPGA)
Blocs d’E/S
Blocs
logiques
Blocs logiques (LUT et bascules)
Blocs SRAM
Blocs multiplieurs
PLL
Interfaces spécialisées (Ethernet, PCI)
µP (en dur)
Composants programmés (IP)
- µP, RAM, E/S, périphériques
-TS, audio, images, vidéo
- modulation, démodulation
Réseau d’interconnexion
ALTERA, XILINX, …
M2R NSI-SETI 2013-2014
Architectures avancées D. Etiemble
44
22
Les écarts de productivité
• Évolution comparée du temps de conception d’un
circuit et du nombre de portes disponibles
Écart de productivité de conception
10,000
100,000
1,000
10,000
100
Transistors par 10
puce
1
(en millions) 0.1
0.01
Capacité des
circuits intégrés
Ecart
productivité
0.001
M2R NSI-SETI 2013-2014
1000
100
10
1
Productivité
(K)Transistors par
Homme-Mois.
0.1
0.01
Architectures avancées
D. Etiemble
45
Où va l’effort de conception ?
Lo
ogiciel
Matériel
Source : IBS 2002
M2R NSI-SETI 2013-2014
Architectures avancées
D. Etiemble
46
23
Téléchargement