FTFC'2003 Une technique de réduction de la puissance dissipée par l'horlogerie des circuits complexes rapides François ANCEAU [email protected] htt://lmi17.cnam.fr/~anceau/Doc.html Evolution de la complexité Nb Tr 100 000 000 Pentium 4 Celeron PPC620 Pentium II PPC601 Pentium-Pro Pentium MC68040 10 000 000 1 000 000 I486 INTEL MC68020 I386 MOTO / IBM I286 100 000 MC 68000 I8086 10 000 MC6800 I8008 I4004 1 000 1966 FTFC, © F. Anceau, 16 mai 2003 1971 1976 1981 1986 2 1991 1996 2001 FTFC.ppt Millions d'instructions exécutées par seconde (specint 92) Evolution des performances 10000 PENTIUM 4/1,5G 1000 PPC 750/350 PENTIUM II/330 ALPHA/300 PPC 604/133 PENTIUM-PRO/133 ALPHA/150 PENTIUM/133 PPC 601/66 PENTIUM/66 100 Intel PPC DEC 486/50 486/25 10 386/16 1 84 FTFC, © F. Anceau, 16 mai 2003 86 88 90 92 3 94 96 98 00 02 FTFC.ppt Evolution technologique Taille des motifs minimaux (microns) 100 10 1 0,1 prédiction Intel 0,01 1960 FTFC, © F. Anceau, 16 mai 2003 1970 1980 4 1990 2000 25nm 2010 2020 FTFC.ppt Evolution de la fréquence d'horloge (X86) (Ghz) 100 000 50 Ghz prédiction Intel 24Ghz 10 Ghz 10 000 F horloge Micro Intel X86 1 000 Fréquence interne 100 Fréquence bus Fréquence externe 10 Utilisation de multiplieurs de fréquence internes 1 75 FTFC, © F. Anceau, 16 mai 2003 80 85 90 95 5 00 05 10 FTFC.ppt Evolution de la consommation Croissance très rapide de la puissance dissipée Inversion de la tendance pour le P4 Northwood Processeur F horloge Techno Conso I386 16 Mhz 1,5µ 3W I486 33 Mhz 1µ 6W Pentium 66 Mhz 0,7µ 13 W P4 Will. 1,5 Ghz 0,18µ 75 W P4 North. 3 Ghz 0,12µ 50 W FTFC, © F. Anceau, 16 mai 2003 6 FTFC.ppt Croissance de la puissance consommée d'après Fred Pollack, Intel Puissance dissipée W/cm2 1000 Cœur de réacteur nucléaire 100 P4 Willamette PII P4 Northwood PIII Plaque de cuisson 10 P Pro Pentium I386 I486 Familles technologiques 1 1.5µ FTFC, © F. Anceau, 16 mai 2003 1µ 0.7µ 0.5µ 0.35µ 0.25µ 0.18µ 0.13µ 0.1µ 7 0.07µ FTFC.ppt Deux classes de processeurs 80 Pentium 4 Willamette 0.18µ Puissance consommée W 70 0.25µ 0.12µ 60 50 Processeurs de forte puissance Pentium 4 Northwood 40 30 20 Pentium III 500Mhz 10 Processeurs de faible consommation Pentium 4 M 0 0 500 FTFC, © F. Anceau, 16 mai 2003 1000 1500 2000 2500 3000 8 Performance Mips FTFC.ppt Demandes du marché Performance Le marché est très demandeur en terme de performances Pour y répondre, les constructeur produisent des "monstres" dont la consommation dépasse le raisonnable (ex P4 75W à 1,5Ghz, ALPHA…..) Faible consommation Le marché demande aussi des processeurs consommant très peu (portables, processeurs inclus (embeeded)) Pour répondre, les constructeurs utilisent des techniques de réduction de la consommation (ex PIII 1W 500Mhz, ARM,…) FTFC, © F. Anceau, 16 mai 2003 9 FTFC.ppt Zones isochrones Zones d'un circuit complexe synchrone qui peuvent être excitées par une seule source d'horloge On cherche à associer zones isochrones et fonctionnalité La taille des zones isochrones diminue lorsque la technologie maigrit (mais leur taille relative reste identique). Dans l'approche SOC, les zones isochrones étaient préalablement des circuits séparés. FTFC, © F. Anceau, 16 mai 2003 10 zones fonctionnelles isochrones FTFC.ppt Communication entre zones isochrones voisines HM L'écart de phase entre deux bascules de deux zones isochrones synchrones voisines est comparable à celui à l'intérieur d'une même zone isochrone. T1 T2 H1 H2 T11 T21 T3 B1 B2 temps de propagation du signal zone isochrone 1 FTFC, © F. Anceau, 16 mai 2003 écarts de phase dans la distribution de l'horloge 11 écart de phase de l'horloge distribuée dans la zone isochrone bascule zone isochrone 2 FTFC.ppt Dialogue entre zones isochrones Dépend de la différence de phase entre les horloges des zones isochrones Si l'écart de phase entre les horloges des blocs isochrones est très faible: Les échanges synchrones deviennent possibles entre zones isochrones voisines. Le circuit devient une vaste zone isochrone pour les communications locales. FTFC, © F. Anceau, 16 mai 2003 12 FTFC.ppt Techniques de distribution de l'horloge L'objectif est d'amener l'horloge en phase et avec une puissance suffisante au niveau de chaque zone isochrone. Il faut réaliser une distribution dite équilibrée. Plusieurs techniques sont possibles: Distribution arborescente Distribution en anneaux Distribution par plans / grilles Distribution en H …….. FTFC, © F. Anceau, 16 mai 2003 Distribution en "H" 13 FTFC.ppt Distribution de l'horloge (1) f0 zone isochrone f0 fex multiplieur à PLL arbre de distribution (équilibré) FTFC, © F. Anceau, 16 mai 2003 14 FTFC.ppt Distribution de l'horloge (2) f0 déphaseur programmable zone isochrone f0 fex Une batterie de déphaseurs programmables est utilisée pour compenser les écarts de phase de l'arbre de distribution multiplieur à PLL arbre de distribution FTFC, © F. Anceau, 16 mai 2003 15 FTFC.ppt Distribution (simplifiée) de l'horloge du Pentium 4* déphaseur (47) zones isochrones c 100 Mhz 2Ghz PLL (3) arbres binaires de distribution plot de test l'écart de phase total entre deux zones isochrones est inférieur à 50ps * A Multigigahertz Clocking Scheme for the Pentium 4 Microprocessor, IEEE journal of Solid State Circuits, nov 2001 FTFC, © F. Anceau, 16 mai 2003 16 FTFC.ppt FTFC, © F. Anceau, 16 mai 2003 17 FTFC.ppt Gain de puissance L'arbre de distribution de l'horloge consomme de 40 à 70% de la puissance dissipée il doit être "temporellement précis" La division par N de la fréquence de l'horloge transmise permet de gagner un facteur N sur la puissance qu'il consomme (CMOS) L'arbre de distribution doit garder les mêmes caractéristiques électriques il doit conserver la même "précision temporelle" - même géométrie - même dimensionnement des transistors => même consommation par transition La puissance consommée par les PLL de rétablissement de la fréquence peut être comparée à celle des rephaseurs FTFC, © F. Anceau, 16 mai 2003 18 FTFC.ppt Réduction de la fréquence distribuée f0 multiplieur à PLL f0/N zone isochrone fex multiplieur à PLL Approche dite "Multi-PLL" arbre de distribution FTFC, © F. Anceau, 16 mai 2003 19 FTFC.ppt Exemple de gain envisageable P4 Northwood Puissance dissipée totale 50 w (à 2,2 Ghz) Puissance dissipée par le réseau de distribution de l'horloge => de 20 à 35 w Puissance dissipée par un réseau à F/10 => 2 à 3,5 w Puissance dissipée par le circuit modifié => 32 à 19 w FTFC, © F. Anceau, 16 mai 2003 20 FTFC.ppt Synchronisation inter zones isochrones diviseur zone isochrone i-1 C horloge distribuée f0/N C C f0 VCO /N C C multiplieur Zone isochrone i Le circuit devient un vaste système asservi dont il faut surveiller la stabilité! diviseur zone isochrone i+1 FTFC, © F. Anceau, 16 mai 2003 21 FTFC.ppt Conclusions La technique proposée ne se veut pas être un moyen de réaliser des circuits "basse consommation", mais de limiter la puissance dissipée par les circuits rapides tout en ne nuisant pas à leur performance. Elle peut être couplée avec une technique de resynchronisation dynamique Elle n'est pas exclusive des autres techniques de réduction de la consommation. FTFC, © F. Anceau, 16 mai 2003 22 FTFC.ppt