Utilisation des composants Deep Sub

publicité
19e Congrès de Maîtrise des Risques et Sûreté de Fonctionnement - Dijon 21-23 octobre 2014
UTILISATION DES COMPOSANTS DEEP SUB-MICRON DANS LE CONTEXTE
AERONAUTIQUE
DEEP SUB-MICRON COMPONENTS IN THE AEROSPACE CONTEXT
Julie Berthon et Didier Regis
Thales Avionics
Rue Toussaint Catros
33185 Le Haillan
[email protected]
(+33)5 56 13 44 90
Guillaume Hubert
ONERA
2 avenue Edouard Belin
31055 Toulouse
[email protected]
+(33)5 62 25 28 85
[email protected]
(+33)5 57 26 77 21
Résumé
Depuis plus de 40 ans, la loi expérimentale de Gordon Moore prédit la progression du niveau d’intégration des composants
électroniques numériques et oriente par là même les développements électroniques.
Jusqu'à ces dernières années, cette évolution n’a pas eu de contrepartie mesurable sur la qualité des composants ; mais ceci
commence à n’être plus tout à fait vrai.
Cet article adresse l’impact de la réduction de la finesse de gravure des composants électroniques numériques sur leur fiabilité,
et ses répercussions dans les analyses de sécurité des systèmes aéronautiques embarqués. Dans ce cadre, il analyse d’un
point de vue qualitatif et quantitatif le comportement des technologies Deep Sub-Micron en termes de robustesse et de fiabilité
et adresse plus particulièrement trois fondamentaux des analyses de sécurité des systèmes aéronautiques : le taux de
défaillance, la durée de vie et la sensibilité aux radiations atmosphériques.
Summary
For more than 40 years, Gordon Moore’s experimental law has been predicting the evolution of the number of transistors in
integrated circuits, thereby guiding electronics developments.
Until last years, this evolution did not have any measurable impact on components’ quality; but the trend is beginning to reverse.
This paper is addressing the impact of scaling on the reliability of integrated circuits. It is analyzing - from both qualitative and
quantitative point of view - the behavior of Deep Sub-Micron technologies in terms of robustness and reliability. It is particularly
focusing on three basics of safety analyses for aeronautical systems: failure rates, lifetimes and atmospheric radiations’
susceptibility.
Introduction
L’acronyme anglais DSM (Deep Sub-Micron) fait référence aux composants « nettement sub-microniques » c’est-à-dire dont la
finesse de gravure est très inférieure au micron. Si ces composants sont apparus il y a quelques années déjà et sont utilisés
dans les applications aéronautiques depuis plus de 10 ans, la course à la miniaturisation s’est accélérée ces dernières années :
de 90nm en 2004, le nœud technologique - tel que défini par l’ITRS 1 - est tombé à 28 nm en 2012 et devrait passer sous les 10
nm à l’horizon 2020.
Cette miniaturisation a deux motivations principales : d’une part, un objectif permanent de réduction des coûts et, d’autre part,
un impérieux besoin d'augmenter les puissances de calcul et de stockage de l'information, chose qui ne peut se faire qu'en
intégrant plus de transistors sur une même puce.
Si un tel niveau d’intégration offre des performances inégalées et suscite un grand intérêt pour les applications embarquées,
des études récentes montrent qu’il pose un certain nombre de problèmes en termes de robustesse 2 et de fiabilité, parmi
lesquels :
•
L’apparition de défaillances de jeunesse difficiles à piéger en déverminage ;
•
Des problèmes d’intégrité de signal liés à des sources de bruits externes ou internes au composant ;
•
Une vulnérabilité accrue aux particules de haute énergie ;
•
La dégradation du WCET 3 ;
•
L’impact prématuré de mécanismes de dégradation entraînant une forte réduction de la durée de vie.
La possible remise en cause de la notion de taux de défaillance constant, la réduction de la durée de vie et la
vulnérabilité accrue aux particules de haute énergie sont les problématiques les plus critiques en termes de sûreté de
fonctionnement.
Ces problématiques sont très dépendantes de la technologie mais également étroitement liées aux contraintes
environnementales et aux conditions d’utilisation des composants : tension d’alimentation, fréquence de fonctionnement, etc.
1
L’ITRS (International Technology Roadmap for Semiconductors) est une organisation résultant d’un consortium d'acteurs de la
micro-électronique, sponsorisée par les associations nationales de l'industrie des semi-conducteurs européennes, américaines
et asiatiques. Son principal objectif est la rédaction d’une « feuille de route » identifiant les barrières techniques à franchir pour
chaque nouvelle génération de composant et servant de référence aux industriels de la microélectronique.
2
Selon l’IEEE, degré selon lequel un système, ou un composant, peut fonctionner correctement en présence d’entrée invalides
ou de conditions environnementales stressantes.
3
Le « Worst Case Execution Time » est défini comme le temps maximal nécessaire à l’exécution d’une instruction.
Communication 1C-4 Page 1 sur 10
19e Congrès de Maîtrise des Risques et Sûreté de Fonctionnement - Dijon 21-23 octobre 2014
Malheureusement pour les concepteurs aéronautiques, les marges de manœuvre sont faibles. Les composants électroniques
ne sont ni conçus, ni testés, ni même mesurés pour adresser leurs besoins. Le marché du composant est dominé par
l’électronique grand public pour laquelle la fiabilité n’est pas une contrainte forte, et dont les exigences sont incompatibles de
celles auxquelles sont soumis les matériels sécuritaires : quand l’électronique grand public requiert des taux de défaillance de
l’ordre de 1000 FIT 4 et des durées de vie comprises entre 1 et 5 ans, le secteur aéronautique requiert des taux de défaillance
inférieurs à 100 FIT et des durées de vie comprises entre 10 et 30 ans.
Ces problématiques sont accentuées par l’introduction dans les composants de nouveaux matériaux qui, s’ils permettent
d’atteindre les objectifs de performance exigés par le marché, introduisent une incertitude quant à leur tenue dans le temps.
Le domaine aéronautique doit donc relever un défi de taille : utiliser des technologies nécessaires à ses besoins en puissance
de calcul et capacité de stockage mais incompatibles de ses exigences de fiabilité, et chercher des solutions permettant
d’utiliser des composants dans des conditions et des environnements pour lesquels ils ne sont ni spécifiés ni garantis.
1.
Mécanismes de défaillance des composants DSM
1.1. Mécanismes de défaillance des circuits intégrés
Soulignons tout d’abord que le terme circuit intégré désigne ici le circuit électronique (que nous appelons plus communément
puce électronique) et non le composant assemblé. Les mécanismes de dégradation abordés dans ce paragraphe sont donc
propres au circuit intégré, et non au boîtier ou aux connections boîtier - circuit imprimé.
Les mécanismes de dégradation des circuits intégrés sont largement documentés et cette communication les adresse dans le
seul objectif d’améliorer la compréhension de la problématique générale.
Il est d’usage de distinguer les mécanismes agissant au niveau des connections intra silicium (BEOL 5) et les mécanismes
agissant au niveau des transistors (FEOL 6).
Les zones BEOL et FEOL sont représentés sur la Figure 1 tandis que les différents mécanismes sont localisés sur la Figure 2.
EM
SM
TDDB
NBTI
HCI
TDDB
Figure 1. Zone BEOL et zone FEOL dans un
circuit intégré
Figure 2. Les différents mécanismes de défaillance du
circuit intégré
Trois principaux mécanismes de dégradation agissent au niveau des connections intra silicium.
Electromigration, EM
L’électromigration est un mécanisme d’usure lié à la migration d’atomes dans un conducteur métallique. Cette migration peut
avoir deux effets :
•
La formation de trous au niveau de la cathode, entraînant une augmentation de la résistance et pouvant aller jusqu’à
l’ouverture d’une ligne ;
•
L’accumulation de matière au niveau de l’anode, entraînant un court-circuit entre deux lignes.
Stress Migration, SM
Ce mécanisme de dégradation se manifeste généralement par une fissuration des couches constituant la puce, fissuration
induite par des contraintes mécaniques dues à la différence de coefficients de dilatation thermique entre les différentes
couches.
Time Dependent Dielectric Breakdown in Inter-Layer Dielectric, TDDB in ILD
La rupture d’oxyde intermétallique est une rupture de l’oxyde entre deux niveaux de métallisation. Le diélectrique qui, à certains
endroits, est pris entre deux niveaux de métallisation, crée une capacité et est confronté à une accumulation temporelle de
charges électriques aux interfaces des métallisations ; ces charges sont à l’origine de courants de fuite pouvant entraîner une
rupture de l’oxyde lorsqu’un chemin de conduction se forme entre la cathode et l’anode de la capacité ainsi crée.
Trois principaux mécanismes de dégradation agissent au niveau des transistors.
Time Dependent Dielectric Breakdown in Gate Oxide, TDDB in GO
La rupture d’oxyde de grille est une rupture de la couche d’oxyde située au niveau de la grille du transistor. Elle est liée à une
accumulation temporelle de charges électriques aux interfaces oxyde-silicium, charges à l’origine de courants de fuite pouvant
entraîner une rupture de l’oxyde de grille lorsqu’un chemin de conduction se forme entre substrat (cathode) et grille (anode).
Hot Carrier Injection, HCI
4
FIT ou Failure In Time, taux de défaillance exprimé en 10-9 défaillance par heure
Le Back End Of Line désigne la zone dans laquelle sont empilées les différentes couches de métal et réalisées les différentes
interconnections entre transistors
6
Le Front End Of Line désigne la zone active du composant, celle ou sont arrangés les transistors
5
Communication 1C-4 Page 2 sur 10
19e Congrès de Maîtrise des Risques et Sûreté de Fonctionnement - Dijon 21-23 octobre 2014
L’injection de porteurs chauds est un mécanisme d’usure se produisant lorsque les électrons traversant le canal acquièrent
suffisamment d’énergie pour être injectés dans l’oxyde. Ce phénomène entraîne une dégradation des paramètres électriques du
transistor, parmi lesquels une augmentation de la tension de seuil et donc des temps de commutation.
(Negative or Positive) Bias Temperature Instability, (N or P) BTI
L’instabilité de tension de seuil en température est un mécanisme d’usure du transistor MOS apparaissant à haute température
lorsque le transistor MOS est polarisé en mode inversion.
Les mécanismes présentés dans ce paragraphe sont des mécanismes de vieillissement.
Si la rupture d’oxyde de grille peut se manifester par une défaillance catalectique - lorsqu’un stress suffisamment important
conduit à une rupture franche - et si la rupture d’oxyde intermétallique et l’électromigration peuvent causer des défaillances
aléatoires, ces mécanismes seront le plus souvent à l’origine de défaillances dites d’usure.
1.2. Impact de la miniaturisation
Il n’y a pas vraiment de mécanisme de défaillance propre aux circuits intégrés DSM mais plutôt une aggravation et/ou une
occurrence prématurée des mécanismes de défaillance décrits au paragraphe précédent.
En effet, l’intégration et la miniaturisation ont des impacts forts sur l’architecture et la géométrie des circuits mais également sur
leur comportement électrique.
Tout d’abord, l’augmentation du nombre de transistors est à l’origine d’une superposition des niveaux d’interconnections
métalliques - et donc d’une augmentation de la densité de métallisation - favorisant les mécanismes d’électromigration, de
Stress Migration et la rupture d’oxyde intermétallique.
De manière plus générale, la miniaturisation impose une réduction des géométries élémentaires qui favorise l’ensemble des
mécanismes de défaillance.
De plus, la réduction des motifs géométriques (et tout particulièrement de l’épaisseur d’oxyde de grille) et la réduction de la
tension de polarisation n’évoluent pas dans les mêmes proportions ; il en résulte une augmentation des champs électriques
impactant les mécanismes de défaillance sensibles au stress électrique :
•
L’augmentation de la densité de courant dans les interconnections métalliques favorise l’électromigration ;
•
L’augmentation du champ électrique au niveau des interconnections métalliques et de la grille favorise la rupture
d’oxyde intermétallique et la rupture d’oxyde de grille ;
•
L’augmentation du champ électrique dans le canal favorise globalement les mécanismes HCI et NBTI.
Par ailleurs, presque 7 tous ces mécanismes de défaillances sont naturellement accélérés par les hautes températures. Or,
l’augmentation du nombre de transistors entraîne une augmentation de la puissance dissipée et, par auto-échauffement, de la
température …
Le tableau 1 résume les différents mécanismes de dégradation, les éléments des DSM favorisant ces mécanismes ainsi que les
stresses susceptibles de les accélérer.
Tableau 1
Localisation
Mécanisme de
dégradation
Stresses accélérant le mécanisme
Impact de la miniaturisation
BEOL
FEOL
Stress
électrique
Température
haute
X
X
EM
X
Augmentation de la densité de
métallisation
Diminution de la largeur et de
l’épaisseur des lignes de métal
Augmentation de la densité de
courant dans les interconnections
SM
X
Augmentation de la densité de
métallisation
Diminution de la largeur et de
l’épaisseur des lignes de métal
TDDB ILD
X
Diminution de l’épaisseur d’oxyde
Augmentation du champ électrique
X
X
X
Température
basse
X
TDDB GO
X
Diminution de l’épaisseur d’oxyde
Augmentation du champ électrique
X
HCI
X
Diminution de la longueur et de
l’épaisseur du drain
Diminution de l’épaisseur d’oxyde
Augmentation du champ électrique
X
NBTI
X
Diminution de l’épaisseur d’oxyde
Augmentation du champ électrique
X
X
X
7
Seul le HCI est accéléré par les basses températures car les électrons sont plus mobiles et donc plus énergétiques à basse
température.
Communication 1C-4 Page 3 sur 10
19e Congrès de Maîtrise des Risques et Sûreté de Fonctionnement - Dijon 21-23 octobre 2014
2.
Vers une remise en question de la traditionnelle courbe en baignoire ?
2.1. La courbe en baignoire
Rappelons tout d’abord, sans trop insister sur ce phénomène connu des fiabilistes, que le taux de défaillance d’un composant
électronique en fonction de l’âge évolue généralement en trois phases :
•
La période de jeunesse - ou de mortalité infantile - caractérisée par un taux de défaillance relativement élevé mais
décroissant, dû à la manifestation de défauts de jeunesse ;
•
La période de vie utile caractérisée par un taux de défaillance constant et faible, dû à la manifestation de défaillances
aléatoires ;
•
La période de vieillissement - ou d’usure - caractérisée par un taux de défaillance croissant et dû à la manifestation
de phénomènes de dégradation.
Ces trois phases sont communément illustrées sur une courbe caractéristique, dite « courbe en baignoire », telle que celle
représentée sur la Figure 3. A chacune d’elles est associée une distribution de Weibull dont le paramètre β caractérise la nature
des défaillances observées.
A ce stade de la discussion, il est intéressant de positionner sur cette courbe les différents types de défaillances auxquels
peuvent être sujets les composants DSM :
Période de jeunesse
Elle verra plutôt se manifester les défaillances liées :
•
A la présence de défauts introduits durant la conception ou la production (incompatibilité thermomécanique entre
deux matériaux, présence de fissures, impuretés dans les couches d’interface, over/under-bonding, etc.) ;
•
A l’utilisation de technologies ou de procédés de fabrication insuffisamment matures.
Période de vie utile
Elle verra se manifester :
•
Des pannes accidentelles liées à des faiblesses de composants ;
•
Des pannes catalectiques liées à des over-stresses (ESD, chocs thermiques, …) ;
•
Quelques ruptures franches de l’oxyde de grille et quelques défaillances liées à l’électromigration ou à une rupture
d’oxyde intermétallique ;
•
Des pannes liées à des SEU/MBU.
Période de vieillissement
Elle verra se manifester les défaillances d’usure liées aux différents mécanismes de dégradation évoqués dans le paragraphe 1
: EM, SM, TDDB, NTBI, HCI.
Taux de défaillance
Défauts de conception
ou de production
Période de jeunesse
β<1
Période d’usure
β>1
EM, SM, TDDB, NBTI,
HCI
Période de vie utile
β=1
Over-stresses (ESD, T°C …)
SEU
TDDB GO & ILD, EM
Figure 3. La courbe en baignoire, image d’Epinal de la fiabilité des composants électroniques
Les analyses de sécurité des systèmes électroniques sont généralement réalisées sous l’hypothèse d’un taux de défaillance
constant. Cette hypothèse est admissible - et généralement admise - considérant :
•
Que la sélection de composants de qualité combinée à un déverminage approprié permet d’éliminer les pannes de
jeunesse,
•
Que les matériels sont généralement rebutés avant que les composants n’entrent dans la phase d’usure c’est-à-dire
avant que le taux d’avarie lié au vieillissement ne devienne supérieur au taux d’avarie de la vie utile,
•
Et qu’ainsi, les composants ne sont utilisés qu’à taux de défaillance à peu près constant.
Mais cette hypothèse, fondamentale dans la conduite des analyses de sécurité des systèmes aéronautiques, est remise en
question depuis les années 2000. De nombreuses publications (Mak, 2005) (Intel, 2002) (…) alertent alors sur le potentiel
impact de l’intégration sur la traditionnelle courbe en baignoire :
•
Un allongement de la période de jeunesse ;
•
Une augmentation du taux de défaillance aléatoire ;
•
Une translation temporelle de la période de vieillissement.
Communication 1C-4 Page 4 sur 10
19e Congrès de Maîtrise des Risques et Sûreté de Fonctionnement - Dijon 21-23 octobre 2014
Ainsi, la zone de validité des analyses de sécurité - conduites à taux de défaillance constant - se voit réduite à chaque nœud
technologique (Figure 4).
Taux de défaillance
Rallongement de la période de jeunesse, augmentation du taux de
défaillances aléatoires et usure prématurée ?
30 nm et en-deçà :
DDV < 10 ans
180 nm et + :
DDV > 100 ans
Zone de validité des analyses
de sécurité
Temps
Figure 4. Vers une profonde remise en cause de la courbe en
baignoire
2.2. Des défaillances de jeunesse plus fréquentes et plus difficiles à piéger
Les composants DSM sont sujets à une augmentation des défaillances de jeunesse, augmentation qui est essentiellement liée
à trois causes :
•
Tout d’abord, la complexité grandissante des circuits intégrés entraîne une augmentation du nombre de transistors et
du nombre de couches d’interconnections ;
•
Ensuite, la réduction des géométries entraîne une variabilité de plus en plus en plus importante dans les procédés de
fabrication ;
•
Enfin, la dimension des atomes étant invariante, l’intégration est de plus en plus portée par l’introduction de nouveaux
matériaux dans les assemblages et de nouveaux procédés de fabrication, moins bien maîtrisés et donc moins
matures ; à titre d’exemple, le passage sous les 20nm nécessite l’abandon de la technologie « planar » classique et
impose l’utilisation de technologies « FinFet 8 » ou « FDSOI 9 » dont on ne connait pas encore la robustesse et la
fiabilité.
Parallèlement, le déverminage voit son efficacité réduite de génération en génération. La principale raison est l’aggravation des
conditions de fonctionnement nominales des circuits intégrés et donc la réduction des facteurs d’accélération entre conditions
nominales et conditions de déverminage.
L’aggravation des conditions de fonctionnement nominales a deux explications :
•
Tout d’abord, l’inhomogénéité de l’équation d’intégration : si la géométrie des transistors est fortement réduite à
chaque nœud technologique, les paramètres physiques et surtout électriques n’évoluent pas dans les mêmes
proportions et il s’ensuit une augmentation du champ électrique et une augmentation de la température de jonction
par effet Joule.
•
Ensuite, l’introduction de mécanismes de régulation de la tension interne du circuit intégré complique l’application de
stresses accélérés en tension, réduisant l’efficacité du déverminage électrique.
Ainsi, l’efficacité du déverminage aurait diminué d’un facteur 10 entre le nœud technologique 180nm (Perdu, 2012) et le nœud
technologique 90nm, et cette tendance ne pourrait que s’accélérer.
2.3. Une augmentation du taux de défaillance aléatoire
Nous l’avons vu précédemment, les défaillances usuellement rencontrées dans la vie utile du composant sont essentiellement
liées à des surcharges accidentelles, à des ruptures franches de l’oxyde de grille (TDDB GO) ou à des évènements singuliers
(SEU/MBU) que nous traiterons dans un chapitre à part.
Globalement, l’augmentation du champ électrique et de la température de fonctionnement favorise le TDDB.
La diminution des tensions d’alimentation est, quant à elle, à l’origine d’une forte réduction de la marge de bruit qui devrait
descendre sous les 100mV à l’horizon 2015 (Binhong, 2011). Cette réduction de marge augmente la susceptibilité aux
interférences électromagnétiques dans le domaine fréquentiel et temporel.
8
FinFET est l'acronyme de Fin-Shaped Field Effect Transistor, Fin étant utilisé ici en rapport avec la forme que donne
l'architecture de ces transistors au drain et à la source, qui ressemblent alors à des ailerons.
9
Fully Depleted Silicon On Insulator
Communication 1C-4 Page 5 sur 10
19e Congrès de Maîtrise des Risques et Sûreté de Fonctionnement - Dijon 21-23 octobre 2014
Parallèlement, l’augmentation des fréquences de fonctionnement et la complexité grandissante des circuits intégrés sont à
l’origine d’une augmentation des bruits résultant des commutations internes au circuit et faisant du circuit lui-même une source
de bruit majeure…
Les défaillances liées aux ESD risquent donc de devenir une source de défaillance importante durant la période de vie utile du
composant et vont largement favoriser l’augmentation du taux de défaillance durant la période de vie utile.
L’introduction, au sein même des circuits intégrés, de mécanismes de contrôle et d’auto-correction devrait solutionner certains
problèmes, dont ceux liés à la variabilité et aux SER (Soft Erro Rate). En retour, elle risque de complexifier la certification des
composants complexes car ces mécanismes sont assimilables à des « boîtes noires ».
2.4. Des mécanismes de dégradation se manifestant précocement
La plupart des mécanismes de défaillance des circuits intégrés sont des mécanismes d’usure qui induisent une dégradation
progressive des paramètres électriques des transistors et des matériaux.
Sur les anciennes générations de composants (antérieures au nœud 180nm), ces mécanismes de dégradation se manifestaient
au bout d’une centaine d’années, donc bien au-delà de la vie utile du composant.
Mais comme discuté au paragraphe 1, la plupart de ces mécanismes de dégradation sont largement favorisés par l’intégration
si bien qu’ils deviennent prépondérants sur les technologies actuelles.
L’occurrence des défaillances d’usure dans les circuits intégrés DSM est certainement le sujet le mieux documenté, d’un point
de vue qualitatif aussi bien que quantitatif. De notre point de vue, c’est pourtant le sujet qui laisse le plus de questions sans
réponses.
En effet, si la plupart des publications s’accordent à dire que les défaillances d’usure se manifestent de plus en plus
précocement et réduisent fortement la durée de vie utile, il est plus difficile de percevoir comment évolue le taux des
défaillances d’usure et comment il pourrait continuer à évoluer dans les prochaines années.
Cette difficulté avait été soulignée lors de la « National Software and Complex Electronic Hardware Standardization
Conference » de 2005 (Condra et al., 2005) et elle ne nous semble pas encore résolue.
Figure 5. Extrait de la présentation de Lloyd Condra et Gary Horan lors de la « National Software and Complex Electronic
Hardware Standardization Conference » en 2005
Impact des mécanismes de dégradation en termes de réduction de la durée de vie
Considérant la courbe en baignoire, la durée de vie du composant est définie comme la durée de la période de vie utile.
On considère usuellement qu’on quitte la période de vie utile lorsque le taux des défaillances d’usure devient supérieur au taux
des défaillances aléatoires. La réduction de la durée de vie utile est donc le résultat de l’occurrence de plus en plus précoce des
mécanismes de dégradation.
Les fabricants publient très peu d’informations quantitatives sur la fiabilité ou la durée de vie de leurs composants. Les rapports
de fiabilité - comme ceux publiés trimestriellement par XILINX (XILINX, 2013) ou ALTERA (ALTERA, 2013) - ne fournissent
qu’un taux de défaillance basé sur les résultats des tests HTOL 10, dont il sera fait état dans le paragraphe 2.5.
Les principaux fabricants acceptent toutefois de communiquer des informations sous NDA 11. Les durées de vie communiquées
confirment les propos évoqués dans l’introduction : la durée de vie des composants DSM est une problématique réelle pour le
marché de l’aéronautique ; de plus, elle est « profil de mission - dépendante ».
Impact des mécanismes de dégradation sur la courbe du taux de défaillance
A notre connaissance, c’est un sujet qui reste encore ouvert.
Dès 2004, (Jayanth Srinivasan et al) analysent le potentiel impact de l’intégration sur la fiabilité des processeurs. Le taux de
défaillance relatif à chaque mécanisme de dégradation est évalué sur la base d’un modèle dépendant des facteurs aggravant
(température, tension,…) mais également des géométries du circuit (épaisseur d’oxydes, …) et du type de matériaux utilisés.
L’analyse comparative des résultats sur un processeur 180nm et sur un processeur 65nm met quatre points en évidence :
10
11
High Temperature Operating Life
Non-Disclosure Agreement
Communication 1C-4 Page 6 sur 10
19e Congrès de Maîtrise des Risques et Sûreté de Fonctionnement - Dijon 21-23 octobre 2014
•
La température du point le plus chaud de la puce augmente de 15°C en moyenne entre le nœud 180nm et le nœud
65nm ;
•
Parallèlement, le taux de défaillance augmente d’environ 300% ;
•
Tous les mécanismes de dégradation sont accélérés par l’intégration mais TDDB et EM sont les plus touchés ;
•
La dépendance entre le taux de défaillance et la charge du processeur augmente considérablement avec l’intégration.
Cependant, comme dans la majorité des publications que nous avons lues sur le sujet, les évaluations sont faites à taux de
défaillance constant alors que les mécanismes en jeu sont des mécanismes de dégradation.
Le taux calculé nous semble être l’inverse du temps moyen avant arrivée de la défaillance d’usure. C’est donc, en quelque
sorte, l’inverse d’une durée de vie.
Joseph Bernstein (Bernstein, 2008) avance que les défaillances d’usure revêtent un caractère de plus en plus aléatoire, si bien
qu’elles seraient bientôt modélisées par une loi de Weibull de paramètre β=1. Ses courbes sont reprises dans de nombreuses
publications mais l’origine de cette hypothèse n’est pas claire : retour d’expérience, avis d’expert, essai ?
De plus, cette hypothèse nous semble incompatible des résultats d’essais des fabricants qui ne montrent pas, pour l’instant,
d’évolution négative du taux de défaillance.
Nous pensons plutôt que c’est le recouvrement progressif des trois phases du cycle de vie (phase de jeunesse, phase de vie
utile et phase d’usure), qui pourrait conduire à un taux de défaillance constant sur les prochaines générations de composants.
La Figure 6 nous semble aller dans ce sens. Elle montre la répartition des défaillances observées sur des processeurs de trois
nœuds technologiques différents (180 nm, 130 nm et 65 nm) ; on y voit clairement une forte réduction de la durée de vie utile et
une légère augmentation du taux de défaillance aléatoire, qui pourrait venir de l’occurrence prématurée des premières
défaillances d’usure dans la période de vie utile.
Figure 6. Evolution du taux de défaillance sur trois
générations de processeurs (White et al., 2008)
2.5. De l’utilisabilité des taux de défaillance fournis par les fabricants
Dans les rapports de fiabilité fournis par les fabricants de composants, les taux de défaillance liés à la puce sont basés sur des
tests HTOL. La Figure 7 ci-dessous présente les conditions d’un test HTOL.
Figure 7. Condition du test HTOL standardisées par le JEDEC, extrait du rapport de fiabilité de Xilinx
Le taux de défaillance à une température cible est calculé selon la formule :
Χ2 (2𝑓 + 2)
,
𝜆=
2𝑛𝑇𝐴𝐹
où 𝑛 est le nombre de composants mis en essai, 𝑇 est la durée de l’essai, 𝑓 est le nombre de défaillances observées durant
l’essai, Χ2 représente la loi du Khi-Deux à 2𝑓 + 2 degrés de liberté (et généralement considérée à un niveau de confiance de
60%) et AF est le facteur d’accélération entre la température d’essai 𝑇𝑗2 et la température cible 𝑇𝑗1 :
1
𝐸𝑎 1
𝐴𝐹 = 𝑒𝑥𝑝 � � − �� 12.
𝑘 𝑇𝑗1 𝑇𝑗2
Mais l’utilisation du test HTOL pour évaluer le taux de défaillance des circuits intégrés est fortement remise en cause.
Pour commencer, le test HTOL n’accélère pas tous les mécanismes de dégradation de la même manière ; la loi d’accélération
« parfaite » est une combinaison des lois propres à chaque mécanisme.
Ensuite la loi d’accélération utilisée dépend uniquement de la température et ne fait en aucun cas intervenir les paramètres
inhérents au composant - dimension des structures élémentaires et matériaux utilisés - qui ont un très fort impact sur les
mécanismes de défaillance.
12
Nous retrouvons ici la loi d’Arrhenius permettant de traduire la sensibilité du mécanisme de défaillance à la température ; Ea est l’énergie
d’activation et k est la constante de Boltzmann
Communication 1C-4 Page 7 sur 10
19e Congrès de Maîtrise des Risques et Sûreté de Fonctionnement - Dijon 21-23 octobre 2014
Enfin, l’énergie d’activation est considérée égale à 0.7 eV, hypothèse qui n’a pas évolué depuis les générations anciennes de
composants alors même que l’architecture et les matériaux ont considérablement changé.
Il en résulte qu’il est difficile de savoir ce que représente exactement le taux de défaillance calculé d’après le test HTOL.
Il est également difficile de se prononcer sur la représentativité de 1000 heures de test HTOL vis-à-vis d’un profil d’utilisation
donné. Si, comme nous l’avons souligné précédemment (paragraphe 2.2), les facteurs d’accélérations sont fortement réduits, il
est à craindre que 1000 h d’essai HTOL ne soient pas suffisantes pour piéger les défaillances d’usure…
Dans le cadre de la validation d’un outil de simulation et d’évaluation de fiabilité, (Wyrwas et al, 2011) ont mené une analyse
comparative du taux de défaillance extrapolé à partir des tests HTOL de fabricants, du taux de défaillance prédit et du taux de
défaillance observé par retour d’expérience sur plusieurs circuits intégrés de nœud 90nm et 130nm.
Si l’outil de simulation donnait plutôt de bons résultats, le taux de défaillance extrapolé à partir des tests HTOL était 3 à 16 fois
meilleur que le taux de défaillance observé en utilisation.
2.6. Conclusions sur l’évolution du taux de défaillance et de la durée de vie
D’après les nombreuses publications sur le sujet, la tendance semble aller vers une forte réduction de la durée de vie, liée à
l’occurrence prématurée des mécanismes de dégradation.
Jusqu’aux générations actuelles (disons 28 nm), l’hypothèse d’un taux de défaillance constant semble être admissible mais sur
une durée de vie utile de plus en plus courte. Il est à noter que, sur cette période, il ne devrait que relativement peu augmenter
du fait de l’introduction de mécanismes de mitigation à l’intérieur des composants.
Toutefois, sur les générations futures, le recouvrement des défaillances propres aux trois phases du cycle de vie pourrait
conduire vers un taux de défaillance constant mais bien plus élevé. Cette hypothèse reste à confirmer…
3.
Susceptibilité aux radiations atmosphériques
La problématique de la susceptibilité de l’électronique aux radiations atmosphériques a été révélée dans les années 1980 dans
un environnement spatial ; puis, les premiers aléas logiques mesurés dans un avion datent du début des années 1990.
Depuis, la réduction des dimensions et la modification des paramètres électriques des transistors ont rendu et continuent à
rendre les circuits de plus en plus sensibles aux SEE (Single Event Effects), évènements qui sont la conséquence de l’impact
de particules énergétiques dans des zones sensibles du circuit.
Parmi les différents types de SEE figurent les SEU (Single Event Upsets) qui consistent en une inversion du contenu de cellules
mémoires, et les MBU (Multiple Bits Upsets) qui consistent en une inversion du contenu de plusieurs cellules mémoires d’un
même mot.
Pour qu’un neutron crée un SEU, il doit remplir 4 conditions :
•
Heurter un noyau de silicium dans le « vide » de la matière ;
•
Avoir un impact sous la grille d’un transistor MOS ;
•
là où règne un champ électrique collecteur de charges ;
•
Avoir une énergie suffisante pour faire basculer l’état du transistor.
Pour qu’un neutron crée un MBU il doit remplir les 4 conditions :
•
Heurter un noyau de silicium dans le « vide » de la matière ;
•
Avoir un impact dans une zone de faible dopage où la longueur de diffusion des porteurs est « grande » (de l’ordre de
quelques µm) ;
•
En l’absence de champ électrique collecteur de charges ;
•
Avoir une énergie suffisante pour faire basculer l’état de transistors éloignés du point d’impact dans la limite de la
longueur de diffusion.
L’analyse de la susceptibilité des circuits numériques aux évènements de type SEU/MBU tient une place à part dans les
analyses de sécurité des équipements aéronautiques embarqués. La sensibilité d’un composant est calculée à partir de la
formule
𝜎 × 𝐹 × 𝑁,
où 𝜎 est la section efficace du composant en 𝑐𝑚2 /𝑏𝑖𝑡, 𝐹 est le flux de particules et 𝑁 le nombre de bits du composant.
La section efficace représente la sensibilité intrinsèque d’un circuit exposé à une source ionisante donnée (on parlera de la
section efficace du composant aux neutrons) ; elle est généralement fournie par le fabricant ou estimée sur la base d’essais
radiatifs. Le flux de neutrons est la quantité de neutrons bombardant un circuit par cm2 et par heure.
La sensibilité d’un composant est aujourd'hui systématiquement considérée comme invariante dans le temps, et ce pendant la
durée de vie du composant et du système.
3.1. Impact des neutrons thermiques et des protons atmosphériques
Jusqu’à présent, seuls les neutrons d’énergie supérieure à 10MeV étaient considérés dans les analyses de sécurité. En effet,
bien que représentant environ 35% du spectre de neutrons d’énergie supérieure à 1MeV, les neutrons de la bande énergétique
1MeV - 10MeV contribuaient faiblement aux SEU/MBU car insuffisamment énergétiques.
De la même manière et pour les mêmes raisons, les protons étaient négligés.
Mais la réduction des géométries élémentaires et la diminution de la tension d’alimentation remettent ces deux hypothèses en
cause. Pour en comprendre la raison, il est nécessaire de rappeler quelques définitions :
•
Le volume sensible représente l’ensemble des zones sensibles du circuit, zones susceptibles de collecter des
charges.
•
La charge critique (Q crit ) est la charge minimale nécessaire pour changer la valeur mémorisée dans une cellule ;
l’événement singulier se produit si la particule génère une charge supérieure à la charge critique ;
•
Le LET (Linear Energy Transfer) est la quantité d’énergie transférée par une particule ionisante à la cible qu’elle
traverse, par unité de longueur ; il dépend de la particule incidente et de la cible.
•
Le LET seuil (threshold LET) est la valeur minimale de LET que doit avoir une particule incidente pour induire un
événement singulier sur une cible.
Jusqu’à peu, le LET proton-silicium était considéré comme insuffisant pour induire des évènements singuliers dans les circuits
intégrés. Mais plusieurs études récentes, notamment les travaux de (G.Hubert et al) sur des mémoires SRAM, montrent que la
réduction de la géométrie des cellules tend à malmener cette hypothèse. La diminution de la charge critique des cellules
Communication 1C-4 Page 8 sur 10
19e Congrès de Maîtrise des Risques et Sûreté de Fonctionnement - Dijon 21-23 octobre 2014
s’accompagne d’une diminution du LET seuil ; la conséquence directe est que des particules d’énergie plus faible peuvent faire
basculer les cellules.
3.2. Evolution du ratio MBU-SEU
Avec la diminution de la géométrie des cellules mémoires, les MBU (Multiple Bit Upsets) sont de plus en plus fréquents. Alors
que sur les nœuds technologiques jusqu’à 90nm, le ratio était de 95% de SEU pour 5% de MBU, il pourrait s’inverser sur les
derniers nœuds technologiques.
3.3. Evolution de la section efficace
Les rapports de fiabilité publiés par les fabricants de composants numériques présentent généralement des analyses de
susceptibilité aux radiations atmosphériques.
La Figure 8 a été établie à partir des données fournies par XILINX sur plusieurs générations de FPGA. Elle reporte l’évolution de
la section efficace en fonction du nœud technologique.
Neutron cross-section / bit
evolution from 250 nm to 28 nm
from LANSCE testing
5,E-14
FIT/Mb
4,E-14
3,E-14
2,E-14
1,E-14
-1,E-29
250 180 150 130 90
65
45
40
28
Nœud technologique
BRAM
Configuration memory
Figure 8. Evolution de la section efficace en fonction du nœud technologique, résultats d’essais menés au Los Alamos
Neutron Science CEnter
S’il est difficile de donner une tendance à cette courbe, elle semble montrer que la susceptibilité des composants DSM
n’augmente pas avec la diminution des géométries.
La même constatation a été faite à partir des résultats fournis dans le rapport de fiabilité d’ALTERA.
Le bon comportement des technologies DSM a deux explications :
•
•
D’une part, les problèmes de variabilité de process cités plus haut amènent une variabilité des paramètres électriques
des transistors (intra-die) qui a obligé les fabricants à intégrer des codes correcteurs d’erreur permettant d’améliorer
le rendement et donc la marge. Ces codes correcteurs ont fortement contribué à cette « pseudo » stabilité des taux
d’occurrence SEU/MBU.
D’autre part, les fabricants ont mis en place un certain nombre de parades - notamment documentées dans
(ALTERA, 2010) - incluant :
o
Pour les FPGA à base de RAM, de la double voire de la triple redondance modulaire ;
o
Pour les FPGA à base de RAM, l’utilisation de la technique du « scrubbing» qui consiste en un
rafraîchissement périodique de certaines zones mémoire ;
o
Des techniques comme « l’interleaving » qui consiste à arranger les bits mémoires d’un même mot de
façon non contiguë afin de diminuer le risque de MBU ;
o
Une augmentation de la tension permettant de diminuer la charge critique ;
o
Auxquels s’ajouterait vraisemblablement un certain nombre de techniques propriétaires…
3.4. Conclusion sur la sensibilité aux SEU/MBU
Si la section efficace semble rester stable au moins sur les générations actuelles (jusqu’à 28nm), l’augmentation du ratio MBUSEU et, surtout, l’impact potentiel des protons et des neutrons de faible énergie devrait contribuer à une augmentation de la
sensibilité des composants.
Les chiffres doivent également être ramenés à la capacité mémoire des composants qui est en constante évolution.
Par ailleurs, la problématique SEE évolue au rythme de la roadmap technologique : il est nécessaire de contrôler l’évolution des
risques connus mais également l'apparition de nouveaux risques qui pourraient impliquer une redéfinition des moyens
d'évaluation et de protection. En particulier, l’introduction de nouveaux matériaux dans les assemblages pourrait avoir un impact
sur la sensibilité du circuit au rayonnement alpha.
Par ailleurs, il semble important de noter qu’il n’y a pas encore de retour d’expérience sur les composants fortement intégrés.
En effet, les cycles aéronautiques sont longs : 4 à 6 ans peuvent s’écouler entre la phase de prototypage et la phase
d’industrialisation puis 1 à 3 ans sont nécessaires avant que le nombre d’équipements en service ne soit représentatif. Il peut
donc s’écouler près de 10 ans avant que l’équipementier ne soit confronté à des retours terrains liés à des problèmes de
susceptibilité aux radiations atmosphériques.
4.
SOLUTIONS ET CONCLUSION
Communication 1C-4 Page 9 sur 10
19e Congrès de Maîtrise des Risques et Sûreté de Fonctionnement - Dijon 21-23 octobre 2014
A moyen terme, il existe un certain nombre de solutions pour améliorer le comportement des technologies DSM. Nous l’avons
vu, le taux de défaillance et la durée de vie de ces composants sont « profil de mission – dépendants », c’est pourquoi les
solutions sont tournées vers les conditions d’utilisation :
•
Réduction de la consommation ;
•
Utilisation de composants low-power ;
•
Amélioration de la dissipation thermique au sein des équipements ;
•
Etc.
A l’heure actuelle, aucune « solution miracle » n’a été trouvée sur le long terme : toutes les propositions que nous pourrions
faire ont des inconvénients ou des répercussions négatives.
Le maintien de filières 32/45 nm chez les fabricants actuels, par exemple, nécessiterait un volume financier important pour
maintenir les lignes de productions. De plus, permettrait-il de suivre l’évolution des performances demandée par le marché ?
La technique du “Health-Monitoring” permettrait d’anticiper les défaillances qui, nous l’avons vu, sont essentiellement liées à
des mécanismes de dégradation. La dérive de certains paramètres électriques (courant, puissance dissipée, etc.) permettrait, si
elle était surveillée, d’anticiper l’occurrence de la défaillance et de forcer la dépose de l’équipement avant que la défaillance ne
soit effective. Le Health-Monitoring a peu été utilisé jusque-là sur les composants électroniques car ces derniers présentaient
surtout des défaillances aléatoires et peu prédictibles. Mais l’arrivée massive des défaillances d’usure durant la vie utile du
composant pourrait changer la donne. Cependant, l’utilisation d’une telle technique forcerait à une profonde remise en question
des architectures actuelles. De, plus l’ajout des fonctions hardwares associées apportent de nouvelles contraintes vis à vis de
la certification.
Des solutions architecturales de niveau supérieur (redondance de certaines fonctions critiques, etc) posent, quant à elle, un
problème de coût.
Lorsqu’il s’agit d’aborder la fiabilité des composants semi-conducteurs, l’industrie a tendance à s’arrêter à un statu quo. La
plupart des ingénieurs et managers fondent leurs décisions sur le retour d’expérience. Or, les évolutions technologiques
amenées par les DSM se sont faites à un rythme beaucoup plus soutenu que les informations ramenées par le retour
d’expérience, créant un gap entre leur perception et l’évolution de la fiabilité des composants.
De façon générale, il convient de réfléchir à la façon dont nous abordons la fiabilité des systèmes électroniques. Cette dernière
implique plusieurs types de contraintes et d'effets dont les prises en compte sont généralement cloisonnées (SEE, CEM,
vieillissement, effet de dose etc.). La gestion du risque global est alors considérée comme la somme des contributions
individuelles liées à chaque contrainte et/ou effet.
A titre d’exemple, les problématiques liées au vieillissement et celles liées aux radiations sont habituellement abordées de
manière complètement disjointe. Mais l’évolution conjointe des seuils de sensibilité SEE (en diminution) et des puissances
consommées (en augmentation) pourrait conduire à reconsidérer cette hypothèse d’indépendance et à évaluer les effets
combinés de ces deux contraintes. En effet, les dégradations fonctionnelles induites par les mécanismes de vieillissement
peuvent impacter de manière significative la sensibilité des technologies aux SEE et, réciproquement, certains effets SEE
(micro-latchup, modification morphologique des oxydes due aux ions, etc.) sont susceptibles d'amplifier les mécanismes de
vieillissement.
Dans le domaine du spatial, des travaux récents (Roche et al., 2011) se sont intéressées à la synergie des effets SEE et des
effets de dose dans les technologies analogiques. Ces travaux sont intéressants car on retrouve certaines analogies entre les
effets induits par le vieillissement et les effets de dose qui ont pour conséquence de dégrader les caractéristiques électriques
des transistors du circuit et, par voie de conséquence, de modifier la sensibilité aux SEE.
Références
J.W. McPherson, Reliability Challenges for 45nm and Beyond, 2006, Design Automation Conference, 2006 43rd ACM/IEEE
Binhong LI, Etude de l'effet du vieillissement sur la compatibilité électromagnétique des circuits intégrés, 2011, thèse, Institut
National des Sciences Appliquées de Toulouse & LAAS-CNRS
Mark White, Bing Huang, Jin Qin, Zvi Gur, Michael Talmor, Yuan Chen, Jason Heideckerl, Duc Nguyen, Joseph
Bernstein, 2005, Impact of Device Scaling on Deep Sub-Micron Transistor Reliability, IEEE Integrated Reliability Workshop
Final Report
Jayanth Srinivasan, Sarita V. Adve, Pradip Bose, Jude A. Rivers, 2004, The Impact of Technology Scaling on Lifetime
Reliability, International Conference on Dependable Systems and Networks
Edward J. Wyrwas and Joseph B. Bernstein, 2011, Quantitatively Analyzing the Performance of Integrated Circuits and Their
Reliability, EEE Instrumentation & Measurement Magazine
Florian Moliere, Fiabilité des technologies CMOS fortement submicroniques (DSM) pour des applications avioniques, spatiales
et militaires, 2011, thèse, Université d’Aix-Marseille & Im2np
Lloyd Condra, Gary Horan, Impact of Semiconductor Technology on Aerospace Electronic System Design, Production, and
Support, 2005, National Software and Complex Electronic Hardware Standardization Conference
XILINX, Device Reliability Report, Third Quarter 2013, UG116 (v9.6), November 19
ALTERA, Reliability Report 55, 1H 2013
ALTERA, Enhancing Robust SEU Mitigation with 28-nm FPGAs, WP-01135-1, 2010
Intel Microelectronics Services, VDSM Issues and Design Methodology, January 2002
N. Roche, S. Perez, J. Mekki, Y. Gonzalez Velo, L. Dusseau, J. Boch, J.-R. Vaillé, F. Saigné, R. Marec, P. Calvel, F.
Bezzera, G. Auriel, B. Azais and S. P. Buchner, Study of Synergism Effect Between TID and ATREE on the Response of the
LM124 Operational Amplifier, IEEE TNS, Vol. 58, No. 6, Dec. 2011
J.Bernstein, Electronic Parts Life Extension for Military and Avionics Qualification, 2008
M. White, Y. Chen, Scaled CMOS technology reliability users guide, JPL Publication 08-14 3/08, 2008
A. Dixit, A. Wood, The impact of new technology on soft error rates, IEEE International Reliability Physics Symposium (IRPS), 10-14
April 2011
Communication 1C-4 Page 10 sur 10
Téléchargement