19e Congrès de Maîtrise des Risques et Sûreté de Fonctionnement - Dijon 21-23 octobre 2014 UTILISATION DES COMPOSANTS DEEP SUB-MICRON DANS LE CONTEXTE AERONAUTIQUE DEEP SUB-MICRON COMPONENTS IN THE AEROSPACE CONTEXT Julie Berthon et Didier Regis Thales Avionics Rue Toussaint Catros 33185 Le Haillan [email protected] (+33)5 56 13 44 90 Guillaume Hubert ONERA 2 avenue Edouard Belin 31055 Toulouse [email protected] +(33)5 62 25 28 85 [email protected] (+33)5 57 26 77 21 Résumé Depuis plus de 40 ans, la loi expérimentale de Gordon Moore prédit la progression du niveau d’intégration des composants électroniques numériques et oriente par là même les développements électroniques. Jusqu'à ces dernières années, cette évolution n’a pas eu de contrepartie mesurable sur la qualité des composants ; mais ceci commence à n’être plus tout à fait vrai. Cet article adresse l’impact de la réduction de la finesse de gravure des composants électroniques numériques sur leur fiabilité, et ses répercussions dans les analyses de sécurité des systèmes aéronautiques embarqués. Dans ce cadre, il analyse d’un point de vue qualitatif et quantitatif le comportement des technologies Deep Sub-Micron en termes de robustesse et de fiabilité et adresse plus particulièrement trois fondamentaux des analyses de sécurité des systèmes aéronautiques : le taux de défaillance, la durée de vie et la sensibilité aux radiations atmosphériques. Summary For more than 40 years, Gordon Moore’s experimental law has been predicting the evolution of the number of transistors in integrated circuits, thereby guiding electronics developments. Until last years, this evolution did not have any measurable impact on components’ quality; but the trend is beginning to reverse. This paper is addressing the impact of scaling on the reliability of integrated circuits. It is analyzing - from both qualitative and quantitative point of view - the behavior of Deep Sub-Micron technologies in terms of robustness and reliability. It is particularly focusing on three basics of safety analyses for aeronautical systems: failure rates, lifetimes and atmospheric radiations’ susceptibility. Introduction L’acronyme anglais DSM (Deep Sub-Micron) fait référence aux composants « nettement sub-microniques » c’est-à-dire dont la finesse de gravure est très inférieure au micron. Si ces composants sont apparus il y a quelques années déjà et sont utilisés dans les applications aéronautiques depuis plus de 10 ans, la course à la miniaturisation s’est accélérée ces dernières années : de 90nm en 2004, le nœud technologique - tel que défini par l’ITRS 1 - est tombé à 28 nm en 2012 et devrait passer sous les 10 nm à l’horizon 2020. Cette miniaturisation a deux motivations principales : d’une part, un objectif permanent de réduction des coûts et, d’autre part, un impérieux besoin d'augmenter les puissances de calcul et de stockage de l'information, chose qui ne peut se faire qu'en intégrant plus de transistors sur une même puce. Si un tel niveau d’intégration offre des performances inégalées et suscite un grand intérêt pour les applications embarquées, des études récentes montrent qu’il pose un certain nombre de problèmes en termes de robustesse 2 et de fiabilité, parmi lesquels : • L’apparition de défaillances de jeunesse difficiles à piéger en déverminage ; • Des problèmes d’intégrité de signal liés à des sources de bruits externes ou internes au composant ; • Une vulnérabilité accrue aux particules de haute énergie ; • La dégradation du WCET 3 ; • L’impact prématuré de mécanismes de dégradation entraînant une forte réduction de la durée de vie. La possible remise en cause de la notion de taux de défaillance constant, la réduction de la durée de vie et la vulnérabilité accrue aux particules de haute énergie sont les problématiques les plus critiques en termes de sûreté de fonctionnement. Ces problématiques sont très dépendantes de la technologie mais également étroitement liées aux contraintes environnementales et aux conditions d’utilisation des composants : tension d’alimentation, fréquence de fonctionnement, etc. 1 L’ITRS (International Technology Roadmap for Semiconductors) est une organisation résultant d’un consortium d'acteurs de la micro-électronique, sponsorisée par les associations nationales de l'industrie des semi-conducteurs européennes, américaines et asiatiques. Son principal objectif est la rédaction d’une « feuille de route » identifiant les barrières techniques à franchir pour chaque nouvelle génération de composant et servant de référence aux industriels de la microélectronique. 2 Selon l’IEEE, degré selon lequel un système, ou un composant, peut fonctionner correctement en présence d’entrée invalides ou de conditions environnementales stressantes. 3 Le « Worst Case Execution Time » est défini comme le temps maximal nécessaire à l’exécution d’une instruction. Communication 1C-4 Page 1 sur 10 19e Congrès de Maîtrise des Risques et Sûreté de Fonctionnement - Dijon 21-23 octobre 2014 Malheureusement pour les concepteurs aéronautiques, les marges de manœuvre sont faibles. Les composants électroniques ne sont ni conçus, ni testés, ni même mesurés pour adresser leurs besoins. Le marché du composant est dominé par l’électronique grand public pour laquelle la fiabilité n’est pas une contrainte forte, et dont les exigences sont incompatibles de celles auxquelles sont soumis les matériels sécuritaires : quand l’électronique grand public requiert des taux de défaillance de l’ordre de 1000 FIT 4 et des durées de vie comprises entre 1 et 5 ans, le secteur aéronautique requiert des taux de défaillance inférieurs à 100 FIT et des durées de vie comprises entre 10 et 30 ans. Ces problématiques sont accentuées par l’introduction dans les composants de nouveaux matériaux qui, s’ils permettent d’atteindre les objectifs de performance exigés par le marché, introduisent une incertitude quant à leur tenue dans le temps. Le domaine aéronautique doit donc relever un défi de taille : utiliser des technologies nécessaires à ses besoins en puissance de calcul et capacité de stockage mais incompatibles de ses exigences de fiabilité, et chercher des solutions permettant d’utiliser des composants dans des conditions et des environnements pour lesquels ils ne sont ni spécifiés ni garantis. 1. Mécanismes de défaillance des composants DSM 1.1. Mécanismes de défaillance des circuits intégrés Soulignons tout d’abord que le terme circuit intégré désigne ici le circuit électronique (que nous appelons plus communément puce électronique) et non le composant assemblé. Les mécanismes de dégradation abordés dans ce paragraphe sont donc propres au circuit intégré, et non au boîtier ou aux connections boîtier - circuit imprimé. Les mécanismes de dégradation des circuits intégrés sont largement documentés et cette communication les adresse dans le seul objectif d’améliorer la compréhension de la problématique générale. Il est d’usage de distinguer les mécanismes agissant au niveau des connections intra silicium (BEOL 5) et les mécanismes agissant au niveau des transistors (FEOL 6). Les zones BEOL et FEOL sont représentés sur la Figure 1 tandis que les différents mécanismes sont localisés sur la Figure 2. EM SM TDDB NBTI HCI TDDB Figure 1. Zone BEOL et zone FEOL dans un circuit intégré Figure 2. Les différents mécanismes de défaillance du circuit intégré Trois principaux mécanismes de dégradation agissent au niveau des connections intra silicium. Electromigration, EM L’électromigration est un mécanisme d’usure lié à la migration d’atomes dans un conducteur métallique. Cette migration peut avoir deux effets : • La formation de trous au niveau de la cathode, entraînant une augmentation de la résistance et pouvant aller jusqu’à l’ouverture d’une ligne ; • L’accumulation de matière au niveau de l’anode, entraînant un court-circuit entre deux lignes. Stress Migration, SM Ce mécanisme de dégradation se manifeste généralement par une fissuration des couches constituant la puce, fissuration induite par des contraintes mécaniques dues à la différence de coefficients de dilatation thermique entre les différentes couches. Time Dependent Dielectric Breakdown in Inter-Layer Dielectric, TDDB in ILD La rupture d’oxyde intermétallique est une rupture de l’oxyde entre deux niveaux de métallisation. Le diélectrique qui, à certains endroits, est pris entre deux niveaux de métallisation, crée une capacité et est confronté à une accumulation temporelle de charges électriques aux interfaces des métallisations ; ces charges sont à l’origine de courants de fuite pouvant entraîner une rupture de l’oxyde lorsqu’un chemin de conduction se forme entre la cathode et l’anode de la capacité ainsi crée. Trois principaux mécanismes de dégradation agissent au niveau des transistors. Time Dependent Dielectric Breakdown in Gate Oxide, TDDB in GO La rupture d’oxyde de grille est une rupture de la couche d’oxyde située au niveau de la grille du transistor. Elle est liée à une accumulation temporelle de charges électriques aux interfaces oxyde-silicium, charges à l’origine de courants de fuite pouvant entraîner une rupture de l’oxyde de grille lorsqu’un chemin de conduction se forme entre substrat (cathode) et grille (anode). Hot Carrier Injection, HCI 4 FIT ou Failure In Time, taux de défaillance exprimé en 10-9 défaillance par heure Le Back End Of Line désigne la zone dans laquelle sont empilées les différentes couches de métal et réalisées les différentes interconnections entre transistors 6 Le Front End Of Line désigne la zone active du composant, celle ou sont arrangés les transistors 5 Communication 1C-4 Page 2 sur 10 19e Congrès de Maîtrise des Risques et Sûreté de Fonctionnement - Dijon 21-23 octobre 2014 L’injection de porteurs chauds est un mécanisme d’usure se produisant lorsque les électrons traversant le canal acquièrent suffisamment d’énergie pour être injectés dans l’oxyde. Ce phénomène entraîne une dégradation des paramètres électriques du transistor, parmi lesquels une augmentation de la tension de seuil et donc des temps de commutation. (Negative or Positive) Bias Temperature Instability, (N or P) BTI L’instabilité de tension de seuil en température est un mécanisme d’usure du transistor MOS apparaissant à haute température lorsque le transistor MOS est polarisé en mode inversion. Les mécanismes présentés dans ce paragraphe sont des mécanismes de vieillissement. Si la rupture d’oxyde de grille peut se manifester par une défaillance catalectique - lorsqu’un stress suffisamment important conduit à une rupture franche - et si la rupture d’oxyde intermétallique et l’électromigration peuvent causer des défaillances aléatoires, ces mécanismes seront le plus souvent à l’origine de défaillances dites d’usure. 1.2. Impact de la miniaturisation Il n’y a pas vraiment de mécanisme de défaillance propre aux circuits intégrés DSM mais plutôt une aggravation et/ou une occurrence prématurée des mécanismes de défaillance décrits au paragraphe précédent. En effet, l’intégration et la miniaturisation ont des impacts forts sur l’architecture et la géométrie des circuits mais également sur leur comportement électrique. Tout d’abord, l’augmentation du nombre de transistors est à l’origine d’une superposition des niveaux d’interconnections métalliques - et donc d’une augmentation de la densité de métallisation - favorisant les mécanismes d’électromigration, de Stress Migration et la rupture d’oxyde intermétallique. De manière plus générale, la miniaturisation impose une réduction des géométries élémentaires qui favorise l’ensemble des mécanismes de défaillance. De plus, la réduction des motifs géométriques (et tout particulièrement de l’épaisseur d’oxyde de grille) et la réduction de la tension de polarisation n’évoluent pas dans les mêmes proportions ; il en résulte une augmentation des champs électriques impactant les mécanismes de défaillance sensibles au stress électrique : • L’augmentation de la densité de courant dans les interconnections métalliques favorise l’électromigration ; • L’augmentation du champ électrique au niveau des interconnections métalliques et de la grille favorise la rupture d’oxyde intermétallique et la rupture d’oxyde de grille ; • L’augmentation du champ électrique dans le canal favorise globalement les mécanismes HCI et NBTI. Par ailleurs, presque 7 tous ces mécanismes de défaillances sont naturellement accélérés par les hautes températures. Or, l’augmentation du nombre de transistors entraîne une augmentation de la puissance dissipée et, par auto-échauffement, de la température … Le tableau 1 résume les différents mécanismes de dégradation, les éléments des DSM favorisant ces mécanismes ainsi que les stresses susceptibles de les accélérer. Tableau 1 Localisation Mécanisme de dégradation Stresses accélérant le mécanisme Impact de la miniaturisation BEOL FEOL Stress électrique Température haute X X EM X Augmentation de la densité de métallisation Diminution de la largeur et de l’épaisseur des lignes de métal Augmentation de la densité de courant dans les interconnections SM X Augmentation de la densité de métallisation Diminution de la largeur et de l’épaisseur des lignes de métal TDDB ILD X Diminution de l’épaisseur d’oxyde Augmentation du champ électrique X X X Température basse X TDDB GO X Diminution de l’épaisseur d’oxyde Augmentation du champ électrique X HCI X Diminution de la longueur et de l’épaisseur du drain Diminution de l’épaisseur d’oxyde Augmentation du champ électrique X NBTI X Diminution de l’épaisseur d’oxyde Augmentation du champ électrique X X X 7 Seul le HCI est accéléré par les basses températures car les électrons sont plus mobiles et donc plus énergétiques à basse température. Communication 1C-4 Page 3 sur 10 19e Congrès de Maîtrise des Risques et Sûreté de Fonctionnement - Dijon 21-23 octobre 2014 2. Vers une remise en question de la traditionnelle courbe en baignoire ? 2.1. La courbe en baignoire Rappelons tout d’abord, sans trop insister sur ce phénomène connu des fiabilistes, que le taux de défaillance d’un composant électronique en fonction de l’âge évolue généralement en trois phases : • La période de jeunesse - ou de mortalité infantile - caractérisée par un taux de défaillance relativement élevé mais décroissant, dû à la manifestation de défauts de jeunesse ; • La période de vie utile caractérisée par un taux de défaillance constant et faible, dû à la manifestation de défaillances aléatoires ; • La période de vieillissement - ou d’usure - caractérisée par un taux de défaillance croissant et dû à la manifestation de phénomènes de dégradation. Ces trois phases sont communément illustrées sur une courbe caractéristique, dite « courbe en baignoire », telle que celle représentée sur la Figure 3. A chacune d’elles est associée une distribution de Weibull dont le paramètre β caractérise la nature des défaillances observées. A ce stade de la discussion, il est intéressant de positionner sur cette courbe les différents types de défaillances auxquels peuvent être sujets les composants DSM : Période de jeunesse Elle verra plutôt se manifester les défaillances liées : • A la présence de défauts introduits durant la conception ou la production (incompatibilité thermomécanique entre deux matériaux, présence de fissures, impuretés dans les couches d’interface, over/under-bonding, etc.) ; • A l’utilisation de technologies ou de procédés de fabrication insuffisamment matures. Période de vie utile Elle verra se manifester : • Des pannes accidentelles liées à des faiblesses de composants ; • Des pannes catalectiques liées à des over-stresses (ESD, chocs thermiques, …) ; • Quelques ruptures franches de l’oxyde de grille et quelques défaillances liées à l’électromigration ou à une rupture d’oxyde intermétallique ; • Des pannes liées à des SEU/MBU. Période de vieillissement Elle verra se manifester les défaillances d’usure liées aux différents mécanismes de dégradation évoqués dans le paragraphe 1 : EM, SM, TDDB, NTBI, HCI. Taux de défaillance Défauts de conception ou de production Période de jeunesse β<1 Période d’usure β>1 EM, SM, TDDB, NBTI, HCI Période de vie utile β=1 Over-stresses (ESD, T°C …) SEU TDDB GO & ILD, EM Figure 3. La courbe en baignoire, image d’Epinal de la fiabilité des composants électroniques Les analyses de sécurité des systèmes électroniques sont généralement réalisées sous l’hypothèse d’un taux de défaillance constant. Cette hypothèse est admissible - et généralement admise - considérant : • Que la sélection de composants de qualité combinée à un déverminage approprié permet d’éliminer les pannes de jeunesse, • Que les matériels sont généralement rebutés avant que les composants n’entrent dans la phase d’usure c’est-à-dire avant que le taux d’avarie lié au vieillissement ne devienne supérieur au taux d’avarie de la vie utile, • Et qu’ainsi, les composants ne sont utilisés qu’à taux de défaillance à peu près constant. Mais cette hypothèse, fondamentale dans la conduite des analyses de sécurité des systèmes aéronautiques, est remise en question depuis les années 2000. De nombreuses publications (Mak, 2005) (Intel, 2002) (…) alertent alors sur le potentiel impact de l’intégration sur la traditionnelle courbe en baignoire : • Un allongement de la période de jeunesse ; • Une augmentation du taux de défaillance aléatoire ; • Une translation temporelle de la période de vieillissement. Communication 1C-4 Page 4 sur 10 19e Congrès de Maîtrise des Risques et Sûreté de Fonctionnement - Dijon 21-23 octobre 2014 Ainsi, la zone de validité des analyses de sécurité - conduites à taux de défaillance constant - se voit réduite à chaque nœud technologique (Figure 4). Taux de défaillance Rallongement de la période de jeunesse, augmentation du taux de défaillances aléatoires et usure prématurée ? 30 nm et en-deçà : DDV < 10 ans 180 nm et + : DDV > 100 ans Zone de validité des analyses de sécurité Temps Figure 4. Vers une profonde remise en cause de la courbe en baignoire 2.2. Des défaillances de jeunesse plus fréquentes et plus difficiles à piéger Les composants DSM sont sujets à une augmentation des défaillances de jeunesse, augmentation qui est essentiellement liée à trois causes : • Tout d’abord, la complexité grandissante des circuits intégrés entraîne une augmentation du nombre de transistors et du nombre de couches d’interconnections ; • Ensuite, la réduction des géométries entraîne une variabilité de plus en plus en plus importante dans les procédés de fabrication ; • Enfin, la dimension des atomes étant invariante, l’intégration est de plus en plus portée par l’introduction de nouveaux matériaux dans les assemblages et de nouveaux procédés de fabrication, moins bien maîtrisés et donc moins matures ; à titre d’exemple, le passage sous les 20nm nécessite l’abandon de la technologie « planar » classique et impose l’utilisation de technologies « FinFet 8 » ou « FDSOI 9 » dont on ne connait pas encore la robustesse et la fiabilité. Parallèlement, le déverminage voit son efficacité réduite de génération en génération. La principale raison est l’aggravation des conditions de fonctionnement nominales des circuits intégrés et donc la réduction des facteurs d’accélération entre conditions nominales et conditions de déverminage. L’aggravation des conditions de fonctionnement nominales a deux explications : • Tout d’abord, l’inhomogénéité de l’équation d’intégration : si la géométrie des transistors est fortement réduite à chaque nœud technologique, les paramètres physiques et surtout électriques n’évoluent pas dans les mêmes proportions et il s’ensuit une augmentation du champ électrique et une augmentation de la température de jonction par effet Joule. • Ensuite, l’introduction de mécanismes de régulation de la tension interne du circuit intégré complique l’application de stresses accélérés en tension, réduisant l’efficacité du déverminage électrique. Ainsi, l’efficacité du déverminage aurait diminué d’un facteur 10 entre le nœud technologique 180nm (Perdu, 2012) et le nœud technologique 90nm, et cette tendance ne pourrait que s’accélérer. 2.3. Une augmentation du taux de défaillance aléatoire Nous l’avons vu précédemment, les défaillances usuellement rencontrées dans la vie utile du composant sont essentiellement liées à des surcharges accidentelles, à des ruptures franches de l’oxyde de grille (TDDB GO) ou à des évènements singuliers (SEU/MBU) que nous traiterons dans un chapitre à part. Globalement, l’augmentation du champ électrique et de la température de fonctionnement favorise le TDDB. La diminution des tensions d’alimentation est, quant à elle, à l’origine d’une forte réduction de la marge de bruit qui devrait descendre sous les 100mV à l’horizon 2015 (Binhong, 2011). Cette réduction de marge augmente la susceptibilité aux interférences électromagnétiques dans le domaine fréquentiel et temporel. 8 FinFET est l'acronyme de Fin-Shaped Field Effect Transistor, Fin étant utilisé ici en rapport avec la forme que donne l'architecture de ces transistors au drain et à la source, qui ressemblent alors à des ailerons. 9 Fully Depleted Silicon On Insulator Communication 1C-4 Page 5 sur 10 19e Congrès de Maîtrise des Risques et Sûreté de Fonctionnement - Dijon 21-23 octobre 2014 Parallèlement, l’augmentation des fréquences de fonctionnement et la complexité grandissante des circuits intégrés sont à l’origine d’une augmentation des bruits résultant des commutations internes au circuit et faisant du circuit lui-même une source de bruit majeure… Les défaillances liées aux ESD risquent donc de devenir une source de défaillance importante durant la période de vie utile du composant et vont largement favoriser l’augmentation du taux de défaillance durant la période de vie utile. L’introduction, au sein même des circuits intégrés, de mécanismes de contrôle et d’auto-correction devrait solutionner certains problèmes, dont ceux liés à la variabilité et aux SER (Soft Erro Rate). En retour, elle risque de complexifier la certification des composants complexes car ces mécanismes sont assimilables à des « boîtes noires ». 2.4. Des mécanismes de dégradation se manifestant précocement La plupart des mécanismes de défaillance des circuits intégrés sont des mécanismes d’usure qui induisent une dégradation progressive des paramètres électriques des transistors et des matériaux. Sur les anciennes générations de composants (antérieures au nœud 180nm), ces mécanismes de dégradation se manifestaient au bout d’une centaine d’années, donc bien au-delà de la vie utile du composant. Mais comme discuté au paragraphe 1, la plupart de ces mécanismes de dégradation sont largement favorisés par l’intégration si bien qu’ils deviennent prépondérants sur les technologies actuelles. L’occurrence des défaillances d’usure dans les circuits intégrés DSM est certainement le sujet le mieux documenté, d’un point de vue qualitatif aussi bien que quantitatif. De notre point de vue, c’est pourtant le sujet qui laisse le plus de questions sans réponses. En effet, si la plupart des publications s’accordent à dire que les défaillances d’usure se manifestent de plus en plus précocement et réduisent fortement la durée de vie utile, il est plus difficile de percevoir comment évolue le taux des défaillances d’usure et comment il pourrait continuer à évoluer dans les prochaines années. Cette difficulté avait été soulignée lors de la « National Software and Complex Electronic Hardware Standardization Conference » de 2005 (Condra et al., 2005) et elle ne nous semble pas encore résolue. Figure 5. Extrait de la présentation de Lloyd Condra et Gary Horan lors de la « National Software and Complex Electronic Hardware Standardization Conference » en 2005 Impact des mécanismes de dégradation en termes de réduction de la durée de vie Considérant la courbe en baignoire, la durée de vie du composant est définie comme la durée de la période de vie utile. On considère usuellement qu’on quitte la période de vie utile lorsque le taux des défaillances d’usure devient supérieur au taux des défaillances aléatoires. La réduction de la durée de vie utile est donc le résultat de l’occurrence de plus en plus précoce des mécanismes de dégradation. Les fabricants publient très peu d’informations quantitatives sur la fiabilité ou la durée de vie de leurs composants. Les rapports de fiabilité - comme ceux publiés trimestriellement par XILINX (XILINX, 2013) ou ALTERA (ALTERA, 2013) - ne fournissent qu’un taux de défaillance basé sur les résultats des tests HTOL 10, dont il sera fait état dans le paragraphe 2.5. Les principaux fabricants acceptent toutefois de communiquer des informations sous NDA 11. Les durées de vie communiquées confirment les propos évoqués dans l’introduction : la durée de vie des composants DSM est une problématique réelle pour le marché de l’aéronautique ; de plus, elle est « profil de mission - dépendante ». Impact des mécanismes de dégradation sur la courbe du taux de défaillance A notre connaissance, c’est un sujet qui reste encore ouvert. Dès 2004, (Jayanth Srinivasan et al) analysent le potentiel impact de l’intégration sur la fiabilité des processeurs. Le taux de défaillance relatif à chaque mécanisme de dégradation est évalué sur la base d’un modèle dépendant des facteurs aggravant (température, tension,…) mais également des géométries du circuit (épaisseur d’oxydes, …) et du type de matériaux utilisés. L’analyse comparative des résultats sur un processeur 180nm et sur un processeur 65nm met quatre points en évidence : 10 11 High Temperature Operating Life Non-Disclosure Agreement Communication 1C-4 Page 6 sur 10 19e Congrès de Maîtrise des Risques et Sûreté de Fonctionnement - Dijon 21-23 octobre 2014 • La température du point le plus chaud de la puce augmente de 15°C en moyenne entre le nœud 180nm et le nœud 65nm ; • Parallèlement, le taux de défaillance augmente d’environ 300% ; • Tous les mécanismes de dégradation sont accélérés par l’intégration mais TDDB et EM sont les plus touchés ; • La dépendance entre le taux de défaillance et la charge du processeur augmente considérablement avec l’intégration. Cependant, comme dans la majorité des publications que nous avons lues sur le sujet, les évaluations sont faites à taux de défaillance constant alors que les mécanismes en jeu sont des mécanismes de dégradation. Le taux calculé nous semble être l’inverse du temps moyen avant arrivée de la défaillance d’usure. C’est donc, en quelque sorte, l’inverse d’une durée de vie. Joseph Bernstein (Bernstein, 2008) avance que les défaillances d’usure revêtent un caractère de plus en plus aléatoire, si bien qu’elles seraient bientôt modélisées par une loi de Weibull de paramètre β=1. Ses courbes sont reprises dans de nombreuses publications mais l’origine de cette hypothèse n’est pas claire : retour d’expérience, avis d’expert, essai ? De plus, cette hypothèse nous semble incompatible des résultats d’essais des fabricants qui ne montrent pas, pour l’instant, d’évolution négative du taux de défaillance. Nous pensons plutôt que c’est le recouvrement progressif des trois phases du cycle de vie (phase de jeunesse, phase de vie utile et phase d’usure), qui pourrait conduire à un taux de défaillance constant sur les prochaines générations de composants. La Figure 6 nous semble aller dans ce sens. Elle montre la répartition des défaillances observées sur des processeurs de trois nœuds technologiques différents (180 nm, 130 nm et 65 nm) ; on y voit clairement une forte réduction de la durée de vie utile et une légère augmentation du taux de défaillance aléatoire, qui pourrait venir de l’occurrence prématurée des premières défaillances d’usure dans la période de vie utile. Figure 6. Evolution du taux de défaillance sur trois générations de processeurs (White et al., 2008) 2.5. De l’utilisabilité des taux de défaillance fournis par les fabricants Dans les rapports de fiabilité fournis par les fabricants de composants, les taux de défaillance liés à la puce sont basés sur des tests HTOL. La Figure 7 ci-dessous présente les conditions d’un test HTOL. Figure 7. Condition du test HTOL standardisées par le JEDEC, extrait du rapport de fiabilité de Xilinx Le taux de défaillance à une température cible est calculé selon la formule : Χ2 (2𝑓 + 2) , 𝜆= 2𝑛𝑇𝐴𝐹 où 𝑛 est le nombre de composants mis en essai, 𝑇 est la durée de l’essai, 𝑓 est le nombre de défaillances observées durant l’essai, Χ2 représente la loi du Khi-Deux à 2𝑓 + 2 degrés de liberté (et généralement considérée à un niveau de confiance de 60%) et AF est le facteur d’accélération entre la température d’essai 𝑇𝑗2 et la température cible 𝑇𝑗1 : 1 𝐸𝑎 1 𝐴𝐹 = 𝑒𝑥𝑝 � � − �� 12. 𝑘 𝑇𝑗1 𝑇𝑗2 Mais l’utilisation du test HTOL pour évaluer le taux de défaillance des circuits intégrés est fortement remise en cause. Pour commencer, le test HTOL n’accélère pas tous les mécanismes de dégradation de la même manière ; la loi d’accélération « parfaite » est une combinaison des lois propres à chaque mécanisme. Ensuite la loi d’accélération utilisée dépend uniquement de la température et ne fait en aucun cas intervenir les paramètres inhérents au composant - dimension des structures élémentaires et matériaux utilisés - qui ont un très fort impact sur les mécanismes de défaillance. 12 Nous retrouvons ici la loi d’Arrhenius permettant de traduire la sensibilité du mécanisme de défaillance à la température ; Ea est l’énergie d’activation et k est la constante de Boltzmann Communication 1C-4 Page 7 sur 10 19e Congrès de Maîtrise des Risques et Sûreté de Fonctionnement - Dijon 21-23 octobre 2014 Enfin, l’énergie d’activation est considérée égale à 0.7 eV, hypothèse qui n’a pas évolué depuis les générations anciennes de composants alors même que l’architecture et les matériaux ont considérablement changé. Il en résulte qu’il est difficile de savoir ce que représente exactement le taux de défaillance calculé d’après le test HTOL. Il est également difficile de se prononcer sur la représentativité de 1000 heures de test HTOL vis-à-vis d’un profil d’utilisation donné. Si, comme nous l’avons souligné précédemment (paragraphe 2.2), les facteurs d’accélérations sont fortement réduits, il est à craindre que 1000 h d’essai HTOL ne soient pas suffisantes pour piéger les défaillances d’usure… Dans le cadre de la validation d’un outil de simulation et d’évaluation de fiabilité, (Wyrwas et al, 2011) ont mené une analyse comparative du taux de défaillance extrapolé à partir des tests HTOL de fabricants, du taux de défaillance prédit et du taux de défaillance observé par retour d’expérience sur plusieurs circuits intégrés de nœud 90nm et 130nm. Si l’outil de simulation donnait plutôt de bons résultats, le taux de défaillance extrapolé à partir des tests HTOL était 3 à 16 fois meilleur que le taux de défaillance observé en utilisation. 2.6. Conclusions sur l’évolution du taux de défaillance et de la durée de vie D’après les nombreuses publications sur le sujet, la tendance semble aller vers une forte réduction de la durée de vie, liée à l’occurrence prématurée des mécanismes de dégradation. Jusqu’aux générations actuelles (disons 28 nm), l’hypothèse d’un taux de défaillance constant semble être admissible mais sur une durée de vie utile de plus en plus courte. Il est à noter que, sur cette période, il ne devrait que relativement peu augmenter du fait de l’introduction de mécanismes de mitigation à l’intérieur des composants. Toutefois, sur les générations futures, le recouvrement des défaillances propres aux trois phases du cycle de vie pourrait conduire vers un taux de défaillance constant mais bien plus élevé. Cette hypothèse reste à confirmer… 3. Susceptibilité aux radiations atmosphériques La problématique de la susceptibilité de l’électronique aux radiations atmosphériques a été révélée dans les années 1980 dans un environnement spatial ; puis, les premiers aléas logiques mesurés dans un avion datent du début des années 1990. Depuis, la réduction des dimensions et la modification des paramètres électriques des transistors ont rendu et continuent à rendre les circuits de plus en plus sensibles aux SEE (Single Event Effects), évènements qui sont la conséquence de l’impact de particules énergétiques dans des zones sensibles du circuit. Parmi les différents types de SEE figurent les SEU (Single Event Upsets) qui consistent en une inversion du contenu de cellules mémoires, et les MBU (Multiple Bits Upsets) qui consistent en une inversion du contenu de plusieurs cellules mémoires d’un même mot. Pour qu’un neutron crée un SEU, il doit remplir 4 conditions : • Heurter un noyau de silicium dans le « vide » de la matière ; • Avoir un impact sous la grille d’un transistor MOS ; • là où règne un champ électrique collecteur de charges ; • Avoir une énergie suffisante pour faire basculer l’état du transistor. Pour qu’un neutron crée un MBU il doit remplir les 4 conditions : • Heurter un noyau de silicium dans le « vide » de la matière ; • Avoir un impact dans une zone de faible dopage où la longueur de diffusion des porteurs est « grande » (de l’ordre de quelques µm) ; • En l’absence de champ électrique collecteur de charges ; • Avoir une énergie suffisante pour faire basculer l’état de transistors éloignés du point d’impact dans la limite de la longueur de diffusion. L’analyse de la susceptibilité des circuits numériques aux évènements de type SEU/MBU tient une place à part dans les analyses de sécurité des équipements aéronautiques embarqués. La sensibilité d’un composant est calculée à partir de la formule 𝜎 × 𝐹 × 𝑁, où 𝜎 est la section efficace du composant en 𝑐𝑚2 /𝑏𝑖𝑡, 𝐹 est le flux de particules et 𝑁 le nombre de bits du composant. La section efficace représente la sensibilité intrinsèque d’un circuit exposé à une source ionisante donnée (on parlera de la section efficace du composant aux neutrons) ; elle est généralement fournie par le fabricant ou estimée sur la base d’essais radiatifs. Le flux de neutrons est la quantité de neutrons bombardant un circuit par cm2 et par heure. La sensibilité d’un composant est aujourd'hui systématiquement considérée comme invariante dans le temps, et ce pendant la durée de vie du composant et du système. 3.1. Impact des neutrons thermiques et des protons atmosphériques Jusqu’à présent, seuls les neutrons d’énergie supérieure à 10MeV étaient considérés dans les analyses de sécurité. En effet, bien que représentant environ 35% du spectre de neutrons d’énergie supérieure à 1MeV, les neutrons de la bande énergétique 1MeV - 10MeV contribuaient faiblement aux SEU/MBU car insuffisamment énergétiques. De la même manière et pour les mêmes raisons, les protons étaient négligés. Mais la réduction des géométries élémentaires et la diminution de la tension d’alimentation remettent ces deux hypothèses en cause. Pour en comprendre la raison, il est nécessaire de rappeler quelques définitions : • Le volume sensible représente l’ensemble des zones sensibles du circuit, zones susceptibles de collecter des charges. • La charge critique (Q crit ) est la charge minimale nécessaire pour changer la valeur mémorisée dans une cellule ; l’événement singulier se produit si la particule génère une charge supérieure à la charge critique ; • Le LET (Linear Energy Transfer) est la quantité d’énergie transférée par une particule ionisante à la cible qu’elle traverse, par unité de longueur ; il dépend de la particule incidente et de la cible. • Le LET seuil (threshold LET) est la valeur minimale de LET que doit avoir une particule incidente pour induire un événement singulier sur une cible. Jusqu’à peu, le LET proton-silicium était considéré comme insuffisant pour induire des évènements singuliers dans les circuits intégrés. Mais plusieurs études récentes, notamment les travaux de (G.Hubert et al) sur des mémoires SRAM, montrent que la réduction de la géométrie des cellules tend à malmener cette hypothèse. La diminution de la charge critique des cellules Communication 1C-4 Page 8 sur 10 19e Congrès de Maîtrise des Risques et Sûreté de Fonctionnement - Dijon 21-23 octobre 2014 s’accompagne d’une diminution du LET seuil ; la conséquence directe est que des particules d’énergie plus faible peuvent faire basculer les cellules. 3.2. Evolution du ratio MBU-SEU Avec la diminution de la géométrie des cellules mémoires, les MBU (Multiple Bit Upsets) sont de plus en plus fréquents. Alors que sur les nœuds technologiques jusqu’à 90nm, le ratio était de 95% de SEU pour 5% de MBU, il pourrait s’inverser sur les derniers nœuds technologiques. 3.3. Evolution de la section efficace Les rapports de fiabilité publiés par les fabricants de composants numériques présentent généralement des analyses de susceptibilité aux radiations atmosphériques. La Figure 8 a été établie à partir des données fournies par XILINX sur plusieurs générations de FPGA. Elle reporte l’évolution de la section efficace en fonction du nœud technologique. Neutron cross-section / bit evolution from 250 nm to 28 nm from LANSCE testing 5,E-14 FIT/Mb 4,E-14 3,E-14 2,E-14 1,E-14 -1,E-29 250 180 150 130 90 65 45 40 28 Nœud technologique BRAM Configuration memory Figure 8. Evolution de la section efficace en fonction du nœud technologique, résultats d’essais menés au Los Alamos Neutron Science CEnter S’il est difficile de donner une tendance à cette courbe, elle semble montrer que la susceptibilité des composants DSM n’augmente pas avec la diminution des géométries. La même constatation a été faite à partir des résultats fournis dans le rapport de fiabilité d’ALTERA. Le bon comportement des technologies DSM a deux explications : • • D’une part, les problèmes de variabilité de process cités plus haut amènent une variabilité des paramètres électriques des transistors (intra-die) qui a obligé les fabricants à intégrer des codes correcteurs d’erreur permettant d’améliorer le rendement et donc la marge. Ces codes correcteurs ont fortement contribué à cette « pseudo » stabilité des taux d’occurrence SEU/MBU. D’autre part, les fabricants ont mis en place un certain nombre de parades - notamment documentées dans (ALTERA, 2010) - incluant : o Pour les FPGA à base de RAM, de la double voire de la triple redondance modulaire ; o Pour les FPGA à base de RAM, l’utilisation de la technique du « scrubbing» qui consiste en un rafraîchissement périodique de certaines zones mémoire ; o Des techniques comme « l’interleaving » qui consiste à arranger les bits mémoires d’un même mot de façon non contiguë afin de diminuer le risque de MBU ; o Une augmentation de la tension permettant de diminuer la charge critique ; o Auxquels s’ajouterait vraisemblablement un certain nombre de techniques propriétaires… 3.4. Conclusion sur la sensibilité aux SEU/MBU Si la section efficace semble rester stable au moins sur les générations actuelles (jusqu’à 28nm), l’augmentation du ratio MBUSEU et, surtout, l’impact potentiel des protons et des neutrons de faible énergie devrait contribuer à une augmentation de la sensibilité des composants. Les chiffres doivent également être ramenés à la capacité mémoire des composants qui est en constante évolution. Par ailleurs, la problématique SEE évolue au rythme de la roadmap technologique : il est nécessaire de contrôler l’évolution des risques connus mais également l'apparition de nouveaux risques qui pourraient impliquer une redéfinition des moyens d'évaluation et de protection. En particulier, l’introduction de nouveaux matériaux dans les assemblages pourrait avoir un impact sur la sensibilité du circuit au rayonnement alpha. Par ailleurs, il semble important de noter qu’il n’y a pas encore de retour d’expérience sur les composants fortement intégrés. En effet, les cycles aéronautiques sont longs : 4 à 6 ans peuvent s’écouler entre la phase de prototypage et la phase d’industrialisation puis 1 à 3 ans sont nécessaires avant que le nombre d’équipements en service ne soit représentatif. Il peut donc s’écouler près de 10 ans avant que l’équipementier ne soit confronté à des retours terrains liés à des problèmes de susceptibilité aux radiations atmosphériques. 4. SOLUTIONS ET CONCLUSION Communication 1C-4 Page 9 sur 10 19e Congrès de Maîtrise des Risques et Sûreté de Fonctionnement - Dijon 21-23 octobre 2014 A moyen terme, il existe un certain nombre de solutions pour améliorer le comportement des technologies DSM. Nous l’avons vu, le taux de défaillance et la durée de vie de ces composants sont « profil de mission – dépendants », c’est pourquoi les solutions sont tournées vers les conditions d’utilisation : • Réduction de la consommation ; • Utilisation de composants low-power ; • Amélioration de la dissipation thermique au sein des équipements ; • Etc. A l’heure actuelle, aucune « solution miracle » n’a été trouvée sur le long terme : toutes les propositions que nous pourrions faire ont des inconvénients ou des répercussions négatives. Le maintien de filières 32/45 nm chez les fabricants actuels, par exemple, nécessiterait un volume financier important pour maintenir les lignes de productions. De plus, permettrait-il de suivre l’évolution des performances demandée par le marché ? La technique du “Health-Monitoring” permettrait d’anticiper les défaillances qui, nous l’avons vu, sont essentiellement liées à des mécanismes de dégradation. La dérive de certains paramètres électriques (courant, puissance dissipée, etc.) permettrait, si elle était surveillée, d’anticiper l’occurrence de la défaillance et de forcer la dépose de l’équipement avant que la défaillance ne soit effective. Le Health-Monitoring a peu été utilisé jusque-là sur les composants électroniques car ces derniers présentaient surtout des défaillances aléatoires et peu prédictibles. Mais l’arrivée massive des défaillances d’usure durant la vie utile du composant pourrait changer la donne. Cependant, l’utilisation d’une telle technique forcerait à une profonde remise en question des architectures actuelles. De, plus l’ajout des fonctions hardwares associées apportent de nouvelles contraintes vis à vis de la certification. Des solutions architecturales de niveau supérieur (redondance de certaines fonctions critiques, etc) posent, quant à elle, un problème de coût. Lorsqu’il s’agit d’aborder la fiabilité des composants semi-conducteurs, l’industrie a tendance à s’arrêter à un statu quo. La plupart des ingénieurs et managers fondent leurs décisions sur le retour d’expérience. Or, les évolutions technologiques amenées par les DSM se sont faites à un rythme beaucoup plus soutenu que les informations ramenées par le retour d’expérience, créant un gap entre leur perception et l’évolution de la fiabilité des composants. De façon générale, il convient de réfléchir à la façon dont nous abordons la fiabilité des systèmes électroniques. Cette dernière implique plusieurs types de contraintes et d'effets dont les prises en compte sont généralement cloisonnées (SEE, CEM, vieillissement, effet de dose etc.). La gestion du risque global est alors considérée comme la somme des contributions individuelles liées à chaque contrainte et/ou effet. A titre d’exemple, les problématiques liées au vieillissement et celles liées aux radiations sont habituellement abordées de manière complètement disjointe. Mais l’évolution conjointe des seuils de sensibilité SEE (en diminution) et des puissances consommées (en augmentation) pourrait conduire à reconsidérer cette hypothèse d’indépendance et à évaluer les effets combinés de ces deux contraintes. En effet, les dégradations fonctionnelles induites par les mécanismes de vieillissement peuvent impacter de manière significative la sensibilité des technologies aux SEE et, réciproquement, certains effets SEE (micro-latchup, modification morphologique des oxydes due aux ions, etc.) sont susceptibles d'amplifier les mécanismes de vieillissement. Dans le domaine du spatial, des travaux récents (Roche et al., 2011) se sont intéressées à la synergie des effets SEE et des effets de dose dans les technologies analogiques. Ces travaux sont intéressants car on retrouve certaines analogies entre les effets induits par le vieillissement et les effets de dose qui ont pour conséquence de dégrader les caractéristiques électriques des transistors du circuit et, par voie de conséquence, de modifier la sensibilité aux SEE. Références J.W. McPherson, Reliability Challenges for 45nm and Beyond, 2006, Design Automation Conference, 2006 43rd ACM/IEEE Binhong LI, Etude de l'effet du vieillissement sur la compatibilité électromagnétique des circuits intégrés, 2011, thèse, Institut National des Sciences Appliquées de Toulouse & LAAS-CNRS Mark White, Bing Huang, Jin Qin, Zvi Gur, Michael Talmor, Yuan Chen, Jason Heideckerl, Duc Nguyen, Joseph Bernstein, 2005, Impact of Device Scaling on Deep Sub-Micron Transistor Reliability, IEEE Integrated Reliability Workshop Final Report Jayanth Srinivasan, Sarita V. Adve, Pradip Bose, Jude A. Rivers, 2004, The Impact of Technology Scaling on Lifetime Reliability, International Conference on Dependable Systems and Networks Edward J. Wyrwas and Joseph B. Bernstein, 2011, Quantitatively Analyzing the Performance of Integrated Circuits and Their Reliability, EEE Instrumentation & Measurement Magazine Florian Moliere, Fiabilité des technologies CMOS fortement submicroniques (DSM) pour des applications avioniques, spatiales et militaires, 2011, thèse, Université d’Aix-Marseille & Im2np Lloyd Condra, Gary Horan, Impact of Semiconductor Technology on Aerospace Electronic System Design, Production, and Support, 2005, National Software and Complex Electronic Hardware Standardization Conference XILINX, Device Reliability Report, Third Quarter 2013, UG116 (v9.6), November 19 ALTERA, Reliability Report 55, 1H 2013 ALTERA, Enhancing Robust SEU Mitigation with 28-nm FPGAs, WP-01135-1, 2010 Intel Microelectronics Services, VDSM Issues and Design Methodology, January 2002 N. Roche, S. Perez, J. Mekki, Y. Gonzalez Velo, L. Dusseau, J. Boch, J.-R. Vaillé, F. Saigné, R. Marec, P. Calvel, F. Bezzera, G. Auriel, B. Azais and S. P. Buchner, Study of Synergism Effect Between TID and ATREE on the Response of the LM124 Operational Amplifier, IEEE TNS, Vol. 58, No. 6, Dec. 2011 J.Bernstein, Electronic Parts Life Extension for Military and Avionics Qualification, 2008 M. White, Y. Chen, Scaled CMOS technology reliability users guide, JPL Publication 08-14 3/08, 2008 A. Dixit, A. Wood, The impact of new technology on soft error rates, IEEE International Reliability Physics Symposium (IRPS), 10-14 April 2011 Communication 1C-4 Page 10 sur 10