Détection de défaillances des équipements de production de semi-conducteurs Alexis Thieullen LSIS UMR 7296 Université de Paul Cézanne d’Aix-Marseille III Av. Escadrille Normandie Niemen 13397 Marseille Cedex 20 France [email protected] Cet article présente les récents développements dans le domaine de la détection de défaillances des équipements de production de semi-conducteurs. Un état de l’art des méthodes issues de l’analyse statistique multivariée appliquées à ce problème est proposé. Les méthodes par analyse en composantes principales sont plus particulièrement étudiées. Un cas d’application industriel sur des données expérimentales issues d’un procédé de fabrication réel de la société STMicroelectronics - Rousset est également présenté. RÉSUMÉ. This paper presents recent developments in fault detection for semiconductors manufacturing equipment. A state of the art of multivariate statistical methods applied to this problem is proposed. Principal component analysis methods are particularly studied. In addition we present an industrial case study with real manufacturing process data from STMicroelectonics Rousset. ABSTRACT. Détection de défaillance, analyse statistique multivariée, analyse en composantes principales, semiconducteurs. MOTS-CLÉS : Fault detection, multivariate statistical analysis, principal component analysis, semiconductors. KEYWORDS: 9èmes Journées des doctorants du LSIS, pages 1 à 12 2 9èmes Journées des doctorants du LSIS 1. Introduction La FDC (Fault Detection and Classification) est considérée aujourd’hui comme une composante essentielle de la maîtrise des procédés industriels. Utilisée pour la surveillance des équipements de production, elle garantit un niveau élevé de performance opérationnelle tout en réduisant la quantité de produits impactés par un fonctionnement anormal. Elle permet également l’augmentation de la disponibilité du matériel à travers un planification de maintenance plus efficace. Bien qu’appliquée avec succès dans de nombreux domaines (automobile, chimie, agro-alimentaire...), la complexité des processus de fabrication et la multiplicité des contextes de production dans l’industrie du semi-conducteur limitent l’emploi des stratégies utilisées habituellement en FDC. Le développement et l’intégration de méthodes permettant le suivi au travers d’indicateurs de la condition et du comportement des équipements durant le processus de fabrication représentent donc un challenge particulièrement important, dépendant fortement de la connaissance des systèmes et du processus concernés. 1.1. Processus de fabrication de semi-conducteurs La fabrication de semi-conducteurs est un procédé industriel particulièrement complexe. Elle consiste en un enchaînement d’opérations au cours desquelles les circuits électroniques sont progressivement créés sur un wafer1 . Un cycle de fabrication nécessite généralement la réalisation de séquences de 600 à plus de 1400 étapes sur une période de plusieurs mois, en fonction des caractéristiques désirées pour le produit final. Pendant la phase de fabrication, les équipements traitent des produits divisés en lots de 25 wafers devant passer à plusieurs reprises pour différentes opérations sur les mêmes machines, d’où la notion de flux réentrants. Un tel contexte de production implique des interactions dynamiques entre les équipements et des relations complexes entre performances des machines et qualité des produits. Flux réentrants La production par flux réentrants nécessite la réalisation par un même équipement de plusieurs opérations distinctes sur des produits issus de différentes technologies. Cela implique l’utilisation de recettes2 de production caractérisées par différentes étapes, points de fonctionnement, et comportements des paramètres suivis (moyennes, écarts-types, corrélations). La figure 1 illustre ces différences pour deux recettes de production correspondant à deux opérations de gravure (GATE et STI) réalisées par un équipement sur le même type de produit. 1. Un wafer est une tranche de silicium monocristallin d’environ 400-700 µm, sur laquelle les circuits intégrés sont fabriqués avant d’être découpés et mis en boîtiers. 2. Séquence de sous-étapes, appelées steps, correspondant à une sollicitation particulière de la machine pour une opération spécifique sur un type de produit donné. Détection de défaillances des équipements 3 Figure 1. Comportement d’un paramètre pour deux recettes correspondant à deux opérations de gravure (GATE et STI) réalisées par le même équipement de production. Non-linéarité La production de semi-conducteurs met généralement en œuvre des systèmes nonlinéaires. L’évolution de la plupart des paramètres collectés pendant un run3 dépend de celles de plusieurs autres paramètres, et ce de façon non-proportionnelle. Cette non-linéarité est présente aussi bien sur l’ensemble de la recette que individuellement pour chaque step (figure 1). Production par lots La production par lot est une source de complexité supplémentaire par rapport à un procédé de fabrication classique. A la variabilité naturelle du procédé se manifestant d’une plaque à l’autre s’ajoute une variabilité lot-à-lot (figure 2), caractérisée par une variation de la durée des steps, un décalage des trajectoires des paramètres sur une même recette, ainsi que des trajectoires différentes en fonction du mode de fonctionnement. Non-stationnarité Les systèmes de production de semi-conducteurs sont caractérisés par une dynamique non-stationnaire, la structure des processus étudiés évoluant avec le temps. Les moyennes et écarts-types des paramètres suivis présentent à la fois des changements réguliers (drift) causés par le vieillissement du système, et des modifications abruptes (shift) causées par les interventions sur les équipements (maintenances, réglages...) ou encore les différences de traitement des produits aux étapes précédentes (figure 3). 3. Passage d’un plaque sur une machine. 4 9èmes Journées des doctorants du LSIS Figure 2. Trajectoire d’un paramètre durant une opération de gravure, pour des wafers issus de 3 lots différents. Figure 3. Moyenne par run du paramètre « Throttle Valve Controller »sur un step, avant et après une intervention de maintenance. 1.2. Détection de défaillances La détection de défaillance repose sur la connaissance disponible du système étudié, dépendant elle-même des techniques de surveillance du système et d’une référence illustrant le fonctionnement normal (ou anormal) du système. Cette référence est représentée soit par un historique, une expérience, ou encore un modèle connu ou estimé du comportement du système (Ribot, 2009). Détection de défaillances des équipements 5 La fabrication de semi-conducteurs est une industrie High Mix Low Volume4 . A cela s’ajoute une récence relative des équipements de production induite par l’amélioration permanente des techniques de fabrication. Les conséquences sont une disponibilité limitée de données de fiabilité basées sur l’expérience, et pratiquement aucun modèle physique ou mathématique, ceux-ci étant extrêmement coûteux à élaborer et devenant rapidement obsolètes. Cela constitue un obstacle majeur à l’utilisation d’approches par modèle ou basées sur l’expérience. Un grand nombre de paramètres sont aujourd’hui collectés au cours de chaque cycle par les capteurs internes installés sur les machines (pressions, températures, courants...). Ces données représentant plusieurs téraoctets d’information sur le comportement des équipements de production, il existe une réelle opportunité pour l’application de méthodes basées sur le traitement des données sous réserve que les informations issues des capteurs soient suffisantes en qualité et en quantité pour évaluer l’état courant ou une image de l’état courant du système étudié. Aujourd’hui, la FDC s’appuie sur la surveillance individuelle des paramètres pour la détection de défaillance des équipements. Cette approche monodimensionnelle ne tient pas compte des intéractions pouvant exister entre ces paramètres. Cela conduit à un nombre important de fausses alarmes pour les procédés multivariés où les mesures des capteurs sont fortement corrélées. De plus, suivre chaque paramètre pour tous les équipements à toutes les étapes de production conduit à la création d’un grand nombre de cartes5 , ce qui rend l’analyse difficile pour les ingénieurs (Kittler, 2000). L’objectif de ces travaux est de développer les indicateurs multivariés nécessaires au suivi de la condition des équipements à partir des données collectées par les capteurs durant les phases de production. Pour répondre aux contraintes imposées par l’industrialisation, les méthodes et outils développés devront être : • génériques : paramétrés en fonction de l’équipement suivi, • adaptatifs : prendre en compte et s’adapter aux différents facteurs de variabilité, • maintenables : faciliter l’analyse des défaillances et la mise à jour. Cet article s’articule en 3 parties : la section 2 présente un état de l’art des méthodes de détection de défaillances par analyse de données appliquées au domaine du semi-conducteur, et plus particulièrement des méthodes par analyse en composantes principales. Une application sur des données issues d’un procédé de fabrication réél de STMicroelectronics est présentée dans la section 3. La conclusion et les perspectives de travail sont données dans la section 4. 4. Production caractérisée par une grande variété de technologies, des faibles volumes, et des produits de courte durée de vie. 5. Environ 200000 cartes sont nécessaires pour suivre l’ensemble d’une fab comme STMicroelectronics Rousset 6 9èmes Journées des doctorants du LSIS 2. Etat de l’art De nombreux outils et méthodologies basés sur l’analyse de données ont été développés pour le contrôle des procédés de fabrication de semi-conducteurs. Ces méthodes et les indicateurs associés ont fait l’objet d’une étude bibliographique dans nos travaux précédents. Les méthodes issues de l’intelligence artificielle, tels que les réseaux de neurones artificiels, ont été largement utilisées ces dernières années sur différents types d’équipements (Baker et al., 1995, Zhang et al., 1998, Bhatikar et al., 2002, Stone et al., 2005). Les réseaux de neurones sont des outils d’analyse statistique permettant de construire un modèle de comportement à partir de données qui sont des exemples de ce comportement. Pour la détection de défaillances, les différentes relations de « causes à effets » sont apprises par le réseau à partir d’un historique de fonctionnement. Après cette phase d’apprentissage, celui-ci pourra associer à toute nouvelle entrée dans le système sa classe de fonctionnement (bon fonctionnement ou défaillance). Les réseaux de neurones présentent plusieurs avantages : la modélisation des effets non-linéaires, pas d’hypothèses nécessaire sur la distribution des variables, une capacité de généralisation, ou encore la résistance aux valeurs manquantes ou aberrantes. Cependant, leur utilisation sur des systèmes réels en milieu industriel à mis en évidence plusieurs limitations. Un réseau de neurones est souvent décrit comme une « boîte noire » qui fournit une réponse quand on lui présente une donnée, mais pas de justification. Le manque d’informations sur les relations pertinentes entre les variables réduit ainsi les possibilités d’interprétation des résultats par l’utilisateur. De plus, la mise en place et le paramétrage d’un réseau de neurone est un processus particulièrement complexe qui semble difficilement envisageable pour une utilisation sur une grande variété d’équipements. L’analyse en composantes principales (ACP) est une des techniques d’analyse de données multivariées les plus connues. Etant donné un ensemble d’observations décrites par des variables corrélées, elle permet de décrire cet ensemble par de nouvelles variables non-corrélées, combinaisons linéaires des variables originales, appelées composantes principales (CP). Bien que l’ACP construise autant de CP que de variables initiales, le but est de n’en utiliser qu’un nombre réduit pour représenter les données tout en limitant au maximum la perte d’information. Elle se définit donc mathématiquement comme une projection orthogonale linéaire dans un sous-espace de dimension k, k étant le nombre de CP retenues. Les sous-espaces de projection optimale étant emboîtés par construction, le meilleur sous-espace de dimension k est engendré par les k premières CP. Le choix du nombre de CP à retenir a fait l’objet de nombreuses études, et peut être déterminé par plusieurs critères et méthodes : inertie, validation croisée, erreur de reconstruction... Soit X un ensemble de données constitué de n individus et m variables, avec : X = [x1 , x2 , . . . , xn ]T où xi = [xi1 , xi2 , . . . , xim ]T ∀ i ∈ [1, . . . , n] Détection de défaillances des équipements 7 xi représente le résultat de la mesure des m variables pour l’individu i. Les colonnes de X sont préalablement centrées et réduites pour éviter les effets de l’hétérogénéité des variables. A partir de la matrice de covariance Σ de X, on définit : • P la matrice de projection constituée des m vecteurs propres associés aux valeurs propres de Σ, P = [p1 , p2 , . . . , pm ] ∈ Rm×m • T la matrice des scores représentant le résultat de la projection des individus sur les CP, T = [t1 , t2 , . . . , tm ] ∈ Rn×m telle que T = XP L’ACP peut être également utilisée comme outil de diagnostic. En effet, la construction et la sélection des CP peut être considérée comme une modélisation implicite du système, permettant la générations de résidus. La détection de défaillances par ACP consiste à décomposer X de la façon suivante : X = X̂ + X̃ = l ∑ j=1 tj pTj + m ∑ tj pTj j=l+1 où les matrices X̂ et X̃ représentent respectivement les composantes modélisée et résiduelle de la matrice X (Wise et al., 1996). Ces deux matrices sont obtenues en projetant les données d’origine respectivement sur les sous-espaces des l premières CP retenues (le « modèle ») et des m − l CP restantes non-retenues. Deux statistiques sont habituellement considérées pour détecter un comportement anormal : • Le T 2 Hotelling, qui donne une mesure de la distance d’un échantillon à la moyenne du processus à l’intérieur du plan défini par les composantes principales. • L’erreur de prédiction SPE (Squared Prediction Error), calculée sur l’espace des résidus, qui détermine la déviation d’une observation par rapport au modèle. Les limites de détection associées à ces deux indices sont calculées à partir d’une loi du χ2 , sous la condition d’une distribution normale multivariée respectivement pour X et X̃. Dans le cas où ces deux indicateurs sont utilisés conjointement, il est possible d’utiliser un seul indicateur, l’indice combiné γ (Yue et al., 2001). L’ACP classique présente plusieurs limitations à l’application pour la détection de défaillances : elle n’est adaptée qu’à un procédé continu, et le modèle obtenu est statique, linéaire, et non-adaptatif. Elle nécessite également des données nonautocorrélées, stationaires, et normalement distribuées. Cependant, un des points fort de l’ACP réside dans la possibilité de faire évoluer la méthode pour l’adapter à différentes types de systèmes et différentes structures de données. ACP Multiway L’ACP multiway (MPCA) est utilisée pour l’analyse de données issues d’un procédé de fabrication par lot (Kourti et al., 1996, Lee et al., 2003). Les données sont 8 9èmes Journées des doctorants du LSIS regroupées dans des blocs, dont chacun représente un run. Ces blocs peuvent ensuite être ordonnés en « déroulant » les données représentées en trois dimensions (paramètres, lot, temps) en une grande matrice à deux dimensions (figure 4). La détection de défaillance est ensuite réalisée par une ACP linéaire classique. Figure 4. Arrangement des données par MPCA (Chen et al., 2002). L’inconvénient principal de cette méthode est l’ajout d’un grand nombre de variables par rapport aux données initiales. De plus, seules les relations statiques entre les paramètres sont prisent en compte (Chen et al., 2002). ACP Dynamique L’ACP dynamique (DPCA) a été développée pour extraire les dépendances temporelles présentes dans des données issues de systèmes dynamiques. Elle a été développée (Ku et al., 1995) et largement appliquée en chimiométrie (Chen et al., 2002, Mina et al., 2007, Zhang et al., 2007). Le principe de cette approche est de construire une nouvelle matrice de données à partir des données initiales, en concaténant au vecteur d’observation en cours les précédentes observations. La taille de cette fenêtre temporelle peut être determinée préalablement par des heuristiques ou encore des critères de l’information (Guerfel et al., 2009). En pratique, étant donnés le vecteur x(k) = [x1 (k)x2 (k) . . . xm (k)]t contenant la valeur des m variables à l’instant k, et s l’ordre de décalage du système, la matrice de données devient : x(s) ··· x(1) x(s + 1) · · · x(2) .. . . . . . . . Xs = x(k) ··· x(k − s) .. .. .. . . . x(n) · · · x(n − s + 1) Détection de défaillances des équipements 9 avec n le nombre d’observations. Comme pour l’ACP multiway, le principal inconvénient de cette approche est le passage d’une matrice de dimension n×m à une matrice de dimension (n − s + 1) × sm. ACP Récursive Comme décrit dans la première partie, les équipements de production sont caractérisés par une dynamique non-stationnaire. Un modèle statique peut donc générer de fausses alarmes pour un équipement fonctionnant dans de bonnes conditions. Pour compenser les changements de structures dans les données (moyenne, écart-type, corrélation), un algorithme récursif pour l’ACP a été proposé (Li et al., 2000). Le principe de cette méthode est de mettre à jour le modèle (et donc les composantes principales) pour chaque nouvelles données, les données les plus anciennes étant pondérées par un facteur d’oubli. Le choix du nombre de composantes à retenir pour le modèle peut également être revu. Le principal problème posé par cette approche réside dans l’adaptation à des conditions de fonctionnement dégradées, pouvant réduire la capacité du modèle à détecter les défaillances. La flexibilité et l’accessibilité de l’ACP expliquent le fait que récemment, différents algorithmes adaptés de l’ACP ont été appliqués à la détection de défaillances dans le domaine du semi-conducteur. Les méthodologies de prétraitement des données ont également connu d’importants perfectionnements. On peut citer l’utilisation d’algorithmes d’interpolation, de mesure de similarité, d’estimation par noyaux, ou encore de modèles de mélange gaussiens afin de contourner les contraintes liées à l’adaptation de l’ACP aux données issus de procédés de fabrication réels. 3. Application et résultats L’exemple utilisé pour illustrer l’application de méthodes par ACP à la détection de défaillances représente les mesures issues des capteurs d’une chambre de production d’un équipement de gravure plasma permettant la réalisation de deux opérations différentes. Les données consistent en 50 paramètres de pression, tension, et température collectés pendant le passage de 700 wafers issus de deux technologies différentes, pour un total de 4 recettes de production. Durant la période de production ciblée, l’équipement a subi une défaillance qui n’a pas été détectée par les outils de FDC disponibles. Les données disponibles étant caractéristiques d’un procédé par lot, l’ACP multiway est utilisée pour la modélisation. Pour des raisons de simplification de mise en œuvre, nous avons limité les facteurs de variabilité en ne conservant qu’une seule recette de production. Une sélection des paramètres basée sur l’expertise des ingénieurs de production a permis une réduction des données à 16 variables d’intérêt. Nous avons également réduit la recette de production à 4 steps considérés comme « critiques ». Pour chaque step, nous calculons deux statistiques, la moyenne et l’écart-type, pour un total final de 128 variables : 10 9èmes Journées des doctorants du LSIS x = (stepi ) = [(step1 ) · · · (step4 )] ({capteur1 } · · · {capteur16 }) {capteurj } = {< moyenne > < écart-type >} Les données utilisées étant issues d’un procédé de production réel, certains wafers ne présentent pas suffisamment de points sur les steps sélectionnés pour être pris en compte. Nous avons donc prétraité les données pour ne conserver que les wafers représentatifs d’un procédé de production complet. Cela exclu 83 wafers du jeu de données initial pour un nombre final de 617 individus. Nous avons divisé ces données en deux parties : la première, caractérisant le bon fonctionnement de l’équipement, est utilisée pour construire et sélectionner les CP. La seconde, qui inclut la défaillance, est utilisée pour tester la capacité de détection du modèle. En nous basant sur deux critères habituellements utilisés en ACP (critère de Kaiser et screeplot), nous avons sélectionné les 18 premières CP pour construire notre modèle, pour une variance cumulée de plus de 87%6 . La figure 5 montre le résultat du calcul de l’indice T 2 ainsi que la limite de détection pour un seuil de confiance 1 − α de 99.5%. Les scores des individus sur les quatre premières CP sont représentés sur la figure 6, ainsi que la limite de détection basée sur le T 2 Hotelling pour le même seuil de confiance. Figure 5. Calcul du T 2 Hotelling et limite de détection pour un seuil de confiance de 99.5%. La défaillance de l’équipement, caractérisée par le dépassement de la limite pour les runs 530 à 537, est bien détectée par le T 2 Hotelling (figure 5). Néanmoins, on 6. Ce qui signifie qu’en retenant 18 CP, notre modèle explique 87% de la variance initiale de l’echantillon. Détection de défaillances des équipements 11 Figure 6. Graphes des scores sur les quatre premières CP de l’ensemble des wafers, et limite de confiance basée sur le T 2 Hotelling. constate aisément que la limite elliptique du T 2 Hotelling ne caractérise pas de façon suffisamment convenable les données. Les régions à l’intérieur de l’ellipse qui ne contiennent aucune observation (figure 6) peuvent conduire à des erreurs de type I, c’est à dire à des défaillances non-détectées. A l’inverse, plusieurs observations à l’exterieur de l’ellipse ne correspondent pas à une défaillance effective de la machine, et sont donc considérées comme des fausses alarmes (erreurs de type II). Ce manque d’adéquation du modèle peut être expliqué par le comportement non gaussien des variables. En effet, pour être utilisé efficacement, le T 2 Hotelling nécessite des données initiales normalement distribuées, ce qui n’est pas le cas pour nos données. 4. Conclusion et perspectives Nous avons présenté dans cet article le contexte de fabrication de semiconducteurs, ainsi que les challenges à relever pour la mise en place d’indicateurs de condition pour les équipements de production. Nous avons détaillé différentes approches issues de l’ACP, puis appliqué l’ACP multiway à un exemple issu d’un historique de production réel de STMicroelectronics Rousset. Comme perspectives à ce travail, nous allons adapter les méthodes étudiées pour prendre en compte les différents facteurs de complexité développés dans la première partie. Nous allons également aborder le prétraitement des données pour prendre en compte et traiter l’aspect non-gaussien des paramètres. Enfin, nous allons étudier les différentes approches de classification de défaillances, telle que l’analyse des contributions des variables aux indices de détection, pour proposer des solutions de diagnostic aux ingénieurs de STMicroelectronics. 12 9èmes Journées des doctorants du LSIS 5. Bibliographie Baker M., Himmel C., May G., « Time Series Modeling of Reactive Ion Etching Using Neural Networks », IEEE Transactions on Semiconductor Manufacturing, vol. 8, n˚ 1, p. 62-71, 1995. Bhatikar S., Mahajan R., « Artificial neural-network-based diagnosis of CVD barrel reactor », IEEE Transactions on Semiconductor Manufacturing, vol. 15, n˚ 1, p. 71-78, 2002. Chen J., Liu K.-C., « On-line batch process monitoring using dynamic PCA and dynamic PLS models », Chemical Engineering Science, vol. 57, n˚ 1, p. 63-75, 2002. Guerfel M., Othman K. B., Benrejeb M., « On the structure determination of a dynamic PCA model using sensitivity of fault detection », Advanced Control of Chemical Processes, vol. 7, p. 958-963, 2009. Kittler R., « Challenges for use of statistical software tools in the Semiconductor Industry », Proc. Joint Statistical Meetings, Indianapolis, IN, 2000. Kourti T., MacGregor J. F., « Multivariate SPC Methods for Process and Product Monitoring », Journal of Quality Technology, vol. 28, n˚ 4, p. 409-428, 1996. Ku W., Storer R. H., Georgakis C., « Disturbance detection and isolation by dynamic principal component analysis », Chemometrics and Intelligent Laboratory Systems, vol. 30, p. 179196, 1995. Lee D. S., Vanrolleghem P. A., « Monitoring of a sequencing batch reactor using adaptive multiblock principal component analysis », Biotechnology and bioengineering, vol. 82, n˚ 4, p. 489-497, 2003. Li W., Yue H., Valle S., Qin J., « Recursive PCA for adaptive process monitoring », J. Proc. Cont., vol. 10, p. 471-486, 2000. Mina J., Verde C., « Fault Detection for Large Scale Systems Using Dynamic Principal Components Analysis with Adaptation », International Journal of Computers, Communications & Control, vol. II, n˚ 2, p. 185-194, 2007. Ribot P., Vers l’intégration diagnostic/pronostic pour la maintenance des systèmes complexes, Thèse de doctorat, Université Toulouse 3 Paul Sabatier, 2009. Stone V., Jamshidi M., « Neural Net Based Prognostics for an Industrial Semiconductor Fabrication System », IEEE International Conference on Systems, Man and Cybernetics, vol. 2, p. 1512-1517, 2005. Wise B. M., Gallagher N. B., « The process chemometrics approach to process monitoring and fault detection », Journal of Process Control, vol. 6, n˚ 6, p. 329-348, 1996. Yue H., Qin S., « Reconstruction based fault detection using a combined index », Ind. Eng. Chem. Res., vol. 40, n˚ 20, p. 4403-4414, 2001. Zhang B., May G., « Towards real time fault identification in plasma etching using neural networks », Advanced Semiconductor Manufacturing Conference and Workshop, Boston, MA, p. 61-65, 1998. Zhang Y., Edgar T. F., « On-line batch process monitoring using modified dynamic batch PCA », Proceedings of the 2007 American Control Conference, New York City, USA, July, 2007.