Journées d’Animation Scientifique (JAS09) de l’AUF Alger Novembre 2009 Traitement des données hyperspectrales par des méthodes de séparation aveugle de sources : faisabilité et perspectives M. S. Karoui1,2,3, Y. Deville2, S. Hosseini2, A. Ouamri3 1 2 3 Division Observation de la Terre, Centre des Techniques Spatiales, 01, Av. de la Palestine, BP 13, 31200, Arzew, Algérie E.mail : [email protected] Laboratoire d’Astrophysique de Toulouse-Tarbes, Université de Toulouse, CNRS, 14 Av. Edouard Belin, 31400 Toulouse, France E.mail : [email protected], [email protected] Laboratoire Signaux et Images, Université des Sciences et de la Technologie d’Oran, BP 1505, El M’naouar, 31000 Oran, Algérie E.mail : [email protected] Résumé—Dans cet article, nous examinons la faisabilité et les perspectives des méthodes de séparation aveugle de sources pour le traitement des données hyperspectrales de télédétection spatiale. L’imagerie hyperspectrale offre une information plus riche, permettant ainsi une analyse plus fine des observations. Afin de tirer profit de cette grande quantité de données, de nouvelles méthodes d’analyse et de traitement doivent être développées. Les méthodes de séparation aveugle de sources peuvent répondre à ce besoin, notamment pour la recherche des signatures spectrales des composants purs présents dans la scène imagée. Mots clefs — Télédétection hyperspectrale, séparation aveugle de sources, analyse en composantes indépendantes, factorisation en matrices non-négatives, mélange/démélange spectral. I. INTRODUCTION Les avancées technologiques en matière de capteurs satellitaires ont permis l’essor de l’imagerie hyperspectrale. Celle-ci consiste en l’acquisition simultanée d’images dans de nombreuses bandes spectrales étroites et contiguës. Ainsi, les données hyperspectrales offrent une information plus riche d’une scène que les autres types de données de télédétection acquises en bandes spectrales larges et non contiguës. La résolution spectrale qu’offre l’imagerie hyperspectrale permet l’accès à une signature plus détaillée des objets présents dans la scène observée, mais cette avancée en matière de résolution spectrale n’ira pas sans poser de problèmes au niveau de la résolution spatiale. En effet, la conception d’un capteur satellitaire passe inévitablement par un compromis entre la résolution spatiale et la résolution spectrale. Plus la résolution spectrale est fine, plus la résolution spatiale est faible, et vice versa. L’imagerie hyperspectrale fournit donc des pixels plus hétérogènes se prêtant moins bien à l’analyse spectrale. Ainsi, les images hyperspectrales peuvent être considérées comme un ensemble de signaux 1D, fonction de la longueur d’onde, chacun associés à point de l’espace : chaque vecteur associé à un pixel de l’image hyperspectrale est considéré comme un mélange des signatures spectrales (ici, on parle de mélange spectral) des composants purs contenus dans la zone associée à ce pixel [8]. A l’aide des méthodes de Séparation Aveugle de Sources (SAS), on peut espérer démélanger chaque pixel, et aboutir à l’identification de la signature spectrale de chaque composant pur, permettant ainsi la quantification des constituants de surface et la cartographie de leur distribution spatiale. La SAS est un problème générique de traitement de signaux, d’images ou de données. Elle consiste à estimer un ensemble de signaux sources inconnus à partir d’un ensemble de signaux observés qui sont des mélanges de ces signaux sources [7]. Historiquement, pendant quelques années, la SAS s’est identifiée à l’Analyse en Composantes Indépendantes (ACI) dans le cadre de mélanges linéaires instantanés [3]. L’ACI consiste à représenter les observations initiales comme un mélange linéaire instantané de composantes statistiquement indépendantes [7]. Bien sûr, l’ACI n’est pas la seule voie possible pour résoudre le problème de la SAS. D’autres méthodes, notamment celles basées sur l’exploitation du caractère non négatif des sources, permettent de résoudre le problème de la SAS par l’utilisation de la Factorisation en Matrices Non-négatives (FMN) [5]. La FMN consiste à représenter les observations initiales comme un mélange linéaire à coefficients non négatifs de composantes non négatives [9]. La suite de cet article est constituée de six sections. Nous donnons dans la section II une description de l’imagerie hyperspectrale, et nous décrivons le problème du mélange spectral. Dans la section III, nous présentons le domaine de la séparation aveugle de sources. Dans les deux sections suivantes, nous donnons respectivement deux solutions pour la SAS, d’une part l’ACI, et d’autre part la FMN. Avant de conclure, nous discutons dans la section VI, la faisabilité et les perspectives d’utilisation des méthodes de SAS pour le traitement des images hyperspectrales. Journées d’Animation Scientifique (JAS09) de l’AUF Alger Novembre 2009 II. IMAGERIE HYPERSPECTRALE 2.1. Description Chaque matériau présente une réflectivité spectrale unique basée sur ses propriétés telles que sa composition chimique et physique, sa température, sa texture, etc. Cette réflectivité spectrale, qui est souvent appelée signature spectrale, peut être considérée comme la source à partir de laquelle les caractéristiques chimiques et physiques peuvent être retrouvées. Les images de télédétection spatiale classiquement utilisées sont dites multispectrales. Elles associent à chaque pixel plusieurs valeurs scalaires qui correspondent à la mesure du rayonnement électromagnétique incident sur le capteur dans quelques bandes spectrales déterminées. On parle d’images hyperspectrales lorsque l’acquisition de ce rayonnement est faite simultanément dans un grand nombre de bandes spectrales étroites et contiguës. Les données hyperspectrales fournissent une information plus détaillée des propriétés spectrales d’une scène que les données de télédétection plus conventionnelles acquises en bandes plus larges et souvent non contiguës. Une image hyperspectrale peut être considérée comme un cube 3D de données, c’est-à-dire des mesures fonctions de la position XY de l’espace observé et de la longueur d’onde. Une image de ce type est appelée « pavé hyperspectral » ou « hypercube » (Fig. 1). Fig.2 Concept de l’imagerie hyperspectrale L’imagerie hyperspectrale est utilisée dans des domaines divers, pour des applications civiles et militaires. Parmi les applications civiles, on peut citer entre autres, la géologie, l’exploration minière et pétrolière, l’agriculture de précision, l’hydrologie, etc. L’exploitation des données hyperspectrales permet d’effectuer des classifications d’une précision inégalée en télédétection conventionnelle. 2.2. Le problème du mélange spectral Généralement, les images sont acquises sur des scènes hétérogènes dans lesquelles plusieurs constituants sont présents. En imagerie hyperspectrale, le problème du mélange spectral se pose lorsque le domaine élémentaire relatif à un pixel donné comporte plusieurs matériaux (Fig. 3), c'est-à-dire lorsqu’on atteint les limites de résolution spatiale du capteur. Ainsi, chaque pixel de l’image contient plusieurs composants purs dont les spectres respectifs contribuent au spectre observé. Le démélange spectral est la procédure par laquelle le spectre mesuré est décomposé en une série de spectres purs et d’abondances respectives [8]. Le modèle analytique le plus couramment utilisé pour résoudre le problème du mélange spectral dans le domaine réflectif est de type linéaire [8]. Fig.1 Représentation d’un pavé hyperspectral A chaque pixel d’une image hyperspectrale est alors associé un vecteur de mesures formant un spectre (Fig. 2). Ainsi, nous pouvons discriminer entre certaines cibles ayant des signatures spectrales similaires, alors que ces différences spectrales peu perceptibles ne sauraient être observées dans les signatures spectrales acquises par les capteurs à larges bandes spectrales comme celles de l’imagerie multispectrale. Fig.3 Illustration du problème du mélange spectral Journées d’Animation Scientifique (JAS09) de l’AUF Alger Novembre 2009 Le modèle définit le spectre xp observé dans N bandes au niveau du pixel p comme une combinaison linéaire des spectres sj des L composants purs présents dans la scène : L xp = ∑a j =1 pj sj , L ∑a j =1 pj = 1, (1) où xp= [xp(1), xp(2), …, xp(N)] et sj = [sj(1), sj(2), …, sj(N)] sont deux vecteurs lignes, représentant respectivement le spectre observé au niveau du pixel p, et le spectre du jème composant pur. Le scalaire positif apj représente l’abondance du jème composant pur dans le pixel p. La somme des abondances des composants purs présents dans le même pixel est bien entendu égale à 1. Une approche classique pour le mélange linéaire instantané consiste à transférer les observations dans un système qui inverse la matrice de mélange A afin de restaurer les sources. La difficulté provient du fait que la matrice de mélange est inconnue, ce qui revient à inverser une matrice inconnue. Cette difficulté nous amène à déterminer une estimation Â-1 de l’inverse de la matrice de mélange A-1, pour en déduire par la suite une estimation des sources en transférant les observations dans le système qui réalise la matrice Â-1. On obtient alors : y = Â-1x = Â-1As = ŝ ≈ s. (3) III. SEPARATION AVEUGLE DE SOURCES L’approche dite de séparation aveugle de sources consiste à restaurer des signaux sources sj à partir de signaux mélangés xi (appelés aussi observations). De manière générale, ces observations peuvent provenir de capteurs, tels que des microphones, des antennes radiofréquences, des capteurs CCD… Le mélange entre les signaux sources est dû à la propagation de ces derniers jusqu’aux capteurs. L’objectif est donc de construire un système capable de fournir des sorties yj égales aux signaux sj (à des indéterminations près) [7]. La configuration générale pour la séparation de sources est représentée en Fig. 4. Le mot « aveugle » provient du fait que les sources et les paramètres du mélange sont inconnus. Fig.4 Configuration générale pour la séparation de sources La SAS possède plusieurs degrés de difficulté. Divers paramètres sont à prendre en considération. Le premier paramètre est le nombre K d’observations par rapport au nombre L de sources. Intuitivement, on conçoit aisément que le cas (sur)déterminé : K=L (K>L) est plus simple à résoudre que le cas sous-déterminé : K<L, car les observations fournissent une information plus riche dans le cas (sur)déterminé. Le deuxième paramètre concerne le type de mélange. Le cas le plus étudié à ce jour est le mélange linéaire instantané : x = As, (2) où x = [x1, …, xK]T et s = [s1, …, sL]T sont deux vecteurs colonnes, représentant respectivement l’ensemble des signaux d’observations et l’ensemble des signaux sources, et A est une matrice constante inconnue dite de mélange. Fig.5 Approche classique pour les mélanges linéaires L’estimation de A-1 ou d’une grandeur associée (par exemple A pour en déduire ensuite une estimation de A-1) est faite à partir des seules observations en utilisant les seules hypothèses faites sur les sources. Les méthodes de séparation de sources les plus utilisées sont fondées sur l’Analyse en Composantes Indépendantes (ACI). Elles supposent l’indépendance statistique des sources. Ainsi, le système de séparation fournit une solution unique avec des sorties indépendantes (à des indéterminations d’échelle et de permutation près, détaillées ci-dessous). Une autre approche basée sur la Factorisation en Matrices Nonnégatives (FMN), et qui suppose la non négativité des sources et des coefficients de mélange permet de résoudre le problème de séparation de sources. Mais les méthodes de FMN les plus simples souffrent du problème de la non unicité de la solution. L’unicité (aux permutations et facteurs d’échelle positifs près) n’est obtenue que sous certaines conditions supplémentaires [4]. Dans l’approche d’ACI citée précédemment, on peut distinguer les indéterminations suivantes : • La contrainte d’indépendance est vérifiée non seulement dans le cas où les sorties sont égales aux sources, mais aussi dans le cas où elles correspondent à une version permutée des sources. • Cette contrainte d’indépendance reste vérifiée dans le cas où les sorties sont proportionnelles aux sources. Bien que fondée sur des principes différents, la FMN conduit elle aussi à des indéterminations de permutation et de facteurs d’échelle (mais ces derniers peuvent alors être réduits à des facteurs positifs). Journées d’Animation Scientifique (JAS09) de l’AUF Alger Novembre 2009 IV. ANALYSE EN COMPOSANTES INDEPENDANTES L’analyse en composantes indépendantes peut être vue comme un prolongement de l’Analyse en Composantes Principales (ACP), mais dans lequel la non corrélation est remplacée par une hypothèse d’indépendance statistique et de non-Gaussianité des sources pour les méthodes d’ACI les plus classiques, tandis que certaines méthodes d’ACI exploitent l’autocorrélation ou la non-stationnarité des sources. Les méthodes d’ACI qui n’exploitent que la non-Gaussianité exigent que toutes les sources soient non-Gaussiennes sauf une au plus [7]. En effet, dans le cas Gaussien, la décorrélation des sorties ou l’ACI ne garantissent pas la restitution des sources. Dans le cas non-Gaussien et dans le cadre d’un mélange linéaire instantané et déterminé, Comon [3] a démontré que l’ACI est équivalente à la SAS. L’ACI d’un vecteur aléatoire x ∈ RK consiste à estimer le modèle génératif de données x=As, avec A ∈ RK x K, de telle manière que les composantes de s ∈ RL soient aussi indépendantes que possible. Le vecteur s a des composantes mutuellement indépendantes si et seulement si la densité de probabilité conjointe f(s) est factorisable par les densités de probabilité marginales fj(sj) : L f(s) = ∏f j ( s j (t )) . (4) j =1 Les sources sj ne sont pas directement observables et leurs densités de probabilité fj(sj) sont rarement connues. Il est donc difficile d’utiliser la définition d’indépendance (4) pour estimer les sources indépendantes. Cette difficulté nous impose la définition d’une mesure de l’indépendance statistique. Une mesure permettant de caractériser directement l’indépendance entre des variables aléatoires est l’« information mutuelle ». Cette quantité définie dans [7] vaut zéro lorsque les variables aléatoires sont indépendantes et est positive sinon, ce qui nous donne un moyen de mesurer l’indépendance entre les variables aléatoires. Les méthodes d’ACI basées sur cette mesure, minimisent l’information mutuelle entre les sorties du système d’ACI. La non-Gaussianité est un critère qui peut être aussi utilisé pour mesurer l’indépendance statistique. L’algorithme « FastICA » [6, 7], repose sur la maximisation de ce critère. Les mesures de la non-Gaussianité les plus couramment utilisées sont la valeur absolue du « kurtosis normalisé » et la « néguentropie » issue de la théorie de l’information. On trouve aussi dans la littérature d’autres algorithmes permettant de résoudre le problème de la séparation dans le cadre des mélanges linéaires instantanés. Ces algorithmes reposent sur la diagonalisation conjointe approchée de plusieurs matrices/tenseurs par une matrice unitaire [7]. Parmi ces algorithmes, on peut citer « JADE » (Joint Approximate Diagonalization of Eigen-matrices) [2]. Ce dernier réalise la séparation par la diagonalisation conjointe approchée de tenseurs de cumulants. Un deuxième algorithme appelé « SOBI » (Second Order Blind Identification) [1] repose sur la même philosophie que l’algorithme « JADE », mais en n’utilisant que les statistiques d’ordre deux (matrices de covariance avec retard), avec pour seules hypothèses : les sources sont mutuellement non corrélées et chacune possède une autocorrélation qui lui est propre. L’ACI nécessite dans certains cas, deux prétraitements : « centrage » et « blanchiment » des observations. Le premier prétraitement consiste à imposer une moyenne nulle aux composantes du vecteur des observations, le second consiste à décorréler et à imposer une variance unité aux composantes du vecteur des observations centrées. V. FACTORISATION EN MATRICES NON-NEGATIVES La factorisation en matrices non-négatives est une méthode de réduction dimensionnelle introduite en 1999 par Lee et Seung [9]. Initialement, la FMN a été formulée en traitement d’images pour la reconnaissance des visages. La factorisation en matrices non-négatives permet d’approximer toute matrice V ∈ RK x N dont les éléments sont tous non-négatifs (positifs ou nuls), grâce à une décomposition de la forme [9] : V ≈ W H, (5) où W et H sont deux matrices qui appartiennent respectivement à RK x L et RL x N avec L ≤ K ou N. Dans le cas de la séparation aveugle de sources, la matrice W est la matrice de mélange, et la matrice H est la matrice composée des sources. L’originalité de la FMN réside dans la contrainte de non négativité qu’elle impose à W et H. Déterminer les matrices W et H revient à minimiser une fonction objective de la matrice initiale V et du produit des deux matrices W et H. Lee et Seung [10] ont proposé deux méthodes basées sur la minimisation de deux fonctions objectives différentes, sous la contrainte de non-négativité. C’est un problème d’optimisation non trivial que les deux auteurs proposent de résoudre en initialisant les deux matrices W et H aléatoirement, puis en alternant des règles de mise à jour multiplicatives [10]. La première méthode est basée sur la minimisation de la « distance euclidienne » entre V et WH, la seconde est basée sur la minimisation de leur divergence de « Kullback-Leibler ». D’un point de vue géométrique, et d’après Donoho et Stodden [4], la FMN consiste à trouver un cône appartenant à l’orthant positif (l’orthant positif est l’extension de la notion du quart de plan positif dans un espace de dimension supérieure) qui englobe les composantes du vecteur de données observées. De ce point de vue, le cône englobant les composantes du vecteur de données observées n’est pas unique sans contraintes supplémentaires. Une illustration en deux dimensions est donnée en Fig. 6. Journées d’Animation Scientifique (JAS09) de l’AUF Alger Novembre 2009 Avec une convention d’écriture évidente, nous aboutissons à l’équation suivante : ⎛ x1 ⎜ ⎜ M ⎜x ⎝ K ⎞ ⎛ a11 ⎟ ⎜ ⎟=⎜ M ⎟ ⎜a ⎠ ⎝ K1 ... O ... a1 L ⎞ ⎛ s1 ⎞ ⎟⎜ ⎟ M ⎟.⎜ M ⎟ ⇔ x = As . a KL ⎟⎠ ⎜⎝ s L ⎟⎠ (8) Nous appelons alors « sources » les réflectances des composants purs (chaque ligne de s correspond au spectre d’un composant pur). Les réflectances des pixels de l’image constituent les « observations » (chaque ligne de x correspond au spectre d’un pixel). Fig. 6 Différents cônes englobant les composantes d’un vecteur de données observées. À partir de l’interprétation géométrique (Fig. 6), il apparaît que la factorisation en matrices non-négatives n’est pas unique. En effet, tout couple de matrices (W, H) vérifiant l’approximation (5) constitue une solution pour la FMN, en particulier pour toute matrice diagonale non négative et inversible T, le couple (WT-1, TH) est aussi une approximation non-négative qui vérifie (5) : ~ ~ V ≈ W H = (WT-1) (TH) = W H . (6) Une condition nécessaire d’unicité donnée par Donoho et Stodden [4] est : les données ne doivent pas obéir à une contrainte de stricte positivité. VI. APPLICATION DE LA SAS EN TELEDETECTION HYPERSPECTRALE Dans cette section, nous ne donnons pas de résultats expérimentaux : il est question seulement de présenter une modélisation des données considérées et les perspectives d’utilisation des méthodes de SAS en télédétection hyperspectrale. Il s’agit d’envisager la faisabilité de l’application des méthodes de SAS pour le traitement des données hyperspectrales, et notamment pour résoudre le problème du mélange spectral. La question qui se pose est la suivante : conformément à la terminologie de la SAS, qu’appelle-t-on « observations », et qu’appelle-t-on « sources » en télédétection hyperspectrale ? À partir du modèle de mélange linéaire, et lorsqu’une image composée de K pixels est prise dans N bandes spectrales, avec la présence de L composants purs, nous écrivons : ⎛ x1 ( 1 ) ... ⎜ O ⎜ M ⎜ x ( 1 ) ... ⎝ K x1 ( N ) ⎞ ⎛ a 11 ⎟ ⎜ M ⎟=⎜ M x K ( N ) ⎟⎠ ⎜⎝ a K 1 ... O ... a 1 L ⎞ ⎛ s1 ( 1 ) ... ⎟⎜ M ⎟ .⎜ M O a KL ⎟⎠ ⎜⎝ s L ( 1 ) ... s1 ( N ) ⎞ ⎟ M ⎟ s L ( N ) ⎟⎠ . (7) 6.1. Résolution par ACI À partir de la modélisation (8), l’utilisation de l’analyse en composantes indépendantes pour résoudre le problème du mélange spectral paraît bien adaptée, sous réserve de prendre en considération l’hypothèse de l’indépendance statistique des sources. En effet, le caractère indépendant des sources n’est pas toujours vérifié puisque les spectres de composants différents de la même classe (classe végétation par exemple), peuvent avoir de grandes similitudes. Une approche envisageable pour résoudre ce problème consiste à appliquer une transformation linéaire aux observations. Les observations transformées ainsi obtenues sont des mélanges linéaires instantanés des sources transformées, suivant la même matrice de mélange A que les signaux initiaux. Sous réserve qu’il existe une transformation qui fournisse des sources transformées indépendantes, les méthodes d’ACI peuvent être appliquées aux signaux ainsi transformés afin de déterminer la matrice de mélange A. De plus, d’un point de vue applicatif, l’ACI est habituellement utilisée pour un nombre d’observations réduit, alors que dans notre configuration, le nombre d’observations (nombre de pixels dans l’image) est relativement élevé, ce qui peut engendrer un coût calculatoire très important. Pour pallier ce problème, la réduction de l’espace de travail (de préférence par ACP, ou à défaut par prélèvement de quelques pixels sur l’image par exemple) est préconisée. La dimension de l’espace après cette réduction doit toutefois rester supérieure ou égale au nombre de sources. 6.2. Résolution par FMN Dans les applications de télédétection spatiale, les données images possèdent la propriété de non-négativité. Les solutions estimées par ACI ne vérifient pas nécessairement cette condition et peuvent donc manquer d’interprétabilité physique. Dans ce cas, les méthodes respectant le caractère non-négatif des images sont préférables. Partant de ce constat, et à partir de l’hypothèse de la linéarité du modèle de mélange, l’utilisation de la factorisation en matrices non-négatives paraît intéressante. Néanmoins, comme nous l’avons souligné dans la section V, la FMN souffre d’un problème majeur, celui de la non unicité de la solution. Dans ce cas, l’ajout de contraintes supplémentaires est préconisé. Journées d’Animation Scientifique (JAS09) de l’AUF Alger Novembre 2009 Par ailleurs, et malgré sa simplicité de mise en œuvre, l’algorithme de FMN de Lee et Seung initialisé aléatoirement converge parfois lentement pour des données volumineuses. Un choix adéquat de l’initialisation de cet algorithme pour une convergence rapide vers une solution qui résout le problème de la SAS est envisageable. Divers algorithmes de FMN plus performants que celui de Lee et Seung ont par ailleurs été introduits et devront être privilégiés. VII. CONCLUSION Dans cet article, la séparation aveugle de sources en télédétection hyperspectrale, sa faisabilité et ses perspectives ont été abordées. Ainsi, les fondements théoriques de la SAS et son application pour le traitement des images hyperspectrales ont été mis en évidence. Les perspectives concernant son application par ACI ou par FMN pour la résolution du problème du mélange spectral, l’extraction des spectres des composants purs et leurs abondances ont été abordées. VIII. RÉFÉRENCES [1] A. Belouchrani, K. Abed Meraim, J-F. Cardoso, E. Moulines, “A Blind Source Separation Technique Using Second-Order Statistics,” IEEE Trans. on Signal Processing 45(2), pp. 434-444, 1997. [2] J. F. Cardoso, A. Souloumiac, “Blind beamforming for non gaussian signals,” IEE-proceedings-F 140(6), pp. 362-370, 1993. [3] P. Comon, “Independent Component Analysis, a new concept?” Signal Processing 36(3), pp. 287-314, 1994. Special issue on HigherOrder Statistics. [4] D. Donoho, V. Stodden, “When Does Non-Negative Matrix Factorization Give a Correct Decomposition into Parts?” In Proc. NIPS, Vol. 16, pp. 1141-1149, 2003. [5] C. Gobinet, E. Perrin, R. Huez, “Application of Nonnegative Matrix Factorization to Fluorescence Spectroscopy,” In Proc. EUSIPCO 2004, pp. 6-10, 2004. [6] A. Hyvärinen, E. Oja, “A Fast Fixed-Point Algorithm for Independent Component Analysis,” Neural Computation 9(7), pp. 1483-1492, 1997. [7] A. Hyvärinen, J. Karhunen, E. Oja, Independent Component Analysis, Wiley Interscience, 2001. [8] N. Keshava, J.F. Mustard, “Spectral Unmixing,” IEEE Signal Processing Mag., vol. 19, pp. 44-57, 2002. [9] D. D. Lee, H.S. Seung, “Learning the parts of objects by nonnegative matrix factorization,” Nature 401, pp. 788-791, 1999. [10] D.D. Lee, H.S. Seung, “Algorithms for Non-Negative Matrix Factorization,” Advances in Neural Information Processing Systems 13, pp. 556-562, MIT Press 2001.