Journées d’Animation Scientifique (JAS09) de l’AUF Alger Novembre 2009
IV. ANALYSE EN COMPOSANTES INDEPENDANTES
L’analyse en composantes indépendantes peut être vue
comme un prolongement de l’Analyse en Composantes
Principales (ACP), mais dans lequel la non corrélation est
remplacée par une hypothèse d’indépendance statistique et
de non-Gaussianité des sources pour les méthodes d’ACI
les plus classiques, tandis que certaines méthodes d’ACI
exploitent l’autocorrélation ou la non-stationnarité des
sources. Les méthodes d’ACI qui n’exploitent que la
non-Gaussianité exigent que toutes les sources soient
non-Gaussiennes sauf une au plus [7]. En effet, dans le cas
Gaussien, la décorrélation des sorties ou l’ACI ne
garantissent pas la restitution des sources. Dans le cas
non-Gaussien et dans le cadre d’un mélange linéaire
instantané et déterminé, Comon [3] a démontré que l’ACI
est équivalente à la SAS.
L’ACI d’un vecteur aléatoire x
RK consiste à estimer le
modèle génératif de données x=As, avec A∈RK x K, de telle
manière que les composantes de s∈RL soient aussi
indépendantes que possible.
Le vecteur s a des composantes mutuellement
indépendantes si et seulement si la densité de probabilité
conjointe f(s) est factorisable par les densités de probabilité
marginales fj(sj) :
f(s) =∏
=
L
j
jj tsf
1
))(( . (4)
Les sources sj ne sont pas directement observables et leurs
densités de probabilité fj(sj) sont rarement connues. Il est
donc difficile d’utiliser la définition d’indépendance (4)
pour estimer les sources indépendantes. Cette difficulté
nous impose la définition d’une mesure de l’indépendance
statistique.
Une mesure permettant de caractériser directement
l’indépendance entre des variables aléatoires est
l’« information mutuelle ». Cette quantité définie dans [7]
vaut zéro lorsque les variables aléatoires sont indépendantes
et est positive sinon, ce qui nous donne un moyen de
mesurer l’indépendance entre les variables aléatoires. Les
méthodes d’ACI basées sur cette mesure, minimisent
l’information mutuelle entre les sorties du système d’ACI.
La non-Gaussianité est un critère qui peut être aussi utilisé
pour mesurer l’indépendance statistique. L’algorithme
« FastICA » [6, 7], repose sur la maximisation de ce critère.
Les mesures de la non-Gaussianité les plus couramment
utilisées sont la valeur absolue du « kurtosis normalisé » et
la « néguentropie » issue de la théorie de l’information.
On trouve aussi dans la littérature d’autres algorithmes
permettant de résoudre le problème de la séparation dans le
cadre des mélanges linéaires instantanés. Ces algorithmes
reposent sur la diagonalisation conjointe approchée de
plusieurs matrices/tenseurs par une matrice unitaire [7].
Parmi ces algorithmes, on peut citer « JADE » (Joint
Approximate Diagonalization of Eigen-matrices) [2]. Ce
dernier réalise la séparation par la diagonalisation conjointe
approchée de tenseurs de cumulants. Un deuxième
algorithme appelé « SOBI » (Second Order Blind
Identification) [1] repose sur la même philosophie que
l’algorithme « JADE », mais en n’utilisant que les
statistiques d’ordre deux (matrices de covariance avec
retard), avec pour seules hypothèses : les sources sont
mutuellement non corrélées et chacune possède une
autocorrélation qui lui est propre.
L’ACI nécessite dans certains cas, deux prétraitements :
« centrage » et « blanchiment » des observations. Le
premier prétraitement consiste à imposer une moyenne nulle
aux composantes du vecteur des observations, le second
consiste à décorréler et à imposer une variance unité aux
composantes du vecteur des observations centrées.
V. FACTORISATION EN MATRICES NON-NEGATIVES
La factorisation en matrices non-négatives est une méthode
de réduction dimensionnelle introduite en 1999 par Lee et
Seung [9]. Initialement, la FMN a été formulée en
traitement d’images pour la reconnaissance des visages.
La factorisation en matrices non-négatives permet
d’approximer toute matrice V∈RK x N dont les éléments sont
tous non-négatifs (positifs ou nuls), grâce à une
décomposition de la forme [9] :
V ≈ W H, (5)
où W et H sont deux matrices qui appartiennent
respectivement à RK x L et RL x N avec L ≤ K ou N.
Dans le cas de la séparation aveugle de sources,
la matrice W est la matrice de mélange, et la matrice H est la
matrice composée des sources.
L’originalité de la FMN réside dans la contrainte de non
négativité qu’elle impose à W et H. Déterminer les matrices
W et H revient à minimiser une fonction objective de la
matrice initiale V et du produit des deux matrices W et H.
Lee et Seung [10] ont proposé deux méthodes basées sur la
minimisation de deux fonctions objectives différentes, sous
la contrainte de non-négativité. C’est un problème
d’optimisation non trivial que les deux auteurs proposent de
résoudre en initialisant les deux matrices W et H
aléatoirement, puis en alternant des règles de mise à jour
multiplicatives [10]. La première méthode est basée sur la
minimisation de la « distance euclidienne » entre V et WH,
la seconde est basée sur la minimisation de leur divergence
de « Kullback-Leibler ».
D’un point de vue géométrique, et d’après Donoho et
Stodden [4], la FMN consiste à trouver un cône appartenant
à l’orthant positif (l’orthant positif est l’extension de la
notion du quart de plan positif dans un espace de dimension
supérieure) qui englobe les composantes du vecteur de
données observées. De ce point de vue, le cône englobant
les composantes du vecteur de données observées n’est pas
unique sans contraintes supplémentaires. Une illustration en
deux dimensions est donnée en Fig. 6.