5.1 L’algorithme ERBM
L’algorithme ERBM est d´
eriv´
e d’EBM (Entropy Bound
Minimization) [11], m´
ethode d’ACI qui recherche la
matrice de s´
eparation ˆ
Bminimisant l’entropie des sources
estim´
ees ˆsi(t) normalis´
ees. Le calcul de l’entropie n´
ecessite
la connaissance de la densit´
e de probabilit´
e des signaux `
a
extraire, densit´
e non connue a priori. Aussi, EBM se base sur
un ensemble de couples de fonctionnelles d´
erivables (Vk,Gk)
pour estimer une entropie maximale Hk( ˆsi(t)) adapt´
ee `
a
diff´
erentes distributions : paire/impaire, unimodale/bi-
modale, etc. Pour chaque couple de fonctions, l’entropie
maximale est donn´
ee par :
Hk( ˆsi)=0.5 log(2πe)−Vk(E[Gk( ˆsi)]),(6)
o`
uE[.] est l’op´
erateur esp´
erance, 0.5 log(2πe) l’entropie d’un
signal gaussien de variance unit´
e et les fonctions Gksont
un ensemble d’estimateurs statistiques des signaux (kurtosis,
variance, etc). La matrice ˆ
Best estim´
ee de mani`
ere it´
erative
par l’algorithme du gradient, en choisissant le couple (Vk,Gk)
fournissant la borne d’entropie la plus faible.
ERBM, pour Entropy Rate Bound Minimization, est
une am´
elioration d’EBM propos´
ee par Li et Adali pour des
sources color´
ees [8]. Les sources sont consid´
er´
ees comme
des processus auto-r´
egressifs (AR) excit´
es par des bruits
ind´
ependants et identiquement distribu´
es. Ce mod`
ele, bien
que grossier, notamment en ce qui concerne l’excitation, est
un bon pr´
edicteur pour les signaux vocaux et musicaux. Dans
ERBM, les param`
etres AR de chaque source sont estim´
es
`
a chaque it´
eration du gradient et utilis´
es pour blanchir les
signaux de sortie. EBM est alors appliqu´
e aux signaux
blanchis, la matrice de s´
eparation et les param`
etres AR sont
ensuite optimis´
es alternativement jusqu’`
a une convergence
de l’algorithme. Il a ´
et´
e observ´
e dans [5] que le blanchiment
op´
er´
e par ERBM permettait de rendre le champ direct plus
ind´
ependant de ses r´
eflexions, et fiabilisait, en pr´
esence d’un
champ r´
everb´
er´
e simul´
e, l’estimation de la matrice Bd, en
s’affranchissant de l’influence des premi`
eres r´
eflexions.
5.2 Impl´
ementation
Dans le but d’une utilisation temps-r´
eel, l’algorithme
ERBM est impl´
ement´
e trame-`
a-trame, en d´
ecomposant
le champ ambisonique en trames de 500 ms, avec un
recouvrement de 50%, et en estimant une matrice de
s´
eparation ˆ
Bkpour chaque trame k. Pour r´
esoudre les
ambigu¨
ıt´
es de signe, d’amplitude et de permutation
inh´
erentes aux m´
ethodes de s´
eparation aveugle de
sources, on utilise les informations d´
erivant de l’encodage
ambisonique.
En pratique, on utilise la matrice de mixage estim´
ee
ˆ
Yd
k=ˆ
B−1
k, o`
u chaque colonne contient l’expression
des coefficients d’encodage d’une source estim´
ee. Les
ambigu¨
ıt´
es de signe et d’amplitude sont r´
esolues en
normalisant chaque colonne par son premier terme qui
est le gain estim´
e relatif au canal omnidirectionnel (W)
suppos´
e´
egal `
a 1. Les signaux sont extraits `
a partir de la
pseudo-inverse de cette matrice de m´
elange normalis´
ee.
L’ambigu¨
ıt´
e de permutation des signaux extraits de
la trame kest r´
esolue en recherchant les couples (i,j)
minimisant la distance L2entre les vecteurs ˆ
Yd
i,ket les
colonnes de la matrice d’encodage Yd
j. Les signaux de la
trame ksont alors permut´
es en cons´
equence.
La reconstruction des sources estim´
ees compl`
etes `
a partir
des sources estim´
ees par trame est r´
ealis´
ee par la m´
ethode
d’Overlap-and-Add, en utilisant des fenˆ
etres d’apodisation
d´
ependant du taux de recouvrement des trames et du
fenˆ
etrage ´
eventuel des signaux avant analyse.
5.3 Crit`
eres d’´
evaluation
On s’int´
eresse ici `
a la s´
eparation des champs directs des
diff´
erentes sources. Pour ´
evaluer cette s´
eparation, on mesure
pour chaque trame un rapport signal-sur-interf´
erence (SIR),
ratio entre le champ direct de la source d’int´
erˆ
et extraite et
les champs directs r´
esiduels des sources interf´
erentes.
Pour chaque couple de sources (i,j), on d´
efinit SIRinput
ij et
SIRoutput
ij qui repr´
esentent les rapports signal sur interf´
erence
en entr´
ee et en sortie de l’algorithme de d´
ecomposition en
objets :
SIRinput
i j,k=10 log10
Ehsd
i(t)2it∈trame k
Ehsd
j(t)2it∈trame k
(7)
SIRoutput
i j,k=10 log10
Ehˆsd
i(t)2it∈trame k
Ehˆsd
j in i(t)2it∈trame k
(8)
o`
u E[.] est l’op´
erateur esp´
erance, kle num´
ero de la trame,
sd
i(t) le champ direct de la i`eme source, ˆsd
i(t) le champ direct
de la source idans le signal extrait ˆsi(t) et ˆsd
j in i(t) le r´
esidu
du champ direct de la source jdans la source extraite ˆsi(t),
i.e. apr`
es focalisation dans la direction de la source i.
La comparaison de SIRoutput et SIRinput est un indicateur
de la performance de la s´
eparation.
La localisation des sources estim´
ees est ´
egalement un
crit`
ere d’´
evaluation pertinent et directement li´
e`
a la matrice
de s´
eparation estim´
ee par l’´
etape d’ACI. Grˆ
ace au lien
direct entre les coefficients d’encodage ambisoniques et la
direction d’arriv´
ee des sources (Eq. 2), on d´
eduit `
a chaque
trame kla direction d’arriv´
ee estim´
ee de chaque source en
utilisant les coefficients d’encodage de l’ordre 1 donn´
ees par
la matrice ˆ
Yd
k(pour all´eger la notation, l’indice de trame k
est volontairement omis) :
ˆ
θi=tan−1ˆ
Y−1
11,i
ˆ
Y1
11,i
ˆ
φi=tan−1
ˆ
Y1
10,i
q(ˆ
Y1
11,i)2+(ˆ
Y−1
11,i)2
(9)
5.4 Performances
Pour un enregistrement effectu´
e dans la salle mˆ
ate
(Fig. 4), La Fig. 6 donne une repr´
esentation en diagramme
en boˆ
ıte des SIR en relatifs `
a l’extraction de la source 1,
c’est-`
a-dire pour les couples de sources (1,2) et (1,3).
Les limites des boˆ
ıtes sont d´
etermin´
ees par les 1er, 2`eme
(m´
ediane) et 3`eme quartiles, les moustaches d´
elimitant
l’intervalle contenant 99.3% des donn´
ees (hypoth`
ese d’une
distribution gaussienne).
Les rapports d’´
energie dans le contenu initial SIRinput
1j
(vert) montrent une distribution autour de la valeur
m´
ediane 0 dB, ce qui est logique car les sources de d´
epart
sont normalis´
ees. La variabilit´
e est due `
a la nature non-
stationnaire et intermittente des signaux de parole et `
a la
taille relativement faible de la trame d’analyse (500 ms).
CFA 2016 / VISHNO11-15 avril 2016, Le Mans
181