Séparation de sources appliquée à un contenu ambisonique

CFA/VISHNO 2016
S´
eparation de sources appliqu´
ee `
a un contenu
ambisonique : localisation et extraction des champs
directs
M. Baqu´
ea, A. Gu´
erinaet M. Melonb
aOrange Labs, 4 rue du Clos Courtel, BP 91226, 35512 Cesson-C´
evign´
e Cedex, France
bLAUM - Universit´
e du Maine, Avenue Olivier Messiaen, 72085 Le Mans Cedex 9,
France
CFA 2016 / VISHNO11-15 avril 2016, Le Mans
177
Dans un pr´
ec´
edent article, il a ´
et´
e montr´
e que l’algorithme d’Analyse en Composantes Ind´
ependantes (ACI) appel´
e
Entropy Rate Bound Minimization (ERBM) permettait de localiser et d’extraire de mani`
ere aveugle des sources
sonores dans des contenus multicapteurs ambisoniques simul´
es num´
eriquement. Il a ´
et´
e´
egalement mis en ´
evidence
que cette d´
ecomposition du champ sonore restait eciente en pr´
esence de premi`
eres r´
eflexions et de r´
everb´
eration
tardive simul´
ees par lancer de rayons. Dans cet article, l’´
etude est prolong´
ee sur des signaux r´
eels enregistr´
es avec
un microphone ambisonique du march´
e dans des conditions acoustiques variables, de faiblement `
a moyennement
r´
everb´
erantes. L’application d’ERBM `
a ces signaux permet une localisation pr´
ecise des sources pr´
esentes dans
le m´
elange, quels que soient le temps de r´
everb´
eration et l’´
energie des premi`
eres r´
eflexions. Sur la base de cette
localisation, une ´
etape de formation de voie sous contrainte permet de r´
ealiser une s´
eparation des champs directs
associ´
es `
a chaque source, avec un score signal-sur-interf´
erence compris entre 10 et 25 dB.
1 Introduction
L’audio 3D est actuellement en pleine expansion :
formats de diusion avec Auro3D ou Dolby ATMOS,
codeurs nouvelle g´
en´
eration avec l’AC4 [1] ou MPEGH-3D
[2, 3] permettant de compresser et transporter ces nouveaux
formats. Et au centre, la question de la cr´
eation des contenus
devient pr´
egnante : notamment, comment capter et mixer des
sc`
enes sonores immersives r´
ealistes ? Le format multicanal
ambisonique et son extension aux ordres ´
elev´
es HOA [4]
(pour Higher Order Ambisonics), pr´
esente de multiples
avantages : il fournit une repr´
esentation spatiale du champ
sonore ind´
ependante du syst`
eme de restitution et permet
des transformations simples de la sc`
ene sonore comme la
rotation ou la focalisation. La captation de sc`
ene audio 3D
est facilit´
ee par la disponibilit´
e sur le march´
e d’un nombre
croissant de microphones ambisoniques -des sph`
eres de
capteurs avec une r´
esolution spatiale d´
ependant du nombre
de capsules- ouvrant la possibilit´
e d’enregistrer nativement
dans ce format.
En contre-partie au caract`
ere g´
en´
erique du format
HOA, la manipulation avanc´
ee comme le d´
eplacement,
l’att´
enuation, voire la suppression d’une source particuli`
ere
n’est pas imm´
ediate, ce qui limite les possibilit´
es de
l’ing´
enieur du son. La r´
ealisation de ce type de traitements
n´
ecessite une d´
ecomposition de la sc`
ene sonore en une
somme d’objets, appel´
es aussi sources sonores. L’Analyse
en Composantes Ind´
ependantes (ACI) apparaˆ
ıt alors comme
une approche pertinente pour r´
ealiser l’analyse de sc`
ene et
l’extraction des sources.
La premi`
ere partie de cet papier expose le formalisme
math´
ematique associ´
e`
a la s´
eparation de sources par ACI.
Les caract´
eristiques du syst`
eme de captation utilis´
e et les
conditions acoustiques des di´
erentes prises de son sont
ensuite d´
etaill´
ees. Enfin, les r´
esultats obtenus en terme de
localisation des sources et de rapport signal-sur-interf´
erence
sont discut´
es dans la derni`
ere partie.
2 Analyse en composantes ind´
epen-
dantes
Le cas th´
eorique d’un enregistrement HOA de Nsources
sonores en conditions an´
echo¨
ıques est repr´
esent´
e par
l’´
equation suivante :
xd(t)=Yd·s(t)=
N
X
i=1
Yd
i·si(t),(1)
o`
uxd(t) est le vecteur colonne des observations du champ
direct, s(t) le vecteur colonne des Nsources sonores et Yd
la matrice d’encodage HOA. Pour un microphone id´
eal et
des sources susamment lointaines, chaque colonne Yd
ide
la matrice Yd, qui est alors une matrice de gain, contient les
coecients d’encodage HOA onde plane de la source i:
Yd
i=
Y1
00 (W)
Y1
11 (X)
Y1
11 (Y)
Y1
10 (Z)
Y1
22 (U)
...
i
=
1
3 cos θicos φi
3 sin θicos φi
3 sin φi
53
2cos 2θicos2φi
...
,(2)
o`
u le couple (θi, φi) repr´
esente la position en coordonn´
ees
sph´
eriques de la source irelativement au microphone et Yσ
mn
est la fonction harmonique sph´
erique d’ordre met de degr´
e
σn.
Sous l’hypoth`
ese d’ind´
ependance des sources, et dans le
cas o`
u le nombre d’observations est sup´
erieur au nombre de
sources, la matrice Bd, d´
efinie comme la pseudo-inverse de
Yd, peut ˆ
etre identifi´
ee par des m´
ethodes d’ACI.
L’extraction des sources estim´
ees ˆ
s(t) est alors eectu´
ee
suivant l’Eq. 3 :
ˆ
s(t)=Bd·x(t) (3)
Dans l’article [5], il a ´
et´
e montr´
e que des approches
classiques telles que JADE [6], EFICA [7] ou encore
des algorithmes plus r´
ecents comme ERBM [8], peuvent
r´
esoudre ce probl`
eme de s´
eparation de sources en identifiant
correctement Bd.
Un cas plus r´
ealiste peut ˆ
etre mod´
elis´
e en consid´
erant les
signaux enregistr´
es xcomme la somme des contributions du
champ direct xddonn´
e par l’´
equation 1, du champ r´
everb´
er´
e
xrcompos´
e de premi`
eres r´
eflexions hautement corr´
el´
ees
avec le champ direct et d’un r´
everb´
eration tardive d´
ecorr´
el´
ee,
repr´
esent´
e par l’´
equation suivante :
x(t)=xd(t)+xr(t) (4)
Dans [5], il a ´
et´
e montr´
e que, sur des signaux contenant
un champ r´
everb´
er´
e simul´
e par lancer de rayons, les
algorithmes classiques comme JADE ou EFICA ´
echouent
`
a identifier Bd, principalement `
a cause des 1`
eres r´
eflexions
corr´
el´
ees avec leurs champs directs respectifs. Ces r´
eflexions
peuvent ˆ
etre consid´
er´
ees comme des sources secondaires,
l’hypoth`
ese d’ind´
ependance des sources n’est donc plus
respect´
ee.
L’approche classique pour eectuer la s´
eparation
compl`
ete est de consid´
erer le m´
elange convolutif et
de travailler en bandes de fr´
equences, ce qui permet
d’identifier une matrice de m´
elange (complexe) propre `
a
CFA 2016 / VISHNO 11-15 avril 2016, Le Mans
178
chaque sous-bande. Cependant, si cette approche permet
th´
eoriquement de traiter des m´
elanges r´
everb´
erants,
elle soure g´
en´
eralement d’artefacts audibles lors de la
reconstruction des signaux pleine-bande. De plus, lorsque
l’on vise des applications comme la r´
eorganisation de la
sc`
ene sonore (ou l’´
egalisation des niveaux des di´
erentes
sources), il n’est pas n´
ecessaire d’isoler la contribution
totale de chaque source : seul le premier front d’onde est
n´
ecessaire. En eet, l’eet de pr´
ec´
edence nous indique que
la localisation d’une source sonore par l’auditeur d´
epend
principalement de la direction d’arriv´
ee du premier front
d’onde. Aussi, l’extraction du champs direct de chaque
source est une condition susante pour pouvoir eectuer
une manipulation spatiale des objets qui soit coh´
erente du
point de vue de l’auditeur [9].
Aussi, la d´
ecomposition en objets pour ce type
d’application peut se restreindre `
a tenter d’estimer
uniquement la matrice de m´
elange Bd, sans avoir `
a
proc´
eder `
a une d´
econvolution.
Dans [5], il a ´
et´
e montr´
e que, sur des eets de
salle simul´
es, l’algorithme ERBM ´
etait toujours capable
d’identifier la matrice Bd. La seule contrainte est que
le retard de la premi`
ere r´
eflexion par rapport au champ
direct soit sup´
erieur `
a 3-4 millisecondes, ce qui n’est pas
probl´
ematique en pratique tant que le microphone n’est pas
plac´
e trop proche d’une surface r´
efl´
echissante. On se propose
ici d’´
etendre l’´
etude au cas r´
eel de signaux enregistr´
es avec
un microphone ambisonique, l’EigenmikeTM, ne pr´
esentant
donc pas un encodage parfait et de mesurer l’impact de
l’erreur d’encodage d’une part sur la localisation des
sources, et d’autre part sur la s´
eparation des sources. Le
paragraphe suivant s’attache `
a caract´
eriser le microphone,
notamment sa d´
eviation dans les basses fr´
equences par
rapport `
a un encodage parfait.
3 Limites d’un microphone ambi-
sonique r´
eel
3.1 Imperfections microphoniques
Le microphone Eigenmike (Fig. 1) utilis´
e ici est compos´
e
d’un sph`
ere rigide de 8.4 cm de diam`
etre sur laquelle sont
dispos´
ees 32 capsules omnidirectionnelles r´
eguli`
erement
espac´
ees, `
a partir desquelles peuvent ˆ
etre g´
en´
er´
ees 25
fonctions de directivit´
e (ambisonie `
a l’ordre 4).
Figure 1 – Microphone Eigenmike
Quatre d’entre-elles sont repr´
esent´
ees en fonction de
la fr´
equence sur la Fig. 2 : La composante n1 (ordre
0 omnidirectionnel), les composantes n2 et n3 (deux
premi`
eres fonctions harmoniques sph´
eriques d’ordre 1), et la
composante n5 (premi`
ere harmonique sph´
erique d’ordre 2).
La premi`
ere limitation, li´
ee au repliement spatial,
impacte les hautes fr´
equences, et plus pr´
ecis´
ement les
longueurs d’onde inf´
erieures `
a deux fois la distance inter-
capteurs. Dans le cas de l’Eigenmike, cela fixe la limite
haute de la bande de validit´
e de l’encodage ambisonique du
microphone `
a environ 8 kHz. Cette limitation est mise en
´
evidence par les directivit´
es `
a 10 kHz des di´
erents ordres,
qui s’´
eloignent sensiblement des profils th´
eoriques donn´
es
par les courbes `
a 1 kHz.
L’autre limitation, qui d´
epend de l’ordre, impacte
l’estimation des harmoniques sph´
eriques dans les basses
fr´
equences. L’estimation des harmoniques n´
ecessite
de calculer des gradients entre des capsules et/ou des
directivit´
es, gradients qui sont tr`
es faibles pour des longueurs
d’onde grandes devant la taille du r´
eseau de capsules. Il
en r´
esulte une estimation particuli`
erement bruit´
ee qui se
d´
egrade avec l’ordre comme illustr´
e sur les courbes `
a 200 Hz
de la Fig. 2. Sur les 3 premiers cadrans, on observe une
l´
eg`
ere d´
eviation des directivit´
es d’ordre 0 et 1 `
a 200 Hz
par rapport `
a la directivit´
e id´
eale repr´
esent´
ee ici par celle `
a
1 kHz : cercle pour l’ordre 0 (canal omnidirectionnel), figure
de 8 pour l’ordre 1. Quant `
a l’ordre 2 (cadran bas-droit de la
Fig. 2), la directivit´
e`
a 200 Hz ne correspond plus `
a la forme
id´
eale en tr`
efle `
a 4 feuilles.
20
40
30
210
60
240
90
270
120
300
150
330
180 0
Composante n°1
200Hz
1000Hz
10000Hz
10
20
30
40
30
210
60
240
90
270
120
300
150
330
180 0
Composante n°2
200Hz
1000Hz
10000Hz
10
20
30
40
30
210
60
240
90
270
120
300
150
330
180 0
Composante n°3
200Hz
1000Hz
10000Hz
10
20
30
40
30
210
60
240
90
270
120
300
150
330
180 0
Composante n°5
200Hz
1000Hz
10000Hz
Figure 2 – Directivit´
es des composantes ambisoniques
synth´
etis´
ees dans le plan azimutal pour di´
erents ordres et
di´
erentes fr´
equences
D’apr`
es l’expression trigonom´
etrique des coecients
d’encodage (Eq.2) et l’expression g´
en´
erale des fonctions
harmoniques sph´
eriques d’ordres sup´
erieurs, on ´
etablit la
relation suivante que l’on nomme crit`
ere d’encodage onde
plane :
cop =(2m0+1) ·Pnσ(Yσ
mn,i)2
(2m+1) ·Pnσ(Yσ
m0n,i)2(5)
qui est suppos´
ee ˆ
etre ´
egale `
a 1 pour tous les ordres met
m0. L´
eloignement de cop de sa valeur th´
eorique permet de
quantifier la d´
eviation de l’encodage microphonique par
rapport `
a un encodage parfait. Un indicateur similaire est
´
egalement utilis´
e dans [10].
En prenant comme r´
ef´
erence le coecient d’encodage
omnidirectionnel (ordre 0), on observe sur la Fig. 3 que la
limite basse de validit´
e de l’encodage microphonique est bien
fonction de l’ordre : environ 200 Hz pour l’ordre 1, 800 Hz
pour les ordres 2 et 3, 1500 Hz pour l’ordre 4 tandis que la
limite haute se situe `
a environ 8 kHz pour tous les ordres.
CFA 2016 / VISHNO11-15 avril 2016, Le Mans
179
102103104
0
1
2
3
4
5
6
Critère onde plane
Fréquence (Hz)
Ordre 1
Ordre 2
Ordre 3
Ordre 4
Figure 3 – Crit`
ere onde plane cop de l’Eigenmike en
fonction de la fr´
equence et de l’ordre. Source `
a la position
angulaire (0,0).
3.2 Cons´
equence sur la d´
ecomposition en
objets
La d´
ecomposition ou s´
eparation qui est formalis´
ee par
l’´
equation 3 peut ˆ
etre interpr´
et´
ee comme une op´
eration
de beamforming : la i`eme ligne permet d’extraire la i`eme
source par une formation de voie sous-contrainte consistant
`
a placer des z´
eros dans la direction des sources interf´
erentes
tout en conservant un gain unit´
e dans la direction de la
source d’int´
erˆ
et. Ainsi, l’exploitation des ordres sup´
erieurs
fournis par l’Eigenmike pour faire une d´
ecomposition par
formation de voie apparaˆ
ıt au premier abord int´
eressante
car cela permet i) de former des lobes plus fins qu’`
a l’ordre
1 et donc d’avoir une meilleure r´
esolution spatiale, ii) de
fiabiliser l’analyse et de s´
eparer plus de sources grˆ
ace `
a
un plus grand nombre d’observations. Cependant, les Fig.
2 et 3 montrent que l’encodage des ordres sup´
erieurs ou
´
egal `
a 2 est fluctuant en dessous de 1 kHz et n´
ecessite une
approche en sous-bandes pour s´
eparer des sources dans cette
zone de fr´
equence. Aussi, on se limitera ici `
a utiliser l’ordre
1 (4 canaux ambisoniques) qui pr´
esente des directivit´
es
quasi-constantes dans la bande [200 Hz-8 kHz]. Dans le
paragraphe suivant, une description des environnements
acoustiques r´
everb´
erants dans lesquels ont ´
et´
e capt´
es les
contenus est eectu´
ee.
4 Base de donn´
ees
La base de donn´
ees de signaux ambisoniques a ´
et´
e
g´
en´
er´
ee par convolution de sources de voix mono avec des
SRIR (Spatial Room Impulse Response) mesur´
ees `
a l’aide
du microphone Eigenmike. Celui-ci a ´
et´
e dispos´
e au centre
d’une salle, avec ou sans traitement acoustique comme
pr´
esent´
e sur les Fig. 4 et 5. Ces salles poss`
edent des TR60
de respectivement 120 et 360 ms. La salle r´
everb´
erante,
en d´
epit de son TR60 relativement faible dˆ
u`
a son faible
volume (60 m3), pr´
esente des premi`
eres r´
eflexions tr`
es
´
energ´
etiques dues aux surfaces vitr´
ees. A l’aide de haut-
parleurs dispos´
es dans la salle et pr´
ealablement ´
egalis´
es, 8
jeux de SRIR dans le plan horizontal ont ´
et´
e mesur´
ees aux
angles [0,±45,±90,±135,180] pour la cr´
eation des
contenus ambisoniques.
Figure 4 – Salle mate - TR60 =120 ms
Figure 5 – Salle r´
everb´
erante - TR60 =360 ms
Les signaux de parole utilis´
es pour les simulations ont
´
et´
e normalis´
es et ´
echantillonn´
es `
a 16 kHz, les directivit´
es de
l’Eigenmike n’´
etant pas valides au-dessus de 8 kHz. Chaque
source est convolu´
ee par le jeu de SRIR correspondant `
a
la direction d’arriv´
ee souhait´
ee, puis les contributions de
toutes les sources sont additionn´
ees pour g´
en´
erer la sc`
ene
ambisonique compl`
ete. Dans cet article, nous consid´
erons le
cas d’un m´
elange de 3 sources de parole dont les directions
d’arriv´
ee sont donn´
ees dans le Tableau 1.
Tableau 1 – Directions d’arriv´
ee des sources de parole
azimuth ()´
el´
evation ()
source 1 0 0
source 2 135 0
source 3 -45 0
Le paragraphe ci-apr`
es pr´
esente les performances de la
d´
ecomposition en objets du champ sonore capt´
e`
a l’aide
d’ERBM.
5 D´
ecomposition en objets des conte-
nus ambisoniques
Comme pr´
ecis´
e dans la section 2, on va donc s’int´
eresser
ici `
a l’estimation de la matrice de gains Bd. Dans le cas
d’un microphone r´
eel, la matrice Ydest une matrice de
filtres, n´
eanmoins dans la bande de fr´
equences de validit´
e
de l’encodage microphonique on peut raisonnablement
l’approcher par une matrice de gains.
CFA 2016 / VISHNO 11-15 avril 2016, Le Mans
180
5.1 L’algorithme ERBM
L’algorithme ERBM est d´
eriv´
e d’EBM (Entropy Bound
Minimization) [11], m´
ethode d’ACI qui recherche la
matrice de s´
eparation ˆ
Bminimisant l’entropie des sources
estim´
ees ˆsi(t) normalis´
ees. Le calcul de l’entropie n´
ecessite
la connaissance de la densit´
e de probabilit´
e des signaux `
a
extraire, densit´
e non connue a priori. Aussi, EBM se base sur
un ensemble de couples de fonctionnelles d´
erivables (Vk,Gk)
pour estimer une entropie maximale Hk( ˆsi(t)) adapt´
ee `
a
di´
erentes distributions : paire/impaire, unimodale/bi-
modale, etc. Pour chaque couple de fonctions, l’entropie
maximale est donn´
ee par :
Hk( ˆsi)=0.5 log(2πe)Vk(E[Gk( ˆsi)]),(6)
o`
uE[.] est l’op´
erateur esp´
erance, 0.5 log(2πe) l’entropie d’un
signal gaussien de variance unit´
e et les fonctions Gksont
un ensemble d’estimateurs statistiques des signaux (kurtosis,
variance, etc). La matrice ˆ
Best estim´
ee de mani`
ere it´
erative
par l’algorithme du gradient, en choisissant le couple (Vk,Gk)
fournissant la borne d’entropie la plus faible.
ERBM, pour Entropy Rate Bound Minimization, est
une am´
elioration d’EBM propos´
ee par Li et Adali pour des
sources color´
ees [8]. Les sources sont consid´
er´
ees comme
des processus auto-r´
egressifs (AR) excit´
es par des bruits
ind´
ependants et identiquement distribu´
es. Ce mod`
ele, bien
que grossier, notamment en ce qui concerne l’excitation, est
un bon pr´
edicteur pour les signaux vocaux et musicaux. Dans
ERBM, les param`
etres AR de chaque source sont estim´
es
`
a chaque it´
eration du gradient et utilis´
es pour blanchir les
signaux de sortie. EBM est alors appliqu´
e aux signaux
blanchis, la matrice de s´
eparation et les param`
etres AR sont
ensuite optimis´
es alternativement jusqu’`
a une convergence
de l’algorithme. Il a ´
et´
e observ´
e dans [5] que le blanchiment
op´
er´
e par ERBM permettait de rendre le champ direct plus
ind´
ependant de ses r´
eflexions, et fiabilisait, en pr´
esence d’un
champ r´
everb´
er´
e simul´
e, l’estimation de la matrice Bd, en
s’aranchissant de l’influence des premi`
eres r´
eflexions.
5.2 Impl´
ementation
Dans le but d’une utilisation temps-r´
eel, l’algorithme
ERBM est impl´
ement´
e trame-`
a-trame, en d´
ecomposant
le champ ambisonique en trames de 500 ms, avec un
recouvrement de 50%, et en estimant une matrice de
s´
eparation ˆ
Bkpour chaque trame k. Pour r´
esoudre les
ambigu¨
ıt´
es de signe, d’amplitude et de permutation
inh´
erentes aux m´
ethodes de s´
eparation aveugle de
sources, on utilise les informations d´
erivant de l’encodage
ambisonique.
En pratique, on utilise la matrice de mixage estim´
ee
ˆ
Yd
k=ˆ
B1
k, o`
u chaque colonne contient l’expression
des coecients d’encodage d’une source estim´
ee. Les
ambigu¨
ıt´
es de signe et d’amplitude sont r´
esolues en
normalisant chaque colonne par son premier terme qui
est le gain estim´
e relatif au canal omnidirectionnel (W)
suppos´
e´
egal `
a 1. Les signaux sont extraits `
a partir de la
pseudo-inverse de cette matrice de m´
elange normalis´
ee.
L’ambigu¨
ıt´
e de permutation des signaux extraits de
la trame kest r´
esolue en recherchant les couples (i,j)
minimisant la distance L2entre les vecteurs ˆ
Yd
i,ket les
colonnes de la matrice d’encodage Yd
j. Les signaux de la
trame ksont alors permut´
es en cons´
equence.
La reconstruction des sources estim´
ees compl`
etes `
a partir
des sources estim´
ees par trame est r´
ealis´
ee par la m´
ethode
d’Overlap-and-Add, en utilisant des fenˆ
etres d’apodisation
d´
ependant du taux de recouvrement des trames et du
fenˆ
etrage ´
eventuel des signaux avant analyse.
5.3 Crit`
eres d’´
evaluation
On s’int´
eresse ici `
a la s´
eparation des champs directs des
di´
erentes sources. Pour ´
evaluer cette s´
eparation, on mesure
pour chaque trame un rapport signal-sur-interf´
erence (SIR),
ratio entre le champ direct de la source d’int´
erˆ
et extraite et
les champs directs r´
esiduels des sources interf´
erentes.
Pour chaque couple de sources (i,j), on d´
efinit SIRinput
ij et
SIRoutput
ij qui repr´
esentent les rapports signal sur interf´
erence
en entr´
ee et en sortie de l’algorithme de d´
ecomposition en
objets :
SIRinput
i j,k=10 log10
Ehsd
i(t)2ittrame k
Ehsd
j(t)2ittrame k
(7)
SIRoutput
i j,k=10 log10
Ehˆsd
i(t)2ittrame k
Ehˆsd
j in i(t)2ittrame k
(8)
o`
u E[.] est l’op´
erateur esp´
erance, kle num´
ero de la trame,
sd
i(t) le champ direct de la i`eme source, ˆsd
i(t) le champ direct
de la source idans le signal extrait ˆsi(t) et ˆsd
j in i(t) le r´
esidu
du champ direct de la source jdans la source extraite ˆsi(t),
i.e. apr`
es focalisation dans la direction de la source i.
La comparaison de SIRoutput et SIRinput est un indicateur
de la performance de la s´
eparation.
La localisation des sources estim´
ees est ´
egalement un
crit`
ere d’´
evaluation pertinent et directement li´
e`
a la matrice
de s´
eparation estim´
ee par l’´
etape d’ACI. Grˆ
ace au lien
direct entre les coecients d’encodage ambisoniques et la
direction d’arriv´
ee des sources (Eq. 2), on d´
eduit `
a chaque
trame kla direction d’arriv´
ee estim´
ee de chaque source en
utilisant les coecients d’encodage de l’ordre 1 donn´
ees par
la matrice ˆ
Yd
k(pour all´eger la notation, l’indice de trame k
est volontairement omis) :
ˆ
θi=tan1ˆ
Y1
11,i
ˆ
Y1
11,i
ˆ
φi=tan1
ˆ
Y1
10,i
q(ˆ
Y1
11,i)2+(ˆ
Y1
11,i)2
(9)
5.4 Performances
Pour un enregistrement eectu´
e dans la salle mˆ
ate
(Fig. 4), La Fig. 6 donne une repr´
esentation en diagramme
en boˆ
ıte des SIR en relatifs `
a l’extraction de la source 1,
c’est-`
a-dire pour les couples de sources (1,2) et (1,3).
Les limites des boˆ
ıtes sont d´
etermin´
ees par les 1er, 2`eme
(m´
ediane) et 3`eme quartiles, les moustaches d´
elimitant
l’intervalle contenant 99.3% des donn´
ees (hypoth`
ese d’une
distribution gaussienne).
Les rapports d’´
energie dans le contenu initial SIRinput
1j
(vert) montrent une distribution autour de la valeur
m´
ediane 0 dB, ce qui est logique car les sources de d´
epart
sont normalis´
ees. La variabilit´
e est due `
a la nature non-
stationnaire et intermittente des signaux de parole et `
a la
taille relativement faible de la trame d’analyse (500 ms).
CFA 2016 / VISHNO11-15 avril 2016, Le Mans
181
1 / 7 100%

Séparation de sources appliquée à un contenu ambisonique

La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !