TAB.1:Résultats du regroupement : système base vs. système VB I (nombre de groupes connu à priori) vs. système
VB II (initialisé avec 30 groupes)
File File 1 File 2 File 3 File 4
Ncacp asp K Ncacp asp K Ncacp asp NcK acp asp K
Baseline 8 0.60 0.84 0.71 14 0.76 0.67 0.72 16 0.75 0.74 0.75 21 0.72 0.65 0.68
VB system I 8 0.70 0.91 0.80 14 0.75 0.82 0.78 16 0.68 0.86 0.76 21 0.60 0.80 0.69
VB system II 16 0.81 0.88 0.85 14 0.84 0.81 0.82 14 0.75 0.90 0.82 9 0.53 0.81 0.66
5.2. Résultats
Dans cette section nous décrivons notre premier ensemble
d’expériences dans lequel le nombre de locuteurs est
connu a priori. Nous trouvons qu’imposer une contrainte
de durée de 100 trames (soit 1 sec) et 15 gaussiennes par
état suffit à garantir une identification robuste des locu-
teurs. Pour le système VB, nous utilisons les paramètres
suivants : λα0=λβ0=1,ρ0=¯
O,ξ0=1,Φ0= 200 et
ν0=goù gest la dimension, de l’espace acoustique et ¯
O
est la valeur moyenne des observations.
Dans un premier ensemble d’expériences, nous fixons le
nombre de groupes égal au nombre de locuteurs plus 1
pour tenir compte des trames non-parole comme en [3], et
ensuite nous entraînons le système en utilisant les appren-
tissages EM/ML et VB. Les résultats sont présentés aux
première et seconde lignes du tableau 1. Sur les deux pre-
miers enregistrements VB surpasse la méthode classique
EM/ML tandis que pour les deux derniers, les deux tech-
niques sont équivalentes. Nous pensons qu’il y a princi-
palement deux raisons pour expliquer les meilleures per-
formances de l’apprentissage VB par rapport à l’appren-
tissage EM /ML. D’une part, les paramètres finaux tirent
avantage de l’effet de régularisation venant des distribu-
tions a priori. D’autre part, le système VB converge pour
chaque locuteur vers un GMM qui peut avoir un nombre
de composantes moindre que le modèle original (15 com-
posantes dans notre cas) selon nombre d’observations par
locuteur. Il en résulte généralement une plus grande pureté
par locuteur comme le montre le tableau (1).
Dans un second jeu d’expériences, nous avons initia-
lisé le modèle avec un nombre élevé de groupes (30) et
avons laissé l’apprentissage VB réduire automatiquement
le nombre de groupes vers un nombre final de groupes in-
férieur. En réalité, dans les enregistrements HUB-4, il y
a énormément de segments non-parole qui influencent ra-
dicalement le regroupement. Pour les trois premiers enre-
gistrements, le système surpasse le système de base tan-
dis que pour le quatrième, les performances sont simi-
laires. Analysons les résultats enregistrement par enregis-
trement :
Enregistrement 1 : le nombre final de groupes est plus
élevé que le nombre réel de locuteurs ; de fait les groupes
excédentaires organisent les différents événements non-
parole. Le regroupement final montre une amélioration de
asp et acp.
Enregistrement 2 : le nombre final de groupes est proche
du nombre réel de locuteurs. On observe que cet enregis-
trement est très majoritairement composé d’événements
parole. Les valeurs de asp et acp sont très élevées.
Enregistrement 3 : à nouveau, le nombre de groupes est
proche du nombre de locuteurs et le score final est très
élevé (asp=0.9).
Enregistrement 4 : dans cette expérience, plusieurs locu-
teurs sont regroupés dans un même groupe. Cela est sans
doute du à un facteur de réduction Φ0trop élevé et au
fait que dans cet enregistrement , de nombreux locuteurs
ont des temps de parole très brefs. Cependant les perfor-
mances en termes de acp et d’asp sont proches du système
de base.
6. CONCLUSION ET FUTURS TRAVAUX
Dans cette contribution, nous avons appliqué avec suc-
cès l’apprentissage bayesien variationnel au regroupement
non-supervisé de locuteurs. Des expériences sur la base
de données d’évaluation NIST 1996 HUB-4 montrent que
l’apprentissage VB peut surpasser le système de référence.
Cette conclusion mérite cependant quelques considéra-
tions. Tout d’ abord le système tirerait assurément avan-
tage d’une discrimination préliminaire entre parole et non-
parole parce que les événements non-parole perturbent
souvent le regroupement. Ensuite dans la méthode que
nous proposons, nous laissons le système se réduire lui-
même au nombre correct de groupes. Cette technique est
très sensible aux maxima locaux. Une solution possible
consiste à surgrouper les données (c’est à dire à utiliser
une faible valeur de Φ0qui conservera plus de groupes) et
ensuite d’essayer de fusionner les groupes en utilisant la
borne VB (expression 10) comme mesure.
RÉFÉRENCES
[1] J. O. Olsen, “Separation of speaker in audio data”, pp. 355-358,
EUROSPEECH 1995.
[2] J. Ajmera , “Unknown-multiple speaker clustering using HMM”,
ICSLP 2002.
[3] I. Lapidot “SOM as Likelihood Estimator for Speaker Clustering”,
EUROSPEECH 2003.
[4] H. Attias , “A Variational Bayesian framework for graphical mo-
dels”, Advances in Neural Information Processing Systems 12, MIT
Press,Cambridge, 2000.
[5] S. Watanabe et al. “Application of the Variational Bayesian ap-
proach to speech recognition” MIT Press, NIPS 2002.
[6] O.-W. Kwon , T.-W. Lee ,K. Chan , "Application of variational
Bayesian PCA for speech feature extraction," pp. I-825–I-828,
Proc. ICASSP 2002.
[7] P. Somervuo , “Speech modeling using Variational Bayesian mix-
ture of gaussians”,Proc ICSLP 2002.
[8] D.J.C. MacKay “Local Minima, symmetry breaking and
model pruning in variational free energy minimization”,
http ://www.inference.phy.cam.ac.uk/mackay/BayesVar.html.
[9] A. Solomonoff , A. Mielke , Schmidt, H. Gish ,” Clustering spea-
kers by their voices”, pp. 557-560, ICASSP 98.
[10] D.J.C. MacKay , “Ensemble Lear-
ning for Hidden Markov Models”,
http ://www.inference.phy.cam.ac.uk/mackay/BayesVar.html.
[11] A. Cohen et V. Lapidus “ Unsupervised text independent speaker
classification”, Proc. of the 18th Convention of IEEEI 1995.
[12] A.P. Dempster , N.M. Laird , and D.B. Rubin , "Maximum Likeli-
hood from Incomplete Data via theEM algorithm". Journal of the
Royal statistical Society, Series B, 39(1) : 1-38, 1977.
[13] M. Nishida et T. Kawahara “Unsupervised speaker indexing using
speaker model selection based on bayesian information criterion”
Proc. ICASSP 2003.