Evaluation d’une Approche Hybride GMM-SVM pour l’Identification de Locuteurs

e-STA copyright 2011 by see
Volume 8, N°1, pp 61-65
Evaluation d’une Approche Hybride GMM-SVM pour
l’Identification de Locuteurs
1
Imen Trabelsi, 1, 2Dorra Ben Ayed,
Computer Science Department, High Institute of Computer Science of Tunis (ISI-Tunisia)
[email protected]
2
Electrical Engineering Department, National School of Engineer of Tunis (ENIT-Tunisia)
[email protected] / [email protected]
1, 2
Abstract- Dans cet article, nous étudions un système
hybride GMM-SVM pour une tâche d’identification
automatique du locuteur en mode indépendant du texte (IAL).
Cette approche exploite la capacité de modélisation
générative multi-gaussiennes (GMM) et la discrimination des
classifieurs Séparateurs à Vaste Marges (SVM). Nous
étudions dans ce contexte, différents noyaux SVM.
Mots clés- Identification des locuteurs, Modèle de Mélange
Gaussien (GMM), Séparateurs à Vaste Marges (SVM),
paramétrisation MFCC.
I.
INTRODUCTION
La première tentative d’application des SVMs en
identification du locuteur, a été réalisée par M. Schmidt et H.
Gish en 1996 [SCH 96]. Dans cette application, Schmidt a
utilisé directement les trames obtenues en phase de
paramétrisation comme vecteurs d'entrée pour les SVM. Il est
bien connu que ces vecteurs contiennent simultanément un
certain nombre d'informations sur le canal, la parole, les
émotions etc, ce qui rend la tâche difficile aux SVMs pour
extraire uniquement les informations pertinentes des locuteurs
directement de ces vecteurs sans passer par une modélisation.
Dans ce travail, nous proposons une nouvelle représentation
des données basée sur une modélisation multi-gaussiennes
GMM des locuteurs. Un système hybride GMM-SVM est
alors mis en œuvre et évalué selon différents noyaux.
Notre article est organisé comme suit : nous présentons, dans
la section 2, une description du système d’identification du
locuteur. Nous décrivons, dans la section 3, la modélisation
multi gaussiennes des locuteurs. Nous présentons, dans la
section 4, la théorie des supports vecteurs machines. Dans la
section 5, nous présentons notre système hybride GMM-SVM
ainsi que le protocole expérimental et l’évaluation de nos
résultats.
II. SYSTEME D’IDENTIFICATION
DU LOCUTEUR
A partir d’une population constituée de N locuteurs
référencés dans le système, la tâche d’Identification
Automatique du Locuteur (IAL) consiste à fournir l'ensemble
des locuteurs de la base les plus proches du locuteur qui a
produit le signal de parole de test [Atal 1976]. Le signal est la
seule entrée du système d’identification automatique de
locuteur.
Deux conditions d’identification sont connues : milieu ouvert
ou fermé.
Dans un système d’identification du locuteur sur un ensemble
fermé, le locuteur est supposé être l’un des N locuteurs du
système. Dans un système d’identification du locuteur sur un
ensemble ouvert, le système peut décider qu’aucune des N
identités connues n’est celle du locuteur. Il doit pour cela
disposer d’un modèle de rejet. La figure 1 représente un
schéma illustrant le fonctionnement d’un système
d’identification automatique de locuteur.
Apprentissage
Test
Modélisation
Paramétrisation
Seuil
Modèle du
monde et des
locuteurs
Décision
Liste des locuteurs les
plus probables
Figure 1 : Schéma modulaire d'un système d'IAL
III. MODELISATION
A. Apprentissage du modèle du monde
Le Modèle du Monde UBM s’agit d’un modèle générique
de la parole indépendant du locuteur, représentant la
répartition a priori des données acoustiques d’entrée.
Il est introduit par [CAR 1991] et [REY 1995]
e-STA copyright 2011 by see
Volume 8, N°1, pp 61-65
Sa forme paramétrique est un Mélange de Modèles
Gaussiens(GMM).
L’initialisation des Gaussiennes se fait par une
quantification vectorielle (QV). Nous avons appliqué dans
notre expérimentation quantification vectorielle basée sur des
algorithmes de classification telle que K-Means et Fuzzy CMeans (FCM).
L’application de la QV permet d'éviter l'initialisation
aléatoire qui peut amener les algorithmes d'apprentissage à
être piégés vers des optima locaux de piètre qualité.
Après la phase d’initialisation des paramètres du modèle
UBM, ces derniers doivent être optimisés au moyen d’un
algorithme EM (Expectation Maximization) [BIM 2004].
En effet, cet hyperplan optimal est paramétré par le couple
w, b tels que :
(2)
(
On calcule par la suite le poids w et le biais b. La méthode
des multiplicateurs de Lagrange [GUI 2006] peut alors être
utilisée. Et finalement, on aboutit au problème dual suivant :
m
αi ≥ 0
m
L’adaptation bayésienne (MAP : Maximum a posteriori)
[GAU 1994] [REY 2000]
permet d’introduire dans
l’apprentissage des contraintes probabilistes sur les paramètres
des modèles. Le critère MAP est appliqué aux modèles ayant
fait l’objet d’un apprentissage préalable et pour lesquels on
dispose de données a priori. Ainsi à partir d’un modèle initial
indépendant du locuteur, cette adaptation permet de créer de
nouveaux modèles dépendants à un locuteur en particulier.
Elle comporte deux étapes de traitement [NEI 2001]. La
première étape est le calcul des paramètres statistiques des
trames d’apprentissages par rapport au modèle UBM. En
pratique seules les moyennes du GMM seront adaptées, les
poids et les variances restent inchangés.
Dans la seconde étape de l’adaptation, les nouveaux
paramètres, estimés dans la première étape, sont combinés
avec les paramètres du modèle UBM en utilisant des
coefficients de pondération.
En fait, l’adaptation MAP permet de faire varier l’influence
des données a priori, en fonction du nombre de données
d’apprentissage pour chaque gaussienne du modèle.
Ainsi seules les gaussiennes occupées par un nombre
important de trames d’apprentissage seront modifiées, les
paramètres des autres gaussiennes restent inchangés par
rapport à leurs valeurs a priori. [GAU 1994].
IV SEPARATEURS A VASTE
MARGES
A. Cas linéairement séparable
L'objectif des SVMs dans le cas linéaire est de calculer un
hyperplan qui sépare au mieux les échantillons de deux
classes. Dans ce cas, tout hyperplan H : (w .x) +b séparant les
deux classes satisfait la condition suivante :
i = 1,…, m
(1)
Il existe une infinité d'hyperplans capable de séparer
parfaitement ces deux classes.
Le principe utilisé dans les SVMs est de trouver l'hyperplan
qui maximise la marge entre les deux ensembles.
m
L (w ,b ,α ) = F (α ) = ∑α i − 1 ∑α iα j y i y j (xi.x j )
2 i, j = 1
i =1
B. Adaptation MAP
yi (w . xi + b) pour
+ b) ≥ 1,
∑α
i =1
i
yi = 0
(3)
On remarque que pour :
yi (w . xi + b) =1
yi (w . xi + b) >1
on a : α
i
≠ 0
αi = 0
Les vecteurs correspondants aux α i = 0 sont les vecteurs
supports VS. Ces vecteurs se placent géométriquement comme
les plus proches de l’hyperplan optimal qui sépare les deux
classes. La forme de la fonction de décision sera donc:
f(x)=
=
(4)
B. Cas linéairement non séparables
L’attrait pour les classifieurs SVM tient à leur capacité à
traiter des problèmes non-linéairement séparables, l’idée des
SVM est de les doter d’un mécanisme permettant de produire
des surfaces de décision non-planes.
Pour surmonter les inconvénients des cas non linéairement
séparable, l’idée des SVM est de changer l’espace des données
en un nouvel espace appelé de caractéristiques ou espace de
redescription.
Avec cette logique, un SVM non linéaire se décompose en
deux étapes
- Transformation non linéaire pour placer les données
dans le nouvel espace
- Application d’un classifieur SVM linéaire
La transformation non linéaire sera réalisée via une fonction
noyau. En pratique, quelques familles de fonctions noyau
paramétrables sont connues à savoir :
e-STA copyright 2011 by see
Volume 8, N°1, pp 61-65
le noyau linéaire :
K(u, v) = u . v
le noyau polynomial :
K(u, v) = [(u .v)+1]d
le noyau RBF :
K(u, v) = exp[-γ |u – v|2 ]
(5)
(6)
(7)
V. SYSTEME HYBRIDE GMM-SVM
PROPOSE
A. Description du système
L’approche est basée sur une modélisation GMM des
clients, ou chacun sera estimé à partir du modèle générique.
Dans notre étude, nous avons crée deux UBM dépendant du
genre. De chaque locuteur, nous avons extrait des
supervecteurs de moyennes.
Un supervecteur GMM [CAM 2006] est défini comme la
concaténation des composantes des moyennes des gaussiennes
du GMM. Si D est la dimension de l’espace du paramètre, la
dimension du supervecteur est M*D où M est le nombre de
gaussienne dans le GMM. La notion de supervecteur implique
une transformation d’un signal de parole vers un vecteur de
plus grande dimension.
La figure 2. Montre le processus de générations des
supervecteurs.
Extraction
paramètres
EM
UBM
B. Stratégie de décision
Le moteur de reconnaissance SVM donne une liste
ordonnée des meilleurs candidats, où à chaque candidat est
associé une probabilité a postériori. Une stratégie de 2meilleurs scores est adaptée.
Les performances de notre système sont mesurées par le
taux d’identification TI et le taux de mauvaise identification
TMI.
VI. EXPERIMENTATION ET
EVALUATION
A. Corpus
Nous avons utilisé le dialecte DR1 du corpus Timit. Notre
étude s’étale sur l’ensemble de 28 locuteurs (14 locuteurs
féminins et 14 locuteurs masculins). Chaque locuteur
prononce 10 phrases dont 8 phrases seront exploitées pour
l’apprentissage et les 2 autres pour la phase de test.
B. Prétraitement et extraction de paramètres
Les étapes du prétraitement du signal sont définies dans le
tableau ci-après.
Tableau 1. Etapes de prétraitement du signal parole
Caractéristiques des prétraitements
16 KHZ
Fréquence
d’échantillonnage
Séquence
de parole
Corpus
Les supervecteurs générés vont représenter les vecteurs
d’entrée pour le système SVM. Les noyaux SVM exploités
dans cet article sont issus de la bibliothèque LibSvm [SHA
2001].
MAP
Suppression de zones de
silence
Algorithme basé sur la
détection d’activité de voix
Pré accentuation
Durée de la fenêtre
Le pas d’échantillonnage
Fenêtrage
1- 0.95
16 ms
8ms
Hamming
Dans le module de paramétrisation, nous avons opté pour
l’extraction de 39 coefficients cepstraux : 12MFCC+ le
logarithme de l’énergie ainsi que les dérivées premières et
secondes.
C. Evaluation des résultats
GMM Supervecteur
Figure 2. Processus de génération des supervecteurs
Nous avons testé différents types de noyaux SVM tout en
variant le nombre de gaussiennes afin de visualiser l’influence
de l’ordre des GMM sur les performances du système.
La figure 3 montre l’effet de l’augmentation du nombre de
gaussiennes sur le taux d’erreur de notre système hybride dans
le cas d’un noyau linéaire.
e-STA copyright 2011 by see
Volume 8, N°1, pp 61-65
Nous remarquons que pour un système à 32 gaussiennes, le
taux d’erreur est égal à 21,43 % pour les deux genres de
locuteurs féminin et masculin. On observe, en effet, que
l’orsque on fait augmenter le nombre de gaussiennes, le taux
d’erreur baisse et devient de l’ordre de 3,58% à 128
gaussiennes. D’ailleurs il s’annule au niveau des 256
gaussiennes pour les locuteurs masculins.
niveau des locuteurs féminins. Le noyau polynomial affiche de
très bons résultats meilleurs que les deux précédents. Nous remarquons aussi, dans le cadre de cette étude, que le
taux d’erreur le plus faible est toujours obtenu pour les
locuteurs masculins.
Figure 4. Impact de l’ordre des GMMs sur les performances
du système pour un noyau polynomial.
Figure 3. Impact de l’ordre des GMMs sur les performances
du système pour un noyau linéaire
Au niveau du tableau 2, nous constatons que l’utilisation du
noyau gaussien engendre des dégradations de performance et
ce malgré l’augmentation de l’ordre des GMM.
Dans l’expérience qui suit, nous allons comparer les
performances de notre système hybride doté de 128
gaussiennes, pour les locuteurs femmes seulement, avec les
trois types de noyaux et pour deux algorithmes d’initialisation
différents, le K-Means et le Fuzzy-C-Means.
Dans le tableau 3, nous affichons les deux meilleurs scores de
prédictions. Nous notons PS1, PS2 respectivement, les taux de
reconnaissance du système résultant de la première valeur
maximale du score et la deuxième valeur maximale.
Tableau 3. Impact des algorithmes d’initialisation sur les
performances du système
PS1: première décision
noyaux
Linéaire
RBF
Polynomial
Fuzzy 78,57
7 ,14
78,57
cmeans
Kmeans
89,28
7,14
85,71
PS2: deuxième décision
noyaux
Linéaire
RBF
Polynomial
Fuzzy 96 ,42
14,28
96 ,42
cmeans
Kmeans
96,42
14,28
96 ,42
Différentes valeurs de gamma
pour un noyau RBF sont
testées. On observe que le taux d’erreur reste inchangé et se
stagne à 85,71% pour toutes les valeurs de gamma testée
{1, 0.3, 0.03].
Tableau 2. Impact de l’ordre des GMMs sur le taux de
mauvaise identification du système
Ordre des GMM
128
256
512
% TMI
85,71
85,71
85,71
Locuteurs
Masculin
%TMI
85,71
85,71
85,71
Locuteurs
Féminin
La figure 4, montre les performances de notre système
hybride en appliquant le noyau polynomial.
Nous constatons que les taux d’erreur sont faibles 3,58 %
pour 128 gaussiennes. Ce taux s’annule pour 256 gaussiennes
au niveau des locuteurs masculins et pour 512 gaussiennes au
Nous montrons que les taux d’identification sont meilleurs
pour une initialisation des composants GMM avec le K-Means
au niveau du premier score de prédiction, mais après la
deuxième prédiction, les algorithmes opèrent au même niveau
d’égalité.
Nous pouvons remarquer donc que la stratégie de la deuxième
prédiction contribue à l’amélioration du système.
e-STA copyright 2011 by see
Volume 8, N°1, pp 61-65
VII. CONCLUSION
Nous avons étudié et mis en œuvre dans cet article un
système d’identification du locuteur en mode indépendant du
texte. Nous avons présenté un système hybride GMM-SVM.
Ce système présente la capacité générative de modélisation
des GMM et la discrimination de décision des supports
vecteurs machines. Dans le cadre de ce travail, Nous avons
montré aussi l’impact de l’étape de modélisation des locuteurs
sur les performances du système en faisant varier l’ordre des
GMM.
Une explication bien admise est qu’en dessous d’une certaine
valeur, le nombre de distributions Gaussiennes est insuffisant
pour modéliser précisément les densités de probabilité de
chaque locuteur. Au delà d’une certaine valeur, le système
modélisera des aspects singuliers des locuteurs donc il faut
choisir le bon nombre de gaussiennes. Nous avons étudié aussi
l’impact des noyaux SVM sur les taux d’identifications des
locuteurs. Nous avons montré que les noyaux polynomial et
linéaire ont donné les meilleurs résultats en affichant un taux
d’identification de 100%.
REFERENCES
[ATA 1976] Atal B.S. (1976), “Automatic Recognition of Speakers
from Their Voices”, Proceedings ofthe IEEE, Vol. 64, No. 4, April
1976, pp 460-475.
[BIM 2004] Bimbot, F., Bonastre, J. B., Fredouille, C., Gravier, G.,
Magrain-Chagnolleau, I., Meignier, S., Merlin, T.,Ortega-García, J.,
Petrovska-Delacrétaz, D., and Reynolds, D. A. (2004). A Tutorial on
Text-Independent speaker Verification. EURASIP Jouranl on Applied
Signal Processing, 4, 430.451.
[CAM 2006 ] W. M. Campbell, D. E. Sturim, D. A. Reynolds, and A.
Solomonoff, "SVM based speaker verification using a GMMsupervector kernel and NAP variability compensation, " Proc. Int.
Conf. Acoustics, Speech, and Signal Processing, 2006.
[CAR 1991] Michael J. Carey, Eluned S. Parris et John S. Bridle
(1991). A speaker verification system using alpha-nets. In IEEE
International Conference on Acoustics, Speech, and Signal
Processing, ICASSP, volume 1, pages 397-400, Toronto.
[CHA 2001] C.-C. Chang and C.-J. Lin. LIBSVM: a library for
support vector machines, 2001. Software available at
http://www.csie.ntu.edu.tw/˜cjlin/libsvm.
[GAU 1994] Gauvain, J. L. and Lee, C. H. (1994). Maximum a
Posteriori Estimation for Multivariate Gaussian Mixture Observations
of Markov Chains. IEEE Trans. Speech Audio Processing, 2,
291.298.
[GUI 2006] Guigue, V., 2006. Separateurs µa Vaste Marges linéaires,
Laboratoire d'Informatique de Paris 6 (LIP6) d'après les cours d'Alain
Rakotoma-monjy.
[NEI 2001] Daniel Neiberg "Text Independent Speaker Verication
Using Adapted Gaussian Mixture Models", Centre for Speech
Technology (CTT) Department of Speech, Music and Hearing KTH,
Stockholm, Sweden 2001-12-11
[REY 2000] D. Reynolds, T. Quatieri, and R.Dunn. "Speaker
verification using adapted Gaussian mixture models". DSP, 10(13):19–41, 2000.
[REY 19595] D. Reynolds and R. Rose, "Robust text-independent
speaker identification using Gaussian mixture speaker models, "
IEEE Trans. Speech Audio Proc., vol. 3, no. 1, pp. 72–83, 1995.
[SCH 1996] M.Schmidt and H.Gish, "Speaker Identification via
Support Vector Machies, " in ICASSP, 105-108, 1996.
[BEN 2010] Ben Ayed Mezghani D., Zribi Boujelbene S., Ellouze N.,
"Evaluation of SVM Kernels and Conventional Machine Learning
Algorithms for Speaker Identification", International Journal of
Hybrid Information Technology-IJHIT, Vol.3, No.3, July 2010.
[ZRI 2010] Zribi Boujelbene S., Ben Ayed Mezghani D., Ellouze N.
"Improving SVM by Modifying Kernel Functions for Speaker
Identification Task", Journal of Convergence Information Technology
– International Journal of Digital Content Technology and its
Applications, JDCTA, ISSN: 1975-9339, Vol. 4, No. 6, September
2010.