e-STA copyright 2011 by see Volume 8, N°1, pp 61-65 Evaluation d’une Approche Hybride GMM-SVM pour l’Identification de Locuteurs 1 Imen Trabelsi, 1, 2Dorra Ben Ayed, Computer Science Department, High Institute of Computer Science of Tunis (ISI-Tunisia) [email protected] 2 Electrical Engineering Department, National School of Engineer of Tunis (ENIT-Tunisia) [email protected] / [email protected] 1, 2 Abstract- Dans cet article, nous étudions un système hybride GMM-SVM pour une tâche d’identification automatique du locuteur en mode indépendant du texte (IAL). Cette approche exploite la capacité de modélisation générative multi-gaussiennes (GMM) et la discrimination des classifieurs Séparateurs à Vaste Marges (SVM). Nous étudions dans ce contexte, différents noyaux SVM. Mots clés- Identification des locuteurs, Modèle de Mélange Gaussien (GMM), Séparateurs à Vaste Marges (SVM), paramétrisation MFCC. I. INTRODUCTION La première tentative d’application des SVMs en identification du locuteur, a été réalisée par M. Schmidt et H. Gish en 1996 [SCH 96]. Dans cette application, Schmidt a utilisé directement les trames obtenues en phase de paramétrisation comme vecteurs d'entrée pour les SVM. Il est bien connu que ces vecteurs contiennent simultanément un certain nombre d'informations sur le canal, la parole, les émotions etc, ce qui rend la tâche difficile aux SVMs pour extraire uniquement les informations pertinentes des locuteurs directement de ces vecteurs sans passer par une modélisation. Dans ce travail, nous proposons une nouvelle représentation des données basée sur une modélisation multi-gaussiennes GMM des locuteurs. Un système hybride GMM-SVM est alors mis en œuvre et évalué selon différents noyaux. Notre article est organisé comme suit : nous présentons, dans la section 2, une description du système d’identification du locuteur. Nous décrivons, dans la section 3, la modélisation multi gaussiennes des locuteurs. Nous présentons, dans la section 4, la théorie des supports vecteurs machines. Dans la section 5, nous présentons notre système hybride GMM-SVM ainsi que le protocole expérimental et l’évaluation de nos résultats. II. SYSTEME D’IDENTIFICATION DU LOCUTEUR A partir d’une population constituée de N locuteurs référencés dans le système, la tâche d’Identification Automatique du Locuteur (IAL) consiste à fournir l'ensemble des locuteurs de la base les plus proches du locuteur qui a produit le signal de parole de test [Atal 1976]. Le signal est la seule entrée du système d’identification automatique de locuteur. Deux conditions d’identification sont connues : milieu ouvert ou fermé. Dans un système d’identification du locuteur sur un ensemble fermé, le locuteur est supposé être l’un des N locuteurs du système. Dans un système d’identification du locuteur sur un ensemble ouvert, le système peut décider qu’aucune des N identités connues n’est celle du locuteur. Il doit pour cela disposer d’un modèle de rejet. La figure 1 représente un schéma illustrant le fonctionnement d’un système d’identification automatique de locuteur. Apprentissage Test Modélisation Paramétrisation Seuil Modèle du monde et des locuteurs Décision Liste des locuteurs les plus probables Figure 1 : Schéma modulaire d'un système d'IAL III. MODELISATION A. Apprentissage du modèle du monde Le Modèle du Monde UBM s’agit d’un modèle générique de la parole indépendant du locuteur, représentant la répartition a priori des données acoustiques d’entrée. Il est introduit par [CAR 1991] et [REY 1995] e-STA copyright 2011 by see Volume 8, N°1, pp 61-65 Sa forme paramétrique est un Mélange de Modèles Gaussiens(GMM). L’initialisation des Gaussiennes se fait par une quantification vectorielle (QV). Nous avons appliqué dans notre expérimentation quantification vectorielle basée sur des algorithmes de classification telle que K-Means et Fuzzy CMeans (FCM). L’application de la QV permet d'éviter l'initialisation aléatoire qui peut amener les algorithmes d'apprentissage à être piégés vers des optima locaux de piètre qualité. Après la phase d’initialisation des paramètres du modèle UBM, ces derniers doivent être optimisés au moyen d’un algorithme EM (Expectation Maximization) [BIM 2004]. En effet, cet hyperplan optimal est paramétré par le couple w, b tels que : (2) ( On calcule par la suite le poids w et le biais b. La méthode des multiplicateurs de Lagrange [GUI 2006] peut alors être utilisée. Et finalement, on aboutit au problème dual suivant : m αi ≥ 0 m L’adaptation bayésienne (MAP : Maximum a posteriori) [GAU 1994] [REY 2000] permet d’introduire dans l’apprentissage des contraintes probabilistes sur les paramètres des modèles. Le critère MAP est appliqué aux modèles ayant fait l’objet d’un apprentissage préalable et pour lesquels on dispose de données a priori. Ainsi à partir d’un modèle initial indépendant du locuteur, cette adaptation permet de créer de nouveaux modèles dépendants à un locuteur en particulier. Elle comporte deux étapes de traitement [NEI 2001]. La première étape est le calcul des paramètres statistiques des trames d’apprentissages par rapport au modèle UBM. En pratique seules les moyennes du GMM seront adaptées, les poids et les variances restent inchangés. Dans la seconde étape de l’adaptation, les nouveaux paramètres, estimés dans la première étape, sont combinés avec les paramètres du modèle UBM en utilisant des coefficients de pondération. En fait, l’adaptation MAP permet de faire varier l’influence des données a priori, en fonction du nombre de données d’apprentissage pour chaque gaussienne du modèle. Ainsi seules les gaussiennes occupées par un nombre important de trames d’apprentissage seront modifiées, les paramètres des autres gaussiennes restent inchangés par rapport à leurs valeurs a priori. [GAU 1994]. IV SEPARATEURS A VASTE MARGES A. Cas linéairement séparable L'objectif des SVMs dans le cas linéaire est de calculer un hyperplan qui sépare au mieux les échantillons de deux classes. Dans ce cas, tout hyperplan H : (w .x) +b séparant les deux classes satisfait la condition suivante : i = 1,…, m (1) Il existe une infinité d'hyperplans capable de séparer parfaitement ces deux classes. Le principe utilisé dans les SVMs est de trouver l'hyperplan qui maximise la marge entre les deux ensembles. m L (w ,b ,α ) = F (α ) = ∑α i − 1 ∑α iα j y i y j (xi.x j ) 2 i, j = 1 i =1 B. Adaptation MAP yi (w . xi + b) pour + b) ≥ 1, ∑α i =1 i yi = 0 (3) On remarque que pour : yi (w . xi + b) =1 yi (w . xi + b) >1 on a : α i ≠ 0 αi = 0 Les vecteurs correspondants aux α i = 0 sont les vecteurs supports VS. Ces vecteurs se placent géométriquement comme les plus proches de l’hyperplan optimal qui sépare les deux classes. La forme de la fonction de décision sera donc: f(x)= = (4) B. Cas linéairement non séparables L’attrait pour les classifieurs SVM tient à leur capacité à traiter des problèmes non-linéairement séparables, l’idée des SVM est de les doter d’un mécanisme permettant de produire des surfaces de décision non-planes. Pour surmonter les inconvénients des cas non linéairement séparable, l’idée des SVM est de changer l’espace des données en un nouvel espace appelé de caractéristiques ou espace de redescription. Avec cette logique, un SVM non linéaire se décompose en deux étapes - Transformation non linéaire pour placer les données dans le nouvel espace - Application d’un classifieur SVM linéaire La transformation non linéaire sera réalisée via une fonction noyau. En pratique, quelques familles de fonctions noyau paramétrables sont connues à savoir : e-STA copyright 2011 by see Volume 8, N°1, pp 61-65 le noyau linéaire : K(u, v) = u . v le noyau polynomial : K(u, v) = [(u .v)+1]d le noyau RBF : K(u, v) = exp[-γ |u – v|2 ] (5) (6) (7) V. SYSTEME HYBRIDE GMM-SVM PROPOSE A. Description du système L’approche est basée sur une modélisation GMM des clients, ou chacun sera estimé à partir du modèle générique. Dans notre étude, nous avons crée deux UBM dépendant du genre. De chaque locuteur, nous avons extrait des supervecteurs de moyennes. Un supervecteur GMM [CAM 2006] est défini comme la concaténation des composantes des moyennes des gaussiennes du GMM. Si D est la dimension de l’espace du paramètre, la dimension du supervecteur est M*D où M est le nombre de gaussienne dans le GMM. La notion de supervecteur implique une transformation d’un signal de parole vers un vecteur de plus grande dimension. La figure 2. Montre le processus de générations des supervecteurs. Extraction paramètres EM UBM B. Stratégie de décision Le moteur de reconnaissance SVM donne une liste ordonnée des meilleurs candidats, où à chaque candidat est associé une probabilité a postériori. Une stratégie de 2meilleurs scores est adaptée. Les performances de notre système sont mesurées par le taux d’identification TI et le taux de mauvaise identification TMI. VI. EXPERIMENTATION ET EVALUATION A. Corpus Nous avons utilisé le dialecte DR1 du corpus Timit. Notre étude s’étale sur l’ensemble de 28 locuteurs (14 locuteurs féminins et 14 locuteurs masculins). Chaque locuteur prononce 10 phrases dont 8 phrases seront exploitées pour l’apprentissage et les 2 autres pour la phase de test. B. Prétraitement et extraction de paramètres Les étapes du prétraitement du signal sont définies dans le tableau ci-après. Tableau 1. Etapes de prétraitement du signal parole Caractéristiques des prétraitements 16 KHZ Fréquence d’échantillonnage Séquence de parole Corpus Les supervecteurs générés vont représenter les vecteurs d’entrée pour le système SVM. Les noyaux SVM exploités dans cet article sont issus de la bibliothèque LibSvm [SHA 2001]. MAP Suppression de zones de silence Algorithme basé sur la détection d’activité de voix Pré accentuation Durée de la fenêtre Le pas d’échantillonnage Fenêtrage 1- 0.95 16 ms 8ms Hamming Dans le module de paramétrisation, nous avons opté pour l’extraction de 39 coefficients cepstraux : 12MFCC+ le logarithme de l’énergie ainsi que les dérivées premières et secondes. C. Evaluation des résultats GMM Supervecteur Figure 2. Processus de génération des supervecteurs Nous avons testé différents types de noyaux SVM tout en variant le nombre de gaussiennes afin de visualiser l’influence de l’ordre des GMM sur les performances du système. La figure 3 montre l’effet de l’augmentation du nombre de gaussiennes sur le taux d’erreur de notre système hybride dans le cas d’un noyau linéaire. e-STA copyright 2011 by see Volume 8, N°1, pp 61-65 Nous remarquons que pour un système à 32 gaussiennes, le taux d’erreur est égal à 21,43 % pour les deux genres de locuteurs féminin et masculin. On observe, en effet, que l’orsque on fait augmenter le nombre de gaussiennes, le taux d’erreur baisse et devient de l’ordre de 3,58% à 128 gaussiennes. D’ailleurs il s’annule au niveau des 256 gaussiennes pour les locuteurs masculins. niveau des locuteurs féminins. Le noyau polynomial affiche de très bons résultats meilleurs que les deux précédents. Nous remarquons aussi, dans le cadre de cette étude, que le taux d’erreur le plus faible est toujours obtenu pour les locuteurs masculins. Figure 4. Impact de l’ordre des GMMs sur les performances du système pour un noyau polynomial. Figure 3. Impact de l’ordre des GMMs sur les performances du système pour un noyau linéaire Au niveau du tableau 2, nous constatons que l’utilisation du noyau gaussien engendre des dégradations de performance et ce malgré l’augmentation de l’ordre des GMM. Dans l’expérience qui suit, nous allons comparer les performances de notre système hybride doté de 128 gaussiennes, pour les locuteurs femmes seulement, avec les trois types de noyaux et pour deux algorithmes d’initialisation différents, le K-Means et le Fuzzy-C-Means. Dans le tableau 3, nous affichons les deux meilleurs scores de prédictions. Nous notons PS1, PS2 respectivement, les taux de reconnaissance du système résultant de la première valeur maximale du score et la deuxième valeur maximale. Tableau 3. Impact des algorithmes d’initialisation sur les performances du système PS1: première décision noyaux Linéaire RBF Polynomial Fuzzy 78,57 7 ,14 78,57 cmeans Kmeans 89,28 7,14 85,71 PS2: deuxième décision noyaux Linéaire RBF Polynomial Fuzzy 96 ,42 14,28 96 ,42 cmeans Kmeans 96,42 14,28 96 ,42 Différentes valeurs de gamma pour un noyau RBF sont testées. On observe que le taux d’erreur reste inchangé et se stagne à 85,71% pour toutes les valeurs de gamma testée {1, 0.3, 0.03]. Tableau 2. Impact de l’ordre des GMMs sur le taux de mauvaise identification du système Ordre des GMM 128 256 512 % TMI 85,71 85,71 85,71 Locuteurs Masculin %TMI 85,71 85,71 85,71 Locuteurs Féminin La figure 4, montre les performances de notre système hybride en appliquant le noyau polynomial. Nous constatons que les taux d’erreur sont faibles 3,58 % pour 128 gaussiennes. Ce taux s’annule pour 256 gaussiennes au niveau des locuteurs masculins et pour 512 gaussiennes au Nous montrons que les taux d’identification sont meilleurs pour une initialisation des composants GMM avec le K-Means au niveau du premier score de prédiction, mais après la deuxième prédiction, les algorithmes opèrent au même niveau d’égalité. Nous pouvons remarquer donc que la stratégie de la deuxième prédiction contribue à l’amélioration du système. e-STA copyright 2011 by see Volume 8, N°1, pp 61-65 VII. CONCLUSION Nous avons étudié et mis en œuvre dans cet article un système d’identification du locuteur en mode indépendant du texte. Nous avons présenté un système hybride GMM-SVM. Ce système présente la capacité générative de modélisation des GMM et la discrimination de décision des supports vecteurs machines. Dans le cadre de ce travail, Nous avons montré aussi l’impact de l’étape de modélisation des locuteurs sur les performances du système en faisant varier l’ordre des GMM. Une explication bien admise est qu’en dessous d’une certaine valeur, le nombre de distributions Gaussiennes est insuffisant pour modéliser précisément les densités de probabilité de chaque locuteur. Au delà d’une certaine valeur, le système modélisera des aspects singuliers des locuteurs donc il faut choisir le bon nombre de gaussiennes. Nous avons étudié aussi l’impact des noyaux SVM sur les taux d’identifications des locuteurs. Nous avons montré que les noyaux polynomial et linéaire ont donné les meilleurs résultats en affichant un taux d’identification de 100%. REFERENCES [ATA 1976] Atal B.S. (1976), “Automatic Recognition of Speakers from Their Voices”, Proceedings ofthe IEEE, Vol. 64, No. 4, April 1976, pp 460-475. [BIM 2004] Bimbot, F., Bonastre, J. B., Fredouille, C., Gravier, G., Magrain-Chagnolleau, I., Meignier, S., Merlin, T.,Ortega-García, J., Petrovska-Delacrétaz, D., and Reynolds, D. A. (2004). A Tutorial on Text-Independent speaker Verification. EURASIP Jouranl on Applied Signal Processing, 4, 430.451. [CAM 2006 ] W. M. Campbell, D. E. Sturim, D. A. Reynolds, and A. Solomonoff, "SVM based speaker verification using a GMMsupervector kernel and NAP variability compensation, " Proc. Int. Conf. Acoustics, Speech, and Signal Processing, 2006. [CAR 1991] Michael J. Carey, Eluned S. Parris et John S. Bridle (1991). A speaker verification system using alpha-nets. In IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP, volume 1, pages 397-400, Toronto. [CHA 2001] C.-C. Chang and C.-J. Lin. LIBSVM: a library for support vector machines, 2001. Software available at http://www.csie.ntu.edu.tw/˜cjlin/libsvm. [GAU 1994] Gauvain, J. L. and Lee, C. H. (1994). Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observations of Markov Chains. IEEE Trans. Speech Audio Processing, 2, 291.298. [GUI 2006] Guigue, V., 2006. Separateurs µa Vaste Marges linéaires, Laboratoire d'Informatique de Paris 6 (LIP6) d'après les cours d'Alain Rakotoma-monjy. [NEI 2001] Daniel Neiberg "Text Independent Speaker Verication Using Adapted Gaussian Mixture Models", Centre for Speech Technology (CTT) Department of Speech, Music and Hearing KTH, Stockholm, Sweden 2001-12-11 [REY 2000] D. Reynolds, T. Quatieri, and R.Dunn. "Speaker verification using adapted Gaussian mixture models". DSP, 10(13):19–41, 2000. [REY 19595] D. Reynolds and R. Rose, "Robust text-independent speaker identification using Gaussian mixture speaker models, " IEEE Trans. Speech Audio Proc., vol. 3, no. 1, pp. 72–83, 1995. [SCH 1996] M.Schmidt and H.Gish, "Speaker Identification via Support Vector Machies, " in ICASSP, 105-108, 1996. [BEN 2010] Ben Ayed Mezghani D., Zribi Boujelbene S., Ellouze N., "Evaluation of SVM Kernels and Conventional Machine Learning Algorithms for Speaker Identification", International Journal of Hybrid Information Technology-IJHIT, Vol.3, No.3, July 2010. [ZRI 2010] Zribi Boujelbene S., Ben Ayed Mezghani D., Ellouze N. "Improving SVM by Modifying Kernel Functions for Speaker Identification Task", Journal of Convergence Information Technology – International Journal of Digital Content Technology and its Applications, JDCTA, ISSN: 1975-9339, Vol. 4, No. 6, September 2010.