République Algérienne Démocratique et Populaire وزارة اﻟﺘﻌــﻠـــﻴـــﻢ اﻟﻌــﺎﻟــــــــﻲ و اﻟـﺒــﺤــــﺚ اﻟﻌـﻠــﻤــــﻲ Ministère de l’Enseignement Supérieur et de la Recherche Scientifique UNIVERSITE DES SCIENCES ET DE LA TECHNOLOGIE D’ORAN Mohamed Boudiaf Faculté des Sciences Département d’Informatique Spécialité : Informatique Option : Reconnaissance des Formes et Intelligence Artificielle (RFIA) MEMOIRE Présenté par Mme AZIB Lamia Pour l’obtenir du diplôme de Magister en Informatique Thème : Application des Modèles de Markov Cachés et les Modèles de Mélanges de Gaussiennes pour la Classification Phonétique SOUTENU LE 03/07/ 2012 à 14H00 dans la salle de soutenance Devant la commission d’examen composée de : Qualité Nom et Prénom Grade Président Rapporteur Examinatrice Examinatrice BENYETTOU Mohamed BENYETTOU Abdelkader BENAMRANE Nacéra IZABATENE-FIZAZI Hadria Professeur Professeur M.conf. A M.conf. A Le public est cordialement invité Année universitaire : 2011/2012 Etb d’origine USTO USTO USTO USTO RESUME Les recherches en ingénierie d’informatique et de la communication ont pour objectifs de faciliter la coopération homme-machine au travers des systèmes interactifs conversationnels robustes pour le grand public. Ces objectifs nécessitent de comprendre le fonctionnement et de tester l’efficacité d’un certain nombre d’algorithmes de classifications actuellement utilisés. Les méthodes stochastiques basées sur les Modèles de Mélanges de Gaussiennes (GMM) et les Modèles de Markov Cachés (HMM) ont été pleinement exploités pour des systèmes de reconnaissance du langage parlé, mais aussi dans bien d’autres applications dans lesquelles apparaît une séquentialité. Le travail de ce magister s’inscrit dans la perspective d'implémenter un système interactif ayant pour but de classifier les phonèmes. Ce système exploite les propriétés de la modélisation liées aux GMM ainsi qu’aux HMM pour une tâche de classification au quel est intégré des composantes présentant mieux l’information temporelle dans le signal de la parole. Mots-clés : Modèle de Mélange de Gaussiennes (GMM), Modèle de Markov Caché (HMM). ABSTRACT Search in engineering of data processing and the communication have for objectives to facilitate the man-machine cooperation through robust conversational interactive systems for general public. These objectives require to understand the operation and to test the effectiveness of a certain number of classifications algorithms currently used. The stochastic methods based on the Gaussian Mixture Models (GMM) and Hidden Markov Models (HMM) were fully exploited for systems of recognition of the spoken language, but also in good of other applications in which a sequentiality appears. The work of this magister falls under the prospect to implement an interactive system having for goal to classify the phonemes. This system exploits the properties of modeling related to GMM as well to HMM for a task of classification into which is integrated components presenting better temporal information in the speech signal. Key-words: Gaussian Mixture Model (GMM), Hidden Markov Model (HMM). REMERCIEMENTS Je remercie « DIEU » pour m’avoir guidé et aidé à terminer ce mémoire Avec beaucoup de gratitude et de sincérité, je remercie vivement le rapporteur de ce mémoire le Professeur Mr BENYETTOU Abdelkader pour sa présence scientifique et humaine ainsi que pour tout le soin qu’il apporte à nous diriger vers des sujets d’actualité. Je remercie également le Professeur Mr BENYETTOU Mohamed, pour avoir accepté de présider le jury. Qu’il trouve ici l’expression de mon profond respect. Mes remerciements s’adressent au même titre aux Maîtres de Conférences Melle BENAMRANE Nacéra et Mme IZABATENE-FIZAZI Hadria pour l’intérêt qu’ils ont porté à notre travail et d’avoir accepter de l’examiner. Finalement, je remercie toute personne ayant contribué de près ou de loin à l’accomplissement de ce travail. DEDICACES Ce mémoire est dédié à toutes celles et à tous ceux qui ont contribué de près ou de loin, directement ou indirectement, à son existence ;en particulier : à mes très chers parents qui ont été toujours là pour me soutenir et m’encourager, que Dieu les garde pour moi et guérie mon très cher père à mon époux… à mes frères et sœurs à ma belle famille à tous les gens que j’aime INTRODUCTION GENERALE 01 CHAPITRE I GENERALITE SUR LE TRAITEMENT AUTOMATIQUE DE LA PAROLE I.1 Introduction 03 I.2 Historique de la reconnaissance de la parole 03 I.3 Principe de la reconnaissance automatique de la parole 05 I.3.1 Phase de paramétrisation du signal de parole 06 I.3.2 Phase de modélisation 08 I.3.3 Phase d’apprentissage 09 I.3.4 Phase de reconnaissance 10 I.4 Méthodologies de reconnaissance 10 I.4.1 Approche analytique 10 I.4.2 Approche globale 11 I.5 Approches appliquées à la RAP 12 I.5.1 Approche statistique 12 I.5.2 Approche neuronale 13 I.6 Protocoles de test 14 I.7 Conclusion 14 CHAPITRE II MODELE DE MELANGE DE GAUSSIENNES II.1 Introduction 15 II.2 Rappels probabilistes 15 II.2.1 Principe de la décision bayesienne 15 II.2.2 Règle de Bayes 16 II.2.3 Estimation au maximum de vraisemblance 16 II.2.4 Loi normale 17 II.2.5 Loi normale multidimensionnelle 17 II.2.6 Mélange de lois 18 II.3 Modèle de mélange de gaussiennes II.3.1 Définition 18 18 II.4 Modélisation acoustique par le GMM 20 II.5 Apprentissage 21 II.5.1 Initialisation du modèle 21 II.5.2 L’algorithme d’expectation-maximisation 21 II.5.2.1 Principe de l’algorithme EM 22 II.5.2.2 Algorithme EM pour les GMM 22 II.6 Reconnaissance 25 II.7 Modélisation de l’information dynamique 27 II.7.1 Intérêt des informations dynamiques 27 II.7.2 Ajout de l’information dynamique 27 II.7.2.1 Intégration d’une composante temporelle (T-GMM) 27 II.7.2.2 Ajout des dérivées temporelles 28 II.8 Conclusion 29 CHAPITRE III MODELE DE MARKOV CACHE III.1 Introduction 30 III.2 Modèle de Markov 30 III.3 Modèle de Markov caché 31 III.3.1 Définition formelle 31 III.3.2 Représentation graphique et matricielle 33 III.4 Types de distribution des probabilités des symboles 34 III.4.1 Modèle discret 34 III.4.2 Modèle continu 34 III.4.3 Modèle semi-continu 34 III.5 Topologies des HMM III.5.1 Modèle ergodique 35 35 III.5. 2 Modèle gauche-droite 35 III.6 Modélisation acoustique par les HMM 37 III.7 Principaux problèmes liés aux HMM 39 III.7.1 Les trois problèmes fondamentaux des HMM 39 III.7.2 Autres problèmes liés aux HMM 41 III.8 Solutions des trois problèmes fondamentaux 42 III.8.1 Solution du problème 1: Algorithme Forward-Backward 42 III.8.2 Solution du problème 2 : Algorithme de Viterbi 44 III.8.3 Solution du problème 3 : Algorithme de Baum-Welch 45 III.9 Reconnaissance 48 III.10 Conclusion 49 CHAPITRE IV IMPLEMENTATION ET RESULTATS IV.1 Introduction 51 IV.2 Ressources : Matérielles et Logiciels 51 IV.3 Base de données utilisée 51 IV.4 Classification phonétique 53 IV.5 Applications 53 IV.5.1 Classification par les modèles GMM 55 IV.5.1.1 Topologie du modèle 55 IV.5.1.2 Initialisation du modèle 55 IV.5.1.3 Expériences 55 IV.5.1.4 Résultats 56 IV.5.1.5 Discussion 65 IV.5.2 Classification par les modèles HMM 66 IV.5.2.1 Topologie du modèle 66 IV.5.2.2 Initialisation du modèle 67 IV.5.2.3 Expériences 68 IV.5.2.4 Résultats 68 IV.5.2.5 Discussion 76 IV.6 Comparaison entre les différents modèles implémentés 77 IV.7 Conclusion 78 CONCLUSION & PERSPECTIVES 79 BIBLIOGRAPHIE 80 ANNEXE A QUANTIFICATION VECTORIELLE 85 ANNEXE B DERIVES DES PARAMETRES ACOUSTIQUES 88 ANNEXE C ANALYSE EN COMPOSANTES PRINCIPALES 90 ANNEXE D MATRICES DE CONFUSION 92 FIG. I.1 : Schémas de principe d’un système de reconnaissance automatique de la parole 06 FIG. II.1 : Exemple de modèle de mélange de 3 gaussiennes 19 FIG. II.2 : La distribution du deuxième coefficient MFCC 20 FIG. II.3 : L’importance de la phase d’initialisation de l’algorithme EM 24 FIG. II.4 : Calcul de la vraisemblance d’un vecteur acoustique par rapport à un GMM 25 FIG. II.5 : Processus de reconnaissance par le modèle GMM 26 FIG. III.1 : Représentation graphique d’un HMM : Exemple simple à 5 états et 2 symboles 33 FIG. III.2 : Exemple d’un HMM ergodique 35 FIG. III.3 : Exemple d’un HMM gauche-droite 36 FIG. III.4 : Exemple d’un HMM à 4 états de type Bakis 36 FIG. III.5 : HMM gauche-droite modélisant le phonème « a » 38 FIG. III.6 : Représentation du mot « sam » par concaténation de phonèmes 38 FIG. III.7 : Classifieur de phonème à base de maximum de vraisemblance 49 FIG. IV.1 : Schéma général des approches implémentées 54 FIG. IV.2 : HMM à 5 états de type Bakis 66 FIG. IV.3 : HMM continu à 5 états de type Bakis 72 FIG. IV.4 : Histogramme des taux de reconnaissance obtenus avec les différents modèles implémentés 78 FIG. B.1 : Calcul de données dynamiques à partir des trames de la fenêtre temporelle 88 TABLEAU IV.1 : Les phonèmes utilisés dans notre application avec leurs nombres d’occurrences 52 TABLEAU IV.2 : Les modèles GMM Implémentés 56 TABLEAU IV.3 : Pourcentage de reconnaissance par le modèle GMM avec Q constant 57 TABLEAU IV.4 : Nombre de composantes gaussiennes choisi par classe de phonème 59 TABLEAU IV.5 : Pourcentage de reconnaissance par le modèle GMM avec Q variable 60 TABLEAU IV.6 : Taux de reconnaissance obtenus avec les modèles GMM, TD-GMM et TS-GMM 62 TABLEAU IV.7 : Taux de reconnaissance obtenus avec les modèles GMM, TD-GMM et TS-GMM dans différents espaces de paramètres 64 TABLEAU IV.8 : Les modèles HMM Implémentés 68 TABLEAU IV.9 : Taux de reconnaissance obtenus avec le modèle DHMM en utilisant des données normalisées et non-normalisées 70 TABLEAU IV.10 : Taux de reconnaissance obtenus avec le modèle CHMM en utilisant des données normalisées et non-normalisées 73 TABLEAU IV.11 : Taux de reconnaissance obtenus avec les modèles DHMM et CHMM dans différents espaces de paramètres 75 ALGORITHME III.1 : L’algorithme Forward 42 ALGORITHME III.2 : L’algorithme Backward 43 ALGORITHME III.3 : L’algorithme de Viterbi 44 ALGORITHME III.4 : L’algorithme de Baum-Welch 48 ALGORITHME A.1 : L’algorithme des k-moyennes 86 ALGORITHME A.2 : L’algorithme de Linde-Buzo-Gray 87 ACP Analyse en Composantes Principales CHMM Continuous Hidden Markov Model DARPA Defence Advanced Research Projects Agency DHMM Discrete Hidden Markov Model DTW Dynamic Time Warping EM Expectation-Maximisation GMM Gaussian Mixture Model HMM Hidden Markov Model ISTO Information Science and Technology Office LBG Linde-Buzo-Gray LFCC Linear Frequency Cepstral Coefficients LPC Linear Prediction Coefficients MFCC Mel Frequency Cepstral Coefficients MIT Institute of Technology ML Maximum Likelihood NIST National Institute of Standards and Technology. PDF Probability Density Function QV Quantification Vectorielle RAP Reconnaissance Automatique de la Parole RN Réseau de Neurones SC-HMM Semi-Continuous Hidden Markov Model SRAP Système de Reconnaissance Automatique de la Parole SRI Stanford Research Institute TI Texas Instruments TIMIT Texas Instrument Massachusetts Institute of Technology Notre monde qui devient toujours plus complexe donne parfois des problèmes qui dépassent la capacité intellectuelle de l'être humain et le rend ainsi incapable de prendre des bonnes décisions. Ces problèmes peuvent se produire dans des systèmes créés par l'humain lui-même comme les systèmes de production. Les problèmes les plus difficiles se posent néanmoins avant tout dans les systèmes naturels, qui ne sont ni créés ni vraiment contrôlables par les humains. Les Systèmes de Reconnaissance Automatique de la Parole (SRAP) sont aujourd’hui bien connus dans le monde de l’informatique et suscitent l’intérêt d’un public de plus en plus large. Le travail présenté dans ce mémoire de Magister s’inscrit dans le cadre général de la reconnaissance automatique de la parole. Pour qu’on puisse créer un système interactif capable à reconnaître nos parole avec toute ses complexités, on est besoin d’abord de mieux représenter les informations portées sur un tel signal de parole, ensuite d’effectuer des choix fructueux d’une ou de plusieurs méthodes de classification parmi les grandes familles de ces dernières. Les approches statistiques et les modèles probabilistes sont très utilisés, de nos jours, dans les systèmes de reconnaissance automatique de la parole. Ces approches, notamment celles basés sur les Modèles de Mélanges de Gaussiennes (GMM) et les Modèles de Markov Cachés (HMM), ont atteint des performances remarquables avec des vocabulaires de plus en plus importants et une robustesse au bruit et à la variabilité des locuteurs de plus en plus grande. Ce travail nous permettra de tester nos modèles statistiques dans une classification des phonèmes sur la base de données TIMIT. Parallèlement, dans le but de renforcer notre appréciation sur les modèles mis à l’étude, nous avons essayé de varier certains paramètres au court des applications comme tentative d’amélioration des résultats. Nous avons également évalué l’influence des paramètres dynamiques sur la classification phonétique. Globalement, nous avons réparti ce mémoire en quatre chapitres : Le chapitre 1 expose en générale les principaux axes de la Reconnaissance Automatique de la Parole, le domaine dont nous nous intéressons essentiellement dans ce mémoire. 1 Dans le chapitre 2, nous détaillons le Modèle de Mélange de Gaussiennes (GMM) ainsi que les étapes qui le composent. Le chapitre 3, décrit le Modèle de Markov Caché (HMM) et leurs principaux algorithmes. Finalement, le chapitre 5 expose les expériences réalisées et la discussion des résultats obtenus par la base de données TIMIT. 2 GENERALITE SUR LA RECONNAISSANCE AUTOMATIQUE DE LA PAROLE e chapitre présente un état de l’art général sur la reconnaissance automatique de la parole. L'objectif du premier chapitre est de situer le contexte d’étude sur lequel nous nous focaliserons et de présenter les bases théoriques nécessaires aux fonctionnements des Système de Reconnaissance Automatique de la Parole (SRAP). C Mots-clés Système de Reconnaissance Automatique de la Parole (SRAP). I.1 INTRODUCTION La communication entre l'homme et la machine est actuellement un des sujets de recherches les plus intéressants. Et sans doute la parole est le moyen de communication le plus naturel et le plus rapide. Le signal de la parole est un signal très complexe dont les caractéristiques varient au cours du temps. L'objectif de son traitement est l'extraction des informations imbriquées qu'il contient (ex : message, locuteur, environnement, etc.). Au début, la recherche s'est limitée au traitement proprement dit du signal. Mais peu à peu d'autre disciplines (comme l'intelligence artificielle, l'informatique, la reconnaissance de formes, la phonétique, la linguistique, etc.) sont intervenues afin de concevoir et développer des systèmes experts utilisant la parole comme moyen de communication. Les principaux objectifs du traitement du signal de parole sont : - Un codage efficace du signal pour sa transmission ou son enregistrement. - La reconnaissance automatique de la parole. - La reconnaissance automatique du locuteur. - La synthèse du signal de la parole. - Certaines applications médicales. - Certaines applications pour l'étude des langues. Dans le cadre de ce mémoire, nous nous intéressons au problème de la reconnaissance automatique de la parole et plus particulièrement au problème de la classification phonétique tout en considérant le reste des problèmes comme des applications tout à fait intéressantes dans la perspective d’évolution de notre système. I.2 HISTORIQUE DE LA RECONNAISSANCE DE LA PAROLE La reconnaissance de la parole est une discipline récente. Vers 1950 apparut le premier système de reconnaissance de chiffres, appareil entièrement câblé et très imparfait. Vers 1960, l’introduction des méthodes numériques et l’utilisation des ordinateurs changent la dimension des recherches. Néanmoins, les résultats demeurent modestes car la difficulté du problème avait été largement sous-estimée, en particulier en ce qui concerne la parole continue. Vers 1970, la nécessité de faire appel à des contraintes linguistiques dans le décodage automatique de la parole avait été jusque-là considérée comme un problème d’ingénierie. La fin de la décennie 70, l’apparition des chaînes de 3 Markov cachées permet la commercialisation des premiers systèmes de reconnaissance vocale. Les générations suivantes, mettant à profit les possibilités sans cesse croissantes de la micro-informatique, posséderont des performances supérieures (systèmes multi-locuteurs, parole continue). On peut résumer en quelques dates les grandes étapes de la reconnaissance de la parole : 1952 : Reconnaissance des 10 chiffres, pour un mono-locuteur, par un dispositif électronique câblé. 1960 : Utilisation des méthodes numériques. 1965 : Reconnaissance de phonèmes en parole continue. 1968 : Reconnaissance de mots isolés par des systèmes implantés sur gros ordinateurs (jusqu’à 500 mots). 1969 : Utilisation d’informations linguistiques. 1970 : Méthodes basées sur la programmation dynamique. 1971 : Lancement du projet ARPA aux USA visant à tester la faisabilité de la compréhension automatique de la parole continue avec des contraintes raisonnables. 1972 : Premier appareil commercialisé de reconnaissance de mots isolés. 1976 : Fin du projet ARPA ; les systèmes opérationnels sont HARPY, HEARSAY I et II et HWIM. 1978 : Commercialisation d’un système de reconnaissance à microprocesseurs sur une carte de circuits imprimés. 1981 : Utilisation de circuits intégrés VLSI (Very Large Scale Integration) spécifiques du traitement de la parole. 1981 : Système de reconnaissance de mots sur un circuit VLSI. 1983 : Première mondiale de commande vocale à bord d’un avion de chasse en France. 1985 : Commercialisation des premiers systèmes de reconnaissance de plusieurs milliers de mots. 1986 : Lancement du projet japonais ATR utilisant la traduction automatique en temps réel par le téléphone. 1988 : Apparition des premières machines de dictée vocale par mots isolés. 1989 : Recrudescence des modèles connexionnistes neuromimétiques. 1990 : Premières véritables applications de dialogue oral homme-machine. 4 1993 : Premier SRAP de parole continue (langue allemande) fonctionnant en quasi temps réel présenté par Phillips à la conférence Eurospeech. 1994 : IBM lance son premier système de reconnaissance vocale sur PC : speech server series. 1997 : IBM lance une machine à dictée vocale en parole continu : IBM Voice Type-Dictée Personnelle. 2000 : Microsoft s'associe à Lernout & Hauspie pour intégrer les solutions de reconnaissance vocale et de synthèse vocale de la société belge à son interface de programmation vocale nommée SAPI (Speech Application Programming Interface). Cette application est destinée à simplifier le travail des programmeurs qui souhaitent développer des applications vocales. 2006 : Le DARPA (Defense Advanced Research Projects Agency) prépare une super machine dédiée à la traduction. Cet organisme ambitionne de développer un logiciel capable de traduire de façon quasi simultanée l'arabe et le mandarin avec une précision accrue. L'appareil devrait être utilisé par les renseignements américains pour écouter et parcourir tous les médias existants (radio, conversations téléphoniques, émissions TV, sites Web, etc.) dans le but de filtrer des informations stratégiques. I.3 PRINCIPE DE LA RECONNAISSANCE AUTOMATIQUE DE LA PAROLE La reconnaissance automatique de la parole (RAP ou encore ASR pour Automatic Speech Recognition) peut être interprétée comme une tâche particulière de la reconnaissance des formes. C’est une succession de modules dont l’étape finale est de reconnaître une forme particulière, c’est-à-dire le signal de parole que l’on met à l’entrée de cette chaîne. Les systèmes de reconnaissance automatique de la parole se résument généralement à quatre processus principaux : la phase de paramétrisation du signal de parole qui est généralement constitué d’une analyse spectrale, la phase de modélisation qui détermine les caractéristiques d’un modèle à partir des paramètres extraits; la phase d’apprentissage du système et enfin la phase de reconnaissance du signal par celui-ci et qui fournit finalement la réponse du système. On peut modéliser globalement une chaîne de reconnaissance de la parole par le schéma suivant : 5 Signal de parole Corpus de parole Vecteurs acoustique Extraction de paramètres Modèle Acoustique Données d’apprentissage Vecteurs acoustiques appris Reconnaissance Apprentissage Décision FIG. I.1 : Schémas de principe d’un système de reconnaissance automatique de la parole I.3.1 PHASE DE PARAMETRISATION DU SIGNAL DE PAROLE Au niveau acoustique, la parole apparaît physiquement comme une variation de la pression de l’air causée et émise par le système articulatoire [Boite et al., 2000 ; Calliope, 1989]. Le signal de parole est caractérisé par de nombreux paramètres qui rendent complexe son interprétation. En effet, la difficulté de son traitement est due principalement à l’incroyable variabilité et à la distorsion du signal de parole [Klatt, 1986]. Cette variabilité peut être spatiale, les caractéristiques acoustiques d’une sonorité étant variables d’une prononciation à une autre et d’une personne à une autre. Elle peut également être temporelle. Les différences d’âge, de sexe, d’accent, d’émotivité entre locuteurs rendent délicates l’extraction d’informations pertinentes concernant le signal, cette extraction se voulant être indépendante du locuteur. L’acoustique du milieu ambiant lors de la prise de son (bruits extérieurs, bruits de bouche, respirations, 6 éternuements, etc.) ainsi que la qualité de l’enregistrement génèrent encore des difficultés que le SRAP doit surmonter. En effet, pour un SRAP, le signal de parole est un flux continu et il ne peut pas être exploité directement tel quel. Il est donc nécessaire d’en extraire uniquement les paramètres qui seront dépendants du message linguistique. L’une des premières étapes dans tout traitement automatique de la parole est sa paramétrisation. Cette étape permet de transformer un signal de parole en une suite de vecteurs appelés trames décrivant le signal. De chaque trame est extrait un vecteur de paramètres caractérisant celle-ci. Les paramètres acoustiques1 les plus fréquemment utilisés en reconnaissance de la parole sont les MFCC (Mel-Frequency Cepstral Coefficients), les LFCC (Linear Frequency Cepstral Coefficients) et les LPC (Linear Prediction Coefficients). Au sein de ce travail, nous utiliserons les coefficients MFCC dans les expériences menées sur la base de données TIMIT. Du point de vue de l'étude bibliographique, à l'heure actuelle, le choix de ce type de paramétrisation semble être satisfaisant pour représenter le signal de parole dans le cadre de la RAP [Gauvain et Lee, 1994 ; Jouvet et al., 1994 ; Woodland et al., 1995]. Nous avons choisi, a priori, d'utiliser 12 paramètres MFCC. De plus, afin de prendre en compte la dynamique du signal, nous ajoutons aux paramètres MFCC l'énergie et les coefficients différentiels (ou coefficients delta) du premier et du second ordre. Ces dérivées permettent d'introduire une information concernant le contexte temporel d'une trame courante. Un vecteur acoustique est donc représenté par 39 paramètres (12 MFCC + E + 13 + 13) Après l’extraction des différents paramètres d’une trame, on obtient donc une séquence d’observations acoustiques X ( x1 , x2 ,..., xn ) où xi représente une observation acoustique. 1 On trouvera dans [Calliope, 1989], [Mariani, 2002] ou encore [Davis et Mermelstein, 1980] une description détaillée des différentes méthodes utilisées en extraction de paramètres (et en reconnaissance de la parole en général). 7 I.3.2 PHASE DE MODELISATION Pour pouvoir reconnaître un mot, on présente au système RAP des exemples pour chacun des mots possibles. Un modèle statistique représentatif de la distribution des vecteurs acoustiques pour le mot considéré peut alors être construit. On obtient ainsi un modèle acoustique de la parole, c’est-à-dire un ensemble de modèles statistiques pour chacun des mots considérés, qui est stocké dans le SRAP. Cependant, une modélisation acoustique basée sur le mot devient problématique lorsque le nombre de mots possibles devient trop important. En particulier, dès qu’on cherche à concevoir un système réellement multi-locuteurs, à plus grand vocabulaire, et s’adaptant facilement à une application, il devient nécessaire de mener la reconnaissance sur base d’unités de parole de plus petite taille (typiquement les phonèmes). On ne se contente plus alors d’exemples de ces unités, mais on cherche plutôt à en déduire un modèle (un modèle par unité), qui sera applicable pour n’importe quelle voix. Un modèle statistique est calculé pour chaque phonème et les modèles de mots sont obtenus par concaténation des modèles de phonèmes. Une telle approche nécessite de disposer d’une transcription phonétique de chaque mot, c’est-à-dire de sa prononciation en termes de phonèmes. Pour cela, on recourt à un lexique contenant une ou plusieurs prononciations pour chaque mot. Plusieurs voies de recherche sont actuellement empruntées pour atteindre ce but. On distingue globalement 3 approches [Haton et al., 1991] : L'intelligence artificielle (I.A.) par le biais de systèmes experts : on utilise alors une connaissance a priori développée par les spécialistes de la phonétique. Les modèles statistiques qui permettent de traiter la grande variabilité du signal vocal par l'analyse préalable d'un grand nombre d'échantillons vocaux. C'est actuellement la plus répandue. Les modèles connexionnistes à base de réseaux neuromimétiques. Cette dernière méthode connaît des résultats un peu moins performants que les précédentes. De nos jours, la technique dominante pour la modélisation acoustique repose sur la théorie des Modèles de Markov Cachés [Rabiner, 1998 ; Bourlard et Morgan, 1995]. 8 I.3.3 PHASE D’APPRENTISSAGE Pendant la phase d’apprentissage un ou plusieurs locuteurs prononcent une ou plusieurs fois chacun des mots de l'application prévue. Ces prononciations sont toutes prétraitées puis conservées telles quelles ou bien moyennées dans un dictionnaire de références en tant que "images acoustiques". L’étape d’apprentissage consiste à caractériser les classes de formes de manière à bien distinguer les familles homogènes de formes. C’est une étape clé dans la modélisation des SRAP. Les algorithmes d'apprentissage peuvent se catégoriser, selon le mode d'apprentissage qu'ils emploient, en deux types : apprentissage supervisé et apprentissage non supervisé [Duda et al., 2001]. APPRENTISSAGE SUPERVISE : dans le cas d’apprentissage supervisé, un échantillon représentatif de l’ensemble des formes à reconnaître est fourni au module d’apprentissage. Chaque forme est étiquetée par un expert, cette étiquette permet d’indiquer au module d’apprentissage la classe dans laquelle l’expert souhaite que la forme soit rangée. Cette phase d’apprentissage consiste à analyser les ressemblances entre les formes d’une même classe et les dissemblances entre les formes de classes différentes pour en déduire la meilleure partition de l’espace des représentations. Les paramètres décrivant cette partition sont stockés dans une table d’apprentissage à laquelle le module de décision se référera ensuite pour classer les formes qui lui sont présentées. Parfois il est préférable d'associer une forme non pas à une classe unique, mais une probabilité d'appartenance à chacune des classes prédéterminées (on parle alors d'apprentissage supervisé probabiliste). APPRENTISSAGE NON SUPERVISEE : Dans ce type d’apprentissage, on fournit au système de reconnaissance un grand nombre de formes non étiquetées. Le nombre de classes peut être connu ou non, mais les classes des échantillons ne sont pas connues, ce qu’on sait c’est que l’ensemble des échantillons représente ce qu’on doit connaître. Aucun expert n'est requis. L’étape de la classification va se charger d’identifier automatiquement les formes appartenant à une même classe. L'algorithme doit découvrir par lui-même la structure plus ou moins cachée des données. Le système doit cibler les données selon leurs attributs disponibles, pour les classer en groupe homogènes de formes. La similarité est généralement calculée selon une fonction de distance entre paires de formes. 9 I.3.4 PHASE DE RECONNAISSANCE Dans tous les systèmes de reconnaissance de la parole il faut, à un moment ou à un autre, prendre la décision d’accepter ou de rejeter un segment de parole (la suite des vecteurs acoustiques issus de la phase de paramétrisation). La reconnaissance revient à situer une suite de vecteurs acoustiques dans un graphe d’hypothèses. Si la modélisation est à base de distributions, les hypothèses à tester seront par exemple : "cette séquence est-elle bien modélisée par la distribution X ?". La vraisemblance entre cette suite de vecteurs acoustiques et la distribution X permet alors de mesurer la vraisemblance de l'hypothèse. La comparaison des différentes vraisemblances d’hypothèses entre elles ou par rapport à un seuil permet enfin de déterminer si l'hypothèse est vérifiée. Cette phase de décision, qui nous permet de classe une forme par comparaison aux modèles de classes appris lors d’une phase préalable d’apprentissage, dépendra fortement de la phase de modélisation choisie ainsi qu’au type d’application. I.4 METHODOLOGIES DE RECONNAISSANCE Traditionnellement, deux méthodologies sont proposées en reconnaissance de la parole : l'approche analytique et l'approche globale. La première approche consiste à décomposer le problème : à partir d'une étape de décodage acoustico-phonétique, une suite de modules de niveau supérieur va permettre de traiter le signal de parole. Notons que l'approche analytique est, en règle générale, fondée sur des bases de connaissances formelles (de type système expert). Par contraste, la seconde approche cherche à identifier globalement des segments de parole en les comparants avec des références enregistrées préalablement [Igounet, 1998]. I.4.1 APPROCHE ANALYTIQUE Les caractéristiques principales de l'approche analytique sont une segmentation a priori du signal acoustique, une organisation modulaire hiérarchique et l'utilisation de bases de connaissances formelles. Elle tire partie de la structure linguistique des mots et tente de détecter et d'identifier les composantes élémentaires (phonèmes, syllabes, etc.). Celles-ci sont les unités de base à reconnaître. Cette approche a un caractère plus général que l’approche globale : pour 10 reconnaître de grands vocabulaires, il suffit d'enregistrer dans la mémoire de la machine les principales caractéristiques des unités de base. La méthode analytique est la plus utilisée car les mots ne sont pas mémorisés dans leur intégralité, mais traités en tant que suite de phonèmes, la capacité de mémoire nécessaire est donc moins importante. I.4.2 APPROCHE GLOBALE L'approche globale évite toute segmentation a priori et ne fait pas d'hypothèses sur le type des éléments à traiter. Elle effectue des comparaisons sur un ensemble de références en traitant les données et les connaissances dans leurs globalités. Le principe de base de cette méthode consiste à donner au système de reconnaissance au moins une image de chacune des unités qu'il est censé devoir identifier par la suite. Cette opération est faite lors de la phase d'apprentissage qui permet de constituer la base de données de référence du système. Le processus de décodage consiste alors à comparer l'image de l'unité à identifier avec celles de la base de référence. L'unité dont la référence est la plus proche est déclarée reconnue. Par ailleurs, dans la mesure où les données à traiter sont constituées d'une suite d'unités (comme, par exemple, la reconnaissance d'une phrase composée de mots), l'unité de base sera le plus souvent le mot considéré comme une entité globale, c'est à dire non décomposée. Cette méthode a pour avantage d'éviter les effets de coarticulation, c'est à dire l'influence réciproque des sons à l'intérieur des mots. Elle est cependant limitée aux petits vocabulaires prononcés par un nombre restreint de locuteurs. Cette approche englobe trois modules important dans le traitement automatique de la parole : la reconnaissance des mots isolés, la reconnaissance de mots enchaînés et la reconnaissance de la parole continue. Plusieurs types de stratégies de reconnaissance peuvent alors être appliqués. Les algorithmes de comparaison utilisés dans l'approche globale consistent soit en une mesure de similarité par rapport à des formes de référence, soit en une mesure de probabilité par rapport à des modèles probabilistes. À partir des années quatre-vingt, la majorité des SRAP s'orientent petit à petit vers les techniques les plus prometteuses : l'approche globale probabiliste. 11 I.5 APPROCHES APPLIQUEES A LA RAP La recherche dans le domaine de la reconnaissance automatique de la parole a donné lieu à bon nombre de techniques et algorithmes. Deux d’entre eux ont connu et connaissent encore un grand succès accompagné de performances intéressantes. Il s’agit des modèles statistiques qui permettent de traiter la grande variabilité du signal vocal par l'analyse préalable d'un grand nombre d'échantillons vocaux et les modèles connexionnistes à base de réseaux neuromimétiques. Ces modèles sont naturellement utilisés en parole bien que les modèles statiques sont actuellement les plus répandue dans les SRAP. I.5.1 APPROCHE STATISTIQUE Certains pensent que sans l’apport des statistiques, les systèmes de reconnaissance de la parole n’auraient jamais quitté les laboratoires. Jusqu’aux années 1970, les logiciels de reconnaissance vocale tentaient d’identifier, dans le signal de la parole, les formes caractéristiques des voyelles et des consonnes. Cette approche échoua en raison de la très grande diversité de prononciation des phonèmes mais aussi en raison de la difficulté de distinguer le signal du bruit ambiant. L’adoption de modèles statistiques fondés sur les chaînes de Markov cachées a changé la donne. « Chaînes » car les logiciels découpent le flot de parole en une succession de sons, et « cachées » parce que l’une des variables définies dans le modèle est inconnue à l’avance. Concrètement, le logiciel découpe les mots prononcés en brèves tranches de 10 millisecondes et cherche à associer ces tranches à une composante d’un phonème : à l’attaque, à sa partie stable ou à la fin (la variable cachée). Puis il compare le spectre sonore avec ceux qu’il a en mémoire, c’est-à-dire les souvenirs statistiques qu’il a acquis lors d’un long apprentissage à l’aide de textes cumulant des centaines de millions de mots ! Ces textes sont lus dans le contexte sonore auquel est destinée l’application pour savoir gérer le bruit ambiant, et par plusieurs personnes pour représenter la variabilité phonétique interindividuelle. Grâce aux modèles de Markov, les logiciels de reconnaissance vocale peuvent atteindre 95% de réussite dans de bonnes conditions sonores. Certains, comme les modèles multi-bandes, pallient le fait que le modèle de Markov considère de façon équivalente toutes les fréquences car ils sont capables de se concentrer sur la gamme de fréquences extérieure au bruit. Les réseaux bayésiens permettent, eux, de choisir 12 beaucoup plus librement les relations de dépendance entre les variables des modèles. L’avenir des logiciels de reconnaissance vocale réside probablement dans l’exploitation conjointe des statistiques et des connaissances en psycho-acoustique. I.5.2 APPROCHE NEURONALE L’une des alternatives à l’utilisation des modèles de Markov cachés (HMM) en reconnaissance est le recours à des réseaux neuronaux [Barreaud, 2004]. Un réseau de neurones est une interconnexion de cellules simples (neurone). Chaque neurone possède plusieurs entrées et une sortie. Le signal de sortie peut être la somme pondérée (éventuellement seuillée) des signaux collectés en entrée. L’utilisation des Réseaux de Neurones artificiels (RN) est largement répandue dans les domaines devant résoudre des problèmes de classification et de reconnaissance des formes. Les RN possèdent des propriétés très appréciées en RAP : Leur apprentissage est discriminant (ils permettent d’améliorer la reconnaissance d’une classe et simultanément de rejeter les autres classes). Ils ne nécessitent pas d’hypothèse sur les propriétés statiques des données en entrée (contrairement aux HMM qui les modélisent par PDF -Probability Density Function-). Dans le cas des réseaux de neurones appliqués à la reconnaissance automatique de la parole (mot ou toute autre unité acoustique), on utilisera le plus souvent des perceptrons multicouches. Plus généralement, on combinera le perceptron avec un algorithme d’alignement de type DTW (Dynamic Time Warping), les distances locales utilisées lors de la DTW étant les sorties du réseau de neurones [Bourlard et Morgan, 1994]. En plus de leur utilisation dans le problème de reconnaissance, les réseaux de neurones peuvent aussi servir à prétraiter le signal de parole et à extraire des paramètres discriminants. En effet, les coefficients de pondération des couches cachées d’un RN forment une série de paramètres caractérisant l’entrée. 13 I.6 PROTOCOLES DE TEST Les performances d’un algorithme de classification dépendent beaucoup des données utilisées en apprentissage et en test. Le corpus de données est limité et il doit être partitionné dans une partie d’apprentissage et une autre de test. Parmi les protocoles de test existants, nous pouvons citer [Jain et al., 2000] : Leave all in : utilise tous le corpus pour l’apprentissage et en même temps pour le test. Il assure un bon apprentissage mais il produit une vue optimiste des performances de l’algorithme. Ce protocole ne semble pas vraiment rigoureux pour une évaluation. La validation croisée : utilise une partie du corpus pour l’apprentissage et l’autre pour le test. Parmi les protocoles les plus utilisés, on trouvera : o Holdout Techniques : les parties de test et d’apprentissage sont fixées au début. Cependant, ceci peut être problématique lorsqu’on dispose d’un corpus de petite taille. o Leave one out : utilise tous les données sauf une pour l’apprentissage. Il permet d’utiliser un maximum de données pour l’apprentissage et il est très utilisé lorsque les corpus sont de tailles insuffisantes. Ré-échantillonnage : divise le corpus en une partie d’apprentissage et de test aléatoirement. Cette procédure donne des corpus de taille arbitraire. La procédure de test utilisée pour nos expérimentes est de type Holdout Techniques. I.7 CONCLUSION La recherche en reconnaissance de la parole et ces applications sont devenues de plus en plus pointues ; des moteurs de recherche vocaux sont en cours de développement et des applications divers dans plusieurs domaines d’applications économiques et commerciales sont aussi en cours d’utilisation dans les pays développés, de ce fait la machine sera petit à petit flexible avec les utilisateurs. 14 MODELE DE MELANGE DE GAUSSIENNES ans ce chapitre , nous nous intéressons à la représentation de la première approche que nous avons utilisées pour l’implémentation de notre système de reconnaissance automatique de la parole. Il s’agit d’un outil de modélisation stochastique, c’est le Modèle de Mélange de Gaussiennes (GMM). Nous avons consacré tout un chapitre pour étudier en détails ce modèle et présenté toutes les étapes qui le composent. D Mots-clés Reconnaissance Automatique de la Parole (RAP), Modèle de Mélange de Gaussiennes (GMM), algorithme d’Expectation‐Maximisation (EM). II.1 INTRODUCTION L’aspect hautement aléatoire du signal de parole impose que les techniques dédiées à son traitement puissent prendre en compte de façon efficace de nombreuses variabilités. L’approche probabiliste est bien appropriée pour gérer, avec un minimum de robustesse, ces configurations variées du signal. En outre, elle permet de définir une mesure de similarité entre un ensemble de données de test et un modèle de référence correspondant à une classe donnée. Cette mesure est utile dans tous les problèmes de classification où l’on doit prendre une décision à partir d’un nombre variable d’échantillons de test. En reconnaissance automatique de la parole, l’approche probabiliste a constitué l’état de l’art depuis plus de 10 ans maintenant. On la trouve dans la quasi-totalité des systèmes actuels, parfois associée à d’autres méthodes de classification. Dès la première tentative d'analyse d'un modèle de mélange par Pearson en 1894, l'étude des mélanges de lois est devenue un domaine à part entière de la statistique moderne. Les modèles de mélanges les plus utilisés en pratique sont les mélanges de gaussiennes, i.e. chaque classe est modélisée par une distribution normale. En particulier les modèles de mélanges de gaussiennes ont apporté des gains de performance importants grâce à leurs capacités à modéliser des formes complexes de distribution. II.2 RAPPELS PROBABILISTES II.2.1 PRINCIPE DE LA DECISION BAYESIENNE Le théorème de Bayes est un résultat de base en théorie des probabilités, issu des travaux de Thomas Bayes (1702-1761) et retrouvé ensuite indépendamment par Laplace. Dans son unique article, Bayes cherchait à déterminer ce que l’on appellerait actuellement la distribution a posteriori de la probabilité p d’une loi binomiale. La théorie de la décision bayesienne constitue une approche fondamentale de la reconnaissance des formes, leur but est d'introduire de l'information statistique dans un problème sous-contraint. Elle suppose que le problème puisse être entièrement spécifié en termes de probabilités et sous ces hypothèses, la décision bayesienne peut être considérée comme optimale. 15 II.2.2 REGLE DE BAYES On considère un ensemble de c classes notée {w1,w2,...wc} et un échantillon représenté par un vecteur de caractéristiques x, il s'agit de déterminer la classe wi qui maximise la probabilité a posteriori P(wi | x) . Pour chaque classe wi on suppose connaître : P(wi ) : la probabilité a priori de cette classe. p( x | wi ) : la densité de probabilité de x conditionnée par cette classe, aussi appelée vraisemblance de wi par rapport à x. La règle de Bayes permet de calculer la probabilité a posteriori de chaque classe, c'est-à- dire la probabilité conditionnée par l'observation de x, soit : P(wi | x) p( x | wi ) P(wi ) p ( x) (II.1) avec p ( x) p ( x | wi ) P ( wi ) (II.2) i II.2.3 ESTIMATION AU MAXIMUM DE VRAISEMBLANCE L’estimation au maximum de vraisemblance (ML pour Maximum Likelihood) est une méthode statistique pour déterminer un paramètre inconnu, en maximisant une probabilité. Pour estimer les paramètres d'un modèle en fonction des données X que ce modèle est censé représenter, l'estimateur de maximum de vraisemblance est celui qui maximise la probabilité des données dans le modèle. ML argmax p( X | ) (II.3) p( X | ) p( xi | ) (II.4) avec i 16 II.2.4 LOI NORMALE En probabilité, une variable aléatoire x suit une loi normale (ou loi gaussienne) (µ, ²) d’espérance µ et d’écart type si sa densité de probabilité est : p ( x) 1 x 2 exp 2 2 1 (II.5) Une telle variable aléatoire est dite variable gaussienne. II.2.5 LOI NORMALE MULTIDIMENSIONNELLE On appelle loi normale multidimensionnelle ou loi multinormale une loi de probabilité qui est la généralisation multidimensionnelle de la loi normale. Contrairement à la loi normale classique, paramétrée par un scalaire μ correspondant à sa moyenne et un second scalaire σ2 correspondant à sa variance, elle est paramétrée par un vecteur µ de R D représentant son centre et une matrice de R D R D représentant sa matrice de variance-covariance. Chaque élément µi de µ représente l'espérance de la variable aléatoire xi et chaque élément ij de représente la covariance des variables aléatoires xi, xj et en particulier, chaque élément diagonal ij de représente la variance i2 de la variable aléatoire xi. Comme toute matrice de variance-covariance, la matrice est symétrique réelle, à valeurs propres positives ou nulles; lorsque la loi multinormale est non dégénérée (c'est-àdire qu'il n'existe aucune relation affine presque sûre entre les composantes du vecteur aléatoire), la matrice est à valeurs propres strictement positives : elle est définie positive. Dans ce cas, la loi multinormale admet une densité sur RD . Un vecteur aléatoire X de R D a une distribution normale multidimensionnelle de moyenne µ et de matrice de variances-covariances si sa fonction de densité est définie de RD dans R de la manière suivante : 1 p( x) (2 ) D 2 1 2 1 exp ( x )T 1 ( x ) 2 (II.6) que l'on notera (µ, ) par analogie avec la notation (µ, ²) de la loi normale univariée. 17 II.2.6 MELANGE DE LOIS La notion de mélange est très importante en probabilité, statistique et modélisation. Le modèle de mélange de lois traduise une fonction de densité régissant la distribution de données à l’aide d’une combinaison linéaire de plusieurs fonctions de densité élémentaires, il suppose que les vecteurs observés xt sont des réalisations de variables aléatoires mutuellement indépendantes, qui suivent toute une même loi ayant la forme suivante : p ( x ) i pi ( x ) (II.7) i Où chaque pi ( x) est une densité de probabilité, et les i sont des scalaires positifs. Le fait que p( x) soit une densité de probabilité implique que i 1 . i L’approche la plus connue est le modèle de mélange de gaussiennes où les densités élémentaires sont des lois normales multidimensionnelles. II.3 MODELE DE MELANGE DE GAUSSIENNES Depuis l’introduction des modèles de mélanges de gaussiennes (GMM pour Gaussian Mixture Model) par Douglas Reynolds en 1992 [Reynolds, 1992], ils ont été largement utilisés dans le domaine de la reconnaissance des formes car ils correspondent à une situation où les données appartiennent à un ensemble de classes distinctes, avec une probabilité d’appartenance propre à chaque classe. Le cas particulier considéré ici est celui où dans chaque classe les données suivent une loi gaussienne. Ce choix tient essentiellement au fait que la loi gaussienne appartient à une famille de distributions dite exponentielles pour lesquelles le problème de l’identification des composantes du mélange se trouve simplifié. II.3.1 DEFINITION Le modèle de mélange de gaussiennes fait partis des méthodes de classification paramétrique globale. Il consiste à supposer que la distribution des données peut être décrite comme une somme pondérée de densités gaussiennes multidimensionnelles. Chaque gaussienne du modèle est caractérisée par son poids, son vecteur moyen et sa matrice de covariance [Reynolds, 1995]. Un exemple simple de GMM est illustré sur la figure II.1. 18 Mélange des 3 gaussiennes Probabilité Modèle statistique gaussien Valeur d’une caractéristique FIG. II.1 : Exemple d’un modèle de mélange de 3 gaussiennes Formellement, la densité de probabilité d'un vecteur aléatoire x de dimension D suivant un modèle GMM à Q composantes s’écrit de la façon suivante : Q p( x | ) wk ( x; k , k ) k 1 (II.8) où : wi : le poids de mélange de la gaussienne i, avec la contrainte : Q w k 1 k 1 et k : wk 0 (II.9) ( x; , ) : la densité de probabilité gaussienne multidimensionnelle paramétrée par le vecteur moyen µ de dimension D et la matrice de covariance de dimension D×D (matrice symétrique définie positive). Cette densité est donnée par : ( x; k , k ) 1 (2 ) D 2 k 1 1 exp ( x k )T k 1 ( x k ) 2 2 (II.10) Un GMM est complètement spécifié par l’ensemble des paramètres (w, , ) Cette famille de modèles est bien adaptée pour approximer les densités de probabilités réelles multidimensionnelles. En effet, en augmentant le nombre Q de composantes gaussiennes, un GMM peut théoriquement modéliser n’importe quelle loi probabiliste [Reynolds, 1994]. 19 II.4 MODELISATION ACOUSTIQUE PAR LE GMM Après l’extraction des paramètres acoustiques qui sont les coefficients MFCC pour la parole (chapitre I), nous sommes arrivés à la phase de modélisation de ces paramètres selon les modèles de mélanges de gaussiennes pour assurer la reconnaissance. L’utilisation de cette modélisation est bien prometteuse, elle permet de bien modéliser les caractéristiques spectrales de la parole, et elle est relativement simple à mettre en œuvre [Reynolds, 1995]. Cette méthode se fonde sur l’hypothèse qu’un mélange de gaussiennes peut représenter n’importe quel ensemble de paramètres acoustiques. D’après l’exemple illustré par la figure II.2, nous pouvons confirmer que les coefficients MFCC (correspondant dans notre cas à un phonème donné) suivent des lois normales. distribution coef MFCC 2 FIG. II.2 : La distribution du deuxième coefficient MFCC Dans les systèmes de reconnaissance automatique de la parole, la répartition statistique des vecteurs acoustiques est modélisée par une densité de probabilité multidimensionnelle qui décrit la distribution des données. Cette densité, qui peut caractériser soit un phonème, soit un ensemble de phonèmes, est une somme pondérée, ou mélange, de gaussiennes dont la dimension correspond au nombre de coefficients des vecteurs acoustiques. 20 Chaque gaussienne composant cette distribution est caractérisée par son vecteur moyen, sa matrice de covariance et son poids, qui représente son importance dans le mélange [Reynolds 1995]. Les composantes de mélanges représentent les classes, et chaque élément appartient à l’ensemble des classes avec une probabilité d’appartenance. La classification phonétique à l’aide d’un GMM comprend 2 étapes : une phase d’apprentissage du système ou un ensemble de fichiers supposés représentatifs d’une classe et, une deuxième phase, de vérification de l’appartenance d’un phonème quelconque à cette classe [Istrate, 2003]. II.5 APPRENTISSAGE L’apprentissage a pour but d’estimer les paramètres des distributions gaussiennes qui composent le modèle à partir des vecteurs acoustiques des phonèmes composant la classe [Istrate, 2003]. L’apprentissage d’une classe se décompose en deux étapes successives : tout d’abord l’obtention des valeurs approximatives des paramètres de gaussiennes de la classe par quantification vectorielle, à l’aide de l’algorithme k-moyennes, ensuite l’optimisation des valeurs de ces paramètres en utilisant l’algorithme Expectation-Maximisation (EM). II.5.1 INITIALISATION DU MODELE Les GMM sont bien connus pour avoir un comportement très dépendant des conditions initiales. L’application de l’algorithme k-moyennes (ou k-means), présenté dans l’annexe A.2, permet d’éviter l’initialisation aléatoire qui peut amener les algorithmes d’apprentissage à être piégés vers des optima locaux de piètre qualité. II.5.2 L’ALGORITHME D’EXPECTATION-MAXIMISATION Le problème de l’estimation en présence de données incomplètes fait depuis une quarantaine d’années l’objet d’une littérature abondante. Celle-ci est largement dominée par la référence aux algorithmes de type Expectation-Maximisation (EM pour Expectation-Maximization) [Dempster et al., 1977]. D'après Dempster, Laird et Rubin (1977), l'algorithme EM est une approche générale qui fait un calcul itératif pour trouver des estimateurs du maximum de vraisemblance lorsque les données sont incomplètes. On l'appelle l'algorithme EM puisque chaque itération de l'algorithme consiste une étape d'Expectation et une étape de Maximisation. 21 II.5.2.1 PRINCIPE DE L’ALGORITHME EM Cet algorithme itératif utilise la distribution des données complètes pour calculer les estimateurs du maximum de vraisemblance lorsque les données observées sont cachées ou manquantes. L'objectif de l'algorithme EM est d'obtenir l'ensemble de paramètres * qui maximise la vraisemblance de X , où X ( x1 ,..., xN ) est la séquence des vecteurs d’apprentissage : N * arg max p( X | ) arg max p( xi | ) (II.11) i 1 Ce procédé se fait en deux étapes [Michaud, 2005] : Étape E (Expectation) : consiste à calculer l'espérance conditionnelle de la vraisemblance des données complètes sachant les données observées. Étape M (Maximisation) : consiste à maximiser l’espérance conditionnelle obtenue à l'étape E. Ces étapes sont répétées itérativement jusqu'à convergence et, on l'espère, l'obtention de l'estimateur du maximum de vraisemblance. II.5.2.2 ALGORITHME EM POUR LES GMM EM permet d’estimer les paramètres w1 ,..., wQ , 1 ,..., Q , 1 ,..., Q du modèle de mélange en construisant une suite ( (t ) ) qui maximise la vraisemblance complétée. L'algorithme, dans sa version de base, se déroule comme suit [Pellegrino, 1998] : ETAPE 1 – INITIALISATION Initialisation des paramètres : (0) wk(0) , k(0) et (0) k 1 k Q 22 ETAPE 2 – ITERATION o PHASE D'ESTIMATION Calcul de la probabilité a posteriori p(i | x j , ( t ) ) que le vecteur xj soit généré par la gaussienne i, pour tout i et pour tout j : p(i | x j , ) wi(t ) (t ) Q w k 1 où (t ) wk(t ) , k(t ) et (kt ) 1 k M (t ) k ( x j ; i(t ) , i( t ) ) (II.12) (x j ; , ) (t ) k (t ) k correspond aux paramètres du modèles après la tième itération. o PHASE DE MAXIMISATION Ré-estimation des paramètres du modèle à partir des probabilités p(i | x j , (t ) ) wi(t 1) 1 N p(i | x j , (t ) ) N j 1 N i(t 1) x j 1 N j p (i | x j , ( t ) ) p(i | x , j 1 N i( t 1) p(i | x , j 1 (t ) j (II.13) j (II.14) (t ) ) )( x j i( t 1) )( x j i( t 1) )T N p(i | x j , (t ) ) (II.15) j 1 o Incrémentation de t à t +1 et retour à la phase d'estimation. ETAPE 3 – ARRET DE L'ALGORITHME L'étape 2 est itérée jusqu'à convergence c’est-à-dire lorsque la vraisemblance n’est plus améliorée ou lorsque l’on atteint la limite maximale du nombre d’itérations. On déduit les paramètres du modèle EM w1EM , w2EM ,..., wQEM , 1EM , 2EM ,..., QEM , 1EM , 2EM ,..., QEM 23 Un point délicat dans la mise en œuvre de l’algorithme EM concerne l’initialisation de cet algorithme. Dans l’implémentation effectuée, l'étape 1 est remplacée par une initialisation des gaussiennes à partir des résultats obtenus avec un algorithme de quantification vectorielle (cf. §.II.5.1). D'autre part, lorsque l'on ré-estime les matrices de covariances, il est courant de leur ajouter une matrice diagonale de petite valeur de manière à éviter qu'elles ne deviennent singulières (ce cas peut se produire lorsqu'on dispose de peu de données par exemple) [Kambhatla, 1996]. La figure II.3 mettre en évidence l’importance de la phase d’initialisation qui joue un rôle fondamental dans la détermination du résultat final. initialisation résultat Exemple d’exécution de l’algorithme EM bien initialisé initialisation résultat Exemple d’exécution de l’algorithme EM mal initialisé FIG. II.3 : L’importance de la phase d’initialisation de l’algorithme EM 24 II.6 RECONNAISSANCE Après l’estimation des paramètres du modèle, nous sommes arrivés à la phase de reconnaissance qui permet de déterminer la classe wi la plus probable à partir du calcul de la vraisemblance [Dufaux, 2001 ; Boite et al., 2000], pour chaque vecteur acoustique du signal X obtenu à l’instant t. La vraisemblance d’un son constitué d’une suite temporelle de plusieurs vecteurs est la moyenne géométrique des vraisemblances de chacun de ses vecteurs : N p( X | ) p( xi | ) (II.16) i 1 La raison d’être des modèles statistiques repose sur leur aptitude à évaluer la qualité de la modélisation par rapport aux données. La vraisemblance entre vecteur acoustique et classes est une mesure de cette qualité, elle se calcule généralement sur une échelle logarithmique à partir de la probabilité pour que chaque vecteur ait été émise par le modèle. Cette probabilité est calculée à partir du vecteur acoustique et de la distribution du GMM (cf. Fig. II.4). Vecteur acoustique GMM Calcul de vraisemblance Somme pondérée Vraisemblance du GMM FIG. II.4 : Calcul de la vraisemblance d’un vecteur acoustique par rapport à un GMM 25 La classe de phonème d’appartenance est celle pour laquelle la valeur de vraisemblance moyenne est maximale [Istrate et al., 2005], conformément à l’équation (II.17). p( X | wi ) max p( X | w j ) j (II.17) Dans le but de rendre les occurrences des observations sous forme d’une séquence de M vecteurs, un rééchantillonnage linéaire dans le temps est effectué. Chaque occurrence observée Y de durée d (d trames) donne une occurrence rééchantillonnée X : Y ( y0 ,..., yd 1 ) X ( x0 ,..., xM 1 ) (II.18) avec xi y i. d 1 M 1 (II.19) Le processus de reconnaissance par le modèle de mélange de gaussiennes est présenté dans la figure suivante : Signal de parole Extraction de paramètres et normalisation Fichier d’apprentissage Initialisation du GMM (k-means) Fichier de teste Apprentissage du GMM (EM) Apprentissage Vérification d’appartenance à une classe donnée par le calcul de la vraisemblance Classe de phonème Teste FIG. II.5 : Processus de reconnaissance par le modèle GMM 26 II.7 MODELISATION DE L’INFORMATION DYNAMIQUE II.7.1 INTERET DES INFORMATIONS DYNAMIQUES Les informations dynamiques sont une source d'informations potentielle pour caractériser la parole au même titre que les informations statiques. La complémentarité des informations statiques et dynamiques a été à plusieurs reprises mise en évidence [Fredouille, 2000]. Les informations dynamiques constituent par conséquent un apport non négligeable pour les systèmes de RAP. L'intérêt que suscitent les informations dynamiques est cependant tempéré par la complexité de traitement de ce type d'informations. La complexité est sensiblement accrue par rapport à l'exploitation simple des informations statiques. II.7.2 AJOUT DE L’INFORMATION DYNAMIQUE Bien que les GMM soient capables de représenter la structure spectrale d'une large classe phonétique, ils n’exploitent pas la structure temporelle du signal de parole (perte de l’information temporelle entre les vecteurs de caractéristiques successifs). Seule l’information dynamique à court terme, calculée lors de la paramétrisation, est prise en compte. Pour pallier à ce défaut, nous avons proposé deux solutions: la première solution proposée est l’intégration d’une composante temporelle aux vecteurs acoustiques, tandis que la deuxième solution consiste à ajouter les dérivées temporelles des coefficients cepstraux au vecteur de paramètres. II.7.2.1 INTEGRATION D’UNE COMPOSANTE TEMPORELLE (T-GMM) Dans la première solution, nous proposons une nouvelle représentation des occurrences de phonèmes basée sur l’intégration d’une composante temporelle aux vecteurs acoustiques de dimension D =13. Les nouveaux vecteurs des occurrences non rééchantillonnées auront une dimension D’=14. L’ajout d’une information temporelle dans les paramètres caractéristiques d’une forme (image, parole,…) permet de suivre l’évolution de ces paramètres dans le temps. On constate que dans ce cadre-là, les travaux de [Greenspan, 2004] dont l’ajout d’une composante temporelle au vecteur caractérisant un pixel d’une image extraite d’une séquence vidéo, ont permis de modéliser l’évolution des pixels au cours du temps pour une tâche de détection des régions par des mélanges de gaussiennes. 27 L’idée consiste à rajouter dans chaque vecteur sa position temporelle dans l’occurrence non rééchantillonnée qui prend une valeur entre 1 à d (d est la longueur de l’occurrence non rééchantillonnée). Ces éléments ajoutés sont ensuite normalisés par la longueur d pour prendre des valeurs entre 0 et 1. L’algorithme de rééchantillonnage qui extrait les observations de longueur fixe M=5, prend toujours les deux extrémités des occurrences non rééchantillonnées, ce qui produit dans le dernier vecteur de caractéristique, toutes les composantes temporelles égales à 1, donnant ainsi une variance nulle pour cette composante temps et une matrice de variance covariance singulière. Afin de contourner ce problème, deux méthodes sont proposées [Greenspan, 2004] pour introduire l’information concernant le temps dans les vecteurs acoustiques. 1) MODELE TD-GMM Dans la première méthode, l’intégration de la composante temporelle se fait dans tous les vecteurs acoustiques des observations non rééchantillonnées (avec des vecteurs de dimension D’=14) sauf dans le dernier vecteur ou cette composante ne sera pas utilisée et la dimension de ce vecteur sera D=13. Cette composante temporelle utilisée nous permet de modéliser à part la distribution des coefficients cepstraux et leur rang dans l’occurrence initiale. 2) MODELE TS-GMM Pour la deuxième méthode, nous suggérons d’ajouter à chaque vecteur acoustique d’une observation une composante temporelle constante de la forme 1/d. Cette nouvelle représentation nous offre la possibilité de modéliser la distribution des vecteurs acoustiques et de la durée des occurrences. II.7.2.2 AJOUT DES DERIVEES TEMPORELLES Une solution simple pour la prise en compte de l’information temporelle, qui est largement utilisée pour la reconnaissance de la parole, consiste à inclure dans le vecteur de caractéristiques les dérivées temporelles des vecteurs cepstraux [Rabiner et Juang, 1993 ; Furui, 1986], appelées coefficients Delta (première dérivée) et Delta-Delta (seconde dérivée). Il est possible aussi de fusionner les GMM avec d’autres méthodes de manière à tenir compte l’information temporelle lors de la modélisation du signal (voir par exemple [Reynolds, 1997]). 28 Néanmoins, l’utilisation des dérivées temporelles des vecteurs acoustiques, appelées encore coefficients de delta et delta-delta, reste l’approche la plus populaire actuellement en raison de la simplicité pour sa mise en œuvre et l’amélioration de performances que l’on peut observer. Les dérivées des coefficients (, ) : pour pouvoir tenir compte des variations dans le temps des paramètres pour les GMM qui calculent une valeur de vraisemblance à chaque instant on utilise les dérivées de ceux-ci. La dérivée d’un paramètre acoustique est la mesure de sa variation en temps. Comme la fonction de variation des paramètres acoustiques est inconnue et seulement des valeurs à des instants précis sont connues, le calcul de la première dérivée et la deuxième dérivée se fait par une approximation. Les formules d’approximation du calcul de la première dérivée et la deuxième sont décrites plus précisément en annexe B. II.8 CONCLUSION Nous avons exposé à travers ce chapitre la modélisation GMM des vecteurs acoustiques, utilisés dans la conception de notre système de reconnaissance de la parole, ainsi que l’approche d'estimation des paramètres statistiques à savoir l'algorithme EM. L’avantage de la modélisation GMM se récapitule dans ce qui suit : L’utilisation d’un mélange de plusieurs densités gaussiennes permet de donner une très bonne représentation des vecteurs acoustiques. Il est à noter que les vecteurs acoustiques suivent des densités de probabilité très complexes. La connaissance de la forme multidimensionnelle d’une densité gaussienne simplifié beaucoup l’apprentissage de ce type de modèle. Le temps d’apprentissage et relativement petit par rapport à d’autre modèle. Un autre élément qui permet d’expliquer le succès des GMM est l’existence d’un outil très puissant pour l’estimation des paramètres qui leur sont associés : l’algorithme EM. Bien que les modèles GMM soient capables de capturer les informations à plus long terme, ils ne contiennent pas d’aspects dynamiques. Nous verrons plus précisément au chapitre suivant dans quelle mesure les modèles de Markov cachés permettent de modéliser l’aspect séquentiel des données. 29 MODELE DE MARKOV CACHE ous décrivons dans ce chapitre un modèle très important dans la reconnaissance des formes, en générale, et dans les système de reconnaissance de la parole, en particulier c’est le Modèle de Markov Caché (HMM). L’objectif de ce chapitre est de dresser un portrait général de cet outil et de présenter les différents algorithmes utilisés pour mieux comprendre ensuite le fonctionnement de notre système de reconnaissance. N Mots-clés Système de Reconnaissance Automatique de la Parole (SRAP), Modèle de Markov caché (HMM). III.1 INTRODUCTION Il n'est pas évident de traiter les informations portées sur les signaux de la parole, les vidéos, le texte et les bioséquences en utilisant de simples méthodes de classifications. La modélisation stochastique permet l’utilisation des modèles probabilistes pour traiter les problèmes à information incertaine ou incomplète. Ainsi, les modèles de Markov connaissent un regain d’intérêt tant dans leurs aspects théoriques qu’appliqués. Les modèles de Markov cachés (HMM) sont très utilisés dans de nombreuses applications [Cappé, 2001], principalement dans le domaine de la reconnaissance de la parole et imagerie. Ces applications ne se contentent pas de s’appuyer sur la théorie des HMM, mais développent plusieurs extensions théoriques dans le but d’améliorer les modèles. C’est ce qui en a fait leur succès. Les HMM sont apparus dans la problématique de la reconnaissance automatique de la parole dans les années 70 [Baker, 1975 ; Jelinek, 1976]. L’idée sous-jacente est que la parole peut être caractérisée par un processus aléatoire dont les paramètres peuvent être estimés d’une manière appropriée. Les modèles HMM ont prouvé leur efficacité dans de nombreux domaines de la reconnaissance automatique de la parole, au fil des recherches le terme de « modèle de Markov caché » a été introduit et un grand nombre d’applications ont été développées. III.2 MODELE DE MARKOV Les modèles de Markov ont été découverts au début du 20ème siècle par Andrei Andreevich Markov (1913), une première application a été développée par Markov pour analyser le langage [Markov, 1913]. Ces travaux ont été utilisés régulièrement mais les premières applications exploitables furent réalisées dans le années 60. Un modèle de Markov est un processus stochastique à temps discret se trouvant à chaque instant dans un état pris parmi N états distincts [Rabiner et Juang, 1993]. Les transitions entre les états se produisent entre deux instants discrets consécutifs, selon une certaine loi de probabilité. La propriété importante des modèles markoviens est que l’état du système à l’instant t ne dépend pas de son passé, mais uniquement de son état à l’instant t-1 : ceci est appelé la propriété de Markov. 30 III.3 MODELE DE MARKOV CACHE Les modèles de Markov cachés (HMM pour Hidden Markov Model) [Rabiner, 1989] sont des modèles statistiques dédié à la modélisation des processus évoluant au cours du temps [Scharf, 1991 ; Rabiner et Juang, 1993]. Dans un modèle de Markov caché, nous avons connaissance d'une certaine séquence d'observations mais on ne sait pas exactement de quelle façon les observations ont été produites (ce sont les symboles émis qui sont observables). En fait, la séquence d'observation dépend d'une séquence d'états non observables (cachées), ce qui explique le nom donné à ce modèle. III.3.1 DEFINITION FORMELLE Un HMM est un processus doublement stochastique composé de deux processus : l'un caché, prenant ses valeurs sur un ensemble d'états et qui est une chaîne de Markov non observable, l'autre observable prenant ses valeurs parmi les séquences d'observations physiques, qui peuvent être émises par chaque état selon une fonction de densité de probabilité. La définition d'un modèle de Markov caché demande donc la spécification d'un nombre distinct de symboles d'observations, qui correspondent pratiquement aux sorties effectives du processus à modéliser. Plus simplement, c’est un modèle qui décrit les états d’un processus markovien à l’aide des probabilités de transition et des probabilités d’observation par états. Les HMM définissent donc un processus stochastique : Non déterministe : une même séquence de symboles peut être générée de plusieurs manières différentes. Markovien : la séquence des états (le chemin) constitue une chaîne de Markov simple puisque la probabilité de transition vers un état ne dépend que de l’état actuel et non des états rencontrés précédemment. Caché : on observe les symboles générés par le modèle mais pas la séquence des états qui génèrent ces symboles. 31 Formellement un modèle de Markov caché du premier ordre1 est défini par un triplet = {A, B, }, qui est caractérisé par les éléments suivants : S = {s1, s2, … , sN} : un ensemble de N états cachées contenant un état initial, un état final et des états émettant des symboles. On note qt l'état courant à l'instant t. V = {v1, v2, … , vM} : un alphabet composé de M symboles différents générés par le modèle. On note ot le symbole observé au temps t A = {aij} : une matrice de distribution des probabilités de transitions entre les états. Le terme générique aij désigne la probabilité de transition de l’état si vers l’état sj, sachant qu’il n’existe pas de transition pour aller vers l’état initial et qu’il n’existe pas de transitions partant de l’état final. On a : aij P(qt 1 s j \ qt si ), 1 i, j N (III.1) B = {bj(k)} : une matrice de distribution des probabilités d'émission des symboles pour chaque état émetteur. Le terme générique bj(k) désigne la probabilité de générer le symbole vk en étant à l’état sj à l’instant t. On a : b j k P (vk à t \ qt s j ), 1 j N , 1 k M (III.2) = {i} : un vecteur de distribution des probabilités initiales, où i est la probabilité se situe dans l'état si à l'instant initial. On a : i P q1 si , 1 i N (III.3) Les matrices A, B et respect des contraintes stochastiques2. 1 Un HMM d’ordre 1 signifie que la probabilité de passer à un état si à l’instant t ne dépendant que de l'état à l’instant t-1 2 Une matrice est stochastique lorsque la somme en ligne de ses éléments vaut 1. 32 III.3.2 REPRESENTATION GRAPHIQUE ET MATRICIELLE Les modèles de Markov cachés sont fortement apparentés aux automates probabilistes d’états finis [Jouvet, 1988], définis par un graphe orienté (i.e. la topologie du modèle) composé de deux types de nœuds (les nœuds terminaux correspondant aux états initial et final, et les nœuds fonctionnels avec les probabilités d’émission correspondant aux états émetteurs) et des arcs (ou transitions) reliant ces états, et par un ensemble de distributions de probabilité sur les transitions. À chaque transition est associé un symbole d’un alphabet fini. Ce symbole est généré à chaque fois que la transition est empruntée. Contrairement aux automates probabilistes, un HMM génère un symbole au niveau des états et non des transitions. De plus, on associe à chaque état cachée non pas un symbole, mais une distribution de probabilité d'émission de symboles. Un exemple simple d’un HMM est illustré sur la figure III.1. V v1 , v2 S Début , s1 , s2 , s3 , Fin Début s A 1 s2 s3 Fin Début 0 0 0 0 0 Fin 0 0.4 0.6 0 0 0 0.3 0.7 0 0 0 0.2 08 0 0 0 0 s1 s2 s3 0.5 0 0.5 Début s B 1 s2 s3 Fin v2 0 0.1 0.9 0 1 0.5 0.5 0 0 v1 0 0.4 v1 0.1 v2 0.9 0.3 v1 0.0 v2 1.0 s1 0.5 0.6 s2 Début 0.5 Fin 0.7 v1 0.5 v2 0.5 s3 0.8 0.2 FIG. III.1: Représentation graphique d’un HMM : Exemple simple à 5 états et 2 symboles 33 III.4 TYPES DE DISTRIBUTION DES PROBABILITES DES SYMBOLES On distingue différentes classes des HMM en fonction du type de distribution des probabilités des symboles. Deux grandes classes sont remarquables : les HMM discrets et les HMM continus. Les HMM discrets sont plus faciles à implémenter, ont moins de paramètres à réestimer mais sont moins précises que les HMM continues. Les HMM discrets font moins d’hypothèses sur la nature des observations, mais demandent un corpus d’apprentissage plus important. III.4.1 MODELE DISCRET Les observations sont en général continues puisqu’elles proviennent de phénomènes physiques continus. On peut les discrétiser, en les quantifiant à l’aide d’un dictionnaire (l’alphabet d’observations dénombrables). Si l’on peut donner exhaustivement les valeurs des différentes composantes de la matrice B, donc travaillé avec des probabilités discrètes, on dit alors que le modèle est discret. On rencontre parfois le terme « DHMM » (Discrete Hidden Markov Model) dans la littérature pour ce type de modèle [Rabiner, 1989]. III.4.2 MODELE CONTINU Bien qu’il soit possible de quantifier les observations continues, il peut y avoir une sérieuse dégradation d’information associée à cette quantification (une perte d’information qui peut être importante). Pour éviter ce problème, on remplace pour chaque état l’ensemble des probabilités discrètes par une fonction de densité de probabilité d’observations continues. Chaque fonction de densité est conditionnée par l’état qui la supporte. Dans ce cas le HMM est dit continu « CHMM » (Continuous Hidden Markov Model) [Rabiner, 1989]. III.4.3 MODELE SEMI-CONTINU Les HMM semi-continus « SC-HMM » (Semi-Continuous Hidden Markov Model) sont la résultante d’une sorte de combinaison entre les HMM discrets et les HMM continus. Le principe est de remplacer les probabilités discrètes d’observation des symboles par une combinaison de ces probabilités et des fonctions de densité de probabilité continues dérivées du dictionnaire de la quantification vectorielle. Pour de plus amples informations sur ce sujet voir [Huang et Jack, 1988]. 34 III.5 TOPOLOGIES DES HMM Il existe deux types principaux de topologies des HMM : III.5.1 MODELE ERGODIQUE Un modèle de Markov caché ergodique est un modèle sans contrainte sur les connections, chaque état est atteignable depuis tout autre état en un nombre fini de transitions (cf. Fig. III.2). Le modèle est donc caractérisé par une matrice de transition aux coefficients strictement positifs. Ce type de modèle est plus général et intéressant lorsque le modèle représente un processus dont on veut suivre les évolutions des états. a11 S1 a22 a12 a21 S2 a23 a32 a31 a13 S3 a33 FIG. III.2 : Exemple d’un HMM ergodique III.5. 2 MODELE GAUCHE-DROITE Le modèle de Markov caché de type gauche-droite3 (cf. Fig. III.3) soumis à des contraintes de transition, il n’autorise aucune transition d’un état vers un autre d’indice inférieur : les états qui se succèdent ont donc des indices égaux ou supérieurs aux précédents (si t augmente, alors les indices des états augmentent également). Une fois dans le dernier état, le système est condamné à y rester : c’est pourquoi la probabilité initiale du premier état est posée égale à 1, les autres étant égales à 0. 3 On rencontre également les termes "left-right", "haut-bas" ou "up-down". 35 Formellement : aij 0 si i j (III.4) 0 si i 1 1 si i 1 III.5 a11 a22 i a12 S1 a33 a23 S2 S3 FIG. III.3 : Exemple d’un HMM gauche-droite La parole est un phénomène dont la dimension temporelle ne peut être ignorée. Les HMM utilisés pour la représenter sont, la plupart du temps, des modèles "gauche-droit" qui ne permettent pas de "retour en arrière". Dans ce cadre, Raimo Bakis [Bakis, 1976] a proposé un modèle type gauche-droite avec un pas de transition égale à 2 pour représenter un mot qui permet le bouclage sur l'état courant (progression acoustique stationnaire), le passage à l'état suivant (progression acoustique standard) ou le saut d'un état à l'autre en omettant l'état intermédiaire de la séquence apprise (progression acoustique rapide) (cf. Fig. III.4). Le nombre d'états du modèle est alors proportionnel à la durée moyenne de ce mot. aij 0 si j i 2; est le pas de transition a11 S1 a22 a12 S2 a33 a23 S3 a44 a34 a13 b1(o1) o1 III.6 a55 a45 S4 a35 a24 b2(o2) o2 b2(o3) o3 b3(o4) o4 S5 b4(o5) o5 b5(o6) o6 FIG. III.4 : Exemple d’un HMM à 4 états de type Bakis 36 Ce type de modèle permet de modéliser des signaux qui évoluent avec le temps, il est devenu le modèle générique dans le domaine de la RAP. Il est utilisé dans de nombreux systèmes pour modéliser les unités acoustiques de base à partir de concepts empruntés à la linguistique [Igounet, 1998]. Le choix de la topologie influe sur la qualité de la reconnaissance. Bien sûr, il existe évidemment encore bien d’autres topologies de modèles de Markov cachés. III.6 MODELISATION ACOUSTIQUE PAR LES HMM Pour la modélisation statistique acoustique, les modèles de Markov cachés sont aujourd’hui utilisés dans la grande majorité des systèmes de reconnaissance automatique de la parole [Rabiner et Levinson, 1985; Young et Woodland, 1994 ; Mérialdo, 1988 ; Jouvet, 1988 ; Lee et al., 1990 ; Cerf-Danon et al., 1991]. Les HMM sont généralement utilisés par les systèmes de reconnaissance de la parole pour faciliter l’identification des mots représentés par les ondes sonores captées. Dans ce cas, un HMM décrit la réalisation d’une concaténation de processus élémentaires qui représentent la séquence de paramètres acoustiques extraits d’un énoncé humain. Un HMM est donc une représentation statistique d’un événement. Les HMM supposent que le phénomène modélisé est un processus aléatoire et inobservable qui se manifeste par des émissions elles-mêmes aléatoires. Cette approche markovienne offre une flexibilité séduisante de modélisation pour un phénomène aussi complexe que la parole. L'utilisation des modèles HMM a permis de passer aux méthodes de reconnaissance par modélisation d'unités de parole, permettant de modéliser des unités de parole de plus petite taille (typiquement les phonèmes), ce qui est fondamental pour construire des systèmes de reconnaissance de la parole grand vocabulaire. Le signal de la parole peut être assimilé à une succession d’unités, chaque unité de parole est modélisée par un HMM. Dans le cadre des SRAP Markoviens, les unités acoustiques sont modélisées par des modèles de Markov cachés, typiquement des HMM « gauche-droite », à trois états (émetteurs) (cf. Fig. III.5). Le choix du nombre d’états tient compte des phénomènes de coarticulation, en faisant l’hypothèse que l’état du milieu modélise la partie stationnaire du phonème et les états extérieurs modélisent la coarticulation avec les phonèmes voisins. 37 ?-a a a-? FIG. III.5 : HMM « gauche-droite » modélisant le phonème « a » Les états peuvent représentés grossièrement un son (phonème). Dans un autre ordre d'idée, les états peuvent représentés les différentes versions de prononciation d'un mot. A chaque état du modèle de Markov est associée une distribution de probabilité modélisant la génération des vecteurs acoustiques via cet état. Les transitions représentent les différentes possibilités d'enchaîner les phonèmes. Cette intégration de la dimension temporelle dans le modèle explique pourquoi les chaînes de Markov cachées sont souvent utilisées dans les systèmes de reconnaissance de la parole. Notons cependant que les unités acoustiques généralement utilisées en RAP sont hiérarchiquement combinées entre elles pour former des séquences de niveau supérieur. Lors de la reconnaissance, l'unité acoustique de base est définie par le phonème, la concaténation de phonèmes forme alors un mot et la concaténation de mots forme une phrase. ?-s s s-a s-a a a-m a-m m m -? FIG. III.6 : Représentation du mot « sam » par concaténation de phonèmes Les systèmes de reconnaissance de la parole à base de HMM reposent donc sur les postulats suivants : 1. La parole est une suite d’états stationnaires, représentés par des vecteurs de caractéristiques du signal de parole composés généralement de coefficients MFCC. 2. L’émission d’une séquence de ces vecteurs est générée par un HMM respectant l’hypothèse markovienne d’ordre 1. 38 III.7 PRINCIPAUX PROBLEMES LIES AUX HMM III.7.1 LES TROIS PROBLEMES FONDAMENTAUX DES HMM On distingue trois problèmes principaux rencontrés lors de l'utilisation des modèles de Markov cachés [Rabiner, 1989] : PROBLEME 1 : étant donnés une séquence d’observations O o1 , o2 ,..., oT et un HMM ( A, B, ) , comment évaluer efficacement P(O \ ) , la probabilité d’observation que le modèle λ génère O ? PROBLEME 2 : étant donnés une séquence d’observations O o1 , o2 ,..., oT et un HMM ( A, B, ) , comment déterminer la séquence d’états cachés Q q1 , q2 ,..., qT qui a la probabilité maximale d’avoir généré O ? PROBLEME 3 : étant donnés un ensemble de séquences d'observations et un modèle initial λ, comment ajuster les paramètres du modèle λ pour maximiser la probabilité de la suite d’observations de la base d'apprentissage P(O \ ) ? 1) PROBLEME 1 : EVALUATION Le premier problème est un problème d’évaluation, qui peut également être vu comme un problème d’estimation de la capacité d’un modèle donné à reconnaître une séquence d’observations donnée. Autrement dit, comment évaluer le modèle afin de choisir parmi plusieurs celui qui génère le mieux la suite d’observations. C’est le problème que l’on peut avoir par exemple en reconnaissance de la parole (reconnaissance d'un mot dans un dictionnaire de M mots). La première façon qui vient à l’esprit pour calculer la probabilité d’observation d’une séquence est de sommer les probabilités conjointes sur tous les chemins possibles et réalisables dans le modèle. En pratique cette méthode demande une complexité de calcul faramineuse ce qui rend sa réalisation impraticable. Cependant cette probabilité peut être calculée par récurrence à l’aide d’un algorithme appelé Forward-Backward [Rabiner, 1989] qui permet de résoudre plus efficacement ce problème, en factorisant les probabilités de sous-séquences communes à plusieurs séquences. La complexité de ce calcul est bien inférieure N2T opérations au lieu de 2TNT opérations pour le calcul direct (avec N le nombre d'états et T la longueur de l'observation). 39 2) PROBLEME 2 : DECODAGE Dans les problèmes de reconnaissance, il est parfois utile d’associer à une séquence d’observations, une séquence d’état, étant donné un modèle. A ce stade, il est indispensable de déterminer une méthode permettant de retrouver les séquences d’états. Un critère d’optimalité qui s’avère raisonnable consiste à choisir la séquence d’état (ou le chemin) qui apporte un maximum de vraisemblance en respectant le modèle donné. Ce chemin est déterminé par l’algorithme de Viterbi [Viterbi, 1967 ; Forney, 1973], utilisant des techniques de programmation dynamique. C'est donc par cet algorithme que l'on accède aux états cachés associés à chacune des observations. Ce problème se rencontre, par exemple, lors de la reconnaissance de mots en parole continue, cet algorithme permet de décoder le signal pour estimer la position des phonèmes. 3) PROBLEME 3 : APPRENTISSAGE Le troisième problème se ramène à l’entraînement d’un HMM par un ensemble de séquences d’observations, en vue d’en optimiser les paramètres pour un problème spécifique donné. Le problème d’apprentissage peut être divisé en deux types, suivant l’architecture (nombre d’états du HMM et transitions autorisées) du modèle de Markov caché. Le premier concerne l’apprentissage supervisé dont l’architecture (i.e. la topologie) est connue. Le second type est l’apprentissage non supervisé dont l'architecture est inconnue. Dans ce second cas, on ne sait rien a priori sur le HMM. 1. APPRENTISSAGE SUPERVISE : Lorsque l’architecture est connue, le problème se réduit à un problème d’entraînement consistant à estimer les paramètres numériques (i.e. les probabilités initiales, de transition et d’émission) de manière à expliquer au mieux les séquences d’apprentissage. 2. APPRENTISSAGE NON SUPERVISE : Pour certaines applications, on ne dispose pas de connaissances suffisantes pour inférer naturellement la structure du HMM. L’apprentissage devient alors encore plus difficile. Il ne suffit plus de paramétrer une structure mais il faut également déduire cette structure des exemples fournis. 40 Dans notre travail, nous avons opté pour l’apprentissage supervisé des paramètres. Cet apprentissage se fait avec l’algorithme de Baum-Welch [Baum, 1972], qui est une application de la technique EM (Expectation-Maximisation) aux modèles de Markov cachés. III.7.2 AUTRES PROBLEMES LIES AUX HMM Malgré que les HHM bénéficient d’algorithmes d’apprentissage et de décodage performants (Algorithmes de Baum-Welch et de Viterbi) néanmoins, les hypothèses nécessaires à la mise en œuvre de ces algorithmes peuvent pénaliser les performances de ces modèles. Ainsi que la manipulation des HMM avec un ordinateur entraîne aussi un certain nombre de problèmes, notamment de calcul. Tous ces problèmes sont plus ou moins liés à la précision des calculs dans la machine, à la taille du corpus d’apprentissage et à la discrétisation des symboles qu’on applique. Parmi les problèmes les plus contraignants on peut citer [Bourlard et Wellekens, 1990] : Le dépassement de la précision des calculs de la machine. L’insuffisance de données pour l’apprentissage. La mise à jour des modèles lorsque les processus varient dans le temps. Le choix de l’architecture du HMM la mieux adaptée aux données. Le choix d’une bonne estimation initiale des probabilités du HMM. Pas de contexte acoustique pris en compte. Aucune corrélation entre les vecteurs acoustiques n’est directement modélisable. La séquence des états est un processus de Markov du premier ordre. Forme des densités de probabilité fixée (multi-gaussiennes ou discrète). En cas d'erreur de reconnaissance, il n'est pas possible de localiser précisément son origine. Le manque d’informations concernant la variabilité de la durée de séjour dans un état en favorisant les courtes durées. 41 III.8 SOLUTIONS DES TROIS PROBLEMES FONDAMENTAUX L’utilisation des HMM à des fins de reconnaissance est conditionnée par la résolution des trois problèmes qui leur sont associés : III.8.1 SOLUTION DU PROBLEME 1: ALGORITHME FORWARD-BACKWARD Nous définissons dans ce paragraphe les probabilités Forward-Backward qui jouent un rôle crucial aussi bien au niveau de l'estimation des paramètres qu'à celui de la restauration proprement dite. Dans cette approche, on considère que l’observation peut se faire en deux étapes : 1. L’émission de la suite d’observations {o1 , o2 ,..., ot } et la réalisation de l’état qt au temps t : forward. 2. L’émission de la suite d’observations {ot 1 , ot 2 ,..., oT } en partant de l’état qt au temps t : backward. On a donc deux façons de calculer la probabilité P(O \ ) : 1) ALGORITHME FORWARD Soit t (i) P(O, qt si \ ) la probabilité de générer la séquence d’observations O (o1 , o2 ,..., ot ) et de se trouver dans l’état qt à l’instant t. Cette variable peut être calculée de manière inductive : ALGORITHME : FORWARD Initialisation : Induction : Terminaison : ALGORITHME III.1 : L’algorithme Forward 42 Cet algorithme est appelé forward car l’induction est réalisée en avant : on calcule tout d’abord la probabilité de générer le premier symbole de la séquence, puis à chaque étape de l’induction on rajoute un symbole et on réitère la procédure jusqu’à ce que l’on est calculé la probabilité de génération de la séquence entière. Un algorithme similaire, l’algorithme backward, peut être utilisé pour réaliser ce calcul en arrière. 2) ALGORITHME BACKWARD On peut considérer le problème d'une façon analogue. On obtient alors l'algorithme backward, où le terme générique t (i) P(O \ qt si , ) est la probabilité de générer la séquence O {ot 1 , ot 2 ,..., oT } , sachant que l’on est à l’état qt à l’instant t. t (i) est calculé aussi par l’induction : ALGORITHME : BACKWARD Initialisation : Induction : ALGORITHME III.2 : L’algorithme Backward L'algorithme forward-backward consiste essentiellement en un calcul de probabilités forward t (i ) , et de probabilités backward t (i ) , nommées ainsi car elles nécessitent un passage vers l'avant ou à reculons à travers les données. On va voir par la suite que les probabilités forward et backward soient utile pour résoudre le problème de décodage et d’apprentissage. 43 III.8.2 SOLUTION DU PROBLEME 2 : ALGORITHME DE VITERBI La difficulté du problème de décodage se trouve dans la définition de la séquence d’états optimale, c’est à dire il y a plusieurs critères optimaux possibles. Par exemple on peut chercher la séquence Q pour que P(Q \ O, ) soit maximum. En fait, ce n’est pas la valeur de la probabilité maximale qui nous intéresse mais réellement le chemin, appelé chemin de Viterbi, qui permet de générer la séquence O avec cette probabilité. L’algorithme de Viterbi est un algorithme récursif basé sur les techniques de programmation dynamique, il permet de trouver à partir d’une suite d’observations, une solution optimale au problème d’estimation de la suite d’états. Etant donné une suite d'observations O (o1 , o2 ,..., oT ) et un modèle ( A, B, ) , il s'agit de trouver la suite d'états Q (q1 , q2 ,..., qT ) qui maximise la probabilité de l'observation O. Pour trouver la meilleure séquence d'états Q en connaissant la séquence d'observations O nous devons définir au préalable deux termes : t (i) max P(qt si , O \ ) la probabilité maximal de générer la séquence O suivant un unique chemin arrivant à l’état qt à l’instant t et t (i) l’état qui maximise cette probabilité. De même manière que pour t (i ) , la variable t (i) peut être calculée de manière inductive : ALGORITHME : VITERBI Initialisation : Induction : Terminaison : Backtracking : ALGORITHME III.3 : L’algorithme de Viterbi 44 Mise à part de l’étape du backtracking (tracement en arrière de la séquence d’état optimale ou le chemin de Viterbi), l’algorithme de Viterbi est très similaire à l’algorithme Forward. La principale différence résulte de la maximisation des probabilités attachées aux états précédents au lieu du calcul de la somme de ces probabilités. Nous constatons que l’algorithme de Viterbi délivre deux résultats importants, étant donné une séquence d’observation : La sélection, parmi tous les chemins possibles, du chemin optimal Q* q1* , q2* ,..., qT* qui correspond à la séquence d’état la plus probable au sens de probabilité de la séquence d’observations. La probabilité P* sur le meilleur chemin. III.8.3 SOLUTION DU PROBLEME 3 : ALGORITHME DE BAUM-WELCH C’est le problème le plus difficile en comparant avec les deux autres et comme les deux autres, on ne peut pas trouver un maximum global. L’idée principale est de modifier les paramètres du modèle λ pour gagner un maximum local. L’apprentissage se fait avec l’algorithme de Baum-Welch [Baum, 1972], qui est une application de la technique EM (Expectation-Maximisation : estimation statistique de paramètres cachés) aux modèles de Markov cachés. Cet algorithme est particulièrement adapté pour les configurations où l'on a des données incomplètes. Cela est dû au fait que l'on prend une espérance sur les suites d'états possibles. L’algorithme de Baum-Welch est une procédure de réestimation itérative des paramètres d'un HMM. Etant donné un modèle de Markov caché ( A, B, ) quelconque et une séquence d'observations O o1 , o2 ,..., oT , l'algorithme de Baum-Welch réestime les valeurs des matrices A, B et de façon à maximiser la vraisemblance de l'observation O : P(O o \ ) . On obtient après exécution de l'algorithme le modèle de Markov caché telle que argmax P(O o \ ) . 45 Introduisons les notations suivantes : ( A, B, ) : les paramètres du modèle estimés à l'itération précédente. ( A, B, ) : les paramètres du modèle estimés à l'itération courante. t (i, j ) : la probabilité de passer de l'état si à l'instant t à l'état sj à l'instant t+1, en générant la séquence d'observations O avec le modèle , ce qui peut s'écrire : t (i, j ) P(qt si , qt 1 s j \ O, ) (III.7) En utilisant les variables forward et backward précédemment vues, on établit la relation suivante : t (i, j ) t (i)aij b j (ot 1 ) t 1 ( j ) P(O \ ) t (i)aij b j (ot 1 ) t 1 ( j ) N N (i)a b (o t i 1 j 1 ij t 1 j (III.8) ) t 1 ( j ) t (i) : la probabilité d'être dans l'état si à l'instant t, étant donnés la séquence d'observations O et le modèle : t (i) P(qt si \ O, ) (III.9) Ce terme peut s'exprimer en fonction des variables forward et backward : t (i, j ) t (i ) t (i) P(O \ ) t (i) t (i) N (i) (i) i 1 t (III.10) t Si l'on reprend la définition de t (i, j ) , on remarque que si l'on somme t (i, j ) sur j, on retrouve : N t (i) t (i, j ) (III.11) j 1 46 Le calcul de t (i, j ) et t (i) est l'étape de calcul des probabilités a posteriori, étape préalable à la réestimation des paramètres du HMM. Ensuite, si on somme t (i) et t (i, j ) de t = 1 jusqu'à T-1, les quantités obtenues peuvent être considérées comme : T 1 (i) = Estimation du nombre de transitions effectuées à partir de si. t 1 t T 1 (i, j ) = Estimation du nombre de transitions effectuées de si à sj. t 1 t En utilisant les formules ci-dessus nous pouvons définir les formules de réestimation des paramètres du HMM ( A, B, ) : i 1 (i) (III.12) T 1 a ij (i, j ) t 1 T 1 t (III.13) (i) t 1 t T t 1 b j (k ) t ( j) s.t.Ot vk T (i) t 1 (III.14) t aij : est le rapport entre le nombre de transitions de si à sj et le nombre de passage par l'état si. b j (k ) : est le rapport entre le nombre de fois où on observe vk dans l'état si et le nombre de fois où l'automate s'est trouvé dans l'état sj. Les contraintes stochastiques sur les paramètres d’un HMM sont : N 1, i 1 i N (III.15) i 1 N b j ( k ) 1, 1 i N (III.16) i 1 47 Il est démontré qu’en itérant ces opérations, l'algorithme converge vers un HMM correspondant à un point critique (point d'inflexion ou maximum local) de P(O \ ) . ALGORITHME : BAUM-WELCH 1. Initialisation : Choisir des valeurs initiales : k = 0 2. Estimation des probabilités : calculer, en utilisant les variables forward-backward : 3. Réestimation des paramètres : k = 1, 2, 3,… 4. Poser et passer à l'étape 2, ou bien arrêter selon un critère d'arrêt. ALGORITHME III.4 : L’algorithme de Baum-Welch Le choix du modèle initial influe sur le résultat final: toutes les valeurs nulles de A et de B au départ, restent à zéro à la fin de l’apprentissage. III.9 RECONNAISSANCE La classification consiste à définir pour chaque classe un modèle de Markov caché, où chaque état représente un son (phonème) et émet de manière probabiliste un vecteur d’observations. Les transitions représentent les différentes possibilités d’enchaîner les sons. On attribuera à chaque phonème la classe modélisée par le HMM qui a la plus grande probabilité d’émettre ce phonème. Le classifieur utilisé pour sélectionner la meilleure classe candidate (i.e. la classe qui s’apparie le mieux au phonème en entrée) est basé sur un critère de maximum de vraisemblance (ML pour Maximum Likelihood), voir figure III.7. Ce classifieur prend le mot à reconnaître comme étant une séquence d’observations discrètes O1T (O1 , O2 ,..., OT ) produites par analyse et quantification vectorielle de type 48 LBG (donné dans l’annexe A.3) de la séquence de vecteurs de caractéristiques extraite de la parole, pour chaque modèle i du phonème i, ce classifieur calcule la probabilité P(O1T | i ) qui correspond à la probabilité d’obtenir la séquence O1T par le modèle i. Ces probabilités sont évaluées par la version logarithmique de l’algorithme de Viterbi [Levinson, 1986]. Finalement, le phonème testé est affecté à la classe du phonème K pour laquelle le modèle k maximise la probabilité d’émission de O1T . Vecteur acoustique Classe 1 | 1 Quantification vectorielle Classe 2 | 2 Sélectionner Séquence observée O K Classe n | 1 FIG. III.7 : Classifieur de phonème à base de maximum de vraisemblance De manière synthétique, un HMM est un automate pondéré stochastique particulier capable, après avoir été entraîné, d'estimer la probabilité qu'une séquence d'observations donnée ait pu être générée par son modèle. III.10 CONCLUSION L’étude des HMM nous a permis dans un premier temps de bien poser les bases théoriques associées à ces modèles. Dans un second temps, elle nous a permis de présenter les trois principaux problèmes que l’on est amené à traiter lorsqu’on manipule les HMM. Le grand intérêt des modèles de Markov cachés pour la classification est leur aptitude à traiter la nature à la fois statistique et séquentielle des observations. 49 Les principaux avantages des HMM sont attribués à leur cadre probabiliste, qui s'accorde bien avec la nature des signaux bruités comme le cas de la parole et de l’écriture manuscrite, et à leurs fondements théoriques qui ont permis la mise en œuvre d’algorithmes puissants pour l’apprentissage et la reconnaissance. L’information dynamique présentée dans les HMM (la classe d’un vecteur acoustique à un instant donné est fonction du vecteur à l’instant présent ainsi que les vecteurs acoustiques du passé et du futur) offre donc la possibilité de modéliser l’information temporelle dans un problème de classification. Les succès de l’approche pour la reconnaissance de la parole incitent l’extension de cette approche pour la classification du signal sonore. La motivation par ces avantages, représente les principales raisons du choix de cette méthode pour l’implémentation de notre système de reconnaissance automatique de la parole. 50 IMPLEMENTATION ET RESULTATS e chapitre illustre les fruits des trois premiers chapitres par la mise en test des approches considérées. Nous présentons divers résultats expérimentaux obtenus sur la base de données TIMIT, et nous conclurons par une étude comparative des différentes stratégies implémentées. C Mots-clés La base de données internationale de parole TIMIT IV.1 INTRODUCTION Après avoir donné l’aspect théorique du Modèle de Mélange de Gaussiennes et du Modèle de Markov Caché, il est nécessaire et intéressant de donner l’aspect pratique de différentes méthodes implémentées et évaluer leurs validités, en analysant les performances obtenues de nos expériences. IV.2 RESSOURCES : MATERIELLES ET LOGICIELS Pour la mise en œuvre de notre application, nous avons disposé d’un micro-ordinateur Intel Cor 2 de 1,87 GHz, possédant 01 Go de RAM. L’environnement soft de notre application est le Windows XP et compatible. Nous avons choisi le Matlab version 7.2 comme langage de programmation. IV.3 BASE DE DONNEES UTILISEE Pour le développement de notre système de reconnaissance, nous avons utilisé la base de données acoustique américaine TIMIT pour plusieurs raisons. Tout d'abord, cette base a été constituée pour illustrer au mieux la variabilité acoustique de l'anglais américain, et elle est fournie avec une segmentation phonétique de référence qui simplifie l'apprentissage initial des modèles phonétiques. De plus, TIMIT peut être considérée comme une base de données de référence. Sa large diffusion dans la communauté internationale permet une évaluation objective des performances des systèmes développés. Dans la base de données internationale de parole TIMIT, les parties réservés à l’apprentissages et tests ont été effectués à partir de phonèmes parlés extraits manuellement des phrases complètes multi-locuteurs, de la base de données TIMIT qui contient 61 phonèmes constituant la phonétique de la langue anglaise, tirés d’un total de 6300 phrases, 10 phrases parlées par chacun des 630 orateurs de 8 dialectes principaux de l’anglais américain. Ce corpus de discours lu a été conçu pour fournir des données de discours pour l’acquisition de connaissance acoustique phonétique, le développement et l’évaluation des systèmes de reconnaissance automatique de la parole. Il a résulté des efforts communs de plusieurs instances sous le patronage de l’agence DARPA (Defence Advanced Research Projects Agency) et ISTO (Information Science and Technology 51 Office), la conception du corpus de texte était un effort commun parmi le Massachusetts Institute of Technology (MIT), Stanford Research Institute (SRI) et Texas Instruments (TI). Le discours a été enregistré à TI, transcrit à MIT et maintenu, vérifié et préparé pour production de CD-ROM par le National Institute of Standards and Technology (NIST). Nous travaillons uniquement sur 18 phonèmes de la base de données TIMIT, divisés en trois catégories : voyelles, fricatives et plosives. Le tableau IV.1 montre la structure de la base TIMIT : CLASSE VOYELLES FRICATIVES PLOSIVES PHONEME APPRENTISSAGE TEST ah aw ax ax-h uh uw dh f sh v z zh b d g p q t 2200 700 3352 281 502 536 2058 2093 2144 1872 3574 164 399 1371 1337 2056 3307 3586 879 216 1323 95 221 170 822 911 796 707 1273 74 182 526 546 779 1191 1344 TABLEAU IV.1 : Les phonèmes utilisés dans notre application avec leurs nombres d’occurrences Comme prétraitement, la base dont nous disposons a subi un codage MFCC (Mel Frequency Cepstral Coefficients). 52 IV.4 CLASSIFICATION PHONETIQUE La classification phonétique représente la dernière étape de traitement dans la reconnaissance automatique de la parole. Cette phase opère directement sur les données prétraitées. Ainsi, l’objective de cette phase est d’attribuer à chaque occurrence présentée à l’entrée du système la classe qu’elle lui revient d’origine. Cependant, étant loin des systèmes parfait, la classification rencontre des cas de confusion liés à l’origine des données et à la séparabilité non linéaire des classes. En réduisant au maximum le nombre de confusion engendré par le système, la fiabilité du classificateur se traduira par la maximisation du nombre d’occurrences reconnues du nombre total présenté au système, on parlera alors de taux de reconnaissance du système. Dans notre travail, on se limite à la phase de classification où on utilise 18 phonèmes de la base de données TIMIT. La performance de nos modèles se communiquera par les scores obtenus de la phase de reconnaissance. IV.5 APPLICATIONS Nous avons réalisé une classification de 18 phonèmes de la base de données TIMIT à l’aide du Modèle de Mélange de Gaussiennes et le Modèle de Markov Caché. Chaque phonème est constitué de 8 trames de 13 coefficients MFCC. Les expériences de classification des 18 phonèmes sont présentées ci-après en deux parties : Dans un premier temps nous étudions les résultats obtenus avec le modèle de mélange de gaussiennes (GMM) dans un espace de paramètres de 13 coefficients MFCC, ensuite nous intégrons une composante temporelle dynamique (TD-GMM) ou statique (TS-GMM) dans ces vecteurs. Puis nous évaluons ces 3 modèles dans un espace de paramètres dynamiques augmenté de la premières et la deuxième dérivée des coefficients cepstraux. Dans la deuxième partie, nous présentons les résultats obtenues avec les modèles de Markov cachés discrets et continus (DHMM et CHMM), en utilisant des données normalisées et non-normalisées, dans un état brut. Ensuite nous évaluons, comme nous l'avons fait avec les GMM, l'influence des paramètres dynamiques sur la classification phonétique par les modèles HMM. 53 L’organigramme suivant représente le schéma global des différentes approches implémentées pour la reconnaissance des 18 phonèmes de la base de données TIMIT, ces approches sont appliquées sur différents sous-corpus. Sous corpus Train Normalisation Approches de classification Quantification DHMM CHMM TS-GMM GMM TD-GMM Estimation des paramètres Sous corpus Test Test Reconnaissance Décision FIG. IV.1 : Schéma général des approches implémentées 54 IV.5.1 CLASSIFICATION PAR LES MODELES GMM Avant de tester le modèle GMM, nous avons tout d’abord appliqué une Analyse en Composantes Principales (ACP), décrite annexe C, au niveau de chaque classe de phonème pour réduire l’espace de représentation. Il est bien connu que le comportement des modèles statistiques utilisés comme classificateurs dépend fortement de la topologie employée et de la phase d'initialisation des modèles. IV.5.1.1 TOPOLOGIE DU MODELE Dans le cas du modèle GMM, on considère que les vecteurs acoustiques d’un phonème suivent une densité de probabilité multidimensionnelle composée de plusieurs densités gaussiennes. La somme pondérée de ces densités gaussiennes représente le modèle d’un phonème. En effet, la topologie du modèle est définie entièrement par le nombre Q de lois gaussiennes du mélange. IV.5.1.2 INITIALISATION DU MODELE L'initialisation du modèle GMM est faite à travers les données du vecteur ( wk , k , k ) pour chacune des k composantes du mélange : Le choix du nombre de gaussiennes Q se fait a priori. Les moyennes µk sont initialisées par l’algorithme k-means. La matrice de covariance k est initialisée à la matrice identité. Initialisation équiprobable des poids des composantes gaussiennes : wk = 1/ Q. Insatisfait par le choix heuristique de Q, il nous a paru intéressant de rechercher différemment le nombre de classes optimal. Le modèle initial une fois fixé, on applique l’algorithme EM. IV.5.1.3 EXPERIENCES Les expériences de classification par le modèle GMM ont été menées sur la base de données décrite précédemment. Le tableau IV.2 regroupe les différentes expériences des modèles GMM déjà envisagés théoriquement au chapitre II, avec des citations et descriptions des paramètres utilisés dans chacune de ces expériences : 55 NUMERO DETAIL DE L’EXPERIENCE D’EXPERIENCE 1 Application du modèle GMM, avec un nombre de composante gaussiennes constant, sur les vecteurs de paramètres MFCC. 2 Application du modèle GMM, avec un nombre de composante gaussiennes variable, sur les vecteurs de paramètres MFCC. 3 Application du modèle TD-GMM, avec l’intégration d’une composante temporelle dynamique, sur les vecteurs MFCC. 4 Application du modèle TS-GMM, avec l’intégration d'une composante temporelle statique constante, sur les vecteurs MFCC. Application des modèles GMM, TD-GMM et TS-GMM sur 5 l’ensemble de paramètres (MFCC + MFCC). Application des modèles GMM, TD-GMM et TS-GMM sur 6 l’ensemble de paramètres (MFCC + MFCC + MFCC). TABLEAU IV.2 : Les modèles GMM Implémentés IV.5.1.4 RESULTATS 1) RESULTATS DE L’EXPERIENCE N°1 : Modèle GMM à Q constant L'une des principales difficultés que l'on rencontre dans une tâche de modélisation par les GMM consiste à trouver le nombre de composantes gaussiennes qui modélise le mieux notre système de reconnaissance. Pour chacun des 18 phonèmes de la base de données TIMIT, nous avons créé un modèle GMM à nombre de composantes gaussiennes Q constant sur l’ensemble de paramètres correspondants et à chaque expérience en faisant varier Q de 2 à 64. Les modèles GMM sont entraînés par une matrice de vecteurs MFCC de dimension 13, c’est-à-dire, 13 paramètres MFCC dans chaque vecteur de la matrice d’apprentissage. Nous avons effectué des tests pour chaque phonème. A travers ces tests, nous avons vu l’effet du nombre de composantes gaussiennes du modèle GMM sur la performance 56 globale de la classification des 18 phonèmes. Les résultats obtenus sont présentés dans le tableau IV.3. Q 2 4 6 8 10 16 20 24 32 64 PHONEME /ah/ 47.44 45.62 45.28 45.85 45.96 46.64 45.73 39.48 43.57 42.66 /aw/ 74.07 74.07 73.61 65.74 71.76 76.39 69.44 67.13 63.89 70.83 /ax/ 57.29 54.95 55.18 59.11 58.65 57.90 57.45 54.88 57.90 43.24 /ax-h/ 16.84 17.89 17.89 14.74 17.89 14.74 16.84 15.79 11.58 13.68 /uh/ 41.18 44.80 44.34 40.27 39.82 41.63 38.91 22.62 38.91 25.79 /uw/ 58.24 58.24 58.24 57.65 62.35 57.06 58.24 57.65 54.71 42.35 /dh/ 34.55 28.71 28.59 35.89 36.37 37.59 33.58 36.25 34.06 36.13 /f/ 67.84 72.78 73.98 65.75 66.08 66.08 59.60 58.73 52.36 57.63 /sh/ 78.14 78.77 79.02 80.15 80.78 80.40 76.51 71.61 76.26 71.98 /v/ 53.18 55.59 55.45 56.44 53.89 53.18 54.60 53.75 49.08 50.78 /z/ 71.25 70.86 70.86 72.43 70.46 72.19 70.31 74.39 69.13 69.68 /zh/ 60.81 63.51 64.86 55.41 58.11 59.46 66.22 64.86 54.05 51.35 /b/ 80.22 78.57 78.57 81.32 80.77 79.67 79.67 76.92 71.98 77.47 /d/ 26.62 23.19 23.19 29.28 28.52 28.14 25.48 30.80 26.62 27.19 /g/ 58.24 55.86 56.04 60.81 60.62 61.54 59.16 59.71 61.17 43.96 /p/ 48.52 48.01 49.17 46.98 49.17 47.75 50.06 44.80 45.70 47.37 /q/ 58.86 61.63 61.63 60.12 60.29 59.95 58.86 59.03 59.36 59.53 /t/ 41.82 44.42 44.05 41.67 41.67 42.11 41.96 43.45 42.41 42.04 % TAUX GLOBAL 55.06 55.13 55.26 55.56 55.58 55.70 54.15 53.28 52.64 50.50 TABLEAU IV.3 : Pourcentage de reconnaissance par le modèle GMM avec Q constant 57 La première expérience est une évaluation de l'influence de la taille Q des modèles de mélanges de gaussiennes sur le taux de reconnaissance des phonèmes. Les résultats représentés dans le tableau IV.3 montrent qu’un nombre de gaussiennes entre 8 et 16 modélise le mieux les vecteurs acoustiques. Le meilleur taux de reconnaissance est de 55.70%, et il est obtenu avec des modèles gaussiens comportant 16 composantes. Nous remarquons qu’en augmentant le nombre de composantes du modèle GMM nous avons eu une amélioration de la performance du système de reconnaissance. Cependant, cette remarque n’est pas valable quand le nombre de gaussiennes devient supérieur à 16. En effet, nous avons eu une dégradation de performance. Cela peut être interprété comme suit : L’augmentation du nombre de composantes du modèle GMM a surentraîné ce dernier, c’est-à-dire représenté des données qui n’existe pas dans l’espace de vecteurs acoustiques. Dans le cas pratique, le nombre de gaussiennes du modèle GMM est choisi en fonction de données que nous avons disposées. Parmi les 18 classes de phonèmes il y a des classes qui contient un nombre assez faible d’échantillons (tel que les phonèmes : ax-h et zh), l’utilisation d’un nombre trop important de gaussiennes ne conduira donc pas nécessairement à une meilleure reconnaissance. Pour que le modèle à base de gaussiennes (GMM) soit représentatif il faut que le nombre de vecteurs acoustiques de l’ensemble d’apprentissage soit suffisamment grand pour pouvoir estimer avec précision tous les paramètres des gaussiennes. Un point essentiel que ne permettent cependant pas de déterminer ces expériences est de savoir s'il est plus efficace de modéliser le système de reconnaissance avec le même nombre de gaussiennes ou non. 58 2) RESULTATS DE L’EXPERIENCE N°2 : Modèle GMM à Q variable Dans cette expérience nous avons modélisé notre système de reconnaissance avec des modèles GMM à nombre de composantes gaussiennes variable sur l’ensemble des 18 phonèmes. Le nombre Q est choisi en fonction du nombre d’occurrences de chaque phonème dans la base d’apprentissage. Pour chaque classe, le nombre Q de composantes du modèle se varie entre 1 et 16 selon le nombre d’occurrences de chaque phonème donné dans le tableau IV.1. Dans ce cas, Q est un vecteur de dimension 18 qui représentent le nombre de gaussiennes choisi par classe phonétique. Les vecteurs des composantes gaussiennes choisis dans chaque expérience sont donnés dans le tableau IV.4. Phonème Q /ah/ /aw/ /ax/ /ax-h/ /uh/ /uw/ /dh/ /f/ /sh/ /v/ /z/ /zh/ /b/ /d/ /g/ /p/ /q/ /t/ Q1 4 2 5 1 1 1 4 4 4 3 5 1 1 3 3 4 5 5 Q2 5 3 6 1 1 1 5 5 5 4 6 1 1 4 4 5 6 6 Q3 6 3 9 1 2 2 6 6 6 5 9 1 1 5 5 6 9 9 Q4 7 4 10 1 3 3 7 7 7 6 10 1 1 6 6 7 10 10 Q5 10 4 12 2 3 3 10 10 10 8 12 1 2 8 8 10 12 12 Q6 12 5 16 2 4 4 12 12 12 8 16 1 2 8 8 12 16 16 Q7 16 6 24 3 4 4 16 16 16 10 24 1 3 10 10 16 24 24 Q8 18 8 32 4 6 6 18 18 18 14 32 3 4 14 14 18 32 32 TABLEAU IV.4 : Nombre de composantes gaussiennes choisi par classe de phonème Nous avons donc réalisé une étude des scores de reconnaissance obtenus avec le modèle GMM en faisant varier le nombre Q sur l’ensemble des phonèmes, les résultats obtenus sont présentés dans le tableau IV.5. 59 Q Q1 Q2 Q3 Q4 Q5 Q6 Q7 Q8 /ah/ 41.39 48.81 45.05 49.15 46.42 45.85 48.01 46.99 /aw/ 75.00 74.07 69.91 75.46 74.07 73.61 75.46 75.46 /ax/ 63.64 63.57 63.34 63.11 62.59 64.25 64.78 63.42 /ax-h/ 12.63 12.63 13.68 11.58 8.42 10.53 8.42 13.68 /uh/ 39.37 38.01 32.13 33.94 34.84 30.77 34.39 38.46 /uw/ 59.41 60.00 59.41 58.82 57.65 58.82 58.24 60.00 /dh/ 38.93 42.46 45.74 44.40 45.74 45.01 46.84 43.55 /f/ 69.05 67.95 67.29 66.96 67.95 68.72 67.62 68.61 /sh/ 78.89 79.77 80.03 81.16 81.66 81.41 80.40 79.90 /v/ 55.16 53.75 54.03 53.18 52.90 55.02 54.31 54.31 /z/ 70.78 69.91 72.19 71.72 73.21 72.43 71.41 70.86 /zh/ 59.46 62.16 56.76 64.86 58.11 58.11 58.11 62.16 /b/ 25.82 21.98 15.38 20.88 20.88 20.33 19.23 21.43 /d/ 49.43 42.97 49.62 50.19 53.42 51.33 45.82 42.78 /g/ 68.32 72.53 70.70 72.89 73.44 72.16 71.79 72.34 /p/ 48.91 49.42 50.58 49.81 49.68 50.71 49.42 49.17 /q/ 60.79 62.38 62.64 63.48 63.14 65.41 64.23 61.96 /t/ 41.29 41.44 46.58 43.75 46.95 46.88 46.50 42.34 % TAUX GLOBAL 56.86 57.19 57.90 58.12 58.59 58.84 58.44 57.36 PHONEME TABLEAU IV.5 : Pourcentage de reconnaissance par le modèle GMM avec Q variable 60 L'utilisation des modèles GMM à Q variable s'accompagne d'une amélioration du score de reconnaissance, nous constatons un gain de 3.14% par rapport aux modèles ayant un nombre de composantes constant sur l’ensemble des paramètres correspondants, où le taux de reconnaissance a pu atteindre 58.84%. Ces expériences montrent que le nombre d’occurrences de chaque phonème joue un rôle très important pour la détermination du nombre de gaussiennes de chaque classe. En effet, le nombre de composantes gaussiennes du modèle est un facteur de variation important qui a une influence directe sur le taux de reconnaissance. La matrice de confusion obtenue avec Q = Q6 montre de bons taux de reconnaissance par rapport au taux obtenu avec le modèle GMM à Q =16. Dans la suite des expériences le nombre de gaussiennes du modèle GMM est fixé à Q = [12 5 16 2 4 4 12 12 12 8 16 1 2 8 8 12 16 16]. Une fois le nombre de gaussiennes du modèle GMM est fixé, les modèles TD-GMM et TS-GMM sont testés par rapport à notre corpus TIMIT avec les mêmes paramètres du modèle GMM. Des résultats avec la première et la deuxième dérivée des paramètres MFCC sont présentés. 3) RESULTATS DES EXPERIENCES N°3 & N°4 : Modèles TD-GMM et TS-GMM Au niveau de la troisième et quatrième expérience, la classification des 18 phonèmes a été faite toujours à base du modèle de mélange de gaussiennes en gardant les mêmes paramètres décrits précédemment mais le cas particulier considéré ici est l’intégration d’une nouvelle composante temporelle aux niveaux des vecteurs MFCC. L’ajout d’un nouveau paramètre variable par rapport à la durée de chaque occurrence engendre le problème de la matrice singulière au niveau de la cinquième fenêtre, et comme solution à ce problème, on a introduit deux méthodes : les modèles TD-GMM avec une composante temporelle dynamique et le modèle TS-GMM avec une composante temporelle statique constante sur l’ensemble des vecteurs. Le tableau IV.6 regroupe l’expérience N°3 (application du modèle TD-GMM) et l’expérience N°4 (application du modèle TS-GMM). 61 MODELE GMM TD-GMM TS-GMM /ah/ 45.85 51.19 53.36 /aw/ 73.61 72.22 73.15 /ax/ 64.25 60.24 64.17 /ax-h/ 10.53 16.84 11.58 /uh/ 30.77 56.11 43.89 /uw/ 58.82 62.94 57.65 /dh/ 45.01 48.18 46.35 /f/ 68.72 73.11 69.15 /sh/ 81.41 81.41 80.53 /v/ 55.02 56.58 48.94 /z/ 72.43 74.47 79.26 /zh/ 58.11 58.11 56.76 /b/ 20.33 21.43 23.63 /d/ 51.33 50.00 73.38 /g/ 72.16 72.89 72.34 /p/ 50.71 51.96 53.80 /q/ 65.41 69.01 60.21 /t/ 46.88 50.00 57.29 % TAUX GLOBAL 58.84 60,95 61,87 PHONEME TABLEAU IV.6 : Taux de reconnaissance obtenus avec les modèles GMM, TD-GMM et TS-GMM 62 L’expérience N°3 représente la méthode TD-GMM au quelle nous avons intégré une composante temporelle dynamique pour les quatre premières fenêtres. Nous constatons dans ce cas, une amélioration de 2.11% (de 58.84% à 60.95%) dans le taux de reconnaissance des phonèmes par rapport au modèle GMM, et plus particulièrement pour les fricative où le taux de reconnaissance est passé de 65.42% à 68.25%. Dans l'expérience N°4, la composante temporelle prise par le modèle TS-GMM est une composante temporelle statique pour les cinq fenêtres. Cette expérience montre une nette amélioration du taux de reconnaissance par rapport au modèle GMM, nous constatons un gain de 3.03% (de 58.84% à 61.87%). Pour les voyelles, le taux est passé de 54.75% à 57.92% et pour les plosives de 54.84% à 59.70%. Nous remarquons une légère amélioration de taux de reconnaissance entre les modèles TD-GMM et TS-GMM où le taux est passé de 60.95% avec le modèle TD-GMM à 61.87% avec le modèle TS-GMM. De manière générale l’intégration de la composante temporelle dans les vecteurs de paramètres améliore toujours les résultats. Nous pouvons aussi apercevoir à travers le tableau IV.6, représentant l’application des 3 méthodes gaussiennes sur les vecteurs MFCC, des taux élevés (plus de 72%) pour les phonèmes /aw/, /sh/, /z/ et /g/ et des taux inférieurs à 24% pour les phonèmes /ax-h/ et /b/, et cela revient au nombre d’échantillons des phonèmes dans la base de données. 4) RESULTATS DES EXPERIENCES N°5 & N°6 : Espace de paramètres dynamiques Dans le but de renforcer notre appréciation sur les méthodes mis à l’étude, nous avons utilisé les paramètres MFCC avec leurs premières et deuxièmes dérivées pour évaluer l’influence de l'espace des observations sur le taux de reconnaissance. Dans un premier temps, nous allons analyser le comportement des modèles en recherchant, pour chaque jeu de paramètres, le modèle donnant le meilleur résultat. Nous allons donc réaliser une étude des scores de reconnaissance obtenus avec les différentes méthodes proposées, et cela pour différents ensembles de paramètres (tableau IV.7). Les vecteurs de paramètres #1 et #2 sont qualifiés de jeux de référence car ils correspondent à l'espace cepstral (12 MFCC augmentés du coefficient d'énergie E) tel que nous l'avons déjà représenté (#1), auquel est ajouté une composante temporelle T (#2). L'ensemble de paramètres #3 correspond à l'espace cepstral global statique et dynamique (MFCC+MFCC), tandis que le jeu #4 est le plus complet puisqu'il prend en compte tous les paramètres calculés augmentés de la deuxième dérivée des coefficients cepstraux 63 (MFCC+MFCC+MFCC). Les résultats obtenus par les expériences N°5 & N°6 sont présentés dans le tableau suivant. MODELE GMM TD-GMM MFCC MFCC MFCC PHONEME + + + TS-GMM MFCC MFCC MFCC MFCC MFCC MFCC + + + + + + /ah/ 45.85 53.13 48.46 51.19 57.79 53.36 53.36 58.02 73.61 /aw/ 73.61 69.44 85.65 72.22 74.07 63.89 73.15 76.39 84.26 /ax/ 64.25 59.56 62.13 60.24 73.92 69.46 64.17 57.90 72.79 /ax-h/ 10.53 13.68 10.53 16.84 20.00 18.95 11.58 18.95 26.32 /uh/ 30.77 39.37 58.37 56.11 34.84 38.91 43.89 41.63 22.62 /uw/ 58.82 64.12 57.06 62.94 57.65 54.71 57.65 57.06 57.65 /dh/ 45.01 45.26 50.85 48.18 45.74 58.39 46.35 49.76 54.50 /f/ 68.72 73.11 68.61 73.11 67.95 75.30 69.15 66.08 75.19 /sh/ 81.41 83.29 93.22 81.41 81.66 78.77 80.53 80.40 71.61 /v/ 55.02 56.58 52.05 56.58 52.90 49.08 48.94 62.94 53.75 /z/ 72.43 74.00 80.28 74.47 81.07 83.27 79.26 72.19 74.39 /zh/ 58.11 55.41 62.16 58.11 58.12 54.05 56.76 59.46 64.86 /b/ 20.33 18.68 22.53 21.43 20.88 71.98 23.63 79.67 76.92 /d/ 51.33 47.72 45.06 50.00 53.42 26.62 73.38 66.16 30.80 /g/ 72.16 74.91 77.66 72.89 73.44 61.17 72.34 61.54 59.71 /p/ 50.71 51.48 51.99 51.96 49.68 67.52 53.80 60.59 64.06 /q/ 65.41 65.41 60.74 69.01 63.14 78.17 60.21 68.35 69.86 /t/ 46.88 48.66 58.48 50.00 52.16 51.04 57.29 56.99 61.16 % TAUX GLOBAL 58.84 59.94 62.23 60.95 62.17 63.97 61.87 62.94 64.90 TABLEAU IV.7 : Taux de reconnaissance obtenus avec les modèles GMM, TD-GMM et TS-GMM dans différents espaces de paramètres 64 Si l'on s'intéresse aux espaces de paramètres, on constate (tableau IV.7) que les coefficients cepstraux statiques (#1 et #2), qui ne prenant pas en compte l’aspect dynamique, donnent des scores de reconnaissance de l'ordre de 58.84% (#1) et de 60.95% - 61.87% (#2) selon que l'on prenne en compte la composante temporelle dynamique ou statique. A l'inverse, les modèles à base des coefficients statiques et dynamiques (#3 et #4) permettent d’augmenter le taux de reconnaissance jusqu’à 64.90%. La première dérivée améliore peu les résultats obtenus, on constate un gain de 1.1% (de 58.84% à 59.94%) avec le modèle GMM et de 1.22% (de 60.95% à 62.17%) avec le modèle TD-GMM et de 1.07% (de 61.87% à 62.94%) avec le modèle TS-GMM. Par contre l’ajout de la deuxième dérivée aux vecteurs de caractéristiques augmente en absolu le taux de reconnaissance de 3.39% (de 58.84% à 62.23%) avec le modèle GMM et de 3.02% (de 60.95% à 63.97%) avec le modèle TD-GMM et de 3.03% (de 61.87% à 64.90%) avec le modèle TS-GMM. IV.5.1.5 DISCUSSION La technique de modélisation GMM a été profondément étudiée dans ce travail. A travers les expériences que nous avons effectuées, nous pouvons dire que le modèle GMM est très puissant et peut représenter des distributions aléatoires très complexes d’une manière très fidèle. Le bon choix du nombre de composantes du modèle GMM est très important. En effet, si nous choisissons un petit nombre, nous pouvons avoir une grande perte de données et par conséquent, une dégradation de performance. Dans le cas inverse, si nous choisissons un grand nombre de gaussiennes, nous pouvons avoir le problème de sur‐apprentissage du modèle GMM, c’est‐à‐dire, présenter des données qui n’existent pas dans l’espace de paramètres acoustiques du phonème en question. Les expériences présentées ci-dessus montrent également que la topologie du modèle (nombre de gaussiennes) et l'espace d'observation influent énormément sur la performance de la classification phonétique. La première dérivée améliore peu les résultats obtenus par contre la deuxième dérivée augmente en absolu le taux de reconnaissance. En effet, l’ajout d’informations temporelles avec l’utilisation de la première et de la deuxième dérivée permet un gain de performance. 65 Après avoir étudié la pertinence dynamique des paramètres acoustiques pour le corpus TIMIT, nous pouvons constater que le meilleur taux de reconnaissance a été de 64.90%. Ce taux est obtenu par la première et deuxième dérivée additionnée à la combinaison de 13 coefficients MFCC avec la composante temporelle statique. La matrice de confusion, du meilleur taux obtenu avec le modèle de mélange de gaussiennes, est présentée dans l’annexe D.1. IV.5.2 CLASSIFICATION PAR LES MODELES HMM À chaque unité phonétique du corpus est associé un prototype de modèle de Markov caché. Ce prototype contient la topologie choisie pour cette unité, c'est à-dire le nombre d'états du modèle, les probabilités initiales de transitions entre états et les paramètres de la loi de probabilité associée à chaque état. Nous décrivons dans la suite la structure que nous avons choisie pour notre HMM ainsi que les paramètres utilisés, tout en motivant les choix effectués. IV.5.2.1 TOPOLOGIE DU MODELE Un choix important est celui de l’architecture des HMM qui modélise les phonèmes. Cette architecture doit tenir compte de la topologie du modèle et du nombre d’états par modèle. La topologie adoptée pour notre modèle HMM est de type Bakis, c'est-à-dire chaque phonème est modélisé par un HMM à 5 états de type gauche-droit avec un pas de transition égale à 2 (cf. figure IV.2). Ce HMM a donc 2 états non-émetteurs (l’état d’entrée et l’état de sortie) et 3 états émetteurs, qui modélisent la création, la progression, et la disparition du phonème. a22 a33 a23 a12 a44 a34 a45 a13 Etat 1 2 3 Etat émetteur 4 5 Etat non-émetteur FIG. IV.2 : HMM à 5 états de type Bakis 66 La topologie gauche-droite est particulièrement adaptée à la modélisation de signaux qui évoluent dans le temps ainsi, elle est fixée de façon relativement arbitraire par analogie avec la topologie standard utilisée en reconnaissance de la parole acoustique. Rappelons que le choix de cette dernière est essentiellement lié à la nécessité de prendre en compte les effets de la coarticulation. Il semble raisonnable de considérer que ces effets sont également présents dans les observations articulatoires mises en jeu ici. IV.5.2.2 INITIALISATION DU MODELE La détermination des paramètres initiales d'un HMM se fait à travers les données , A, et B, à savoir : Le vecteur de probabilité de l'état initial est donnée par : = [1, 0, …, 0]. Ce qui revient à commencer le processus d'émission toujours à partir de l'état 1. Ce vecteur n'est pas réestimé par la suite. La matrice de probabilités de transition entre les états A a été initialisée aléatoirement, tel que A est une matrice stochastique vérifié la condition suivante: aij 0 si i j ou j i 2; HMM de type bakis La loi de probabilité d'émission des observations dans chaque état est définit comme suite : o Si on considère un modèle HMM discret, les observations appartiennent à un ensemble fini de symboles, la loi d'émission d'observations est une matrice de probabilité. Dans ce cas, la matrice d'observation B est initialisée par l’algorithme LBG. o Si on considère un modèle HMM continu, les observations appartiennent à un espace continu, et la loi d'émission d'observations, utilisé pour modéliser la fonction de densité de probabilité dans chaque état, est une loi de mélange de gaussiennes. Le modèle initial une fois fixé, nous utilisons l’algorithme Baum-Welch pour ajuster tous les paramètres du modèle. 67 IV.5.2.3 EXPERIENCES Les expériences de classification par le modèle HMM ont été menées sur la base de données TIMIT de 18 phonèmes. Le tableau IV.8 récapitule l’ensemble des expériences présentées par le modèle HMM. NUMERO DETAIL DE L’EXPERIENCE D’EXPERIENCE 1 Application du modèle DHMM, avec normalisation des données, sur les vecteurs de paramètres MFCC. 2 Application du modèle DHMM, sans normalisation des données, sur les vecteurs de paramètres MFCC. 3 Application du modèle CHMM, avec normalisation des données, sur les vecteurs de paramètres MFCC. 4 Application du modèle CHMM, sans normalisation des données, sur les vecteurs de paramètres MFCC. 5 6 Application des modèles DHMM et CHMM, sans normalisation des données, sur l’ensemble de paramètres (MFCC + MFCC). Application des modèles DHMM et CHMM, sans normalisation, sur l’ensemble de paramètres MFCC+MFCC+MFCC TABLEAU IV.8 : Les modèles HMM Implémentés IV.5.2.4 RESULTATS Selon le type de densité de probabilité d’observations, discrète ou continue, il est possible de construire deux types de modèles HMM : soit un HMM discret soit un MMC continu. Nous commençons d'abord par le modèle discret DHMM puis le modèle continu CHMM. 68 1) RESULTATS DES EXPERIENCES N°1 & N°2 : Modèle DHMM Les caractéristiques extraites du phonème, sont considérées comme des observations au sens des HMM. Ainsi, la séquence de vecteurs de caractéristiques continues, décrivant le phonème, est en général continue puisqu’elle provienne de phénomènes physiques continus ce qui nécessite l’utilisation d'une quantification vectorielle pour la discrétisation des observations, c’est-à-dire, faire correspondre chaque vecteur continu (représentant une trame) à un indice discret d’un dictionnaire de référence (CodeBook). La quantification vectorielle utilisée pour la discrétisation des observations est de type LBG (Linde-Buzo-Gray), cet algorithme est présenté dans l’annexe A.3. Dans la première et la deuxième expérience, les HMM utilisés pour la modélisation des 18 phonèmes de la base de données TIMIT sont de nature discrète, i.e., leurs densités de probabilités d’observations sont discrètes. La particularité que nous avons prise dans l’expérience N°1 est la nature des données dans le corpus utilisé, auquel nous avons effectué un rééchantillonnage linéaire dans le temps pour créer un corpus de données normalisées. Les résultats des expériences N°1 (application du modèle DHMM en utilisant des données normalisées) et N°2 (application du modèle DHMM en utilisant des données non-normalisées) obtenus sont résumés dans le tableau IV.9. 69 MODELE DHMM DHMM Avec normalisation Sans normalisation /ah/ 49.15 52.22 /aw/ 75.46 86.11 /ax/ 70.67 62.06 /ax-h/ 16.84 12.63 /uh/ 33.94 38.91 /uw/ 58.82 54.12 /dh/ 50.49 41.48 /f/ 66.96 81.78 /sh/ 77.39 91.46 /v/ 53.18 57.14 /z/ 72.51 79.97 /zh/ 64.86 37.84 /b/ 23.63 22.53 /d/ 50.19 34.41 /g/ 72.89 65.75 /p/ 56.23 58.15 /q/ 65.99 65.74 /t/ 47.47 54.91 % TAUX GLOBAL 60.36 62.01 PHONEME TABLEAU IV.9 : Taux de reconnaissance obtenus avec le modèle DHMM en utilisant des données normalisées et non-normalisées 70 D’après les résultats présentés dans le tableau IV.9, nous pouvons constater des taux de reconnaissance élevés (entre 72% et 91%) pour les phonèmes /aw/, /sh/ et /z/ et des taux de reconnaissance bas (entre 12% et 23%) pour les phonèmes /ax-h/et /b/, et le facteur principal de cette variation revient aux nombres d’occurrences de chaque phonème dans le sous-corpus TIMIT donné dans le tableau IV.1. Les matrices de confusion éclairent un peu plus sur les raisons du taux de classification assez bas pour ces classes phonétiques. De ce fait, la taille de la séquence d'observations influe sur le résultat final. Un manque de données entraînera un modèle trop général qui ne reconnaîtra rien de précis, et au contraire trop de données donneront un apprentissage très difficile pour un modèle trop ciblé. Le taux de reconnaissance des phonèmes obtenu avec le modèle HMM discret est de l’ordre de 60.36% en utilisant des données rééchantillonnées et de l’ordre de 62.01% en utilisant des données non-rééchantillonnées. Donc, l’application du modèle HMM discret avec des données normalisées a donnée des performances moins que celles obtenus avec des données non-normalisées, nous constatons une chute de 1.65% (de 60.36% à 62.01%) du taux de reconnaissance avec la normalisation des données. 2) RESULTATS DES EXPERIENCES N°3 & N°4 : Modèle CHMM Jusqu’à présent, seuls les modèles de Markov cachés modélisant des séquences d’observations discrètes ont été envisagés, ces observations prenaient des valeurs appartenant à un alphabet fini et leurs probabilités étaient définies dans chaque état par un ensemble fini de valeurs. Le problème est que les observations sont souvent des vecteurs continus, l’utilisation de modèles à distributions discrètes implique donc une phase préalable de quantification de ces vecteurs, avec les dégradations qui en résultent. Il est dès lors intéressant d’inclure des densités d’observations continues dans les modèles de Markov cachés. Les observations en entrées du modèle, appartiennent à un espace continu, sont les coefficients cepstraux et ses fonctions de densités de probabilités sont une somme pondérée de densités gaussiennes multidimensionnelles. Le modèle de mélange de gaussiennes permet de calculer les probabilités d'émissions d'une observation modélisant des vecteurs caractéristiques. 71 Chaque phonème est modélisé par un HMM continu à 5 états (2 états non-émetteurs et 3 états émetteurs), dans chaque état des mixtures de gaussiennes sont utilisées comme fonction de densité de probabilité d'émission des observations (cf. figure IV.3). a22 a23 a12 a44 a33 a45 a34 a24 Etat 1 2 3 4 5 Etat émetteur Etat non-émetteur FIG. IV.3 : HMM continu à 5 états de type Bakis D’après Rabiner, il est plutôt conseillé de prendre plus de gaussiennes par état avec des matrices de covariance diagonales que de prendre moins de gaussiennes avec des matrices de covariance pleines. De plus, une matrice de covariance diagonale par gaussienne simplifie énormément les calculs à la phase d'apprentissage ainsi qu'à la phase de test d'un HMM. Nous avons modélisé chaque état du modèle HMM par un GMM à 8 composantes gaussiennes, la matrice de covariance de chaque composante est diagonale. Les résultats obtenus par les expériences N°3 (application du modèle CHMM avec normalisation des données) et N°4 (application du modèle CHMM sans normalisation des données) sont résumés dans le tableau IV.10. 72 MODELE CHMM CHMM Avec normalisation Sans normalisation /ah/ 50.28 54.49 /aw/ 64.35 74.07 /ax/ 64.40 64.70 /ax-h/ 17.89 17.89 /uh/ 49.32 38.01 /uw/ 61.18 71.76 /dh/ 43.31 42.46 /f/ 82.22 78.92 /sh/ 82.41 86.06 /v/ 57.00 62.80 /z/ 78.24 69.91 /zh/ 59.46 62.16 /b/ 27.47 24.73 /d/ 54.18 52.47 /g/ 63.92 72.53 /p/ 62.26 75.10 /q/ 61.29 66.58 /t/ 56.32 52.60 % TAUX GLOBAL 62.41 63.48 PHONEME TABLEAU IV.10 : Taux de reconnaissance obtenus avec le modèle CHMM en utilisant des données normalisées et non-normalisées 73 A travers les résultats présentés dans le tableau IV.10, nous remarquons qu’il existe toujours des taux de reconnaissance élevés et d’autres très bas, et cela revient à l’insuffisance des caractéristiques utilisées pour mieux décrire chaque trame. Le taux de reconnaissance des phonèmes obtenu avec le modèle HMM continu est de 62.41% en appliquant la normalisation des données et de 63.48% sans normalisation des données. L’application de la normalisation des données a diminué le taux de reconnaissance de notre système, nous constatons une chute de 1.07% dans le taux de reconnaissance. 3) RESULTATS DES EXPERIENCES N°5 & N°6 : Espace de paramètres dynamiques Pour capter certains comportements et évolutions du signal dans le temps, et afin de prendre en compte la dynamique du signal, nous intégrons dans les vecteurs de caractéristiques du signal les coefficients différentiels (ou coefficients delta) du premier et du second ordre des coefficients MFCC. Un vecteur acoustique est donc représenté par 39 paramètres (13 MFCC + 13 MFCC + 13 MFCC). Nous nous limitons dans ces expériences par les données non-normalisées, car le rééchantillonnage à diminuer les taux de reconnaissance dans les deux modèles DHMM et CHMM. Les expériences N°5 et N°6 présentées dans le tableau IV.11 donnent les résultats associés aux taux de reconnaissances des différents vecteurs de paramètres en utilisant des données non-normalisées. 74 MODELE DHMM MFCC PHONEME CHMM MFCC MFCC + ++ MFCC MFCC MFCC + ++ /ah/ 52.22 74.40 52.56 54.49 59.73 68.49 /aw/ 86.11 71.76 83.33 74.07 70.83 75.46 /ax/ 62.06 69.99 65.00 64.70 65.91 63.11 /ax-h/ 12.63 17.89 27.37 17.89 13.68 11.58 /uh/ 38.91 48.87 66.06 38.01 25.79 33.94 /uw/ 54.12 62.35 70.00 71.76 42.35 58.82 /dh/ 41.48 38.81 57.91 42.46 60.46 44.40 /f/ 81.78 66.08 59.60 78.92 74.09 66.96 /sh/ 91.46 80.78 89.07 86.06 84.55 81.16 /v/ 57.14 58.13 64.07 62.80 50.78 67.33 /z/ 79.97 72.03 78.16 69.91 69.68 83.90 /zh/ 37.84 58.11 66.22 62.16 51.35 64.86 /b/ 22.53 80.77 79.67 24.73 77.47 20.88 /d/ 34.41 28.52 44.49 52.47 27.19 50.19 /g/ 65.75 60.62 77.47 72.53 80.59 72.89 /p/ 58.15 55.58 50.06 75.10 60.21 57.51 /q/ 65.74 64.48 68.93 66.58 72.12 75.23 /t/ 54.91 63.99 56.85 52.60 64.36 66.07 % TAUX GLOBAL 62.01 62.96 64.66 63.48 64.19 65.79 TABLEAU IV.11 : Taux de reconnaissance obtenus avec les modèles DHMM et CHMM dans différents espaces de paramètres 75 Les expériences décrites au tableau IV.11 montrent que les informations dynamiques prises en compte dans les modèles HMM modélisant notre système sont pertinentes en RAP puisque elles permettent d’obtenir un gain de 2.65% (de 62.01% à 64.66%) avec le modèle DHMM et de 2.31% (de 63.48% à 65.79%) avec le modèle CHMM. La première dérivée des coefficients MFCC n’a que sensiblement amélioré les résultats, nous observons une amélioration de 0.95% obtenu avec le modèle DHMM et de 0.71% obtenu avec le modèle CHMM. Les résultats obtenus avec une distribution à variation discrète (i.e. DHMM) sont moins prometteurs que ceux obtenus avec une distribution à variation continue (i.e. CHMM), et le facteur de dégradation de la performance revient à la quantification vectorielle. Nous avons pu atteindre avec le modèle CHMM un taux de reconnaissance de 63.48% dans un état brut et de 65.97% dans un espace de paramètres dynamique, nous constatons un gain de 1.47% par rapport au modèle DHMM. IV.5.2.5 DISCUSSION Ces expériences ont montré que les HMM à temps continu sont plus efficaces que les HMM à temps discret pour la classification phonétique. L’utilisation d’une quantification vectorielle dégrade la performance de notre système de reconnaissance. Le système à base de paramètres dynamiques (MFCC + MFCC + MFCC) offre les meilleures performances; rappelons toutefois que ce système opère sur des vecteurs de dimension 39 et qu'il s'avère donc plus complexe que le système proposé qui s'appuie sur des vecteurs unitaires. Ces 39 coefficients sont toujours traités en même temps, leur séparation n'ayant pas fourni d'amélioration significative. De manière générale la prise en compte de la première et deuxième dérivée des coefficients cepstraux améliore toujours les résultats. Les meilleures performances sont obtenues avec le modèle de Markov caché à distribution continues dans espace de paramètres dynamiques, à savoir 65.79%. La matrice de confusion, du meilleur taux obtenu avec le modèle de Markov caché, est présentée dans l’annexe D.2. 76 IV.6 COMPARAISON ENTRE LES DIFFERENTS MODELES IMPLEMENTES Après les résultats que nous venons de mentionner, nous aurons tendance à dire que les modèles de Markov cachés sont meilleures que les modèles de mélanges de gaussiennes Nous remarquons que le modèle HMM donne des bons résultats que celle de GMM, bien que les résultats s’améliorent encore mieux dans l’ajout de l’information temporelle. Par l’observation des taux globales des différentes expériences, nous avons remarqué que le taux de reconnaissance de chacun des modèles se varie entre 58.84% et 65.79%. Le gain le plus important en taux de reconnaissance est de l’ordre de 65.79%.obtenu avec le modèle HMM continu dans l’espace de paramètres MFCC+MFCC+MFCC. La suprématie du modèle de Markov caché peut être attribuée aux propriétés statistiques de cette méthode et à l’adéquation des données utilisées pour estimer ses paramètres. Cependant, nous croyons fortement que les modèles de Markov cachées sont le meilleur choix lorsque les données sont des séquences d’observation dans le temps, ce qui est le cas ici. Les modèles de mélanges de gaussiennes sont faits pour des tâches où les données sont indépendantes et identiquement distribuées, ce qui correspond à un ensemble de données où chaque exemple est représenté par un vecteur d'attributs. Les HMM sont faits pour apprendre la dépendance entre les données ainsi que la probabilité d’une observation étant données les observations précédentes, ce qui correspond à un ensemble d’exemples où chaque signal est une séquence d’observation avec un vecteur d'attributs pour chaque observation. Nous croyons donc que les HMM sont mieux adaptés que les GMM pour la reconnaissance automatique de la parole. Les résultats obtenus avec les modèles implémentés dans les différents espaces de paramètres sont présentés par le graphique illustré ci‐dessous. 77 68 66 64 GMM GMM 62 TD-GMM TD-GMM TS-GMM TS-GMM 60 DHMM DHMM 58 CHMM CHMM 56 54 MFCC MFCC+ D MFCC+ MFCC +D+DD MFCC++ FIG. IV.4 : Histogramme des taux de reconnaissance obtenus avec les différents modèles implémentés IV.7 CONCLUSION Dans ce projet, nous avons approché le monde de la reconnaissance de parole avec une tâche de classification de 18 phonèmes de la base de données TIMIT. Cette expérience nous fait réaliser la complexité de ce genre de tâche, il est impressionnant de penser qu’il existe des programmes capables de comprendre plus d’une centaine de mots à la minute avec un très petit pourcentage d’erreur. Les deux méthodes présentées, Modèle de Mélange de Gaussiennes et de Markov Caché, ont prouvé qu’elles sont des choix adéquats pour réussir à capter les informations importantes permettant une bonne généralisation. L’originalité de notre étude réside dans le fait que nous avons introduit des dérivées d’ordre 1 et 2 dans les vecteurs acoustiques. Nous sommes rendu compte qu’à chaque fois que nous ajoutons une dérivée, le taux de reconnaissance augmente. Avec la deuxième dérivées, nous avons obtenu, sur la base de données TIMIT notre meilleur taux de reconnaissance, à savoir 65.79%. 78 Dans le cadre de ce travail, nous avons tenté de développer des méthodes stochastiques qui sont très utilisées dans le domaine de la reconnaissance de la parole. Le but principal a été de développer et d’appliquer les méthodes à base des Modèles de Mélanges de gaussiennes (GMM) et les Modèles de Markov Cachés (HMM) sur la base de données TIMIT pour une tâche de classification phonétique. Dans un premier temps nous avons testé l’efficacité des méthodes GMM et HMM dans la classification des 18 phonèmes de la base de données TIMIT dans espace de paramètres brut en utilisant 13 coefficients MFCC. Pour capter certains comportements et évolutions du signal dans le temps, et afin de prendre en compte la dynamique du signal, il nous a semblé nécessaire d’implémenter nos modèles sur un espace de paramètres dynamiques augmenté de la premières et la deuxième dérivée des coefficients cepstraux. Les implémentations réalisées au court de notre étude ont montré que l’ajout de l’information temporelle conduit vers une amélioration des résultats. Malgré que les résultats obtenus au cours de notre étude ne sont pas toujours à la hauteur de nos espérances. Nous sommes convaincus que les modèles HMM peuvent apporter un plus pour la classification phonétique. A la fin de ce modeste travail et comme perspectives : L’utilisation des modèles hybrides avec les modèles HMM tel que les réseaux de neurones ou les algorithmes génétiques. L’utilisation des Champs de Markov Aléatoire (CMA) comme outil probabiliste décrivant l’aspect discriminant pour une tâche de classification. 79 [Baker, 1975] J. K. Baker, Stochastic modeling for automatic speech understanding, Speech Recognition, Academic Press, pp. 521-542, 1975. [Bakis, 1976] R. Bakis, Continuous speech recognition via centisecond acoustic states, 91th. Meeting of the ASA, Washington DC, 1976. [Barreaud, 2004] V. Barreaud, Reconnaissance automatique de la parole continue : compensation des bruits par transformation de la parole, Thèse de doctorat, Université Henri Poincaré -Nancy 1, 2004. [Baum, 1972] L. Baum, An inequality and associated maximization technique in statistical estimation of probabilistic functions of Markov processes, Inequalities, vol. 3, pp. 1-8, 1972. [Boite et al., 2000] R. Boite, H. Bourlard, T. Dutoit, J. Hang, et H. Leich, Traitement de la parole, ISBN 2-88074-388-5. Presses polytechniques et Universitaires Romandes, Lausanne, Suise. 2000. [Bourlard et Morgan, 1994] H. Bourlard et N. Morgan, Connectionist Speech Recognition: A hybrid Approch, Kluwer Academic Publisher,1994. [Bourlard et Morgan, 1995] H. Bourlard et N. Morgan, Continuous Speech Recognition, IEEE Signal Processing Magazine, vol. 12, no. 3, pp. 24-42, 1995. [Bourlard et Wellekens, 1990] H. Bourlard, et C. J. Wellekens, Links between Markov models and multilayer perceptrons, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 12, pp. 1167-1178, 1990. [Calliope, 1989] Calliope, La parole et son traitement automatique. Masson, Paris, Milan, Barcelone. 1989. [Cappé, 2001] O. Cappé, Ten years of HMMs, 2001. http://www.tsi.enst.fr/~cappe/docs/hmmbib.html [Cerf-Danon et al., 1991] H. Cerf-Danon, S. DeGennaro, M. Ferretti, J. Gonzalez, et E. Keppel, TANGORA – A Large Vocabulary Speech Recognition System For Five Languages, Eurospeech, Genova, vol. 1, pp. 183-192, 24-26, 1991. 80 [Davis et Mermelstein, 1980] S. B. Davis et P. Mermelstein, Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences, IEEE Transactions on Acoustics, Speech and Signal Processing, vol. 28, no. 4, pp. 357-366, 1980. [Dempster et al, 1977] A. P. Dempster, N. M. Laird et D. B. Rubin, Maximum likelihood from incomplete data via the EM algorithm, Journal of the Royal Statistical Society, B 391-38, 1977. [Duda et al., 2001] R.O. Duda, P.E. Hart et D.G. Stork, Pattern Classification, Second edition. New York : Wiley-Interscience, 2001. [Dufaux, 2001] A. Dufaux, Detection and recognition of impulsive sound signals, PhD thesis, Faculté des Sciences de l’Université de Neuchâlet, Suise, 2001. [Forney, 1973] G. D. Forney, The Viterbi algorithm, Proceedings of the IEEE, vol. 61, no. 3, pp.268-278, 1973. [Fredouille et al., 1999] C. Fredouille, J. F. Bonastre, et T. Merlin, Similarity Normalization Method Based on World Model and a Posteriori Probability for Speaker Verification, European Conference on Speech Communication and Technology (Eurospeech), vol. 2, Budapest (Hungary), pp. 983-986. 40, 1999. [Fredouille, 2000] C. Fredouille, Reconnaissance du locuteur et approche statistique : Information dynamiques et normalisation bayésienne des vraisemblances, Thèse de doctorat, Université d'Avignon, 2000. [Furui, 1981] S. Furui, Cepstral analysis technique for automatic speaker verification, IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 29, pp. 254–272, 1981. [Furui, 1986] S.Furui, Speaker-independent isolated word recognition using dynamic features of speech spectrum , IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 34, pp 52-59, 1986 [Gauvain et Lee, 1994] J. L. Gauvain et C. H. Lee, Maximum a posteriori estimation for multivariate Gaussian mixture observations of Markov chains, IEEE Transactions on Speech and Audio Precessing, vol. 2, no. 2, pp. 291-298, 1994. [Greenspan, 2004] H.Greenspan, Probabilistic Space-Time Video Modeling via Piecewise GMM, IEEE Transaction on pattern Analysis and Machine Intelligence, 2004. 81 [Haton et al., 1991] J.P. Haton, J.M. Pierrel, G. Perennou et J. L. Gauvain, Reconnaissance automatique de la parole, edition Dunod, 1991. [Huang et Jack, 1988] X. D. Huang et M. A. Jack, Semi-continuous hidden Markov models in isolated word recognition, Proceedings of International Conference on Pattern Recognition, pp. 406-408, 1988. [Igounet, 1998] S. Igounet, Eléments pour un système de reconnaissance automatique de la parole continue du français. Thèse de doctorat, Université d'Avignon et des Pays de Vaucluse, Marseille, 1998. [Istrate, 2003] D. Istrate, Détection et reconnaissance des sons pour la surveillance médicale, Thèse de doctorat, Institut National polytechnique de GRENOBLE, 2003. [Istrate et al. 2005] D. Istrate, M. Vacher et J. F. Serignat, Détection et classification des sons : application aux sons de la vie courante et à la parole, in Actes du 20ème Colloque GRETSI : Traitement du Signal et des Images (GRETSI '05), vol. 1, pp. 485-488, Louvain-la-Neuve, Belgique, 2005. [Jain et al., 2000] A. K. Jain, R. P. W. Diun et J. Moa, Statistical pattern recognition : A review. IEEE Transactions. PAMI, vol. 22, N° 1, pp. 4-37, 2000. [Jelinek, 1976] F. Jelinek, Continuous Speech Recognition by Statistical Methods, IEEE IEEE Transactions on Speech and Audio Precessing, vol. 64, no. 4, pp. 532-556, 1976. [Jouvet, 1988] D. Jouvet, Reconnaissance de mots connectés indépendamment du locuteur par des méthodes statistique, Thèse de doctorat, Ecole Nationale Supérieure des Télécomm‐unications, Paris, 1988. [Jouvet et al., 1994] D. Jouvet, M. Dautremont et A. Gossart, Comparaison des multimodèles et des densités multigaussiennes pour la reconnaissance de la parole par modèle de Markov , XXèmes Journées d'Étude sur la Parole, Trégastel, pp. 159-164, 1994. [Kambhatla, 1996] N. Kambhatla, Local Models and Gaussian Mixture Models for Statistical Data Processing, PhD thesis in Computer science and Engineering, OGI, USA, 1996. [Klatt, 1986] K. H. Klatt, The problem of variability in speech recognition and models of speech perception, Invariance and variability in speech processes, eds. J.S. Perkell et D.H. Klatt, pp. 300-321. New Jersey: Lawrence Erlbaum, 1986. 82 [Lee et al, 1990] K. F. Lee, H. W. Hon et R. Reddy, An Overview of the SPHINX Speech Recognition System, IEEE Transactions on Acoustics, Speech and Signal Processing, vol. 38, no. 1, pp. 35-45, 1990. [Levinson, 1986] S.E. Levinson, Continuously Variable Duration Hidden Markov Models for Automatic Speech Recognition, Computer, Speech & Language, vol. 1, no. 1, pp. 29-45, 1986. [MacQueen, 1967] J. MacQueen, Some methods for classification and analysis of multivariate observations, Proceedings of 5th Berkeley Symposium on Mathematics, Statistics and Probability, vol. 1, pp. 281- 298, 1967. [Mariani, 2002] J. Mariani, Reconnaissance de la Parole : traitement automatique du langage parlé, Traité IC2, Hermès Science, Paris, 2002. [Markov, 1913] A. A. Markov, An example of statistical investigation in the text of “Eugene onyegin” illustrating coupling of “tests” in chains, Proceeding of Academic Scientific St. Petersburg, vol. 7, pp. 153-162, 1993. [Mérialdo, 1988] B. Mérialdo, Phonetic recognition using Hidden Markov Models and Maximum Mutual Information Training, ICASSP, Ney-York, vol. S1, pp. 111-114, 1988. [Michaud, 2005] I. Michaud, Application de l'algorithme EM au modèle des risques concurrents avec causes de panne masquées. Mémoire pour l'obtention du grade de maître de sciences, Faculté des Sciences et de Génie Université Laval Québec, 2005. [Pellegrino, 1998] F. Pellegrino, Une approche phonétique en identification automatique des langues : la modélisation acoustique des systèmes vocaliques, Thèse de doctorat, Université Paul Sabatier de Toulouse, 1998. [Rabiner, 1989] L. R. Rabiner, A Tutorial on Hidden Markov Models and Select Application in Speech Recognition, Proceedings of the IEEE, vol. 77, no. 2, pp. 257-286, 1989. [Rabiner et Juang, 1993] L. R. Rabiner et B. H. Juang, Fundamentals of Speech Recognition, Englewood Cliffs, New Jersey, Prentice Hall, 1993. 83 [Rabiner et Levinson, 1985] L. R. Rabiner et S. E. Levinson, A speaker-independent, syntax-directed, connected word recognition system based on Hidden Markov Models and level building, IEEE Transactions on Acoustics, Speech and Signal Processing, vol. ASSP-33, N°3, pp. 561-573, 1985. [Reynolds, 1992] D. A. Reynolds, A gaussian mixture modelling approach to text independent speaker identification . Thesis of Georgia Institute to Technology, 1992. [Reynolds, 1994] D. A. Reynolds, Speaker identification and verification using Gaussian mixture speaker models, Workshop on Automatic Speaker Recognition, Identification and Verification, Martigny, Suise, pp. 27-30, 1994. [Reynolds, 1995] D. A. Reynolds, Speaker identification and verification using Gaussian mixture speaker models, Speech Communication, vol. 17, pp. 91-108, 1995. [Reynolds, 1997] D. A. Reynolds, Comparison of background normalization methods for text independent speaker verification, Proceedings of European Conference on Speech Communication and Technology, vol.2, pp. 963-966, 1997. [Scharf, 1991] L. L. Scharf, Statistical Signal Processing : Detection, Estimation and Time Series Analysis, Addison-Wesley Publishing Company, 1991. [Soong et Rosenberg, 1988] F. K. P. Soong et A. E. Rosenberg, On the use of instantaneous and transitional spectral information in speaker recognition, IEEE Transactions on Acoustics, Speech and Signal Processing vol. 36, no. 6, pp. 871-879, 1988. [Viterbi, 1967] A. J. Viterbi, Error Bounds for Convolutional Codes and an Asymptotically Optimum Decoding Algorithm, IEEE Transactions on Information Theory, vol. 3, no. 2, pp. 260-267, 1967. [Woodland et al., 1995] P. C. Woodland, C. J. Leggetter, J. J. Odell, V. Valtchev et S. J. Young, The 1994 HTK Large Vocabulary Speech Recognition System, Proc. ICASSP, Detroit, pp. 73-76, 1995. [Young et Woodland, 1994] S. J. Young et P. C. Woodland, State clustering in hidden Markov model-based continuous speech recognition, Computer Speech and Language, vol. 8, pp. 369-384, 1994. 84 A.1 INTRODUCTION La Quantification Vectorielle (QV) qui est l’une des nombreuses techniques utilisées en reconnaissance automatique de la parole, a été introduite pour crée des références statistiquement plus représentatives et en même temps économiques au stockage. L’idée essentielle de cette technique résulte du fait que dans l’espace de représentation de la parole, les vecteurs n’occupent que des sous-espaces sous forme de nuages. Ces derniers peuvent être représentés par leurs représentants (prototypes) sans trop de perte d’information. La quantification vectorielle consiste à extraire un « dictionnaire » de vecteurs représentatifs (ensembles des centroïdes) d’un ensemble de vecteurs caractéristiques. Le dictionnaire doit respecter le mieux possible leur répartition dans l’espace. Une telle représentation permet d’exploiter la corrélation existante entre les composantes d’un vecteur et ainsi, de diminuer sa dimension. A.2 L’ALGORITHME DES K-MOYENNES L’algorithme des k-moyennes ou k-means (encore appelée méthode des centres mobiles) [MacQueen, 1967] est une méthode de classification non-supervisée. C’est un algorithme classique de quantification vectorielle permettant d'identifier les clusters d'individus similaires en se basant sur une mesure de similarité pour grouper les données. Un cluster dans l’algorithme des k-means est un sous-ensemble de l'espace des données identifié par son centre de gravité. Son principe est le suivant : on dispose de points de l’espace des observations que l’on souhaite rassembler en classes, sans que l’on dispose de connaissance a priori de propriétés particulières sur ces classes (on ne connaît pas les classes à priori : elles sont à découvrir automatiquement), seul leur nombre k est fixé a priori. Dans le cadre du clustering, on cherche généralement à partitionner un espace en classes concentrées et isolées les unes des autres. Dans cette optique, elle construit k partitions et les corrige jusqu'à obtention d’une similarité satisfaisant. L'algorithme des k-moyennes vise à maximiser la similarité intra-classes et minimiser la similarité inter-classes. 85 A.2.1 PRESENTATION DE L’ALGORITHME DES K-MOYENNES ALGORITHME : K-MOYENNES 1. Choix d'une métrique pour le calcul des distances (euclidienne, hamming…). 2. Définition d'un nombre k de classes sur un ensemble des éléments. 3. Initialisation aléatoire des 1,…, k : le centre de gravité (centroïde) de chacune des k classes 4. Affectation de chaque élément à la classe (cluster) le plus proche : dont le centre lui est le plus proche suivant la métrique choisie. (en utilisant par exemple une distance euclidienne). 5. Recalcule le centre i de chaque cluster 6. Répétition des étapes 4 et 5 jusqu'à convergence. ALGORITHME A.1 : L’algorithme des k-moyennes A.2.2 CHOIX DES CENTRES INITIAUX L’algorithme des k‐moyennes est influencé par ses conditions initiales, il existe plusieurs méthodes d’initialisation, nous pouvons citer : L’initialisation aléatoire : Le dictionnaire le plus simple est celui qui contient les L premiers vecteurs de la suite d’apprentissage, où ces L vecteurs sont extraits aléatoirement de cette suite. Ces vecteurs peuvent bien sûr ne pas être du tout des représentants de la suite d’apprentissage, et dans ce cas, on aboutit à des résultats très médiocres. L’algorithme à seuil : Au lieu de prendre L vecteurs aléatoirement, on fixe une distance minimale entre les éléments du dictionnaire initial. Cette méthode permet d’obtenir une meilleure représentativité que dans le cas précédent. 86 A.3 L’ALGORITHME DE LINDE-BUZO-GRAY L’algorithme de k-means présente un problème de choix d’initialisation, Linde-Buzo-Gray propose l’algorithme de « split » qui permet de résoudre le problème de choix de nombre de vecteurs-références et de l’initialisation de vecteur. Cet algorithme de quantification vectorielle de type LBG est une variante des k-moyennes, son idée principale est de construire un Codebook pour toutes les périodes. Premièrement, le Codebook ne contient qu’un noyau. Pendant chaque itération, chaque noyau sera séparé en deux (séparation binaire) pour augmenter la taille du Codebook A.3.1 PRESENTATION DE L’ALGORITHME DE LINDE-BUZO-GRAY ALGORITHME : LINDE-BUZO-GRAY 1. Initialisation : choisir le centroïde de l’ensemble d’apprentissage, noté 2. Split ou éclatement : on double la taille du codebook par éclatement de chaque centroïdes en suivant la règle : : Où est un vecteur de norme faible, n varie de 1 à la taille du codebook. On passe donc de 2N élément à 2N+1. 3. Convergence : pour avoir le meilleur ensemble de centroïdes pour le nouveau codebook, on applique l’algorithme de k-means. 4. Arrêt : on incrémente n, et on répète à l’étape 2 et 3 jusqu'à ce que le codebook de taille M fixée à l’avance soit calculé. ALGORITHME A.2 : L’algorithme de Linde-Buzo-Gray 87 B.1 INTRODUCTION La paramétrisation du signal de la parole est obtenue par une analyse cepstrale classique en RAP aboutissant à un vecteur de coefficients MFCC (Mel Frequency Cepstral Coefficient). Nous ne reviendrons pas sur ce processus bien connu que nous appliquons de manière standard. L’information dynamique contenue dans le signal de parole est utile à la reconnaissance automatique de la parole. Il existe de nombreuses approches intégrant ces aspects dynamiques mais l’approches la plus répandue consiste à ajouter l’information dynamique à partir de coefficients déjà extraits. B.2 DETERMINATION DES DERIVEES DES COEFFICIENTS (, ) Il est très important d’avoir une information temporelle concernant les coefficients dérivés de l’analyse cepstral. Pour cela, on peut calculer les coefficients de vitesse et les coefficients d’accélération qui correspondent respectivement aux première et deuxième dérivées des coefficients acoustiques. La méthode de calcul des dérivées temporelles premières et secondes des paramètres acoustiques (cf. figure B.1), a été introduite par Furui [Furui, 1981] et présentée de façon détaillée dans [Fredouille, 2000]. FIG. B.1 : Calcul de données dynamiques à partir des trames de la fenêtre temporelle 88 B.2.1 DERIVEE PREMIERE () Comme la fonction de variation des paramètres acoustiques est connue seulement en des instants précis, le calcul de la dérivée première se fait par l’approximation polynomiale suivante : K k.c(t k ) c(t ) c(t ) k K t (B.1) K k 2 k K où c est le coefficient à dériver, c sa dérivée première à l’instant t et où les coefficients sont calculés sur une fenêtre temporelle de longueur 2K+1 trames. Le rapport entre la variable K et la longueur de la fenêtre glissante utilisée pour l’extraction des paramètres a été l’objet de nombreuses études [Furui, 1981 ; Soong et Rosenberg, 1988]. B.2.2 DERIVEE SECONDE () La formule de calcul de la dérivée second est obtenue avec la même approximation, que celui utilisé pour la dérivée première, à partir des coefficients . On obtient finalement un vecteur de paramètres acoustiques de 39 composantes (13MFCC + 13 + 13) toutes les 10 ms. 89 C.1 INTRODUCTION Etant X un tableau de p variables numériques (en colonnes) décrivant n individus (en lignes), nous proposons de rechercher une représentation de n individus e1, e2, . . . , en dans un sous espace de l’espace initial. Autrement dit, nous cherchons à définir k nouvelles variables, combinaison des p de l’espace initial, qui feraient perdre le ″moins d’information possible″. Ces k variables seront appelées ″composantes principales″ et les axes qu’elles déterminent ″axes principaux″. C.2 DEFINITION L'Analyse en Composantes Principales (ACP) est une méthode mathématique d'analyse des données qui consiste à rechercher les directions de l'espace qui représentent le mieux les corrélations entre n variables aléatoires. L'analyse en composantes principales est une méthode d'ordination classique. A partir d'un ensemble de n objets dans un espace de p descripteurs, son but est de trouver une représentation dans un espace réduit de k dimensions (k << p) qui conserve "le meilleur résumé" (au sens du maximum de la variance projetée). Lorsqu'on veut compresser un ensemble de N variables aléatoires, les n premiers axes de l'ACP est un meilleur choix, du point de vue de l'inertie expliquée. La méthode a pour objet de décrire les données contenues dans un tableau d'individus et de caractères. Ce tableau s'appelle matrice des données. Il se compose de : Lignes d'individus : des personnes, des entreprises, des journaux, etc. Colonnes de variables : quantitatives (âge, taille, nombre d'employés, etc.). C.3 ETAPES D’UN ACP Soit la matrice de données X : m objets (ou individus), p descripteurs (ou variables) : X11 X21 X31 X12 X13 X1p X2p X3p X33 Xij Xm1 Xmp 90 1. Centrage et réduction des données : Pour centrer le tableau ; on doit calculer les centres de gravité à partir de la formule suivante : n gi PX i 1 n i i où P i 1 Pi 1 n (C.1) i avec Pi : le poids d’individus et n : le nombre d’individus Donc les nouvelles données du nouveau tableau seront comme suit : X ij X ij g j 2. Calcul de la matrice VM : Si les données sont homogènes M =I (la matrice identité). Si les données sont hitérogenes : D 1 fij M . D 1 fij . et V 1 t X X n 3. Calcul des valeurs propres et des vecteurs propres : Les valeurs propres λi : det(V i I ) 0 et 1 trace (V ) La qualité de représentation : o On classe les valeurs propres avec un ordre décroissant. o On calcule Q 1 2 jusqu’à ce qu’on obtiens Q 80% puis Q 1 1 1 Les vecteurs propres Ui : on prend seulement les valeurs qui donnent une quantité 80% puis on calcule leur vecteurs propres avec la formule : VUi iUi (C.2) 4. Calcul des composantes principales Ck: On obtient les nouvelles coordonnées des individus : Ck XMU k 91 D.1 MODELE DE MELANGE DE GAUSSIENNES : Application du modèle TS-GMM dans un espace de paramètres dynamiques Taux global : 64.90 Dimension de l’ACP : 23 Nombre des itérations des k-means : 50 Nombre des itérations de EM : 50 Nombre de composantes : Q = [12 5 16 2 4 4 12 12 12 8 16 1 2 8 8 12 16 16] ah aw ax ax-h uh uw dh f sh v z zh b d g p q t ah aw ax ax-h uh uw dh f sh v z zh b d g p q t 647 9 30 0 30 3 0 0 0 0 0 0 0 0 0 0 17 0 9 182 35 0 4 1 0 0 0 0 0 0 0 0 1 0 18 0 15 5 963 9 54 20 75 0 0 69 2 0 3 5 7 2 32 0 93 2 36 25 43 16 29 15 2 21 20 0 4 20 13 14 33 50 69 5 53 0 50 15 2 1 0 7 0 1 0 1 1 0 8 0 22 3 61 0 25 98 0 0 0 11 1 0 0 0 0 0 17 0 1 0 12 6 0 1 448 0 0 61 19 0 5 7 5 12 29 13 4 0 4 1 0 0 30 685 1 41 16 0 4 7 8 44 5 25 0 0 0 0 0 0 0 8 570 0 53 13 0 4 0 5 1 37 1 0 14 2 4 4 31 56 1 380 4 0 0 0 2 6 5 2 0 0 2 4 0 0 14 4 27 2 947 7 0 2 0 1 1 32 1 1 7 14 0 2 25 4 152 25 152 48 5 27 32 51 39 56 1 0 48 13 0 2 87 48 0 58 3 0 140 186 101 58 70 100 0 0 1 3 0 0 25 8 6 1 16 3 4 162 28 28 18 98 1 0 12 7 0 1 33 3 0 10 2 0 9 71 326 37 50 65 0 0 3 0 0 0 9 47 4 3 3 0 5 10 6 499 9 36 15 9 42 8 11 7 9 3 0 14 0 0 3 4 13 3 832 8 0 0 0 3 0 0 5 29 33 4 35 2 0 20 3 19 7 822 92 D.2 MODELE DE MARKOV CACHE : Application du modèle CHMM dans un espace de paramètres dynamiques Taux global : 65.79 Nombre des itérations des k-means : 5 Nombre des itérations de EM : 10 Nombre de composantes par état : 8 ah aw ax ax-h uh uw dh f sh v z zh b d g p q t ah aw ax ax-h uh uw dh f sh v z zh b d g p q t 602 26 152 0 42 4 0 0 0 1 0 0 0 0 0 0 14 0 27 163 40 0 4 2 0 0 0 0 0 0 0 0 1 0 31 0 155 11 835 15 59 25 90 1 0 4 1 0 12 7 19 4 2 0 3 0 18 11 1 4 27 6 1 18 20 0 1 7 8 23 20 29 55 2 79 0 75 19 2 0 0 8 0 1 0 0 1 0 17 0 12 1 58 0 20 100 1 0 0 9 0 0 0 0 0 0 20 1 2 0 20 6 1 1 365 73 0 73 16 0 11 17 7 35 36 26 1 0 0 4 0 0 45 610 2 43 19 0 4 9 15 43 5 43 0 0 0 0 0 0 0 12 646 0 16 17 0 6 0 4 0 51 1 0 17 3 3 4 30 55 0 476 5 0 0 3 4 14 10 3 0 0 1 3 0 0 15 4 20 3 1068 5 0 3 0 0 0 34 0 0 1 2 0 0 5 7 80 7 55 48 1 8 3 6 3 18 0 0 7 10 1 1 55 6 0 14 0 0 38 25 11 43 19 26 0 0 1 9 0 0 77 14 6 8 21 1 33 264 48 50 31 48 3 0 14 15 0 0 82 10 0 23 4 0 70 129 398 70 70 107 0 0 6 3 0 0 7 80 6 3 0 1 9 11 10 448 11 60 16 13 74 10 15 10 15 4 0 15 0 0 3 4 16 8 896 10 2 0 0 4 0 0 6 29 35 2 48 1 0 33 5 31 6 888 93 RESUME Les recherches en ingénierie d’informatique et de la communication ont pour objectifs de faciliter la coopération homme-machine au travers des systèmes interactifs conversationnels robustes pour le grand public. Ces objectifs nécessitent de comprendre le fonctionnement et de tester l’efficacité d’un certain nombre d’algorithmes de classifications actuellement utilisés. Les méthodes stochastiques basées sur les Modèles de Mélanges de Gaussiennes (GMM) et les Modèles de Markov Cachés (HMM) ont été pleinement exploités pour des systèmes de reconnaissance du langage parlé, mais aussi dans bien d’autres applications dans lesquelles apparaît une séquentialité. Le travail de ce magister s’inscrit dans la perspective d'implémenter un système interactif ayant pour but de classifier les phonèmes. Ce système exploite les propriétés de la modélisation liées aux GMM ainsi qu’aux HMM pour une tâche de classification au quel est intégré des composantes présentant mieux l’information temporelle dans le signal de la parole. Mots-clés : Modèle de Mélange de Gaussiennes (GMM), Modèle de Markov Caché (HMM). ABSTRACT Search in engineering of data processing and the communication have for objectives to facilitate the man-machine cooperation through robust conversational interactive systems for general public. These objectives require to understand the operation and to test the effectiveness of a certain number of classifications algorithms currently used. The stochastic methods based on the Gaussian Mixture Models (GMM) and Hidden Markov Models (HMM) were fully exploited for systems of recognition of the spoken language, but also in good of other applications in which a sequentiality appears. The work of this magister falls under the prospect to implement an interactive system having for goal to classify the phonemes. This system exploits the properties of modeling related to GMM as well to HMM for a task of classification into which is integrated components presenting better temporal information in the speech signal. Key-words: Gaussian Mixture Model (GMM), Hidden Markov Model (HMM).