Application des Modèles de Markov Cachés et les Modèles de

publicité
République Algérienne Démocratique et Populaire
‫وزارة اﻟﺘﻌــﻠـــﻴـــﻢ اﻟﻌــﺎﻟــــــــﻲ و اﻟـﺒــﺤــــﺚ اﻟﻌـﻠــﻤــــﻲ‬
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
UNIVERSITE DES SCIENCES ET DE LA TECHNOLOGIE D’ORAN Mohamed Boudiaf
Faculté des Sciences
Département d’Informatique
Spécialité : Informatique
Option : Reconnaissance des Formes et Intelligence
Artificielle (RFIA)
MEMOIRE
Présenté par
Mme AZIB Lamia
Pour l’obtenir du diplôme de Magister en Informatique
Thème :
Application des Modèles de Markov Cachés et les Modèles de Mélanges de
Gaussiennes pour la Classification Phonétique
SOUTENU LE 03/07/ 2012 à 14H00 dans la salle de soutenance
Devant la commission d’examen composée de :
Qualité
Nom et Prénom
Grade
Président
Rapporteur
Examinatrice
Examinatrice
BENYETTOU Mohamed
BENYETTOU Abdelkader
BENAMRANE Nacéra
IZABATENE-FIZAZI Hadria
Professeur
Professeur
M.conf. A
M.conf. A
Le public est cordialement invité
Année universitaire : 2011/2012
Etb d’origine
USTO
USTO
USTO
USTO
RESUME
Les recherches en ingénierie d’informatique et de la communication ont pour
objectifs de faciliter la coopération homme-machine au travers des systèmes
interactifs conversationnels robustes pour le grand public. Ces objectifs nécessitent
de comprendre le fonctionnement et de tester l’efficacité d’un certain nombre
d’algorithmes de classifications actuellement utilisés.
Les méthodes stochastiques basées sur les Modèles de Mélanges de Gaussiennes
(GMM) et les Modèles de Markov Cachés (HMM) ont été pleinement exploités pour
des systèmes de reconnaissance du langage parlé, mais aussi dans bien d’autres
applications dans lesquelles apparaît une séquentialité.
Le travail de ce magister s’inscrit dans la perspective d'implémenter un système
interactif ayant pour but de classifier les phonèmes. Ce système exploite les
propriétés de la modélisation liées aux GMM ainsi qu’aux HMM pour une tâche de
classification au quel est intégré des composantes présentant mieux l’information
temporelle dans le signal de la parole.
Mots-clés : Modèle de Mélange de Gaussiennes (GMM), Modèle de Markov Caché
(HMM).
ABSTRACT
Search in engineering of data processing and the communication have for
objectives to facilitate the man-machine cooperation through robust conversational
interactive systems for general public. These objectives require to understand the
operation and to test the effectiveness of a certain number of classifications algorithms
currently used.
The stochastic methods based on the Gaussian Mixture Models (GMM) and
Hidden Markov Models (HMM) were fully exploited for systems of recognition of the
spoken language, but also in good of other applications in which a sequentiality
appears.
The work of this magister falls under the prospect to implement an interactive
system having for goal to classify the phonemes. This system exploits the properties of
modeling related to GMM as well to HMM for a task of classification into which is
integrated components presenting better temporal information in the speech signal.
Key-words: Gaussian Mixture Model (GMM), Hidden Markov Model (HMM).
REMERCIEMENTS
Je remercie « DIEU »
pour m’avoir guidé et aidé à terminer ce mémoire
Avec beaucoup de gratitude et de sincérité, je remercie vivement le rapporteur de ce
mémoire le Professeur Mr BENYETTOU Abdelkader pour sa présence scientifique et
humaine ainsi que pour tout le soin qu’il apporte à nous diriger vers des sujets d’actualité.
Je remercie également le Professeur Mr BENYETTOU Mohamed, pour avoir accepté
de présider le jury. Qu’il trouve ici l’expression de mon profond respect.
Mes remerciements s’adressent au même titre aux Maîtres de Conférences Melle
BENAMRANE Nacéra et Mme IZABATENE-FIZAZI Hadria pour l’intérêt qu’ils ont
porté à notre travail et d’avoir accepter de l’examiner.
Finalement, je remercie toute personne ayant contribué de près ou de loin à
l’accomplissement de ce travail.
DEDICACES
Ce mémoire est dédié à toutes celles et à tous ceux qui ont contribué
de près ou de loin, directement ou indirectement,
à son existence ;en particulier :
à mes très chers parents qui ont été toujours là pour me soutenir et
m’encourager, que Dieu les garde pour moi
et guérie mon très cher père
à mon époux…
à mes frères et sœurs
à ma belle famille
à tous les gens que j’aime
INTRODUCTION GENERALE
01
CHAPITRE I GENERALITE SUR LE TRAITEMENT AUTOMATIQUE DE LA PAROLE
I.1 Introduction
03
I.2 Historique de la reconnaissance de la parole
03
I.3 Principe de la reconnaissance automatique de la parole
05
I.3.1 Phase de paramétrisation du signal de parole
06
I.3.2 Phase de modélisation
08
I.3.3 Phase d’apprentissage
09
I.3.4 Phase de reconnaissance
10
I.4 Méthodologies de reconnaissance
10
I.4.1 Approche analytique
10
I.4.2 Approche globale
11
I.5 Approches appliquées à la RAP
12
I.5.1 Approche statistique
12
I.5.2 Approche neuronale
13
I.6 Protocoles de test
14
I.7 Conclusion
14
CHAPITRE II MODELE DE MELANGE DE GAUSSIENNES
II.1 Introduction
15
II.2 Rappels probabilistes
15
II.2.1 Principe de la décision bayesienne
15
II.2.2 Règle de Bayes
16
II.2.3 Estimation au maximum de vraisemblance
16
II.2.4 Loi normale
17
II.2.5 Loi normale multidimensionnelle
17
II.2.6 Mélange de lois
18
II.3 Modèle de mélange de gaussiennes
II.3.1 Définition
18
18
II.4 Modélisation acoustique par le GMM
20
II.5 Apprentissage
21
II.5.1 Initialisation du modèle
21
II.5.2 L’algorithme d’expectation-maximisation
21
II.5.2.1 Principe de l’algorithme EM
22
II.5.2.2 Algorithme EM pour les GMM
22
II.6 Reconnaissance
25
II.7 Modélisation de l’information dynamique
27
II.7.1 Intérêt des informations dynamiques
27
II.7.2 Ajout de l’information dynamique
27
II.7.2.1 Intégration d’une composante temporelle (T-GMM)
27
II.7.2.2 Ajout des dérivées temporelles
28
II.8 Conclusion
29
CHAPITRE III MODELE DE MARKOV CACHE
III.1 Introduction
30
III.2 Modèle de Markov
30
III.3 Modèle de Markov caché
31
III.3.1 Définition formelle
31
III.3.2 Représentation graphique et matricielle
33
III.4 Types de distribution des probabilités des symboles
34
III.4.1 Modèle discret
34
III.4.2 Modèle continu
34
III.4.3 Modèle semi-continu
34
III.5 Topologies des HMM
III.5.1 Modèle ergodique
35
35
III.5. 2 Modèle gauche-droite
35
III.6 Modélisation acoustique par les HMM
37
III.7 Principaux problèmes liés aux HMM
39
III.7.1 Les trois problèmes fondamentaux des HMM
39
III.7.2 Autres problèmes liés aux HMM
41
III.8 Solutions des trois problèmes fondamentaux
42
III.8.1 Solution du problème 1: Algorithme Forward-Backward
42
III.8.2 Solution du problème 2 : Algorithme de Viterbi
44
III.8.3 Solution du problème 3 : Algorithme de Baum-Welch
45
III.9 Reconnaissance
48
III.10 Conclusion
49
CHAPITRE IV IMPLEMENTATION ET RESULTATS
IV.1 Introduction
51
IV.2 Ressources : Matérielles et Logiciels
51
IV.3 Base de données utilisée
51
IV.4 Classification phonétique
53
IV.5 Applications
53
IV.5.1 Classification par les modèles GMM
55
IV.5.1.1 Topologie du modèle
55
IV.5.1.2 Initialisation du modèle
55
IV.5.1.3 Expériences
55
IV.5.1.4 Résultats
56
IV.5.1.5 Discussion
65
IV.5.2 Classification par les modèles HMM
66
IV.5.2.1 Topologie du modèle
66
IV.5.2.2 Initialisation du modèle
67
IV.5.2.3 Expériences
68
IV.5.2.4 Résultats
68
IV.5.2.5 Discussion
76
IV.6 Comparaison entre les différents modèles implémentés
77
IV.7 Conclusion
78
CONCLUSION & PERSPECTIVES
79
BIBLIOGRAPHIE
80
ANNEXE A QUANTIFICATION VECTORIELLE
85
ANNEXE B DERIVES DES PARAMETRES ACOUSTIQUES
88
ANNEXE C ANALYSE EN COMPOSANTES PRINCIPALES
90
ANNEXE D MATRICES DE CONFUSION
92
FIG. I.1
: Schémas de principe d’un système de reconnaissance automatique de la
parole
06
FIG. II.1 : Exemple de modèle de mélange de 3 gaussiennes
19
FIG. II.2 : La distribution du deuxième coefficient MFCC
20
FIG. II.3 : L’importance de la phase d’initialisation de l’algorithme EM
24
FIG. II.4 : Calcul de la vraisemblance d’un vecteur acoustique par rapport à un GMM
25
FIG. II.5 : Processus de reconnaissance par le modèle GMM
26
FIG. III.1 : Représentation graphique d’un HMM : Exemple simple à 5 états et 2
symboles
33
FIG. III.2 : Exemple d’un HMM ergodique
35
FIG. III.3 : Exemple d’un HMM gauche-droite
36
FIG. III.4 : Exemple d’un HMM à 4 états de type Bakis
36
FIG. III.5 : HMM gauche-droite modélisant le phonème « a »
38
FIG. III.6 : Représentation du mot « sam » par concaténation de phonèmes
38
FIG. III.7 : Classifieur de phonème à base de maximum de vraisemblance
49
FIG. IV.1 : Schéma général des approches implémentées
54
FIG. IV.2 : HMM à 5 états de type Bakis
66
FIG. IV.3 : HMM continu à 5 états de type Bakis
72
FIG. IV.4 : Histogramme des taux de reconnaissance obtenus avec les différents
modèles implémentés
78
FIG. B.1 : Calcul de données dynamiques à partir des trames de la fenêtre temporelle
88
TABLEAU IV.1 : Les phonèmes utilisés dans notre application avec leurs nombres
d’occurrences
52
TABLEAU IV.2 : Les modèles GMM Implémentés
56
TABLEAU IV.3 : Pourcentage de reconnaissance par le modèle GMM avec Q
constant
57
TABLEAU IV.4 : Nombre de composantes gaussiennes choisi par classe de phonème
59
TABLEAU IV.5 : Pourcentage de reconnaissance par le modèle GMM avec Q
variable
60
TABLEAU IV.6 : Taux de reconnaissance obtenus avec les modèles GMM, TD-GMM
et TS-GMM
62
TABLEAU IV.7 : Taux de reconnaissance obtenus avec les modèles GMM, TD-GMM
et TS-GMM dans différents espaces de paramètres
64
TABLEAU IV.8 : Les modèles HMM Implémentés
68
TABLEAU IV.9 : Taux de reconnaissance obtenus avec le modèle DHMM en utilisant
des données normalisées et non-normalisées
70
TABLEAU IV.10 : Taux de reconnaissance obtenus avec le modèle CHMM en utilisant
des données normalisées et non-normalisées
73
TABLEAU IV.11 : Taux de reconnaissance obtenus avec les modèles DHMM et
CHMM dans différents espaces de paramètres
75
ALGORITHME III.1 : L’algorithme Forward
42
ALGORITHME III.2 : L’algorithme Backward
43
ALGORITHME III.3 : L’algorithme de Viterbi
44
ALGORITHME III.4 : L’algorithme de Baum-Welch
48
ALGORITHME A.1 : L’algorithme des k-moyennes
86
ALGORITHME A.2 : L’algorithme de Linde-Buzo-Gray
87
ACP
Analyse en Composantes Principales
CHMM
Continuous Hidden Markov Model
DARPA
Defence Advanced Research Projects Agency
DHMM
Discrete Hidden Markov Model
DTW
Dynamic Time Warping
EM
Expectation-Maximisation
GMM
Gaussian Mixture Model
HMM
Hidden Markov Model
ISTO
Information Science and Technology Office
LBG
Linde-Buzo-Gray
LFCC
Linear Frequency Cepstral Coefficients
LPC
Linear Prediction Coefficients
MFCC
Mel Frequency Cepstral Coefficients
MIT
Institute of Technology
ML
Maximum Likelihood
NIST
National Institute of Standards and Technology.
PDF
Probability Density Function
QV
Quantification Vectorielle
RAP
Reconnaissance Automatique de la Parole
RN
Réseau de Neurones
SC-HMM
Semi-Continuous Hidden Markov Model
SRAP
Système de Reconnaissance Automatique de la Parole
SRI
Stanford Research Institute
TI
Texas Instruments
TIMIT
Texas Instrument Massachusetts Institute of Technology
Notre monde qui devient toujours plus complexe donne parfois des problèmes qui
dépassent la capacité intellectuelle de l'être humain et le rend ainsi incapable de prendre des
bonnes décisions. Ces problèmes peuvent se produire dans des systèmes créés par l'humain
lui-même comme les systèmes de production. Les problèmes les plus difficiles se posent
néanmoins avant tout dans les systèmes naturels, qui ne sont ni créés ni vraiment contrôlables
par les humains.
Les Systèmes de Reconnaissance Automatique de la Parole (SRAP) sont aujourd’hui
bien connus dans le monde de l’informatique et suscitent l’intérêt d’un public de plus en plus
large.
Le travail présenté dans ce mémoire de Magister s’inscrit dans le cadre général de la
reconnaissance automatique de la parole. Pour qu’on puisse créer un système interactif
capable à reconnaître nos parole avec toute ses complexités, on est besoin d’abord de mieux
représenter les informations portées sur un tel signal de parole, ensuite d’effectuer des choix
fructueux d’une ou de plusieurs méthodes de classification parmi les grandes familles de ces
dernières.
Les approches statistiques et les modèles probabilistes sont très utilisés, de nos jours,
dans les systèmes de reconnaissance automatique de la parole. Ces approches, notamment
celles basés sur les Modèles de Mélanges de Gaussiennes (GMM) et les Modèles de Markov
Cachés (HMM), ont atteint des performances remarquables avec des vocabulaires de plus en
plus importants et une robustesse au bruit et à la variabilité des locuteurs de plus en plus
grande.
Ce travail nous permettra de tester nos modèles statistiques dans une classification des
phonèmes sur la base de données TIMIT. Parallèlement, dans le but de renforcer notre
appréciation sur les modèles mis à l’étude, nous avons essayé de varier certains paramètres au
court des applications comme tentative d’amélioration des résultats. Nous avons également
évalué l’influence des paramètres dynamiques sur la classification phonétique.
Globalement, nous avons réparti ce mémoire en quatre chapitres :
Le chapitre 1 expose en générale les principaux axes de la Reconnaissance Automatique
de la Parole, le domaine dont nous nous intéressons essentiellement dans ce mémoire.
1
Dans le chapitre 2, nous détaillons le Modèle de Mélange de Gaussiennes (GMM) ainsi
que les étapes qui le composent.
Le chapitre 3, décrit le Modèle de Markov Caché (HMM) et leurs principaux
algorithmes.
Finalement, le chapitre 5 expose les expériences réalisées et la discussion des résultats
obtenus par la base de données TIMIT.
2
GENERALITE SUR LA RECONNAISSANCE
AUTOMATIQUE DE LA PAROLE
e chapitre présente un état de l’art général sur la reconnaissance
automatique de la parole. L'objectif du premier chapitre est de situer
le contexte d’étude sur lequel nous nous focaliserons et de présenter
les bases théoriques nécessaires aux fonctionnements des Système de
Reconnaissance Automatique de la Parole (SRAP).
C
Mots-clés
Système de Reconnaissance Automatique de la Parole (SRAP).
I.1 INTRODUCTION
La communication entre l'homme et la machine est actuellement un des sujets de
recherches les plus intéressants. Et sans doute la parole est le moyen de communication le
plus naturel et le plus rapide.
Le signal de la parole est un signal très complexe dont les caractéristiques varient au
cours du temps. L'objectif de son traitement est l'extraction des informations imbriquées
qu'il contient (ex : message, locuteur, environnement, etc.). Au début, la recherche s'est
limitée au traitement proprement dit du signal. Mais peu à peu d'autre disciplines (comme
l'intelligence artificielle, l'informatique, la reconnaissance de formes, la phonétique, la
linguistique, etc.) sont intervenues afin de concevoir et développer des systèmes experts
utilisant la parole comme moyen de communication.
Les principaux objectifs du traitement du signal de parole sont :
-
Un codage efficace du signal pour sa transmission ou son enregistrement.
-
La reconnaissance automatique de la parole.
-
La reconnaissance automatique du locuteur.
-
La synthèse du signal de la parole.
-
Certaines applications médicales.
-
Certaines applications pour l'étude des langues.
Dans le cadre de ce mémoire, nous nous intéressons au problème de la
reconnaissance automatique de la parole et plus particulièrement au problème de la
classification phonétique tout en considérant le reste des problèmes comme des
applications tout à fait intéressantes dans la perspective d’évolution de notre système.
I.2 HISTORIQUE DE LA RECONNAISSANCE DE LA PAROLE
La reconnaissance de la parole est une discipline récente. Vers 1950 apparut le
premier système de reconnaissance de chiffres, appareil entièrement câblé et très
imparfait. Vers 1960, l’introduction des méthodes numériques et l’utilisation des
ordinateurs changent la dimension des recherches. Néanmoins, les résultats demeurent
modestes car la difficulté du problème avait été largement sous-estimée, en particulier en
ce qui concerne la parole continue. Vers 1970, la nécessité de faire appel à des contraintes
linguistiques dans le décodage automatique de la parole avait été jusque-là considérée
comme un problème d’ingénierie. La fin de la décennie 70, l’apparition des chaînes de
3
Markov cachées permet la commercialisation des premiers systèmes de reconnaissance
vocale. Les générations suivantes, mettant à profit les possibilités sans cesse croissantes
de la micro-informatique, posséderont des performances supérieures (systèmes
multi-locuteurs, parole continue).
On peut résumer en quelques dates les grandes étapes de la reconnaissance de la
parole :
 1952 : Reconnaissance des 10 chiffres, pour un mono-locuteur, par un dispositif
électronique câblé.
 1960 : Utilisation des méthodes numériques.
 1965 : Reconnaissance de phonèmes en parole continue.
 1968 : Reconnaissance de mots isolés par des systèmes implantés sur gros
ordinateurs (jusqu’à 500 mots).
 1969 : Utilisation d’informations linguistiques.
 1970 : Méthodes basées sur la programmation dynamique.
 1971 : Lancement du projet ARPA aux USA visant à tester la faisabilité de la
compréhension automatique de la parole continue avec des contraintes
raisonnables.
 1972 : Premier appareil commercialisé de reconnaissance de mots isolés.
 1976 : Fin du projet ARPA ; les systèmes opérationnels sont HARPY,
HEARSAY I et II et HWIM.
 1978 : Commercialisation d’un système de reconnaissance à microprocesseurs
sur une carte de circuits imprimés.
 1981 : Utilisation de circuits intégrés VLSI (Very Large Scale Integration)
spécifiques du traitement de la parole.
 1981 : Système de reconnaissance de mots sur un circuit VLSI.
 1983 : Première mondiale de commande vocale à bord d’un avion de chasse en
France.
 1985 : Commercialisation des premiers systèmes de reconnaissance de plusieurs
milliers de mots.
 1986 : Lancement du projet japonais ATR utilisant la traduction automatique en
temps réel par le téléphone.
 1988 : Apparition des premières machines de dictée vocale par mots isolés.
 1989 : Recrudescence des modèles connexionnistes neuromimétiques.
 1990 : Premières véritables applications de dialogue oral homme-machine.
4
 1993 : Premier SRAP de parole continue (langue allemande) fonctionnant en
quasi temps réel présenté par Phillips à la conférence Eurospeech.
 1994 : IBM lance son premier système de reconnaissance vocale sur PC : speech
server series.
 1997 : IBM lance une machine à dictée vocale en parole continu : IBM Voice
Type-Dictée Personnelle.
 2000 : Microsoft s'associe à Lernout & Hauspie pour intégrer les solutions de
reconnaissance vocale et de synthèse vocale de la société belge à son
interface de programmation vocale nommée SAPI (Speech Application
Programming Interface). Cette application est destinée à simplifier le
travail des programmeurs qui souhaitent développer des applications
vocales.
 2006 : Le DARPA (Defense Advanced Research Projects Agency) prépare une
super machine dédiée à la traduction. Cet organisme ambitionne de
développer un logiciel capable de traduire de façon quasi simultanée
l'arabe et le mandarin avec une précision accrue. L'appareil devrait être
utilisé par les renseignements américains pour écouter et parcourir tous
les médias existants (radio, conversations téléphoniques, émissions TV,
sites Web, etc.) dans le but de filtrer des informations stratégiques.
I.3 PRINCIPE DE LA RECONNAISSANCE AUTOMATIQUE DE LA PAROLE
La reconnaissance automatique de la parole (RAP ou encore ASR pour Automatic
Speech Recognition) peut être interprétée comme une tâche particulière de la
reconnaissance des formes. C’est une succession de modules dont l’étape finale est de
reconnaître une forme particulière, c’est-à-dire le signal de parole que l’on met à l’entrée
de cette chaîne. Les systèmes de reconnaissance automatique de la parole se résument
généralement à quatre processus principaux : la phase de paramétrisation du signal de
parole qui est généralement constitué d’une analyse spectrale, la phase de modélisation
qui détermine les caractéristiques d’un modèle à partir des paramètres extraits; la phase
d’apprentissage du système et enfin la phase de reconnaissance du signal par celui-ci et
qui fournit finalement la réponse du système.
On peut modéliser globalement une chaîne de reconnaissance de la parole par le
schéma suivant :
5
Signal de parole
Corpus de parole
Vecteurs acoustique
Extraction de paramètres
Modèle Acoustique
Données d’apprentissage
Vecteurs acoustiques
appris
Reconnaissance
Apprentissage
Décision
FIG. I.1 : Schémas de principe d’un système de reconnaissance automatique de
la parole
I.3.1 PHASE DE PARAMETRISATION DU SIGNAL DE PAROLE
Au niveau acoustique, la parole apparaît physiquement comme une variation de la
pression de l’air causée et émise par le système articulatoire [Boite et al., 2000 ; Calliope,
1989]. Le signal de parole est caractérisé par de nombreux paramètres qui rendent
complexe son interprétation. En effet, la difficulté de son traitement est due
principalement à l’incroyable variabilité et à la distorsion du signal de parole
[Klatt, 1986]. Cette variabilité peut être spatiale, les caractéristiques acoustiques d’une
sonorité étant variables d’une prononciation à une autre et d’une personne à une autre.
Elle peut également être temporelle. Les différences d’âge, de sexe, d’accent, d’émotivité
entre locuteurs rendent délicates l’extraction d’informations pertinentes concernant le
signal, cette extraction se voulant être indépendante du locuteur. L’acoustique du milieu
ambiant lors de la prise de son (bruits extérieurs, bruits de bouche, respirations,
6
éternuements, etc.) ainsi que la qualité de l’enregistrement génèrent encore des difficultés
que le SRAP doit surmonter. En effet, pour un SRAP, le signal de parole est un flux
continu et il ne peut pas être exploité directement tel quel. Il est donc nécessaire d’en
extraire uniquement les paramètres qui seront dépendants du message linguistique.
L’une des premières étapes dans tout traitement automatique de la parole est sa
paramétrisation. Cette étape permet de transformer un signal de parole en une suite de
vecteurs appelés trames décrivant le signal. De chaque trame est extrait un vecteur de
paramètres caractérisant celle-ci. Les paramètres acoustiques1 les plus fréquemment
utilisés en reconnaissance de la parole sont les MFCC (Mel-Frequency Cepstral
Coefficients), les LFCC (Linear Frequency Cepstral Coefficients) et les LPC (Linear
Prediction Coefficients).
Au sein de ce travail, nous utiliserons les coefficients MFCC dans les expériences
menées sur la base de données TIMIT. Du point de vue de l'étude bibliographique, à
l'heure actuelle, le choix de ce type de paramétrisation semble être satisfaisant pour
représenter le signal de parole dans le cadre de la RAP [Gauvain et Lee, 1994 ; Jouvet et
al., 1994 ; Woodland et al., 1995].
Nous avons choisi, a priori, d'utiliser 12 paramètres MFCC. De plus, afin de prendre
en compte la dynamique du signal, nous ajoutons aux paramètres MFCC l'énergie et les
coefficients différentiels (ou coefficients delta) du premier et du second ordre. Ces
dérivées permettent d'introduire une information concernant le contexte temporel d'une
trame courante. Un vecteur acoustique est donc représenté par 39 paramètres
(12 MFCC + E + 13 + 13)
Après l’extraction des différents paramètres d’une trame, on obtient donc une
séquence d’observations acoustiques X  ( x1 , x2 ,..., xn ) où xi représente une observation
acoustique.
1
On trouvera dans [Calliope, 1989], [Mariani, 2002] ou encore [Davis et Mermelstein, 1980] une
description détaillée des différentes méthodes utilisées en extraction de paramètres (et en
reconnaissance de la parole en général).
7
I.3.2 PHASE DE MODELISATION
Pour pouvoir reconnaître un mot, on présente au système RAP des exemples pour
chacun des mots possibles. Un modèle statistique représentatif de la distribution des
vecteurs acoustiques pour le mot considéré peut alors être construit. On obtient ainsi un
modèle acoustique de la parole, c’est-à-dire un ensemble de modèles statistiques pour
chacun des mots considérés, qui est stocké dans le SRAP. Cependant, une modélisation
acoustique basée sur le mot devient problématique lorsque le nombre de mots possibles
devient trop important. En particulier, dès qu’on cherche à concevoir un système
réellement multi-locuteurs, à plus grand vocabulaire, et s’adaptant facilement à une
application, il devient nécessaire de mener la reconnaissance sur base d’unités de parole
de plus petite taille (typiquement les phonèmes). On ne se contente plus alors d’exemples
de ces unités, mais on cherche plutôt à en déduire un modèle (un modèle par unité), qui
sera applicable pour n’importe quelle voix. Un modèle statistique est calculé pour chaque
phonème et les modèles de mots sont obtenus par concaténation des modèles de
phonèmes.
Une telle approche nécessite de disposer d’une transcription phonétique de chaque
mot, c’est-à-dire de sa prononciation en termes de phonèmes. Pour cela, on recourt à un
lexique contenant une ou plusieurs prononciations pour chaque mot.
Plusieurs voies de recherche sont actuellement empruntées pour atteindre ce but. On
distingue globalement 3 approches [Haton et al., 1991] :
 L'intelligence artificielle (I.A.) par le biais de systèmes experts : on utilise alors
une connaissance a priori développée par les spécialistes de la phonétique.
 Les modèles statistiques qui permettent de traiter la grande variabilité du signal
vocal par l'analyse préalable d'un grand nombre d'échantillons vocaux. C'est
actuellement la plus répandue.
 Les modèles connexionnistes à base de réseaux neuromimétiques. Cette dernière
méthode connaît des résultats un peu moins performants que les précédentes.
De nos jours, la technique dominante pour la modélisation acoustique repose sur la
théorie des Modèles de Markov Cachés [Rabiner, 1998 ; Bourlard et Morgan, 1995].
8
I.3.3 PHASE D’APPRENTISSAGE
Pendant la phase d’apprentissage un ou plusieurs locuteurs prononcent une ou
plusieurs fois chacun des mots de l'application prévue. Ces prononciations sont toutes
prétraitées puis conservées telles quelles ou bien moyennées dans un dictionnaire de
références en tant que "images acoustiques".
L’étape d’apprentissage consiste à caractériser les classes de formes de manière à
bien distinguer les familles homogènes de formes. C’est une étape clé dans la
modélisation des SRAP. Les algorithmes d'apprentissage peuvent se catégoriser, selon le
mode d'apprentissage qu'ils emploient, en deux types : apprentissage supervisé et
apprentissage non supervisé [Duda et al., 2001].
 APPRENTISSAGE SUPERVISE : dans le cas d’apprentissage supervisé, un
échantillon représentatif de l’ensemble des formes à reconnaître est fourni au
module d’apprentissage. Chaque forme est étiquetée par un expert, cette étiquette
permet d’indiquer au module d’apprentissage la classe dans laquelle l’expert
souhaite que la forme soit rangée. Cette phase d’apprentissage consiste à analyser
les ressemblances entre les formes d’une même classe et les dissemblances entre
les formes de classes différentes pour en déduire la meilleure partition de l’espace
des représentations. Les paramètres décrivant cette partition sont stockés dans
une table d’apprentissage à laquelle le module de décision se référera ensuite
pour classer les formes qui lui sont présentées. Parfois il est préférable d'associer
une forme non pas à une classe unique, mais une probabilité d'appartenance à
chacune des classes prédéterminées (on parle alors d'apprentissage supervisé
probabiliste).
 APPRENTISSAGE NON SUPERVISEE : Dans ce type d’apprentissage, on fournit au
système de reconnaissance un grand nombre de formes non étiquetées. Le
nombre de classes peut être connu ou non, mais les classes des échantillons ne
sont pas connues, ce qu’on sait c’est que l’ensemble des échantillons représente
ce qu’on doit connaître. Aucun expert n'est requis. L’étape de la classification va
se charger d’identifier automatiquement les formes appartenant à une même
classe. L'algorithme doit découvrir par lui-même la structure plus ou moins
cachée des données. Le système doit cibler les données selon leurs attributs
disponibles, pour les classer en groupe homogènes de formes. La similarité est
généralement calculée selon une fonction de distance entre paires de formes.
9
I.3.4 PHASE DE RECONNAISSANCE
Dans tous les systèmes de reconnaissance de la parole il faut, à un moment ou à un
autre, prendre la décision d’accepter ou de rejeter un segment de parole (la suite des
vecteurs acoustiques issus de la phase de paramétrisation).
La reconnaissance revient à situer une suite de vecteurs acoustiques dans un graphe
d’hypothèses. Si la modélisation est à base de distributions, les hypothèses à tester seront
par exemple : "cette séquence est-elle bien modélisée par la distribution X ?". La
vraisemblance entre cette suite de vecteurs acoustiques et la distribution X permet alors de
mesurer la vraisemblance de l'hypothèse. La comparaison des différentes vraisemblances
d’hypothèses entre elles ou par rapport à un seuil permet enfin de déterminer si
l'hypothèse est vérifiée.
Cette phase de décision, qui nous permet de classe une forme par comparaison aux
modèles de classes appris lors d’une phase préalable d’apprentissage, dépendra fortement
de la phase de modélisation choisie ainsi qu’au type d’application.
I.4 METHODOLOGIES DE RECONNAISSANCE
Traditionnellement, deux méthodologies sont proposées en reconnaissance de la
parole : l'approche analytique et l'approche globale. La première approche consiste à
décomposer le problème : à partir d'une étape de décodage acoustico-phonétique, une
suite de modules de niveau supérieur va permettre de traiter le signal de parole. Notons
que l'approche analytique est, en règle générale, fondée sur des bases de connaissances
formelles (de type système expert). Par contraste, la seconde approche cherche à
identifier globalement des segments de parole en les comparants avec des références
enregistrées préalablement [Igounet, 1998].
I.4.1 APPROCHE ANALYTIQUE
Les caractéristiques principales de l'approche analytique sont une segmentation
a priori du signal acoustique, une organisation modulaire hiérarchique et l'utilisation de
bases de connaissances formelles.
Elle tire partie de la structure linguistique des mots et tente de détecter et d'identifier
les composantes élémentaires (phonèmes, syllabes, etc.). Celles-ci sont les unités de base
à reconnaître. Cette approche a un caractère plus général que l’approche globale : pour
10
reconnaître de grands vocabulaires, il suffit d'enregistrer dans la mémoire de la machine
les principales caractéristiques des unités de base.
La méthode analytique est la plus utilisée car les mots ne sont pas mémorisés dans
leur intégralité, mais traités en tant que suite de phonèmes, la capacité de mémoire
nécessaire est donc moins importante.
I.4.2 APPROCHE GLOBALE
L'approche globale évite toute segmentation a priori et ne fait pas d'hypothèses sur
le type des éléments à traiter. Elle effectue des comparaisons sur un ensemble de
références en traitant les données et les connaissances dans leurs globalités.
Le principe de base de cette méthode consiste à donner au système de
reconnaissance au moins une image de chacune des unités qu'il est censé devoir identifier
par la suite. Cette opération est faite lors de la phase d'apprentissage qui permet de
constituer la base de données de référence du système. Le processus de décodage consiste
alors à comparer l'image de l'unité à identifier avec celles de la base de référence. L'unité
dont la référence est la plus proche est déclarée reconnue. Par ailleurs, dans la mesure où
les données à traiter sont constituées d'une suite d'unités (comme, par exemple, la
reconnaissance d'une phrase composée de mots), l'unité de base sera le plus souvent le
mot considéré comme une entité globale, c'est à dire non décomposée.
Cette méthode a pour avantage d'éviter les effets de coarticulation, c'est à dire
l'influence réciproque des sons à l'intérieur des mots. Elle est cependant limitée aux petits
vocabulaires prononcés par un nombre restreint de locuteurs.
Cette approche englobe trois modules important dans le traitement automatique de la
parole : la reconnaissance des mots isolés, la reconnaissance de mots enchaînés et la
reconnaissance de la parole continue.
Plusieurs types de stratégies de reconnaissance peuvent alors être appliqués. Les
algorithmes de comparaison utilisés dans l'approche globale consistent soit en une mesure
de similarité par rapport à des formes de référence, soit en une mesure de probabilité par
rapport à des modèles probabilistes.
À partir des années quatre-vingt, la majorité des SRAP s'orientent petit à petit vers
les techniques les plus prometteuses : l'approche globale probabiliste.
11
I.5 APPROCHES APPLIQUEES A LA RAP
La recherche dans le domaine de la reconnaissance automatique de la parole a donné
lieu à bon nombre de techniques et algorithmes. Deux d’entre eux ont connu et
connaissent encore un grand succès accompagné de performances intéressantes. Il s’agit
des modèles statistiques qui permettent de traiter la grande variabilité du signal vocal par
l'analyse préalable d'un grand nombre d'échantillons vocaux et les modèles
connexionnistes à base de réseaux neuromimétiques. Ces modèles sont naturellement
utilisés en parole bien que les modèles statiques sont actuellement les plus répandue dans
les SRAP.
I.5.1 APPROCHE STATISTIQUE
Certains pensent que sans l’apport des statistiques, les systèmes de reconnaissance
de la parole n’auraient jamais quitté les laboratoires. Jusqu’aux années 1970, les logiciels
de reconnaissance vocale tentaient d’identifier, dans le signal de la parole, les formes
caractéristiques des voyelles et des consonnes. Cette approche échoua en raison de la très
grande diversité de prononciation des phonèmes mais aussi en raison de la difficulté de
distinguer le signal du bruit ambiant.
L’adoption de modèles statistiques fondés sur les chaînes de Markov cachées a
changé la donne. « Chaînes » car les logiciels découpent le flot de parole en une
succession de sons, et « cachées » parce que l’une des variables définies dans le modèle
est inconnue à l’avance. Concrètement, le logiciel découpe les mots prononcés en brèves
tranches de 10 millisecondes et cherche à associer ces tranches à une composante d’un
phonème : à l’attaque, à sa partie stable ou à la fin (la variable cachée). Puis il compare le
spectre sonore avec ceux qu’il a en mémoire, c’est-à-dire les souvenirs statistiques qu’il a
acquis lors d’un long apprentissage à l’aide de textes cumulant des centaines de millions
de mots ! Ces textes sont lus dans le contexte sonore auquel est destinée l’application
pour savoir gérer le bruit ambiant, et par plusieurs personnes pour représenter la
variabilité phonétique interindividuelle.
Grâce aux modèles de Markov, les logiciels de reconnaissance vocale peuvent
atteindre 95% de réussite dans de bonnes conditions sonores. Certains, comme les
modèles multi-bandes, pallient le fait que le modèle de Markov considère de façon
équivalente toutes les fréquences car ils sont capables de se concentrer sur la gamme de
fréquences extérieure au bruit. Les réseaux bayésiens permettent, eux, de choisir
12
beaucoup plus librement les relations de dépendance entre les variables des modèles.
L’avenir des logiciels de reconnaissance vocale réside probablement dans l’exploitation
conjointe des statistiques et des connaissances en psycho-acoustique.
I.5.2 APPROCHE NEURONALE
L’une des alternatives à l’utilisation des modèles de Markov cachés (HMM) en
reconnaissance est le recours à des réseaux neuronaux [Barreaud, 2004].
Un réseau de neurones est une interconnexion de cellules simples (neurone). Chaque
neurone possède plusieurs entrées et une sortie. Le signal de sortie peut être la somme
pondérée (éventuellement seuillée) des signaux collectés en entrée.
L’utilisation des Réseaux de Neurones artificiels (RN) est largement répandue dans
les domaines devant résoudre des problèmes de classification et de reconnaissance des
formes. Les RN possèdent des propriétés très appréciées en RAP :
 Leur apprentissage est discriminant (ils permettent d’améliorer la reconnaissance
d’une classe et simultanément de rejeter les autres classes).
 Ils ne nécessitent pas d’hypothèse sur les propriétés statiques des données en
entrée (contrairement aux HMM qui les modélisent par PDF -Probability Density
Function-).
Dans le cas des réseaux de neurones appliqués à la reconnaissance automatique de
la parole (mot ou toute autre unité acoustique), on utilisera le plus souvent des
perceptrons multicouches. Plus généralement, on combinera le perceptron avec un
algorithme d’alignement de type DTW (Dynamic Time Warping), les distances locales
utilisées lors de la DTW étant les sorties du réseau de neurones [Bourlard et Morgan,
1994]. En plus de leur utilisation dans le problème de reconnaissance, les réseaux de
neurones peuvent aussi servir à prétraiter le signal de parole et à extraire des paramètres
discriminants. En effet, les coefficients de pondération des couches cachées d’un RN
forment une série de paramètres caractérisant l’entrée.
13
I.6 PROTOCOLES DE TEST
Les performances d’un algorithme de classification dépendent beaucoup des données
utilisées en apprentissage et en test. Le corpus de données est limité et il doit être
partitionné dans une partie d’apprentissage et une autre de test. Parmi les protocoles de
test existants, nous pouvons citer [Jain et al., 2000] :
 Leave all in : utilise tous le corpus pour l’apprentissage et en même temps pour
le test. Il assure un bon apprentissage mais il produit une vue optimiste des
performances de l’algorithme. Ce protocole ne semble pas vraiment rigoureux
pour une évaluation.
 La validation croisée : utilise une partie du corpus pour l’apprentissage et l’autre
pour le test. Parmi les protocoles les plus utilisés, on trouvera :
o
Holdout Techniques : les parties de test et d’apprentissage sont fixées au
début. Cependant, ceci peut être problématique lorsqu’on dispose d’un
corpus de petite taille.
o
Leave one out : utilise tous les données sauf une pour l’apprentissage. Il
permet d’utiliser un maximum de données pour l’apprentissage et il est très
utilisé lorsque les corpus sont de tailles insuffisantes.
 Ré-échantillonnage : divise le corpus en une partie d’apprentissage et de test
aléatoirement. Cette procédure donne des corpus de taille arbitraire.
La procédure de test utilisée pour nos expérimentes est de type Holdout Techniques.
I.7 CONCLUSION
La recherche en reconnaissance de la parole et ces applications sont devenues de
plus en plus pointues ; des moteurs de recherche vocaux sont en cours de développement
et des applications divers dans plusieurs domaines d’applications économiques et
commerciales sont aussi en cours d’utilisation dans les pays développés, de ce fait la
machine sera petit à petit flexible avec les utilisateurs.
14
MODELE DE MELANGE DE
GAUSSIENNES
ans ce chapitre , nous nous intéressons à la représentation de la
première approche que nous avons utilisées pour l’implémentation
de notre système de reconnaissance automatique de la parole. Il
s’agit d’un outil de modélisation stochastique, c’est le Modèle de Mélange
de Gaussiennes (GMM). Nous avons consacré tout un chapitre pour étudier
en détails ce modèle et présenté toutes les étapes qui le composent.
D
Mots-clés
Reconnaissance Automatique de la Parole (RAP), Modèle de Mélange de
Gaussiennes (GMM), algorithme d’Expectation‐Maximisation (EM).
II.1 INTRODUCTION
L’aspect hautement aléatoire du signal de parole impose que les techniques dédiées à
son traitement puissent prendre en compte de façon efficace de nombreuses variabilités.
L’approche probabiliste est bien appropriée pour gérer, avec un minimum de robustesse,
ces configurations variées du signal. En outre, elle permet de définir une mesure de
similarité entre un ensemble de données de test et un modèle de référence correspondant à
une classe donnée. Cette mesure est utile dans tous les problèmes de classification où l’on
doit prendre une décision à partir d’un nombre variable d’échantillons de test.
En reconnaissance automatique de la parole, l’approche probabiliste a constitué l’état
de l’art depuis plus de 10 ans maintenant. On la trouve dans la quasi-totalité des systèmes
actuels, parfois associée à d’autres méthodes de classification.
Dès la première tentative d'analyse d'un modèle de mélange par Pearson en 1894,
l'étude des mélanges de lois est devenue un domaine à part entière de la statistique
moderne. Les modèles de mélanges les plus utilisés en pratique sont les mélanges de
gaussiennes, i.e. chaque classe est modélisée par une distribution normale. En particulier
les modèles de mélanges de gaussiennes ont apporté des gains de performance importants
grâce à leurs capacités à modéliser des formes complexes de distribution.
II.2 RAPPELS PROBABILISTES
II.2.1 PRINCIPE DE LA DECISION BAYESIENNE
Le théorème de Bayes est un résultat de base en théorie des probabilités, issu des
travaux de Thomas Bayes (1702-1761) et retrouvé ensuite indépendamment par Laplace.
Dans son unique article, Bayes cherchait à déterminer ce que l’on appellerait actuellement
la distribution a posteriori de la probabilité p d’une loi binomiale.
La théorie de la décision bayesienne constitue une approche fondamentale de la
reconnaissance des formes, leur but est d'introduire de l'information statistique dans un
problème sous-contraint. Elle suppose que le problème puisse être entièrement spécifié en
termes de probabilités et sous ces hypothèses, la décision bayesienne peut être considérée
comme optimale.
15
II.2.2 REGLE DE BAYES
On considère un ensemble de c classes notée {w1,w2,...wc} et un échantillon
représenté par un vecteur de caractéristiques x, il s'agit de déterminer la classe wi qui
maximise la probabilité a posteriori P(wi | x) .
Pour chaque classe wi on suppose connaître :

P(wi ) : la probabilité a priori de cette classe.

p( x | wi ) : la densité de probabilité de x conditionnée par cette classe, aussi
appelée vraisemblance de wi par rapport à x.
La règle de Bayes permet de calculer la probabilité a posteriori de chaque classe,
c'est-à- dire la probabilité conditionnée par l'observation de x, soit :
P(wi | x) 
p( x | wi ) P(wi )
p ( x)
(II.1)
avec
p ( x)    p ( x | wi ) P ( wi ) 
(II.2)
i
II.2.3 ESTIMATION AU MAXIMUM DE VRAISEMBLANCE
L’estimation au maximum de vraisemblance (ML pour Maximum Likelihood) est
une méthode statistique pour déterminer un paramètre inconnu, en maximisant une
probabilité.
Pour estimer les paramètres  d'un modèle en fonction des données X que ce modèle
est censé représenter, l'estimateur de maximum de vraisemblance est celui qui maximise
la probabilité des données dans le modèle.
ML  argmax p( X |  )
(II.3)
p( X |  )   p( xi |  )
(II.4)
avec
i
16
II.2.4 LOI NORMALE
En probabilité, une variable aléatoire x suit une loi normale (ou loi gaussienne)
 (µ, ²) d’espérance µ et d’écart type  si sa densité de probabilité est :
p ( x) 
 1  x   2 
exp   
 
 2
 2    
1
(II.5)
Une telle variable aléatoire est dite variable gaussienne.
II.2.5 LOI NORMALE MULTIDIMENSIONNELLE
On appelle loi normale multidimensionnelle ou loi multinormale une loi de
probabilité qui est la généralisation multidimensionnelle de la loi normale.
Contrairement à la loi normale classique, paramétrée par un scalaire μ correspondant
à sa moyenne et un second scalaire σ2 correspondant à sa variance, elle est paramétrée par
un vecteur µ de R D représentant son centre et une matrice  de R D  R D représentant sa
matrice de variance-covariance.
Chaque élément µi de µ représente l'espérance de la variable aléatoire xi et chaque
élément ij de  représente la covariance des variables aléatoires xi, xj et en particulier,
chaque élément diagonal ij de  représente la variance  i2 de la variable aléatoire xi.
Comme toute matrice de variance-covariance, la matrice  est symétrique réelle, à
valeurs propres positives ou nulles; lorsque la loi multinormale est non dégénérée (c'est-àdire qu'il n'existe aucune relation affine presque sûre entre les composantes du vecteur
aléatoire), la matrice  est à valeurs propres strictement positives : elle est définie
positive. Dans ce cas, la loi multinormale admet une densité sur RD .
Un vecteur aléatoire X de R D a une distribution normale multidimensionnelle de
moyenne µ et de matrice de variances-covariances  si sa fonction de densité est définie
de RD dans R de la manière suivante :
1
p( x) 
(2 )
D
2

1
2
 1

exp   ( x   )T  1 ( x   ) 
2


(II.6)
que l'on notera  (µ, ) par analogie avec la notation  (µ, ²) de la loi normale
univariée.
17
II.2.6 MELANGE DE LOIS
La notion de mélange est très importante en probabilité, statistique et modélisation.
Le modèle de mélange de lois traduise une fonction de densité régissant la distribution de
données à l’aide d’une combinaison linéaire de plusieurs fonctions de densité
élémentaires, il suppose que les vecteurs observés xt sont des réalisations de variables
aléatoires mutuellement indépendantes, qui suivent toute une même loi ayant la forme
suivante :
p ( x )    i pi ( x )
(II.7)
i
Où chaque pi ( x) est une densité de probabilité, et les i sont des scalaires positifs. Le
fait que p( x) soit une densité de probabilité implique que

i
1 .
i
L’approche la plus connue est le modèle de mélange de gaussiennes où les densités
élémentaires sont des lois normales multidimensionnelles.
II.3 MODELE DE MELANGE DE GAUSSIENNES
Depuis l’introduction des modèles de mélanges de gaussiennes (GMM pour
Gaussian Mixture Model) par Douglas Reynolds en 1992 [Reynolds, 1992], ils ont été
largement utilisés dans le domaine de la reconnaissance des formes car ils correspondent
à une situation où les données appartiennent à un ensemble de classes distinctes, avec une
probabilité d’appartenance propre à chaque classe. Le cas particulier considéré ici est
celui où dans chaque classe les données suivent une loi gaussienne. Ce choix tient
essentiellement au fait que la loi gaussienne appartient à une famille de distributions dite
exponentielles pour lesquelles le problème de l’identification des composantes du
mélange se trouve simplifié.
II.3.1 DEFINITION
Le modèle de mélange de gaussiennes fait partis des méthodes de classification
paramétrique globale. Il consiste à supposer que la distribution des données peut être
décrite comme une somme pondérée de densités gaussiennes multidimensionnelles.
Chaque gaussienne du modèle est caractérisée par son poids, son vecteur moyen et sa
matrice de covariance [Reynolds, 1995].
Un exemple simple de GMM est illustré sur la figure II.1.
18
Mélange des 3 gaussiennes
Probabilité
Modèle statistique
gaussien
Valeur d’une caractéristique
FIG. II.1 : Exemple d’un modèle de mélange de 3 gaussiennes
Formellement, la densité de probabilité d'un vecteur aléatoire x de dimension D
suivant un modèle GMM  à Q composantes s’écrit de la façon suivante :
Q
p( x |  )   wk
( x; k , k )
k 1
(II.8)
où :

wi : le poids de mélange de la gaussienne i, avec la contrainte :
Q
w
k 1

k
 1 et k : wk  0
(II.9)
( x;  , ) : la densité de probabilité gaussienne multidimensionnelle paramétrée
par le vecteur moyen µ de dimension D et la matrice de covariance  de
dimension D×D (matrice symétrique définie positive). Cette densité est donnée
par :
( x; k , k ) 
1
(2 )
D
2
k
1
 1

exp  ( x  k )T k 1 ( x  k ) 
2
 2

(II.10)
Un GMM est complètement spécifié par l’ensemble des paramètres   (w, , )
Cette famille de modèles est bien adaptée pour approximer les densités de
probabilités réelles multidimensionnelles. En effet, en augmentant le nombre Q de
composantes gaussiennes, un GMM peut théoriquement modéliser n’importe quelle loi
probabiliste [Reynolds, 1994].
19
II.4 MODELISATION ACOUSTIQUE PAR LE GMM
Après l’extraction des paramètres acoustiques qui sont les coefficients MFCC pour
la parole (chapitre I), nous sommes arrivés à la phase de modélisation de ces paramètres
selon les modèles de mélanges de gaussiennes pour assurer la reconnaissance.
L’utilisation de cette modélisation est bien prometteuse, elle permet de bien
modéliser les caractéristiques spectrales de la parole, et elle est relativement simple à
mettre en œuvre [Reynolds, 1995]. Cette méthode se fonde sur l’hypothèse qu’un
mélange de gaussiennes peut représenter n’importe quel ensemble de paramètres
acoustiques.
D’après l’exemple illustré par la figure II.2, nous pouvons confirmer que les
coefficients MFCC (correspondant dans notre cas à un phonème donné) suivent des lois
normales.
distribution coef MFCC 2
FIG. II.2 : La distribution du deuxième coefficient MFCC
Dans les systèmes de reconnaissance automatique de la parole, la répartition
statistique des vecteurs acoustiques est modélisée par une densité de probabilité
multidimensionnelle qui décrit la distribution des données. Cette densité, qui peut
caractériser soit un phonème, soit un ensemble de phonèmes, est une somme pondérée, ou
mélange, de gaussiennes dont la dimension correspond au nombre de coefficients des
vecteurs acoustiques.
20
Chaque gaussienne composant cette distribution est caractérisée par son vecteur
moyen, sa matrice de covariance et son poids, qui représente son importance dans le
mélange [Reynolds 1995]. Les composantes de mélanges représentent les classes, et
chaque élément appartient à l’ensemble des classes avec une probabilité d’appartenance.
La classification phonétique à l’aide d’un GMM comprend 2 étapes : une phase
d’apprentissage du système ou un ensemble de fichiers supposés représentatifs d’une
classe et, une deuxième phase, de vérification de l’appartenance d’un phonème
quelconque à cette classe [Istrate, 2003].
II.5 APPRENTISSAGE
L’apprentissage a pour but d’estimer les paramètres des distributions gaussiennes qui
composent le modèle à partir des vecteurs acoustiques des phonèmes composant la classe
[Istrate, 2003].
L’apprentissage d’une classe se décompose en deux étapes successives : tout d’abord
l’obtention des valeurs approximatives des paramètres de gaussiennes de la classe par
quantification vectorielle, à l’aide de l’algorithme k-moyennes, ensuite l’optimisation des
valeurs de ces paramètres en utilisant l’algorithme Expectation-Maximisation (EM).
II.5.1 INITIALISATION DU MODELE
Les GMM sont bien connus pour avoir un comportement très dépendant des
conditions initiales. L’application de l’algorithme k-moyennes (ou k-means), présenté
dans l’annexe A.2, permet d’éviter l’initialisation aléatoire qui peut amener les
algorithmes d’apprentissage à être piégés vers des optima locaux de piètre qualité.
II.5.2 L’ALGORITHME D’EXPECTATION-MAXIMISATION
Le problème de l’estimation en présence de données incomplètes fait depuis une
quarantaine d’années l’objet d’une littérature abondante. Celle-ci est largement dominée
par la référence aux algorithmes de type Expectation-Maximisation (EM pour
Expectation-Maximization) [Dempster et al., 1977].
D'après Dempster, Laird et Rubin (1977), l'algorithme EM est une approche générale
qui fait un calcul itératif pour trouver des estimateurs du maximum de vraisemblance
lorsque les données sont incomplètes. On l'appelle l'algorithme EM puisque chaque
itération de l'algorithme consiste une étape d'Expectation et une étape de Maximisation.
21
II.5.2.1 PRINCIPE DE L’ALGORITHME EM
Cet algorithme itératif utilise la distribution des données complètes pour calculer les
estimateurs du maximum de vraisemblance lorsque les données observées sont cachées
ou manquantes.
L'objectif de l'algorithme EM est d'obtenir l'ensemble de paramètres * qui maximise
la vraisemblance de X , où X  ( x1 ,..., xN ) est la séquence des vecteurs d’apprentissage :
N
 *  arg max p( X |  )  arg max  p( xi |  )


(II.11)
i 1
Ce procédé se fait en deux étapes [Michaud, 2005] :
 Étape E (Expectation) : consiste à calculer l'espérance conditionnelle de la
vraisemblance des données complètes sachant les données observées.
 Étape M (Maximisation) : consiste à maximiser l’espérance conditionnelle
obtenue à l'étape E.
Ces étapes sont répétées itérativement jusqu'à convergence et, on l'espère, l'obtention
de l'estimateur du maximum de vraisemblance.
II.5.2.2 ALGORITHME EM POUR LES GMM
EM permet d’estimer les paramètres   w1 ,..., wQ , 1 ,..., Q , 1 ,..., Q  du modèle de
mélange en construisant une suite ( (t ) ) qui maximise la vraisemblance complétée.
L'algorithme, dans sa version de base, se déroule comme suit [Pellegrino, 1998] :

ETAPE 1 – INITIALISATION
Initialisation des paramètres :  (0)  wk(0) , k(0) et (0)
k 1 k Q
22

ETAPE 2 – ITERATION
o PHASE D'ESTIMATION
Calcul de la probabilité a posteriori p(i | x j ,  ( t ) ) que le vecteur xj soit généré par
la gaussienne i, pour tout i et pour tout j :
p(i | x j ,  ) 
wi(t )
(t )
Q
w
k 1
où  (t )  wk(t ) , k(t ) et (kt ) 
1 k  M
(t )
k
( x j ; i(t ) , i( t ) )
(II.12)
(x j ;  ,  )
(t )
k
(t )
k
correspond aux paramètres du modèles après la
tième itération.
o PHASE DE MAXIMISATION
Ré-estimation des paramètres du modèle à partir des probabilités p(i | x j ,  (t ) )
wi(t 1) 
1 N
p(i | x j ,  (t ) )

N j 1
N
i(t 1) 
x
j 1
N
j
p (i | x j ,  ( t ) )
 p(i | x , 
j 1
N
i( t 1) 
 p(i | x , 
j 1
(t )
j
(II.13)
j
(II.14)
(t )
)
)( x j  i( t 1) )( x j  i( t 1) )T
N
 p(i | x j ,  (t ) )
(II.15)
j 1
o Incrémentation de t à t +1 et retour à la phase d'estimation.

ETAPE 3 – ARRET DE L'ALGORITHME
L'étape 2 est itérée jusqu'à convergence c’est-à-dire lorsque la vraisemblance n’est
plus améliorée ou lorsque l’on atteint la limite maximale du nombre d’itérations.
On déduit les paramètres du modèle
 EM   w1EM , w2EM ,..., wQEM , 1EM , 2EM ,..., QEM , 1EM , 2EM ,..., QEM 
23
Un point délicat dans la mise en œuvre de l’algorithme EM concerne l’initialisation
de cet algorithme. Dans l’implémentation effectuée, l'étape 1 est remplacée par une
initialisation des gaussiennes à partir des résultats obtenus avec un algorithme de
quantification vectorielle (cf. §.II.5.1). D'autre part, lorsque l'on ré-estime les matrices de
covariances, il est courant de leur ajouter une matrice diagonale de petite valeur de
manière à éviter qu'elles ne deviennent singulières (ce cas peut se produire lorsqu'on
dispose de peu de données par exemple) [Kambhatla, 1996].
La figure II.3 mettre en évidence l’importance de la phase d’initialisation qui joue un
rôle fondamental dans la détermination du résultat final.
initialisation
résultat
Exemple d’exécution de l’algorithme EM bien initialisé
initialisation
résultat
Exemple d’exécution de l’algorithme EM mal initialisé
FIG. II.3 : L’importance de la phase d’initialisation de l’algorithme EM
24
II.6 RECONNAISSANCE
Après l’estimation des paramètres du modèle, nous sommes arrivés à la phase de
reconnaissance qui permet de déterminer la classe wi la plus probable à partir du calcul de
la vraisemblance [Dufaux, 2001 ; Boite et al., 2000], pour chaque vecteur acoustique du
signal X obtenu à l’instant t.
La vraisemblance d’un son constitué d’une suite temporelle de plusieurs vecteurs est
la moyenne géométrique des vraisemblances de chacun de ses vecteurs :
N
p( X |  )   p( xi |  )
(II.16)
i 1
La raison d’être des modèles statistiques repose sur leur aptitude à évaluer la qualité
de la modélisation par rapport aux données. La vraisemblance entre vecteur acoustique et
classes est une mesure de cette qualité, elle se calcule généralement sur une échelle
logarithmique à partir de la probabilité pour que chaque vecteur ait été émise par le
modèle. Cette probabilité est calculée à partir du vecteur acoustique et de la distribution
du GMM (cf. Fig. II.4).
Vecteur acoustique
GMM
Calcul de vraisemblance
Somme pondérée
Vraisemblance du GMM
FIG. II.4 : Calcul de la vraisemblance d’un vecteur acoustique par
rapport à un GMM
25
La classe de phonème d’appartenance est celle pour laquelle la valeur de
vraisemblance moyenne est maximale [Istrate et al., 2005], conformément à l’équation
(II.17).
p( X | wi )  max p( X | w j )
j
(II.17)
Dans le but de rendre les occurrences des observations sous forme d’une séquence de
M vecteurs, un rééchantillonnage linéaire dans le temps est effectué. Chaque occurrence
observée Y de durée d (d trames) donne une occurrence rééchantillonnée X :
Y  ( y0 ,..., yd 1 )  X  ( x0 ,..., xM 1 )
(II.18)
avec
xi  y
i.
d 1
M 1
(II.19)
Le processus de reconnaissance par le modèle de mélange de gaussiennes est
présenté dans la figure suivante :
Signal de parole
Extraction de paramètres
et normalisation
Fichier
d’apprentissage
Initialisation du GMM
(k-means)
Fichier de teste
Apprentissage du GMM
(EM)
Apprentissage

Vérification d’appartenance
à une classe donnée par le
calcul de la vraisemblance
Classe de
phonème
Teste
FIG. II.5 : Processus de reconnaissance par le modèle GMM
26
II.7 MODELISATION DE L’INFORMATION DYNAMIQUE
II.7.1 INTERET DES INFORMATIONS DYNAMIQUES
Les informations dynamiques sont une source d'informations potentielle pour
caractériser la parole au même titre que les informations statiques. La complémentarité
des informations statiques et dynamiques a été à plusieurs reprises mise en évidence
[Fredouille, 2000]. Les informations dynamiques constituent par conséquent un apport
non négligeable pour les systèmes de RAP.
L'intérêt que suscitent les informations dynamiques est cependant tempéré par la
complexité de traitement de ce type d'informations. La complexité est sensiblement
accrue par rapport à l'exploitation simple des informations statiques.
II.7.2 AJOUT DE L’INFORMATION DYNAMIQUE
Bien que les GMM soient capables de représenter la structure spectrale d'une large
classe phonétique, ils n’exploitent pas la structure temporelle du signal de parole (perte de
l’information temporelle entre les vecteurs de caractéristiques successifs). Seule
l’information dynamique à court terme, calculée lors de la paramétrisation, est prise en
compte. Pour pallier à ce défaut, nous avons proposé deux solutions: la première solution
proposée est l’intégration d’une composante temporelle aux vecteurs acoustiques, tandis
que la deuxième solution consiste à ajouter les dérivées temporelles des coefficients
cepstraux au vecteur de paramètres.
II.7.2.1 INTEGRATION D’UNE COMPOSANTE TEMPORELLE (T-GMM)
Dans la première solution, nous proposons une nouvelle représentation des
occurrences de phonèmes basée sur l’intégration d’une composante temporelle aux
vecteurs acoustiques de dimension D =13. Les nouveaux vecteurs des occurrences non
rééchantillonnées auront une dimension D’=14.
L’ajout d’une information temporelle dans les paramètres caractéristiques d’une
forme (image, parole,…) permet de suivre l’évolution de ces paramètres dans le temps.
On constate que dans ce cadre-là, les travaux de [Greenspan, 2004] dont l’ajout d’une
composante temporelle au vecteur caractérisant un pixel d’une image extraite d’une
séquence vidéo, ont permis de modéliser l’évolution des pixels au cours du temps pour
une tâche de détection des régions par des mélanges de gaussiennes.
27
L’idée consiste à rajouter dans chaque vecteur sa position temporelle dans
l’occurrence non rééchantillonnée qui prend une valeur entre 1 à d (d est la longueur de
l’occurrence non rééchantillonnée). Ces éléments ajoutés sont ensuite normalisés par la
longueur d pour prendre des valeurs entre 0 et 1.
L’algorithme de rééchantillonnage qui extrait les observations de longueur fixe M=5,
prend toujours les deux extrémités des occurrences non rééchantillonnées, ce qui produit
dans le dernier vecteur de caractéristique, toutes les composantes temporelles égales à 1,
donnant ainsi une variance nulle pour cette composante temps et une matrice de variance
covariance singulière.
Afin de contourner ce problème, deux méthodes sont proposées [Greenspan, 2004]
pour introduire l’information concernant le temps dans les vecteurs acoustiques.
1) MODELE TD-GMM
Dans la première méthode, l’intégration de la composante temporelle se fait dans
tous les vecteurs acoustiques des observations non rééchantillonnées (avec des vecteurs
de dimension D’=14) sauf dans le dernier vecteur ou cette composante ne sera pas utilisée
et la dimension de ce vecteur sera D=13. Cette composante temporelle utilisée nous
permet de modéliser à part la distribution des coefficients cepstraux et leur rang dans
l’occurrence initiale.
2) MODELE TS-GMM
Pour la deuxième méthode, nous suggérons d’ajouter à chaque vecteur acoustique
d’une observation une composante temporelle constante de la forme 1/d. Cette nouvelle
représentation nous offre la possibilité de modéliser la distribution des vecteurs
acoustiques et de la durée des occurrences.
II.7.2.2 AJOUT DES DERIVEES TEMPORELLES
Une solution simple pour la prise en compte de l’information temporelle, qui est
largement utilisée pour la reconnaissance de la parole, consiste à inclure dans le vecteur
de caractéristiques les dérivées temporelles des vecteurs cepstraux [Rabiner et Juang,
1993 ; Furui, 1986], appelées coefficients Delta (première dérivée) et Delta-Delta
(seconde dérivée). Il est possible aussi de fusionner les GMM avec d’autres méthodes de
manière à tenir compte l’information temporelle lors de la modélisation du signal (voir
par exemple [Reynolds, 1997]).
28
Néanmoins, l’utilisation des dérivées temporelles des vecteurs acoustiques, appelées
encore coefficients de delta et delta-delta, reste l’approche la plus populaire actuellement
en raison de la simplicité pour sa mise en œuvre et l’amélioration de performances que
l’on peut observer.
Les dérivées des coefficients (, ) : pour pouvoir tenir compte des variations
dans le temps des paramètres pour les GMM qui calculent une valeur de vraisemblance à
chaque instant on utilise les dérivées de ceux-ci. La dérivée d’un paramètre acoustique est
la mesure de sa variation en temps. Comme la fonction de variation des paramètres
acoustiques est inconnue et seulement des valeurs à des instants précis sont connues, le
calcul de la première dérivée et la deuxième dérivée se fait par une approximation. Les
formules d’approximation du calcul de la première dérivée et la deuxième sont décrites
plus précisément en annexe B.
II.8 CONCLUSION
Nous avons exposé à travers ce chapitre la modélisation GMM des vecteurs
acoustiques, utilisés dans la conception de notre système de reconnaissance de la parole,
ainsi que l’approche d'estimation des paramètres statistiques à savoir l'algorithme EM.
L’avantage de la modélisation GMM se récapitule dans ce qui suit :
 L’utilisation d’un mélange de plusieurs densités gaussiennes permet de donner
une très bonne représentation des vecteurs acoustiques. Il est à noter que les
vecteurs acoustiques suivent des densités de probabilité très complexes. La
connaissance de la forme multidimensionnelle d’une densité gaussienne simplifié
beaucoup l’apprentissage de ce type de modèle.
 Le temps d’apprentissage et relativement petit par rapport à d’autre modèle.
 Un autre élément qui permet d’expliquer le succès des GMM est l’existence d’un
outil très puissant pour l’estimation des paramètres qui leur sont associés :
l’algorithme EM.
Bien que les modèles GMM soient capables de capturer les informations à plus long
terme, ils ne contiennent pas d’aspects dynamiques. Nous verrons plus précisément au
chapitre suivant dans quelle mesure les modèles de Markov cachés permettent de
modéliser l’aspect séquentiel des données.
29
MODELE DE MARKOV CACHE
ous décrivons dans ce chapitre un modèle très important dans la
reconnaissance des formes, en générale, et dans les système de
reconnaissance de la parole, en particulier c’est le Modèle de
Markov Caché (HMM). L’objectif de ce chapitre est de dresser un portrait
général de cet outil et de présenter les différents algorithmes utilisés pour
mieux comprendre ensuite le fonctionnement de notre système de
reconnaissance.
N
Mots-clés
Système de Reconnaissance Automatique de la Parole (SRAP), Modèle de
Markov caché (HMM).
III.1 INTRODUCTION
Il n'est pas évident de traiter les informations portées sur les signaux de la parole, les
vidéos, le texte et les bioséquences en utilisant de simples méthodes de classifications. La
modélisation stochastique permet l’utilisation des modèles probabilistes pour traiter les
problèmes à information incertaine ou incomplète. Ainsi, les modèles de Markov
connaissent un regain d’intérêt tant dans leurs aspects théoriques qu’appliqués.
Les modèles de Markov cachés (HMM) sont très utilisés dans de nombreuses
applications [Cappé, 2001], principalement dans le domaine de la reconnaissance de la
parole et imagerie. Ces applications ne se contentent pas de s’appuyer sur la théorie des
HMM, mais développent plusieurs extensions théoriques dans le but d’améliorer les
modèles. C’est ce qui en a fait leur succès.
Les HMM sont apparus dans la problématique de la reconnaissance automatique de
la parole dans les années 70 [Baker, 1975 ; Jelinek, 1976]. L’idée sous-jacente est que la
parole peut être caractérisée par un processus aléatoire dont les paramètres peuvent être
estimés d’une manière appropriée. Les modèles HMM ont prouvé leur efficacité dans de
nombreux domaines de la reconnaissance automatique de la parole, au fil des recherches
le terme de « modèle de Markov caché » a été introduit et un grand nombre d’applications
ont été développées.
III.2 MODELE DE MARKOV
Les modèles de Markov ont été découverts au début du 20ème siècle par Andrei
Andreevich Markov (1913), une première application a été développée par Markov pour
analyser le langage [Markov, 1913]. Ces travaux ont été utilisés régulièrement mais les
premières applications exploitables furent réalisées dans le années 60.
Un modèle de Markov est un processus stochastique à temps discret se trouvant à
chaque instant dans un état pris parmi N états distincts [Rabiner et Juang, 1993]. Les
transitions entre les états se produisent entre deux instants discrets consécutifs, selon une
certaine loi de probabilité. La propriété importante des modèles markoviens est que l’état
du système à l’instant t ne dépend pas de son passé, mais uniquement de son état à
l’instant t-1 : ceci est appelé la propriété de Markov.
30
III.3 MODELE DE MARKOV CACHE
Les modèles de Markov cachés (HMM pour Hidden Markov Model) [Rabiner, 1989]
sont des modèles statistiques dédié à la modélisation des processus évoluant au cours du
temps [Scharf, 1991 ; Rabiner et Juang, 1993].
Dans un modèle de Markov caché, nous avons connaissance d'une certaine séquence
d'observations mais on ne sait pas exactement de quelle façon les observations ont été
produites (ce sont les symboles émis qui sont observables). En fait, la séquence
d'observation dépend d'une séquence d'états non observables (cachées), ce qui explique le
nom donné à ce modèle.
III.3.1 DEFINITION FORMELLE
Un HMM est un processus doublement stochastique composé de deux processus :
l'un caché, prenant ses valeurs sur un ensemble d'états et qui est une chaîne de Markov
non observable, l'autre observable prenant ses valeurs parmi les séquences d'observations
physiques, qui peuvent être émises par chaque état selon une fonction de densité de
probabilité.
La définition d'un modèle de Markov caché demande donc la spécification d'un
nombre distinct de symboles d'observations, qui correspondent pratiquement aux sorties
effectives du processus à modéliser.
Plus simplement, c’est un modèle qui décrit les états d’un processus markovien à
l’aide des probabilités de transition et des probabilités d’observation par états.
Les HMM définissent donc un processus stochastique :
 Non déterministe : une même séquence de symboles peut être générée de
plusieurs manières différentes.
 Markovien : la séquence des états (le chemin) constitue une chaîne de Markov
simple puisque la probabilité de transition vers un état ne dépend que de l’état
actuel et non des états rencontrés précédemment.
 Caché : on observe les symboles générés par le modèle mais pas la séquence des
états qui génèrent ces symboles.
31
Formellement un modèle de Markov caché  du premier ordre1 est défini par un
triplet  = {A, B, }, qui est caractérisé par les éléments suivants :

S = {s1, s2, … , sN} : un ensemble de N états cachées contenant un état initial,
un état final et des états émettant des symboles. On note qt l'état courant à
l'instant t.

V = {v1, v2, … , vM} : un alphabet composé de M symboles différents générés
par le modèle. On note ot le symbole observé au temps t

A = {aij} : une matrice de distribution des probabilités de transitions entre les
états.
Le terme générique aij désigne la probabilité de transition de l’état si vers l’état
sj, sachant qu’il n’existe pas de transition pour aller vers l’état initial et qu’il
n’existe pas de transitions partant de l’état final. On a :
aij  P(qt 1  s j \ qt  si ), 1  i, j  N

(III.1)
B = {bj(k)} : une matrice de distribution des probabilités d'émission des
symboles pour chaque état émetteur.
Le terme générique bj(k) désigne la probabilité de générer le symbole vk en étant
à l’état sj à l’instant t. On a :
b j  k   P (vk à t \ qt  s j ), 1  j  N , 1  k  M

(III.2)
 = {i} : un vecteur de distribution des probabilités initiales, où i est la
probabilité se situe dans l'état si à l'instant initial. On a :
 i  P  q1  si  , 1  i  N
(III.3)
Les matrices A, B et  respect des contraintes stochastiques2.
1
Un HMM d’ordre 1 signifie que la probabilité de passer à un état si à l’instant t ne dépendant que
de l'état à l’instant t-1
2
Une matrice est stochastique lorsque la somme en ligne de ses éléments vaut 1.
32
III.3.2 REPRESENTATION GRAPHIQUE ET MATRICIELLE
Les modèles de Markov cachés sont fortement apparentés aux automates
probabilistes d’états finis [Jouvet, 1988], définis par un graphe orienté (i.e. la topologie
du modèle) composé de deux types de nœuds (les nœuds terminaux correspondant aux
états initial et final, et les nœuds fonctionnels avec les probabilités d’émission
correspondant aux états émetteurs) et des arcs (ou transitions) reliant ces états, et par un
ensemble de distributions de probabilité sur les transitions. À chaque transition est associé
un symbole d’un alphabet fini. Ce symbole est généré à chaque fois que la transition est
empruntée.
Contrairement aux automates probabilistes, un HMM génère un symbole au niveau
des états et non des transitions. De plus, on associe à chaque état cachée non pas un
symbole, mais une distribution de probabilité d'émission de symboles.
Un exemple simple d’un HMM est illustré sur la figure III.1.
V  v1 , v2 
S  Début , s1 , s2 , s3 , Fin

 Début

 s
A 1
 s2
 s3

 Fin
Début
0
0
0
0
0
Fin 
0 
0.4 0.6 0
0 

0 0.3 0.7 0 
0
0 0.2 08 

0
0
0
0 
s1
s2
s3
0.5
0
0.5

 Début

 s
B 1
 s2
 s3

 Fin
v2 
0 
0.1 0.9 

0
1 
0.5 0.5 

0
0 
v1
0
0.4
v1 0.1
v2 0.9
0.3
v1 0.0
v2 1.0
s1
0.5
0.6
s2
Début
0.5
Fin
0.7
v1 0.5
v2 0.5
s3
0.8
0.2
FIG. III.1: Représentation graphique d’un HMM : Exemple simple à 5 états et 2 symboles
33
III.4 TYPES DE DISTRIBUTION DES PROBABILITES DES SYMBOLES
On distingue différentes classes des HMM en fonction du type de distribution des
probabilités des symboles. Deux grandes classes sont remarquables : les HMM discrets et
les HMM continus. Les HMM discrets sont plus faciles à implémenter, ont moins de
paramètres à réestimer mais sont moins précises que les HMM continues. Les HMM
discrets font moins d’hypothèses sur la nature des observations, mais demandent un
corpus d’apprentissage plus important.
III.4.1 MODELE DISCRET
Les observations sont en général continues puisqu’elles proviennent de phénomènes
physiques continus. On peut les discrétiser, en les quantifiant à l’aide d’un dictionnaire
(l’alphabet d’observations dénombrables). Si l’on peut donner exhaustivement les valeurs
des différentes composantes de la matrice B, donc travaillé avec des probabilités
discrètes, on dit alors que le modèle est discret. On rencontre parfois le terme « DHMM »
(Discrete Hidden Markov Model) dans la littérature pour ce type de modèle
[Rabiner, 1989].
III.4.2 MODELE CONTINU
Bien qu’il soit possible de quantifier les observations continues, il peut y avoir une
sérieuse dégradation d’information associée à cette quantification (une perte
d’information qui peut être importante). Pour éviter ce problème, on remplace pour
chaque état l’ensemble des probabilités discrètes par une fonction de densité de
probabilité d’observations continues. Chaque fonction de densité est conditionnée par
l’état qui la supporte. Dans ce cas le HMM est dit continu « CHMM » (Continuous
Hidden Markov Model) [Rabiner, 1989].
III.4.3 MODELE SEMI-CONTINU
Les HMM semi-continus « SC-HMM » (Semi-Continuous Hidden Markov Model)
sont la résultante d’une sorte de combinaison entre les HMM discrets et les HMM
continus. Le principe est de remplacer les probabilités discrètes d’observation des
symboles par une combinaison de ces probabilités et des fonctions de densité de
probabilité continues dérivées du dictionnaire de la quantification vectorielle. Pour de
plus amples informations sur ce sujet voir [Huang et Jack, 1988].
34
III.5 TOPOLOGIES DES HMM
Il existe deux types principaux de topologies des HMM :
III.5.1 MODELE ERGODIQUE
Un modèle de Markov caché ergodique est un modèle sans contrainte sur les
connections, chaque état est atteignable depuis tout autre état en un nombre fini de
transitions (cf. Fig. III.2). Le modèle est donc caractérisé par une matrice de transition
aux coefficients strictement positifs.
Ce type de modèle est plus général et intéressant lorsque le modèle représente un
processus dont on veut suivre les évolutions des états.
a11
S1
a22
a12
a21
S2
a23 a32
a31 a13
S3
a33
FIG. III.2 : Exemple d’un HMM ergodique
III.5. 2 MODELE GAUCHE-DROITE
Le modèle de Markov caché de type gauche-droite3 (cf. Fig. III.3) soumis à des
contraintes de transition, il n’autorise aucune transition d’un état vers un autre d’indice
inférieur : les états qui se succèdent ont donc des indices égaux ou supérieurs aux
précédents (si t augmente, alors les indices des états augmentent également). Une fois
dans le dernier état, le système est condamné à y rester : c’est pourquoi la probabilité
initiale du premier état est posée égale à 1, les autres étant égales à 0.
3
On rencontre également les termes "left-right", "haut-bas" ou "up-down".
35
Formellement :
aij  0 si i  j
(III.4)
0 si i  1
1 si i  1
 III.5
a11
a22
i  
a12
S1
a33
a23
S2
S3
FIG. III.3 : Exemple d’un HMM gauche-droite
La parole est un phénomène dont la dimension temporelle ne peut être ignorée. Les
HMM utilisés pour la représenter sont, la plupart du temps, des modèles "gauche-droit"
qui ne permettent pas de "retour en arrière". Dans ce cadre, Raimo Bakis [Bakis, 1976] a
proposé un modèle type gauche-droite avec un pas de transition égale à 2 pour représenter
un mot qui permet le bouclage sur l'état courant (progression acoustique stationnaire), le
passage à l'état suivant (progression acoustique standard) ou le saut d'un état à l'autre en
omettant l'état intermédiaire de la séquence apprise (progression acoustique rapide)
(cf. Fig. III.4). Le nombre d'états du modèle est alors proportionnel à la durée moyenne
de ce mot.
aij  0 si j  i      2;  est le pas de transition 
a11
S1
a22
a12
S2
a33
a23
S3
a44
a34
a13
b1(o1)
o1
 III.6 
a55
a45
S4
a35
a24
b2(o2)
o2
b2(o3)
o3
b3(o4)
o4
S5
b4(o5)
o5
b5(o6)
o6
FIG. III.4 : Exemple d’un HMM à 4 états de type Bakis
36
Ce type de modèle permet de modéliser des signaux qui évoluent avec le temps, il
est devenu le modèle générique dans le domaine de la RAP. Il est utilisé dans de
nombreux systèmes pour modéliser les unités acoustiques de base à partir de concepts
empruntés à la linguistique [Igounet, 1998].
Le choix de la topologie influe sur la qualité de la reconnaissance. Bien sûr, il existe
évidemment encore bien d’autres topologies de modèles de Markov cachés.
III.6 MODELISATION ACOUSTIQUE PAR LES HMM
Pour la modélisation statistique acoustique, les modèles de Markov cachés sont
aujourd’hui utilisés dans la grande majorité des systèmes de reconnaissance automatique
de la parole [Rabiner et Levinson, 1985; Young et Woodland, 1994 ; Mérialdo, 1988 ;
Jouvet, 1988 ; Lee et al., 1990 ; Cerf-Danon et al., 1991].
Les HMM sont généralement utilisés par les systèmes de reconnaissance de la parole
pour faciliter l’identification des mots représentés par les ondes sonores captées. Dans ce
cas, un HMM décrit la réalisation d’une concaténation de processus élémentaires qui
représentent la séquence de paramètres acoustiques extraits d’un énoncé humain. Un
HMM est donc une représentation statistique d’un événement.
Les HMM supposent que le phénomène modélisé est un processus aléatoire et
inobservable qui se manifeste par des émissions elles-mêmes aléatoires. Cette approche
markovienne offre une flexibilité séduisante de modélisation pour un phénomène aussi
complexe que la parole.
L'utilisation des modèles HMM a permis de passer aux méthodes de reconnaissance
par modélisation d'unités de parole, permettant de modéliser des unités de parole de plus
petite taille (typiquement les phonèmes), ce qui est fondamental pour construire des
systèmes de reconnaissance de la parole grand vocabulaire.
Le signal de la parole peut être assimilé à une succession d’unités, chaque unité de
parole est modélisée par un HMM. Dans le cadre des SRAP Markoviens, les unités
acoustiques sont modélisées par des modèles de Markov cachés, typiquement des HMM
« gauche-droite », à trois états (émetteurs) (cf. Fig. III.5). Le choix du nombre d’états
tient compte des phénomènes de coarticulation, en faisant l’hypothèse que l’état du milieu
modélise la partie stationnaire du phonème et les états extérieurs modélisent la
coarticulation avec les phonèmes voisins.
37
?-a
a
a-?
FIG. III.5 : HMM « gauche-droite » modélisant le phonème « a »
Les états peuvent représentés grossièrement un son (phonème). Dans un autre ordre
d'idée, les états peuvent représentés les différentes versions de prononciation d'un mot.
A chaque état du modèle de Markov est associée une distribution de probabilité
modélisant la génération des vecteurs acoustiques via cet état. Les transitions représentent
les différentes possibilités d'enchaîner les phonèmes. Cette intégration de la dimension
temporelle dans le modèle explique pourquoi les chaînes de Markov cachées sont souvent
utilisées dans les systèmes de reconnaissance de la parole.
Notons cependant que les unités acoustiques généralement utilisées en RAP sont
hiérarchiquement combinées entre elles pour former des séquences de niveau supérieur.
Lors de la reconnaissance, l'unité acoustique de base est définie par le phonème, la
concaténation de phonèmes forme alors un mot et la concaténation de mots forme une
phrase.
?-s
s
s-a
s-a
a
a-m
a-m
m
m -?
FIG. III.6 : Représentation du mot « sam » par concaténation de phonèmes
Les systèmes de reconnaissance de la parole à base de HMM reposent donc sur les
postulats suivants :
1. La parole est une suite d’états stationnaires, représentés par des vecteurs de
caractéristiques du signal de parole composés généralement de coefficients
MFCC.
2. L’émission d’une séquence de ces vecteurs est générée par un HMM respectant
l’hypothèse markovienne d’ordre 1.
38
III.7 PRINCIPAUX PROBLEMES LIES AUX HMM
III.7.1 LES TROIS PROBLEMES FONDAMENTAUX DES HMM
On distingue trois problèmes principaux rencontrés lors de l'utilisation des modèles
de Markov cachés [Rabiner, 1989] :
PROBLEME 1 : étant donnés une séquence d’observations O  o1 , o2 ,..., oT et un
HMM   ( A, B, ) , comment évaluer efficacement P(O \ ) , la
probabilité d’observation que le modèle λ génère O ?
PROBLEME 2 : étant donnés une séquence d’observations O  o1 , o2 ,..., oT et un
HMM   ( A, B, ) , comment déterminer la séquence d’états cachés
Q  q1 , q2 ,..., qT qui a la probabilité maximale d’avoir généré O ?
PROBLEME 3 : étant donnés un ensemble de séquences d'observations et un modèle
initial λ, comment ajuster les paramètres du modèle λ pour
maximiser la probabilité de la suite d’observations de la base
d'apprentissage P(O \ ) ?
1) PROBLEME 1 : EVALUATION
Le premier problème est un problème d’évaluation, qui peut également être vu
comme un problème d’estimation de la capacité d’un modèle donné à reconnaître une
séquence d’observations donnée. Autrement dit, comment évaluer le modèle afin de
choisir parmi plusieurs celui qui génère le mieux la suite d’observations. C’est le
problème que l’on peut avoir par exemple en reconnaissance de la parole (reconnaissance
d'un mot dans un dictionnaire de M mots).
La première façon qui vient à l’esprit pour calculer la probabilité d’observation
d’une séquence est de sommer les probabilités conjointes sur tous les chemins possibles
et réalisables dans le modèle. En pratique cette méthode demande une complexité de
calcul faramineuse ce qui rend sa réalisation impraticable.
Cependant cette probabilité peut être calculée par récurrence à l’aide d’un algorithme
appelé Forward-Backward [Rabiner, 1989] qui permet de résoudre plus efficacement ce
problème, en factorisant les probabilités de sous-séquences communes à plusieurs
séquences. La complexité de ce calcul est bien inférieure N2T opérations au lieu de 2TNT
opérations pour le calcul direct (avec N le nombre d'états et T la longueur de
l'observation).
39
2) PROBLEME 2 : DECODAGE
Dans les problèmes de reconnaissance, il est parfois utile d’associer à une séquence
d’observations, une séquence d’état, étant donné un modèle. A ce stade, il est
indispensable de déterminer une méthode permettant de retrouver les séquences d’états.
Un critère d’optimalité qui s’avère raisonnable consiste à choisir la séquence d’état (ou le
chemin) qui apporte un maximum de vraisemblance en respectant le modèle donné. Ce
chemin est déterminé par l’algorithme de Viterbi [Viterbi, 1967 ; Forney, 1973], utilisant
des techniques de programmation dynamique.
C'est donc par cet algorithme que l'on accède aux états cachés associés à chacune des
observations. Ce problème se rencontre, par exemple, lors de la reconnaissance de mots
en parole continue, cet algorithme permet de décoder le signal pour estimer la position
des phonèmes.
3) PROBLEME 3 : APPRENTISSAGE
Le troisième problème se ramène à l’entraînement d’un HMM par un ensemble de
séquences d’observations, en vue d’en optimiser les paramètres pour un problème
spécifique donné.
Le problème d’apprentissage peut être divisé en deux types, suivant l’architecture
(nombre d’états du HMM et transitions autorisées) du modèle de Markov caché. Le
premier concerne l’apprentissage supervisé dont l’architecture (i.e. la topologie) est
connue. Le second type est l’apprentissage non supervisé dont l'architecture est inconnue.
Dans ce second cas, on ne sait rien a priori sur le HMM.
1.
APPRENTISSAGE SUPERVISE : Lorsque l’architecture est connue, le problème
se réduit à un problème d’entraînement consistant à estimer les paramètres
numériques (i.e. les probabilités initiales, de transition et d’émission) de
manière à expliquer au mieux les séquences d’apprentissage.
2.
APPRENTISSAGE NON SUPERVISE : Pour certaines applications, on ne dispose
pas de connaissances suffisantes pour inférer naturellement la structure du
HMM. L’apprentissage devient alors encore plus difficile. Il ne suffit plus de
paramétrer une structure mais il faut également déduire cette structure des
exemples fournis.
40
Dans notre travail, nous avons opté pour l’apprentissage supervisé des paramètres.
Cet apprentissage se fait avec l’algorithme de Baum-Welch [Baum, 1972], qui est une
application de la technique EM (Expectation-Maximisation) aux modèles de Markov
cachés.
III.7.2 AUTRES PROBLEMES LIES AUX HMM
Malgré que les HHM bénéficient d’algorithmes d’apprentissage et de décodage
performants (Algorithmes de Baum-Welch et de Viterbi) néanmoins, les hypothèses
nécessaires à la mise en œuvre de ces algorithmes peuvent pénaliser les performances de
ces modèles.
Ainsi que la manipulation des HMM avec un ordinateur entraîne aussi un certain
nombre de problèmes, notamment de calcul. Tous ces problèmes sont plus ou moins liés à
la précision des calculs dans la machine, à la taille du corpus d’apprentissage et à la
discrétisation des symboles qu’on applique.
Parmi les problèmes les plus contraignants on peut citer [Bourlard et Wellekens,
1990] :
 Le dépassement de la précision des calculs de la machine.
 L’insuffisance de données pour l’apprentissage.
 La mise à jour des modèles lorsque les processus varient dans le temps.
 Le choix de l’architecture du HMM la mieux adaptée aux données.
 Le choix d’une bonne estimation initiale des probabilités du HMM.

Pas de contexte acoustique pris en compte. Aucune corrélation entre les
vecteurs acoustiques n’est directement modélisable.

La séquence des états est un processus de Markov du premier ordre.

Forme des densités de probabilité fixée (multi-gaussiennes ou discrète).

En cas d'erreur de reconnaissance, il n'est pas possible de localiser précisément
son origine.

Le manque d’informations concernant la variabilité de la durée de séjour dans
un état en favorisant les courtes durées.
41
III.8 SOLUTIONS DES TROIS PROBLEMES FONDAMENTAUX
L’utilisation des HMM à des fins de reconnaissance est conditionnée par la
résolution des trois problèmes qui leur sont associés :
III.8.1 SOLUTION DU PROBLEME 1: ALGORITHME FORWARD-BACKWARD
Nous définissons dans ce paragraphe les probabilités Forward-Backward qui jouent
un rôle crucial aussi bien au niveau de l'estimation des paramètres qu'à celui de la
restauration proprement dite.
Dans cette approche, on considère que l’observation peut se faire en deux étapes :
1.
L’émission de la suite d’observations {o1 , o2 ,..., ot } et la réalisation de l’état qt
au temps t : forward.
2.
L’émission de la suite d’observations {ot 1 , ot  2 ,..., oT } en partant de l’état qt
au temps t : backward.
On a donc deux façons de calculer la probabilité P(O \ ) :
1) ALGORITHME FORWARD
Soit t (i)  P(O, qt  si \  ) la probabilité de générer la séquence d’observations
O  (o1 , o2 ,..., ot ) et de se trouver dans l’état qt à l’instant t. Cette variable peut être
calculée de manière inductive :
ALGORITHME : FORWARD
Initialisation :
Induction
:
Terminaison :
ALGORITHME III.1 : L’algorithme Forward
42
Cet algorithme est appelé forward car l’induction est réalisée en avant : on calcule
tout d’abord la probabilité de générer le premier symbole de la séquence, puis à chaque
étape de l’induction on rajoute un symbole et on réitère la procédure jusqu’à ce que l’on
est calculé la probabilité de génération de la séquence entière.
Un algorithme similaire, l’algorithme backward, peut être utilisé pour réaliser ce
calcul en arrière.
2) ALGORITHME BACKWARD
On peut considérer le problème d'une façon analogue. On obtient alors l'algorithme
backward, où le terme générique t (i)  P(O \ qt  si ,  ) est la probabilité de générer la
séquence O  {ot 1 , ot 2 ,..., oT } , sachant que l’on est à l’état qt à l’instant t. t (i) est
calculé aussi par l’induction :
ALGORITHME : BACKWARD
Initialisation :
Induction
:
ALGORITHME III.2 : L’algorithme Backward
L'algorithme forward-backward consiste essentiellement en un calcul de probabilités
forward  t (i ) , et de probabilités backward  t (i ) , nommées ainsi car elles nécessitent un
passage vers l'avant ou à reculons à travers les données.
On va voir par la suite que les probabilités forward et backward soient utile pour
résoudre le problème de décodage et d’apprentissage.
43
III.8.2 SOLUTION DU PROBLEME 2 : ALGORITHME DE VITERBI
La difficulté du problème de décodage se trouve dans la définition de la séquence
d’états optimale, c’est à dire il y a plusieurs critères optimaux possibles. Par exemple on
peut chercher la séquence Q pour que P(Q \ O,  ) soit maximum. En fait, ce n’est pas la
valeur de la probabilité maximale qui nous intéresse mais réellement le chemin, appelé
chemin de Viterbi, qui permet de générer la séquence O avec cette probabilité.
L’algorithme de Viterbi est un algorithme récursif basé sur les techniques de
programmation dynamique, il permet de trouver à partir d’une suite d’observations, une
solution optimale au problème d’estimation de la suite d’états.
Etant donné une suite d'observations O  (o1 , o2 ,..., oT ) et un modèle   ( A, B, ) , il
s'agit de trouver la suite d'états Q  (q1 , q2 ,..., qT ) qui maximise la probabilité de
l'observation O. Pour trouver la meilleure séquence d'états Q en connaissant la séquence
d'observations
O
nous
devons
définir
au
préalable
deux
termes :
t (i)  max P(qt  si , O \  ) la probabilité maximal de générer la séquence O suivant un
unique chemin arrivant à l’état qt à l’instant t et  t (i) l’état qui maximise cette
probabilité.
De même manière que pour  t (i ) , la variable  t (i) peut être calculée de manière
inductive :
ALGORITHME : VITERBI
Initialisation :
Induction
:
Terminaison :
Backtracking :
ALGORITHME III.3 : L’algorithme de Viterbi
44
Mise à part de l’étape du backtracking (tracement en arrière de la séquence d’état
optimale ou le chemin de Viterbi), l’algorithme de Viterbi est très similaire à l’algorithme
Forward. La principale différence résulte de la maximisation des probabilités attachées
aux états précédents au lieu du calcul de la somme de ces probabilités.
Nous constatons que l’algorithme de Viterbi délivre deux résultats importants, étant
donné une séquence d’observation :
 La sélection, parmi tous les chemins possibles, du chemin optimal
Q*  q1* , q2* ,..., qT* qui correspond à la séquence d’état la plus probable au sens de
probabilité de la séquence d’observations.
 La probabilité P* sur le meilleur chemin.
III.8.3 SOLUTION DU PROBLEME 3 : ALGORITHME DE BAUM-WELCH
C’est le problème le plus difficile en comparant avec les deux autres et comme les
deux autres, on ne peut pas trouver un maximum global. L’idée principale est de modifier
les paramètres du modèle λ pour gagner un maximum local.
L’apprentissage se fait avec l’algorithme de Baum-Welch [Baum, 1972], qui est une
application de la technique EM (Expectation-Maximisation : estimation statistique de
paramètres cachés) aux modèles de Markov cachés. Cet algorithme est particulièrement
adapté pour les configurations où l'on a des données incomplètes. Cela est dû au fait que
l'on prend une espérance sur les suites d'états possibles.
L’algorithme de Baum-Welch est une procédure de réestimation itérative des
paramètres d'un HMM.
Etant donné un modèle de Markov caché   ( A, B, ) quelconque et une séquence
d'observations O  o1 , o2 ,..., oT , l'algorithme de Baum-Welch réestime les valeurs des
matrices A, B et  de façon à maximiser la vraisemblance de l'observation O :
P(O  o \ ) .
On obtient après exécution de l'algorithme le modèle de Markov caché  telle que
  argmax  P(O  o \  ) .
45
Introduisons les notations suivantes :

  ( A, B, ) : les paramètres du modèle estimés à l'itération précédente.

  ( A, B,  ) : les paramètres du modèle estimés à l'itération courante.

t (i, j ) : la probabilité de passer de l'état si à l'instant t à l'état sj à l'instant t+1, en
générant la séquence d'observations O avec le modèle , ce qui peut s'écrire :
t (i, j )  P(qt  si , qt 1  s j \ O,  )
(III.7)
En utilisant les variables forward et backward précédemment vues, on établit la
relation suivante :
t (i, j ) 

 t (i)aij b j (ot 1 ) t 1 ( j )
P(O \  )
 t (i)aij b j (ot 1 ) t 1 ( j )
N
N
 (i)a b (o
t
i 1 j 1

ij
t 1
j
(III.8)
) t 1 ( j )
 t (i) : la probabilité d'être dans l'état si à l'instant t, étant donnés la séquence
d'observations O et le modèle  :
 t (i)  P(qt  si \ O,  )
(III.9)
Ce terme peut s'exprimer en fonction des variables forward et backward :
 t (i, j ) 

 t (i ) t (i)
P(O \  )
 t (i) t (i)
N
 (i) (i)
i 1
t
(III.10)
t
Si l'on reprend la définition de t (i, j ) , on remarque que si l'on somme t (i, j )
sur j, on retrouve :
N
 t (i)  t (i, j )
(III.11)
j 1
46
Le calcul de t (i, j ) et  t (i) est l'étape de calcul des probabilités a posteriori, étape
préalable à la réestimation des paramètres du HMM. Ensuite, si on somme  t (i) et
t (i, j ) de t = 1 jusqu'à T-1, les quantités obtenues peuvent être considérées comme :
T 1
  (i) = Estimation du nombre de transitions effectuées à partir de si.
t 1
t
T 1
  (i, j ) = Estimation du nombre de transitions effectuées de si à sj.
t 1
t
En utilisant les formules ci-dessus nous pouvons définir les formules de réestimation
des paramètres du HMM   ( A, B, ) :
 i   1 (i)
(III.12)
T 1
a ij 
  (i, j )
t 1
T 1
t
(III.13)
  (i)
t 1
t
T

t 1
b j (k ) 
 t ( j)
s.t.Ot  vk
T
  (i)
t 1
(III.14)
t
aij : est le rapport entre le nombre de transitions de si à sj et le nombre de passage par
l'état si.
b j (k ) : est le rapport entre le nombre de fois où on observe vk dans l'état si et le nombre
de fois où l'automate s'est trouvé dans l'état sj.
Les contraintes stochastiques sur les paramètres d’un HMM  sont :
N

 1,
i
1 i  N
(III.15)
i 1
N
b
j
( k )  1,
1 i  N
(III.16)
i 1
47
Il est démontré qu’en itérant ces opérations, l'algorithme converge vers un HMM
correspondant à un point critique (point d'inflexion ou maximum local) de P(O \ ) .
ALGORITHME : BAUM-WELCH
1. Initialisation : Choisir des valeurs initiales : k = 0
2. Estimation des probabilités : calculer, en utilisant les variables forward-backward :
3. Réestimation des paramètres : k = 1, 2, 3,…
4. Poser
et passer à l'étape 2, ou bien arrêter selon un critère d'arrêt.
ALGORITHME III.4 : L’algorithme de Baum-Welch
Le choix du modèle initial influe sur le résultat final: toutes les valeurs nulles de A et
de B au départ, restent à zéro à la fin de l’apprentissage.
III.9 RECONNAISSANCE
La classification consiste à définir pour chaque classe un modèle de Markov caché,
où chaque état représente un son (phonème) et émet de manière probabiliste un vecteur
d’observations. Les transitions représentent les différentes possibilités d’enchaîner les
sons. On attribuera à chaque phonème la classe modélisée par le HMM qui a la plus
grande probabilité d’émettre ce phonème.
Le classifieur utilisé pour sélectionner la meilleure classe candidate (i.e. la classe qui
s’apparie le mieux au phonème en entrée) est basé sur un critère de maximum de
vraisemblance (ML pour Maximum Likelihood), voir figure III.7.
Ce classifieur prend le mot à reconnaître comme étant une séquence d’observations
discrètes O1T  (O1 , O2 ,..., OT ) produites par analyse et quantification vectorielle de type
48
LBG (donné dans l’annexe A.3) de la séquence de vecteurs de caractéristiques extraite de
la parole, pour chaque modèle i du phonème i, ce classifieur calcule la probabilité
P(O1T | i ) qui correspond à la probabilité d’obtenir la séquence O1T par le modèle i. Ces
probabilités sont évaluées par la version logarithmique de l’algorithme de Viterbi
[Levinson, 1986]. Finalement, le phonème testé est affecté à la classe du phonème K pour
laquelle le modèle k maximise la probabilité d’émission de O1T .
Vecteur
acoustique
Classe 1 | 1
Quantification
vectorielle
Classe 2 | 2
Sélectionner
Séquence
observée O
K
Classe n | 1
FIG. III.7 : Classifieur de phonème à base de maximum de vraisemblance
De manière synthétique, un HMM est un automate pondéré stochastique particulier
capable, après avoir été entraîné, d'estimer la probabilité qu'une séquence d'observations
donnée ait pu être générée par son modèle.
III.10 CONCLUSION
L’étude des HMM nous a permis dans un premier temps de bien poser les bases
théoriques associées à ces modèles. Dans un second temps, elle nous a permis de
présenter les trois principaux problèmes que l’on est amené à traiter lorsqu’on manipule
les HMM.
Le grand intérêt des modèles de Markov cachés pour la classification est leur
aptitude à traiter la nature à la fois statistique et séquentielle des observations.
49
Les principaux avantages des HMM sont attribués à leur cadre probabiliste, qui
s'accorde bien avec la nature des signaux bruités comme le cas de la parole et de l’écriture
manuscrite, et à leurs fondements théoriques qui ont permis la mise en œuvre
d’algorithmes puissants pour l’apprentissage et la reconnaissance.
L’information dynamique présentée dans les HMM (la classe d’un vecteur
acoustique à un instant donné est fonction du vecteur à l’instant présent ainsi que les
vecteurs acoustiques du passé et du futur) offre donc la possibilité de modéliser
l’information temporelle dans un problème de classification. Les succès de l’approche
pour la reconnaissance de la parole incitent l’extension de cette approche pour la
classification du signal sonore.
La motivation par ces avantages, représente les principales raisons du choix de cette
méthode pour l’implémentation de notre système de reconnaissance automatique de la
parole.
50
IMPLEMENTATION ET RESULTATS
e chapitre illustre les fruits des trois premiers chapitres par la mise en
test des approches considérées. Nous présentons divers résultats
expérimentaux obtenus sur la base de données TIMIT, et nous
conclurons par une étude comparative des différentes stratégies
implémentées.
C
Mots-clés
La base de données internationale de parole TIMIT
IV.1 INTRODUCTION
Après avoir donné l’aspect théorique du Modèle de Mélange de Gaussiennes et du
Modèle de Markov Caché, il est nécessaire et intéressant de donner l’aspect pratique de
différentes méthodes implémentées et évaluer leurs validités, en analysant les
performances obtenues de nos expériences.
IV.2 RESSOURCES : MATERIELLES ET LOGICIELS
Pour la mise en œuvre de notre application, nous avons disposé d’un
micro-ordinateur Intel Cor 2 de 1,87 GHz, possédant 01 Go de RAM. L’environnement
soft de notre application est le Windows XP et compatible.
Nous avons choisi le Matlab version 7.2 comme langage de programmation.
IV.3 BASE DE DONNEES UTILISEE
Pour le développement de notre système de reconnaissance, nous avons utilisé la
base de données acoustique américaine TIMIT pour plusieurs raisons. Tout d'abord, cette
base a été constituée pour illustrer au mieux la variabilité acoustique de l'anglais
américain, et elle est fournie avec une segmentation phonétique de référence qui simplifie
l'apprentissage initial des modèles phonétiques. De plus, TIMIT peut être considérée
comme une base de données de référence. Sa large diffusion dans la communauté
internationale permet une évaluation objective des performances des systèmes
développés.
Dans la base de données internationale de parole TIMIT, les parties réservés à
l’apprentissages et tests ont été effectués à partir de phonèmes parlés extraits
manuellement des phrases complètes multi-locuteurs, de la base de données TIMIT qui
contient 61 phonèmes constituant la phonétique de la langue anglaise, tirés d’un total de
6300 phrases, 10 phrases parlées par chacun des 630 orateurs de 8 dialectes principaux de
l’anglais américain.
Ce corpus de discours lu a été conçu pour fournir des données de discours pour
l’acquisition de connaissance acoustique phonétique, le développement et l’évaluation
des systèmes de reconnaissance automatique de la parole. Il a résulté des efforts
communs de plusieurs instances sous le patronage de l’agence DARPA (Defence
Advanced Research Projects Agency) et ISTO (Information Science and Technology
51
Office), la conception du corpus de texte était un effort commun parmi le Massachusetts
Institute of Technology (MIT), Stanford Research Institute (SRI) et Texas Instruments
(TI). Le discours a été enregistré à TI, transcrit à MIT et maintenu, vérifié et préparé pour
production de CD-ROM par le National Institute of Standards and Technology (NIST).
Nous travaillons uniquement sur 18 phonèmes de la base de données TIMIT, divisés
en trois catégories : voyelles, fricatives et plosives. Le tableau IV.1 montre la structure de
la base TIMIT :
CLASSE
VOYELLES
FRICATIVES
PLOSIVES
PHONEME
APPRENTISSAGE
TEST
ah
aw
ax
ax-h
uh
uw
dh
f
sh
v
z
zh
b
d
g
p
q
t
2200
700
3352
281
502
536
2058
2093
2144
1872
3574
164
399
1371
1337
2056
3307
3586
879
216
1323
95
221
170
822
911
796
707
1273
74
182
526
546
779
1191
1344
TABLEAU IV.1 : Les phonèmes utilisés dans notre application avec leurs nombres
d’occurrences
Comme prétraitement, la base dont nous disposons a subi un codage MFCC (Mel
Frequency Cepstral Coefficients).
52
IV.4 CLASSIFICATION PHONETIQUE
La classification phonétique représente la dernière étape de traitement dans la
reconnaissance automatique de la parole. Cette phase opère directement sur les données
prétraitées.
Ainsi, l’objective de cette phase est d’attribuer à chaque occurrence présentée à
l’entrée du système la classe qu’elle lui revient d’origine. Cependant, étant loin des
systèmes parfait, la classification rencontre des cas de confusion liés à l’origine des
données et à la séparabilité non linéaire des classes. En réduisant au maximum le nombre
de confusion engendré par le système, la fiabilité du classificateur se traduira par la
maximisation du nombre d’occurrences reconnues du nombre total présenté au système,
on parlera alors de taux de reconnaissance du système.
Dans notre travail, on se limite à la phase de classification où on utilise 18 phonèmes
de la base de données TIMIT. La performance de nos modèles se communiquera par les
scores obtenus de la phase de reconnaissance.
IV.5 APPLICATIONS
Nous avons réalisé une classification de 18 phonèmes de la base de données TIMIT
à l’aide du Modèle de Mélange de Gaussiennes et le Modèle de Markov Caché. Chaque
phonème est constitué de 8 trames de 13 coefficients MFCC.
Les expériences de classification des 18 phonèmes sont présentées ci-après en
deux parties :
Dans un premier temps nous étudions les résultats obtenus avec le modèle de
mélange de gaussiennes (GMM) dans un espace de paramètres de 13 coefficients
MFCC, ensuite nous intégrons une composante temporelle dynamique (TD-GMM) ou
statique (TS-GMM) dans ces vecteurs. Puis nous évaluons ces 3 modèles dans un
espace de paramètres dynamiques augmenté de la premières et la deuxième dérivée
des coefficients cepstraux.
Dans la deuxième partie, nous présentons les résultats obtenues avec les modèles
de Markov cachés discrets et continus (DHMM et CHMM), en utilisant des données
normalisées et non-normalisées, dans un état brut. Ensuite nous évaluons, comme nous
l'avons fait avec les GMM, l'influence des paramètres dynamiques sur la classification
phonétique par les modèles HMM.
53
L’organigramme suivant représente le schéma global des différentes approches
implémentées pour la reconnaissance des 18 phonèmes de la base de données TIMIT, ces
approches sont appliquées sur différents sous-corpus.
Sous corpus Train
Normalisation
Approches de
classification
Quantification
DHMM
CHMM
TS-GMM
GMM
TD-GMM
Estimation des paramètres
Sous corpus Test
Test
Reconnaissance
Décision
FIG. IV.1 : Schéma général des approches implémentées
54
IV.5.1 CLASSIFICATION PAR LES MODELES GMM
Avant de tester le modèle GMM, nous avons tout d’abord appliqué une Analyse en
Composantes Principales (ACP), décrite annexe C, au niveau de chaque classe de
phonème pour réduire l’espace de représentation.
Il est bien connu que le comportement des modèles statistiques utilisés comme
classificateurs dépend fortement de la topologie employée et de la phase d'initialisation
des modèles.
IV.5.1.1 TOPOLOGIE DU MODELE
Dans le cas du modèle GMM, on considère que les vecteurs acoustiques d’un
phonème suivent une densité de probabilité multidimensionnelle composée de plusieurs
densités gaussiennes. La somme pondérée de ces densités gaussiennes représente le
modèle d’un phonème. En effet, la topologie du modèle est définie entièrement par le
nombre Q de lois gaussiennes du mélange.
IV.5.1.2 INITIALISATION DU MODELE
L'initialisation du modèle GMM est faite à travers les données du vecteur
( wk , k , k ) pour chacune des k composantes du mélange :
 Le choix du nombre de gaussiennes Q se fait a priori.
 Les moyennes µk sont initialisées par l’algorithme k-means.
 La matrice de covariance k est initialisée à la matrice identité.
 Initialisation équiprobable des poids des composantes gaussiennes : wk = 1/ Q.
Insatisfait par le choix heuristique de Q, il nous a paru intéressant de rechercher
différemment le nombre de classes optimal.
Le modèle initial une fois fixé, on applique l’algorithme EM.
IV.5.1.3 EXPERIENCES
Les expériences de classification par le modèle GMM ont été menées sur la base de
données décrite précédemment. Le tableau IV.2 regroupe les différentes expériences des
modèles GMM déjà envisagés théoriquement au chapitre II, avec des citations et
descriptions des paramètres utilisés dans chacune de ces expériences :
55
NUMERO
DETAIL DE L’EXPERIENCE
D’EXPERIENCE
1
Application du modèle GMM, avec un nombre de composante
gaussiennes constant, sur les vecteurs de paramètres MFCC.
2
Application du modèle GMM, avec un nombre de composante
gaussiennes variable, sur les vecteurs de paramètres MFCC.
3
Application du modèle TD-GMM, avec l’intégration d’une
composante temporelle dynamique, sur les vecteurs MFCC.
4
Application du modèle TS-GMM, avec l’intégration d'une
composante temporelle statique constante, sur les vecteurs MFCC.
Application des modèles GMM, TD-GMM et TS-GMM sur
5
l’ensemble de paramètres (MFCC + MFCC).
Application des modèles GMM, TD-GMM et TS-GMM sur
6
l’ensemble de paramètres (MFCC + MFCC + MFCC).
TABLEAU IV.2 : Les modèles GMM Implémentés
IV.5.1.4 RESULTATS
1) RESULTATS DE L’EXPERIENCE N°1 : Modèle GMM à Q constant
L'une des principales difficultés que l'on rencontre dans une tâche de modélisation
par les GMM consiste à trouver le nombre de composantes gaussiennes qui modélise le
mieux notre système de reconnaissance.
Pour chacun des 18 phonèmes de la base de données TIMIT, nous avons créé un
modèle GMM à nombre de composantes gaussiennes Q constant sur l’ensemble de
paramètres correspondants et à chaque expérience en faisant varier Q de 2 à 64.
Les modèles GMM sont entraînés par une matrice de vecteurs MFCC de dimension
13, c’est-à-dire, 13 paramètres MFCC dans chaque vecteur de la matrice d’apprentissage.
Nous avons effectué des tests pour chaque phonème. A travers ces tests, nous avons
vu l’effet du nombre de composantes gaussiennes du modèle GMM sur la performance
56
globale de la classification des 18 phonèmes. Les résultats obtenus sont présentés dans le
tableau IV.3.
Q
2
4
6
8
10
16
20
24
32
64
PHONEME
/ah/
47.44
45.62 45.28 45.85 45.96 46.64 45.73 39.48 43.57 42.66
/aw/
74.07
74.07 73.61 65.74 71.76 76.39 69.44 67.13 63.89 70.83
/ax/
57.29
54.95 55.18 59.11 58.65 57.90 57.45 54.88 57.90 43.24
/ax-h/
16.84
17.89 17.89 14.74 17.89 14.74 16.84 15.79 11.58 13.68
/uh/
41.18
44.80 44.34 40.27 39.82 41.63 38.91 22.62 38.91 25.79
/uw/
58.24
58.24 58.24 57.65 62.35 57.06 58.24 57.65 54.71 42.35
/dh/
34.55
28.71 28.59 35.89 36.37 37.59 33.58 36.25 34.06 36.13
/f/
67.84
72.78 73.98 65.75 66.08 66.08 59.60 58.73 52.36 57.63
/sh/
78.14
78.77 79.02 80.15 80.78 80.40 76.51 71.61 76.26 71.98
/v/
53.18
55.59 55.45 56.44 53.89 53.18 54.60 53.75 49.08 50.78
/z/
71.25
70.86 70.86 72.43 70.46 72.19 70.31 74.39 69.13 69.68
/zh/
60.81
63.51 64.86 55.41 58.11 59.46 66.22 64.86 54.05 51.35
/b/
80.22
78.57 78.57 81.32 80.77 79.67 79.67 76.92 71.98 77.47
/d/
26.62
23.19 23.19 29.28 28.52 28.14 25.48 30.80 26.62 27.19
/g/
58.24
55.86 56.04 60.81 60.62 61.54 59.16 59.71 61.17 43.96
/p/
48.52
48.01 49.17 46.98 49.17 47.75 50.06 44.80 45.70 47.37
/q/
58.86
61.63 61.63 60.12 60.29 59.95 58.86 59.03 59.36 59.53
/t/
41.82
44.42 44.05 41.67 41.67 42.11 41.96 43.45 42.41 42.04
% TAUX
GLOBAL
55.06
55.13 55.26 55.56 55.58 55.70 54.15 53.28 52.64 50.50
TABLEAU IV.3 : Pourcentage de reconnaissance par le modèle GMM avec Q constant
57
La première expérience est une évaluation de l'influence de la taille Q des modèles
de mélanges de gaussiennes sur le taux de reconnaissance des phonèmes.
Les résultats représentés dans le tableau IV.3 montrent qu’un nombre de gaussiennes
entre 8 et 16 modélise le mieux les vecteurs acoustiques. Le meilleur taux de
reconnaissance est de 55.70%, et il est obtenu avec des modèles gaussiens comportant 16
composantes.
Nous remarquons qu’en augmentant le nombre de composantes du modèle GMM
nous avons eu une amélioration de la performance du système de reconnaissance.
Cependant, cette remarque n’est pas valable quand le nombre de gaussiennes devient
supérieur à 16. En effet, nous avons eu une dégradation de performance. Cela peut être
interprété comme suit :
L’augmentation du nombre de composantes du modèle GMM a surentraîné ce
dernier, c’est-à-dire représenté des données qui n’existe pas dans l’espace de vecteurs
acoustiques.
Dans le cas pratique, le nombre de gaussiennes du modèle GMM est choisi en
fonction de données que nous avons disposées.
Parmi les 18 classes de phonèmes il y a des classes qui contient un nombre assez
faible d’échantillons (tel que les phonèmes : ax-h et zh), l’utilisation d’un nombre trop
important de gaussiennes ne conduira donc pas nécessairement à une meilleure
reconnaissance. Pour que le modèle à base de gaussiennes (GMM) soit représentatif il
faut que le nombre de vecteurs acoustiques de l’ensemble d’apprentissage soit
suffisamment grand pour pouvoir estimer avec précision tous les paramètres des
gaussiennes.
Un point essentiel que ne permettent cependant pas de déterminer ces expériences
est de savoir s'il est plus efficace de modéliser le système de reconnaissance avec le
même nombre de gaussiennes ou non.
58
2) RESULTATS DE L’EXPERIENCE N°2 : Modèle GMM à Q variable
Dans cette expérience nous avons modélisé notre système de reconnaissance avec
des modèles GMM à nombre de composantes gaussiennes variable sur l’ensemble des 18
phonèmes. Le nombre Q est choisi en fonction du nombre d’occurrences de chaque
phonème dans la base d’apprentissage.
Pour chaque classe, le nombre Q de composantes du modèle se varie entre 1 et 16
selon le nombre d’occurrences de chaque phonème donné dans le tableau IV.1. Dans ce
cas, Q est un vecteur de dimension 18 qui représentent le nombre de gaussiennes choisi
par classe phonétique.
Les vecteurs des composantes gaussiennes choisis dans chaque expérience sont
donnés dans le tableau IV.4.
Phonème
Q
/ah/ /aw/ /ax/ /ax-h/ /uh/ /uw/ /dh/ /f/
/sh/ /v/
/z/ /zh/ /b/
/d/
/g/
/p/
/q/
/t/
Q1
4
2
5
1
1
1
4
4
4
3
5
1
1
3
3
4
5
5
Q2
5
3
6
1
1
1
5
5
5
4
6
1
1
4
4
5
6
6
Q3
6
3
9
1
2
2
6
6
6
5
9
1
1
5
5
6
9
9
Q4
7
4
10
1
3
3
7
7
7
6
10
1
1
6
6
7
10
10
Q5
10
4
12
2
3
3
10
10
10
8
12
1
2
8
8
10
12
12
Q6
12
5
16
2
4
4
12
12
12
8
16
1
2
8
8
12
16
16
Q7
16
6
24
3
4
4
16
16
16
10
24
1
3
10
10
16
24
24
Q8
18
8
32
4
6
6
18
18
18
14
32
3
4
14
14
18
32
32
TABLEAU IV.4 : Nombre de composantes gaussiennes choisi par classe de phonème
Nous avons donc réalisé une étude des scores de reconnaissance obtenus avec le
modèle GMM en faisant varier le nombre Q sur l’ensemble des phonèmes, les résultats
obtenus sont présentés dans le tableau IV.5.
59
Q
Q1
Q2
Q3
Q4
Q5
Q6
Q7
Q8
/ah/
41.39
48.81
45.05
49.15
46.42
45.85
48.01
46.99
/aw/
75.00
74.07
69.91
75.46
74.07
73.61
75.46
75.46
/ax/
63.64
63.57
63.34
63.11
62.59
64.25
64.78
63.42
/ax-h/
12.63
12.63
13.68
11.58
8.42
10.53
8.42
13.68
/uh/
39.37
38.01
32.13
33.94
34.84
30.77
34.39
38.46
/uw/
59.41
60.00
59.41
58.82
57.65
58.82
58.24
60.00
/dh/
38.93
42.46
45.74
44.40
45.74
45.01
46.84
43.55
/f/
69.05
67.95
67.29
66.96
67.95
68.72
67.62
68.61
/sh/
78.89
79.77
80.03
81.16
81.66
81.41
80.40
79.90
/v/
55.16
53.75
54.03
53.18
52.90
55.02
54.31
54.31
/z/
70.78
69.91
72.19
71.72
73.21
72.43
71.41
70.86
/zh/
59.46
62.16
56.76
64.86
58.11
58.11
58.11
62.16
/b/
25.82
21.98
15.38
20.88
20.88
20.33
19.23
21.43
/d/
49.43
42.97
49.62
50.19
53.42
51.33
45.82
42.78
/g/
68.32
72.53
70.70
72.89
73.44
72.16
71.79
72.34
/p/
48.91
49.42
50.58
49.81
49.68
50.71
49.42
49.17
/q/
60.79
62.38
62.64
63.48
63.14
65.41
64.23
61.96
/t/
41.29
41.44
46.58
43.75
46.95
46.88
46.50
42.34
% TAUX
GLOBAL
56.86
57.19
57.90
58.12
58.59
58.84
58.44
57.36
PHONEME
TABLEAU IV.5 : Pourcentage de reconnaissance par le modèle GMM avec Q variable
60
L'utilisation des modèles GMM à Q variable s'accompagne d'une amélioration du
score de reconnaissance, nous constatons un gain de 3.14% par rapport aux modèles ayant
un nombre de composantes constant sur l’ensemble des paramètres correspondants, où le
taux de reconnaissance a pu atteindre 58.84%.
Ces expériences montrent que le nombre d’occurrences de chaque phonème joue un
rôle très important pour la détermination du nombre de gaussiennes de chaque classe. En
effet, le nombre de composantes gaussiennes du modèle est un facteur de variation
important qui a une influence directe sur le taux de reconnaissance.
La matrice de confusion obtenue avec Q = Q6 montre de bons taux de
reconnaissance par rapport au taux obtenu avec le modèle GMM à Q =16.
Dans la suite des expériences le nombre de gaussiennes du modèle GMM est fixé à
Q = [12 5 16 2 4 4 12 12 12 8 16 1 2 8 8 12 16 16].
Une fois le nombre de gaussiennes du modèle GMM est fixé, les modèles TD-GMM
et TS-GMM sont testés par rapport à notre corpus TIMIT avec les mêmes paramètres du
modèle GMM. Des résultats avec la première et la deuxième dérivée des paramètres
MFCC sont présentés.
3) RESULTATS DES EXPERIENCES N°3 & N°4 : Modèles TD-GMM et TS-GMM
Au niveau de la troisième et quatrième expérience, la classification des 18 phonèmes
a été faite toujours à base du modèle de mélange de gaussiennes en gardant les mêmes
paramètres décrits précédemment mais le cas particulier considéré ici est l’intégration
d’une nouvelle composante temporelle aux niveaux des vecteurs MFCC. L’ajout d’un
nouveau paramètre variable par rapport à la durée de chaque occurrence engendre le
problème de la matrice singulière au niveau de la cinquième fenêtre, et comme solution à
ce problème, on a introduit deux méthodes : les modèles TD-GMM avec une composante
temporelle dynamique et le modèle TS-GMM avec une composante temporelle statique
constante sur l’ensemble des vecteurs.
Le tableau IV.6 regroupe l’expérience N°3 (application du modèle TD-GMM) et
l’expérience N°4 (application du modèle TS-GMM).
61
MODELE
GMM
TD-GMM
TS-GMM
/ah/
45.85
51.19
53.36
/aw/
73.61
72.22
73.15
/ax/
64.25
60.24
64.17
/ax-h/
10.53
16.84
11.58
/uh/
30.77
56.11
43.89
/uw/
58.82
62.94
57.65
/dh/
45.01
48.18
46.35
/f/
68.72
73.11
69.15
/sh/
81.41
81.41
80.53
/v/
55.02
56.58
48.94
/z/
72.43
74.47
79.26
/zh/
58.11
58.11
56.76
/b/
20.33
21.43
23.63
/d/
51.33
50.00
73.38
/g/
72.16
72.89
72.34
/p/
50.71
51.96
53.80
/q/
65.41
69.01
60.21
/t/
46.88
50.00
57.29
% TAUX GLOBAL
58.84
60,95
61,87
PHONEME
TABLEAU IV.6 : Taux de reconnaissance obtenus avec les modèles
GMM, TD-GMM et TS-GMM
62
L’expérience N°3 représente la méthode TD-GMM au quelle nous avons intégré une
composante temporelle dynamique pour les quatre premières fenêtres. Nous constatons
dans ce cas, une amélioration de 2.11% (de 58.84% à 60.95%) dans le taux de
reconnaissance des phonèmes par rapport au modèle GMM, et plus particulièrement pour
les fricative où le taux de reconnaissance est passé de 65.42% à 68.25%.
Dans l'expérience N°4, la composante temporelle prise par le modèle TS-GMM est
une composante temporelle statique pour les cinq fenêtres. Cette expérience montre une
nette amélioration du taux de reconnaissance par rapport au modèle GMM, nous
constatons un gain de 3.03% (de 58.84% à 61.87%). Pour les voyelles, le taux est passé
de 54.75% à 57.92% et pour les plosives de 54.84% à 59.70%.
Nous remarquons une légère amélioration de taux de reconnaissance entre les
modèles TD-GMM et TS-GMM où le taux est passé de 60.95% avec le modèle TD-GMM
à 61.87% avec le modèle TS-GMM. De manière générale l’intégration de la composante
temporelle dans les vecteurs de paramètres améliore toujours les résultats.
Nous pouvons aussi apercevoir à travers le tableau IV.6, représentant l’application
des 3 méthodes gaussiennes sur les vecteurs MFCC, des taux élevés (plus de 72%) pour
les phonèmes /aw/, /sh/, /z/ et /g/ et des taux inférieurs à 24% pour les phonèmes /ax-h/ et
/b/, et cela revient au nombre d’échantillons des phonèmes dans la base de données.
4) RESULTATS DES EXPERIENCES N°5 & N°6 : Espace de paramètres dynamiques
Dans le but de renforcer notre appréciation sur les méthodes mis à l’étude, nous
avons utilisé les paramètres MFCC avec leurs premières et deuxièmes dérivées pour
évaluer l’influence de l'espace des observations sur le taux de reconnaissance.
Dans un premier temps, nous allons analyser le comportement des modèles en
recherchant, pour chaque jeu de paramètres, le modèle donnant le meilleur résultat.
Nous allons donc réaliser une étude des scores de reconnaissance obtenus avec les
différentes méthodes proposées, et cela pour différents ensembles de paramètres (tableau
IV.7). Les vecteurs de paramètres #1 et #2 sont qualifiés de jeux de référence car ils
correspondent à l'espace cepstral (12 MFCC augmentés du coefficient d'énergie E) tel que
nous l'avons déjà représenté (#1), auquel est ajouté une composante temporelle T (#2).
L'ensemble de paramètres #3 correspond à l'espace cepstral global statique et dynamique
(MFCC+MFCC), tandis que le jeu #4 est le plus complet puisqu'il prend en compte tous
les paramètres calculés augmentés de la deuxième dérivée des coefficients cepstraux
63
(MFCC+MFCC+MFCC). Les résultats obtenus par les expériences N°5 & N°6 sont
présentés dans le tableau suivant.
MODELE
GMM
TD-GMM
MFCC MFCC MFCC
PHONEME
+
+ + 
TS-GMM
MFCC MFCC MFCC MFCC MFCC MFCC
+
+ + 
+
+ + 
/ah/
45.85
53.13
48.46
51.19
57.79
53.36
53.36 58.02
73.61
/aw/
73.61
69.44
85.65
72.22
74.07
63.89
73.15 76.39
84.26
/ax/
64.25
59.56
62.13
60.24
73.92
69.46
64.17 57.90
72.79
/ax-h/
10.53
13.68
10.53
16.84
20.00
18.95
11.58 18.95
26.32
/uh/
30.77
39.37
58.37
56.11
34.84
38.91
43.89 41.63
22.62
/uw/
58.82
64.12
57.06
62.94
57.65
54.71
57.65 57.06
57.65
/dh/
45.01
45.26
50.85
48.18
45.74
58.39
46.35 49.76
54.50
/f/
68.72
73.11
68.61
73.11
67.95
75.30
69.15 66.08
75.19
/sh/
81.41
83.29
93.22
81.41
81.66
78.77
80.53 80.40
71.61
/v/
55.02
56.58
52.05
56.58
52.90
49.08
48.94 62.94
53.75
/z/
72.43
74.00
80.28
74.47
81.07
83.27
79.26 72.19
74.39
/zh/
58.11
55.41
62.16
58.11
58.12
54.05
56.76 59.46
64.86
/b/
20.33
18.68
22.53
21.43
20.88
71.98
23.63 79.67
76.92
/d/
51.33
47.72
45.06
50.00
53.42
26.62
73.38 66.16
30.80
/g/
72.16
74.91
77.66
72.89
73.44
61.17
72.34 61.54
59.71
/p/
50.71
51.48
51.99
51.96
49.68
67.52
53.80 60.59
64.06
/q/
65.41
65.41
60.74
69.01
63.14
78.17
60.21 68.35
69.86
/t/
46.88
48.66
58.48
50.00
52.16
51.04
57.29 56.99
61.16
% TAUX
GLOBAL
58.84
59.94
62.23
60.95
62.17
63.97
61.87 62.94
64.90
TABLEAU IV.7 : Taux de reconnaissance obtenus avec les modèles GMM, TD-GMM
et TS-GMM dans différents espaces de paramètres
64
Si l'on s'intéresse aux espaces de paramètres, on constate (tableau IV.7) que les
coefficients cepstraux statiques (#1 et #2), qui ne prenant pas en compte l’aspect
dynamique, donnent des scores de reconnaissance de l'ordre de 58.84% (#1) et de
60.95% - 61.87% (#2) selon que l'on prenne en compte la composante temporelle
dynamique ou statique. A l'inverse, les modèles à base des coefficients statiques et
dynamiques (#3 et #4) permettent d’augmenter le taux de reconnaissance jusqu’à 64.90%.
La première dérivée améliore peu les résultats obtenus, on constate un gain de 1.1%
(de 58.84% à 59.94%) avec le modèle GMM et de 1.22% (de 60.95% à 62.17%) avec le
modèle TD-GMM et de 1.07% (de 61.87% à 62.94%) avec le modèle TS-GMM.
Par contre l’ajout de la deuxième dérivée aux vecteurs de caractéristiques augmente
en absolu le taux de reconnaissance de 3.39% (de 58.84% à 62.23%) avec le modèle
GMM et de 3.02% (de 60.95% à 63.97%) avec le modèle TD-GMM et de 3.03%
(de 61.87% à 64.90%) avec le modèle TS-GMM.
IV.5.1.5 DISCUSSION
La technique de modélisation GMM a été profondément étudiée dans ce travail. A
travers les expériences que nous avons effectuées, nous pouvons dire que le modèle
GMM est très puissant et peut représenter des distributions aléatoires très complexes
d’une manière très fidèle. Le bon choix du nombre de composantes du modèle GMM est
très important. En effet, si nous choisissons un petit nombre, nous pouvons avoir une
grande perte de données et par conséquent, une dégradation de performance. Dans le cas
inverse, si nous choisissons un grand nombre de gaussiennes, nous pouvons avoir le
problème de sur‐apprentissage du modèle GMM, c’est‐à‐dire, présenter des données qui
n’existent pas dans l’espace de paramètres acoustiques du phonème en question.
Les expériences présentées ci-dessus montrent également que la topologie du modèle
(nombre de gaussiennes) et l'espace d'observation influent énormément sur la
performance de la classification phonétique.
La première dérivée améliore peu les résultats obtenus par contre la deuxième
dérivée augmente en absolu le taux de reconnaissance. En effet, l’ajout d’informations
temporelles avec l’utilisation de la première et de la deuxième dérivée permet un gain de
performance.
65
Après avoir étudié la pertinence dynamique des paramètres acoustiques pour le
corpus TIMIT, nous pouvons constater que le meilleur taux de reconnaissance a été de
64.90%. Ce taux est obtenu par la première et deuxième dérivée additionnée à la
combinaison de 13 coefficients MFCC avec la composante temporelle statique.
La matrice de confusion, du meilleur taux obtenu avec le modèle de mélange de
gaussiennes, est présentée dans l’annexe D.1.
IV.5.2 CLASSIFICATION PAR LES MODELES HMM
À chaque unité phonétique du corpus est associé un prototype de modèle de Markov
caché. Ce prototype contient la topologie choisie pour cette unité, c'est à-dire le nombre
d'états du modèle, les probabilités initiales de transitions entre états et les paramètres de la
loi de probabilité associée à chaque état. Nous décrivons dans la suite la structure que
nous avons choisie pour notre HMM ainsi que les paramètres utilisés, tout en motivant les
choix effectués.
IV.5.2.1 TOPOLOGIE DU MODELE
Un choix important est celui de l’architecture des HMM qui modélise les phonèmes.
Cette architecture doit tenir compte de la topologie du modèle et du nombre d’états par
modèle. La topologie adoptée pour notre modèle HMM est de type Bakis, c'est-à-dire
chaque phonème est modélisé par un HMM à 5 états de type gauche-droit avec un pas de
transition égale à 2 (cf. figure IV.2). Ce HMM a donc 2 états non-émetteurs (l’état
d’entrée et l’état de sortie) et 3 états émetteurs, qui modélisent la création, la progression,
et la disparition du phonème.
a22
a33
a23
a12
a44
a34
a45
a13
Etat
1
2
3
Etat émetteur
4
5
Etat non-émetteur
FIG. IV.2 : HMM à 5 états de type Bakis
66
La topologie gauche-droite est particulièrement adaptée à la modélisation de signaux
qui évoluent dans le temps ainsi, elle est fixée de façon relativement arbitraire par
analogie avec la topologie standard utilisée en reconnaissance de la parole acoustique.
Rappelons que le choix de cette dernière est essentiellement lié à la nécessité de prendre
en compte les effets de la coarticulation. Il semble raisonnable de considérer que ces
effets sont également présents dans les observations articulatoires mises en jeu ici.
IV.5.2.2 INITIALISATION DU MODELE
La détermination des paramètres initiales d'un HMM se fait à travers les données
, A, et B, à savoir :
 Le vecteur de probabilité de l'état initial est donnée par :  = [1, 0, …, 0].
Ce qui revient à commencer le processus d'émission toujours à partir de l'état 1.
Ce vecteur n'est pas réestimé par la suite.
 La matrice de probabilités de transition entre les états A a été initialisée
aléatoirement, tel que A est une matrice stochastique vérifié la condition suivante:
aij  0 si
i  j ou j  i      2; HMM de type bakis 
 La loi de probabilité d'émission des observations dans chaque état est définit
comme suite :
o Si on considère un modèle HMM discret, les observations appartiennent à un
ensemble fini de symboles, la loi d'émission d'observations est une matrice de
probabilité. Dans ce cas, la matrice d'observation B est initialisée par
l’algorithme LBG.
o Si on considère un modèle HMM continu, les observations appartiennent à un
espace continu, et la loi d'émission d'observations, utilisé pour modéliser la
fonction de densité de probabilité dans chaque état, est une loi de mélange de
gaussiennes.
Le modèle initial une fois fixé, nous utilisons l’algorithme Baum-Welch pour ajuster
tous les paramètres du modèle.
67
IV.5.2.3 EXPERIENCES
Les expériences de classification par le modèle HMM ont été menées sur la base de
données TIMIT de 18 phonèmes. Le tableau IV.8 récapitule l’ensemble des expériences
présentées par le modèle HMM.
NUMERO
DETAIL DE L’EXPERIENCE
D’EXPERIENCE
1
Application du modèle DHMM, avec normalisation des données, sur
les vecteurs de paramètres MFCC.
2
Application du modèle DHMM, sans normalisation des données, sur
les vecteurs de paramètres MFCC.
3
Application du modèle CHMM, avec normalisation des données, sur
les vecteurs de paramètres MFCC.
4
Application du modèle CHMM, sans normalisation des données, sur
les vecteurs de paramètres MFCC.
5
6
Application des modèles DHMM et CHMM, sans normalisation des
données, sur l’ensemble de paramètres (MFCC + MFCC).
Application des modèles DHMM et CHMM, sans normalisation, sur
l’ensemble de paramètres MFCC+MFCC+MFCC
TABLEAU IV.8 : Les modèles HMM Implémentés
IV.5.2.4 RESULTATS
Selon le type de densité de probabilité d’observations, discrète ou continue, il est
possible de construire deux types de modèles HMM : soit un HMM discret soit un MMC
continu. Nous commençons d'abord par le modèle discret DHMM puis le modèle continu
CHMM.
68
1) RESULTATS DES EXPERIENCES N°1 & N°2 : Modèle DHMM
Les caractéristiques extraites du phonème, sont considérées comme des observations
au sens des HMM. Ainsi, la séquence de vecteurs de caractéristiques continues, décrivant
le phonème, est en général continue puisqu’elle provienne de phénomènes physiques
continus ce qui nécessite l’utilisation d'une quantification vectorielle pour la discrétisation
des observations, c’est-à-dire, faire correspondre chaque vecteur continu (représentant
une trame) à un indice discret d’un dictionnaire de référence (CodeBook). La
quantification vectorielle utilisée pour la discrétisation des observations est de type LBG
(Linde-Buzo-Gray), cet algorithme est présenté dans l’annexe A.3.
Dans la première et la deuxième expérience, les HMM utilisés pour la modélisation
des 18 phonèmes de la base de données TIMIT sont de nature discrète, i.e., leurs densités
de probabilités d’observations sont discrètes.
La particularité que nous avons prise dans l’expérience N°1 est la nature des données
dans le corpus utilisé, auquel nous avons effectué un rééchantillonnage linéaire dans le
temps pour créer un corpus de données normalisées.
Les résultats des expériences N°1 (application du modèle DHMM en utilisant des
données normalisées) et N°2 (application du modèle DHMM en utilisant des données
non-normalisées) obtenus sont résumés dans le tableau IV.9.
69
MODELE
DHMM
DHMM
Avec normalisation
Sans normalisation
/ah/
49.15
52.22
/aw/
75.46
86.11
/ax/
70.67
62.06
/ax-h/
16.84
12.63
/uh/
33.94
38.91
/uw/
58.82
54.12
/dh/
50.49
41.48
/f/
66.96
81.78
/sh/
77.39
91.46
/v/
53.18
57.14
/z/
72.51
79.97
/zh/
64.86
37.84
/b/
23.63
22.53
/d/
50.19
34.41
/g/
72.89
65.75
/p/
56.23
58.15
/q/
65.99
65.74
/t/
47.47
54.91
% TAUX GLOBAL
60.36
62.01
PHONEME
TABLEAU IV.9 : Taux de reconnaissance obtenus avec le modèle DHMM
en utilisant des données normalisées et non-normalisées
70
D’après les résultats présentés dans le tableau IV.9, nous pouvons constater des taux
de reconnaissance élevés (entre 72% et 91%) pour les phonèmes /aw/, /sh/ et /z/ et des
taux de reconnaissance bas (entre 12% et 23%) pour les phonèmes /ax-h/et /b/, et le
facteur principal de cette variation revient aux nombres d’occurrences de chaque
phonème dans le sous-corpus TIMIT donné dans le tableau IV.1.
Les matrices de confusion éclairent un peu plus sur les raisons du taux de
classification assez bas pour ces classes phonétiques.
De ce fait, la taille de la séquence d'observations influe sur le résultat final. Un
manque de données entraînera un modèle trop général qui ne reconnaîtra rien de précis, et
au contraire trop de données donneront un apprentissage très difficile pour un modèle trop
ciblé.
Le taux de reconnaissance des phonèmes obtenu avec le modèle HMM discret est de
l’ordre de 60.36% en utilisant des données rééchantillonnées et de l’ordre de 62.01% en
utilisant des données non-rééchantillonnées.
Donc, l’application du modèle HMM discret avec des données normalisées a donnée
des performances moins que celles obtenus avec des données non-normalisées, nous
constatons une chute de 1.65% (de 60.36% à 62.01%) du taux de reconnaissance avec la
normalisation des données.
2) RESULTATS DES EXPERIENCES N°3 & N°4 : Modèle CHMM
Jusqu’à présent, seuls les modèles de Markov cachés modélisant des séquences
d’observations discrètes ont été envisagés, ces observations prenaient des valeurs
appartenant à un alphabet fini et leurs probabilités étaient définies dans chaque état par un
ensemble fini de valeurs. Le problème est que les observations sont souvent des vecteurs
continus, l’utilisation de modèles à distributions discrètes implique donc une phase
préalable de quantification de ces vecteurs, avec les dégradations qui en résultent. Il est
dès lors intéressant d’inclure des densités d’observations continues dans les modèles de
Markov cachés.
Les observations en entrées du modèle, appartiennent à un espace continu, sont les
coefficients cepstraux et ses fonctions de densités de probabilités sont une somme
pondérée de densités gaussiennes multidimensionnelles. Le modèle de mélange de
gaussiennes permet de calculer les probabilités d'émissions d'une observation modélisant
des vecteurs caractéristiques.
71
Chaque phonème est modélisé par un HMM continu à 5 états (2 états non-émetteurs
et 3 états émetteurs), dans chaque état des mixtures de gaussiennes sont utilisées comme
fonction de densité de probabilité d'émission des observations (cf. figure IV.3).
a22
a23
a12
a44
a33
a45
a34
a24
Etat
1
2
3
4
5
Etat émetteur
Etat non-émetteur
FIG. IV.3 : HMM continu à 5 états de type Bakis
D’après Rabiner, il est plutôt conseillé de prendre plus de gaussiennes par état avec
des matrices de covariance diagonales que de prendre moins de gaussiennes avec des
matrices de covariance pleines. De plus, une matrice de covariance diagonale par
gaussienne simplifie énormément les calculs à la phase d'apprentissage ainsi qu'à la phase
de test d'un HMM.
Nous avons modélisé chaque état du modèle HMM par un GMM à 8 composantes
gaussiennes, la matrice de covariance de chaque composante est diagonale.
Les résultats obtenus par les expériences N°3 (application du modèle CHMM avec
normalisation des données) et N°4 (application du modèle CHMM sans normalisation des
données) sont résumés dans le tableau IV.10.
72
MODELE
CHMM
CHMM
Avec normalisation
Sans normalisation
/ah/
50.28
54.49
/aw/
64.35
74.07
/ax/
64.40
64.70
/ax-h/
17.89
17.89
/uh/
49.32
38.01
/uw/
61.18
71.76
/dh/
43.31
42.46
/f/
82.22
78.92
/sh/
82.41
86.06
/v/
57.00
62.80
/z/
78.24
69.91
/zh/
59.46
62.16
/b/
27.47
24.73
/d/
54.18
52.47
/g/
63.92
72.53
/p/
62.26
75.10
/q/
61.29
66.58
/t/
56.32
52.60
% TAUX GLOBAL
62.41
63.48
PHONEME
TABLEAU IV.10 : Taux de reconnaissance obtenus avec le modèle CHMM
en utilisant des données normalisées et non-normalisées
73
A travers les résultats présentés dans le tableau IV.10, nous remarquons qu’il existe
toujours des taux de reconnaissance élevés et d’autres très bas, et cela revient à
l’insuffisance des caractéristiques utilisées pour mieux décrire chaque trame.
Le taux de reconnaissance des phonèmes obtenu avec le modèle HMM continu est
de 62.41% en appliquant la normalisation des données et de 63.48% sans normalisation
des données.
L’application de la normalisation des données a diminué le taux de reconnaissance
de notre système, nous constatons une chute de 1.07% dans le taux de reconnaissance.
3) RESULTATS DES EXPERIENCES N°5 & N°6 : Espace de paramètres dynamiques
Pour capter certains comportements et évolutions du signal dans le temps, et afin de
prendre en compte la dynamique du signal, nous intégrons dans les vecteurs de
caractéristiques du signal les coefficients différentiels (ou coefficients delta) du premier et
du second ordre des coefficients MFCC. Un vecteur acoustique est donc représenté par 39
paramètres (13 MFCC + 13 MFCC + 13 MFCC).
Nous nous limitons dans ces expériences par les données non-normalisées, car le
rééchantillonnage à diminuer les taux de reconnaissance dans les deux modèles DHMM
et CHMM.
Les expériences N°5 et N°6 présentées dans le tableau IV.11 donnent les résultats
associés aux taux de reconnaissances des différents vecteurs de paramètres en utilisant
des données non-normalisées.
74
MODELE
DHMM
MFCC
PHONEME
CHMM
MFCC
MFCC
+
++
MFCC
MFCC
MFCC
+
++
/ah/
52.22
74.40
52.56
54.49
59.73
68.49
/aw/
86.11
71.76
83.33
74.07
70.83
75.46
/ax/
62.06
69.99
65.00
64.70
65.91
63.11
/ax-h/
12.63
17.89
27.37
17.89
13.68
11.58
/uh/
38.91
48.87
66.06
38.01
25.79
33.94
/uw/
54.12
62.35
70.00
71.76
42.35
58.82
/dh/
41.48
38.81
57.91
42.46
60.46
44.40
/f/
81.78
66.08
59.60
78.92
74.09
66.96
/sh/
91.46
80.78
89.07
86.06
84.55
81.16
/v/
57.14
58.13
64.07
62.80
50.78
67.33
/z/
79.97
72.03
78.16
69.91
69.68
83.90
/zh/
37.84
58.11
66.22
62.16
51.35
64.86
/b/
22.53
80.77
79.67
24.73
77.47
20.88
/d/
34.41
28.52
44.49
52.47
27.19
50.19
/g/
65.75
60.62
77.47
72.53
80.59
72.89
/p/
58.15
55.58
50.06
75.10
60.21
57.51
/q/
65.74
64.48
68.93
66.58
72.12
75.23
/t/
54.91
63.99
56.85
52.60
64.36
66.07
% TAUX
GLOBAL
62.01
62.96
64.66
63.48
64.19
65.79
TABLEAU IV.11 : Taux de reconnaissance obtenus avec les modèles DHMM et CHMM
dans différents espaces de paramètres
75
Les expériences décrites au tableau IV.11 montrent que les informations dynamiques
prises en compte dans les modèles HMM modélisant notre système sont pertinentes en
RAP puisque elles permettent d’obtenir un gain de 2.65% (de 62.01% à 64.66%) avec le
modèle DHMM et de 2.31% (de 63.48% à 65.79%) avec le modèle CHMM.
La première dérivée des coefficients MFCC n’a que sensiblement amélioré les
résultats, nous observons une amélioration de 0.95% obtenu avec le modèle DHMM et de
0.71% obtenu avec le modèle CHMM.
Les résultats obtenus avec une distribution à variation discrète (i.e. DHMM) sont
moins prometteurs que ceux obtenus avec une distribution à variation continue
(i.e. CHMM), et le facteur de dégradation de la performance revient à la quantification
vectorielle.
Nous avons pu atteindre avec le modèle CHMM un taux de reconnaissance de
63.48% dans un état brut et de 65.97% dans un espace de paramètres dynamique, nous
constatons un gain de 1.47% par rapport au modèle DHMM.
IV.5.2.5 DISCUSSION
Ces expériences ont montré que les HMM à temps continu sont plus efficaces que
les HMM à temps discret pour la classification phonétique. L’utilisation d’une
quantification vectorielle dégrade la performance de notre système de reconnaissance.
Le système à base de paramètres dynamiques (MFCC + MFCC + MFCC) offre
les meilleures performances; rappelons toutefois que ce système opère sur des vecteurs de
dimension 39 et qu'il s'avère donc plus complexe que le système proposé qui s'appuie sur
des vecteurs unitaires.
Ces 39 coefficients sont toujours traités en même temps, leur séparation n'ayant pas
fourni d'amélioration significative.
De manière générale la prise en compte de la première et deuxième dérivée des
coefficients cepstraux améliore toujours les résultats.
Les meilleures performances sont obtenues avec le modèle de Markov caché à
distribution continues dans espace de paramètres dynamiques, à savoir 65.79%.
La matrice de confusion, du meilleur taux obtenu avec le modèle de Markov caché,
est présentée dans l’annexe D.2.
76
IV.6 COMPARAISON ENTRE LES DIFFERENTS MODELES IMPLEMENTES
Après les résultats que nous venons de mentionner, nous aurons tendance à dire que
les modèles de Markov cachés sont meilleures que les modèles de mélanges de
gaussiennes
Nous remarquons que le modèle HMM donne des bons résultats que celle de GMM,
bien que les résultats s’améliorent encore mieux dans l’ajout de l’information temporelle.
Par l’observation des taux globales des différentes expériences, nous avons remarqué
que le taux de reconnaissance de chacun des modèles se varie entre 58.84% et 65.79%.
Le gain le plus important en taux de reconnaissance est de l’ordre de 65.79%.obtenu
avec le modèle HMM continu dans l’espace de paramètres MFCC+MFCC+MFCC.
La suprématie du modèle de Markov caché peut être attribuée aux propriétés statistiques
de cette méthode et à l’adéquation des données utilisées pour estimer ses paramètres.
Cependant, nous croyons fortement que les modèles de Markov cachées sont le
meilleur choix lorsque les données sont des séquences d’observation dans le temps, ce qui
est le cas ici. Les modèles de mélanges de gaussiennes sont faits pour des tâches où les
données sont indépendantes et identiquement distribuées, ce qui correspond à un
ensemble de données où chaque exemple est représenté par un vecteur d'attributs. Les
HMM sont faits pour apprendre la dépendance entre les données ainsi que la probabilité
d’une observation étant données les observations précédentes, ce qui correspond à un
ensemble d’exemples où chaque signal est une séquence d’observation avec un vecteur
d'attributs pour chaque observation. Nous croyons donc que les HMM sont mieux adaptés
que les GMM pour la reconnaissance automatique de la parole.
Les résultats obtenus avec les modèles implémentés dans les différents espaces de
paramètres sont présentés par le graphique illustré ci‐dessous.
77
68
66
64
GMM
GMM
62
TD-GMM
TD-GMM
TS-GMM
TS-GMM
60
DHMM
DHMM
58
CHMM
CHMM
56
54
MFCC
MFCC+
D
MFCC+
MFCC
+D+DD
MFCC++
FIG. IV.4 : Histogramme des taux de reconnaissance obtenus
avec les différents modèles implémentés
IV.7 CONCLUSION
Dans ce projet, nous avons approché le monde de la reconnaissance de parole avec
une tâche de classification de 18 phonèmes de la base de données TIMIT. Cette
expérience nous fait réaliser la complexité de ce genre de tâche, il est impressionnant de
penser qu’il existe des programmes capables de comprendre plus d’une centaine de mots
à la minute avec un très petit pourcentage d’erreur. Les deux méthodes présentées,
Modèle de Mélange de Gaussiennes et de Markov Caché, ont prouvé qu’elles sont des
choix adéquats pour réussir à capter les informations importantes permettant une bonne
généralisation. L’originalité de notre étude réside dans le fait que nous avons introduit des
dérivées d’ordre 1 et 2 dans les vecteurs acoustiques. Nous sommes rendu compte qu’à
chaque fois que nous ajoutons une dérivée, le taux de reconnaissance augmente. Avec la
deuxième dérivées, nous avons obtenu, sur la base de données TIMIT notre meilleur taux
de reconnaissance, à savoir 65.79%.
78
Dans le cadre de ce travail, nous avons tenté de développer des méthodes stochastiques
qui sont très utilisées dans le domaine de la reconnaissance de la parole.
Le but principal a été de développer et d’appliquer les méthodes à base des Modèles de
Mélanges de gaussiennes (GMM) et les Modèles de Markov Cachés (HMM) sur la base de
données TIMIT pour une tâche de classification phonétique.
Dans un premier temps nous avons testé l’efficacité des méthodes GMM et HMM dans
la classification des 18 phonèmes de la base de données TIMIT dans espace de paramètres
brut en utilisant 13 coefficients MFCC.
Pour capter certains comportements et évolutions du signal dans le temps, et afin de
prendre en compte la dynamique du signal, il nous a semblé nécessaire d’implémenter nos
modèles sur un espace de paramètres dynamiques augmenté de la premières et la deuxième
dérivée des coefficients cepstraux.
Les implémentations réalisées au court de notre étude ont montré que l’ajout de
l’information temporelle conduit vers une amélioration des résultats.
Malgré que les résultats obtenus au cours de notre étude ne sont pas toujours à la hauteur
de nos espérances. Nous sommes convaincus que les modèles HMM peuvent apporter un
plus pour la classification phonétique.
A la fin de ce modeste travail et comme perspectives :

L’utilisation des modèles hybrides avec les modèles HMM tel que les réseaux de
neurones ou les algorithmes génétiques.

L’utilisation des Champs de Markov Aléatoire (CMA) comme outil probabiliste
décrivant l’aspect discriminant pour une tâche de classification.
79
[Baker, 1975] J. K. Baker, Stochastic modeling for automatic speech understanding,
Speech Recognition, Academic Press, pp. 521-542, 1975.
[Bakis, 1976] R. Bakis, Continuous speech recognition via centisecond acoustic states,
91th. Meeting of the ASA, Washington DC, 1976.
[Barreaud, 2004] V. Barreaud, Reconnaissance automatique de la parole continue :
compensation des bruits par transformation de la parole, Thèse de doctorat,
Université Henri Poincaré -Nancy 1, 2004.
[Baum, 1972] L. Baum, An inequality and associated maximization technique in
statistical estimation of probabilistic functions of Markov processes, Inequalities,
vol. 3, pp. 1-8, 1972.
[Boite et al., 2000] R. Boite, H. Bourlard, T. Dutoit, J. Hang, et H. Leich, Traitement de
la parole, ISBN 2-88074-388-5. Presses polytechniques et Universitaires Romandes,
Lausanne, Suise. 2000.
[Bourlard et Morgan, 1994] H. Bourlard et N. Morgan, Connectionist Speech
Recognition: A hybrid Approch, Kluwer Academic Publisher,1994.
[Bourlard et Morgan, 1995] H. Bourlard et N. Morgan, Continuous Speech Recognition,
IEEE Signal Processing Magazine, vol. 12, no. 3, pp. 24-42, 1995.
[Bourlard et Wellekens, 1990] H. Bourlard, et C. J. Wellekens, Links between Markov
models and multilayer perceptrons, IEEE Transactions on Pattern Analysis and
Machine Intelligence, vol. 12, pp. 1167-1178, 1990.
[Calliope, 1989] Calliope, La parole et son traitement automatique. Masson, Paris,
Milan, Barcelone. 1989.
[Cappé, 2001] O. Cappé, Ten years of HMMs, 2001.
http://www.tsi.enst.fr/~cappe/docs/hmmbib.html
[Cerf-Danon et al., 1991] H. Cerf-Danon, S. DeGennaro, M. Ferretti, J. Gonzalez, et
E. Keppel, TANGORA – A Large Vocabulary Speech Recognition System For Five
Languages, Eurospeech, Genova, vol. 1, pp. 183-192, 24-26, 1991.
80
[Davis et Mermelstein, 1980] S. B. Davis et P. Mermelstein, Comparison of parametric
representations for monosyllabic word recognition in continuously spoken sentences,
IEEE Transactions on Acoustics, Speech and Signal Processing, vol. 28, no. 4,
pp. 357-366, 1980.
[Dempster et al, 1977] A. P. Dempster, N. M. Laird et D. B. Rubin, Maximum likelihood
from incomplete data via the EM algorithm, Journal of the Royal Statistical Society,
B 391-38, 1977.
[Duda et al., 2001] R.O. Duda, P.E. Hart et D.G. Stork, Pattern Classification, Second
edition. New York : Wiley-Interscience, 2001.
[Dufaux, 2001] A. Dufaux, Detection and recognition of impulsive sound signals, PhD
thesis, Faculté des Sciences de l’Université de Neuchâlet, Suise, 2001.
[Forney, 1973] G. D. Forney, The Viterbi algorithm, Proceedings of the IEEE, vol. 61,
no. 3, pp.268-278, 1973.
[Fredouille et al., 1999] C. Fredouille, J. F. Bonastre, et T. Merlin, Similarity
Normalization Method Based on World Model and a Posteriori Probability for
Speaker Verification, European Conference on Speech Communication and
Technology (Eurospeech), vol. 2, Budapest (Hungary), pp. 983-986. 40, 1999.
[Fredouille, 2000] C. Fredouille, Reconnaissance du locuteur et approche statistique :
Information dynamiques et normalisation bayésienne des vraisemblances, Thèse de
doctorat, Université d'Avignon, 2000.
[Furui, 1981] S. Furui, Cepstral analysis technique for automatic speaker verification,
IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 29, pp. 254–272,
1981.
[Furui, 1986] S.Furui, Speaker-independent isolated word recognition using dynamic
features of speech spectrum , IEEE Transactions on Acoustics, Speech, and Signal
Processing, vol. 34, pp 52-59, 1986
[Gauvain et Lee, 1994] J. L. Gauvain et C. H. Lee, Maximum a posteriori estimation for
multivariate Gaussian mixture observations of Markov chains, IEEE Transactions on
Speech and Audio Precessing, vol. 2, no. 2, pp. 291-298, 1994.
[Greenspan, 2004] H.Greenspan, Probabilistic Space-Time Video Modeling via Piecewise
GMM, IEEE Transaction on pattern Analysis and Machine Intelligence, 2004.
81
[Haton et al., 1991] J.P. Haton, J.M. Pierrel, G. Perennou et J. L. Gauvain,
Reconnaissance automatique de la parole, edition Dunod, 1991.
[Huang et Jack, 1988] X. D. Huang et M. A. Jack, Semi-continuous hidden Markov
models in isolated word recognition, Proceedings of International Conference on
Pattern Recognition, pp. 406-408, 1988.
[Igounet, 1998] S. Igounet, Eléments pour un système de reconnaissance automatique de
la parole continue du français. Thèse de doctorat, Université d'Avignon et des Pays de
Vaucluse, Marseille, 1998.
[Istrate, 2003] D. Istrate, Détection et reconnaissance des sons pour la surveillance
médicale, Thèse de doctorat, Institut National polytechnique de GRENOBLE, 2003.
[Istrate et al. 2005] D. Istrate, M. Vacher et J. F. Serignat, Détection et classification des
sons : application aux sons de la vie courante et à la parole, in Actes du 20ème
Colloque GRETSI : Traitement du Signal et des Images (GRETSI '05), vol. 1,
pp. 485-488, Louvain-la-Neuve, Belgique, 2005.
[Jain et al., 2000] A. K. Jain, R. P. W. Diun et J. Moa, Statistical pattern recognition : A
review. IEEE Transactions. PAMI, vol. 22, N° 1, pp. 4-37, 2000.
[Jelinek, 1976] F. Jelinek, Continuous Speech Recognition by Statistical Methods, IEEE
IEEE Transactions on Speech and Audio Precessing, vol. 64, no. 4, pp. 532-556, 1976.
[Jouvet, 1988] D. Jouvet, Reconnaissance de mots connectés indépendamment du
locuteur par des méthodes statistique, Thèse de doctorat, Ecole Nationale Supérieure
des Télécomm‐unications, Paris, 1988.
[Jouvet et al., 1994] D. Jouvet, M. Dautremont et A. Gossart, Comparaison des
multimodèles et des densités multigaussiennes pour la reconnaissance de la parole
par modèle de Markov , XXèmes Journées d'Étude sur la Parole, Trégastel, pp. 159-164,
1994.
[Kambhatla, 1996] N. Kambhatla, Local Models and Gaussian Mixture Models for
Statistical Data Processing, PhD thesis in Computer science and Engineering, OGI,
USA, 1996.
[Klatt, 1986] K. H. Klatt, The problem of variability in speech recognition and models of
speech perception, Invariance and variability in speech processes, eds. J.S. Perkell et
D.H. Klatt, pp. 300-321. New Jersey: Lawrence Erlbaum, 1986.
82
[Lee et al, 1990] K. F. Lee, H. W. Hon et R. Reddy, An Overview of the SPHINX Speech
Recognition System, IEEE Transactions on Acoustics, Speech and Signal Processing,
vol. 38, no. 1, pp. 35-45, 1990.
[Levinson, 1986] S.E. Levinson, Continuously Variable Duration Hidden Markov Models
for Automatic Speech Recognition, Computer, Speech & Language, vol. 1, no. 1, pp.
29-45, 1986.
[MacQueen, 1967] J. MacQueen, Some methods for classification and analysis of
multivariate observations, Proceedings of 5th Berkeley Symposium on Mathematics,
Statistics and Probability, vol. 1, pp. 281- 298, 1967.
[Mariani, 2002] J. Mariani, Reconnaissance de la Parole : traitement automatique du
langage parlé, Traité IC2, Hermès Science, Paris, 2002.
[Markov, 1913] A. A. Markov, An example of statistical investigation in the text of
“Eugene onyegin” illustrating coupling of “tests” in chains, Proceeding of Academic
Scientific St. Petersburg, vol. 7, pp. 153-162, 1993.
[Mérialdo, 1988] B. Mérialdo, Phonetic recognition using Hidden Markov Models and
Maximum Mutual Information Training, ICASSP, Ney-York, vol. S1, pp. 111-114,
1988.
[Michaud, 2005] I. Michaud, Application de l'algorithme EM au modèle des risques
concurrents avec causes de panne masquées. Mémoire pour l'obtention du grade de
maître de sciences, Faculté des Sciences et de Génie Université Laval Québec, 2005.
[Pellegrino, 1998] F. Pellegrino, Une approche phonétique en identification automatique
des langues : la modélisation acoustique des systèmes vocaliques, Thèse de doctorat,
Université Paul Sabatier de Toulouse, 1998.
[Rabiner, 1989] L. R. Rabiner, A Tutorial on Hidden Markov Models and Select
Application in Speech Recognition, Proceedings of the IEEE, vol. 77, no. 2,
pp. 257-286, 1989.
[Rabiner et Juang, 1993] L. R. Rabiner et B. H. Juang, Fundamentals of Speech
Recognition, Englewood Cliffs, New Jersey, Prentice Hall, 1993.
83
[Rabiner et Levinson, 1985] L. R. Rabiner et S. E. Levinson, A speaker-independent,
syntax-directed, connected word recognition system based on Hidden Markov Models
and level building, IEEE Transactions on Acoustics, Speech and Signal Processing,
vol. ASSP-33, N°3, pp. 561-573, 1985.
[Reynolds, 1992] D. A. Reynolds, A gaussian mixture modelling approach to text
independent speaker identification . Thesis of Georgia Institute to Technology, 1992.
[Reynolds, 1994] D. A. Reynolds, Speaker identification and verification using Gaussian
mixture speaker models, Workshop on Automatic Speaker Recognition, Identification
and Verification, Martigny, Suise, pp. 27-30, 1994.
[Reynolds, 1995] D. A. Reynolds, Speaker identification and verification using Gaussian
mixture speaker models, Speech Communication, vol. 17, pp. 91-108, 1995.
[Reynolds, 1997] D. A. Reynolds, Comparison of background normalization methods
for text independent speaker verification, Proceedings of European Conference on
Speech Communication and Technology, vol.2, pp. 963-966, 1997.
[Scharf, 1991] L. L. Scharf, Statistical Signal Processing : Detection, Estimation and
Time Series Analysis, Addison-Wesley Publishing Company, 1991.
[Soong et Rosenberg, 1988] F. K. P. Soong et A. E. Rosenberg, On the use of
instantaneous and transitional spectral information in speaker recognition, IEEE
Transactions on Acoustics, Speech and Signal Processing vol. 36, no. 6, pp. 871-879,
1988.
[Viterbi, 1967] A. J. Viterbi, Error Bounds for Convolutional Codes and an
Asymptotically Optimum Decoding Algorithm, IEEE Transactions on Information
Theory, vol. 3, no. 2, pp. 260-267, 1967.
[Woodland et al., 1995] P. C. Woodland, C. J. Leggetter, J. J. Odell, V. Valtchev et
S.
J. Young, The 1994 HTK Large Vocabulary Speech Recognition System, Proc.
ICASSP, Detroit, pp. 73-76, 1995.
[Young et Woodland, 1994] S. J. Young et P. C. Woodland, State clustering in hidden
Markov model-based continuous speech recognition, Computer Speech and Language,
vol. 8, pp. 369-384, 1994.
84
A.1 INTRODUCTION
La Quantification Vectorielle (QV) qui est l’une des nombreuses techniques utilisées
en reconnaissance automatique de la parole, a été introduite pour crée des références
statistiquement plus représentatives et en même temps économiques au stockage. L’idée
essentielle de cette technique résulte du fait que dans l’espace de représentation de la
parole, les vecteurs n’occupent que des sous-espaces sous forme de nuages. Ces derniers
peuvent être représentés par leurs représentants (prototypes) sans trop de perte
d’information.
La quantification vectorielle consiste à extraire un « dictionnaire » de vecteurs
représentatifs (ensembles des centroïdes) d’un ensemble de vecteurs caractéristiques. Le
dictionnaire doit respecter le mieux possible leur répartition dans l’espace. Une telle
représentation permet d’exploiter la corrélation existante entre les composantes d’un
vecteur et ainsi, de diminuer sa dimension.
A.2 L’ALGORITHME DES K-MOYENNES
L’algorithme des k-moyennes ou k-means (encore appelée méthode des centres
mobiles) [MacQueen, 1967] est une méthode de classification non-supervisée.
C’est un algorithme classique de quantification vectorielle permettant d'identifier les
clusters d'individus similaires en se basant sur une mesure de similarité pour grouper les
données. Un cluster dans l’algorithme des k-means est un sous-ensemble de l'espace des
données identifié par son centre de gravité.
Son principe est le suivant : on dispose de points de l’espace des observations que
l’on souhaite rassembler en classes, sans que l’on dispose de connaissance a priori de
propriétés particulières sur ces classes (on ne connaît pas les classes à priori : elles sont à
découvrir automatiquement), seul leur nombre k est fixé a priori.
Dans le cadre du clustering, on cherche généralement à partitionner un espace en
classes concentrées et isolées les unes des autres. Dans cette optique, elle construit
k partitions et les corrige jusqu'à obtention d’une similarité satisfaisant. L'algorithme des
k-moyennes vise à maximiser la similarité intra-classes et minimiser la similarité
inter-classes.
85
A.2.1 PRESENTATION DE L’ALGORITHME DES K-MOYENNES
ALGORITHME : K-MOYENNES
1.
Choix d'une métrique pour le calcul des distances (euclidienne, hamming…).
2.
Définition d'un nombre k de classes sur un ensemble des éléments.
3.
Initialisation aléatoire des 1,…, k : le centre de gravité (centroïde) de chacune
des k classes
4.
Affectation de chaque élément à la classe (cluster) le plus proche : dont le centre
lui est le plus proche suivant la métrique choisie. (en utilisant par exemple une
distance euclidienne).
5.
Recalcule le centre i de chaque cluster
6.
Répétition des étapes 4 et 5 jusqu'à convergence.
ALGORITHME A.1 : L’algorithme des k-moyennes
A.2.2 CHOIX DES CENTRES INITIAUX
L’algorithme des k‐moyennes est influencé par ses conditions initiales, il existe
plusieurs méthodes d’initialisation, nous pouvons citer :
 L’initialisation aléatoire : Le dictionnaire le plus simple est celui qui contient
les L premiers vecteurs de la suite d’apprentissage, où ces L vecteurs sont extraits
aléatoirement de cette suite. Ces vecteurs peuvent bien sûr ne pas être du tout des
représentants de la suite d’apprentissage, et dans ce cas, on aboutit à des résultats
très médiocres.
 L’algorithme à seuil : Au lieu de prendre L vecteurs aléatoirement, on fixe une
distance minimale entre les éléments du dictionnaire initial. Cette méthode
permet d’obtenir une meilleure représentativité que dans le cas précédent.
86
A.3 L’ALGORITHME DE LINDE-BUZO-GRAY
L’algorithme de k-means présente un problème de choix d’initialisation,
Linde-Buzo-Gray propose l’algorithme de « split » qui permet de résoudre le problème de
choix de nombre de vecteurs-références et de l’initialisation de vecteur.
Cet algorithme de quantification vectorielle de type LBG est une variante des
k-moyennes, son idée principale est de construire un Codebook pour toutes les périodes.
Premièrement, le Codebook ne contient qu’un noyau. Pendant chaque itération, chaque
noyau sera séparé en deux (séparation binaire) pour augmenter la taille du Codebook
A.3.1 PRESENTATION DE L’ALGORITHME DE LINDE-BUZO-GRAY
ALGORITHME : LINDE-BUZO-GRAY
1.
Initialisation : choisir le centroïde de l’ensemble d’apprentissage, noté
2.
Split ou éclatement : on double la taille du codebook par éclatement de chaque
centroïdes en suivant la règle :
:
Où  est un vecteur de norme faible, n varie de 1 à la taille du codebook.
On passe donc de 2N élément à 2N+1.
3.
Convergence : pour avoir le meilleur ensemble de centroïdes pour le nouveau
codebook, on applique l’algorithme de k-means.
4.
Arrêt : on incrémente n, et on répète à l’étape 2 et 3 jusqu'à ce que le codebook de
taille M fixée à l’avance soit calculé.
ALGORITHME A.2 : L’algorithme de Linde-Buzo-Gray
87
B.1 INTRODUCTION
La paramétrisation du signal de la parole est obtenue par une analyse cepstrale
classique en RAP aboutissant à un vecteur de coefficients MFCC (Mel Frequency
Cepstral Coefficient). Nous ne reviendrons pas sur ce processus bien connu que nous
appliquons de manière standard.
L’information dynamique contenue dans le signal de parole est utile à la
reconnaissance automatique de la parole. Il existe de nombreuses approches intégrant ces
aspects dynamiques mais l’approches la plus répandue consiste à ajouter l’information
dynamique à partir de coefficients déjà extraits.
B.2 DETERMINATION DES DERIVEES DES COEFFICIENTS (, )
Il est très important d’avoir une information temporelle concernant les coefficients
dérivés de l’analyse cepstral. Pour cela, on peut calculer les coefficients de vitesse et les
coefficients d’accélération qui correspondent respectivement aux première et deuxième
dérivées des coefficients acoustiques.
La méthode de calcul des dérivées temporelles premières et secondes des paramètres
acoustiques (cf. figure B.1), a été introduite par Furui [Furui, 1981] et présentée de façon
détaillée dans [Fredouille, 2000].
FIG. B.1 : Calcul de données dynamiques à partir des trames de la fenêtre temporelle
88
B.2.1 DERIVEE PREMIERE ()
Comme la fonction de variation des paramètres acoustiques est connue seulement en
des instants précis, le calcul de la dérivée première se fait par l’approximation
polynomiale suivante :
K
 k.c(t  k )
 c(t )
 c(t )  k  K
t
(B.1)
K
k
2
k  K
où c est le coefficient à dériver,  c sa dérivée première à l’instant t et où les
coefficients  sont calculés sur une fenêtre temporelle de longueur 2K+1 trames. Le
rapport entre la variable K et la longueur de la fenêtre glissante utilisée pour l’extraction
des paramètres a été l’objet de nombreuses études [Furui, 1981 ; Soong et Rosenberg,
1988].
B.2.2 DERIVEE SECONDE ()
La formule de calcul de la dérivée second est obtenue avec la même approximation,
que celui utilisé pour la dérivée première, à partir des coefficients .
On obtient finalement un vecteur de paramètres acoustiques de 39 composantes
(13MFCC + 13 + 13) toutes les 10 ms.
89
C.1 INTRODUCTION
Etant X un tableau de p variables numériques (en colonnes) décrivant n individus (en
lignes), nous proposons de rechercher une représentation de n individus e1, e2, . . . , en
dans un sous espace de l’espace initial. Autrement dit, nous cherchons à définir k
nouvelles variables, combinaison des p de l’espace initial, qui feraient perdre le ″moins
d’information possible″. Ces k variables seront appelées ″composantes principales″ et les
axes qu’elles déterminent ″axes principaux″.
C.2 DEFINITION
L'Analyse en Composantes Principales (ACP) est une méthode mathématique
d'analyse des données qui consiste à rechercher les directions de l'espace qui représentent
le mieux les corrélations entre n variables aléatoires.
L'analyse en composantes principales est une méthode d'ordination classique. A
partir d'un ensemble de n objets dans un espace de p descripteurs, son but est de trouver
une représentation dans un espace réduit de k dimensions (k << p) qui conserve
"le meilleur résumé" (au sens du maximum de la variance projetée). Lorsqu'on veut
compresser un ensemble de N variables aléatoires, les n premiers axes de l'ACP est un
meilleur choix, du point de vue de l'inertie expliquée.
La méthode a pour objet de décrire les données contenues dans un tableau
d'individus et de caractères. Ce tableau s'appelle matrice des données. Il se compose de :

Lignes d'individus : des personnes, des entreprises, des journaux, etc.

Colonnes de variables : quantitatives (âge, taille, nombre d'employés, etc.).
C.3 ETAPES D’UN ACP
Soit la matrice de données X : m objets (ou individus), p descripteurs (ou variables) :
X11
X21
X31
X12 X13
X1p
X2p
X3p
X33
Xij
Xm1
Xmp
90
1. Centrage et réduction des données :
Pour centrer le tableau ; on doit calculer les centres de gravité à partir de la formule
suivante :
n
gi 
PX
i 1
n
i
i
où
P
i 1
Pi 
1
n
(C.1)
i
avec Pi : le poids d’individus et n : le nombre d’individus
Donc les nouvelles données du nouveau tableau seront comme suit : X ij  X ij  g j
2. Calcul de la matrice VM :
 Si les données sont homogènes M =I (la matrice identité).
 Si les données sont hitérogenes :
D 1
fij

M 
 .




D 1 
fij 
.
et
V
1 t
X X
n
3. Calcul des valeurs propres et des vecteurs propres :
 Les valeurs propres λi : det(V  i I )  0
et

1
 trace (V )
 La qualité de représentation :

o
On classe les valeurs propres avec un ordre décroissant.
o
On calcule Q 
1
  2
jusqu’à ce qu’on obtiens Q  80%
puis Q  1
 1
 1
Les vecteurs propres Ui : on prend seulement les valeurs qui donnent une
quantité  80% puis on calcule leur vecteurs propres avec la formule :
VUi  iUi
(C.2)
4. Calcul des composantes principales Ck:
On obtient les nouvelles coordonnées des individus : Ck  XMU k
91
D.1 MODELE DE MELANGE DE GAUSSIENNES : Application du modèle TS-GMM dans un espace de paramètres dynamiques
Taux global : 64.90
Dimension de l’ACP : 23
Nombre des itérations des k-means : 50
Nombre des itérations de EM : 50
Nombre de composantes : Q = [12 5 16 2 4 4 12 12 12 8 16 1 2 8 8 12 16 16]
ah
aw
ax
ax-h
uh
uw
dh
f
sh
v
z
zh
b
d
g
p
q
t
ah
aw
ax
ax-h
uh
uw
dh
f
sh
v
z
zh
b
d
g
p
q
t
647
9
30
0
30
3
0
0
0
0
0
0
0
0
0
0
17
0
9
182
35
0
4
1
0
0
0
0
0
0
0
0
1
0
18
0
15
5
963
9
54
20
75
0
0
69
2
0
3
5
7
2
32
0
93
2
36
25
43
16
29
15
2
21
20
0
4
20
13
14
33
50
69
5
53
0
50
15
2
1
0
7
0
1
0
1
1
0
8
0
22
3
61
0
25
98
0
0
0
11
1
0
0
0
0
0
17
0
1
0
12
6
0
1
448
0
0
61
19
0
5
7
5
12
29
13
4
0
4
1
0
0
30
685
1
41
16
0
4
7
8
44
5
25
0
0
0
0
0
0
0
8
570
0
53
13
0
4
0
5
1
37
1
0
14
2
4
4
31
56
1
380
4
0
0
0
2
6
5
2
0
0
2
4
0
0
14
4
27
2
947
7
0
2
0
1
1
32
1
1
7
14
0
2
25
4
152
25
152
48
5
27
32
51
39
56
1
0
48
13
0
2
87
48
0
58
3
0
140
186
101
58
70
100
0
0
1
3
0
0
25
8
6
1
16
3
4
162
28
28
18
98
1
0
12
7
0
1
33
3
0
10
2
0
9
71
326
37
50
65
0
0
3
0
0
0
9
47
4
3
3
0
5
10
6
499
9
36
15
9
42
8
11
7
9
3
0
14
0
0
3
4
13
3
832
8
0
0
0
3
0
0
5
29
33
4
35
2
0
20
3
19
7
822
92
D.2 MODELE DE MARKOV CACHE : Application du modèle CHMM dans un espace de paramètres dynamiques
Taux global : 65.79
Nombre des itérations des k-means : 5
Nombre des itérations de EM : 10
Nombre de composantes par état : 8
ah
aw
ax
ax-h
uh
uw
dh
f
sh
v
z
zh
b
d
g
p
q
t
ah
aw
ax
ax-h
uh
uw
dh
f
sh
v
z
zh
b
d
g
p
q
t
602
26
152
0
42
4
0
0
0
1
0
0
0
0
0
0
14
0
27
163
40
0
4
2
0
0
0
0
0
0
0
0
1
0
31
0
155
11
835
15
59
25
90
1
0
4
1
0
12
7
19
4
2
0
3
0
18
11
1
4
27
6
1
18
20
0
1
7
8
23
20
29
55
2
79
0
75
19
2
0
0
8
0
1
0
0
1
0
17
0
12
1
58
0
20
100
1
0
0
9
0
0
0
0
0
0
20
1
2
0
20
6
1
1
365
73
0
73
16
0
11
17
7
35
36
26
1
0
0
4
0
0
45
610
2
43
19
0
4
9
15
43
5
43
0
0
0
0
0
0
0
12
646
0
16
17
0
6
0
4
0
51
1
0
17
3
3
4
30
55
0
476
5
0
0
3
4
14
10
3
0
0
1
3
0
0
15
4
20
3
1068
5
0
3
0
0
0
34
0
0
1
2
0
0
5
7
80
7
55
48
1
8
3
6
3
18
0
0
7
10
1
1
55
6
0
14
0
0
38
25
11
43
19
26
0
0
1
9
0
0
77
14
6
8
21
1
33
264
48
50
31
48
3
0
14
15
0
0
82
10
0
23
4
0
70
129
398
70
70
107
0
0
6
3
0
0
7
80
6
3
0
1
9
11
10
448
11
60
16
13
74
10
15
10
15
4
0
15
0
0
3
4
16
8
896
10
2
0
0
4
0
0
6
29
35
2
48
1
0
33
5
31
6
888
93
RESUME
Les recherches en ingénierie d’informatique et de la communication ont pour
objectifs de faciliter la coopération homme-machine au travers des systèmes
interactifs conversationnels robustes pour le grand public. Ces objectifs nécessitent
de comprendre le fonctionnement et de tester l’efficacité d’un certain nombre
d’algorithmes de classifications actuellement utilisés.
Les méthodes stochastiques basées sur les Modèles de Mélanges de Gaussiennes
(GMM) et les Modèles de Markov Cachés (HMM) ont été pleinement exploités pour
des systèmes de reconnaissance du langage parlé, mais aussi dans bien d’autres
applications dans lesquelles apparaît une séquentialité.
Le travail de ce magister s’inscrit dans la perspective d'implémenter un système
interactif ayant pour but de classifier les phonèmes. Ce système exploite les
propriétés de la modélisation liées aux GMM ainsi qu’aux HMM pour une tâche de
classification au quel est intégré des composantes présentant mieux l’information
temporelle dans le signal de la parole.
Mots-clés : Modèle de Mélange de Gaussiennes (GMM), Modèle de Markov Caché
(HMM).
ABSTRACT
Search in engineering of data processing and the communication have for
objectives to facilitate the man-machine cooperation through robust conversational
interactive systems for general public. These objectives require to understand the
operation and to test the effectiveness of a certain number of classifications algorithms
currently used.
The stochastic methods based on the Gaussian Mixture Models (GMM) and
Hidden Markov Models (HMM) were fully exploited for systems of recognition of the
spoken language, but also in good of other applications in which a sequentiality
appears.
The work of this magister falls under the prospect to implement an interactive
system having for goal to classify the phonemes. This system exploits the properties of
modeling related to GMM as well to HMM for a task of classification into which is
integrated components presenting better temporal information in the speech signal.
Key-words: Gaussian Mixture Model (GMM), Hidden Markov Model (HMM).
Téléchargement