

1. Introduction générale
2. Ingénierie des langues
2.1 Représentation et codage des textes
2.2 Théorie de l’information et probabilités
2.3 Quelques applications du traitement automatique du langage naturel
2.3.1 Dictionnaires et étiquetage de surface
2.3.2 Re-ponctuation et recapitalisation de textes
2.3.3 Traduction automatique statistique
3. Ingénierie de la parole
3.1 Rappels de traitement numérique du signal
3.2 Le signal de parole : analyse, unités pertinentes et variabilité
3.3 Codage et compression de la parole
3.4 Reconnaissance automatique de la parole
3.5 Synthèse de la parole

x : suite de vecteurs acoustiques
wi: mot ou phonème



==
 


x : suite de vecteurs acoustiques
wi: mot ou phonème



==
 

!
Petits lexiques :
Représentation globale : un modèle dédié à
chaque mot du vocabulaire
Grands lexiques :
Les mots sont représentés par une suite
d’unités élémentaires (phonèmes)
"
!#$
Inconvénients
Petits vocabulaires
Difficilement modifiable
Base de données importante et spécifique pour
l’apprentissage.
Pour l’apprentissage des modèles, il faut disposer
d’une base de données contenant plusieurs
prononciations de chaque mot à reconnaître
En général, associé à des systèmes simples ou à
des applications type « word spotting »
!
 
%
Couper les mots en morceaux :
préfixes, racines, …..
Décomposer les mots en syllabes
nombre important
Décomposer les mots en phonèmes
une trentaine pour le français
Attention à la coarticulation
Représenter un mot par une suite de phonèmes en
contexte
!& 

Phonétisation du lexique
plusieurs phonétisations pour un même mot
Un mot devient une suite de modèles acoustiques
un par phonème : modélisation hors contexte
plusieurs par phonème : modélisation contextuelle
contexte droit ou gauche
contexte droit et gauche
'
!& 
 
Apprentissage des modèles (phonèmes)
indépendamment des mots à reconnaître
Ajouter un mot :
le phonétiser
mettre la liste des phonèmes dans le
lexique
Nombre important de noeuds
!($
&
Construire à partir des listes de phonèmes
un arbre a tête commune de tous les mots
:
Exemple :
lexique
A = a b c
B = a b d
C = a e

Pas de frontières entre les mots

Soit une production vocale :
on ne connaît pas le nombre de mots
prononcés par le locuteur
on ne sait pas où chaque mot commence et
finit
)
 
*$ %
+

x : suite de vecteurs acoustiques
wi: mot ou phonème



==
 


But : associer une probabilité à toute suite de
mots et participer aux choix des candidats
pour la suite de la phrase à reconnaître
Deux approches possibles :
l ’une issue de la théorie de l ’information
l ’autre faisant appel à des connaissances linguistiques
et grammaticales


,%  % -
Une distribution de probabilités
associée à une séquence de mots
P(“And nothing but the truth”)
0.001
P(“And nuts sing on the roof”)
0
!& 
P(X) signifie “probabilité que X soit vrai”
P(baby is a boy) 0.5 (% of total that are boys)
P(baby is named John) 0.001 (% of total
named John)
.$
.$/$/
0&
1 / 11 100%