P ( F c | )

publicité
Acquisition automatique de
«morphèmes acoustiques» pour
la compréhension langagière
en collaboration avec
Allen Gorin
Giuseppe Riccardi
Jerry Wright
Introduction
 Notre objectif => dialoguer en langage spontané avec des machines
 Méthodes actuelles =>
besoin des corpus de parole annotés manuellement
 Inconvénients => nouvelle application, collecte et annotation de
nouvelles bases de données
 Objectif => développer des méthodes d’apprentissage automatique
du vocabulaire, de la grammaire et de la sémantique à partir de
corpus de parole sans transcriptions
 Tâche difficile => commencer avec un reconnaisseur phonétique
(dépendant de la langue)
 Evaluation => l’utilité de unités apprises automatiquement, évaluée
lors de la classification d’appels téléphoniques dans la tâche « How
May I Help You ?», développée à AT&T
2
Plan
 1 Etat de l’art
 2 Base de données
 3 Acquisition automatique de
« morphèmes acoustiques » et
leur caractérisation
 4 Détection de ces morphèmes
 5 Evaluation expérimentale =>
classification de requêtes téléphoniques
 6 Conclusions et perspectives
3
1 Etat de l’art
 Olivier (1968 ) : acquisition automatique de mots et de la grammaire
à partir du texte sans les délimiteurs de mots
 Gorin, Levinson et Sankar (1994) : acquisition des unités lexicales à
partir d’un flux de mots isolés
 Deligne et Bimbot - 1997;
Llyod-Thomas, Parris, Wright -1998 et
Chollet, Cernocky, Constantinescu, Deligne, Bimbot -1999
acquisition automatique de séquences d’unités de longueur variable
dans de la parole continue
 Notre but :
exploiter la parole et sa signification pour
la compréhension du langage en minimisant l’utilisation des
transcriptions
4
Base de données utilisée
Corpus « How may I help you ?» HMIHY
 transactions téléphoniques classées par type d’appel
(appel <=> action): 7462 apprentissage et 1000 test
Reconnaisseur phonétique indépendant de la tâche :
 Modèle de langage phono-tactique de Switchboard 1
(Automate Stochastique de multigrammes, max 6)
 Résultats sur HMIHY : 44% de phones reconnus correctement
dans le meilleur chemin, et 68% dans le treillis phonétique
ASR-phone-train et ASR-phone-test
5
2.1 Caractérisation des données ASR-phone
6
3. Morphèmes acoustiques - définitions
Morphème acoustique f =
forme acoustique associée à une action =
séquence f de phones pi : f = p1 p2 … pn ;
 Mesure de sa pertinence pour l’action associée,
évaluée par le maximum de la distribution à
posteriori:
Pmax  f max Pci f 
CiC
avec C =15 types d’appel de HMIHY
 Son utilité pour la reconnaissance est évalué
par la mesure de l’information mutuelle de ses
composants : MI(f)
MI (p1 p2 … pn-1 ; Pn)

7
3.2 Morphèmes : schéma d’acquisition
Algorithme
itératif
Seuil de
sélection
Algorithme
de regroupement
8
3.3 MI des séquences pré-sélectionnées
9
3.4 Pmax des séquences pré-sélectionnées
10
3.4
Séquences pertinentes
 Séquences pré-sélectionnées : seuil sur Pmax >= 0.6
 Exemples de séquences pertinentes, associées à collect :
Séquence
Pmax
Séquence pertinente
f1
0.81
K ax l eh K T
f2
0.91
K ax l eh K T K ao l
f3
0.91
bos K ax l eh K T K ao l
f4
0.97
K ax l eh K T K ao l eos
f5
0.87
K l ay K K
f6
0.92
K l ay K K ao l D
f7
0.91
P l ey s ih K l ay K
f8
0.94
P l ey s ih K l ay K K ao l
11
3.5 On arrive au « Morphème acoustique »
 En utilisant une mesure de distorsion segmentale
 On les représente par des automates à états finis
 Exemple d’un morphème acoustique f (associé a collect) :
K
eh
K
eh
T
ax
K
l
ay
K
ao
K
ao
aa
12
l
D
m
4. Détection des morphèmes acoustiques
 Classification des appels est basée sur la détection des
morphèmes acoustiques
 Meilleur chemin de la reco. de phonèmes
 dans 42% des appels, aucun morphème trouvé
=> classification impossible pour ces appels
=> résultats non satisfaisants
 Solution: les treillis du reconnaisseur phonétique
13
4.1 Détections dans les treillis de phonèmes
Treillis:
 représentation des distributions d’hypothèses de
reconnaissance alternatives
 représentés comme des automates à états finis
 utilisés sous forme de :
 treillis complets ou
 treillis élagués, seuil r : ri =< r
avec ri = pi / p1, et pi = prob. du chemin i
Résultats: plus de détections de morphèmes incluant
aussi des fausses détections
14
4.2 Exemple du treillis d’une élocution
 Elocution = « collect call «
 Treillis élague correspondant :
eh
K
l
r
ax
K
T
ao
l
ah
K
15
ao
l
D
4.3 Les treillis améliorent la détection
Expérience
Pourcentage d’appels
sans détection
meilleur chemin
42 %
treillis élagué
12 %
treillis complet
6%
16
4.4 Morphèmes acoustiques détectés
17
4.5 Statistiques d’un Morphème Acoustique Fc
Sa pertinence sur l’ensemble d’apprentissage P(c | Fc) = 0.89
W = suite de mots correspondant à Fc dans transr-word-train
P (c | Fc) = proba. d’apparition du morphème dans ASR-phone-test
P (W) = proba. d’apparition de W , calculée dans transr-word-test
expérience
r
P (Fc)
P(W)
meilleur chemin
1
0.028
0.071
treillis élagué
0.05
0.042
-
treillis complet
0.080
0.00
18
-
4.6 Détections et pertinence de Fc
P ( Fc | c) = proba de Fc étant donné l’appel ;
P ( c | Fc ) = pertinence effective sur l’ensemble de test ;
Expérience
r
P ( Fc | c)
P ( c | Fc )
meilleur chemin
1.00
0.15
0.93
treillis élagué
0.05
0.20
0.90
treillis complet
0.00
0.31
0.71
19
4.7 Comparaison avec les données transcrites
P ( Fc | W) = proba de « détection correcte » de Fc ;
P ( Fc | W ) = proba de « fausse détection » de Fc ;
Expérience
r
P ( Fc | W)
P ( c |W )
meilleur chemin
1.00
0.38
0.001
treillis élagué
0.05
0.53
0.004
treillis complet
0.00
0.66
0.035
20
5. Evaluation expérimentale avec la
classification d’appels téléphoniques
 Utilité des morphèmes acoustiques évaluée pour la classification
d’appels de « How may I help you ? »
 Classificateur actuel utilise seulement les meilleurs chemins
 Modification simple :
 si détection dans meilleur chemin => OK
 sinon chercher dans le treillis jusqu’à la découverte d’une
détection
 considérer seulement ce chemin
 si aucune détection => classer l’appel dans la classe poubelle
« OTHER »
21
6. Résultats de la classification d’appels
22
6. Conclusions
 Nous avons cherché à «apprendre à comprendre» à partir d’une
base de données sans transcriptions
 Comment :
par l’acquisition automatique de « morphèmes acoustiques »
 Utilisation pour la classification d’appels téléphoniques HMIHY
 Résultats
 en cherchant dans les treillis, on réduit le taux de faux rejet
de 59%, accompagné d’une réduction d’appels classés
correctement de 5%
 On atteint un point opérationnel de 86% classifications
correctes, avec 50% de faux rejet
23
7. Perspectives
 Optimiser l’algorithme d’acquisition des séquences
pré-sélectionnées
 Phase de test : exploiter des détections multiples
dans les treillis
 Utiliser des détections « floues »
 Utiliser les treillis dans la phase d’apprentissage
24
Téléchargement