Annotation syntaxique

publicité
Journée d’étude CONSCILA (ENS Paris)
Annotation syntaxique de corpus oraux
DisMo
Un outil d’annotation morphosyntaxique
pour le français parlé
Georges Christodoulides
[email protected]
Iulia Grosman
[email protected]
Université catholique de Louvain, Centre de recherche VALIBEL – Discours et Variation
Louvain-la-Neuve, Belgique
7 décembre 2012
PLAN
1.
Objectifs
2.
Acquis et choix
3.
Entrée et sortie
4.
Annotation
5.
Architecture du système
6.
Corpus
7.
Evaluation
8.
Fiche technique
9.
Perspectives
10. Bibliographie
2
OBJECTIFS
Une annotation compréhensive pour le français parlé:
• Annotation grammaticale (POS, parties du discours)
&
• Annotation des phénomènes discursifs: disfluences, marqueurs discursifs,
segmentation en séquences
Liens entre les différents couches d’annotation pour améliorer la performance
de 4 modules habituellement séparés (POS, Syntaxe, Disfluences, Discours).
Un système hybride:
• Utilisation de ressources lexicales ouvertes et fermées.
• Modèles probabilistes (Conditional Random Fields) et règles linguistiques.
Possibilités
ouvertes d’intégration de paramètres acoustiques:
• Temporalité : mesure objective des pauses et durée des tokens.
• Autres perspectives : intonation (f0 ou stylisation)
3
ACQUIS ET CHOIX
Prosodie et Disfluences
MD & MC
TAL
La détection des ponctuants
améliore le POS tagging
(Liu et al., 2006)
Désambiguïsation
Le modèle statistique
(HMM, CRF) sera influencé
par la séquence à annoter
Bénéfice des systèmes
hybrides qui combinent:
Détection des disfluences :
besoin d’informations lexicales,
POS et prosodiques
(Shriberg, 1996 ; Dister, 2007)
Détection des disfluences
avec des modèles CRF
(Georgila 2009 ; 2010)
Intégration des
ressources lexicales pour
les MC dans un modèle CRF
(Constant & Tellier 2012)
Indices de frontières
syntaxiques de l’oral
Détection des ponctuants,
marqueurs, connecteurs
Détection des frontières
prosodiques (Simon 2009)
4
(1) règles linguistiques
(2) ressources lexicales
(3) modèles statistiques
Un modèle
CRF peut être
entrainé avec plusieurs
“features”
ENTRÉE ET SORTIE
Sorties annotées:
Entrée obligatoire :
Transcription
orthographique
standardisée
(1) Mots simples / POS
(2) Mots composés / POS
(3) MD et connecteurs
(4) Disfluences
.txt , .xls, .textgrid
Entrée facultative :
Transcription alignée
au mot
5
ANNOTATION
(1) Comparaison – état de l’art : Benzitoun, Fort & Sagot 2012 ; Clément & Abeillé 2006 ; Dister 2007 ;
Beaufort 2009 ; Schmid 1994
(2) Choix d’équilibre : les systèmes varient de 32 à 311 étiquettes, DisMo en propose +/- 60
(3) Homogénéisation : favoriser les étiquettes bilingues, éviter les étiquettes ad hoc, ne pas s’éloigner
de l’intuition d’un annotateur humain
POS
DISFLUENCES
44 étiquettes (10 catégories)
9 étiquettes (5 disf.)
Système IOB2
> Possibilité d’études sur la
flexion
> Distinction entre ppa et ppe
La majorité des catégories
majeures connaissent une
extension
Pause non sonore (pause vide,
prise de souffle) > pause sonore
(euh) > amorce > répétition >
autocorrection
+ syntagmes disfluents
+ séquences de disfluences
6
DISCOURS
3 étiquettes
- CONN
- MD
- PARA (+INTJ)
Définies par leur
fréquence, distribution
et leur indépendance
syntaxique
ARCHITECTURE DU SYSTÈME
Cascade : chaque étape
affine les résultats des étapes
précédentes
Lexiques : proposent toutes
les étiquettes possibles
pour un item
Levée d’ambiguïtés : à
chaque étape, par modèles
statiques et règles
linguistiques
Aller-retour : entre POS
et phénomènes discursifs,
pour améliorer leur détection
7
ARCHITECTURE DU SYSTÈME
modules lexicaux
DELAF
LexMWU (< DELAC)
LexConn
LexMD
LexDis
LexEntitésNommées
[…]
Modules statistiques (CRF)
POSMIN: annotation POS préalable
Features: forme, classe d’ambigüité (p.ex. VER+ADJ+NOM),
durée, MWU détecté (i-2, i-1, i, i+1, i+2).
DISFLUENCE: détection des disfluences
Features: forme, durée, pos-min (i-2, i-1, i, i+1, i+2),
distance Levenshtein (i/i+1).
DISCOURS: détection des phénomènes discursifs
Features: forme, durée, pos-min (i-2, i-1, i, i+1, i+2)
Aller-retour
et
dépendances
entre modules
POSFIN: annotation POS finale, prise en compte des MC
Features: forme, classe d’ambigüité, durée du token
(i-2, i-1, i, i+1, i+2). À partir des frontières détectées.
8
CORPUS
C-Gram Prom
Entraînement :
Test :
Un corpus multigenre permet
d’évaluer les performances
combinées et individuelles du
systèmes et de ses modules selon
le type de discours :
- degré de préparation
- type d’interaction
- degré de contrainte de la tâche
80% (équilibré)
20% (équilibré)
Détail Dismo
GENRE WORD
Conf. Sc.
2136
Interview
1013
itinéraire
1832
Info (JT)
2010
Lecture
413
Narratif
2351
Politique
1436
TOTAL
11191
%
19,09
9,05
16,37
17,96
3,69
21,01
12,83
100
• 7 genres
• + de 10 000 tokens
(hors silences)
9
Corpus alignés
en traitement :
C-Humoristes
22 000 tokens
1:30 hrs
3 genres
C-Interprètes
2:00 hrs
3 genres
C-Didactique
1:30 hrs
2 genres
EVALUATION
POS min
précision
disfluence
précision
recall
discours
catégorisation précision
POS final
recall
précision
Conf. scien.
84,6%
100,0%
61,1%
100,0%
100,0%
96,7%
83,2%
Interview
81,3%
100,0%
66,7%
100,0%
100,0%
88,9%
80,9%
Itinéraire
76,4%
100,0%
83,3%
100,0%
100,0%
100,0%
77,4%
Info (JT)
82,6%
100,0%
66,7%
100,0%
100,0%
100,0%
81,5%
Narratif
78,3%
97,8%
80,4%
99,9%
98,7%
93,9%
77,6%
Politique
71,5%
-
-
100,0%
100,0%
100,0%
71,0%
Erreur / catégorie Fq
VER:impe vs VER:pres
VER:pres vs VER:pred
DISS:rep vs DIS:corr
10
PERSPECTIVES
Corpus d’entrainement : augmentation constante équilibrée
Paramètres acoustiques supplémentaires : ajout de features CRF après une analyse
de la f0
Perspective d’évaluation : affinement des étiquettes des marqueurs discursifs et
grammaticales, test du système sur un corpus non aligné (apport de la durée et
l’intonation sur la détection des disfluences)
Traitement des mots composés : affinement du compromis LEX-MWU & DELAC et
du traitement des MWU en séquence IOB2
Recherches :
(1) sur concordance entre l’annotation en frontières et l’annotation
en séquences et unités de rection
(2) sur la relation et l’annotation entre frontières prosodiques et syntaxiques
(analyse en BDU – Basic Discourse Units).
11
FICHE TECHNIQUE
Licence : système & ressources linguistiques libres sources (GPL & LGPLLR)
Intègre d’autres projets en sources libres : CRF++, Open FST, HFST
Langue de programmation : C++ avec la bibliothèque Qt.
Plateforme : Windows, Mac, Linux
Environnement : (1) Praat (2) Plugin (3) logiciel indépendant
12
BIBLIOGRAPHIE
Avanzi, M., Simon, A.C., Goldman, J.-P., Auchlin, A. (2010). C-PROM. Un corpus de français parlé annoté pour l’étude des
proéminences. Actes des 23èmes journées d'étude sur la parole (Mons, Belgique, 25-28 mai 2010).
Benzitoun, Ch., Fort, K., Sagot, B. (2012). TCOF-POS : un corpus libre de français parlé annoté en morphosyntaxe. JEP-TALNRECITAL 2012, vol. 2 : TALN : 99–112.
Boersma, P. & Weenink, D. (2009). Praat: doing phonetics by computer. http://www.praat.org
Dister A. (2007). De la transcription à l'étiquetage morphosyntaxique. Le cas de la banque de données textuelles orales VALIBEL.
Thèse de linguistique. Université catholique de Louvain.
Georgila K. (2009). Using Integer Linear Programming for Detecting Speech Disfluencies. In Proceedings of the North American
Chapter of the Association for Computational Linguistics - Human Language Technologies (NAACL-HLT), Boulder, Colorado, 2009.
Georgila K., Wang N., and Gratch J. (2010). Cross-Domain Speech Disfluency Detection. In SIGdial 2010, the 11th Annual SIGdial
meeting on Discourse and Dialogue, Tokyo, Japan, 2010.
Germesin, S., Becker, T., Poller P. (2008). Hybrid multi-step disfluency detection. In Proceedings of the 5th international
workshop on Machine Learning for Multimodal Interaction.
Lafferty J. , McCallum A. , Pereira F. (2001). Conditional random fields: Probabilistic models for segmenting and labeling
sequence data, In Proc. of ICML, pp.282-289.
Liu, Y., Shriberg, E., Stolcke, A., Hillard, D, Ostendorf, M., Harper, M. (2006). Enriching Speech Recognition with Automatic
Detection of Sentence Boundaries andDisfluencies. IEEE Trans. Audio, Speech and Language Processing. Vol 5. (pp. 1526-1540)
Roze C., Danlos L. & Muller P. (2010).LEXCONN: a French Lexicon of Discourse Connectives, Proceedings of Multidisciplinary
Approaches to Discourse (MAD 2010), Moissac, France.
Schmid, H. (1994). Probabilistic Part-of-Speech Tagging Using DecisionTrees. Proceedings of International Conference on New
Methods in Language Processing, Manchester, UK.
Simon, A.C. & P. Mertens. (2009). Automatic detection of prosodic boundaries in spoken French. A step towards the
identification of basic discourse units. Unpublished Ms, 16 p.
13
MERCI
14
Journée d’étude Conscila (ENS Paris), Annotation syntaxique de corpus oraux, 7 décembre 2012
1
Georges Christodoulides & Iulia Grosman, Université catholique de Louvain-La-Neuve, ILC - Centre Valibel
DisMo : Un outil d’annotation morphosyntaxique de corpus oraux
Détail des étiquettes du corpus (par Tagset)
n°
GRAM
Explications
Exemples
1.
2.
3.
4.
5.
6.
7.
8.
NOM:com
NOM:prop
ADJ:adj
ADV:adv
ADV:comp
ADV:deg
ADV:int
ADV:neg
chien, chat, voiture
Chine, Bruce, François
beau, belle
gentiment, amicalement
comme, autant, aussi...que
très, plus, mieux, beaucoup de
comment, combien ?
ne, point, pas, plus
9.
CON:coo
10.
CON:sub
11.
12.
13.
14.
15.
16.
17.
DET:def
DET:dem
DET:ind
DET:num
DET:pos
NOM:acr
NOM:prop
nom commun
nom propre
adjectif
adverbe
adverbe de comparaison
adverbe de gradation
adverbe interrogatif
adverbe de négation
conjonction
de
coordination
conjonction
de
subordination
déterminant défini
déterminant démonstratif
déterminant indéfini
déterminant numeral
déterminant posessif
sigle et acronyme
nom propre
mais, car, et, ou
parce que, que, de,
le, la, les
ce, c’, ces, ,cette
un, une, des
quatre, cinq
le mien, la mienne
ump, spas, cac
max, france, académie
18.
19.
20.
21.
NUM:num
PFX
PRO:dem
PRO:ind
22.
PRO:nprp
23.
PRO:pos
24.
PRO:prp
25.
26.
27.
28.
PRO:rel
PRO:sjt
PRO:ton
PRP
nombre ordinal et cardinal
préfixe
pronom démonstratif
pronom indéfini
pronom
clitique
non
prépositionnel (direct)
pronom possessif
pronom clitique
prépositionnel (indirect)
pronom relatif
pronoms personnels sujets
pronoms toniques
préposition
29.
PRP:det
préposition + determinant du, des, au, aux
30.
31.
32.
VER:xxx
VER:xxx:aux
VER:xxx:pred
verbe + temps
verbe + temps + auxiliaire
verbe + temps + prédicat
3344
VER :cond – conditionnel, VER:futu – futur, VER:impe – impératif, VER:impf –
Imparfait, VER:inf – Infinitif, VER:ppa – participe passé, VER:ppe – participe
présent, VER:pres – présent, VER:simp – passé simple, VER:subi – subjonctif
imparfait, VER:subp – subjonctif présent
deux trois
hyper-, mega-, gigace, ça, ceux
aucun, quelqu’un
le, la, les
mon, ma, mes
lui, à elle, lui, en, y, s’
qui, que, qu’
je, tu, il, elle…
moi, toi, soi, nous, lui
à, de, sur, sous
je mange
j’ai mange
je suis gentil
Les séries d’étiquettes ont toutes la possibilité de s’appliquer à un mot simple, un syntagme ou à un mots-composé. Ces derniers apparaissent dans une couche d’annotation
séparée, afin de préserver les données des étiquettes grammaticales minimales. Tous les verbes et temps verbaux peuvent être suivis de l’étiquettes [PRED] (prédicat) ou [AUX]
(auxiliaires).
Journée d’étude Conscila (ENS Paris), Annotation syntaxique de corpus oraux, 7 décembre 2012
2
Georges Christodoulides & Iulia Grosman, Université catholique de Louvain-La-Neuve, ILC - Centre Valibel
Autocorrection
Reprise immédiate
la
description
Qui termine
avec silence
et/ou hésitation
Qui termine avec une
amorce lexicale…
parole
maintenant
Unilexicale
…ou une amore et une
hésitation
c'
des
qui
CORR-B
la
CORR-B
hélicoptères
que
CORR-B
vont
CORR-I
deuxième
CORR-I
n'
CORR-B
non
CORR-I
_
SIL:l
rai
AMO
enf-
AMO
qu'
euh
HESI
le
euh
HESI
on
_
SIL:l
deuxième
n'
en
qu'
constat
enfreignent
est
un
REP-B
un
objet
Répétition
Entre pauses ou
Polylexicale
hésitations
REPc'
_
SIL:s
B
est
REP-I
euh
HESI
un
REP-I
notre
REP-B
_
SIL:s
euh
HESI
c'
notre
est
colloque
un
choix
Double répétition,
complexe
mais
_
mh
c'
est
c'
est
mh
_
SIL:b
PARA
REP-B
REP-I
REP-I
REP-I
PARA
SIL:b
Amorce
Dans une séquence
d’autocorrection
maintenant
la
ils
CORR-B
deuxième
rai
AMO
le
Lexicale simple
enf/
AMO
enfreignent
SIL:b
n° Disfluence
La
loi
n°
Discours Explication
1 CONN
connecteur
3 INTJ
Interjection isolée
2 MD
marqueur discursif
4 PARA
discours para-verbal
Exemples
elle me dit ça parce que c’est bien mais
cris, onomatopées, gram utilisé comme
interjection (bon !, allez!)
alors ça c’est incroyable déjà que j’ai du
mal […]
interjection pourvue d’une
1
2
3
4
5
6
7
8
9
REP-B
REP-I
AMO
CORR-B
CORR-I
HESI
SIL:b
SIL:l
SIL:s
Explications
Exemples
répétition initiale (B-beginning)
répétition interne (I-Internal)
toutes amorces confondues
autocorrection initiale (erroné)
autocorrection interne (corrigé)
hésitation
pause brève (-250 ms)
pause longue (+250ms)
pause avec prise de souffle
je je veux le le truc […]
je je veux le le truc […]
mademois/ i/ il aimerait […]
il le l’aime bien quoi
il le l’aime bien quoi
euh
son, (sil), _, #
son, (sil), _, #
son, *
Téléchargement