Journée d’étude CONSCILA (ENS Paris) Annotation syntaxique de corpus oraux DisMo Un outil d’annotation morphosyntaxique pour le français parlé Georges Christodoulides [email protected] Iulia Grosman [email protected] Université catholique de Louvain, Centre de recherche VALIBEL – Discours et Variation Louvain-la-Neuve, Belgique 7 décembre 2012 PLAN 1. Objectifs 2. Acquis et choix 3. Entrée et sortie 4. Annotation 5. Architecture du système 6. Corpus 7. Evaluation 8. Fiche technique 9. Perspectives 10. Bibliographie 2 OBJECTIFS Une annotation compréhensive pour le français parlé: • Annotation grammaticale (POS, parties du discours) & • Annotation des phénomènes discursifs: disfluences, marqueurs discursifs, segmentation en séquences Liens entre les différents couches d’annotation pour améliorer la performance de 4 modules habituellement séparés (POS, Syntaxe, Disfluences, Discours). Un système hybride: • Utilisation de ressources lexicales ouvertes et fermées. • Modèles probabilistes (Conditional Random Fields) et règles linguistiques. Possibilités ouvertes d’intégration de paramètres acoustiques: • Temporalité : mesure objective des pauses et durée des tokens. • Autres perspectives : intonation (f0 ou stylisation) 3 ACQUIS ET CHOIX Prosodie et Disfluences MD & MC TAL La détection des ponctuants améliore le POS tagging (Liu et al., 2006) Désambiguïsation Le modèle statistique (HMM, CRF) sera influencé par la séquence à annoter Bénéfice des systèmes hybrides qui combinent: Détection des disfluences : besoin d’informations lexicales, POS et prosodiques (Shriberg, 1996 ; Dister, 2007) Détection des disfluences avec des modèles CRF (Georgila 2009 ; 2010) Intégration des ressources lexicales pour les MC dans un modèle CRF (Constant & Tellier 2012) Indices de frontières syntaxiques de l’oral Détection des ponctuants, marqueurs, connecteurs Détection des frontières prosodiques (Simon 2009) 4 (1) règles linguistiques (2) ressources lexicales (3) modèles statistiques Un modèle CRF peut être entrainé avec plusieurs “features” ENTRÉE ET SORTIE Sorties annotées: Entrée obligatoire : Transcription orthographique standardisée (1) Mots simples / POS (2) Mots composés / POS (3) MD et connecteurs (4) Disfluences .txt , .xls, .textgrid Entrée facultative : Transcription alignée au mot 5 ANNOTATION (1) Comparaison – état de l’art : Benzitoun, Fort & Sagot 2012 ; Clément & Abeillé 2006 ; Dister 2007 ; Beaufort 2009 ; Schmid 1994 (2) Choix d’équilibre : les systèmes varient de 32 à 311 étiquettes, DisMo en propose +/- 60 (3) Homogénéisation : favoriser les étiquettes bilingues, éviter les étiquettes ad hoc, ne pas s’éloigner de l’intuition d’un annotateur humain POS DISFLUENCES 44 étiquettes (10 catégories) 9 étiquettes (5 disf.) Système IOB2 > Possibilité d’études sur la flexion > Distinction entre ppa et ppe La majorité des catégories majeures connaissent une extension Pause non sonore (pause vide, prise de souffle) > pause sonore (euh) > amorce > répétition > autocorrection + syntagmes disfluents + séquences de disfluences 6 DISCOURS 3 étiquettes - CONN - MD - PARA (+INTJ) Définies par leur fréquence, distribution et leur indépendance syntaxique ARCHITECTURE DU SYSTÈME Cascade : chaque étape affine les résultats des étapes précédentes Lexiques : proposent toutes les étiquettes possibles pour un item Levée d’ambiguïtés : à chaque étape, par modèles statiques et règles linguistiques Aller-retour : entre POS et phénomènes discursifs, pour améliorer leur détection 7 ARCHITECTURE DU SYSTÈME modules lexicaux DELAF LexMWU (< DELAC) LexConn LexMD LexDis LexEntitésNommées […] Modules statistiques (CRF) POSMIN: annotation POS préalable Features: forme, classe d’ambigüité (p.ex. VER+ADJ+NOM), durée, MWU détecté (i-2, i-1, i, i+1, i+2). DISFLUENCE: détection des disfluences Features: forme, durée, pos-min (i-2, i-1, i, i+1, i+2), distance Levenshtein (i/i+1). DISCOURS: détection des phénomènes discursifs Features: forme, durée, pos-min (i-2, i-1, i, i+1, i+2) Aller-retour et dépendances entre modules POSFIN: annotation POS finale, prise en compte des MC Features: forme, classe d’ambigüité, durée du token (i-2, i-1, i, i+1, i+2). À partir des frontières détectées. 8 CORPUS C-Gram Prom Entraînement : Test : Un corpus multigenre permet d’évaluer les performances combinées et individuelles du systèmes et de ses modules selon le type de discours : - degré de préparation - type d’interaction - degré de contrainte de la tâche 80% (équilibré) 20% (équilibré) Détail Dismo GENRE WORD Conf. Sc. 2136 Interview 1013 itinéraire 1832 Info (JT) 2010 Lecture 413 Narratif 2351 Politique 1436 TOTAL 11191 % 19,09 9,05 16,37 17,96 3,69 21,01 12,83 100 • 7 genres • + de 10 000 tokens (hors silences) 9 Corpus alignés en traitement : C-Humoristes 22 000 tokens 1:30 hrs 3 genres C-Interprètes 2:00 hrs 3 genres C-Didactique 1:30 hrs 2 genres EVALUATION POS min précision disfluence précision recall discours catégorisation précision POS final recall précision Conf. scien. 84,6% 100,0% 61,1% 100,0% 100,0% 96,7% 83,2% Interview 81,3% 100,0% 66,7% 100,0% 100,0% 88,9% 80,9% Itinéraire 76,4% 100,0% 83,3% 100,0% 100,0% 100,0% 77,4% Info (JT) 82,6% 100,0% 66,7% 100,0% 100,0% 100,0% 81,5% Narratif 78,3% 97,8% 80,4% 99,9% 98,7% 93,9% 77,6% Politique 71,5% - - 100,0% 100,0% 100,0% 71,0% Erreur / catégorie Fq VER:impe vs VER:pres VER:pres vs VER:pred DISS:rep vs DIS:corr 10 PERSPECTIVES Corpus d’entrainement : augmentation constante équilibrée Paramètres acoustiques supplémentaires : ajout de features CRF après une analyse de la f0 Perspective d’évaluation : affinement des étiquettes des marqueurs discursifs et grammaticales, test du système sur un corpus non aligné (apport de la durée et l’intonation sur la détection des disfluences) Traitement des mots composés : affinement du compromis LEX-MWU & DELAC et du traitement des MWU en séquence IOB2 Recherches : (1) sur concordance entre l’annotation en frontières et l’annotation en séquences et unités de rection (2) sur la relation et l’annotation entre frontières prosodiques et syntaxiques (analyse en BDU – Basic Discourse Units). 11 FICHE TECHNIQUE Licence : système & ressources linguistiques libres sources (GPL & LGPLLR) Intègre d’autres projets en sources libres : CRF++, Open FST, HFST Langue de programmation : C++ avec la bibliothèque Qt. Plateforme : Windows, Mac, Linux Environnement : (1) Praat (2) Plugin (3) logiciel indépendant 12 BIBLIOGRAPHIE Avanzi, M., Simon, A.C., Goldman, J.-P., Auchlin, A. (2010). C-PROM. Un corpus de français parlé annoté pour l’étude des proéminences. Actes des 23èmes journées d'étude sur la parole (Mons, Belgique, 25-28 mai 2010). Benzitoun, Ch., Fort, K., Sagot, B. (2012). TCOF-POS : un corpus libre de français parlé annoté en morphosyntaxe. JEP-TALNRECITAL 2012, vol. 2 : TALN : 99–112. Boersma, P. & Weenink, D. (2009). Praat: doing phonetics by computer. http://www.praat.org Dister A. (2007). De la transcription à l'étiquetage morphosyntaxique. Le cas de la banque de données textuelles orales VALIBEL. Thèse de linguistique. Université catholique de Louvain. Georgila K. (2009). Using Integer Linear Programming for Detecting Speech Disfluencies. In Proceedings of the North American Chapter of the Association for Computational Linguistics - Human Language Technologies (NAACL-HLT), Boulder, Colorado, 2009. Georgila K., Wang N., and Gratch J. (2010). Cross-Domain Speech Disfluency Detection. In SIGdial 2010, the 11th Annual SIGdial meeting on Discourse and Dialogue, Tokyo, Japan, 2010. Germesin, S., Becker, T., Poller P. (2008). Hybrid multi-step disfluency detection. In Proceedings of the 5th international workshop on Machine Learning for Multimodal Interaction. Lafferty J. , McCallum A. , Pereira F. (2001). Conditional random fields: Probabilistic models for segmenting and labeling sequence data, In Proc. of ICML, pp.282-289. Liu, Y., Shriberg, E., Stolcke, A., Hillard, D, Ostendorf, M., Harper, M. (2006). Enriching Speech Recognition with Automatic Detection of Sentence Boundaries andDisfluencies. IEEE Trans. Audio, Speech and Language Processing. Vol 5. (pp. 1526-1540) Roze C., Danlos L. & Muller P. (2010).LEXCONN: a French Lexicon of Discourse Connectives, Proceedings of Multidisciplinary Approaches to Discourse (MAD 2010), Moissac, France. Schmid, H. (1994). Probabilistic Part-of-Speech Tagging Using DecisionTrees. Proceedings of International Conference on New Methods in Language Processing, Manchester, UK. Simon, A.C. & P. Mertens. (2009). Automatic detection of prosodic boundaries in spoken French. A step towards the identification of basic discourse units. Unpublished Ms, 16 p. 13 MERCI 14 Journée d’étude Conscila (ENS Paris), Annotation syntaxique de corpus oraux, 7 décembre 2012 1 Georges Christodoulides & Iulia Grosman, Université catholique de Louvain-La-Neuve, ILC - Centre Valibel DisMo : Un outil d’annotation morphosyntaxique de corpus oraux Détail des étiquettes du corpus (par Tagset) n° GRAM Explications Exemples 1. 2. 3. 4. 5. 6. 7. 8. NOM:com NOM:prop ADJ:adj ADV:adv ADV:comp ADV:deg ADV:int ADV:neg chien, chat, voiture Chine, Bruce, François beau, belle gentiment, amicalement comme, autant, aussi...que très, plus, mieux, beaucoup de comment, combien ? ne, point, pas, plus 9. CON:coo 10. CON:sub 11. 12. 13. 14. 15. 16. 17. DET:def DET:dem DET:ind DET:num DET:pos NOM:acr NOM:prop nom commun nom propre adjectif adverbe adverbe de comparaison adverbe de gradation adverbe interrogatif adverbe de négation conjonction de coordination conjonction de subordination déterminant défini déterminant démonstratif déterminant indéfini déterminant numeral déterminant posessif sigle et acronyme nom propre mais, car, et, ou parce que, que, de, le, la, les ce, c’, ces, ,cette un, une, des quatre, cinq le mien, la mienne ump, spas, cac max, france, académie 18. 19. 20. 21. NUM:num PFX PRO:dem PRO:ind 22. PRO:nprp 23. PRO:pos 24. PRO:prp 25. 26. 27. 28. PRO:rel PRO:sjt PRO:ton PRP nombre ordinal et cardinal préfixe pronom démonstratif pronom indéfini pronom clitique non prépositionnel (direct) pronom possessif pronom clitique prépositionnel (indirect) pronom relatif pronoms personnels sujets pronoms toniques préposition 29. PRP:det préposition + determinant du, des, au, aux 30. 31. 32. VER:xxx VER:xxx:aux VER:xxx:pred verbe + temps verbe + temps + auxiliaire verbe + temps + prédicat 3344 VER :cond – conditionnel, VER:futu – futur, VER:impe – impératif, VER:impf – Imparfait, VER:inf – Infinitif, VER:ppa – participe passé, VER:ppe – participe présent, VER:pres – présent, VER:simp – passé simple, VER:subi – subjonctif imparfait, VER:subp – subjonctif présent deux trois hyper-, mega-, gigace, ça, ceux aucun, quelqu’un le, la, les mon, ma, mes lui, à elle, lui, en, y, s’ qui, que, qu’ je, tu, il, elle… moi, toi, soi, nous, lui à, de, sur, sous je mange j’ai mange je suis gentil Les séries d’étiquettes ont toutes la possibilité de s’appliquer à un mot simple, un syntagme ou à un mots-composé. Ces derniers apparaissent dans une couche d’annotation séparée, afin de préserver les données des étiquettes grammaticales minimales. Tous les verbes et temps verbaux peuvent être suivis de l’étiquettes [PRED] (prédicat) ou [AUX] (auxiliaires). Journée d’étude Conscila (ENS Paris), Annotation syntaxique de corpus oraux, 7 décembre 2012 2 Georges Christodoulides & Iulia Grosman, Université catholique de Louvain-La-Neuve, ILC - Centre Valibel Autocorrection Reprise immédiate la description Qui termine avec silence et/ou hésitation Qui termine avec une amorce lexicale… parole maintenant Unilexicale …ou une amore et une hésitation c' des qui CORR-B la CORR-B hélicoptères que CORR-B vont CORR-I deuxième CORR-I n' CORR-B non CORR-I _ SIL:l rai AMO enf- AMO qu' euh HESI le euh HESI on _ SIL:l deuxième n' en qu' constat enfreignent est un REP-B un objet Répétition Entre pauses ou Polylexicale hésitations REPc' _ SIL:s B est REP-I euh HESI un REP-I notre REP-B _ SIL:s euh HESI c' notre est colloque un choix Double répétition, complexe mais _ mh c' est c' est mh _ SIL:b PARA REP-B REP-I REP-I REP-I PARA SIL:b Amorce Dans une séquence d’autocorrection maintenant la ils CORR-B deuxième rai AMO le Lexicale simple enf/ AMO enfreignent SIL:b n° Disfluence La loi n° Discours Explication 1 CONN connecteur 3 INTJ Interjection isolée 2 MD marqueur discursif 4 PARA discours para-verbal Exemples elle me dit ça parce que c’est bien mais cris, onomatopées, gram utilisé comme interjection (bon !, allez!) alors ça c’est incroyable déjà que j’ai du mal […] interjection pourvue d’une 1 2 3 4 5 6 7 8 9 REP-B REP-I AMO CORR-B CORR-I HESI SIL:b SIL:l SIL:s Explications Exemples répétition initiale (B-beginning) répétition interne (I-Internal) toutes amorces confondues autocorrection initiale (erroné) autocorrection interne (corrigé) hésitation pause brève (-250 ms) pause longue (+250ms) pause avec prise de souffle je je veux le le truc […] je je veux le le truc […] mademois/ i/ il aimerait […] il le l’aime bien quoi il le l’aime bien quoi euh son, (sil), _, # son, (sil), _, # son, *