Un outil d’annotation morphosyntaxique
pour le français parlé
DisMo
Georges Christodoulides Iulia Grosman
george@mycontent.gr iulia.grosman@student.uclouvain.be
Université catholique de Louvain, Centre de recherche VALIBEL – Discours et Variation
Louvain-la-Neuve, Belgique
Journée détude CONSCILA (ENS Paris)
Annotation syntaxique de corpus oraux
7 décembre 2012
1. Objectifs
2. Acquis et choix
3. Ente et sortie
4. Annotation
5. Architecture du système
6. Corpus
7. Evaluation
8. Fiche technique
9. Perspectives
10. Bibliographie
PLAN
2
OBJECTIFS
3
Une annotation compréhensive pour le français parlé:
Annotation grammaticale (POS, parties du discours)
&
Annotation des phénomènes discursifs: disfluences, marqueurs discursifs,
segmentation en séquences
Liens entre les différents couches d’annotation pour améliorer la performance
de 4 modules habituellement séparés (POS, Syntaxe, Disfluences, Discours).
Un système hybride:
Utilisation de ressources lexicales ouvertes et fermées.
Modèles probabilistes (Conditional Random Fields) et règles linguistiques.
Possibilités ouvertes d’intégration de paramètres acoustiques:
Temporalité : mesure objective des pauses et durée des tokens.
Autres perspectives : intonation (f0 ou stylisation)
ACQUIS ET CHOIX
4
La détection des ponctuants
améliore le POS tagging
(Liu et al., 2006)
Détection des disfluences :
besoin d’informations lexicales,
POS et prosodiques
(Shriberg, 1996 ; Dister, 2007)
Détection des disfluences
avec des modèles CRF
(Georgila 2009 ; 2010)
Désambiguïsation
Le modèle statistique
(HMM, CRF) sera influencé
par la séquence à annoter
Intégration des
ressources lexicales pour
les MC dans un modèle CRF
(Constant & Tellier 2012)
Indices de frontières
syntaxiques de l’oral
Détection des ponctuants,
marqueurs, connecteurs
Détection des frontières
prosodiques (Simon 2009)
Bénéfice des systèmes
hybrides qui combinent:
(1) règles linguistiques
(2) ressources lexicales
(3) modèles statistiques
Un modèle CRF peut être
entrainé avec plusieurs
“features
Prosodie et Disfluences MD & MC TAL
5
ENTRÉE ET SORTIE
Entrée facultative :
Transcription alignée
au mot
Entrée obligatoire :
Transcription
orthographique
standardisée
Sorties annotées:
(1) Mots simples / POS
(2) Mots composés / POS
(3) MD et connecteurs
(4) Disfluences
.txt , .xls, .textgrid
1 / 16 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!