Parsing de l`oral: traiter les disfluences

publicité
Côté descriptif
Côté formel
Proposition
Côté informatique
Conclusion
Parsing de l’oral : traiter les disfluences
Marie-Laure Guénot
LPL - CNRS / Université de Provence
Parsing de l’oral : traiter les disfluences
Marie-Laure Guénot - LPL, CNRS / Université de Provence
Côté descriptif
Côté formel
Proposition
Côté informatique
Conclusion
Parsing de l’oral : traiter les disfluences
Traitement automatique des disfluences
• Phénomène fréquent en oral spontané
• Côté descriptif : études fines de l’organisation interne
• Côté formel : pas de statut clair des disfluences au sein d’un système grammatical
• Côté informatique : techniques diverses, pas régulières
Proposition
• Côté descriptif : réflexion théorique sur la place des disfluences dans une grammaire
• Côté formel : représentation formelle issue de cette réflexion
• Côté informatique : caractéristiques, limites, quelques suggestions
Parsing de l’oral : traiter les disfluences
Marie-Laure Guénot - LPL, CNRS / Université de Provence
Côté descriptif
descriptif
Côté
Côté formel
Proposition
Côté informatique
Conclusion
Caractéristiques générales
Rupture du déroulement syntagmatique, entassement paradigmatique
Absence de fonction sémantique
• Pas de contenu sémantique différent d’une forme non disfluente, n’apporte rien à la
sémantique de l’énoncé
Absence de fonction syntaxique
• Ni consituants d’un syntagme, ni en relation de dépendance
Deux types possibles
• Bribes : reprises à partir de syntagmes inachevés (il il)
• Amorces : reprises à partir de morphèmes inachevés (dans la paran- dans la parano)
Parsing de l’oral : traiter les disfluences
Marie-Laure Guénot - LPL, CNRS / Université de Provence
Côté descriptif
descriptif
Côté
Côté formel
Proposition
Côté informatique
Conclusion
Organisation interne
Trois formes possibles [Pallaud & Henry 03]
• Complétées : reprise des premières formulations à l’identique
•
Modifiées : reprise et modification des premières formulations
•
Inachevées : abandon des premières formulations
Parsing de l’oral : traiter les disfluences
Marie-Laure Guénot - LPL, CNRS / Université de Provence
Côté descriptif
descriptif
Côté
Côté formel
Proposition
Côté informatique
Conclusion
Organisation interne (suite)
Espaces internes [Shriberg 94]
• Reparandum : lieu de la première production (sont très)
• Interruption point : lieu de la (première) rupture syntagmatique ([IP])
• Interregnum : lieu où peuvent se produire des marques d’hésitation et/ou des tentatives
de formulation avortées (euh sont doivent être)
• Repair : reprise du déroulement syntagmatique (doivent pouvoir être contrôlés)
Parsing de l’oral : traiter les disfluences
Marie-Laure Guénot - LPL, CNRS / Université de Provence
Côté descriptif
Côté formel
Proposition
Côté informatique
Conclusion
Côté formel
Une différence notable entre linguistique descriptive et formelle
• Description : étude fine du fonctionnement interne
• Formalisation : maintien d’une cohérence générale
Articulation entre les disfluences et le reste de la grammaire
• Qu’est-ce qu’une disfluence dans une grammaire?
• Plus généralement : Que représente un objet (une
construction) dans une grammaire?
• Relations entre occurrences possibles ou entre
places syntaxiques?
Parsing de l’oral : traiter les disfluences
Marie-Laure Guénot - LPL, CNRS / Université de Provence
Côté descriptif
Côté formel
Proposition
Côté informatique
Conclusion
Option 1: Relations entre occurrences possibles
Principe
• Chaque occurrence = un objet dans la grammaire
Conséquences
• Chaque relation (a et b) est
multipliée par le nombre
d’occurrences de la même
place syntaxique
Limites
• Variation en fonction de la présence et de la forme de la disfluence
 {a, b} pour “je vais être” vs. {a, a, a, a, b, b} pour “je vais je vais être”, etc.
• Certaines caractéristiques générales du syntagme sont rendues caduques par cette
présentation
 Unicité du pronom clitique nominatif, ordre linéaire entre ce pronom et le verbe,…
Parsing de l’oral : traiter les disfluences
Marie-Laure Guénot - LPL, CNRS / Université de Provence
Côté descriptif
Côté formel
Proposition
Côté informatique
Conclusion
Option 2: Parenthésage “étroit”
Principe
• Les éléments constitutifs d’une disfluence sont regroupés en un objet unique
Conséquences
• La multiplication des relations caractéristiques est limitée
• A chaque groupe rassemblé doit correspondre une étiquette d’objet grammatical
Limites
• Les frontières de disfluences ne correspondent pas toujours aux frontières des objets
grammaticaux
 Quelle est la catégorie de “je vais je vais”?
Parsing de l’oral : traiter les disfluences
Marie-Laure Guénot - LPL, CNRS / Université de Provence
Côté descriptif
Côté formel
Proposition
Côté informatique
Conclusion
Option 3: Parenthésage “large”
Principe
• Chaque espace de la disfluence est considéré comme une occurrence, achevée ou non, du
syntagme complet
Conséquences
• Configuration proche de celle des énumérations, mais avec des caractéristiques différentes
 Certains peuvent être inachevés, même fonction syntaxique, même fonction
sémantique
• Puis on met ces différentes occurrences en relation en tant que “disfluence”
Parsing de l’oral : traiter les disfluences
Marie-Laure Guénot - LPL, CNRS / Université de Provence
Côté descriptif
Côté formel
Proposition
Côté informatique
Conclusion
Option 3: Parenthésage “large” (suite)
Limites
• Comment mettre en relation des parties différentes d’occurrences différentes?
•
•
Selon [Blanche et al. 90]: “(on) vise à dégager la séquence maximale qui a été donnée
par le locuteur, en tenant compte de toutes les bribes qu’il a fournies ; dans l’exemple
précédent, on retiendra comme séquence maximale : lesquels registres doivent
pouvoir être très contrôlés”
Comment alors mettre en relation “très” dans le reparandum avec “contrôlés” dans le
repair?
 Il faudrait pouvoir spécifier des relations entre certains constituants de syntagmes
différents
 Solution ad hoc: introduction de types de relations spécifiques au cas des
disfluences
Parsing de l’oral : traiter les disfluences
Marie-Laure Guénot - LPL, CNRS / Université de Provence
Côté descriptif
Côté formel
Proposition
Côté informatique
Conclusion
Option 4: Constructions grammaticales disfluentes
Principe
• Chaque occurrence d’une même place syntaxique = un constituant d’une “construction
disfluente”
 Proche de l’option précédente, mais pas forcément de syntagme complet
Conséquences
• Les places syntagmatiques sont les mêmes que dans une forme sans disfluence
 Pas de constructions ad hoc: pas de modification des définitions des syntagmes de la
grammaire
 Pas de relations ad hoc: les “séquences maximales” apparaissent clairement
Parsing de l’oral : traiter les disfluences
Marie-Laure Guénot - LPL, CNRS / Université de Provence
Côté descriptif
Côté formel
Proposition
Proposition
Côté informatique
Conclusion
Représentation formelle
Perspective CxG/GP
• Cadre théorique: Construction Grammar (CxG) [Kay & Fillmore 99]
• Cadre formel: Grammaires de Propriétés (GP) [Blache 05]
• Grammaire = ressource unique, descriptive (non générative), multiniveaux (non
modulaire), non lexicalisée
 Même attirail formel que tous les autres objets de la grammaire
Parsing de l’oral : traiter les disfluences
Marie-Laure Guénot - LPL, CNRS / Université de Provence
Côté descriptif
Côté formel
Proposition
Proposition
Côté informatique
Conclusion
La “construction disfluente”
Représentation dans la grammaire
• Au moins deux objets x
• Traits (sauf l’INDEX) de valeurs
identiques un à un
• x1 = repair
Conséquences
• Satisfaction complète =
bribe complétée
• Propriété(s) d’accord violée(s) =
bribe modifiée
• Les x sont des syntagmes =
bribe inachevée
Parsing de l’oral : traiter les disfluences
Marie-Laure Guénot - LPL, CNRS / Université de Provence
Côté descriptif
Côté formel
Proposition
Proposition
Côté informatique
Conclusion
Exemple 1: Une bribe complétée
Une construction par catégorie
• Un “pronom disfluent” (je je)
• Un “verbe disfluent” (vais vais)
Caractéristiques
• Degré d’évaluation: toutes les
propriétés de la définition sont
évaluées
• Degré de satisfaction: toutes les
propriétés évaluées sont satisfaites
• Degré de satisfaction
propagée: les deux constructions
qui constituent le “pronom
disfluent” sont elles-mêmes
satisfaites à 100%
Parsing de l’oral : traiter les disfluences
Marie-Laure Guénot - LPL, CNRS / Université de Provence
Côté descriptif
Côté formel
Proposition
Proposition
Côté informatique
Conclusion
Exemple 1: Une bribe complétée (suite)
Le “verbe disfluent”
• Mêmes caractéristiques
La suite de l’analyse
• Les objets disfluents ont
le même statut que leurs
équivalents syntaxiques et
sémantiques non disfluents
Parsing de l’oral : traiter les disfluences
Marie-Laure Guénot - LPL, CNRS / Université de Provence
Côté descriptif
Côté formel
Proposition
Proposition
Côté informatique
Conclusion
Exemple 2: Une bribe modifiée
Une modification
sémantique
• Un peu: intensité
faible
• Pas mal: intensité
forte
Caractéristiques
• Deux propriétés ne
sont pas satisfaites
 Forme grahique
 Intensité
• Le degré de
satisfaction baisse
 C’est la
caractéristique
d’une bribe
modifiée
Parsing de l’oral : traiter les disfluences
Marie-Laure Guénot - LPL, CNRS / Université de Provence
Côté descriptif
Côté formel
Proposition
Proposition
Exemple 3: Une bribe inachevée
Côté informatique
Conclusion
Caractéristiques
• Constituants = syntagmes
• Degré de satisfaction < 100%
• Degré de satisfaction propagée <100%
Parsing de l’oral : traiter les disfluences
Marie-Laure Guénot - LPL, CNRS / Université de Provence
Côté descriptif
Côté formel
Proposition
Proposition
Côté informatique
Conclusion
Représentation formelle: conclusions
Intégration des disfluences dans la grammaire
• Utilisation de l’attirail formel existant, pas de mécanisme ni de représentation ad hoc
Réflexion générale sur les grammaires formelles
• Quels sont les objets que l’on y représente?
 Des places syntaxiques, et non des occurrences
Représentation et traitement des disfluences
• Une seule construction = phénoméne particulier
• Trois analyses possibles
 Complétées = degré de satisf. 100%, degré de satisf. propagé 100%
 Modifiées = degré de satisf. <100%, degré de satisf. propagé 100%
 Inachevées = degré de satisf. <100%, degré de satisf. propagé <100%
• Distinction des espaces internes
 Remontée des caractéristiques du repair (propriété “obligatoire”)
Parsing de l’oral : traiter les disfluences
Marie-Laure Guénot - LPL, CNRS / Université de Provence
Côté descriptif
Côté formel
Proposition
Côté informatique
informatique
Conclusion
Mécanismes de parsing
Conséquences sur le parsing (non-déterministe)
• Probable explosion combinatoire
 Introduction de “constructions disfluentes” dans de nombreux cas superflus
Limitation de l’explosion (pistes)
• Borner l’introduction d’une disfluence à une distance arbitaire
 Des objets distants de plus de n constructions ne peuvent pas être les constituants
d’une disfluence
• Introduire des marques linguistiques pour différencier disfluences et énumérations
[Johnson et al. 04]
 Disfluences: pauses oralisées, connecteurs,…
 Énumérations: coordonnants, degré de satisfaction propagé = 100%,…
• Faire (éventuellement) remonter les informations régulières dans la grammaire
 Limiter les heuristiques dans les parseurs
Parsing de l’oral : traiter les disfluences
Marie-Laure Guénot - LPL, CNRS / Université de Provence
Côté descriptif
Côté formel
Proposition
Côté informatique
Conclusion
Conclusion
Conclusion et perspectives
Conclusions
• Disfluences = phénomène linguistique particulier, non négligable, particularités notables
• Introduction d’une représentation des disfluences dans une grammaire formelle
 Quel est leur statut?
 Comment les représenter?
 Quelles conséquences?
Perspectives
• Vérifier, affiner les descriptions sur corpus
 Ajouter des caratéristiques de niveaux différents (notamment prosodie) - en cours
 Eléments d’analyse / interprétation pragmatique et/ou cognitive
• Implémenter et tester
 Éventuellement compléter la grammaire
• Traiter automatiquement les amorces
 Problème de leur étiquetage
Parsing de l’oral : traiter les disfluences
Marie-Laure Guénot - LPL, CNRS / Université de Provence
Côté descriptif
Côté formel
Proposition
Côté informatique
Conclusion
Merci
Parsing de l’oral : traiter les disfluences
Marie-Laure Guénot - LPL, CNRS / Université de Provence
Téléchargement