Côté descriptif Côté formel Proposition Côté informatique Conclusion Parsing de l’oral : traiter les disfluences Marie-Laure Guénot LPL - CNRS / Université de Provence Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Côté descriptif Côté formel Proposition Côté informatique Conclusion Parsing de l’oral : traiter les disfluences Traitement automatique des disfluences • Phénomène fréquent en oral spontané • Côté descriptif : études fines de l’organisation interne • Côté formel : pas de statut clair des disfluences au sein d’un système grammatical • Côté informatique : techniques diverses, pas régulières Proposition • Côté descriptif : réflexion théorique sur la place des disfluences dans une grammaire • Côté formel : représentation formelle issue de cette réflexion • Côté informatique : caractéristiques, limites, quelques suggestions Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Côté descriptif descriptif Côté Côté formel Proposition Côté informatique Conclusion Caractéristiques générales Rupture du déroulement syntagmatique, entassement paradigmatique Absence de fonction sémantique • Pas de contenu sémantique différent d’une forme non disfluente, n’apporte rien à la sémantique de l’énoncé Absence de fonction syntaxique • Ni consituants d’un syntagme, ni en relation de dépendance Deux types possibles • Bribes : reprises à partir de syntagmes inachevés (il il) • Amorces : reprises à partir de morphèmes inachevés (dans la paran- dans la parano) Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Côté descriptif descriptif Côté Côté formel Proposition Côté informatique Conclusion Organisation interne Trois formes possibles [Pallaud & Henry 03] • Complétées : reprise des premières formulations à l’identique • Modifiées : reprise et modification des premières formulations • Inachevées : abandon des premières formulations Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Côté descriptif descriptif Côté Côté formel Proposition Côté informatique Conclusion Organisation interne (suite) Espaces internes [Shriberg 94] • Reparandum : lieu de la première production (sont très) • Interruption point : lieu de la (première) rupture syntagmatique ([IP]) • Interregnum : lieu où peuvent se produire des marques d’hésitation et/ou des tentatives de formulation avortées (euh sont doivent être) • Repair : reprise du déroulement syntagmatique (doivent pouvoir être contrôlés) Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Côté descriptif Côté formel Proposition Côté informatique Conclusion Côté formel Une différence notable entre linguistique descriptive et formelle • Description : étude fine du fonctionnement interne • Formalisation : maintien d’une cohérence générale Articulation entre les disfluences et le reste de la grammaire • Qu’est-ce qu’une disfluence dans une grammaire? • Plus généralement : Que représente un objet (une construction) dans une grammaire? • Relations entre occurrences possibles ou entre places syntaxiques? Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Côté descriptif Côté formel Proposition Côté informatique Conclusion Option 1: Relations entre occurrences possibles Principe • Chaque occurrence = un objet dans la grammaire Conséquences • Chaque relation (a et b) est multipliée par le nombre d’occurrences de la même place syntaxique Limites • Variation en fonction de la présence et de la forme de la disfluence {a, b} pour “je vais être” vs. {a, a, a, a, b, b} pour “je vais je vais être”, etc. • Certaines caractéristiques générales du syntagme sont rendues caduques par cette présentation Unicité du pronom clitique nominatif, ordre linéaire entre ce pronom et le verbe,… Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Côté descriptif Côté formel Proposition Côté informatique Conclusion Option 2: Parenthésage “étroit” Principe • Les éléments constitutifs d’une disfluence sont regroupés en un objet unique Conséquences • La multiplication des relations caractéristiques est limitée • A chaque groupe rassemblé doit correspondre une étiquette d’objet grammatical Limites • Les frontières de disfluences ne correspondent pas toujours aux frontières des objets grammaticaux Quelle est la catégorie de “je vais je vais”? Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Côté descriptif Côté formel Proposition Côté informatique Conclusion Option 3: Parenthésage “large” Principe • Chaque espace de la disfluence est considéré comme une occurrence, achevée ou non, du syntagme complet Conséquences • Configuration proche de celle des énumérations, mais avec des caractéristiques différentes Certains peuvent être inachevés, même fonction syntaxique, même fonction sémantique • Puis on met ces différentes occurrences en relation en tant que “disfluence” Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Côté descriptif Côté formel Proposition Côté informatique Conclusion Option 3: Parenthésage “large” (suite) Limites • Comment mettre en relation des parties différentes d’occurrences différentes? • • Selon [Blanche et al. 90]: “(on) vise à dégager la séquence maximale qui a été donnée par le locuteur, en tenant compte de toutes les bribes qu’il a fournies ; dans l’exemple précédent, on retiendra comme séquence maximale : lesquels registres doivent pouvoir être très contrôlés” Comment alors mettre en relation “très” dans le reparandum avec “contrôlés” dans le repair? Il faudrait pouvoir spécifier des relations entre certains constituants de syntagmes différents Solution ad hoc: introduction de types de relations spécifiques au cas des disfluences Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Côté descriptif Côté formel Proposition Côté informatique Conclusion Option 4: Constructions grammaticales disfluentes Principe • Chaque occurrence d’une même place syntaxique = un constituant d’une “construction disfluente” Proche de l’option précédente, mais pas forcément de syntagme complet Conséquences • Les places syntagmatiques sont les mêmes que dans une forme sans disfluence Pas de constructions ad hoc: pas de modification des définitions des syntagmes de la grammaire Pas de relations ad hoc: les “séquences maximales” apparaissent clairement Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Côté descriptif Côté formel Proposition Proposition Côté informatique Conclusion Représentation formelle Perspective CxG/GP • Cadre théorique: Construction Grammar (CxG) [Kay & Fillmore 99] • Cadre formel: Grammaires de Propriétés (GP) [Blache 05] • Grammaire = ressource unique, descriptive (non générative), multiniveaux (non modulaire), non lexicalisée Même attirail formel que tous les autres objets de la grammaire Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Côté descriptif Côté formel Proposition Proposition Côté informatique Conclusion La “construction disfluente” Représentation dans la grammaire • Au moins deux objets x • Traits (sauf l’INDEX) de valeurs identiques un à un • x1 = repair Conséquences • Satisfaction complète = bribe complétée • Propriété(s) d’accord violée(s) = bribe modifiée • Les x sont des syntagmes = bribe inachevée Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Côté descriptif Côté formel Proposition Proposition Côté informatique Conclusion Exemple 1: Une bribe complétée Une construction par catégorie • Un “pronom disfluent” (je je) • Un “verbe disfluent” (vais vais) Caractéristiques • Degré d’évaluation: toutes les propriétés de la définition sont évaluées • Degré de satisfaction: toutes les propriétés évaluées sont satisfaites • Degré de satisfaction propagée: les deux constructions qui constituent le “pronom disfluent” sont elles-mêmes satisfaites à 100% Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Côté descriptif Côté formel Proposition Proposition Côté informatique Conclusion Exemple 1: Une bribe complétée (suite) Le “verbe disfluent” • Mêmes caractéristiques La suite de l’analyse • Les objets disfluents ont le même statut que leurs équivalents syntaxiques et sémantiques non disfluents Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Côté descriptif Côté formel Proposition Proposition Côté informatique Conclusion Exemple 2: Une bribe modifiée Une modification sémantique • Un peu: intensité faible • Pas mal: intensité forte Caractéristiques • Deux propriétés ne sont pas satisfaites Forme grahique Intensité • Le degré de satisfaction baisse C’est la caractéristique d’une bribe modifiée Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Côté descriptif Côté formel Proposition Proposition Exemple 3: Une bribe inachevée Côté informatique Conclusion Caractéristiques • Constituants = syntagmes • Degré de satisfaction < 100% • Degré de satisfaction propagée <100% Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Côté descriptif Côté formel Proposition Proposition Côté informatique Conclusion Représentation formelle: conclusions Intégration des disfluences dans la grammaire • Utilisation de l’attirail formel existant, pas de mécanisme ni de représentation ad hoc Réflexion générale sur les grammaires formelles • Quels sont les objets que l’on y représente? Des places syntaxiques, et non des occurrences Représentation et traitement des disfluences • Une seule construction = phénoméne particulier • Trois analyses possibles Complétées = degré de satisf. 100%, degré de satisf. propagé 100% Modifiées = degré de satisf. <100%, degré de satisf. propagé 100% Inachevées = degré de satisf. <100%, degré de satisf. propagé <100% • Distinction des espaces internes Remontée des caractéristiques du repair (propriété “obligatoire”) Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Côté descriptif Côté formel Proposition Côté informatique informatique Conclusion Mécanismes de parsing Conséquences sur le parsing (non-déterministe) • Probable explosion combinatoire Introduction de “constructions disfluentes” dans de nombreux cas superflus Limitation de l’explosion (pistes) • Borner l’introduction d’une disfluence à une distance arbitaire Des objets distants de plus de n constructions ne peuvent pas être les constituants d’une disfluence • Introduire des marques linguistiques pour différencier disfluences et énumérations [Johnson et al. 04] Disfluences: pauses oralisées, connecteurs,… Énumérations: coordonnants, degré de satisfaction propagé = 100%,… • Faire (éventuellement) remonter les informations régulières dans la grammaire Limiter les heuristiques dans les parseurs Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Côté descriptif Côté formel Proposition Côté informatique Conclusion Conclusion Conclusion et perspectives Conclusions • Disfluences = phénomène linguistique particulier, non négligable, particularités notables • Introduction d’une représentation des disfluences dans une grammaire formelle Quel est leur statut? Comment les représenter? Quelles conséquences? Perspectives • Vérifier, affiner les descriptions sur corpus Ajouter des caratéristiques de niveaux différents (notamment prosodie) - en cours Eléments d’analyse / interprétation pragmatique et/ou cognitive • Implémenter et tester Éventuellement compléter la grammaire • Traiter automatiquement les amorces Problème de leur étiquetage Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence Côté descriptif Côté formel Proposition Côté informatique Conclusion Merci Parsing de l’oral : traiter les disfluences Marie-Laure Guénot - LPL, CNRS / Université de Provence