Annotation manuelle ou semi-automatique du FDTB : Problèmes à l’interface syntaxe-sémantique pour les connecteurs de discours Laurence Danlos Université Paris 7, ALPAGE 30/10/2012 French Discourse Tree Bank PDTB (Penn Discourse Tree Bank) [PDTB Group, 2008] couche d’annotation discursive (manuelle) sur le PTB-v2 (Penn Tree Bank), corpus anglais tiré du Wall Street Journal annoté manuellement pour la morpho-syntaxe L. Danlos (ALPAGE) Interface syntaxe-sémantique 30/10/2012 2 / 34 French Discourse Tree Bank PDTB (Penn Discourse Tree Bank) [PDTB Group, 2008] couche d’annotation discursive (manuelle) sur le PTB-v2 (Penn Tree Bank), corpus anglais tiré du Wall Street Journal annoté manuellement pour la morpho-syntaxe FDTB (French Discourse Tree Bank) couche d’annotation discursive sur le FTB (French Tree Bank), corpus français tiré du journal Le Monde annoté manuellement pour la morpho-syntaxe et sur le corpus SEQUOIA [Candito et Seddah, 2012] qui couvre des textes de genres différents L. Danlos (ALPAGE) Interface syntaxe-sémantique 30/10/2012 2 / 34 French Discourse Tree Bank PDTB (Penn Discourse Tree Bank) [PDTB Group, 2008] couche d’annotation discursive (manuelle) sur le PTB-v2 (Penn Tree Bank), corpus anglais tiré du Wall Street Journal annoté manuellement pour la morpho-syntaxe FDTB (French Discourse Tree Bank) couche d’annotation discursive sur le FTB (French Tree Bank), corpus français tiré du journal Le Monde annoté manuellement pour la morpho-syntaxe et sur le corpus SEQUOIA [Candito et Seddah, 2012] qui couvre des textes de genres différents Différences méthodologiques (théoriques) L. Danlos (ALPAGE) Interface syntaxe-sémantique 30/10/2012 2 / 34 Plan de l’exposé 1 Présentation du PDTB 2 Questions méthodologiques pour le FDTB 3 Conclusion et perspectives futures L. Danlos (ALPAGE) Interface syntaxe-sémantique 30/10/2012 3 / 34 Plan de l’exposé 1 Présentation du PDTB 2 Questions méthodologiques pour le FDTB 3 Conclusion et perspectives futures L. Danlos (ALPAGE) Interface syntaxe-sémantique 30/10/2012 4 / 34 PDTB : Trois principes de base (consensus) L. Danlos (ALPAGE) Interface syntaxe-sémantique 30/10/2012 5 / 34 PDTB : Trois principes de base (consensus) Un connecteur de discours est un prédicat sémantique à deux arguments dénotant des “objet abstraits” (A0 [Asher et Lascarides, 2003]) • identifier dans le texte d’entrée les connecteurs de discours - liste fermée d’éléments regroupant principalement conjonctions de coordination et de subordination et certains adverbiaux - , • vérifier qu’ils sont bien employés comme connecteurs de discours (2)a. Tu as l’air de penser qu’elle n’est pas honnête. A ce moment-là, ne lui raconte rien. b. Il a commencé à pleuvoir. Marie est arrivée à ce moment-là. • pour chaque connecteur, délimiter les empans de texte correspondant à ses deux arguments. L. Danlos (ALPAGE) Interface syntaxe-sémantique 30/10/2012 5 / 34 PDTB : Trois principes de base (suite) Un connecteur de discours lexicalise une “relation de discours” (“relation rhétorique”) qui appartient à une liste fermée d’éléments (Explication, Contraste, Concession, . . . ) • hiérarchie arborescente des relations de discours : les feuilles sont les relations de discours, les nœuds intermédiaires des classes de relations de plus en plus générales en montant vers la racine. • pour chaque connecteur de discours, indiquer quelle(s) relation(s) de discours il lexicalise en précisant une feuille de la hiérarchie en cas de certitude ou en remontant dans la hiérarchie en cas de doute. L. Danlos (ALPAGE) Interface syntaxe-sémantique 30/10/2012 6 / 34 PDTB : Trois principes de base (fin) Les relations de discours ne sont pas forcément lexicalisées par un connecteur de discours explicite • “connecteur implicite” (ou “connecteur zéro Ø”) (3)a. Fred n’était pas en forme aujourd’hui parce qu’il a mal dormi la nuit dernière. b. Fred n’était pas en forme aujourd’hui. Ø Il a mal dormi la nuit dernière. • identifier les positions où on doit insérer un connecteur implicite, • appliquer aux connecteurs implicites les traitements décrits pour les connecteurs explicites L. Danlos (ALPAGE) Interface syntaxe-sémantique 30/10/2012 7 / 34 Autres informations annotées dans le PDTB • pour chaque connecteur de discours (explicite ou implicite), la source de la relation de discours en jeu et la source de chacun de ses arguments, • des informations relatives à la factivité et la polarité. L. Danlos (ALPAGE) Interface syntaxe-sémantique 30/10/2012 8 / 34 Un exemple du PDTB (4)a. Factory orders and construction outlays were largely flat in December while purchasing agents said manufacturing shrank further in October. REL = Contrast b. [Source] [Type] [Polarity] [Determinacy] REL Wr Comm Null Null Arg1 Inh Null Null Null Arg2 Ot Comm Null Null Wr = Writer, Inh = Inherited, Ot = Other L. Danlos (ALPAGE) Interface syntaxe-sémantique 30/10/2012 9 / 34 Données quantitatives sur le PDTB • 18 459 connecteurs explicites — appartenant à une liste fermée de 100 éléments — et 16 224 connecteurs implicites ont été annotés, • les relations de discours sont au nombre de 30 réparties dans une hiérachie contenant quatre classes majeures : T EM P ORAL, CON T IN GEN CY, COM P ARISON et EXP AN SION • travail d’annotation mené sur plusieurs années par des chercheurs senior et des doctorants • accord inter-annotateur : • pour les empans des arguments : 90.2 % pour les connecteurs explicites et 85.1 % pour les implicites, • pour les relations de discours : 77 % sur les feuilles de la hiérarchie et 90% sur les quatre classes majeures. L. Danlos (ALPAGE) Interface syntaxe-sémantique 30/10/2012 10 / 34 Exploitation des annotations du PDTB • nombreuses statistiques données en annexes du manuel d’annotation • multe voies de recherche (et de publications) dont parsing de discours et classification des connecteurs [Webber et Egg, 2011] Projets analogues pour d’autres langues : chinois, turc et hindi Extension du PDTB • annoter plus de connecteurs explicites (pour l’instant, une centaine) • annoter plus de connecteurs implicites (pour l’instant, limité) L. Danlos (ALPAGE) Interface syntaxe-sémantique 30/10/2012 11 / 34 Plan de l’exposé 1 Présentation du PDTB 2 Questions méthodologiques pour le FDTB 3 Conclusion et perspectives futures L. Danlos (ALPAGE) Interface syntaxe-sémantique 30/10/2012 12 / 34 Questions méthodologiques pour le FDTB Hiérarchie des relations des connecteurs • Nouvelle hiérarchie des relations de discours (Danlos et Roze 2012) • Groupe de travail dans le cadre de Muldico et d’un projet COST L. Danlos (ALPAGE) Interface syntaxe-sémantique 30/10/2012 13 / 34 Questions méthodologiques pour le FDTB Hiérarchie des relations des connecteurs • Nouvelle hiérarchie des relations de discours (Danlos et Roze 2012) • Groupe de travail dans le cadre de Muldico et d’un projet COST Informations de factivité • Autre façon d’annoter les données • en s’inspirant de [Saurí et Pustejovsky, 2009, Danlos et Rambow, 2011] L. Danlos (ALPAGE) Interface syntaxe-sémantique 30/10/2012 13 / 34 Questions méthodologiques pour le FDTB Hiérarchie des relations des connecteurs • Nouvelle hiérarchie des relations de discours (Danlos et Roze 2012) • Groupe de travail dans le cadre de Muldico et d’un projet COST Informations de factivité • Autre façon d’annoter les données • en s’inspirant de [Saurí et Pustejovsky, 2009, Danlos et Rambow, 2011] Couverture totale • PDTB : couverture partielle (certains connecteurs) • FDTB : couverture totale comme en RST ou SDRT • vers un graphe discursif connexe couvrant tous les segments du texte (au même titre qu’une analyse syntaxique d’une phrase couvre tous les mots de la phrase) L. Danlos (ALPAGE) Interface syntaxe-sémantique 30/10/2012 13 / 34 Couverture totale : Connecteurs explicites L. Danlos (ALPAGE) Interface syntaxe-sémantique 30/10/2012 14 / 34 Couverture totale : Connecteurs explicites • annoter tous les connecteurs de LEXCONN [Roze et Danlos, 2012] : base lexicale avec 430 entrées de connecteurs (dont 206 adverbiaux) http://www.linguist.univ-paris-diderot.fr/~croze/D/ Lexconn.xml • Remarque : on ne connaît pas pour le français les 100 connecteurs les plus fréquents Rappel : un mot comme et peut avoir un emploi discursif (5a) et un emploi non discursif (5b). (6)a. Fred a passé l’aspirateur et fait la vaisselle. b. Fred et Vanessa se sont mariés en 1999. L. Danlos (ALPAGE) Interface syntaxe-sémantique 30/10/2012 14 / 34 Couverture totale : Connecteurs implicites Annoter plus de connecteurs implicites (Ø) que dans le PDTB (7)a. b. c. d. Fred Fred Fred Fred a a a a tiré sur Marie Ø la tuant. tué Marie Ø en lui tirant dessus. fait la vaisselle, Ø passé l’aspirateur, et lavé les carreaux. pris une décision importante : Ø il va faire la vaisselle. Les positions où un connecteur zéro doit être inséré à l’intérieur d’une phrase reposent essentiellement sur la syntaxe (Antolinos-Basso 2012) L. Danlos (ALPAGE) Interface syntaxe-sémantique 30/10/2012 15 / 34 Question : doit-on se servir de l’annotation syntaxique ? PDTB L’annotation discursive est faite sans prendre en compte l’annotation syntaxique PDT (Prague Dependency Treebank [Polakova et Hajicova, 2012]) • annotation discursive est une sur-couche sur une annotation en syntaxe profonde qui est elle-même une sur-couche sur une annotation en syntaxe de surface • résultats satisfaisants et rapides pour les conjonctions de coordination et de subordination L. Danlos (ALPAGE) Interface syntaxe-sémantique 30/10/2012 16 / 34 Problèmes à l’interface syntaxe-sémantique pour les connecteurs adverbiaux Problème connu Un connecteur adverbial n’a qu’un seul argument syntaxique — comme tout adverbial — et deux arguments sémantiques — comme tout connecteur. ⇒ il faut trouver dans le contexte discursif gauche de la phrase hôte du connecteur adverbial un argument, Arg1 , par une procédure qui n’a rien à voir avec la syntaxe. Problème étudié Dans quelle mesure le second argument sémantique d’un connecteur adverbial Arg2 correspond-il à son argument syntaxique ? L. Danlos (ALPAGE) Interface syntaxe-sémantique 30/10/2012 17 / 34 Portées syntaxique et sémantique dans les phrases simples Conventions typographiques du PDTB : Arg1 Conn Arg2 (8)a. Fred ira à Dax pour Noël. Ensuite, il ira à Pau. b. Fred ira à Dax pour Noël. Il ira ensuite à Pau. c. Fred ira à Dax pour Noël. Il ira à Pau, ensuite. « phrase hôte » du connecteur adverbial = phrase dont un élément est le site d’adjonction de l’adverbial. Principe 1 L’Arg2 d’un connecteur adverbial est sa phrase hôte. Ce principe conduit à une interface syntaxe-sémantique triviale pour les connecteurs adverbiaux, avec des portées syntaxique et sémantique identiques, mais nous allons montrer que ce principe ne tient pas dans des cas plus complexes. L. Danlos (ALPAGE) Interface syntaxe-sémantique 30/10/2012 18 / 34 Portées syntaxique et sémantique dans les phrases complexes La seconde phrase où apparaît le connecteur adverbial comporte un complément phrastique enchâssé (introduit par un verbe comme croire) Contexte gauche comporte aussi une phrase enchâssée (9)a. Jane a cru que Fred irait à Dax pour Noël. Ensuite, elle a cru qu’il irait à Pau. b. = Jane a cru que Fred irait à Dax pour Noël. Elle a cru ensuite qu’il irait à Pau. c. 6= Jane a cru que Fred irait à Dax pour Noël. Elle a cru qu’ensuite il irait à Pau. Le Principe 1 est respecté pour (9a-b). L. Danlos (ALPAGE) Interface syntaxe-sémantique 30/10/2012 19 / 34 Contexte gauche sans phrase enchâssée (10)a. Fred ira à Dax pour Noël. Ensuite, Jane croit qu’ il ira à Pau. b. # Fred ira à Dax pour Noël. Jane croit ensuite qu’il ira à Pau. c. = Fred ira à Dax pour Noël. Jane croit qu’ ensuite il ira à Pau. Analyse sémantique ensuite ne peut dénoter que la succession temporelle des voyages de Fred, sa portée sémantique en (10a) est donc est la phrase enchâssée, comme c’est le cas en (10c). Analyse syntaxique pour (10a) analyse par « extraction » (Bonami et Godard 2007), comme pour les adverbes de localisation temporelle, e.g. demain (11)a. Demain, Fred ira à Pau. [topicalisation par extraction] b. Demain, Jane croit que Fred ira à Pau. [introduction verbe pont] c. = Jane croit que, demain, Fred ira à Pau. L. Danlos (ALPAGE) Interface syntaxe-sémantique 30/10/2012 20 / 34 Autre analyse syntaxique pour (10a) = (12a) (12)a. Fred ira à Dax pour Noël. Ensuite, Jane croit qu’ il ira à Pau. b. = Fred ira à Dax pour Noël. Ensuite, croit Jane, il ira à Pau. c. = Fred ira à Dax pour Noël. Ensuite, d’après Jane, il ira à Pau. Analyse à la TAG (Grammaire d’Arbres Adjoints, Joshi 1985) des verbes pont • le verbe pont croit est un ajout sur la phrase enchâssée, • le connecteur est lui aussi un ajout sur la phrase enchâssée. • ⇒ la phrase hôte du connecteur est la phrase enchâssée Conclusion Quelle que soit l’analyse syntaxique de (10a) — par extraction ou à la TAG —, le Principe 1 peut être maintenu. L. Danlos (ALPAGE) Interface syntaxe-sémantique 30/10/2012 21 / 34 Principe 1 non maintenable (13)a. Fred ira à Dax pour Noël. Par contre, Jane croit que Luc n’ira pas. b. = Fred ira à Dax pour Noël. Jane croit, par contre, que Luc n’ira pas. c. = Fred ira à Dax pour Noël. Jane croit que, par contre, Luc n’ira pas. Analyse syntaxique de (13b) • ajout sur croire • ⇒ phrase hôte du connecteur = phrase complexe L. Danlos (ALPAGE) Interface syntaxe-sémantique 30/10/2012 22 / 34 Analyse sémantique de (13b) = (14a) (14)a. Fred ira à Dax pour Noël. Jane croit, par contre, que Luc n’ira pas. b. Fred ira à Dax pour Noël. Jane croit, par contre, qu’il n’ira pas. En (14b), conflit d’opinions entre l’auteur et Jane sur le même sujet, i.e. le voyage de Fred à Dax. Conflit qui peut être souligné par l’auteur dans une troisième phrase : On n’est souvent pas d’accord. En (14a), pas de conflit d’opinions entre l’auteur et Jane (interdiction de prolonger par On n’est souvent pas d’accord.) : contraste entre le voyage de Fred à Dax, fait asserté par l’auteur, et le non voyage de Luc à Dax, croyance de Jane (15)a. Fred ira à Dax pour Noël. Jane croit , par contre, que Luc n’ira pas. b. Fred ira à Dax pour Noël. Jane croit, par contre, qu’il n’ira pas. L. Danlos (ALPAGE) Interface syntaxe-sémantique 30/10/2012 23 / 34 Conclusions sur l’analyse sémantique • En (14b), la portée sémantique de par contre est la phrase complexe (= sa phrase hôte) • En (14a), la portée sémantique de par contre est la phrase enchâssée dans sa phrase hôte. Principe 2 L’Arg2 d’un connecteur adverbial peut être le contenu d’une phrase enchâssée dans sa phrase hôte. [connecteur-raising] Le Principe 2 pose problème à l’interface syntaxe-sémantique. L. Danlos (ALPAGE) Interface syntaxe-sémantique 30/10/2012 24 / 34 Prédicats Neg-raising (16)a. Jane ne croit pas que Luc ira à Dax. b. = Jane croit que Luc n’ira pas à Dax (17)a. Fred ira à Dax pour Noël. Jane ne croit pas , par contre, que Luc ira. b. = Fred ira à Dax pour Noël. Jane croit , par contre, que Luc n’ira pas. Principe 3 L’Arg2 d’un connecteur adverbial peut être la négation du contenu d’une phrase enchâssée dans sa phrase hôte. Le Principe 3 pose problème à l’interface syntaxe-sémantique (comme le Principe 2). L. Danlos (ALPAGE) Interface syntaxe-sémantique 30/10/2012 25 / 34 Principe 1 versus Principe 2 versus Principe 3 • choix du verbe d’attitude propositionnelle (jusqu’à présent croire) • choix du connecteur de discours (jusqu’à présent ensuite et par contre) L. Danlos (ALPAGE) Interface syntaxe-sémantique 30/10/2012 26 / 34 Principe 1 versus Principe 2 ou 3 avec par contre Pour les discours cohérents (sans enchâssement dans la première phrase) Principe 1 (Arg2 = contenu de la phrase hôte) Si les événements de la première phrase et de la phrase enchâssée dans la seconde phrase sont identiques, quel que soit le verbe d’attitude propositionnelle, (18) avec un conflit d’opinions entre l’auteur et Jane sur le voyage de Fred à Dax (18)a. Fred ira à Dax pour Noël. Jane croit, par contre, qu’il n’ira pas. b. Fred ira à Dax pour Noël. Jane ne croit pas, par contre, qu’il ira. c. Fred ira à Dax pour Noël. Jane ne sait pas, par contre, qu’il ira. d. Fred ira à Dax pour Noël. Jane prétend, par contre, qu’il n’ira pas. e. Fred ira à Dax pour Noël. Jane doute, par contre, qu’il ira. L. Danlos (ALPAGE) Interface syntaxe-sémantique 30/10/2012 27 / 34 Principe 2 versus Principe 3 avec par contre Pour les discours cohérents (sans enchâssement dans la première phrase) tels que les événements dans la première phase et dans la phrase enchâssée soient différents, e.g. voyage de Fred versus non voyage de Luc à Dax Principe 3 (Arg2 = négation contenu de la phrase enchâssée dans la phrase hôte) • pour des prédicats neg-raising avec une polarité négative, (19a) • pour certains prédicats non neg-raising avec une polarité négative, (19b) • pour certains prédicats “négatifs” sans polarité négative, (19c) (19)a. Fred ira à Dax pour Noël. Jane ne croit pas , par contre, que Luc ira. b. Fred ira à Dax pour Noël. Jane n’est pas sûre , par contre, que Luc ira. c. Fred ira à Dax pour Noël. Jane doute , par contre, que Luc ira. L. Danlos (ALPAGE) Interface syntaxe-sémantique 30/10/2012 28 / 34 Plusieurs niveaux d’enchâssement Les Principes 2 et 3 s’appliquent pour un niveau quelconque d’enchâssement • Principe 2 : (20a) • Principe 3 :“cyclicité” de neg-raising, (20b) (20)a. Fred ira à Dax pour Noël. Julie dit , par contre, que Jane croit que Luc n’ira pas. b. Fred ira à Dax pour Noël. Julie ne pense pas , par contre, que Jane croit que Luc ira. L. Danlos (ALPAGE) Interface syntaxe-sémantique 30/10/2012 29 / 34 Choix du connecteur de discours adverbial • par contre, Principes 1, 2 et 3 : de même pour les autres connecteurs contrastifs en revanche, néanmoins, etc. • ensuite, Principe 1 : de même pour les autres connecteurs temporels auparavant, après, etc. • par exemple se comporte comme par contre, (21a) • en effet se comporte comme par contre, (21b) (21)a. Cette banque a fait des investissements imprudents. Son directeur reconnaît , par exemple, qu’ elle a fait un investissement de 440 millions d’euros en Cratupie. b. Fred s’est mal comporté avec Julie. Jane m’a dit , en effet qu’ il lui a posé un lapin. L. Danlos (ALPAGE) Interface syntaxe-sémantique 30/10/2012 30 / 34 Plan de l’exposé 1 Présentation du PDTB 2 Questions méthodologiques pour le FDTB 3 Conclusion et perspectives futures L. Danlos (ALPAGE) Interface syntaxe-sémantique 30/10/2012 31 / 34 Conclusion • Les connecteurs adverbiaux peuvent poser problème à l’interface syntaxe-sémantique pour leur Arg2 • ainsi, par contre se comporte comme un connecteur “flottant” (ou “un raising connecteur”) • mais tous les connecteurs adverbiaux ne se comportent pas comme par contre, voir ensuite • Apparemment, comportement similaire pour des connecteurs de sémantique similaire (contrastive, temporelle, ...) • A vérifier (par exemple, après l’annotation du FDTB) Conclusion pour l’annotation manuelle des connecteurs adverbiaux dans le FDTB Il semble qu’il faut faire abstraction de l’annotation syntaxique pour l’Arg2 (non envisageable pour l’Arg1) L. Danlos (ALPAGE) Interface syntaxe-sémantique 30/10/2012 32 / 34 Arguments des conjonctions des conjonctions Arg2 enchâssé dans la clause hôte • Fred est allé travailler bien que Jane dise/pense qu’ il est très malade. • # Fred est fatigué parce que Jane dit/pense qu’il a mal dormi. analyse discursive 6= analyse syntaxique profonde = analyse de surface Arg2 dépassant la clause hôte (22)a. Fred est furieux parce qu’il a raté son permis de conduire. De plus, il a perdu ses clefs. Arg1 dans la phrase typographique de la conjonction mais si complexe P1 Conja P2 Conjb P3 . analyse discursive = analyse syntaxique profonde 6= analyse de surface L. Danlos (ALPAGE) Interface syntaxe-sémantique 30/10/2012 33 / 34 Perspectives futures Annotation discursive sur annotation syntaxique (profonde) Pas évident que ce soit une bonne idée Invitation Nous invitons toute personne intéressée par les connecteurs de discours et/ou l’analyse discursive à nous contacter afin de participer au FDTB, entreprise de longue haleine aux résultats attendus. L. Danlos (ALPAGE) Interface syntaxe-sémantique 30/10/2012 34 / 34 Asher, N. et Lascarides, A. (2003). Logics of Conversation. Cambridge University Press. Candito, M. et Seddah, D. (2012). Le corpus Sequoia : annotation syntaxique et exploitation pour l’adaptation d’analyseur par pont lexical. In TALN 2012, Grenoble, France. Danlos, L. et Rambow, O. (2011). Veridicality of discourse relations and factuality information. In Proceedings of the fourth workshop on Constraints in Discourse (CID 2011), Agay, France. PDTB Group (2008). The Penn Discourse Treebank 2.0 annotation manual. Rapport technique, Institute for Research in Cognitive Science, University of Philadelphia. Polakova, L. et Hajicova, E. (2012). Does Tectogrammatics Help the Annotation of Discourse ? In COLING 2012, Bombay, India. Roze, C. et Danlos, L. (2012). LEXCONN : a French lexicon of discourse connectives. Discours, 10. Saurí, R. et Pustejovsky, J. (2009). FactBank : A corpus annotated with event factuality. Language Resources and Evaluation, 43:227–268. Webber, B. et Egg, M. (2011). Discourse structure and language technology. Natural Language Engineering, 1(1):1–54. L. Danlos (ALPAGE) Interface syntaxe-sémantique 30/10/2012 34 / 34