Structure microsyntaxique Kim Gerdes, Sylvain Kahane Rhapsodie, 19-20-21 juin 2012 Unités rectionnelles • Autonomie entre micro et macro syntaxe • Définition assez restrictive de la rection : – un lexème est régi si sa nature (catégorie), sa place et/ou les éléments grammaticaux qui l’accompagne sont imposés par un autre lexème – test du clivage pour les dépendants verbaux Une analyse microsyntaxique dépendances + fonctions segmentation en lexèmes catégories lemmatisation Catégories • 13 catégories : – V pour les verbes – N pour les noms – Adj pour les adjectifs – Adv pour les adverbes – Pre pour les prépositions – CS pour les conjonctions de subordination – D pour les déterminants – I pour les interjections, y compris des marqueurs de discours comme bon, ben, euh, hein … Catégories – J pour les joncteurs (conjonctions de coordinations, c’est-à-dire, et caetera) – Qu pour les mots qu- (relatifs et interrogatifs) – Cl pour les clitiques, y compris les clitiques sujets (je, tu, il, on, ce) et l’adverbe de négation ne. – Pro pour les autres pronoms – X pour les éléments dont on ne peut déterminer la catégorie syntaxique : partie inaudible, certaines amorces, ainsi que les positions non instanciées marquées par &. Traits • traits pour les V – mode= indicative, subjonctive, infinitive, past_participle, present_participle – pour mode=indicative, on a tense= present, future, imperfect, conditional (le passé composé est avoir/être [tense=present] + V [mode=past_participle]) + number= sg, pl ; person= 1,2,3 – gender= fem, masc ; number pour past_participle Lexèmes • segmentation en lexèmes ≈ segmentation en mots orthographiques • Définition : un segment XY est découpé en deux morceaux si X et Y commutent librement ou si XY est analogue à une combinaison libre – corpus de français est une combinaison libre – pomme de terre est analogue à corpus de français Lexèmes • certains mots orthographiques donnent deux lexèmes : – dit-on = dit + -on – (ces) maisons-là = maisons + -là – des = de + les (selon les cas) Lexèmes • certaines combinaisons de mots orthographiques donnent un lexème : – à nouveau, à part, à peine, a priori, à savoir, à travers, alors que, au moins, autre chose, bien sûr, d'abord, d'ailleurs, de nouveau, de plus, de plus en plus, du tout, eh ben, eh bien, encore que, en tant que, en tout cas, en quelque sorte, et caetera, et puis … – exemple : dès que vs alors que Fonctions • 7 fonctions pour la rection – sub – obj – obl – pred – ad – root – dep sujet objet direct oblique prédicat complexe ajout racine autres dépendants Pour les dispositifs c’est X qui V ; il y a X qui X ; ce qui V c’est X; ça fait X que V … La racine est sur est parce que c’est la tête morphosyntaxique : c’est l’élément qui prend l’enclitique dans une interrogative (qui est-ce qui a fait une fausse manoeuvre), et qui prend la négation pour la négation totale (il est faux que c’est X qui V ce n’est pas X qui V) Interrogation qui est-ce qui V est traité comme un cas particulier de c’est X qui V Distinction obliques / pred Obl aller à Paris, compter sur Marie, parler à Marie Je suis à Paris (complément de être, pas pronomominalisable par le/la/les : construction locative, mais pas pred) Pred: sont reliés par une relation pred des èléments qui forment un prédicat complexe 1. 2. 3. copule-attribut : être étudiant, être joli, être en colère (tous les compléments d’ être et des verbes d’état (au sens de la grammaire scolaire de la République Française) pronominalisé par le/la/les ) Relation entre auxiliaire et PP : j’ai vu, je suis tombée Relation entre modal et Vinf : il doit venir, il pourrait venir UI enchâssées (discours rapporté et greffes) Seule la première UI est liée au recteur : Relatives La tête de la relative est le verbe, donc lien dep entre le nom et le verbe Idem pour interrogative indirecte : – je sais qui vient : sais –obj-> vient Entassements • Un segment Y s’entasse avec un segment antérieur X ssi Y occupe la même position syntaxique que X • coordination • reformulation • disfluence … dep X Y dep 16 Entassements • lien paradigmatique entre conjoints • liens de jonction entre joncteur et conjoints • liens hérités Typage des liens para • para_coord : coordination standard • para_hyper : coordination hyperonymique visant à construire un hyperonyme des conjoints • • • • para_intens : intensification par répétition para_disfl : disfluence, pas de changement lexical para_reform : reformulation para_dform : double formulation ≈ apposition, introduction de deux dénotations différentes d’un même référent • para_negot : négociation (demande de confirmation, réfutation, confirmation, correction) Arbre de dépendance • si l’on exclut les liens hérités et les liens junc, le graphe de dépendances est un arbre, càd que chaque nœud a une et une seule dépendance pointant sur lui Arbre syntagmatique Le liens de dépendance peuvent aussi être exprimés à l'aide d'un arbre syntagmatique : • La tête donne le nom d'un syntagme de tous ses dépendants directs et indirects : – quelques exceptions : • verbe fini → S • on ignore les liens hérités • Chaque unité rectionnelle donne un arbre syntagmatique • Seul « problème » : syntagmes discontinus • Rhapsodie inclut une couche d'arbres syntagmatiques, calculés automatiquement à partir de l'arbre de dépendance Arbre syntagmatique Quelques exemples 3 types de catégories : • Toujours syntagme (N,V) • Parfois syntagme (Adv) • Jamais syntagme (Cl) Arbre syntagmatique Pas toujours S Arbre syntagmatique Coordination Arbre syntagmatique Relatives Arbre syntagmatique Relatives : dépendances de longue-distance – Alignement linéaire indépendant du regroupement des mots NP N Arbre syntagmatique Relatives : dépendances de longue-distance – Alignement linéaire indépendant du regroupement des mots NP N Arbre syntagmatique Les fonctions syntaxiques sont préservées en tant que trait sur chaque syntagme sub head pred head Conclusion • Assez peu d’exemples qu’on ne sait pas comment analyser au final • Découpage en lexèmes : beaucoup de cas limites • Liens hérités : trop complexes et traitement automatique problématique • Phrases longues difficiles à annoter Merci Constructions atypiques • droit Adj ? est-il dans le paradigme des locatifs que régit le verbe aller ? Constructions atypiques • un que en trop ? quel est son rôle ? Auxiliare + participe • • • • L’auxiliaire est la tête : Elle en a profité Pareil pour les verbes modaux : je dois partir le sujet est dépendant de l'auxiliaire les autres compléments (qui sont souscatégorisés par le lexème verbal) sont dépendants du verbe. • les compléments circonstanciels non souscatégorisés sont à rattacher également (et un peu arbitrairement) au verbe. Pred Lien pred entre : – auxiliaire et PP – modal et Vinf – copule et attribut – verbe support et nom prédicatif Plus généralement, un lien pred lie deux éléments qui forment ensemble un prédicat complexe Verbes pronominaux et verbes réflexifs Pour les réflexifs et les réciproques on aura la fonction déterminée par le verbe (obj, oblique) : se laver (obj), se regarder (obj), se parler (obl) Pour les pronominaux (verbes qui n’ont pas d’autres formes que la forme pronominal dans le même sens) c’est toujours dép : s’enfuir (dép), se souvenir (dép) Même chose pour le y de il y a présentatif : Les cas de réalisation non standard des compléments sous-catégorisés Ex. Je me souviens plus lequel souviens lequel on décide qu’on en fait une relation d’objet parce que on fait du corpus et on n’essaie pas de normaliser Pareil pour Le truc que je t’ai parlé Introducteur d’UI Introducteurs d’UI restent root et deviennent la tête du verbe Les introducteurs d’UI sont – soit des joncteurs (J) et on comprend que Charlie s’accuse – soit des conjonctions de subordination (CS) parce que Lien normal vs lien hérité Dans les cas de la coordination c’est le premier conjoint qui est lié au gouverneur de la coordination Des poires et des pommes sont sur la table Et s’il y a des dépendants partagés par le conjoint ils sont liés au conjoint plus proche Des poires et des pommes trop mûres sont sur la table Dans le cas de la reformulation/disfluence, c’est toujours le conjoint plus proche qui a un lien avec le contexte liens hérités • en cas d’entassement sur la racine, la deuxième racine a donc un lien root_inherited • lorsqu’il y a deux entassements, on ne met pas les liens hérités au travers de deux entassements (par ex ici entre le premier est et le deuxième de) Tout • tout est traité comme un Adj et pas comme un prédéterminant : Distinction oblique/objet Pour distinguer entre objets et obliques on adopte le critère de la pronominalisation (et pas le critère de la présence/absence d’une préposition): Il faut compter trois heures (obl parce que ça se pronominalise avec combien) Ça vaut cent euros (obl pour la même raison) Je compte qu’il vienne (obl parce-que ça se pronominalise avec y) Je refuse de partir (obj – pronominalisation avec le) Présentatives et clivées • un analyse alternative :