Télécharger - PROJET RHAPSODIE

publicité
Structure microsyntaxique
Kim Gerdes, Sylvain Kahane
Rhapsodie, 19-20-21 juin 2012
Unités rectionnelles
• Autonomie entre micro et macro syntaxe
• Définition assez restrictive de la rection :
– un lexème est régi si sa nature (catégorie), sa
place et/ou les éléments grammaticaux qui
l’accompagne sont imposés par un autre lexème
– test du clivage pour les dépendants verbaux
Une analyse microsyntaxique
dépendances + fonctions
segmentation en lexèmes
catégories
lemmatisation
Catégories
• 13 catégories :
– V pour les verbes
– N pour les noms
– Adj pour les adjectifs
– Adv pour les adverbes
– Pre pour les prépositions
– CS pour les conjonctions de subordination
– D pour les déterminants
– I pour les interjections, y compris des marqueurs
de discours comme bon, ben, euh, hein …
Catégories
– J pour les joncteurs (conjonctions de
coordinations, c’est-à-dire, et caetera)
– Qu pour les mots qu- (relatifs et interrogatifs)
– Cl pour les clitiques, y compris les clitiques sujets
(je, tu, il, on, ce) et l’adverbe de négation ne.
– Pro pour les autres pronoms
– X pour les éléments dont on ne peut déterminer
la catégorie syntaxique : partie inaudible,
certaines amorces, ainsi que les positions non
instanciées marquées par &.
Traits
• traits pour les V
– mode= indicative, subjonctive, infinitive,
past_participle, present_participle
– pour mode=indicative, on a
tense= present, future, imperfect, conditional
(le passé composé est avoir/être [tense=present] +
V [mode=past_participle])
+ number= sg, pl ; person= 1,2,3
– gender= fem, masc ; number pour past_participle
Lexèmes
• segmentation en lexèmes ≈ segmentation en
mots orthographiques
• Définition : un segment XY est découpé en
deux morceaux si X et Y commutent librement
ou si XY est analogue à une combinaison libre
– corpus de français est une combinaison libre
– pomme de terre est analogue à corpus de français
Lexèmes
• certains mots orthographiques donnent deux
lexèmes :
– dit-on = dit + -on
– (ces) maisons-là = maisons + -là
– des = de + les (selon les cas)
Lexèmes
• certaines combinaisons de mots
orthographiques donnent un lexème :
– à nouveau, à part, à peine, a priori, à savoir, à
travers, alors que, au moins, autre chose, bien sûr,
d'abord, d'ailleurs, de nouveau, de plus, de plus
en plus, du tout, eh ben, eh bien, encore que, en
tant que, en tout cas, en quelque sorte, et
caetera, et puis …
– exemple : dès que vs alors que
Fonctions
• 7 fonctions pour la rection
– sub
– obj
– obl
– pred
– ad
– root
– dep
sujet
objet direct
oblique
prédicat complexe
ajout
racine
autres dépendants
Pour les dispositifs
c’est X qui V ; il y a X qui X ; ce qui V c’est X; ça fait X que V …
La racine est sur est parce que c’est la tête morphosyntaxique : c’est
l’élément qui prend l’enclitique dans une interrogative (qui est-ce qui a
fait une fausse manoeuvre), et qui prend la négation pour la négation
totale (il est faux que c’est X qui V ce n’est pas X qui V)
Interrogation
qui est-ce qui V est traité comme un
cas particulier de c’est X qui V
Distinction obliques / pred
Obl
aller à Paris, compter sur Marie, parler à Marie
Je suis à Paris (complément de être, pas pronomominalisable par
le/la/les : construction locative, mais pas pred)
Pred: sont reliés par une relation pred des èléments qui forment un
prédicat complexe
1.
2.
3.
copule-attribut : être étudiant, être joli, être en colère
(tous les compléments d’ être et des verbes d’état (au sens de la
grammaire scolaire de la République Française) pronominalisé par
le/la/les )
Relation entre auxiliaire et PP : j’ai vu, je suis tombée
Relation entre modal et Vinf : il doit venir, il pourrait venir
UI enchâssées
(discours rapporté et greffes)
Seule la première UI est liée au recteur :
Relatives
La tête de la relative est le verbe, donc lien dep entre
le nom et le verbe
Idem pour interrogative indirecte :
– je sais qui vient : sais –obj-> vient
Entassements
• Un segment Y s’entasse avec un
segment antérieur X ssi Y occupe la
même position syntaxique que X
• coordination
• reformulation
• disfluence …
dep
X
Y
dep
16
Entassements
• lien paradigmatique entre conjoints
• liens de jonction entre joncteur et conjoints
• liens hérités
Typage des liens para
• para_coord : coordination standard
• para_hyper : coordination hyperonymique
visant à construire un hyperonyme des conjoints
•
•
•
•
para_intens : intensification par répétition
para_disfl : disfluence, pas de changement lexical
para_reform : reformulation
para_dform : double formulation ≈
apposition, introduction de deux dénotations différentes d’un
même référent
• para_negot : négociation
(demande de confirmation, réfutation, confirmation, correction)
Arbre de dépendance
• si l’on exclut les liens hérités et les liens junc,
le graphe de dépendances est un arbre, càd
que chaque nœud a une et une seule
dépendance pointant sur lui
Arbre syntagmatique
Le liens de dépendance peuvent aussi être exprimés à l'aide d'un arbre
syntagmatique :
• La tête donne le nom d'un syntagme de tous ses dépendants
directs et indirects :
– quelques exceptions :
• verbe fini → S
• on ignore les liens hérités
• Chaque unité rectionnelle donne un arbre syntagmatique
• Seul « problème » : syntagmes discontinus
• Rhapsodie inclut une couche d'arbres syntagmatiques, calculés
automatiquement à partir de l'arbre de dépendance
Arbre syntagmatique
Quelques exemples
3 types de catégories :
• Toujours syntagme (N,V)
• Parfois syntagme (Adv)
• Jamais syntagme (Cl)
Arbre syntagmatique
Pas toujours S
Arbre syntagmatique
Coordination
Arbre syntagmatique
Relatives
Arbre syntagmatique
Relatives : dépendances de longue-distance
– Alignement linéaire indépendant du
regroupement des mots
NP
N
Arbre syntagmatique
Relatives : dépendances de longue-distance
– Alignement linéaire indépendant du
regroupement des mots
NP
N
Arbre syntagmatique
Les fonctions syntaxiques sont préservées en
tant que trait sur chaque syntagme
sub
head
pred
head
Conclusion
• Assez peu d’exemples qu’on ne sait pas
comment analyser au final
• Découpage en lexèmes : beaucoup de cas
limites
• Liens hérités : trop complexes et traitement
automatique problématique
• Phrases longues difficiles à annoter
Merci
Constructions atypiques
• droit Adj ? est-il dans le paradigme des locatifs
que régit le verbe aller ?
Constructions atypiques
• un que en trop ? quel est son rôle ?
Auxiliare + participe
•
•
•
•
L’auxiliaire est la tête : Elle en a profité
Pareil pour les verbes modaux : je dois partir
le sujet est dépendant de l'auxiliaire
les autres compléments (qui sont souscatégorisés par le lexème verbal) sont
dépendants du verbe.
• les compléments circonstanciels non souscatégorisés sont à rattacher également (et un
peu arbitrairement) au verbe.
Pred
Lien pred entre :
– auxiliaire et PP
– modal et Vinf
– copule et attribut
– verbe support et nom prédicatif
Plus généralement, un lien pred lie deux éléments qui
forment ensemble un prédicat complexe
Verbes pronominaux et verbes
réflexifs
Pour les réflexifs et les réciproques on aura la fonction
déterminée par le verbe (obj, oblique) : se laver (obj), se
regarder (obj), se parler (obl)
Pour les pronominaux (verbes qui n’ont pas d’autres formes que
la forme pronominal dans le même sens) c’est toujours dép :
s’enfuir (dép), se souvenir (dép)
Même chose pour le y de il y a présentatif :
Les cas de réalisation non standard
des compléments sous-catégorisés
Ex.
Je me souviens plus lequel
souviens lequel on décide qu’on en fait une
relation d’objet parce que on fait du corpus et
on n’essaie pas de normaliser
Pareil pour
Le truc que je t’ai parlé
Introducteur d’UI
Introducteurs d’UI restent root et deviennent la
tête du verbe
Les introducteurs d’UI sont
– soit des joncteurs (J)
et on comprend que Charlie s’accuse
– soit des conjonctions de subordination (CS)
parce que
Lien normal vs lien hérité
Dans les cas de la coordination c’est le premier conjoint qui est lié au gouverneur de la
coordination
Des poires et des pommes sont sur la table
Et s’il y a des dépendants partagés par le conjoint ils sont liés au conjoint plus proche
Des poires et des pommes trop mûres sont sur la table
Dans le cas de la reformulation/disfluence, c’est toujours le conjoint plus proche qui a
un lien avec le contexte
liens hérités
• en cas d’entassement sur la racine, la deuxième
racine a donc un lien root_inherited
• lorsqu’il y a deux entassements, on ne met pas les
liens hérités au travers de deux entassements (par ex
ici entre le premier est et le deuxième de)
Tout
• tout est traité comme un Adj et pas comme
un prédéterminant :
Distinction oblique/objet
Pour distinguer entre objets et obliques on adopte le critère de la
pronominalisation (et pas le critère de la présence/absence d’une
préposition):
Il faut compter trois heures (obl parce que ça se pronominalise avec combien)
Ça vaut cent euros (obl pour la même raison)
Je compte qu’il vienne (obl parce-que ça se pronominalise avec y)
Je refuse de partir (obj – pronominalisation avec le)
Présentatives et clivées
• un analyse alternative :
Téléchargement