1 Interaction Grammars

publicité
Developing a core Interaction Grammar for French with XMG
Guy Perrier
LORIA, Nancy­université
1 ­ Interaction Grammars
•
The starting idea is the metaphor of the chemical molecule (Tesnière 1934).
• Categorial Grammars integrated this idea as a principle of syntactic composition. • Interaction Grammars use the same idea with the notion of polarity. 1 ­ Interaction Grammars
•
Syntactic trees are decorated with polarized features which express their saturation state and their ability to interact.
o Positive features express available resources. o Negative features express expected resources.
o Neutral features express properties that do not behave as resources.
o Virtual features need to combine with positive, negative or neutral features to be realized.
1 ­ Interaction Grammars
•
Unlike Categorial Grammars, Interaction Grammars are designed in a model­
theoretic framework and not in a generative­enumerative framework. •
A grammar is a system of constraints. Parsing a sentence reduces to a constraint satisfaction problem: we have to find models satisfying a set of constraints which represent information from the grammar and from the input sentence. •
Constraints representing the grammar are expressed as polarized tree descriptions and the corresponding models are completely specified syntactic trees, verifying saturation and minimality properties. 1 ­ Interaction Grammars
•
Models can be computed by specifying the initial tree descriptions step by step, iterating on the elementary operation of node merging.
•
Node merging is guided by the need of saturating features: positive features must combine with negative dual features and conversely; virtual features must combine with positive, negative or neutral features having the same name.
•
In a description, node merging entails constraint propagation, so that the process amounts to a sequence of tree superimpositions guided by polarities.
1 ­ Interaction Grammars
•
Example of parsing “Jean la voit.(Jean sees her)” : initial description
1 ­ Interaction Grammars
•
Example of parsing “Jean la voit.” : building the model step by step.
1 ­ Interaction Grammars
•
Example of parsing “Jean la voit.” : building the model step by step.
1 ­ Interaction Grammars
•
Example of parsing “Jean la voit.”: building the model step by step.
1 ­ Interaction Grammars
•
Example of parsing “Jean la voit.”: the final model
1 ­ Interaction Grammars
•
Our aim is to develop realistic models of natural languages.
•
⇒ close relationship between development of the theory and experimentation.
•
A parser based on Interaction Grammars was built in the Calligramme team: LEOPAR, freely downloadable at URL http://gforge.inria.fr/projects/leopar/
•
Currently, LEOPAR works with a relatively large French grammar. 2 ­ The grammar construction method
•
Two principles guide the construction of the French grammar: minimize human cost and maximize re­usability. •
We build a syntactic lexicon which is totally independent of the linguistic formalism. The link lexicon­grammar is performed by interfaces in the form of feature structures. •
The grammar is divided into a source grammar and an object grammar: the source grammar is written in a high level language in the form of a hierarchy of modules. Then, it is compiled into the object grammar, which is directly usable in NLP systems.
2 ­ The grammar construction method
•
We used XMG to build our grammar. •
We only use two dimensions in order to define our classes: the syntactic dimension and the interface dimension, which is only used to link the grammar with the lexicon.
•
To combine classes by conjunction, we force some nodes to merge by identifying their names explicitly.
•
To combine classes by disjunction, we use the possibility to access their export record in order to identify some nodes.
•
Each class is documented with a set of examples.
3 ­ The architecture of the grammar
3.1 The modular organisation of the grammar
•
Currently, the grammar is constituted of 448 classes structured in a hierarchy by the operations of conjunction and disjunction. •
Classes are put together in families.
•
The 121 terminal classes are compiled by XMG into 2059 tree descriptions, which constitute the object grammar used by the LEOPAR parser.
3 ­ The architecture of the grammar
3.1 The modular organisation of the grammar
3 ­ The architecture of the grammar
4.2 The link with a lexicon totally independent of the formalism
•
Interaction Grammars, in their current implementation, are completely lexicalized: each elementary description of the grammar has a unique anchor node which is devoted to be associated with a word of the language. •
Each elementary tree description is associated with an interface, which describes the syntactic frames of the words able to anchor the description. This interface is neutral with respect to the formalism. 3 ­ The architecture of the grammar
•
Lexical entries have the form of feature structures and the format of these feature structures is the same as the one of the tree description interfaces.
•
The link tree descriptions ­ lexicon is performed by unification between their interfaces and the compatible entries of the lexicon. •
A co­indexation mechanism between some feature values of the tree descriptions and feature values of the corresponding interfaces allows parametrization of some features. 3 ­ The architecture of the grammar
•
Example: linking a tree description with a lexical entry
Tree description associated with a finite transitive verb in its canonical construction. Lexical entry for the transitive verb “voit” 3 ­ The architecture of the grammar
•
Example: linking a tree description with a lexical entry
Tree description linked with the verb “voit”
4 ­ Evaluation on the TSNLP test suite
•
Currently, the grammar accepts 88% of the 1690 positive TSNLP sentences and rejects 85% of the 1935 negative TSNLP sentences. The evaluation was performed with the LEOPAR parser.
•
The grammar also covers phenomena that are ignored by the TSNLP (complex sentences for instance). •
15% of the negative sentences are wrongly parsed because neither phonological rules nor semantics are integrated in the grammar. 4 ­ Evaluation on the TSNLP test suite
•
12% of the positive sentences are not parsed successfully for the following reasons:  Sentences from the spoken language (no inversion of the subject clitic in interrogative propositions, incomplete negations…),
 Frozen phrases (« A quoi bon ? », « Quoi de neuf ? », « mettre ordre », « avoir lieu », « en mon âme et conscience »…),
 Grammatical phenomena which are not yet taken into account (causatives, superlatives…),
5 ­ Short term prospects
•
Improve the feature system on two points: dependencies between features and sets of features sharing the same content. •
To extend the coverage of linguistic phenomena. •
To confront the grammar with real corpora.
3 ­ Pouvoir d’expression des grammaires d’interaction
3.1 Dépendances non bornées et relations de domination sous­spécifiées
•
Exemples :
•
Jean [à qui] Pierre a présenté Marie  est ingénieur. •
Jean [à la femme de qui] Pierre a présenté Marie  est ingénieur. •
Jean [à la femme de qui] Pierre sait qu'on a présenté Marie  est ingénieur. •
* Jean [dans l'entreprise de qui] Marie qui travaille  le connaît est malade.
•
* Jean [dans l'entreprise qui appartient à qui] Marie travaille  est malade
3 ­ Pouvoir d’expression des grammaires d’interaction
•
Description d’arbre associée au pronom relatif « qui » utilisé dans un complément indirect :
3 ­ Pouvoir d’expression des grammaires d’interaction
3.2 Utilisation des polarités pour modéliser la négation
•
Exemples :
•
Jean ne parle à aucun collègue. •
Jean ne parle à la femme d'aucun collègue. •
Aucun collègue de Jean ne parle à sa femme. 3 ­ Pouvoir d’expression des grammaires d’interaction
•
Descriptions d’arbre associées à la particule « ne » et au déterminant « aucun » :
3 ­ Pouvoir d’expression des grammaires d’interaction
3.3 L’adjonction de modificateurs à l’aide de polarités virtuelles
•
Exemples :
•
Le soir, Jean va rendre visite à Marie. •
Jean, le soir, va rendre visite à Marie.
•
Jean va rendre visite le soir à Marie.
•
Jean va rendre visite à Marie le soir.
3 ­ Pouvoir d’expression des grammaires d’interaction
•
Description d’arbre associée à l’expression adverbiale « le soir » :
3 ­ La syntaxe des descriptions d’arbres polarisés
•
Une description est un ensemble fini de nœuds structurés par deux types de relation: domination et précédence.
•
Relations de domination : 
A → B signifie que A est le père de B.

A → * B signifie que A domine largement B (clôture réflexive et transitive de la précédente relation).

A → * [t1=v1 , …, tn=vn] B signifie en plus que tout nœud dominé par A et dominant B (au sens large) doit être étiqueté par une structure de traits subsumée par la contrainte [t1=v1 , …, tn=vn].
•
Relations de précédence :

A >> B signifie que A précéde immédiatement B (relation restreinte à des nœuds frères).

A >> * B signifie que A précède B (clôture transitive de la précédente relation) .
3 ­ La syntaxe des descriptions d’arbres
•
Les nœuds sont typés :  Empty signifie que le nœud a une forme phonologique vide.
 Anchor représente un nœud ancrant un mot de la langue.  Closed signifie que l’ensemble des fils du nœud est clos.
 Les autres nœuds sont les nœuds ordinaires qui ne sont pas marqués de façon particulière.
3 ­ La syntaxe des descriptions d’arbres
•
Les traits étiquetant les nœuds sont polarisés :
 Un trait positif t → v représente une ressource linguistique disponible.
 Un trait négatif t → v représente une ressource linguistique attendue.
 Un trait neutre t = v représente une propriété linguistique ne se présentant pas comme une ressource consommable.
 Un trait saturé t ←→ v représente une ressource linguistique saturée.
•
Les valeurs de traits sont des atomes ou des disjonctions d’atomes et elles peuvent être partagées par un mécanisme de co­indexation.
4 ­ Les traits morphologiques et syntaxiques
Traits des descriptions d'arbres
aux
break
cat
indique si une expression prédicative est effectivement composée à l'aide d'un auxiliaire de temps ou d'une copule
avoir
verbe composé avec l'auxiliaire avoir
L'ingénieur a accepté l'invitation.
expression prédicative composée avec une cop
L'entreprise est grande.
copule
etre
verbe composé avec l'auxiliaire être
L'ingénieur est sorti.
void
expression simple
L'ingénieur sort.
indique une pause à la fin de l'expression marquée par une virgule
false
absence de pause
Il a plu le soir. true
présence d'une pause
Le soir, il a plu.
catégorie syntaxique de l'expression
adj
adjectif
adv
adverbe
aux
verbe auxiliaire
clit
pronom clitique
coord
conjonction de coordination
complémenteur (qui introduit une complétive cpl
ou une infinitive)
det
déterminant
n
nom commun
np
syntagme nominal
pp
syntagme prépositionnel
pro
pronom
punct
signe de ponctuation
4 ­ Les traits morphologiques et syntaxiques
Traits des descriptions d'arbres
aux
break
cat
cpl
indique si une expression prédicative est effectivement composée à l'aide d'un auxiliaire de temps ou d'une copule
avoir
verbe composé avec l'auxiliaire avoir
L'ingénieur a accepté l'invitation.
expression prédicative composée avec une cop
L'entreprise est grande.
copule
être
verbe composé avec l'auxiliaire être
L'ingénieur est sorti.
void
expression simple
L'ingénieur sort.
indique une pause à la fin de l'expression marquée par une virgule
false
absence de pause
Il a plu le soir. true
présence d'une pause
Le soir, il a plu.
catégorie syntaxique de l'expression
adj
adjectif
adv
adverbe
aux
verbe auxiliaire
clit
pronom clitique
coord
conjonction de coordination
complémenteur (qui introduit une complétive cpl
ou une infinitive)
det
déterminant
n
nom commun
np
syntagme nominal
pp
syntagme prépositionnel
pro
pronom
punct
signe de ponctuation
prep
préposition
s
proposition finie ou infinitive
v
verbe
complémenteur introduisant une complétive ou une infinitive
4 ­ Les traits morphologiques et syntaxiques
Traits des descriptions d'arbres
aux
break
cat
indique si une expression prédicative est effectivement composée à l'aide d'un auxiliaire de temps ou d'une copule
avoir
verbe composé avec l'auxiliaire avoir
L'ingénieur a accepté l'invitation.
expression prédicative composée avec une cop
L'entreprise est grande.
copule
être
verbe composé avec l'auxiliaire être
L'ingénieur est sorti.
void
expression simple
L'ingénieur sort.
indique une pause à la fin de l'expression marquée par une virgule
false
absence de pause
Il a plu le soir. true
présence d'une pause
Le soir, il a plu.
catégorie syntaxique de l'expression
adj
adjectif
adv
adverbe
aux
verbe auxiliaire
clit
pronom clitique
coord
conjonction de coordination
complémenteur (qui introduit une complétive cpl
ou une infinitive)
det
déterminant
n
nom commun
np
syntagme nominal
pp
syntagme prépositionnel
8 ­ L’utilisation par l’analyseur syntaxique LEOPAR
•
L’analyse syntaxique est précédée d’une phase de filtrage des entrées lexicales sélectionnées fondée sur les polarités et utilisant des automates.
•
Le principe du filtrage est un principe de neutralité globale qui ignore l’ordre des mots mais on peut utiliser les automates pour développer des heuristiques de filtrage utilisant des propriétés de localité.
•
La stratégie initialement implémentée est une stratégie incrémentale qui utilise une borne sur le nombre de polarités actives dans la description en cours de construction (stratégie non complète et non robuste).
•
Pour palllier les faiblesses de cette stratégie, sont en cours d’implémentation une stratégie ascendante du type CKY et une stratégie descendante du type Earley.
Téléchargement