présentation - alpage/inria

publicité
L’analyseur syntaxique Fips
Eric Wehrli, Luka Nerima
LATL-Département de linguistique
Université de Genève
[email protected], [email protected]
http://www.latl.unige.ch
9 octobre 2009
ATALA
1
La recherche en TAL au LATL
 Développement d’une plateforme multilingue pour le
traitement automatique des langues
 Analyseurs, étiqueteurs, phonétiseurs, extracteurs
terminologiques, générateurs de phrases, etc.
 Cœur du système : l’analyseur Fips
L
A
T
L
 Analyseur syntaxique « profond », basé sur une interprétation
assez libre de la théorie de la grammaire générative
chomskyenne
 Quelques propriétés de Fips
 analyseur ascendant, avec une stratégie d’attachement à
droite
 traitement parallèle des alternatives
 recours à des heuristiques pour limiter le nombre
d’alternatives
9 octobre 2009
ATALA
2
Le modèle de grammaire
 Basée sur le modèle chomskyen des principes et
paramètres, ainsi qu’en partie sur le modèle
minimaliste.
 Toutes les structures syntaxiques obéissent au même
schéma:
[XP L X R ]
où X (∈ {N, V, A, D, P, Adv,Conj}) est la tête de la
projection XP, L et R sont des listes de projections
maximales (les sous-constituants gauches et droits du
syntagme XP).
 Les attachements à gauche et à droite sont décrits dans
un (pseudo) formalisme, à la fois relativement intuitif et
L
facile à encoder.
A
T
L
9 octobre 2009
ATALA
3
Le mécanisme de projection
 Crée une projection syntaxique
 soit à partir d’un item lexical:
X --> XP
X ∈ {N, V, A, D, P, Adv, Conj}
 projection étendue (métaprojection):
verbe conjugué -->
TP
T
L
A
T
L
VP
pronoms et noms propres --> DP
9 octobre 2009
ATALA
4
Combinaison (merge)
 Combine deux projections adjacentes A et B
 attache A comme sous-constituant de B
(=attachement à gauche) ;
 attache B comme sous-constituant d’un nœud actif sur l’arête
droite de A (attachement à droite) :
A
B
A
B
L
A
T
L
9 octobre 2009
ATALA
5
Procédure d’attachement « coin droit »
Pile de nœuds actifs :
TP
DP
VP
DP
Jean
L
A
T
L
9 octobre 2009
a
lu
un
NP
poème
ATALA
…
6
Exemples de règles d’attachement à gauche
 AP + NP
a.AgreeWith(b, {number, gender})
a.HasFeature( prenominalAdj)
 DP + TP
a.AgreeWith(b, {number, person})
a.IsArgumentOf(b, subject)
 DP + PP
b.HasFeature(postposition)
L
A
T
L
9 octobre 2009
ATALA
7
Exemples de règles d’attachement à droite
 NP + AP
a.AgreeWith(b, {number, gender})
~b.HasFeature( prenominalAdj)
 VP + DP
b.IsArgumentOf(a, {directObject})
 PP + DP
a.HasFeature(preposition)
a.EmptyRight()
L
A
T
L
9 octobre 2009
ATALA
8
Grammaire procédurale
 La partie procédurale de la grammaire de Fips
comprend :
 Un mécanisme de construction de chaînes (mouvement-wh,
constructions clitiques dans les langues romanes, etc.)
L
A
T
L
 Un mécanisme de traitement des structures prédicat-arguments
(verbes, noms, adjectifs prédicatifs)
 La structure argumentale est spécifiée dans l’entrée lexicale
(nombre et type des arguments – fonction grammaticale et
attributs, par ex. type de la préposition pour un argument de
catégorie PP, type de phrase pour un argument S, etc.).
9 octobre 2009
ATALA
9
Opérations sur la structure argumentale
 Certains processus grammaticaux modifient la structure
argumentale d’un prédicat :
 Le passif
peut être vu comme un processus d’absorption du sujet, soit en
syntaxe (anglais, langues romanes, etc.), soit dans la morphologie
(hongrois, japonais, latin, etc.).
L
A
T
L
 Constructions causatives
En français, la construction faire + Vinf est analysée comme un
processus de modification de la structure argumentale du verbe infinitif
par l’adjonction d’un argument supplémentaire (le sujet du verbe
« faire »), ce qui provoque le reclassement du sujet du verbe infinitif
sous la forme d’un objet direct ou d’un objet indirect.
Paul corrige cette épreuve
Jean a fait corriger cette épreuve à Paul
Jean lui a fait corriger cette épreuve
9 octobre 2009
ATALA
10
Identification des collocations
 Les collocations associent deux unités lexicales qui
entretiennent un rapport syntaxique étroit, soit de
modification, soit de complémentation.
 La procédure de reconnaissance intervient au moment
de l’attachement d’un constituant.
 Paul est un gros fumeur
 Paul a battu son record du saut en longueur
 Le mécanisme de chaînage permet d’exprimer la
relation entre position de « surface » et position
« profonde ».
L
A
T
L
 Le record qu’elle a battu datait d’une dizaine d’années
 Ce record, Jean le considère comme difficile à battre
9 octobre 2009
ATALA
11
Catalogue des lexiques
 lexique monolingue
 mots
 mots composés (mots contigus)
 lexique des collocations
 combinaison arbitraire et récurrente de mots, non
nécessairement adjacents, nombreuses configurations
syntaxiques
 p.e. exercer - profession, république bananière, code de la route
 contient aussi les idiomes - avaler la pilule, promettre la lune
L
A
T
L
9 octobre 2009
ATALA
12
Schéma conceptuel du lexique monolingue
Paradigme flexionnel
forme de base
Variante
Nom
genre
nombre
L
A
T
L
Verbe
pers.
temps
mode
« xor »
autre forme
1
*
Adj
Prep
Det
Adv
Conj
*
Lexème
Nom
Verbe
Adj
type Nom
traits Nom
type V
traits syn
traits sem
traits Adj
chaîne orthographique
chaîne phonétique
Prep
type
Det
type
Interj
genre
nombre
association
généralisation (est un)
composition
9 octobre 2009
< est réalisé par
Mot
* varie 1
graphie alternative
type variante
1
0..1
(0)1..4
0..1
Arg N
Arg V
Arg Adj
fct gram
fct thema
traits sel
fct gram
fct thema
traits sel
fct gram
fct thema
traits sel
ATALA
13
Le lexique des collocations
 ensemble d'associations binaires d’items lexicaux
Item lexical
2
associe ^
Lexème
Collocation
chaîne orthographique
type (configuration syntaxique)
traits de figement
*
 définition récursive de la collocation
L
A
T
L
 permet de prendre en compte des collocations > 2 termes
 p.e. tomber en panne sèche, arme de destruction massive
9 octobre 2009
ATALA
14
Interface monolingue
L
A
T
L
9 octobre 2009
ATALA
15
Interface monolingue
L
A
T
L
9 octobre 2009
ATALA
16
Interface monolingue - insertion
L
A
T
L
9 octobre 2009
ATALA
17
Interface monolingue - insertion
L
A
T
L
9 octobre 2009
ATALA
18
Interface monolingue - insertion
L
A
T
L
9 octobre 2009
ATALA
19
Interface monolingue - insertion
L
A
T
L
9 octobre 2009
ATALA
20
Interface collocation
 pour l'entrée manuelle des collocations
 outil d'assistance sophistiqué
 1) analyse de la collocation entrée (Fips)
 2) propose les unités lexicales (base et collocatif)
 3) détermine le type de la collocation
 4) détermine les traits de la collocation
L
A
T
L
9 octobre 2009
ATALA
21
Interface collocation - insertion
L
A
T
L
9 octobre 2009
ATALA
22
Lexiques - quelques chiffres
 lexèmes
 fr: 40’163 entrées
 mots
 fr: 237’729 entrées
 collocations
 fr: 14’091 entrées
L
A
T
L
9 octobre 2009
ATALA
23
Conclusion
 L’expérience accumulée avec les différentes versions de
l’analyseur Fips a permis d’affiner (et souvent de simplifier) par
étapes la structure et l’implémentation de ce modèle
d’analyseur, jusqu’à la version actuelle.
 Le double choix d’un modèle linguistique abstrait (théorie
chomskyenne) et d’une modélisation basée sur la notion d’objets
se révèle judicieux pour la réalisation d’un analyseur multilingue.
 L’évaluation d’un analyseur syntaxique est une opération
difficile, qui n’a pas encore été entreprise pour l’analyseur Fips.
En attendant les résultats de la campagne d’évaluation
PASSAGE, nous pouvons faire état des quelques chifffres
suivants :
L
A
T
L
 > 80% d’analyses complètes (anglais et français) sur des corpus
journalistiques ;
 ~0,2% de mots inconnus (hors noms propres) ;
 Temps de traitement : 100-250 mots/seconde.
9 octobre 2009
ATALA
24
Téléchargement