Document

publicité
Levée d'ambiguïtés
Les applications évoluées (traduction automatique) nécessitent
beaucoup d'informations lexicales : délimitation des mots
composés, lemmes...
Cela fait augmenter la quantité d'ambiguïté lexicale
Jeu de 15 étiquettes (catégories grammaticales) :
1,6 étiquette par mot simple
Jeu de 1000 étiquettes (catégories grammaticales, traits
flexionnels, délimitation des mots composés, lemmes) :
2,0 étiquettes par mot simple
Systèmes de levée d'ambiguïté lexicale
Systèmes de levée d'ambiguïtés lexicales
Etiquetage d'un texte par dictionnaire, puis application
d'une grammaire de levée d'ambiguïtés lexicales
Grammaire
n règles
Texte
étiqueté
m analyses
Système
de levée
d'ambiguïtés
lexicales
Texte
m' analyses
Systèmes de levée d'ambiguïtés lexicales
Grammaire de levée d'ambiguïtés : n règles
Texte : ensemble de m analyses
ambResol(gramm, texte)  texte
Rappel : nb d'analyses retenues parmi les analyses
correctes
Précision : nb d'analyses correctes parmi les analyses
retenues
Construction et maintenance manuelles
Lisibilité
règles simples, lisibles et compréhensibles
Cumulativité
impossibilité de perturber le fonctionnement des règles
existantes quand on ajoute de nouvelles règles
Dépendances entre règles (1/2)
Exemples non linguistiques pour commencer
Exemple avec hiérarchie entre règles
r1 : supprimer les analyses qui comportent la
séquence a b
r2 : ne pas supprimer les analyses qui
comportent la séquence a b c
Si r2 s’applique, r1 ne s’applique pas
Les dépendances entre règles compliquent l’interprétation et
la mise à jour du système
Dépendances entre règles (2/2)
Exemple avec chevauchement
r1 : supprimer les analyses qui comportent la
séquence a b
r2 : supprimer les analyses qui comportent la
séquence b c
Si deux règles sont applicables à la même
analyse avec une partie commune, seule la plus
à gauche s’applique
Une règle peut ainsi perturber son propre fonctionnement
Indépendance des règles (1/2)
ambResol ((ri)1  i  n , texte) =
1  i  n ambResol (ri , texte)
a  ambResol ((ri)1  i  n , texte) 
 i  [1, n] a  ambResol (ri , texte)
Les résultats ne peuvent pas dépendre de l'ordre
d'application des règles
Chaque règle s’applique au texte représenté avec toutes ses
ambiguïtés
Avantages
- l'introduction de nouvelles règles ne modifie pas le
fonctionnement des anciennes
- si toutes les règles ont un rappel de 100 %, alors la
grammaire aussi
Exemple linguistique
r1 : Tout mot immédiatement à gauche de -t-il, -telle ou -t-on est un verbe
r2 : voilà, revoilà peuvent apparaître
immédiatement à gauche de -t-il
Si r2 s’applique, r1 ne s’applique pas
On peut reformuler en deux règles indépendantes :
r1 : Tout mot immédiatement à gauche de -t-elle
ou -t-on est un verbe
r2 : Tout mot immédiatement à gauche de -t-il est
soit un verbe, soit voilà ou revoilà
Dépendances entre analyses (1/4)
Exemple avec priorité entre analyses
1
a
3
2
b
4
(autres trans.)
1
a
3
(autres trans.)
Synchronisation (pointillés verticaux) : états correspondant à
un même point du texte
Dépendances entre analyses (2/4)
Exemple avec condition portant sur une ambiguïté
1
a
3
4
2
b
5
(autres trans.)
c
1
a
3
2
b
5
6
(autres trans.)
Dépendances entre analyses (3/4)
Exemple avec condition portant sur une non-ambiguïté
1
q
a
b
2
r
(autres trans.)
Toute transition entrant dans un
état r synchronisé avec 1 est
étiquetée a
q
a
r
(autres tr.)
Dépendances entre analyses (4/4)
Dans les exemples précédents, les conditions portent sur un
ensemble d’analyses, non sur une seule analyse
Les règles ne sont pas utilisables pour d'autres types
d'ambiguïtés (ex. : phonétiques), car les ensembles
d’analyses seraient différents
Exemple : La chaîne freine la roue
chaîne - chêne - ...
freine - frêne - ...
roue - roux - ...
Indépendance des analyses (4/5)
ambResol (gramm, (aj)1  j  m) =
1  j  m ambResol (gramm, aj)
a  ambResol (gramm, (aj)1  j  m) 
a  ambResol (gramm, a)
La propriété d'indépendance des analyses est une
propriété du système de levée d'ambiguïtés (formalisme
et règles), non une propriété des analyses
Exemple linguistique
Dans toute séquence <avoir.V> <V:K>, toutes
les ambiguïtés lexicales sont résolues en faveur
du verbe avoir et du participe passé
On peut reformuler en règles qui ont la propriété d’indépendance
des analyses, mais il faut partir des structures grammaticales
qu'on veut éliminer :
Nous les avions révisés immédiatement
Les avions révisés repartent aussitôt
Les avions lui font peur
Exemple avec
ordre d’application des règles (1/2)
r1 :
1
r2 :
4
a
c
5
1
a
b
2
3
d
b
c
6
d
2
1
a
4
c
b
2
d
6
r1 puis r2 : abd
r2 puis r1 : acd
Exemple avec
ordre d’application des règles (2/2)
Dans un système qui permet cet exemple, il y a nécessairement
1) des dépendances entre règles
Quand on crée une nouvelle règle, si elle doit s’appliquer avant les
règles existantes, leur fonctionnement peut être perturbé
2) des dépendances entre analyses
Chacune des deux règles définit une priorité entre analyses
Indépendance double
ambResol ((ri)1  i  n , (aj)1  j  m) =
1  i  n 1  j  m ambResol (ri , aj)
a  ambResol ((ri)1  i  n , (aj)1  j  m) 
 i  [1, n] a  ambResol (ri , a)
Réalisation par le système Elag :
- chaque règle = un automate
- grammaire = intersection des règles
- ambResol(gramm, texte) = gramm  texte
Interface utilisateur :
- format utilisateur lisible
- format compilé prêt pour intersection
Exemples linguistiques
Pronoms préverbaux et postverbaux en français (Ppv)
Soit à gauche d'un verbe :
Soit à droite (graphe analogue : Fais-le, Le fait-il ?)
Ambiguïtés avec d'autres pronoms
elle,.PRO+PpvIL+z1:3fs
elle,.PRO+Ton+z1:3f
etc.
Ambiguïtés avec d'autres catégories
en,.PREP+z1
en,.PRO+PpvPR+z1
j,j.N:mp:ms
je,.PRO+PpvIL+z1:1ms:1fs
je,je.N:mp:ms
la,.N+[Mus]+z1:ms:mp
la,le.DET+Ddef+z1:fs
la,le.PRO+PpvLE+z1:3fs
leur,.DET+Dposs3p+z1:ms:fs
leur,.PRO+Pposs3p+z1:ms:fs
leur,.PRO+PpvLUI+z1:3mp:3fp
etc.
On le véhicule d'ici à la place principale
1. Les règles ci-dessous ont-elles la propriété
d’indépendance des analyses ?
1.1. si un Ppv est ambigu avec un autre pronom et suivi
d'un mot qui ne peut être qu’un verbe, ses ambiguïtés sont
résolues en faveur du Ppv
1.2. si un Ppv est ambigu avec un autre pronom et précédé
d'un mot qui ne peut être qu’un verbe et d'un trait d'union,
ses ambiguïtés sont résolues en faveur du Ppv
1.3. si un mot qui peut être un Ppv est suivi d'un mot qui
peut être un verbe, ses ambiguïtés sont résolues en faveur
du Ppv
1.4. si un mot qui peut être un Ppv est précédé d'un mot
qui peut être un verbe et d'un trait d'union, ses ambiguïtés
sont résolues en faveur du Ppv
1.5. si lui est précédé de ne, les ambiguïtés lexicales de lui
sont résolues en faveur du Ppv
(la réponse à la question dépend de la formulation
précise de la règle)
1.6. dans les analyses où leur est précédé de
<le.PRO+Ppv>, les ambiguïtés lexicales de leur sont
résolues en faveur du Ppv
1.7. dans les analyses où leur est précédé d'un trait d'union
et de <le.PRO+Ppv>, les ambiguïtés lexicales de leur sont
résolues en faveur du Ppv
2. En supposant que les règles ci-dessus sont
indépendantes des autres règles de la grammaire ou
qu'elles sont utilisées seules, ont-elles un rappel de 100 % ?
Téléchargement