3. Modèle

publicité
Etiquetage grammatical multilingue: modèle - Jean Véronis and Liliane Khouri.
Document MULTEXT LEX2. Section 3.
| Back to table of contents | See copyright and permission notice on title page. |
3. Modèle
Dans un projet comme MULTEXT, où la préoccupation principale est la généricité et la
réutilisabilité des ressources et outils dans un contexte fortement multilingue, il est clair que
des solutions devaient être trouvées pour assurer la comparabilité intra- et inter-langues des
étiquettes. Le problème est difficile, comme les considérations de la section précédente
peuvent le laisser entrevoir. MULTEXT n'a en aucun cas la prétention d'avoir résolu le
problème de façon définitive. De nombreux problèmes restent ouverts, et l'adjonction de
langues supplémentaires (voire l'adaptation à de nouvelles applications) imposera
certainement une révision des schémas proposés. Toutefois, reconnaître et admettre la
difficulté du problème global (assurer la comparabilité d'étiquettes dans un grand nombre de
langues) ne doit pas empêcher des solutions locales, qui permettraient de faire un progrès,
c'est-à-dire quelques pas entre le "rien" (incomparabilité totale) et le "tout" (comparabilité
totale). L'approche adoptée par MULTEXT, à la suite d'EAGLES, se situe dans cette optique,
éminemment pratique, et n'a aucune visée théorique. Les catégories proposées n'ont d'autre
but que de fournir un langage commun permettant (au moins partiellement) la description et la
comparaison des systèmes. Il est clair que les progrès dans ce domaine ne peuvent être que
lents et progressifs; ils présupposent des avancées techniques et théoriques, mais aussi une
évolution des points de vues, écoles et terminologies.
3.1. Principes
Les principes adoptés par MULTEXT sont basés sur un postulat : l'impossibilité d'avoir un jeu
d'étiquettes unique pour une langue, et encore moins pour des langues diverses. Les jeux
d'étiquettes doivent pouvoir varier selon les langues (par exemple coder le genre pour les
langues romanes, mais pas pour l'anglais), et les applications, et de plus doivent permettre
l'expérimentation, c'est-à-dire la modification rapide et fréquente en vue de l'optimisation des
étiqueteurs.
Le premier principe impose une séparation des descriptions lexicales et des étiquettes de
corpus. Dans beaucoup de systèmes d'étiquetage qu'il nous a été possible d'observer, les
étiquettes sont codées "en dur" dans le lexique, c'est-à-dire qu'à chaque forme graphique est
associée son lemme et une étiquette. Ce mode de représentation des listes lexicales est
toutefois très rigide. D'une part, la modification de la définition ou de l'extension d'une
étiquette impose des modifications globales du lexique, qui sont peu propices à une
optimisation des étiqueteurs. D'autre part, la comparaison des jeux d'étiquettes entre systèmes
ou entre langues est très difficile, pour les raisons évoquées précédemment.
MULTEXT propose donc un modèle à deux niveaux, dans lequel le lexique contient une
information de très fine granularité, et en principe stable (les descriptions lexicales) et le
corpus contient des étiquettes de corpus de granularité généralement grossière, c'est-à-dire
qui sous-spéficient les descriptions lexicales. Le passage des descriptions lexicales aux
étiquettes de corpus se fait par une traduction (figure 1). Un postulat implicite est qu'il est
plus facile de trouver un consensus au niveau des descriptions lexicales (qui décrivent la
langue) qu'au niveau des étiquettes (qui tiennent compte de nombreux paramètres plus ou
moins subjectifs : l'application, l'étiqueteur, etc.). On aura ainsi, en français, un accord assez
large sur le fait que viens est à l'indicatif et vienne est au subjonctif, même si des divergences
sont certaines quand à la représentation de ces informations au niveau des étiquettes de
corpus.
Figure 1 : Descriptions lexicales et étiquettes de corpus
Le deuxième principe est un principe applicatif, c'est-à-dire que la traduction des
descriptions lexicales vers les étiquettes de corpus doit être une application au sens
mathématique du terme[7]. Ce principe permet d'opérer la traduction des descriptions
lexicales en étiquettes de corpus par une simple table, sans référence au lexique. Si ce principe
est respecté, en admettant que les descriptions lexicales soient stables, la modification du jeu
d'étiquettes demande la seule modification de la table de correspondance. Par ailleurs, ce
principe permet une définition précise de chaque jeu d'étiquettes, ce qui est appréciable, et
constitue un élément important de la comparabilité. Enfin, le jeu des traductions permet, dans
une certaine mesure, de s'affranchir des divergences théoriques : il suffit que le niveau de
granularité des descriptions lexicales soit suffisamment fin pour que les tenants des théories
les plus diverses puissent traduire les descriptions lexicales en d'autres qu'ils affectionnent
plus particulièrement.
Figure 2 : Principe applicatif
3.2. Descriptions lexicales
3.2.1. Noyau commun
La première étape a été la détermination d'un "noyau commun" aux diverses langues et aux
diverses applications, et la définition d'un bon niveau de granularité. Nous avons largement
utilisé ici le travail effectué par le groupe EAGLES (voir Monachini et Calzolari, 1994)[8].
Les spécifications proposées par EAGLES résultent de l'observation d'un certain nombre de
projets lexicaux et de projets sur les corpus en Europe. Cette observation a permis de dégager
des constantes et des traits communs aux différents systèmes et aux diverses langues, et de
dégager un noyau d'informations morpho-syntaxiques sur lesquelles un consensus assez large
peut être établi. Le système proposé par EAGLES est un système à plusieurs couches, dont la
première est le noyau commun morpho-syntaxique. Ce noyau se complète par des couches
d'informations optionnelles, ou propres à des applications particulières. Ce modèle a
l'avantage de permettre l'harmonisation nécessaire à la comparabilité tout en permettant une
grande flexibilité. Nous reprenons cette idée dans MULTEXT en utilisant deux couches, le
noyau commun, et une couche privée additionnelle (figure 3). MULTEXT n'a pour ambition
que d'harmoniser le noyau commun.
Figure 3 : Noyau commun et couche privée
Le nombre et la nature des informations que des étiquettes de corpus peuvent encoder est
potentiellement infini. Nous avons mentionné plus haut que certains systèmes distinguent
parmi les noms propres les villes, les pays, les personnes, les sociétés. Rien n'interdit d'aller
plus loin dans la granularité (prénoms, noms de famille, noms de fleuves et rivières, de
régions, de départements, etc.); il est probable que certaines applications y trouveraient leur
bénéfice. Des subdivisions analogues peuvent s'appliquer à toutes les catégories : certains
systèmes distinguent parmi les noms communs les jours de la semaine, les noms de mois,
parmi les verbes, les verbes de type "dire, déclarer, suggérer, etc." (qui ont un intérêt dans les
textes journalistiques, ainsi qu'une distribution particulière).
Nous n'avons pas la prétention d'étendre la comparabilité à toute cette gamme (ouverte)
d'informations, et MULTEXT a pris une position très minimaliste en ce qui concerne
l'étendue du noyau commun. N'y figurent que des informations de nature clairement morphosyntaxique, et parmi celles-ci, uniquement celles qui font l'objet d'un large consensus.
3.2.2. Catégories grammaticales
La sélection d'un ensemble de catégories grammaticales qui fasse l'unanimité est clairement
une tâche impossible, et toute solution ne peut être qu'un compromis. Les catégories adoptées
pour MULTEXT sont données par la figure 4.
Category Code
Noun
N
Verb
V
Adjective
A
Pronoun
P
Determiner D
Adverb
R
Adposition S
Conjunction C
Numeral
M
Interjection I
Residual
X
Figure 4 : Catégories grammaticales EAGLES/MULTEXT
La plupart des catégories s'expliquent d'elles-mêmes (bien qu'il ne soit pas toujours évident de
définir avec précision leur extension). On notera la classe des numéraux, qui permet de
s'affranchir du délicat problème de leur classement dans les parties du discours traditionnelles
(en français, ils fonctionnent à la fois comme adjectifs, noms ou pronoms). A nouveau, il est
possible d'opérer des traductions appropriés pour modifier le classement. La classe X
concerne tous les objets au statut lexical incertain, et qui en tous cas ne semblent pas relever
des parties du discours classiques (symboles, dates, parties de locutions au statut non
autonome, etc.).
3.2.3. Attributs et valeurs
Les descriptions lexicales de MULTEXT sont représentées par des couples attribut-valeur
(structures de traits typées[9]). par exemple, un nom commun masculin singulier sera
représenté par la structure de traits suivante :
N[type=common gender=masculine number=singular case=n/a]
Pour des raisons d'harmonisation entre langues, certains attributs (tels que le cas) sont
présents, mais ne s'appliquent pas à une catégorie donnée dans telle ou telle langue, ce que
traduit la valeur n/a ("not applicable"). D'autres attributs s'appliquent à la catégorie dans la
langue considérée, mais ne s'appliquent pas à certaines de ses sous-catégories. Par exemple
pour les verbes français, le genre ne s'applique qu'au participe passé alors que la personne ne
s'applique pas. On aura donc, par exemple pour la première personne de l'indicatif présent :
V[type=main mood=indicative tense=present
person=first number=singular gender=n/a]
et pour le participe passé féminin :
V[type=main mood=participle tense=past person=n/a
number=singular gender=feminine][10]
Une version prélimianire des catégories grammaticales, attributs et valeurs retenus pour le
noyau commun du projet MULTEXT est décrite dans (Bel et al. 1995)[11]. Voir la figure 5
ci-après, par exemple, pour les noms et les verbes. On notera un certain nombre de
compromis et de décisions arbitraires. Ainsi, le conditionnel qui est classé dans les modes (à
la façon de la grammaire traditionnelle) pourrait peut-être, d'une façon plus linguistiquement
correcte, être classé dans les temps, mais une traduction immédiate est possible entre l'une et
l'autre convention, et la question ne semble pas valoir une controverse.
3.2.4. Représentation compacte
Le projet MULTEXT propose une représentation compacte des structures de traits, inspirée de
(Leech et Wilson 1994). Chaque structure de traits est codée sous forme d'une chaîne de
caractères où :



le premier caractère code la catégorie grammaticale, selon le code donné par la table
de la figure 4;
chacune des positions suivantes de la chaîne code un attribut. Les attributs sont
ordonnés selon les tables données par la figure 5 pour les noms et les verbes, et chaque
valeur est représenté par un caractère unique (donné par la colonne "code").
la valeur "non applicable" est représentée par un tiret (-).
Exemples :
N[type=common gender=masculine number=singular] NcmsV[type=main mood=indicative tense=present
person=first number=singular]
Vmip1s--
Cette représentation compacte permet également de représenter la sous-spécification par des
expressions régulières (voir ci-après).
Noun
Pos. Attribute
1
Type
Value
Code
common
c
proper
p
masculine m
2
3
Gender
Number
feminine
f
neuter
n
singular
s
plural
p
nominative n
4
Case
genitive
g
dative
d
accusative a
Verb
Pos. Attribute
Value
Code
1
Type
main
m
auxiliary
a
modal
o
indicative
i
subjunctive s
imperative m
conditional c
2
3
4
5
Mood/Form infinitive
n
participle
p
gerund
g
supine
s
base
b
present
p
imperfect
i
future
f
past
s
first
1
second
2
third
3
singular
s
plural
p
Tense
Person
Number
masculine m
6
Gender
feminine
f
neuter
n
Figure 5 : Tables attribut-valeurs pour les noms et les verbes
3.3. Traduction en étiquettes
Dans le modèle MULTEXT, chaque langue est sous-spécifiée par rapport au système général
(c'est-à-dire la totalité des combinaisons attribut-valeur possibles). De plus, chaque jeu
d'étiquettes pour une langue est sous-spécifié par rapport au système maximal de cette langue.
Ainsi, le français est sous-spécifié en ce qui concerne le trait "cas" pour les noms, qui est
inapplicable; pour les verbes, le trait "genre" n'est pas applicable pour les formes conjuguées;
etc. Par contre, à l'intérieur du système possible pour le français, on peut prendre la décision
de ne pas représenter le mode et le temps des verbes (informations notoirement difficiles à
désambiguïser automatiquement) dans un jeu d'étiquettes donné. Dans ce cas, le système
particulier d'un jeu d'étiquettes est sous-spécifié par rapport au système maximal possible pour
le français. Par exemple, dans la figure 6, l'étiquette VM1S est sous-spécifiée en ce sens
qu'elle ignore le mode et le temps, et elle correspond à sept descriptions lexicales attestées
dans le lexique.
Descr. lex. Etiquette Exemple
Vmip1s-
VM1S
viens
Vmii1s-
VM1S
venais
Vmif1s-
VM1S
viendrai
Vmsp1s-
VM1S
vienne
Vmsi1s-
VM1S
vinsse
Vmcp1s-
VM1S
viendrais
Vmis1s-
VM1S
vins
Figure 6 : Sous-spécification des étiquettes
Le principe applicatif permet de définir de façon formelle les étiquettes utilisées. Par exemple,
l'étiquette VM1S de l'exemple précédent se définira comme
V[type=main mood=any tense=any person=first number=singular]
où la valeur any représente la disjonction de toutes les valeurs possibles pour un attribut
donné[12].
Nous proposons de représenter de façon compacte la sous-spécification par des expressions
régulières, à l'aide des opérateurs suivants :
a.Joker ('.')
Cet opérateur permet de noter que toute valeur est autorisée pour l'attribut concerné.
Exemple :
Verbe principal, indicatif,
Vmi.2s2ème personne du singulier
b. Disjonction (...|...)
Cet opérateur permet de lister de façon extensive des alternatives possibles. Exemple :
(Ncf.Nom commun féminin ou Verbe principal, indicatif, 2ème personne du
|Vmip2s- )
singulier (par exemple "souris").
c. Listes [ ... ] et [^ ... ]
L'opérateur de liste [ ... ] permet de représenter un ensemble de valeurs. Par exemple, [ab]
représente a ou b. L'opérateur [^ ... ] permet de représenter le complément d'un ensemble,
c'est-à-dire toutes les valeurs autres que celles spécifiées. Par exemple, [^ab] représente toutes
les valeurs possibles, sauf a et b. Exemples :
Vm[isc].2s- Verbe principal, indicatif, subjonctif ou conditionnel, 2ème personne du singulier
Vm[^s]p2s- Verbe principal, mode non subjonctif, présent, 2ème personne du singulier
Avec ces conventions, l'étiquette VM1S mentionnée plus haut peut se définir par l'expression
régulière :
Vm..1sou, de façon équivalente (pour le français) :
Vm[iscm][pifs]1sLe lecteur aura noté que la définition des étiquettes n'est possible que si le principe applicatif
est respecté. Ainsi, dans le cas ci-dessous
France N[type=proper gender=feminine number=singular] XPAYS
Marie N[type=proper gender=feminine number=singular] XPERS
le principe applicatif n'est pas respecté, puisque la même description lexicale correspond à des
étiquettes différentes selon l'entrée lexicale.
Si les utilisateurs souhaitent opérer de telles distinctions, il faut qu'ils restaurent le principe
applicatif en ajoutant des attributs adéquats dans la couche privée du modèle (qui
correspondront à des caractères supplémentaire en fin de chaîne dans la représentation
compacte). Ainsi, par exemple, un attribut "sous-type" permet de désambiguïser les noms
propres, et l'on pourra définir les étiquettes XPAYS et XPERS comme :
XPAYS N[type=proper subtype=country]
XPERS N[type=proper subtype=person]
Téléchargement