3. Modèle

Téléchargement

Etiquetage grammatical multilingue: modèle - Jean Véronis and Liliane Khouri.

Document MULTEXT LEX2. Section 3.

| Back to table of contents | See copyright and permission notice on title page. |

3. Modèle

Dans un projet comme MULTEXT, où la préoccupation principale est la généricité et la

réutilisabilité des ressources et outils dans un contexte fortement multilingue, il est clair que

des solutions devaient être trouvées pour assurer la comparabilité intra- et inter-langues des

étiquettes. Le problème est difficile, comme les considérations de la section précédente

peuvent le laisser entrevoir. MULTEXT n'a en aucun cas la prétention d'avoir résolu le

problème de façon définitive. De nombreux problèmes restent ouverts, et l'adjonction de

langues supplémentaires (voire l'adaptation à de nouvelles applications) imposera

certainement une révision des schémas proposés. Toutefois, reconnaître et admettre la

difficulté du problème global (assurer la comparabilité d'étiquettes dans un grand nombre de

langues) ne doit pas empêcher des solutions locales, qui permettraient de faire un progrès,

c'est-à-dire quelques pas entre le "rien" (incomparabilité totale) et le "tout" (comparabilité

totale). L'approche adoptée par MULTEXT, à la suite d'EAGLES, se situe dans cette optique,

éminemment pratique, et n'a aucune visée théorique. Les catégories proposées n'ont d'autre

but que de fournir un langage commun permettant (au moins partiellement) la description et la

comparaison des systèmes. Il est clair que les progrès dans ce domaine ne peuvent être que

lents et progressifs; ils présupposent des avancées techniques et théoriques, mais aussi une

évolution des points de vues, écoles et terminologies.

3.1. Principes

Les principes adoptés par MULTEXT sont basés sur un postulat : l'impossibilité d'avoir un jeu

d'étiquettes unique pour une langue, et encore moins pour des langues diverses. Les jeux

d'étiquettes doivent pouvoir varier selon les langues (par exemple coder le genre pour les

langues romanes, mais pas pour l'anglais), et les applications, et de plus doivent permettre

l'expérimentation, c'est-à-dire la modification rapide et fréquente en vue de l'optimisation des

étiqueteurs.

Le premier principe impose une séparation des descriptions lexicales et des étiquettes de

corpus. Dans beaucoup de systèmes d'étiquetage qu'il nous a été possible d'observer, les

étiquettes sont codées "en dur" dans le lexique, c'est-à-dire qu'à chaque forme graphique est

associée son lemme et une étiquette. Ce mode de représentation des listes lexicales est

toutefois très rigide. D'une part, la modification de la définition ou de l'extension d'une

étiquette impose des modifications globales du lexique, qui sont peu propices à une

optimisation des étiqueteurs. D'autre part, la comparaison des jeux d'étiquettes entre systèmes

ou entre langues est très difficile, pour les raisons évoquées précédemment.

MULTEXT propose donc un modèle à deux niveaux, dans lequel le lexique contient une

information de très fine granularité, et en principe stable (les descriptions lexicales) et le

corpus contient des étiquettes de corpus de granularité généralement grossière, c'est-à-dire

qui sous-spéficient les descriptions lexicales. Le passage des descriptions lexicales aux

étiquettes de corpus se fait par une traduction (figure 1). Un postulat implicite est qu'il est

plus facile de trouver un consensus au niveau des descriptions lexicales (qui décrivent la

langue) qu'au niveau des étiquettes (qui tiennent compte de nombreux paramètres plus ou

moins subjectifs : l'application, l'étiqueteur, etc.). On aura ainsi, en français, un accord assez

large sur le fait que viens est à l'indicatif et vienne est au subjonctif, même si des divergences

sont certaines quand à la représentation de ces informations au niveau des étiquettes de

corpus.

Figure 1 : Descriptions lexicales et étiquettes de corpus

Le deuxième principe est un principe applicatif, c'est-à-dire que la traduction des

descriptions lexicales vers les étiquettes de corpus doit être une application au sens

mathématique du terme[7]. Ce principe permet d'opérer la traduction des descriptions

lexicales en étiquettes de corpus par une simple table, sans référence au lexique. Si ce principe

est respecté, en admettant que les descriptions lexicales soient stables, la modification du jeu

d'étiquettes demande la seule modification de la table de correspondance. Par ailleurs, ce

principe permet une définition précise de chaque jeu d'étiquettes, ce qui est appréciable, et

constitue un élément important de la comparabilité. Enfin, le jeu des traductions permet, dans

une certaine mesure, de s'affranchir des divergences théoriques : il suffit que le niveau de

granularité des descriptions lexicales soit suffisamment fin pour que les tenants des théories

les plus diverses puissent traduire les descriptions lexicales en d'autres qu'ils affectionnent

plus particulièrement.

Figure 2 : Principe applicatif

3.2. Descriptions lexicales

3.2.1. Noyau commun

La première étape a été la détermination d'un "noyau commun" aux diverses langues et aux

diverses applications, et la définition d'un bon niveau de granularité. Nous avons largement

utilisé ici le travail effectué par le groupe EAGLES (voir Monachini et Calzolari, 1994)[8].

Les spécifications proposées par EAGLES résultent de l'observation d'un certain nombre de

projets lexicaux et de projets sur les corpus en Europe. Cette observation a permis de dégager

des constantes et des traits communs aux différents systèmes et aux diverses langues, et de

dégager un noyau d'informations morpho-syntaxiques sur lesquelles un consensus assez large

peut être établi. Le système proposé par EAGLES est un système à plusieurs couches, dont la

première est le noyau commun morpho-syntaxique. Ce noyau se complète par des couches

d'informations optionnelles, ou propres à des applications particulières. Ce modèle a

l'avantage de permettre l'harmonisation nécessaire à la comparabilité tout en permettant une

grande flexibilité. Nous reprenons cette idée dans MULTEXT en utilisant deux couches, le

noyau commun, et une couche privée additionnelle (figure 3). MULTEXT n'a pour ambition

que d'harmoniser le noyau commun.

Figure 3 : Noyau commun et couche privée

Le nombre et la nature des informations que des étiquettes de corpus peuvent encoder est

potentiellement infini. Nous avons mentionné plus haut que certains systèmes distinguent

parmi les noms propres les villes, les pays, les personnes, les sociétés. Rien n'interdit d'aller

plus loin dans la granularité (prénoms, noms de famille, noms de fleuves et rivières, de

régions, de départements, etc.); il est probable que certaines applications y trouveraient leur

bénéfice. Des subdivisions analogues peuvent s'appliquer à toutes les catégories : certains

systèmes distinguent parmi les noms communs les jours de la semaine, les noms de mois,

parmi les verbes, les verbes de type "dire, déclarer, suggérer, etc." (qui ont un intérêt dans les

textes journalistiques, ainsi qu'une distribution particulière).

Nous n'avons pas la prétention d'étendre la comparabilité à toute cette gamme (ouverte)

d'informations, et MULTEXT a pris une position très minimaliste en ce qui concerne

l'étendue du noyau commun. N'y figurent que des informations de nature clairement morpho-

syntaxique, et parmi celles-ci, uniquement celles qui font l'objet d'un large consensus.

3.2.2. Catégories grammaticales

La sélection d'un ensemble de catégories grammaticales qui fasse l'unanimité est clairement

une tâche impossible, et toute solution ne peut être qu'un compromis. Les catégories adoptées

pour MULTEXT sont données par la figure 4.

Category

Code

Noun

Verb

Adjective

Pronoun

Determiner

Adverb

Adposition

Conjunction

Numeral

Interjection

Residual

Figure 4 : Catégories grammaticales EAGLES/MULTEXT

La plupart des catégories s'expliquent d'elles-mêmes (bien qu'il ne soit pas toujours évident de

définir avec précision leur extension). On notera la classe des numéraux, qui permet de

s'affranchir du délicat problème de leur classement dans les parties du discours traditionnelles

(en français, ils fonctionnent à la fois comme adjectifs, noms ou pronoms). A nouveau, il est

possible d'opérer des traductions appropriés pour modifier le classement. La classe X

concerne tous les objets au statut lexical incertain, et qui en tous cas ne semblent pas relever

des parties du discours classiques (symboles, dates, parties de locutions au statut non

autonome, etc.).

3.2.3. Attributs et valeurs

Les descriptions lexicales de MULTEXT sont représentées par des couples attribut-valeur

(structures de traits typées[9]). par exemple, un nom commun masculin singulier sera

représenté par la structure de traits suivante :

N[type=common gender=masculine number=singular case=n/a]

Pour des raisons d'harmonisation entre langues, certains attributs (tels que le cas) sont

présents, mais ne s'appliquent pas à une catégorie donnée dans telle ou telle langue, ce que

traduit la valeur n/a ("not applicable"). D'autres attributs s'appliquent à la catégorie dans la

langue considérée, mais ne s'appliquent pas à certaines de ses sous-catégories. Par exemple

pour les verbes français, le genre ne s'applique qu'au participe passé alors que la personne ne

s'applique pas. On aura donc, par exemple pour la première personne de l'indicatif présent :

V[type=main mood=indicative tense=present

person=first number=singular gender=n/a]

et pour le participe passé féminin :

V[type=main mood=participle tense=past person=n/a

number=singular gender=feminine][10]

Une version prélimianire des catégories grammaticales, attributs et valeurs retenus pour le

noyau commun du projet MULTEXT est décrite dans (Bel et al. 1995)[11]. Voir la figure 5

ci-après, par exemple, pour les noms et les verbes. On notera un certain nombre de

compromis et de décisions arbitraires. Ainsi, le conditionnel qui est classé dans les modes (à

la façon de la grammaire traditionnelle) pourrait peut-être, d'une façon plus linguistiquement

correcte, être classé dans les temps, mais une traduction immédiate est possible entre l'une et

l'autre convention, et la question ne semble pas valoir une controverse.

3.2.4. Représentation compacte

Le projet MULTEXT propose une représentation compacte des structures de traits, inspirée de

(Leech et Wilson 1994). Chaque structure de traits est codée sous forme d'une chaîne de

caractères où :

 le premier caractère code la catégorie grammaticale, selon le code donné par la table

de la figure 4;

 chacune des positions suivantes de la chaîne code un attribut. Les attributs sont

ordonnés selon les tables données par la figure 5 pour les noms et les verbes, et chaque

valeur est représenté par un caractère unique (donné par la colonne "code").

 la valeur "non applicable" est représentée par un tiret (-).

Exemples :

N[type=common gender=masculine number=singular]

Ncms-

V[type=main mood=indicative tense=present

person=first number=singular]

Vmip1s--

Cette représentation compacte permet également de représenter la sous-spécification par des

expressions régulières (voir ci-après).

Noun

Pos.

Attribute

Value

Code

Type

common

proper

Gender

masculine

feminine

neuter

Number

singular

plural

Case

nominative

genitive

dative

accusative

Verb

Pos.

Attribute

Value

Code

1 / 8 100%

Documents connexes

Le fonctionnement de l`objet technique

Les mots étiquettes

fiche de prep le temps du verbe 2 2

Langage écrit

Bulletin d`informations

DET - AB chimie

MMF5 - Math: atelier 39

Bulletin d`informations

Cartes à étiquettes de repérage - SES

Jobdescription_Stagiaire Marketing

Graphiste

Fiches d'exercices maternelle: tri, algorithmes, quadrillage

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

3. Modèle

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

3. Modèle

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib