
Etiquetage grammatical multilingue: modèle - Jean Véronis and Liliane Khouri.
Document MULTEXT LEX2. Section 3.
| Back to table of contents | See copyright and permission notice on title page. |
3. Modèle
Dans un projet comme MULTEXT, où la préoccupation principale est la généricité et la
réutilisabilité des ressources et outils dans un contexte fortement multilingue, il est clair que
des solutions devaient être trouvées pour assurer la comparabilité intra- et inter-langues des
étiquettes. Le problème est difficile, comme les considérations de la section précédente
peuvent le laisser entrevoir. MULTEXT n'a en aucun cas la prétention d'avoir résolu le
problème de façon définitive. De nombreux problèmes restent ouverts, et l'adjonction de
langues supplémentaires (voire l'adaptation à de nouvelles applications) imposera
certainement une révision des schémas proposés. Toutefois, reconnaître et admettre la
difficulté du problème global (assurer la comparabilité d'étiquettes dans un grand nombre de
langues) ne doit pas empêcher des solutions locales, qui permettraient de faire un progrès,
c'est-à-dire quelques pas entre le "rien" (incomparabilité totale) et le "tout" (comparabilité
totale). L'approche adoptée par MULTEXT, à la suite d'EAGLES, se situe dans cette optique,
éminemment pratique, et n'a aucune visée théorique. Les catégories proposées n'ont d'autre
but que de fournir un langage commun permettant (au moins partiellement) la description et la
comparaison des systèmes. Il est clair que les progrès dans ce domaine ne peuvent être que
lents et progressifs; ils présupposent des avancées techniques et théoriques, mais aussi une
évolution des points de vues, écoles et terminologies.
3.1. Principes
Les principes adoptés par MULTEXT sont basés sur un postulat : l'impossibilité d'avoir un jeu
d'étiquettes unique pour une langue, et encore moins pour des langues diverses. Les jeux
d'étiquettes doivent pouvoir varier selon les langues (par exemple coder le genre pour les
langues romanes, mais pas pour l'anglais), et les applications, et de plus doivent permettre
l'expérimentation, c'est-à-dire la modification rapide et fréquente en vue de l'optimisation des
étiqueteurs.
Le premier principe impose une séparation des descriptions lexicales et des étiquettes de
corpus. Dans beaucoup de systèmes d'étiquetage qu'il nous a été possible d'observer, les
étiquettes sont codées "en dur" dans le lexique, c'est-à-dire qu'à chaque forme graphique est
associée son lemme et une étiquette. Ce mode de représentation des listes lexicales est
toutefois très rigide. D'une part, la modification de la définition ou de l'extension d'une
étiquette impose des modifications globales du lexique, qui sont peu propices à une
optimisation des étiqueteurs. D'autre part, la comparaison des jeux d'étiquettes entre systèmes
ou entre langues est très difficile, pour les raisons évoquées précédemment.
MULTEXT propose donc un modèle à deux niveaux, dans lequel le lexique contient une
information de très fine granularité, et en principe stable (les descriptions lexicales) et le
corpus contient des étiquettes de corpus de granularité généralement grossière, c'est-à-dire