Chapitre 5
Augmentation lexico-sémantique pour la
traduction automatique du français vers le tahitien
OU
Phénomènes contrastifs du tahitien et utilisations
de l’augmentation lexico-sémantique
5.1. Les méthodes de transfert lexical
L’apparition de nouvelles notions dans la langue cible fait apparaître de nouveaux
sens pour chaque mot-sens désambiguïsé dans la langue source. Cette émergence est due
aux différences de notions dans la langue source et dans la langue cible.
Ces nouvelles notions sont souvent des notions que l’on peut reconstruire à partir de
notions existantes dans la langue source. Par exemple, le tahitien fait une différence entre
la mer près du bord de la plage et l’océan dans les mots qu’elle emploie pour désigner les
mêmes choses. A tel point que «l’eau salée» se dit «te miti»
1
ou «te tai» suivant d’où elle
provient, du bord de la plage ou de l’océan.
Ces nouveaux sens doivent être codés pour le transfert lexical dans un lexique afin
de pouvoir en tenir compte. Ce lexique de transfert lexical met en concordance les mots-
sens de la désambiguïsation et les nouveaux sens dans la langue cible. Nous pouvons
utiliser les sens désambiguïsés et notre méthode de deux manières différentes pour obtenir
les mots-sens traduits : la première méthode utilise une seul thesaurus et permet
d’exprimer les mots-sens à traduire selon les notions de la langue source. La deuxième
méthode utilise un deuxième thesaurus, celui de la langue cible, pour les mots-sens
traduits.
5.1.1 Utilisation d’un seul thesaurus
Cette première méthode utilise un seul thesaurus, celui du français.
Ces nouveaux sens sont différenciés du mot-sens de la désambiguïsation des sens
des mots par l’ajout de projections sur les notions existantes du thesaurus, ces projections
représentant l’apparition des nouvelles notions de la langue cible.
Elle est illustrée par la figure 5.1.
La conception du lexique représente la première étape et est effectuée en trois
phases - (1a) et (1b) et (1c) dans la figure 5.1.
La première phase (1a) est la phase de traduction des mots-sens en leurs équivalents
dans la langue cible. En effet, même si nous trouvons le sens d’un mot après la
désambiguïsation sémantique, l’apparition des nouvelles notions entraîne des sens
nouveaux dans la langue cible. Pour chaque mot-sens dans la langue source, il est
nécessaire de répertorier dans la langue cible ses équivalents dans la langue cible.
Une fois les mots-sens associés à leurs équivalents, une projection reprsénet la
deuxième phase (1b). Elle permet de différencier les différents mots-sens les uns des
autres. En supposant que les notions du thesaurus contiennent toute la connaissance
1
Les mots tahitiens sont issus du Dictionnaire français-tahitien de Mgr Jaussen (1987).
humaine, les nouvelles notions de la langue cible doivent exister par rapport à celles de la
langue source. Les mots-sens de la langue cible peuvent se projeter sur le thesaurus déjà
utilisé de la langue source. Nous obtenons de nouveaux vecteurs sémantiques de ces mots-
sens par l’intermédiaire de l’espace vectoriel décrit dans le chapitre trois.
Les équivalents dans la langue cible et leurs vecteurs sémantiques sont incorporés
dans le lexique de transfert lexical phase (1c).
Figure 5.1. Le schéma de la première méthode de transfert lexical.
La deuxième étape consiste à reconstruire une nouvelle structure syntaxo-
sémantique afin de pouvoir retrouver le bon équivalent dans la langue cible pour chaque
mot désambiguïsé dans la langue source. Elle permet de reconstruire de nouveaux
contextes avec de nouvelles notions.
Pour cela, les sens des mots dans la langue cible sont intégrés du lexique du transfert
lexical dans la structure syntaxo-sémantique sous les points représentant les mots-sens
désambiguïsés afin de permettre afin que les points-feuilles récupèrent les nouvelles idées
phase (2a).
Les notions sont remontées vers le haut de la structure de la même manière que
l’augmentation lexico-sémantique donnée dans le chapitre trois. Cela représente la phase
(2b). On obtient les nouveaux contextes des textes et une nouvelle structure syntaxo-
sémantique en fonction des mots-sens du lexique du transfert lexical.
Cela nous permet d’effectuer une désambiguïsation des mots-sens dans la langue
cible cette fois-ci. C’est l’étape (3) dans le schéma de la figure 5.1. On obtient alors les
mots-sens traduits dans la langue cible.
Le mérite de cette méthode est de pouvoir utiliser les mêmes de données que celles
décrites pour l’augmentation lexico-sémantique. C’est exactement le même processus que
pour la désambiguïsation des sens des mots dans la langue source.
Le premier inconvénient est l’effort du codage manuel à fournir et des connaissances
nécessaires à la traduction des mots-sens.
Le deuxième inconvénient repose sur le postulat utilisé i.e. utiliser le même thesaurus
de la langue source pour les mots-sens dans la langue cible. On verra que la deuxième
méthode préconise l’utilisation de deux thesaurus.
5.1.2 Utilisation de deux thesaurus
Elle repose sur les remarques suivantes :
Des notions nouvelles apparaissent dans la langue cible. Cela est vrai pour des langues
d’un même groupe de langues. Cela est encore plus vrai pour des langues qui ne font
pas partie d’un même groupe de langues comme le français et le tahitien. On ne peut
avoir un seul thesaurus pour les deux langues, le français et le tahitien.
Dans le cas de textes néraux, le découpage en notions de la langue source n’est pas
forcément le même que celui des notions dans la langue cible. Même si l’ensemble des
notions était le même d’une langue à l’autre, il y a une dérive d’une langue à l’autre des
champs sémantiques de telle manière que le sens des mots dans une langue source
n’est pas projeté sur les mêmes notions dans le thesaurus de la langue cible. Il n’y pas
de procédure clairement identifiable dans le passage d’une langue à l’autre.
Nous n’utiliserons pas de procédure nérale de passage d’une langue à l’autre par
les thesauri en essayant de transformer les champs sémantiques du thesaurus de la langue
source en champs sémantiques du thesaurus de la langue cible.
Les mots-sens trouvés par la désambiguïsation des sens des mots ne sont pas
traduits tels quels en tahitien mais sont traités par un calcul en fonction des notions du
nouveau thesaurus de la langue cible. Cette méthode est illustrée par le schéma de la figure
5.2.
La méthode dans cette section est pratiquement la même que celle de la section
précédente, la différence se faisant au niveau de l’utilisation de deux thesauri au lieu d’un
seul.
En effet, la construction du lexique de transfert lexical suit les mêmes principes que
la première méthode mais les mots-sens équivalents traduits phase (1) sur le schéma 5.2 -
sont à projeter dans le thesaurus de la langue cible au lieu du thesaurus de la langue source.
Par conséquent, un autre espace vectoriel est à créer phase (2) sur le schéma 5.2, ce
que nous permet la grammaire structurelle vue dans le chapitre trois.
De la même manière, l’augmentation lexico-sémantique phase (3) crée une
nouvelle structure syntaxo-sémantique, en fonction des notions du thesaurus de la langue
cible cette fois-ci.
Figure 5.2. Schéma de la deuxième méthode de transfert lexical.
1 / 14 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !