Traduction automatique
Introduction
Dans le domaine de la traduction automatique on différencie deux approches :
l'approche par "transfert" versus l'approche "par pivot":
L'approche par transfert comprend 4 étapes :
1. Analyse syntaxique : on effectue une analyse syntaxique (qui peut intégrer une certaine
part de sémantique) d'un énoncélangue source. Parallèlement à l'analyse syntaxique, une
représentation structurelle de la phrase analysée est construite. On appelle "arbre
syntaxique" une telle représentation.
2. Transfert lexical : on remplace les feuilles des arbres syntaxiques de la langue source par
les feuilles de la langue cible correspondantes à l'aide d'un lexique bilingue langue source
– langue cible guidé par le contexte et des informations statistiques.
3. Restructuration syntaxique : les règles déclaratives de restructuration syntaxique
s'appliquent (ou pas) à l'arbre ainsi obtenu!:
I want him to come (Je veux il venir)=>je veux que il
vienne.
4. Enfin le composant morphologique génère la séquence dans la langue cible.
Les bases de données nécessaires dans une approche de ce type se composent de :
• une grammaire de la langue source
!un lexique bilingue
!de règles de restructuration langue source/langue cible
!des règles de morphologie pour la langue cible (phase génération)
Une partie de ces données est donc spécifique au couple de langues (LS–LC) et doit donc être
effectuée pour chaque nouveau couple.
L'approche pivot s'appuie sur l'idée qu'il existe un langage de représentation du sens d'une
phrase indépendant de la langue d'énoncé. Cette représentation est choisie comme pivot. La
traduction se fait alors en deux étapes :
1. une étape d'analyse permettant de passer de la langue source au "pivot" (en faisant une
analyse syntaxique et une analyse sémantique, couplée ou non -utilisant un lexique
Langue source – Pivot )
2. une étape de génération permettant d'engendrer l'énoncé en langue cible (utilisant un
lexique Pivot Langue cible et des règles syntaxiques spécifiques à la langue cible
éventuellement en fonction de critères pragmatiques : choix des mots et des tournures…).
Dans un tel système, la langue source et la langue cible sont totalement disconnectées et les
bases de données ne font plus intervenir qu'une seule langue et non pas le couple LS – LC, ce
qui est plus économique.
Avantages et Inconvénients des deux approches :
L'approche par pivot, si elle est plus séduisante, pose le problème du langage pivot
représentation sémantique intermédiaire. Elle demande une analyse sémantique complète de
chaque phrase à traduire, ce qui est un problème encore mal résolu.
L'approche par transfert, quant à elle, s'appuie sur l'idée que pour deux langues suffisamment
proches, il n'est pas toujours nécessaire de tout comprendre pour traduire, et qu'une approche
syntaxique à laquelle on ajoute une composante sémantique plus ou moins importante peut
aboutir à des résultats acceptables, notamment pour un domaine de traduction donné.
LMT : basé sur un transfert syntaxique mais ouvert à une sémantique locale pour pallier aux
lacunes d'une telle approche. (Par exemple, in dans la phrase "We find this in this author"se
traduit par chez et par dans dans la phrase "it is in this book": on verra + loin).
Le processus de traduction se déroule en quatre étapes :
• analyse syntaxique de l'anglais : construction de l'arbre syntaxique associé à la phrase
• transfert lexical : remplacement des mots anglais par les mots français
• restructuration synaxique : l'arbre est restructuré en fonction de la syntaxe du français
• morphologie : inflexion des feuilles de l'arbre structuré
Ce système a été conçu en maximisant l'aspect déclaratif : les bases de connaissances relatives
à la structuration sont sous forme de règles, qui sont compilées de la même façon pour tout
couple de langue ; le lexique bilingue est entré sous forme déclarative puis compilé de
manière à ce que le transfert lexical se fasse toujours de la même façon.
Autant les règles de restructuration ont un caractère général, autant le lexique bilingue dépend
du domaine de traduction. En effet, compte tenu de l'aspect syntaxique prépondérant dans ce
genre d'approche, il faut envisager la traduction en restreignant l'application à un domaine
particulier de façon à limiter les difficultés provenant de l'emploi polysémique des mots.
Présentation du système
Organisation des lexiques, le formalisme ELF (External lexical form)
Les lexiques monolingues et bilingues sont encodés dans un même formalisme "ELF".
Une entrée lexicale est de la forme :
Mot < A1 < A2 < … < An
où les Ai sont les éléments de l'entrée.
Par exemple :
give < v(obj.iobj).
talk < v(obj(n/p(about/of/in/on)).p(to/with))
< n(p(about/of/on).p(to/with)).
Le premier exemple a un seul élément, montrant give comme un verbe (foncteur v) ayant un
"slot" objet direct (obj) et un "slot" objet indirect (iobj). Dans le formalisme ELF, le slot sujet
n'a pas à être spécifié pour un verbe sauf si quelque chose de spécial doit être spécifié (type
sémantique ou autre).
Le deuxième exemple montre talk à la fois comme un verbe et comme un nom. Les "/"
indiquent les alternatives (or-slots).
Des types (et même des combinaisons booléennes de types) peuvent être associés aux slots :
give < v(obj : concrete .iobj : human).
ELF permet également de relier des sens de mots à des domaines :
write < v(obj.iobj)
< n(domaine(computers),p(in/on/into)).
The most time-consuming portion of the transaction, the write into the RAM
core, is delayed until the next write access, ...
1 / 23 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !