GETALP S. CHAPPUY - 2011 1
La méthodologie linguistique au GETALP.
Application aux développements linguistiques du français
Sylviane Chappuy
Août 2011
A la mémoire de Bernard Vauqois et Nicolas Nedobejkine
sans qui je ne saurais rien de tout cela.
GETALP S. CHAPPUY - 2011 2
I. Introduction des spécificités de la TA au GETALP
Les processus mis en jeu au cours de la traduction automatique sont
certainement assez éloignés de ceux de la traduction humaine mais peuvent
malgré tout être tous les deux décrits de la manière suivante : « Pour être
traduit un message quelconque doit être « compris », « revêtu » d’une
nouvelle enveloppe lexicale et « présenté » sous une forme grammaticale
conforme à la langue du destinataire ».
Il est fondamental dans un système de traduction automatique de restituer
le « sens » du texte source dans la langue cible, mais il est tout aussi
important de connaître la manière avec laquelle les « idées » y sont
exprimées pour pouvoir les exprimer de manière approchante et correcte
dans l’autre langue. C’est de cette idée maîtresse qu’est le modèle
linguistique défini au GETALP.
1) La m-structure
Pour représenter un énoncé aussi fidèlement que possible, on utilisera le
concept de m-structure, décrivant en plus du lexique, l’énoncé sous quatre
aspects différents appelés niveaux d’interprétation du texte :
parenthésage en termes de classe ;
liens syntaxiques ;
liens logiques ;
liens sémantiques.
Les deux premiers niveaux sont appelés niveaux de surface et liés à la
langue ils gardent la mémoire de la façon dont les choses sont dites et les
deux derniers niveaux sont appelés niveaux profonds et expriment la
« compréhension » que l’on a du texte, ils sont communs à toutes les
langues.
De la même façon, pour une langue donnée il y a plusieurs façons de dire
syntaxiquement la même chose. Au sens profond, le but est donc que tout
les paraphrasages d’une même phrase aient la même structure à ces
niveaux d’interprétation profonds. C’est le « secouage », on attrape la
phrase par un autre bout (le gouverneur à ces niveaux d’interprétation
profonds) et on « secoue » la structure en ne gardant que RL et RS. Comme
aux niveaux profonds on a calculé les mêmes informations, on a la même
structure pour toutes les langues.
GETALP S. CHAPPUY - 2011 3
2) Le processus de traduction en trois phases
Il est fondamental de décomposer une traduction en trois phases
totalement indépendantes les unes des autres : l’analyse du texte pour la
« compréhension » strictement monolingue, le transfert de ce texte pour
obtenir la nouvelle enveloppe lexicale et ses potentialités et enfin la
génération ou plutôt synthèse de l’énoncé dans une nouvelle langue elle
aussi strictement monolingue. Cette approche qui est celle des systèmes de
traduction dits de deuxième génération avec transfert a été adoptée par
GETALP il y a de nombreuses années
1
.
La phase de transfert étant la seule bilingue, il faut ne jamais perdre de vue
que le but est de la réduire à son minimum et donc de pousser au maximum
la phase d’analyse de chaque langue et de travailler à des générations « tout
terrain » (qui se débrouillent avec très peu, c’est-à-dire même avec une
analyse faisant défaut et rien de prédit en transfert qui soit utilisable) qui
permettent cette optimisation du transfert. Cette approche est celle du
GETALP dont les derniers systèmes développés sous Ariane ont eu pour
objectifs de mettre en œuvre cette optimisation (génération du français
2
).
3) Les bases de données lexicales
Il faut que les dictionnaires monolingues soient conçus de telle façon que
les dictionnaires de transfert soient réduits à leur minimum. Cette approche
est celle du GETALP qui privilégie le développement de bases de données
qui, d’un point de vue monolingue, différentient les sens des mots et d’où
sont extraits automatiquement les dictionnaires des systèmes de traduction
qui permettront les calculs linguistiques en analyse et en génération. Le but
ultime étant la génération quasi automatique des dictionnaires de transfert
(aujourd’hui très coûteux) à partir de ces bases (faire des petits nœuds :
mots/sens entre deux langues dans une base multilingue).
Toujours dans un but d’optimisation des coûts, ces bases de données dans
leur partie monolingue sont développées par couches successives, dont
certaines peuvent être confiées à des outils informatiques, d’autres à des
locuteurs sans qualifications particulières, d’autres à des spécialistes
dument formés, ce sont les « dictionnaires mille-feuilles ».
La jonction mots/sens entre deux langues pour la phase de traduction
réduite au minimum devra malgré tout être confiée à un traducteur formé.
4) Les grammaires statiques
1
***CETA ?***
2
Voir le document Spécification de la Génération syntaxique du français, S. Chappuy (2011)
GETALP S. CHAPPUY - 2011 4
Le but des grammaires statique était initialement de libérer le linguiste des
contraintes de la programmation sous les moteurs du système de
traduction Ariane. De séparer donc l’aspect spécification linguistiques de
l’aspect implémentation linguistique. Les premiers systèmes de traduction
avaient été développés sans spécifications préalables et ont posé des
problèmes de maintenance et très vite on en a ignoré la couverture
linguistique exacte en l’absence des auteurs. Le problème étant surtout le
développement des analyses, les grammaires statiques dans leur première
version avaient une structure assez sommaire, leur grand intérêt était de
décrire les structures linguistiques (arborescentes) une par une et d’être
facilement incrémentales. Une première grammaire statique a été
développée pour le français dans le cadre du Projet national TAO. Elle a été
développée par la société B’VITAL après une analyse de corpus faite sur des
manuels de maintenance dans le domaine de l’aéronautique et a servi de
base au développement de l’analyse structurale du français pour la
traduction de manuel d’aviation 1984-1987, elle a ensuite été réutilisée en
1990 comme base pour les spécifications de l’inplémentation d’une
nouvelle GS du français
3
. Parallèlement une grammaire statique de l’anglais
a été développée à partir du même type de corpus (en fait la traduction
humaine du corpus choisi pour le français).
La grammaire statique a été rebaptisées plus tard « String to Tree
Correspondance Grammars » ou STCG par M. Zaharin Yussof.
Une version à jour de la grammaire statique du français implémentée est
disponible depuis août 2011
4
.
5) En bref
La TA au GETALP c’est donc :
Une théorie linguistique ou modèle linguistique
Une méthode et des outils de spécification linguistiques
Une méthode et des outils de développement des dictionnaires
Des outils d’implémentation (moteurs) spécialisés.
II. Une théorie linguistique ou modèle linguistique
On parlera dans ce qui suit de « langue source » et de « langue cible » pour
un système traduisant d’une langue appelée langue source vers une langue
appelée langue cible.
1) L’analyse de la langue
3
Ce document Spécification de la Génération syntaxique du français ******** TRAOUIERO
4
Mise sur la forge, projet TRAOUIERO, août 2011.
GETALP S. CHAPPUY - 2011 5
L’analyse d’un texte dans une langue donnée a pour objectif de fournir pour
ce texte sa m-structure.
Quand on parle en traduction automatique de « compréhension », il s’agit
bien entendu d’une compréhension implicite, on ne comprend pas un
énoncé en en saisissant le contenu informatif, mais en en saisissant
seulement l’enveloppe formelle. Dans le processus de traduction, c’est
l’analyse qui prendra en charge cette compréhension de l’énoncé. La
signification de l’énoncé sera représentée en termes de prédicats logiques
et sémantiques auxquels s’ajoutent des informations sémantiques calculées
sur les différents éléments de l’énoncé.
L’analyse d’un texte a pour objectif de fournir pour ce texte cette m-
structure.
2) Le transfert, minimal et prédictif contrastivement
Le transfert traite des phénomènes contrastifs entre les deux langues.
« Trouver une nouvelle enveloppe lexicale à l’énoncé » revient à traduire
chaque élément du lexique qui le compose. Il s’agit d’une traduction de
chaque mot utile
5
à l’énoncé, dans le contexte dans lequel il apparaît. Ceci
est pris en charge par la phase transfert lexical (TL). Il va ainsi traduire le
lexique proprement dit, en donnant pour chaque feuille de l’arbre d’analyse
la meilleure traduction possible en fonction du contexte logico sémantique
calculé par l’AS. Ces traductions seront porteuses de leurs propres
potentialités syntaxiques exprimées dans le jeu de variables de la langue
cible.
Le transfert (TS) qui n’intervient pas du tout sur la structure de fin
d’analyse pour les deux niveaux les plus profonds, va par contre étudier les
deux niveaux les moins profonds de la langue source et regarder comment
dans la langue cible il lui est possible de les rendre au mieux. Il va donc
faire des prédictions sur les niveaux de surface de la langue cible en
fonction des niveaux de surface de la langue source. Ces prédictions ont
pour rôle d’orienter la génération pour la prise en compte de la façon dont
les choses ont été exprimées en langue source, tout en permettant à celle-ci
de rester strictement monolingue.
Dans le traitement contrastifs des variables de la langue source et de la
langue cible, le transfert prendra soin de bien restituera les paraphrasages
des schémas de dérivations de la langue source qui seraient inconnues de la
langue cible de façon à ce que leur traduction soient transparentes à la
génération qui ignore de quelle langue elle vient.
5
Certains mots jugés inutiles peuvent avoir été supprimés par l’analyse, d’autre variabilisés, d’autre enfin
créés pour restituer du sens.
1 / 51 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !