CHAPITRE 1 : LA NOTION D*ENSEMBLE

Téléchargement

GETALP – S. CHAPPUY - 2011 1

La méthodologie linguistique au GETALP.

Application aux développements linguistiques du français

Sylviane Chappuy

Août 2011

A la mémoire de Bernard Vauqois et Nicolas Nedobejkine

sans qui je ne saurais rien de tout cela.

GETALP – S. CHAPPUY - 2011 2

I. Introduction des spécificités de la TA au GETALP

Les processus mis en jeu au cours de la traduction automatique sont

certainement assez éloignés de ceux de la traduction humaine mais peuvent

malgré tout être tous les deux décrits de la manière suivante : « Pour être

traduit un message quelconque doit être « compris », « revêtu » d’une

nouvelle enveloppe lexicale et « présenté » sous une forme grammaticale

conforme à la langue du destinataire ».

Il est fondamental dans un système de traduction automatique de restituer

le « sens » du texte source dans la langue cible, mais il est tout aussi

important de connaître la manière avec laquelle les « idées » y sont

exprimées pour pouvoir les exprimer de manière approchante et correcte

dans l’autre langue. C’est de cette idée maîtresse qu’est né le modèle

linguistique défini au GETALP.

1) La m-structure

Pour représenter un énoncé aussi fidèlement que possible, on utilisera le

concept de m-structure, décrivant en plus du lexique, l’énoncé sous quatre

aspects différents appelés niveaux d’interprétation du texte :

− parenthésage en termes de classe ;

− liens syntaxiques ;

− liens logiques ;

− liens sémantiques.

Les deux premiers niveaux sont appelés niveaux de surface et liés à la

langue ils gardent la mémoire de la façon dont les choses sont dites et les

deux derniers niveaux sont appelés niveaux profonds et expriment la

« compréhension » que l’on a du texte, ils sont communs à toutes les

langues.

De la même façon, pour une langue donnée il y a plusieurs façons de dire

syntaxiquement la même chose. Au sens profond, le but est donc que tout

les paraphrasages d’une même phrase aient la même structure à ces

niveaux d’interprétation profonds. C’est le « secouage », on attrape la

phrase par un autre bout (le gouverneur à ces niveaux d’interprétation

profonds) et on « secoue » la structure en ne gardant que RL et RS. Comme

aux niveaux profonds on a calculé les mêmes informations, on a la même

structure pour toutes les langues.

GETALP – S. CHAPPUY - 2011 3

2) Le processus de traduction en trois phases

Il est fondamental de décomposer une traduction en trois phases

totalement indépendantes les unes des autres : l’analyse du texte pour la

« compréhension » strictement monolingue, le transfert de ce texte pour

obtenir la nouvelle enveloppe lexicale et ses potentialités et enfin la

génération ou plutôt synthèse de l’énoncé dans une nouvelle langue elle

aussi strictement monolingue. Cette approche qui est celle des systèmes de

traduction dits de deuxième génération avec transfert a été adoptée par

GETALP il y a de nombreuses années

La phase de transfert étant la seule bilingue, il faut ne jamais perdre de vue

que le but est de la réduire à son minimum et donc de pousser au maximum

la phase d’analyse de chaque langue et de travailler à des générations « tout

terrain » (qui se débrouillent avec très peu, c’est-à-dire même avec une

analyse faisant défaut et rien de prédit en transfert qui soit utilisable) qui

permettent cette optimisation du transfert. Cette approche est celle du

GETALP dont les derniers systèmes développés sous Ariane ont eu pour

objectifs de mettre en œuvre cette optimisation (génération du français

3) Les bases de données lexicales

Il faut que les dictionnaires monolingues soient conçus de telle façon que

les dictionnaires de transfert soient réduits à leur minimum. Cette approche

est celle du GETALP qui privilégie le développement de bases de données

qui, d’un point de vue monolingue, différentient les sens des mots et d’où

sont extraits automatiquement les dictionnaires des systèmes de traduction

qui permettront les calculs linguistiques en analyse et en génération. Le but

ultime étant la génération quasi automatique des dictionnaires de transfert

(aujourd’hui très coûteux) à partir de ces bases (faire des petits nœuds :

mots/sens entre deux langues dans une base multilingue).

Toujours dans un but d’optimisation des coûts, ces bases de données dans

leur partie monolingue sont développées par couches successives, dont

certaines peuvent être confiées à des outils informatiques, d’autres à des

locuteurs sans qualifications particulières, d’autres à des spécialistes

dument formés, ce sont les « dictionnaires mille-feuilles ».

La jonction mots/sens entre deux langues pour la phase de traduction

réduite au minimum devra malgré tout être confiée à un traducteur formé.

4) Les grammaires statiques

***CETA ?***

Voir le document Spécification de la Génération syntaxique du français, S. Chappuy (2011)

GETALP – S. CHAPPUY - 2011 4

Le but des grammaires statique était initialement de libérer le linguiste des

contraintes de la programmation sous les moteurs du système de

traduction Ariane. De séparer donc l’aspect spécification linguistiques de

l’aspect implémentation linguistique. Les premiers systèmes de traduction

avaient été développés sans spécifications préalables et ont posé des

problèmes de maintenance et très vite on en a ignoré la couverture

linguistique exacte en l’absence des auteurs. Le problème étant surtout le

développement des analyses, les grammaires statiques dans leur première

version avaient une structure assez sommaire, leur grand intérêt était de

décrire les structures linguistiques (arborescentes) une par une et d’être

facilement incrémentales. Une première grammaire statique a été

développée pour le français dans le cadre du Projet national TAO. Elle a été

développée par la société B’VITAL après une analyse de corpus faite sur des

manuels de maintenance dans le domaine de l’aéronautique et a servi de

base au développement de l’analyse structurale du français pour la

traduction de manuel d’aviation 1984-1987, elle a ensuite été réutilisée en

1990 comme base pour les spécifications de l’inplémentation d’une

nouvelle GS du français

. Parallèlement une grammaire statique de l’anglais

a été développée à partir du même type de corpus (en fait la traduction

humaine du corpus choisi pour le français).

La grammaire statique a été rebaptisées plus tard « String to Tree

Correspondance Grammars » ou STCG par M. Zaharin Yussof.

Une version à jour de la grammaire statique du français implémentée est

disponible depuis août 2011

5) En bref

La TA au GETALP c’est donc :

− Une théorie linguistique ou modèle linguistique

− Une méthode et des outils de spécification linguistiques

− Une méthode et des outils de développement des dictionnaires

− Des outils d’implémentation (moteurs) spécialisés.

II. Une théorie linguistique ou modèle linguistique

On parlera dans ce qui suit de « langue source » et de « langue cible » pour

un système traduisant d’une langue appelée langue source vers une langue

appelée langue cible.

1) L’analyse de la langue

Ce document Spécification de la Génération syntaxique du français ******** TRAOUIERO

Mise sur la forge, projet TRAOUIERO, août 2011.

GETALP – S. CHAPPUY - 2011 5

L’analyse d’un texte dans une langue donnée a pour objectif de fournir pour

ce texte sa m-structure.

Quand on parle en traduction automatique de « compréhension », il s’agit

bien entendu d’une compréhension implicite, on ne comprend pas un

énoncé en en saisissant le contenu informatif, mais en en saisissant

seulement l’enveloppe formelle. Dans le processus de traduction, c’est

l’analyse qui prendra en charge cette compréhension de l’énoncé. La

signification de l’énoncé sera représentée en termes de prédicats logiques

et sémantiques auxquels s’ajoutent des informations sémantiques calculées

sur les différents éléments de l’énoncé.

L’analyse d’un texte a pour objectif de fournir pour ce texte cette m-

structure.

2) Le transfert, minimal et prédictif contrastivement

Le transfert traite des phénomènes contrastifs entre les deux langues.

« Trouver une nouvelle enveloppe lexicale à l’énoncé » revient à traduire

chaque élément du lexique qui le compose. Il s’agit d’une traduction de

chaque mot utile

à l’énoncé, dans le contexte dans lequel il apparaît. Ceci

est pris en charge par la phase transfert lexical (TL). Il va ainsi traduire le

lexique proprement dit, en donnant pour chaque feuille de l’arbre d’analyse

la meilleure traduction possible en fonction du contexte logico sémantique

calculé par l’AS. Ces traductions seront porteuses de leurs propres

potentialités syntaxiques exprimées dans le jeu de variables de la langue

cible.

Le transfert (TS) qui n’intervient pas du tout sur la structure de fin

d’analyse pour les deux niveaux les plus profonds, va par contre étudier les

deux niveaux les moins profonds de la langue source et regarder comment

dans la langue cible il lui est possible de les rendre au mieux. Il va donc

faire des prédictions sur les niveaux de surface de la langue cible en

fonction des niveaux de surface de la langue source. Ces prédictions ont

pour rôle d’orienter la génération pour la prise en compte de la façon dont

les choses ont été exprimées en langue source, tout en permettant à celle-ci

de rester strictement monolingue.

Dans le traitement contrastifs des variables de la langue source et de la

langue cible, le transfert prendra soin de bien restituera les paraphrasages

des schémas de dérivations de la langue source qui seraient inconnues de la

langue cible de façon à ce que leur traduction soient transparentes à la

génération qui ignore de quelle langue elle vient.

Certains mots jugés inutiles peuvent avoir été supprimés par l’analyse, d’autre variabilisés, d’autre enfin

créés pour restituer du sens.

1 / 51 100%

Documents connexes

3. COMPARAISON (11227)

6. Reconnait : nom, verbe, adjectif, adverbe.

Cette page fait suite à l`animation « Arts plastiques » avec Brigitte

quelque avec montessori corr

Les classes de mots Chaque mot appartient à une classe de mots, c

ADJECTIF OU ADVERBE ? renvoie à Adjectif C`est une bonne

LES FÊTES DE FIN D`ANNÉE Dans le texte verbe nom adjectif

d`avantages

Mots croisés : natures et fonctions Horizontalement 3. Une des

De l*adjectif à l*adverbe

Et pendant deux heures, pendant que j`essayais en vain de le

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

CHAPITRE 1 : LA NOTION D*ENSEMBLE

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

CHAPITRE 1 : LA NOTION D*ENSEMBLE

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib