Telegraph_cr

publicité
T E L E G R A P H : Logiciel d’aide à la traduction
Compte rendu rapide d’utilisation – Pour le Congrès de la SAES – Nice 1997 – Atelier Technologies Nouvelles
Éditeur : Globalink : [email protected] et http://www.globalink.com
Prix : mise à jour depuis Power Translator pro de 2000F, sinon 4200F (et non pas 7800 F comme écrit dans PC Achat, jan 97)
Matériel nécessaire : Windows 95 ou NT, 16 Mo Ram, 50 Mo dd
Points faibles :
- le prix !
- première version 1.0, on peut considérer ceci comme un point fort en attente peut-être, les versions suivantes
seront certainement plus performantes.
- Niveau de traduction souvent nettement moins bon qu’avec Systran, mais récupérable en partie avec le mode
interactif, malgré quelques bonnes surprises par rapport à Systran (see their population double, par ex.)
- Interactivité insuffisamment effective, mais ce doit être pour ne pas effrayer l’utilisateur potentiel type.
Points forts :
+
Langues multiples
+
Dictionnaires multiples, avec choix de priorités suivant contexte
+
partageable en réseau
+
Directement depuis traitement de texte (menu Word, Word Perfect) sur sélection/phrase/document etc.
+
Technologie « Barcelona » pour redéfinir des règles de traitement de la langue, terminologie, « grammaire »
+
Nombreuses flexions : = différentes formes possibles pour chaque occurrence de mot « clé »
+
Parties du discours : voir tables ci-dessous
+
Genres : M, F, M/F, neutre …
+
Locutions lexicales : locutions nominales , adverbiales, prépositions (mots multiples)
+
Mode interactif intéressant : permet de faire évoluer le logiciel et surtout l’utilisateur ! cf. utilisation en situation
pédagogique
Exemple de travail : (Voir texte complet dans l’annexe récapitulative.)
Can more be better ?
Être meilleur ?
Si on choisit le mode interactif, quelques modifications peuvent être apportées:
- More = ’article’ si on opte pour le pronom  Est-ce que plus peut être meilleur ?
- Meilleur = adj. bon, si on opte pour l’adverbe (= well)  Est-ce que plus peut être mieux ?
-:-:-:-:-:-:-:-:Optimistic economists reply that free markets will make it La réponse des économistes optimiste que les marchés
libres le feront possible pour adapter la demande aux
possible to adapt demand even to scarce commodities
and that we will benefit from substitutes that will by then produits rares même et que nous bénéficierons de
remplaçants par qui veulent alors a été découvert.
(locution inconnue) have been discovered.
- Mauvais choix de distribution dans le traitement de : « optimistic economists reply », optimiste = singulier (cf.
accord avec réponse)
Modifications demandées :
- reply : nom  verbe,
- « make it possible to adapt » : construction non reconnue, paraît difficile à intégrer au dictionnaire,
- to : « pour »  « de » mais le problème demeure,
- substitutes : changement de [of a person]  [food] succédanés,
- by then : locution inconnue) (mais ajout possible comme « locution » dans l’entrée then …
- have been discovered : temps erroné car le by de by then a peut-être été compris comme introduisant le
complément d’agent d’un passif.
après ajustements :
::
Les économistes optimistes répondent que les marchés libres le feront possible pour adapter la demande
aux produits rares même et que nous bénéficierons de succédanés qui auront été découverts alors.
(nota : rejet de « alors » en fin de phrase !)
Après qqs ajustements :
Les pessimistes prévoient qu'en 2030, la provision de la
Pessimists forecast that in 2030, the limited food
supply of an Indian peasant today will be considered nourriture limitée d'un paysan Indien aujourd'hui sera
considérée normal dans le monde entier.
normal ( ! ) in the whole world.
Compte rendu rapide d’utilisation de TELEGRAPH, Globalink – Congrès S.A.E.S. de Nice, mai 1997– Atelier N.T. – Alain Cazade - 1/4
Optimistic views predict on the contrary that scarcity
will increase prices and stimulate more food
production.
Les vues optimistes prédisent sur le contraire que la pénurie
augmentera des prix et stimuler plus de production de la
nourriture.
- on the contrary : : sur le contraire (tournure non reconnue)
- cette  que (après déclaration de that comme conjonction)
- des prix : impossible de faire évoluer vers le défini les )
- stimuler : pas de report de will sur le 2ème verbe !
- plus de production de la nourriture : problème de l’article zéro .
However, in Japan, rice production has stopped
responding to progress in research concerning
fertilizers since 1985.
Cependant, la production du riz a cessé de répondre pour
progresser dans recherche à propos d'engrais depuis 1985
au Japon. (« au Japon » en fin de phrase !)
Après quelques ajustements : (notamment : responding to  à , progress  nom et non pas verbe ; aucune
amélioration possible pour : du riz, message : N/A non applicable ), de nombreux problèmes persistent :
Cependant, la production du riz a cessé de répondre à
progrès dans recherche à propos d'engrais depuis 1985 au
Japon.
Poor countries will see their population double
(Pakistan) or triple (Nigeria) by 2030, which may
menace local economic development. Though, the
analysis of 40 years of data does not show that the
former necessarily causes the latter. It is clear now
that increasing numbers are no longer a source of
prosperity, contrary to education and training. It
seems more prudent to try to maintain population
growth to lower rates than the current ones.
Première tentative sans ajustements :
Les pays pauvres verront leur population doubler (Pakistan)
ou triple (Nigeria) par 2030 qui peuvent menacer le
développement économique local. Pourtant, l'analyse de 40
années de données ne montre pas que le fondateur cause
nécessairement le dernier. Il est clair maintenant ces
nombres croissants ne sont plus une source de prospérité,
contraire à éducation et former. Il paraît plus prudent pour
essayer de maintenir l'augmentation de la population pour
baisser des taux que les ceux courants.
On note : bonne désambiguïsation dans l’analyse de : « see their population double », construction infinitive double
reconnue = verbe et non pas composé NN. Malgré tout, le problème existe et persistera avec « triple ».
Après un certain nombre de modifications en mode interactif , ajout dans le dictionnaire de la locution :
« contrairement à » dans l’entrée « contrary to », choix de la catégorie « prép. » pour by (en 2030)» etc., persistance
de problèmes : tournures lexicales non reconnues (former/latter), article zéro… :
::
Les pays pauvres verront leur population doubler (Pakistan) ou triple (Nigeria) en 2030 ce qui peuvent
menacer le développement économique local. Pourtant, l'analyse de 40 années de données ne montre pas
que le premier nécessairement cause le dernier. Il est clair maintenant que les nombres croissants ne sont
plus une source de prospérité, contrairement à éducation et formation. Il paraît plus prudent pour (bien que
« pour » soit re-dirigé vers « de »!) essayer de maintenir l'augmentation de la population aux taux inférieurs que les
ceux courants.
Utilisation de l’OUTIL DICTIONNAIRE :
C’est un des points les plus attrayants du logiciel, pour nous, enseignants. Le travail d’augmentation du dictionnaire
dans ces logiciels est toujours source d’enseignements et de réflexions sur la façon d’aborder la langue choisie par
les concepteurs (et incidemment sur la nôtre). Une réflexion menée avec nos étudiants sur le fonctionnement de
l’outil sera sûrement profitable car facteur de nombreuses prises de consciences et de découvertes pour beaucoup.
Il reste que le résultat obtenu après un certain nombre de manipulations de toutes natures sur ce dictionnaire n’est
pas, pour l’heure, assez satisfaisant ! Comme c’est le cas avec d’autres logiciels du même type. Il manque un
certain nombre de possibilités pour croiser les critères et surtout pour traiter de nombreux cas de manière générique.
L’éditeur de règles (voir plus bas) comble insuffisamment ce manque. Voir ci-dessous les différents types de parties
du discours reconnus, ainsi que leurs attributs. L’espace manque pour commenter ces tableaux valablement.
Parties du discours :
Nom
Pronom
Verbe
Adjectif
Adverbe
Préposition
Conjonction
Démonstratif
Article
Relatif
AdjectifPossessif
Interrogatif
PronPers
Préfixe
Suffixe
Non grammatical
Intensif
Titre
Quantificatif
Compte rendu rapide d’utilisation de TELEGRAPH, Globalink – Congrès S.A.E.S. de Nice, mai 1997– Atelier N.T. – Alain Cazade - 2/4
Attributs de
noms :
Êtres animés
H aspiré
Ville
Pays
Famille
Humain
Langue
Littéral
Masse
Matière
Nationalité
Profession
Endroit
Nom propre
A accentué
Temps
Unité
Attributs de
verbes :
H aspiré
SuivreDuGérondif
SuivreDeInfinitif
SubjonctifForcé
ThatForcé
Impersonnel
Intransitif
VerbePronominal
Réversible
DeuxièmeAuxiliaire
SuiviDeObjDir
SuiviDeObjIndir
Attributs de
pronoms :
Humain
Pluriel
Attributs de
pronoms
personnels :
Familier
Féminin
Première
Masculin
Pluriel
Deuxième
Troisième
Attributs
d’adjectifs :
H aspiré
AvantNom
Nationalité
Attributs
d’adverbes :
Continu
Intensif
Lieu
Manière
Attributs d’articles :
AvantVerbe
Défini
AdverbeDePhrase
indéfini
Temps
Attributs de
prépositions :
SuiviDeAccusatif
SuiveDeDatif
SuiviDeGénitif
Attributs de
conjonctions :
Coordonnant
Liant
Subordonnant
Attributs de
quantification :
Cardinal
Ordinal
Attributs de titres :
Féminin
Masculin
ÉDITEUR DE RÈGLES : (technologie dite : Barcelona)
Exemples d’utilisation et de transformation de modules simples.
On peut par exemple utiliser le modèle de règle suivant pour faire reconnaître le verbe à particule « use up », en
affectant les valeurs requises aux variables prévues! Avant d’utiliser les nouvelles règles entrées, il faut les compiler.
L’ensemble est, à l’usage, très simple à utiliser et l’idée est certainement à développer.
// VERBE + PARTICULE ==> VERBE
// Exemple: give up ==> chercher
// SOURCE.1 = give; SOURCE.2 = up; CIBLE.1 = abandonner
// "give" Particle ("up")
//
==> "abandonner";
// *********************************************************************
// ENSEMBLE DE REGLES1
// Procédure = Verb Frame; Etape = Frame; Clé = SOURCE.1
"SOURCE.1" Particle("SOURCE.2")
==> "TARGET.1";
On peut encore essayer de traiter le binôme : billion people :
Il faudra commencer par ajouter dans le dictionnaire une nouvelle section au mot « billion » (type : nom , catégorie :
unité), pour que l’entrée nom déclarée dans la règle ci-dessous soit activable au moment du traitement.
Puis il faudra entrer une nouvelle règle à partir d’un modèle compatible, en adaptant de manière adéquate les
paramètres. Ici : source.1 = billion, source.2 = people ; target.1 = milliards, target.2 = habitants/gens etc. Il faut
aussi ne pas oublier de déclarer « de » comme préposition (cf. milliards de gens).
// NOM1 NOM2 ==> NOM2 DE NOM1 : Exemple: mouse whiskers ==> moustaches de souris
// SOURCE.1 = billion ; SOURCE.2= people;
// CIBLE.1 = milliard; CIBLE.2 = habitant
// *********************************************************************
// ENSEMBLE DE REGLES1
// Procédure = Top Traverse; Etape = Disambiguation; Clé = BILLION
<HasAttr Noun:"BILLION">
<HasAttr Noun:"PEOPLE">
==>
<1 SetAttr Noun:"BILLION">
<2 SetAttr Noun:"PEOPLE">;
// ENSEMBLE DE REGLES2
// Procédure = Depth Traverse; Etape = Frame; Clé = BILLION
<IsAttr Noun: "BILLION">
<IsAttr Noun: "PEOPLE">
==>
<2 Target.ChangeWord "MILLIARD"> AddTargetWord("de", Preposition)
<1 Target.ChangeWord "HABITANT">;
Compte rendu rapide d’utilisation de TELEGRAPH, Globalink – Congrès S.A.E.S. de Nice, mai 1997– Atelier N.T. – Alain Cazade - 3/4
Mais : On eût aimé une règle permettant de traiter billion comme une catégorie (unité) et ses prédicats de manière
générique. Cela est peut-être possible mais non documenté par le logiciel. (voir exemples de règles donnés
= limités et particularisés, non génériques !)
- Si j’entre : « billion men » (et non plus : billion people), cela ne marche plus !
On peut également essayer d’adapter le dictionnaire et essayer de faire fonctionner « billion » comme « hundred ».
Après recherche sur « hundred », il se trouve que seuls les cas de 1 à 9 ont été répertoriés, ainsi : nine hundred
people  neuf cents personnes mais eleven hundred people (…)  onze cent personnes. Si je veux faire pareil
avec x billion people, la liste des quantificateurs possibles sera vraiment trop longue !
Résultat final un peu décevant après l’entrée de la règle vue plus haut et les modification précédentes:
At the Cairo conference of 1994, pessimistic biologists declared that the ten billion people expected to live on
earth in 2050 will use up (strain) water, soil and many resources and cause environmental catastrophes,
hunger and misery.
A la conférence Le Caire de 1994, les biologistes pessimistes ont déclaré que les dix milliards d'habitants
censé vivre sur terre en 2050 épuiseront (tension) eau, sol et beaucoup de ressources et cause
catastrophes de l'environnement, faim et misère.
- Problème avec l’accord au pluriel de censé (déclaré pourtant comme adj.). Le nom cause peut être déclaré
comme verbe mais cela n’entraîne pas un lien par sujet commun avec « épuiseront ».
Conclusion :
-
Un logiciel ouvert, qui peut devenir intelligent et aider à comprendre bien des problèmes de traduction, mais qui
demande une intelligence très « dévouée » pour le faire évoluer.
Méthode d’analyse dite « globale » et non directe. On s’attendrait pourtant à une meilleure prise en compte de la
« motivation contextuelle » pour déjouer certaines erreurs grossières.
Plutôt un peu plus lent que SYSTRAN. A l’évidence nettement plus lent si on passe par le mode interactif. Mais
la compréhension des problèmes posés se fait à ce prix.
La base des dictionnaires ne pourra que s’enrichir, (version testée : 1.0 !) et beaucoup de difficultés devraient
facilement être résolues dans des versions ultérieures par des informaticiens dévoués ou zélés.
Pas de mémorisation du travail en mode interactif fait précédemment. Si on recommence, on recommence à
zéro.
On constate une tentative de régulation simplifiée – qui doit être intéressante à ce titre – des informations.
Pas de choix de conjugaison possible, d’accords, genre, nombre, sujet-verbe, antécédence de relatifs etc. en
mode interactif. Il est vrai que le créneau de rentabilité de ce genre d’exigence est assez étroit. La possibilité de
pouvoir obtenir des règles plus générales (en envisageant des modèles plus fins pour catégoriser les types
d’ensembles à traduire…) fera(it) faire des progrès intéressants. Néanmoins, pour ne prendre qu’un exemple, on
pourra difficilement proposer à un utilisateur lambda de travailler sur des relations rendant compte des rôles
téliques, agentifs, constitutifs ou formels que l’on peut rechercher dans un composé binominal (cf. The Generative
Lexicon, James Pustejowski, MIT Press, 1995)… - pour ne citer qu’une facette des innombrables problèmes à envisager.
Il faut bien que de telles analyses soient déjà effectuées en amont pour que le produit puisse être utilisable, utile
et donc rentable dans tous les sens du terme.
Néanmoins :
- Une nouvelle sorte de logiciel d’aide à la traduction apparaît qui peut nous intéresser d’un point de vue
pédagogique. Même si les résultats actuellement obtenus sont encore nettement insuffisants, il semble que ce
type d’outil permette déjà d’entreprendre un travail intéressant avec des étudiants non spécialistes et peu
spontanément motivés (attrait du traitement automatique de données, de la technologie et d’une activité
interactive avec celle-ci) amenant à poser de véritables problèmes de fond. Les possibilités d’action réelle à la
fois sur le corpus d’items traités et sur les règles de traitement sons susceptibles de favoriser une meilleure
appropriation des données travaillées. Mais un problème de fonds existe dans le même temps, sauf si une
licence spéciale est prévue pour l’enseignement, ce qui ne serait pas étonnant.
Annexe: Petit récapitulatif :
Nota : qqs notations sur 10 par la revue informatique: PC Achat (jan 97) – qui ne mentionne pas SYSTRAN, ce qui est dommage.
Accent :
Globalink :
Globalink :
Intergraph :
Accent professional
Power Translator
Telegraph
Transcend Expert
Mysoft
Systran
Pobox 410 Watford Hertfordshire WD1 3XG U.K.
35, Cours Michelet, 92060 Paris
35, Cours Michelet, 92060 Paris
Apsydoc, Tour Franklin, La Défense 8
92042 La Défense Cedex
1, rue du Cimetière, 95230 Soisy / Montmorency
1900 F
900 F
4200 F
3200 F
(N/A)
(7/10)
(8/10)
(8/10)
v. Classic, 3000F
v.Professional, 6000F
Compte rendu rapide d’utilisation de TELEGRAPH, Globalink – Congrès S.A.E.S. de Nice, mai 1997– Atelier N.T. – Alain Cazade - 4/4
Téléchargement