Seuls les verbes et une classe d`adjectifs ne sont pas in

publicité
Pour permettre le développement d’applications en analyse et traitement automatique du
japonais par une approche linguistique, des lexiques sont nécessaires.
Seuls les verbes et une classe d’adjectifs ne sont pas invariables en japonais.
Contrairement à des dictionnaires classiques, ces lexiques doivent contenir les mots de la
langue à leurs formes de bases ainsi qu’à toutes leurs formes fléchies (conjuguées). Ils contiennent également des informations syntaxiques, sémantiques et relatives aux collocations, utiles lors de l’analyse syntaxique ou la traduction automatique.
Les verbes s’accordent selon le temps, la modalité et la polarité (positif ou négatifs). Pas de variation selon la personne, ni le nombre, ni le genre.
Certains temps et modes peuvent exprimer un niveau de
politesse plus ou moins élevé.
A partir du dictionnaire électronique japonais-français Fr-Edict, un lexique monolingue japonais d’environ 15000 entrées et un bilingue japonais-français ont été créés.
Les adjectifs de la classe en -いい se conjuguent comme
les verbes lorsqu’ils se trouvent position prédicative.
L’utilisation du générateur morphologique japonais a permis de générer les 300000 formes
fléchies correspondant aux 15000 formes de bases.
Le conjugueur des verbes japonais 動詞 permet d’obtenir
les formes conjuguées d’un verbe à tous les temps et
modes usuels. La morphologie verbale japonaise est très
riche avec très peu d’irrégularités.
En collaboration avec le CJK Institute de Tokyo, un nouveau lexique monolingue de 300000
formes de base et d’importants lexiques japonais-anglais et japonais-français vont prochainement être implémentés.
L‘analyseur syntaxique multilingue FIPS (Wherli, 2007), permet une analyse linguistique profonde de la phrase,
selon les principes de la grammaire générative universelle (Chomsky, 1995).
Après avoir étudié en détail la structure de la syntaxe japonaise, afin de pouvoir analyser des phrases selon les méthodes universelles tout respectant les spécificités inhérentes à la la langues, une version de FIPS pour le japonais
est en cours d’implémentation. Les premiers résultats sont très prometteurs.
Le programme multilingue TWIC (Translation of Words in
Context) permet de traduire les mots d’un texte en tenant
compte leur fonction syntaxique, et des possibles collocations ou expressions idiomatiques (Seretan, Wehrli, 2007).
Les points importants à traiter pour l’analyse du japonais, sont le scrambling, l’omission fréquente de composants
dans la phrase et les têtes finales. On arrive à les gérer en utilisant respectivement le rôle des particules japonaises,
les projections de composants nuls et le paramétrage de l’algorithme d’analyse.
Il se base sur l’analyse syntaxique du texte en langue
source effectuée par le programme FIPS et sur un lexique
bilingue langue source-langue cible.
La mise au point d’un lexique bilingue français-japonais a
permis d’avoir une version de TWIC français-japonais, en
utilisant l’analyse syntaxique du français de FIPS
Thème de la thèse:
Traitement des différences syntaxique entre le japonais et le français en traduction automatique
TWIC est disponible sous la forme d’un plug-in pour
Firefox, qui peut traduire des mots sélectionnés dans la
page web affichée.
Pour une page en français en sélectionnant la langue
source (Source language) française et la langue cible
(Target language) japonaise, on peut obtenir les différentes
traduction possibles en japonais de chaque mot français.
=implémentation des nouveaux lexiques
=analyse syntaxique du japonais => TWIC japonais-français
=règles de génération du japonais et de transfert français-japonais => Traduction automatique français-japonais
=règles de transfert japonais-français => Traduction automatique japonais-français
=algorithme de reconnaissance des sujets dans un texte japonais => Possibilités de désambiguistions à propos
des composants non-exprimés en TA japonais-français.
=travail des interfaces utilisateur => Possibilités de désambiguistions interactives
Téléchargement