Traduction de règles de construction des mots pour

publicité
Traduction de règles de
construction des mots pour
résoudre les problèmes
d’incomplétude lexicale en
traduction automatique
Étude de cas
Bruno Cartoni
ISSCO / TIM / ETI
Université de Genève, Suisse
Plan de l’exposé




But de la recherche
Motivations
Modèle proposé
Expérience
 Choix d’un processus de construction
 Réalisation de l’expérience
 Évaluation
 Conclusion et perspectives
RECITAL 2005
Bruno Cartoni
2
But de la recherche
 Résoudre l’incomplétude lexicale en TA
 Exploiter les propriétés
morphosémantiques des néologismes
construits
RECITAL 2005
Bruno Cartoni
3
Motivations (I)
 Incomplétude lexicale : phénomène
important et constant
Conséquence d’un mot inconnu en TA :
 non-traduction
 analyse syntaxique de la phrase affectée
Caractérisation des mots inconnus (Maurel, 2004)
 noms propres
 créations lexicales
 erreurs typographiques
RECITAL 2005
Bruno Cartoni
4
Motivations (II)
 Créativité lexicale
 propriété de chaque langue de former de
nouvelles unités (Guilbert, 1975)
 Néologie formelle
 création de formes nouvelles à partir de
matériaux lexicaux existants
 75 % de la néologie (Cabré, 2002)
 construction morphologique (préfixation,
suffixation, etc.)
RECITAL 2005
Bruno Cartoni
5
Motivations (III)
 Parallélisme entre deux langues
morphologiquement proches
 français et italien : même origine, même
fonds lexical commun (Geysen, 1990)
 similitudes dans les procédés de
construction des mots
 similitudes exploitables en TALN (Namer, 2001;
Gdaniec, et al. 2001)
RECITAL 2005
Bruno Cartoni
6
Modèle proposé (I)
?
Italien
Français
Devo riaffrontare
questo problema.
RECITAL 2005
Je dois riaffrontare ce
problème.
Bruno Cartoni
7
Modèle proposé (II)
Transfert lexical
Italien
Français
Analyse du mot par
décomposition :
Génération par
construction néologique :
ri + affrontare
réaffronter
affrontare
 Lit
Mot inconnu construit :
riaffrontare
RECITAL 2005
Bruno Cartoni
Je dois réaffronter
ce problème.
8
Connaissances nécessaires
Base : affrontare
RCM : ri + verbe = verbe
transfert
lexical
Base : affronter
RCM : re + verbe = verbe
 Dictionnaire bilingue de formes de base
 Règles de construction des mots (Corbin,
1987) bilingues
RECITAL 2005
Bruno Cartoni
9
Hypothèses
 Les néologismes construits sont
sémantiquement transparents.
 Les procédés de construction des mots
sont parallèles dans deux langues
morphologiquement proches.
RECITAL 2005
Bruno Cartoni
10
Expérience
 Choix d’un processus de construction
 Construction et application de RCM
bilingues
 Evaluation
 Evaluation de l’analyse (sens sémantiquement
transparent des néologismes en langue source)
 Evaluation de la traduction (mots construits en
langue cible)
RECITAL 2005
Bruno Cartoni
11
Processus de construction
 En italien (Dardano, 1978) :
ri- + Yverbe = « Y di nuovo »
(rimangiare, rifare, etc.)
 En français (Rey-Debove, 2004) :
re- + Y’verbe = « Y’ de nouveau »
(remanger, refaire, etc. )
RECITAL 2005
Bruno Cartoni
12
La RCM bilingue
IT
X/VERBE
=> ri/PREF [Y/VERBE]
Y/VERBE  Lit
FR
=
X’/VERBE
=> re/PREF [Y’/VERBE]
Y’/VERBE  Lfr
où :
Y/VERBE = Y’/VERBE (équivalents de traduction)
(+ tous les changements morphographémiques)
RECITAL 2005
Bruno Cartoni
13
Le préfixe réitératif sur un nom
déverbal
 En italien (Dardano, ibid ) :
ri- + Xnom_deverbal (ristabilizzazione)
 En français :
re- + Xnom_deverbal (redistribution)
RECITAL 2005
Bruno Cartoni
14
La RCM bilingue pour les noms
déverbaux
FR
IT
X/NOM
=> ri/PREF [Y/NOM]
=
Y/NOM = [a-z]*zione/i |
[a-z]*mento/i | [a-z]*aggio/i
X’/NOM
=> re/PREF [Y’/NOM]
Y’/NOM = [a-z]*tion/s |
[a-z]*ment/s | [a-z]*age/s
Y/NOM  Lit
Y’/NOM  Lfr
où :
Y/NOM = Y’/NOM (équivalents de traduction)
(+ tous les changements morphographémiques)
RECITAL 2005
Bruno Cartoni
15
Corrélaire
En français comme en italien:
« ce qui est défait peut être refait »
Paradigmes:
IT: stabilizzare/destabilizzare/ristabilizzare
FR: stabiliser/déstabiliser/restabiliser
RCM pour le préfixe de-/dé- devant un nom
ou un verbe
RECITAL 2005
Bruno Cartoni
16
Réalisation de l’expérience
1. Extraction des mots inconnus du corpus italien
(ilSole24ore) par confrontation avec le lexique Lit
2. Filtrage des mots inconnus correpondant aux
patrons de construction décrits dans les RCM
bilingues (partie italienne)
3. Traduction de la base (par un système de TA
commercial)
4. Construction de la « traduction » grâce aux patrons
de la RCM bilingue (partie française)
RECITAL 2005
Bruno Cartoni
17
Etape 1 : les mots inconnus
Méthode : confrontation du corpus (ilSole24ore)
avec le lexique d’un analyseur morphosyntaxique
(mmorph)


Mots inconnus
corpus : 1.88 mio d’occurrences =
Corpus
mots inconnus : 225 075 (12
%) – LexRef
 exclusion des noms propres
 potentiellement néologismes :
90 260 (4.8 %)
RECITAL 2005
Bruno Cartoni
18
Etape 2 : analyse
Filtrage des mots inconnus correpondant
aux patrons de construction décrits dans les
RCM bilingues (partie italienne)
"riorganizzare"IT
= "organizzare" verb [temps=present mode=infinitive …]
"redistribuzione" X/
= "distribuzione"
noun [gender=f nbr=s …]
VERBE
=> ri/
PREF [Y/VERBEnoun
] [gender=f nbr=s …]
"decentralizzazione"
= "centralizzazione"
Y/VERBE  Lit
RECITAL 2005
Bruno Cartoni
…
19
Etape 2 : évaluation
 Les néologismes construits sont-ils
sémantiquement transparents ?
RECITAL 2005
Bruno Cartoni
20
Etape 2 : évaluation
Les verbes:
ri–
r–
re–
de–
Occurrences
508
37
96
36
Lemmes
63
4
9
10
Erreurs
5
2
0
6
ex: ri + posare
ex: de + cantare
 erreurs  néologismes
 lacunes du lexique de référence
RECITAL 2005
Bruno Cartoni
21
Les noms:
Préfixe verbal
ri–
r–
re–
de–
Etape 2 : évaluation
Suffixe déverbal
–aggio
–zione
–mento
–aggio/–mento/–zione
–aggio
–zione
–mento
–aggio
–zione
–mento
Occurrences
0
119
201
0
0
19
16
0
47
0
Lemmes
0
17
10
0
0
4
1
0
11
0
Erreurs
0
1
0
0
0
0
0
0
0
0
ri + suzione
RECITAL 2005
Bruno Cartoni
22
Etape 3 : traduction
Traduction de la base (Systran© + validation manuelle)
"riorganizzare" = "organizzare" verb [temps=present mode=infinitive …]
"redistribuzione" = "distribuzione" noun [gender=f nbr=s …]
"decentralizzazione" = "centralizzazione" noun [gender=f nbr=s …]
…
IT
FR
"organizzare"
=
"organiser"
"distribuzione"
=
"distribution"
"centralizzazione" =
RECITAL 2005
"centralisation"
Bruno Cartoni
23
Etape 4 : traduction
Construction de la « traduction » grâce
aux patrons de la RCM bilingue (partie
française)
IT
=
FR
"riorganizzare"
=
"réorganiser"
"redistribuzione"
=
"redistribution"
"decentralizzazione"
=
"décentralisation"
…
RECITAL 2005
Bruno Cartoni
24
Etape 4 : évaluation
 Evaluation des constructions françaises :
 jugement humain de la correction de la
traduction (sentiment linguistique)
 jugement uniquement sur la « bonne »
formation du néologisme en français
 jugement selon trois critères (correct /
incertain / incorrect )
RECITAL 2005
Bruno Cartoni
25
Etape 4 : évaluation
Procédés constructionnels
ri– + verbe
r– + verbe
re– + verbe
de– + verbe
ri– + nom
re– + nom
de– + nom
recrocheter
RECITAL 2005
Lemmes
58
2
9
4
26
5
11
Néologismes Néologismes Néologismes
corrects
incertains
incorrects
56
2
0
2
0
0
9
0
0
4
0
0
22
4
0
5
0
0
11
0
0
réemplacement
Bruno Cartoni
26
Résultats chiffrés
Base verbale
Total
Occurrences
trouvées
677
Occurrences
traduites
586
Base
nominale
Total
Occurrences
trouvées
402
Occurrences
traduites
400
%
86.5 %
%
99.5 %
 Bon taux de rappel
 Meilleurs résultats sur des règles très
contraintes
RECITAL 2005
Bruno Cartoni
27
Conclusions
 Pour une règle très restreinte, les RCM
bilingues proposent des traductions très
valables.
 La relative constance de l’utilisation du
préfixe ri- /re- en fait une règle utile sur le
long terme.
 La règle permet d’éviter une alimentation
frénétique des lexiques informatisés pour
tous les mots construits possibles.
RECITAL 2005
Bruno Cartoni
28
Perspectives
 Application du même principe à
l’ensemble des préfixes connus de
l’italien
 Application du même principe aux
formants néoclassiques (Iacobini, 2004)
tele-, eco-, euro-, pseudo-
 Etude des limites du modèle
 Extension à d’autres paires de langues
RECITAL 2005
Bruno Cartoni
29
Merci
Référence
 Cabré T., Freixa, J., Solé E., (2002), A la limite des mots construits
possible, Actes du Forum de morphologie, pp. 65-78.
 Corbin D., (1987), Morphologie dérivationnelle et structuration du
lexique, Tuebingen, Niemeyer.
 Dardano M., (1978), La formazione delle parole nell'italiano di oggi,
Rome, Bulzoni.
 Gdaniec C., Manandise, E., McCord, M., (2001), Derivational
Morphology to the Rescue: How It Can Help Resolve Unfound Words in
MT. Actes de MT Summit VIII.
 Guilbert, L. (1975), La créativité lexicale, Larousse, Paris.
 Maurel, D. (2004). Les mots inconnus sont-ils des noms propres? Actes
de JADT 2004, Louvain-la-Neuve.
 Namer, F. (2001), Génération automatique de néologismes bilingues
morphologiquement construits en français et en italien. Actes de TALN
2001. pp. 281-296.
 Rey-Debove J., Ed. (2004). Brio, Paris, Dictionnaire Le Robert.
RECITAL 2005
Bruno Cartoni
31
Téléchargement