Traduction de règles de construction des mots pour résoudre les problèmes d’incomplétude lexicale en traduction automatique Étude de cas Bruno Cartoni ISSCO / TIM / ETI Université de Genève, Suisse Plan de l’exposé But de la recherche Motivations Modèle proposé Expérience Choix d’un processus de construction Réalisation de l’expérience Évaluation Conclusion et perspectives RECITAL 2005 Bruno Cartoni 2 But de la recherche Résoudre l’incomplétude lexicale en TA Exploiter les propriétés morphosémantiques des néologismes construits RECITAL 2005 Bruno Cartoni 3 Motivations (I) Incomplétude lexicale : phénomène important et constant Conséquence d’un mot inconnu en TA : non-traduction analyse syntaxique de la phrase affectée Caractérisation des mots inconnus (Maurel, 2004) noms propres créations lexicales erreurs typographiques RECITAL 2005 Bruno Cartoni 4 Motivations (II) Créativité lexicale propriété de chaque langue de former de nouvelles unités (Guilbert, 1975) Néologie formelle création de formes nouvelles à partir de matériaux lexicaux existants 75 % de la néologie (Cabré, 2002) construction morphologique (préfixation, suffixation, etc.) RECITAL 2005 Bruno Cartoni 5 Motivations (III) Parallélisme entre deux langues morphologiquement proches français et italien : même origine, même fonds lexical commun (Geysen, 1990) similitudes dans les procédés de construction des mots similitudes exploitables en TALN (Namer, 2001; Gdaniec, et al. 2001) RECITAL 2005 Bruno Cartoni 6 Modèle proposé (I) ? Italien Français Devo riaffrontare questo problema. RECITAL 2005 Je dois riaffrontare ce problème. Bruno Cartoni 7 Modèle proposé (II) Transfert lexical Italien Français Analyse du mot par décomposition : Génération par construction néologique : ri + affrontare réaffronter affrontare Lit Mot inconnu construit : riaffrontare RECITAL 2005 Bruno Cartoni Je dois réaffronter ce problème. 8 Connaissances nécessaires Base : affrontare RCM : ri + verbe = verbe transfert lexical Base : affronter RCM : re + verbe = verbe Dictionnaire bilingue de formes de base Règles de construction des mots (Corbin, 1987) bilingues RECITAL 2005 Bruno Cartoni 9 Hypothèses Les néologismes construits sont sémantiquement transparents. Les procédés de construction des mots sont parallèles dans deux langues morphologiquement proches. RECITAL 2005 Bruno Cartoni 10 Expérience Choix d’un processus de construction Construction et application de RCM bilingues Evaluation Evaluation de l’analyse (sens sémantiquement transparent des néologismes en langue source) Evaluation de la traduction (mots construits en langue cible) RECITAL 2005 Bruno Cartoni 11 Processus de construction En italien (Dardano, 1978) : ri- + Yverbe = « Y di nuovo » (rimangiare, rifare, etc.) En français (Rey-Debove, 2004) : re- + Y’verbe = « Y’ de nouveau » (remanger, refaire, etc. ) RECITAL 2005 Bruno Cartoni 12 La RCM bilingue IT X/VERBE => ri/PREF [Y/VERBE] Y/VERBE Lit FR = X’/VERBE => re/PREF [Y’/VERBE] Y’/VERBE Lfr où : Y/VERBE = Y’/VERBE (équivalents de traduction) (+ tous les changements morphographémiques) RECITAL 2005 Bruno Cartoni 13 Le préfixe réitératif sur un nom déverbal En italien (Dardano, ibid ) : ri- + Xnom_deverbal (ristabilizzazione) En français : re- + Xnom_deverbal (redistribution) RECITAL 2005 Bruno Cartoni 14 La RCM bilingue pour les noms déverbaux FR IT X/NOM => ri/PREF [Y/NOM] = Y/NOM = [a-z]*zione/i | [a-z]*mento/i | [a-z]*aggio/i X’/NOM => re/PREF [Y’/NOM] Y’/NOM = [a-z]*tion/s | [a-z]*ment/s | [a-z]*age/s Y/NOM Lit Y’/NOM Lfr où : Y/NOM = Y’/NOM (équivalents de traduction) (+ tous les changements morphographémiques) RECITAL 2005 Bruno Cartoni 15 Corrélaire En français comme en italien: « ce qui est défait peut être refait » Paradigmes: IT: stabilizzare/destabilizzare/ristabilizzare FR: stabiliser/déstabiliser/restabiliser RCM pour le préfixe de-/dé- devant un nom ou un verbe RECITAL 2005 Bruno Cartoni 16 Réalisation de l’expérience 1. Extraction des mots inconnus du corpus italien (ilSole24ore) par confrontation avec le lexique Lit 2. Filtrage des mots inconnus correpondant aux patrons de construction décrits dans les RCM bilingues (partie italienne) 3. Traduction de la base (par un système de TA commercial) 4. Construction de la « traduction » grâce aux patrons de la RCM bilingue (partie française) RECITAL 2005 Bruno Cartoni 17 Etape 1 : les mots inconnus Méthode : confrontation du corpus (ilSole24ore) avec le lexique d’un analyseur morphosyntaxique (mmorph) Mots inconnus corpus : 1.88 mio d’occurrences = Corpus mots inconnus : 225 075 (12 %) – LexRef exclusion des noms propres potentiellement néologismes : 90 260 (4.8 %) RECITAL 2005 Bruno Cartoni 18 Etape 2 : analyse Filtrage des mots inconnus correpondant aux patrons de construction décrits dans les RCM bilingues (partie italienne) "riorganizzare"IT = "organizzare" verb [temps=present mode=infinitive …] "redistribuzione" X/ = "distribuzione" noun [gender=f nbr=s …] VERBE => ri/ PREF [Y/VERBEnoun ] [gender=f nbr=s …] "decentralizzazione" = "centralizzazione" Y/VERBE Lit RECITAL 2005 Bruno Cartoni … 19 Etape 2 : évaluation Les néologismes construits sont-ils sémantiquement transparents ? RECITAL 2005 Bruno Cartoni 20 Etape 2 : évaluation Les verbes: ri– r– re– de– Occurrences 508 37 96 36 Lemmes 63 4 9 10 Erreurs 5 2 0 6 ex: ri + posare ex: de + cantare erreurs néologismes lacunes du lexique de référence RECITAL 2005 Bruno Cartoni 21 Les noms: Préfixe verbal ri– r– re– de– Etape 2 : évaluation Suffixe déverbal –aggio –zione –mento –aggio/–mento/–zione –aggio –zione –mento –aggio –zione –mento Occurrences 0 119 201 0 0 19 16 0 47 0 Lemmes 0 17 10 0 0 4 1 0 11 0 Erreurs 0 1 0 0 0 0 0 0 0 0 ri + suzione RECITAL 2005 Bruno Cartoni 22 Etape 3 : traduction Traduction de la base (Systran© + validation manuelle) "riorganizzare" = "organizzare" verb [temps=present mode=infinitive …] "redistribuzione" = "distribuzione" noun [gender=f nbr=s …] "decentralizzazione" = "centralizzazione" noun [gender=f nbr=s …] … IT FR "organizzare" = "organiser" "distribuzione" = "distribution" "centralizzazione" = RECITAL 2005 "centralisation" Bruno Cartoni 23 Etape 4 : traduction Construction de la « traduction » grâce aux patrons de la RCM bilingue (partie française) IT = FR "riorganizzare" = "réorganiser" "redistribuzione" = "redistribution" "decentralizzazione" = "décentralisation" … RECITAL 2005 Bruno Cartoni 24 Etape 4 : évaluation Evaluation des constructions françaises : jugement humain de la correction de la traduction (sentiment linguistique) jugement uniquement sur la « bonne » formation du néologisme en français jugement selon trois critères (correct / incertain / incorrect ) RECITAL 2005 Bruno Cartoni 25 Etape 4 : évaluation Procédés constructionnels ri– + verbe r– + verbe re– + verbe de– + verbe ri– + nom re– + nom de– + nom recrocheter RECITAL 2005 Lemmes 58 2 9 4 26 5 11 Néologismes Néologismes Néologismes corrects incertains incorrects 56 2 0 2 0 0 9 0 0 4 0 0 22 4 0 5 0 0 11 0 0 réemplacement Bruno Cartoni 26 Résultats chiffrés Base verbale Total Occurrences trouvées 677 Occurrences traduites 586 Base nominale Total Occurrences trouvées 402 Occurrences traduites 400 % 86.5 % % 99.5 % Bon taux de rappel Meilleurs résultats sur des règles très contraintes RECITAL 2005 Bruno Cartoni 27 Conclusions Pour une règle très restreinte, les RCM bilingues proposent des traductions très valables. La relative constance de l’utilisation du préfixe ri- /re- en fait une règle utile sur le long terme. La règle permet d’éviter une alimentation frénétique des lexiques informatisés pour tous les mots construits possibles. RECITAL 2005 Bruno Cartoni 28 Perspectives Application du même principe à l’ensemble des préfixes connus de l’italien Application du même principe aux formants néoclassiques (Iacobini, 2004) tele-, eco-, euro-, pseudo- Etude des limites du modèle Extension à d’autres paires de langues RECITAL 2005 Bruno Cartoni 29 Merci Référence Cabré T., Freixa, J., Solé E., (2002), A la limite des mots construits possible, Actes du Forum de morphologie, pp. 65-78. Corbin D., (1987), Morphologie dérivationnelle et structuration du lexique, Tuebingen, Niemeyer. Dardano M., (1978), La formazione delle parole nell'italiano di oggi, Rome, Bulzoni. Gdaniec C., Manandise, E., McCord, M., (2001), Derivational Morphology to the Rescue: How It Can Help Resolve Unfound Words in MT. Actes de MT Summit VIII. Guilbert, L. (1975), La créativité lexicale, Larousse, Paris. Maurel, D. (2004). Les mots inconnus sont-ils des noms propres? Actes de JADT 2004, Louvain-la-Neuve. Namer, F. (2001), Génération automatique de néologismes bilingues morphologiquement construits en français et en italien. Actes de TALN 2001. pp. 281-296. Rey-Debove J., Ed. (2004). Brio, Paris, Dictionnaire Le Robert. RECITAL 2005 Bruno Cartoni 31