(français-anglais) à partir du Web

publicité
Acquisition semi-automatique de relations lexicales
bilingues (français-anglais) à partir du Web
Stéphanie LEON & Chrystel MILLON
Équipe DELIC, Université de Provence
Traduction automatique
 Un problème essentiel : polysémie / homonymie
barrage (usage EAU)
barrage (usage MATCH)
> dam
> playoff
 Un exemple du traducteur Reverso
match de barrage
match of dam
playoff game
Le Web comme base de données lexicale (1)…
Le Web comme base de données lexicale (2)…
 Multilinguisme
 Nombreux
exemples des usages des mots
barrage(s) : 1 590 000 pages (Google, pages francophones)
barrage(s) : 500 occurrences (base textuelle Frantext)
 Multitude
de domaines, de thématiques
Frantext : textes littéraires (80%), textes scientifiques
et techniques (20%)
Objectif
Méthode d’acquisition d’équivalences bilingues
françaises/anglaises de relations lexicales via le
Web
(Travaux de Cao & Li, 2002 ; Grefenstette, 1999)
Domaines d’application :
- Enrichissement de dictionnaires bilingues
- Aide à la traduction automatique…
Relation lexicale
unité lexicale1
barrage (recteur)
dépendance unité lexicale2
syntaxique
hydraulique (régi)
Méthodologie
 Extraction automatique
de RLs françaises
Corpus de pages Web
francophones
 Génération automatique
de traductions potentielles
Dictionnaire
électronique
 Fréquence des traductions
potentielles
 Validation semi-automatique
Interrogation
automatique du Web
Combinatoires lexicales étudiées
10 noms sources
barrage
détention
formation
lancement
organe
passage
restauration
solution
station
vol
1- Extraction automatique des RLs françaises (1)…
Corpus de pages Web francophones
Étiquetage
morpho-syntaxique
+ lemmatisation
Cordial Analyseur
1- Extraction automatique des RLs françaises (2)…
 NOM ADJECTIF
barrage hydraulique
organe très précieux
 NOM1 DE NOM2
base nationale de lancement
lancement de satellite
1- Extraction automatique des RLs françaises (3)…
 VERBE NOM(objet)
alimenter – barrage
…alimentent plus particulièrement le barrage…
RLs >= 10 occurrences
2- Génération automatique des traductions
potentielles (1)
Traduction : série d’hypothèses sur
le choix des mots de la langue cible.
(Gelbukh A. & Bolshavov I., 2003)
2- Génération automatique des traductions
potentielles (2)
 Un exemple (ressource : dictionnaire Collins Pocket)
réserver - vol
VOL
 flight, theft, larceny, etc.
RESERVER
 to reserve, to book
2- Génération automatique des traductions
potentielles (3)
 Combinatoires des unités lexicales simples
to reserve - flight
réserver - vol
to reserve - theft
to reserve - larceny
to book - flight
to book - theft
to book - larceny
3- Interrogation automatique du Web (1)
 API Google (Application Programming Interface) :
http://www.google.com/apis/
 Récupération automatique des fréquences :
reserve-flight
73 600
…
3- Interrogation automatique du Web (2)
 Exemples de requêtes
NOM ADJECTIF
"the complete restoration " OR "a complete restoration "
VERBE NOM(objet) "build the barrage" OR "build a barrage"
NOM1 de NOM2
"construction of barrage"
"barrage construction"
4- Validation semi-automatique
 Filtre automatique : choix du seuil
Précision
 Réduction du bruit
Seuil de validation =
Occurrences du nom-cible / 1000
4- Validation semi-automatique
réserver - vol
book a / the flight  244 000
seuil_flight : 5 760 000 / 1000 = 5760
book a / the theft  61
seuil_theft : 2 150 000 / 1000 = 2150
4- Validation semi-automatique
réserver - vol
book a / the flight  244 000
seuil_flight : 5 760 000 / 1000 = 5760
book a / the theft  61
seuil_theft : 2 150 000 / 1000 = 2150
 Validation manuelle
Proportion de traductions
RLs fr >= 10
N ADJ
N DE N
VN
TOTAL
113
173
57
343
Traductions
Filtre
générées automatique
1215
136
5155
351
1012
63
7382
550
Validation
manuelle
132
270
56
458
Un exemple de traductions
PATRON
N ADJ
N de N
RL FRANCAISE
barrage hydro-électrique
construction de barrage
VN
construire-barrage
TRADUCTION
hydroelectric dam
barrage building
barrage construction
barricade building
barricade construction
dam building
dam construction
weir building
weir construction
to build-barrage
to build-barricade
to build-dam
to build-roadblock
to construct-dam
to erect-barricade
to erect-roadblock
Taux de traductions correctes
N ADJ
97,1
VN
N de N
% valide
88,9
76,9
TOTAL
83,3
Analyse des problèmes (1)
 Limites techniques : ponctuations, majuscules
A man will face court next month charged with stealing
three date palms from a Swansea reserve, a theft which
sparked three months of community outrage.
 Limites syntaxiques
The Library of Congress set the changeover date.
Analyse des problèmes (2)
 Erreurs sémantiques
cours de formation > group rate (59 900 pages)
> tarif de groupe
Evaluation humaine
Conclusion
 Banc de test
Accroissement significatif de notre
dictionnaire
- N ADJ : accroissement par 10
- N de N : accroissement par 45
- V NOM(Objet) : accroissement par 56
 Internet, une aide à la décision
Perspectives
 Variations syntaxiques des RLs anglaises
Barrage has been already built
 build-barrage
 Analyse syntaxique des pages Web anglaises
(Travaux de Gala N., 2003, Volk M., 2001)
Merci…
Téléchargement