Un Raisonnement à Partir de Cas pour la Traduction Automatique

Un Raisonnement à Partir de Cas pour la Traduction Automatique
Arabe-Français Basée sur la Sémantique
Hamza Meguehout1, Tahar Bouhadada2, Mohamed-Tayeb Laskri2
1Département d’Informatique, Université Badji Mokhtar Annaba, BP12, 23000 Annaba,
Algérie
2Laboratoire LRI, Département d’Informatique, Université Badji Mokhtar Annaba, BP12,
23000 Annaba, Algérie
RÉSUMÉ. Dans ce papier, nous présentons un travail dans lequel nous utilisons des phrases traduites
auparavant comme expérience pour effectuer de nouvelles traductions, ceci permet d'éviter de traduire
une seconde fois des phrases déjà traduites ou ressemblantes à des phrases déjà traduites, afin
d'aborder la traduction basée sur la démarche de retour d'expériences. Pour cela, nous utilisons des
théories du traitement automatique du langage naturel (TALN), avec la capacité de mémoriser et de
réutiliser la connaissance développée par l'approche du raisonnement à partir de cas (RàPC). Nous
présentons l'utilité des méthodes du TALN, comment elles ont contribué à fournir les connaissances
nécessaires aux différentes étapes du RàPC et comment ce dernier gère ces connaissances pour utiliser
les expériences acquises lors de traductions précédentes.
ABSTRACT. This paper presents a work in which we use sentences translated before as an experiment
to deal with new translations. This permits to avoid translating again the sentences already translated
or sentences that look like them, which allows approaching the translation based on the methode of
experience feedback. For this purpose, we use the theories of natural language processing (NLP), with
the ability to save and re-use the knowledge developed by the Case-based reasoning approach (CBR).
We present the utility of the NLP methods, how they contributed in providing necessary knowledge to
the various stages of CBR, and how this last manages this knowledge to use the acquired experiences
during the previous translations.
MOTS-CLÉS : cas sémantique, dépendance conceptuelle, raisonnement à partir de cas, RàPC, théorie
de Fillmore, traitement automatique du langage naturel, TALN, traduction automatique.
KEYWORDS: semantic cases, conceptual dependency, case-based reasoning, CBR, Fillmore theory,
natural language processing, NLP, machine translation.
1. Introduction
Les recherches dans le domaine de la traduction automatique ont débuté il y a plus de 60ans,
par les travaux du mathématicien Warren Weaver orientés vers le décodage (Allauzen &
Yvon, 2011). Au fil des années, plusieurs axes de recherche apparaissent. Parmi ces axes de
traduction, on cite particulièrement les mémoires de traduction (Cordova, s.d.; Simard, 2003)
et la traduction à partir d’exemple (Carl, 2003). L'objectif de ces deux axes est d'effectuer ou
aider à effectuer de nouvelles traductions à partir d'exemples déjà traduits.
Ce travail nous a menés à suivre les étapes du raisonnement à partir de cas dans un contexte
de traduction (arabe-français). L'emploi des grammaires casuelles dans le cycle du RàPC et
combiné cette approche du RàPC avec une approche de traduction basée sur les règles à
savoir l'approche de dépendance conceptuelle et Fillmore (DCF) (Bouzit & Laskri, 2011).
Afin d'éviter de retraduire et d'utiliser des connaissances linguistiques pour des phrases déjà
traduites ou ressemblantes à des phrases traduites précédemment, notre approche du
raisonnement à partir de cas textuels produit une nouvelle traduction à partir des traductions
précédentes en tenant compte du sens de la phrase. On ne peut obtenir une traduction
automatique de bonne qualité que si l'on procède au préalable à une compréhension de la
signification du texte à traduire.
Dans cet article, nous allons faire une analyse succincte sur le RàPC et les théories du TALN
utilisées, puis nous détaillerons comment les étapes de notre cycle ont été réalisées et avec
quelles connaissances. Ensuite nous décrirons le fonctionnement de l'architecture proposé.
Nous terminons par une conclusion et les perspectives du présent travail.
2. Raisonnement à Partir de Cas
L’approche du raisonnement à partir de cas utilise les expériences passées (cas source) pour
résoudre les nouveaux problèmes (cas cible) (Duverlie et al., 1999). Un cas est néralement
présenté par un couple (problème, solution [problème]). Les cas sources sont des éléments de
la base de cas (BC), un cas cible est un problème à résoudre (Lieber, 2008). Quand un cas
cible est posé, le système du RàPC recherche dans la BC, le cas source le plus similaire au cas
cible, puis la solution du cas source remémoré est adaptée au cas cible (Grabot, 2006).
Selon Jean Lieber (2007), les étapes d'un système du RàPC sont : élaboration (faire une
description du problème cible), remémoration (sélectionner le cas source le plus similaire au
problème cible), adaptation (adapter la solution du problème source remémoré au problème
cible), validation (la solution du problème cible doit être vérifiée, par exemple par un humain)
et mémorisation (stocker le problème cible avec sa solution dans la BC). Un tel système de
raisonnement a besoin d'une BC (elle contient un ensemble fini de cas) et de différentes
connaissances, comme les connaissances de similarité (mesure de similarité, seuil de
similarité, etc.), connaissances d'adaptation, connaissances du domaine, etc.
Cette approche d'utilisation des expériences précédentes est largement utilisée dans plusieurs
domaines d'application, comme le diagnostic médical (Begum et al., 2011), industriel
(Armaghan, 2009), etc. Elle est également utilisée pour des domaines dont les expériences
précédentes sont de structure textuelle, tel que l'utilisation des recettes de cuisine (Dufour-
Lussier et al., 2010), la réponse aux e-mails (Lamontagne & Lapalme, 2004 ; Lamontagne,
2001), la traduction (Zwarts et al., 2004). Ce qui permet de montrer l'utilité et la possibilité
d'utiliser des cas textuels comme expériences précédentes pour résoudre de nouveaux
problèmes.
3. Théories du Traitement du Langage Naturel Retenues
Afin de développer notre approche d'utilisation des expériences précédentes dans la traduction
automatique, nous avons utilisé deux théories du traitement automatique du langage naturel :
la théorie de la dépendance conceptuelle de Schank, et la théorie de Fillmore.
Ces deux théories émergentes des approches linguistiques de la traduction permettent une
représentation plus profonde d'une phrase dans laquelle la sémantique a un rôle essentiel
(Sabah, 1989 ; Bouzit et Laskri, 2011).
3.1. Dépendance Conceptuelle
Roger Schank a regroupé toutes les actions (verbes de surface) dans une liste de 11 actions
conceptuelles (primitives) (Sabah, 1989; Schank, 1972). Par exemple, la primitive ATTEND
regroupe les verbes désignent l'action de diriger un organe des sens vers un stimulus (e.g.,
entendre, voir), la primitive INGEST regroupe les verbes qui désignent l'action d'introduire
quelque chose à l'intérieur d'un objet animé (e.g., manger, boire) (Gayral, 2006). Ainsi sont
regroupées sous la même primitive les actions qui désignent la même signification interne.
Nous avons utilisé cette théorie dans l'étape d'élaboration du cas textuel pour indexer les cas,
et ainsi, permettre de diminuer le nombre de cas à chercher lors de l'étape de recherche du cas
le plus similaire.
3.2. Théorie de FILLMORE
Parmi les grammaires casuelles, nous citons la théorie des cas sémantiques de Charles
Fillmore, une liste des cas sémantiques est finie, qui déterminent les relations entre les
groupes nominaux et le verbe de la phrase simple (Sabah, 1989 ; Fillmore, 1967). Nous
illustrons à l'aider d'un exemple quelques cas sémantiques dans une phrase:
Le chercheur a utilisé la base de données dans 
a utilisé = Action, chercheur = Agent, base de données = Objet, université = Lieu.
Ces cas sémantiques sont reconnus par quelques règles, qui diffèrent d'une langue à une autre,
et qui sont destinées à reconnaitre le rôle sémantique que joue un mot ou un groupe de mots
dans la phrase. Par exemple, le cas sémantique agent est reconnue par le cas syntaxique
‘sujet’, le lieu est reconnu par les prépositions à, dans, etc., l'instrument est précédé par les
mots avec, utilisant, etc. Néanmoins, il existe d'autres règles pour chaque cas sémantique.
Le plus important avec cette théorie est de mettre en évidence la sémantique de la phrase par
rapport à la syntaxe, et donc donner une représentation plus profonde de la phrase (Sabah,
1989). En effet, deux phrases qui ont des représentations syntaxiques différentes peuvent
avoir la même représentation interne (Bouzit et Laskri, 2011), par exemple :
Le chercher a téléchargé  scientifique
L'article scientifique a été téléchargé par le chercheur
Ces deux phrases ont le même sens, mais leurs cas syntaxiques sujets est différents
(chercheur, article scientifique) par contre leurs représentations internes est la même, dans les
deux phrases le cas sémantique agent est chercheur.
Gérard Sabah, affirme que « la structure syntaxique seule est bien entendu peu utile lorsque
         » (Sabah, 1989), pour cela,
nous avons appliqué cette théorie pour la structuration des cas dans le but de représenter les
phrases à traduire et les phrases de la base des cas, une représentation interne qui préserve le
sens de la phrase.
4. Approche DCF
L'approche de traduction automatique DCF (Figure 1) qu'utilise les théories de dépendance
conceptuelle (Schank, 1972) et de cas sémantiques (Fillmore, 1967) est une étape importante
dans tout le processus de traduction. En effet, selon les auteurs Bouzit et Laskri (2011), quand
une phrase est introduite en vue d'une traduction, elle passe par les trois étapes d'analyse
(morpholexicale, syntaxique et sémantique) en utilisant plusieurs théories linguistiques.
Figure 1. Architecture DCF
Lors de l'étape d'analyse sémantique, la théorie de Fillmore identifie l'action (verbe) et teste
les relations de l'action avec les autres constituants de la phrase à traduire, à savoir l'agent de
l'action, l'objet, l'instrument, etc. La théorie de la dépendance conceptuelle identifie la
primitive à laquelle appartient cette action (ATRANS, MATRANS, etc.) ce qui permet de
construire le Frame arabe associé en se basant sur la représentation en Frame de Minsky. Puis
vient le rôle du module de traduction, nous obtenons ainsi le Frame français.
Le système fournit le résultat de la traduction après organisation de la phrase selon les règles
syntaxiques et grammaticales de la langue française (les phrases traduites par le système DCF
ne sont pas validées par un utilisateur). Cette approche DCF est utilisable quand la phrase à
traduire ne possède pas ou ne ressemble pas à une phrase stockée dans la base de cas.
5. Étapes de l’Approche Proposée
Nous présentons, comment les étapes du raisonnement à partir de cas sont mises en œuvre, et
avec quelles connaissances. Ceci permet l'utilisation des traductions précédentes, comme
expériences textuelles pour effectuer de nouvelles traductions.
5.1. Analyse Linguistique
La phrase à traduire est introduite dans le système par une structure textuelle propre à la
langue. Cette étape emploie une analyse linguistique sur la phrase à traduire pour extraire les
connaissances nécessaires à l'élaboration du problème cible. Le plus important dans cette
étape est la détermination des différents cas sémantiques et la primitive du verbe. Pour cela,
nous utilisons des techniques de linguistique informatique telles que la théorie de dépendance
conceptuelle, pour la détermination de la primitive du verbe, et la théorie de Fillmore pour la
détermination des différents cas sémantiques de la phrase à traduire. Nous prenons aussi en
considération la position de chaque cas sémantique dans la phrase.
À l'issue de cette étape d'analyse, nous avons les connaissances linguistiques nécessaires à la
structuration du problème cible. Cette étape d'analyse est considérée comme une étape de pré-
élaboration.
5.2. Élaboration du Problème Cible
Dans le présent travail, la BC est un ensemble fini de cas sources (S), noté par BC: {S1,
S2,...Sn}, dans laquelle un cas source est noté par S = (PbS, Sol[PbS]). La partie problème
source (PbS) est la phrase arabe traduite auparavant, la solution du problème source
(Sol[PbS]) est la traduction de cette phrase en français, noté par Sol[PbS]={[A1/V1],
[A2/V2],...[An/Vn]} où [Ai/Vi] veut dire [Attribut/Valeur]. La BC est créée manuellement avec
des phrases arabes et leurs traductions dans la langue française. On peut aussi partir d'une BC
vide, et elle se remplit en mémorisant les phrases traduites avec l'approche DCF.
La nouvelle phrase à traduire est dans une forme littérale brute, alors on élabore le problème
cible sous une forme structurelle (attributs-valeurs) fondée sur la sémantique, semblable à la
représentation des cas sources déjà stockés dans la base de cas, tel qu’illustre la (Figure 2).
Le cas cible (C) est noté par C: (PbC, Sol[PbC]). Le problème cible (PbC) est la
représentation structurelle de la nouvelle phrase à traduire, la solution du problème cible
(Sol[PbC]) est la représentation structurelle de la traduction de cette phrase.
Les attributs de PbC sont remplis à partir des connaissances linguistiques (cas sémantique,
primitive de l'action, etc.) fournies par l'étape d'analyse. Cette étape d'élaboration permet de
représenter la nouvelle phrase à traduire une représentation structurelle qui préserve le sens de
la phrase. Dans cette étape les attributs de la partie Sol(PbC) restent vides.
Figure 2. 
5.3. Remémoration
Une fois que le problème cible est structuré, l'objectif de cette étape est de remémorer le cas
source le plus similaire au cas cible, en appliquant deux mesures de similarité (locale, globale)
entre le problème cible et les problèmes sources.
Similarité Locale : Cette mesure de similarité est calculée entre la valeur d'un attribut dans
PbC et la valeur du même attribut dans PbS. Elle est égale à 1 si les valeurs des deux attributs
sont égales (cf. équation (1)), égale à 0 si les deux valeurs ne sont pas égales :
sim (si,ci) (1)
ci : valeur d’un attribut i dans le PbC.
si : valeur du même attribut i dans le PbS.
Similarité Globale : Cette mesure de similarité est calculée entre un ensemble d'attributs
dans le PbC et le même ensemble d'attributs dans le PbS, elle correspond à la moyenne des
similarités locale et sa valeur est comprise dans l'intervalle [0,1], elle est définie par la
fonction de similarité ci-dessous:

(

)
 simi (si,ci) (2)
C : cas cible.
S : cas source.
n : nombre d’attributs dans lesquels la similarité locale a été calculée.
simi (si,ci) : valeur de la similarité locale pour l’attribut i.
Ces mesures de similarité sont employées pour deux remémorations:
Première Remémoration : On recherche un PbS, qui a des cas sémantiques similaires aux
cas sémantiques du PbC. On fait appel à la primitive de l'action comme index statique choisi
manuellement, pour le filtrage de la BC, les problèmes sources ayant la même primitive que le
problème cible seront sélectionnés. Suite à cette sélection, on applique la mesure de similarité
locale puis globale. Dans la mesure de similarité globale, un seuil de similarité est déterminé à
0.5. Si SIM(S,C) < 0.5 le cas source est considécomme négligeable (non similaire) ou si
SIM(S,C) 0.5 le cas source est considéré important (partiellement similaire). Dans le cas
SIM(S,C) = 1 le cas source est considéré comme parfaitement similaire. S'il n'existe pas un
1 pour ci = si
0 pour ci 
si
1 / 9 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !