Un Raisonnement à Partir de Cas pour la Traduction Automatique

Téléchargement

Arabe-Français Basée sur la Sémantique

Hamza Meguehout1, Tahar Bouhadada2, Mohamed-Tayeb Laskri2

1Département d’Informatique, Université Badji Mokhtar Annaba, BP12, 23000 Annaba,

Algérie

2Laboratoire LRI, Département d’Informatique, Université Badji Mokhtar Annaba, BP12,

23000 Annaba, Algérie

RÉSUMÉ. Dans ce papier, nous présentons un travail dans lequel nous utilisons des phrases traduites

auparavant comme expérience pour effectuer de nouvelles traductions, ceci permet d'éviter de traduire

une seconde fois des phrases déjà traduites ou ressemblantes à des phrases déjà traduites, afin

d'aborder la traduction basée sur la démarche de retour d'expériences. Pour cela, nous utilisons des

théories du traitement automatique du langage naturel (TALN), avec la capacité de mémoriser et de

réutiliser la connaissance développée par l'approche du raisonnement à partir de cas (RàPC). Nous

présentons l'utilité des méthodes du TALN, comment elles ont contribué à fournir les connaissances

nécessaires aux différentes étapes du RàPC et comment ce dernier gère ces connaissances pour utiliser

les expériences acquises lors de traductions précédentes.

ABSTRACT. This paper presents a work in which we use sentences translated before as an experiment

to deal with new translations. This permits to avoid translating again the sentences already translated

or sentences that look like them, which allows approaching the translation based on the methode of

experience feedback. For this purpose, we use the theories of natural language processing (NLP), with

the ability to save and re-use the knowledge developed by the Case-based reasoning approach (CBR).

We present the utility of the NLP methods, how they contributed in providing necessary knowledge to

the various stages of CBR, and how this last manages this knowledge to use the acquired experiences

during the previous translations.

MOTS-CLÉS : cas sémantique, dépendance conceptuelle, raisonnement à partir de cas, RàPC, théorie

de Fillmore, traitement automatique du langage naturel, TALN, traduction automatique.

KEYWORDS: semantic cases, conceptual dependency, case-based reasoning, CBR, Fillmore theory,

natural language processing, NLP, machine translation.

1. Introduction

Les recherches dans le domaine de la traduction automatique ont débuté il y a plus de 60ans,

par les travaux du mathématicien Warren Weaver orientés vers le décodage (Allauzen &

Yvon, 2011). Au fil des années, plusieurs axes de recherche apparaissent. Parmi ces axes de

traduction, on cite particulièrement les mémoires de traduction (Cordova, s.d.; Simard, 2003)

et la traduction à partir d’exemple (Carl, 2003). L'objectif de ces deux axes est d'effectuer ou

aider à effectuer de nouvelles traductions à partir d'exemples déjà traduits.

Ce travail nous a menés à suivre les étapes du raisonnement à partir de cas dans un contexte

de traduction (arabe-français). L'emploi des grammaires casuelles dans le cycle du RàPC et

combiné cette approche du RàPC avec une approche de traduction basée sur les règles à

savoir l'approche de dépendance conceptuelle et Fillmore (DCF) (Bouzit & Laskri, 2011).

Afin d'éviter de retraduire et d'utiliser des connaissances linguistiques pour des phrases déjà

traduites ou ressemblantes à des phrases traduites précédemment, notre approche du

raisonnement à partir de cas textuels produit une nouvelle traduction à partir des traductions

précédentes en tenant compte du sens de la phrase. On ne peut obtenir une traduction

automatique de bonne qualité que si l'on procède au préalable à une compréhension de la

signification du texte à traduire.

Dans cet article, nous allons faire une analyse succincte sur le RàPC et les théories du TALN

utilisées, puis nous détaillerons comment les étapes de notre cycle ont été réalisées et avec

quelles connaissances. Ensuite nous décrirons le fonctionnement de l'architecture proposé.

Nous terminons par une conclusion et les perspectives du présent travail.

2. Raisonnement à Partir de Cas

L’approche du raisonnement à partir de cas utilise les expériences passées (cas source) pour

résoudre les nouveaux problèmes (cas cible) (Duverlie et al., 1999). Un cas est généralement

présenté par un couple (problème, solution [problème]). Les cas sources sont des éléments de

la base de cas (BC), un cas cible est un problème à résoudre (Lieber, 2008). Quand un cas

cible est posé, le système du RàPC recherche dans la BC, le cas source le plus similaire au cas

cible, puis la solution du cas source remémoré est adaptée au cas cible (Grabot, 2006).

Selon Jean Lieber (2007), les étapes d'un système du RàPC sont : élaboration (faire une

description du problème cible), remémoration (sélectionner le cas source le plus similaire au

problème cible), adaptation (adapter la solution du problème source remémoré au problème

cible), validation (la solution du problème cible doit être vérifiée, par exemple par un humain)

et mémorisation (stocker le problème cible avec sa solution dans la BC). Un tel système de

raisonnement a besoin d'une BC (elle contient un ensemble fini de cas) et de différentes

connaissances, comme les connaissances de similarité (mesure de similarité, seuil de

similarité, etc.), connaissances d'adaptation, connaissances du domaine, etc.

Cette approche d'utilisation des expériences précédentes est largement utilisée dans plusieurs

domaines d'application, comme le diagnostic médical (Begum et al., 2011), industriel

(Armaghan, 2009), etc. Elle est également utilisée pour des domaines dont les expériences

précédentes sont de structure textuelle, tel que l'utilisation des recettes de cuisine (Dufour-

Lussier et al., 2010), la réponse aux e-mails (Lamontagne & Lapalme, 2004 ; Lamontagne,

2001), la traduction (Zwarts et al., 2004). Ce qui permet de montrer l'utilité et la possibilité

d'utiliser des cas textuels comme expériences précédentes pour résoudre de nouveaux

problèmes.

3. Théories du Traitement du Langage Naturel Retenues

Afin de développer notre approche d'utilisation des expériences précédentes dans la traduction

automatique, nous avons utilisé deux théories du traitement automatique du langage naturel :

la théorie de la dépendance conceptuelle de Schank, et la théorie de Fillmore.

Ces deux théories émergentes des approches linguistiques de la traduction permettent une

représentation plus profonde d'une phrase dans laquelle la sémantique a un rôle essentiel

(Sabah, 1989 ; Bouzit et Laskri, 2011).

3.1. Dépendance Conceptuelle

Roger Schank a regroupé toutes les actions (verbes de surface) dans une liste de 11 actions

conceptuelles (primitives) (Sabah, 1989; Schank, 1972). Par exemple, la primitive ATTEND

regroupe les verbes désignent l'action de diriger un organe des sens vers un stimulus (e.g.,

entendre, voir), la primitive INGEST regroupe les verbes qui désignent l'action d'introduire

quelque chose à l'intérieur d'un objet animé (e.g., manger, boire) (Gayral, 2006). Ainsi sont

regroupées sous la même primitive les actions qui désignent la même signification interne.

Nous avons utilisé cette théorie dans l'étape d'élaboration du cas textuel pour indexer les cas,

et ainsi, permettre de diminuer le nombre de cas à chercher lors de l'étape de recherche du cas

le plus similaire.

3.2. Théorie de FILLMORE

Parmi les grammaires casuelles, nous citons la théorie des cas sémantiques de Charles

Fillmore, où une liste des cas sémantiques est définie, qui déterminent les relations entre les

groupes nominaux et le verbe de la phrase simple (Sabah, 1989 ; Fillmore, 1967). Nous

illustrons à l'aider d'un exemple quelques cas sémantiques dans une phrase:

Le chercheur a utilisé la base de données dans 

a utilisé = Action, chercheur = Agent, base de données = Objet, université = Lieu.

Ces cas sémantiques sont reconnus par quelques règles, qui diffèrent d'une langue à une autre,

et qui sont destinées à reconnaitre le rôle sémantique que joue un mot ou un groupe de mots

dans la phrase. Par exemple, le cas sémantique agent est reconnue par le cas syntaxique

‘sujet’, le lieu est reconnu par les prépositions ‘à’, ‘dans’, etc., l'instrument est précédé par les

mots ‘avec’, ‘utilisant’, etc. Néanmoins, il existe d'autres règles pour chaque cas sémantique.

Le plus important avec cette théorie est de mettre en évidence la sémantique de la phrase par

rapport à la syntaxe, et donc donner une représentation plus profonde de la phrase (Sabah,

1989). En effet, deux phrases qui ont des représentations syntaxiques différentes peuvent

avoir la même représentation interne (Bouzit et Laskri, 2011), par exemple :

Le chercher a téléchargé  scientifique

L'article scientifique a été téléchargé par le chercheur

Ces deux phrases ont le même sens, mais leurs cas syntaxiques sujets est différents

(chercheur, article scientifique) par contre leurs représentations internes est la même, dans les

deux phrases le cas sémantique agent est chercheur.

Gérard Sabah, affirme que « la structure syntaxique seule est bien entendu peu utile lorsque

         » (Sabah, 1989), pour cela,

nous avons appliqué cette théorie pour la structuration des cas dans le but de représenter les

phrases à traduire et les phrases de la base des cas, une représentation interne qui préserve le

sens de la phrase.

4. Approche DCF

L'approche de traduction automatique DCF (Figure 1) qu'utilise les théories de dépendance

conceptuelle (Schank, 1972) et de cas sémantiques (Fillmore, 1967) est une étape importante

dans tout le processus de traduction. En effet, selon les auteurs Bouzit et Laskri (2011), quand

une phrase est introduite en vue d'une traduction, elle passe par les trois étapes d'analyse

(morpholexicale, syntaxique et sémantique) en utilisant plusieurs théories linguistiques.

Figure 1. Architecture DCF

Lors de l'étape d'analyse sémantique, la théorie de Fillmore identifie l'action (verbe) et teste

les relations de l'action avec les autres constituants de la phrase à traduire, à savoir l'agent de

l'action, l'objet, l'instrument, etc. La théorie de la dépendance conceptuelle identifie la

primitive à laquelle appartient cette action (ATRANS, MATRANS, etc.) ce qui permet de

construire le Frame arabe associé en se basant sur la représentation en Frame de Minsky. Puis

vient le rôle du module de traduction, nous obtenons ainsi le Frame français.

Le système fournit le résultat de la traduction après organisation de la phrase selon les règles

syntaxiques et grammaticales de la langue française (les phrases traduites par le système DCF

ne sont pas validées par un utilisateur). Cette approche DCF est utilisable quand la phrase à

traduire ne possède pas ou ne ressemble pas à une phrase stockée dans la base de cas.

5. Étapes de l’Approche Proposée

Nous présentons, comment les étapes du raisonnement à partir de cas sont mises en œuvre, et

avec quelles connaissances. Ceci permet l'utilisation des traductions précédentes, comme

expériences textuelles pour effectuer de nouvelles traductions.

5.1. Analyse Linguistique

La phrase à traduire est introduite dans le système par une structure textuelle propre à la

langue. Cette étape emploie une analyse linguistique sur la phrase à traduire pour extraire les

connaissances nécessaires à l'élaboration du problème cible. Le plus important dans cette

étape est la détermination des différents cas sémantiques et la primitive du verbe. Pour cela,

nous utilisons des techniques de linguistique informatique telles que la théorie de dépendance

conceptuelle, pour la détermination de la primitive du verbe, et la théorie de Fillmore pour la

détermination des différents cas sémantiques de la phrase à traduire. Nous prenons aussi en

considération la position de chaque cas sémantique dans la phrase.

À l'issue de cette étape d'analyse, nous avons les connaissances linguistiques nécessaires à la

structuration du problème cible. Cette étape d'analyse est considérée comme une étape de pré-

élaboration.

5.2. Élaboration du Problème Cible

Dans le présent travail, la BC est un ensemble fini de cas sources (S), noté par BC: {S1,

S2,...Sn}, dans laquelle un cas source est noté par S = (PbS, Sol[PbS]). La partie problème

source (PbS) est la phrase arabe traduite auparavant, la solution du problème source

(Sol[PbS]) est la traduction de cette phrase en français, noté par Sol[PbS]={[A1/V1],

[A2/V2],...[An/Vn]} où [Ai/Vi] veut dire [Attribut/Valeur]. La BC est créée manuellement avec

des phrases arabes et leurs traductions dans la langue française. On peut aussi partir d'une BC

vide, et elle se remplit en mémorisant les phrases traduites avec l'approche DCF.

La nouvelle phrase à traduire est dans une forme littérale brute, alors on élabore le problème

cible sous une forme structurelle (attributs-valeurs) fondée sur la sémantique, semblable à la

représentation des cas sources déjà stockés dans la base de cas, tel qu’illustre la (Figure 2).

Le cas cible (C) est noté par C: (PbC, Sol[PbC]). Le problème cible (PbC) est la

représentation structurelle de la nouvelle phrase à traduire, la solution du problème cible

(Sol[PbC]) est la représentation structurelle de la traduction de cette phrase.

Les attributs de PbC sont remplis à partir des connaissances linguistiques (cas sémantique,

primitive de l'action, etc.) fournies par l'étape d'analyse. Cette étape d'élaboration permet de

représenter la nouvelle phrase à traduire une représentation structurelle qui préserve le sens de

la phrase. Dans cette étape les attributs de la partie Sol(PbC) restent vides.

Figure 2. 

5.3. Remémoration

Une fois que le problème cible est structuré, l'objectif de cette étape est de remémorer le cas

source le plus similaire au cas cible, en appliquant deux mesures de similarité (locale, globale)

entre le problème cible et les problèmes sources.

Similarité Locale : Cette mesure de similarité est calculée entre la valeur d'un attribut dans

PbC et la valeur du même attribut dans PbS. Elle est égale à 1 si les valeurs des deux attributs

sont égales (cf. équation (1)), égale à 0 si les deux valeurs ne sont pas égales :

sim (si,ci) (1)

ci : valeur d’un attribut i dans le PbC.

si : valeur du même attribut i dans le PbS.

Similarité Globale : Cette mesure de similarité est calculée entre un ensemble d'attributs

dans le PbC et le même ensemble d'attributs dans le PbS, elle correspond à la moyenne des

similarités locale et sa valeur est comprise dans l'intervalle [0,1], elle est définie par la

fonction de similarité ci-dessous:



(



)





∑



 simi (si,ci) (2)

C : cas cible.

S : cas source.

n : nombre d’attributs dans lesquels la similarité locale a été calculée.

simi (si,ci) : valeur de la similarité locale pour l’attribut i.

Ces mesures de similarité sont employées pour deux remémorations:

Première Remémoration : On recherche un PbS, qui a des cas sémantiques similaires aux

cas sémantiques du PbC. On fait appel à la primitive de l'action comme index statique choisi

manuellement, pour le filtrage de la BC, les problèmes sources ayant la même primitive que le

problème cible seront sélectionnés. Suite à cette sélection, on applique la mesure de similarité

locale puis globale. Dans la mesure de similarité globale, un seuil de similarité est déterminé à

0.5. Si SIM(S,C) < 0.5 le cas source est considéré comme négligeable (non similaire) ou si

SIM(S,C) ≥ 0.5 le cas source est considéré important (partiellement similaire). Dans le cas où

SIM(S,C) = 1 le cas source est considéré comme parfaitement similaire. S'il n'existe pas un

1 pour ci = si

0 pour ci 

1 / 9 100%

Documents connexes

Orthographe/Conjugaison 4e : Cours de français

Exercices et vocabulaire français : Primaire/Collège

Nom et prénom : Date du travail : La Joconde et le Phénix (Récits

la-consequence - WordPress.com

Écrire un article de journal: organisation

Idées de défis lecture - Académie de Nancy-Metz

Rappel linguistique La phrase nominale La / une phrase

cycle - ecrits courts sur internet

Analyse de phrase Les constituants de la phrase Constituants

Le vocabulaire de la cause

Bande annonce

Semaine du 23 au 26 janvier

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Un Raisonnement à Partir de Cas pour la Traduction Automatique

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Un Raisonnement à Partir de Cas pour la Traduction Automatique

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib