Syn – Création d`un lexique de synonymes verbaux - TALC

Téléchargement

Syn2– Cr´eation d’un lexique de synonymes

verbaux

Evelyne Jacquey, Ingrid Falk

30 octobre 2007

1 R´esum´e des objectifs de l’op´eration

La langue naturelle a une expressivit´e forte qui permet d’exprimer un

mˆeme contenu de diﬀ´erentes fa¸cons. Aussi, les syst`emes de Traitement Au-

tomatique des Langues (TAL) commencent-ils souvent par abstraire des

diﬀ´erences surfaciques en calculant une repr´esentation plus ou moins pr´ecise

du sens des textes i.e., une repr´esentation conceptuelle. Cette repr´esentation

permet, par exemple, d’interpr´eter les synonymes voler et d´erober comme

d´enotant le mˆeme concept.

Dans ce contexte, le projet Syn2vise `a mod´eliser le syst`eme des concepts

´evoqu´es par les verbes du fran¸cais. Plus sp´eciﬁquement, il s’agit d’une part,

de d´evelopper une m´ethode permettant d’identiﬁer les concepts li´es aux

verbes et d’autre part, de relier les concepts identiﬁ´es `a un lexique morpho-

syntaxique des verbes du fran¸cais. A moyen terme, cette m´ethode devrait

permettre la cr´eation d’une ressource permettant aux syst`emes de TAL de

raisonner sur le sens des verbes e.g., de d´etecter que la phrase Jean d´erobe

une pomme est une r´eponse `a la question Jean a-t’il pris une pomme ?.

Identiﬁer les concepts li´es aux verbes. Pour le verbe parler, le diction-

naire alphab´etique et analogique de la langue fran¸caise [11] liste les distinc-

tions de sens et les synonymes suivants :

voler :

1.1.1. s’envoler, planer, voleter, voltiger.

1.1.2. survoler.

1.1.3. flotter, soulever.

1.1.4. courir, se presser, convoler.

1.1.5. fuir.

1.2. voler.

2.1.1. s’approprier, butiner (vx),d´erober, faire dispara^ıtre,

s’emparer, escamoter, filouter, friponner (vx), marauder, piller,

prendre, ravir, soustraire, subtiliser, barboter(fam.), calotter (fam.),

carotter (fam.), chaparder (fam.), chauffer(vx), chiper, choper,

chouraver (argot), faire, faucher, grapiller,gratter, piquer,

rafler, ratiboiser, refaire, repasser, soulager de,subtiliser,

d´etourner, emmener, eemporter, enlever, kidnapper, brigander (vx),

cambrioler, griveler.

2.1.2. usurper, d´erober.

2.1.3. s’attribuer,copier, plagier.

2.2.1. arnaquer (fam.), cambrioler, carotter, d´elester,

d´epouiller, d´etrousser, d´evaliser, empaumer (vieilli), escroquer,

estamper, flibuster, flouer, gruger, piller, rouler.

2.2.2. exploiter, tromper, arranger, ´ecorcher, empiler, ent^oler,

´etriller, tondre,frustrer.

Intuitivement, un dictionnaire analogique donne donc acc`es `a la fois aux

concepts associ´es `a un verbe (identiﬁcation de plusieurs sens possibles) et `a

l’ensemble des verbes associ´es `a chacun de ces concepts (listes de synonymes).

L’objectif de cette partie du projet a donc ´et´e de d´evelopper une m´ethode

permettant de fusionner de fa¸con automatique 5 des 7 dictionnaires analo-

giques disponibles dans la base des synonymes de l’ATILF `a savoir [7, 4, 8,

11, 14]. En eﬀet, les cinq dictionnaires ne proposent g´en´eralement ni le mˆeme

d´ecoupage en sens, ni le mˆeme ensemble de synonymes. Certains dictionnaires

´etablissent en outre une relation entre sens et cat´egorie syntaxique (nom,

verbe, adjectif), d’autres non. La fusion de plusieurs dictionnaires devait per-

mettre d’une part, d’augmenter la couverture (nombre de concepts et de sy-

nonymes identiﬁ´es) et d’autre part, d’am´eliorer la qualit´e du lexique r´esultant

(information sur les concepts, les synonymes mais ´egalement sur leurs pro-

pri´et´es syntaxiques comme la cat´egorie ou le cadre de sous cat´egorisation).

Relier concepts et lexique syntaxique verbal. Aﬁn de pouvoir acc´eder

aux concepts ´evoqu´es par une phrase, il est n´ecessaire, pour un syst`eme de

TAL, de disposer d’un lexique syntaxico-s´emantique reliant mots, informa-

tion syntaxique et information conceptuelle.

Id´ealement, l’entr´ee d’un verbe dans un tel lexique listera l’ensemble des

usages possibles d’un verbe c-`a-d, l’ensemble des paires (sous-cat,syn) o`u

sous-cat caract´erise les arguments r´egis par le verbe et syn est l’ensemble

des synonymes correspondants.

Si un tel lexique n’existe pas pour le fran¸cais `a l’heure actuelle, des tra-

vaux r´ecents ont donn´e lieu `a l’apparition de plusieurs lexiques syntaxiques

librement disponibles `a savoir DicoValence [16], Lefff [6] et SynLeX [9].

Ces lexiques visent `a sp´eciﬁer pour chaque verbe du fran¸cais l’ensemble des

cadres de sous-cat´egorisation permis pour ce verbe. Par exemple, l’entr´ee de

Lefff pour le verbe voler est :

voler v[pred=’voler<suj:sn>’,@avoir,cat=v]

voler v[pred=’voler<suj:sn,obj:sn,obja:`a-sn>’,@avoir,cat=v]

voler v[pred=’voler<suj:sn,obj:sn>’,@avoir,cat=v]

voler v[pred=’voler<suj:sn,obja:`a-sn>’,@avoir,cat=v]

voler v[pred=’voler<suj:sn>’,@avoir,cat=v]

Comme on le voit, ce type de lexique ne contient aucune information

s´emantique et ne permet, en particulier, ni de distinguer les diﬀ´erents sens

d’un verbe, ni de les associer aux cadres syntaxiques correspondant (voler-ﬂy

est un verbe intransitif i.e., sans compl´ement objet tandis que voler-steal est

un verbe transitif).

L’objectif de cette deuxi`eme partie sera donc de mettre au point une

m´ethodologie permettant de compl´eter de fa¸con semi-automatique un lexique

syntaxique du fran¸cais avec une information s´emantique. Plus pr´ecis´ement, il

s’agira de structurer ce lexique en regroupant les entr´ees d’un verbe relevant

du mˆeme concept puis d’associer `a ces entr´ees les synonymes appropri´es.

2 Travaux eﬀectu´es en 2007

Durant les premiers 7 mois, le travail s’est concentr´e sur l’acquisition d’un

lexique de synonymes pour les verbes du fran¸cais. Les travaux eﬀectu´es ont

port´e sur :

– la d´eﬁnition d’une m´ethodologie pour l’acquisition, `a partir de 5 dic-

tionnaires de synonymes et du TLFi, d’un lexique de synonymes

– la sp´eciﬁcation d’une m´ethode d’´evaluation pour le lexique cr´e´e

– l’installation et l’adaptation de diﬀ´erents logiciels permettant le calcul

de similarit´e entre fragments de texte

2.1 Cr´eation automatique d’un lexique de synonymes

L’objectif est de cr´eer, `a partir du TLFi et de 5 dictionnaires de synonymes

existants, un dictionnaire de verbes unique o`u chaque verbe est associ´e avec

un ensemble de sens et chaque sens avec un ensemble de synonymes. Pour

ce faire, nous avons commenc´e par examiner les diﬀ´erents types d’approches

pr´esents dans la lit´erature. Nous avons ensuite sp´eciﬁ´e une m´ethode adapt´ee

aux sources dont nous disposons `a savoir, les 5 dictionnaires de synonymes

et le TLFi.

Approches existantes On peut identiﬁer trois grands types d’approches

permettant la construction d’un lexique de synonymes : les approches fond´ees

sur les corpus, les approches fond´ees sur les dictionnaires g´en´eraux et les ap-

proches fond´ees sur les dictionnaires de synonymes. Toutes ces approches

reposent sur l’id´ee que les synonymes partagent des contextes communs.

Elles diﬀ`erent cependant par le type de contexte qu’elles mettent en jeu : le

contexte d’usage pour l’approche fond´ee sur les corpus ; le contexte d´eﬁnitionnel

pour l’approche fond´ee sur l’usage d’un dictionnaire g´en´eral ; et le contexte

synonymique pour l’approche se fondant sur des bases de synonymes.

Dans l’approche fond´ee sur les corpus [10], l’hypoth`ese de base est que les

mots similaires apparaissent dans les mˆemes contextes d’usage. Diﬀ´erentes

approches ont ´et´e explor´ees qui varient selon la nature du contexte consid´er´e

(document dans lequel le mot apparaˆıt, mots avoisinants, contexte gramma-

tical, etc.) et/ou la fonction de similarit´e utilis´ee.

L’approche fond´ee sur les dictionnaires [12] regroupe les synonymes d’un

mot msur la base des mots compris dans la d´eﬁnition de met des mots

d´eﬁnis par m. Dans cette approche, un graphe est construit `a partir du

dictionnaire tel que chaque mot mest un noeud du graphe ayant pour arcs

sortants des arcs pointant sur les mots entrant dans les d´eﬁnitions de m

et pour arcs entrants, les arcs sortant des mots dont la d´eﬁnition contient

m. Chaque noeud du graphe est ensuite associ´e par un processus it´eratif

convergent `a un rang qui est utilis´e pour mesurer, dans le graphe de voisins

d’un mot, ses voisins les plus proches. Cette approche, inspir´ee de l’algorithme

de John Kleinberg pour l’extraction des pages webs pertinentes pour un

requˆete donn´ee, a ´et´e adapt´ee `a l’extraction de synonymes `a partir d’un

dictionnaire par [5] puis appliqu´ee au TLFi par [12].

Enﬁn, un troisi`eme type d’approche est fond´ee sur la saisie des relations

synonymiques issues de 7 dictionnaires classiques du fran¸cais (Bailly, Benac,

Du Chazaud, Guizot, Lafaye, Larousse et Robert)1. L’approche repose d’une

part sur la constitution de cliques et d’autre part sur la projection de ces

cliques dans un espace multidimmensionnel et visualis´e par projection sur

les composantes principales. Pour chaque mot, les cliques sont obtenues en

construisant le graphe des relations entre ce mot et ses synonymes dans la

ressource issue de la fusion des 7 dictionnaires. Ensuite, la recherche des

1La saisie des donn´ees et la production des ﬁchiers correspondants a ´et´e eﬀectu´ee `a

l’Institut National de la Langue Fran¸caise (INaLF).

sous-graphes complets de ce premier graphe permet d’obtenir les cliques.

Dans un deuxi`eme temps, la projection des cliques obtenues dans un espace

mutlidimensionnel et leur visualisation permet de faire ´emerger les diﬀ´erents

sens d’un mot-vedette, chacun d’eux ´etant repr´esent´e par une ou plusieurs

cliques regroup´ees par la projection. Ainsi, pour l’entr´ee du mot maison,

Ploux et Victorri font ´emerger plusieurs sens parmi lesquels ”baraque”, ”ser-

viteur”, ”habitation”, ”foyer”, ”famille”. Chacun de ces sens est rep´erable

sous la forme de cliques, autrement dit sous la forme de regroupement de

mot-formes. Le sens de ”serviteur” par exemple regroupe les mots domesti-

cit´e, gens, domestique, etc alors que le sens de ”habitation” regroupe abri,

toit, domicile, demeure, logement, etc.

Approche adopt´ee. L’approche poursuivie dans Syn2diﬀ`ere des approches

existantes en ce qu’elle repose sur deux types de dictionnaires : un diction-

naire g´en´eral (le TLFi) et des dictionnaires de synonymes. Nous tirons parti

de cette sp´eciﬁcit´e pour ´eviter certains eccueils des approches existantes en

particulier :

– L’utilisation de dictionnaires de synonymes comme source de cr´eation

d’un dictionnaire synonymique unique permet de garantir que les mots

regroup´es sont de fait des synonymes. En ce sens notre approche contraste

avec l’approche fond´ee sur corpus qui ´echoue fr´equemment `a distinguer

entre termes similaires et termes synoymes et regroupe fr´equement des

antonymes par exemple. Dans un moindre degr´e, la mˆeme critique s’ap-

plique ´egalement `a l’approche fond´ee sur les dictionnaires.

– L’utilisation du TLFi permet de regrouper les synonymes par sens ce

qui, cette fois, contraste avec l’approche de Ploux et Victorri qui si

elle permet la formation de cliques correspondant `a des nuances de

sens, ne permet pas directement d’´etablir de fa¸con automatique les

sens principaux d’un mot.

Nous exploitons ces deux ressources en adoptant une approche hybride

utilisant `a la fois le contexte synonymique et le contexte d´eﬁnitionnel d’un

verbe. Concr`etement, l’approche peut ˆetre r´esum´ee comme suit :

Pour chaque verbe V , il s’agit d’assigner chacun des synonymes

recens´es pour V dans les 5 dictionnaires de synonymes `a l’une

des d´eﬁnitions list´ees pour V dans le TLFi.

En d’autres termes, l’objectif est de regrouper les synonymes d’un verbe

par sens, ces sens ´etant donn´es par les d´eﬁnitions du TLFi.

Pour d´ecider du sens sur lequel rattacher un synonyme, nous utilisons les

d´eﬁnitions du verbe consid´er´e et de son/ses synonyme(s). Ce regroupement

des synonymes par sens se fait selon le sch´ema suivant :

1 / 16 100%

Syn – Création d`un lexique de synonymes verbaux - TALC

Téléchargement

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !

GDPR Confidentialité Conditions d'utilisation

Syn – Création d`un lexique de synonymes verbaux - TALC

Syn – Création d`un lexique de synonymes verbaux - TALC

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Syn – Création d`un lexique de synonymes verbaux - TALC

Syn – Création d`un lexique de synonymes verbaux - TALC

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib