Syn – Création d`un lexique de synonymes verbaux - TALC

Syn2– Cr´eation d’un lexique de synonymes
verbaux
Evelyne Jacquey, Ingrid Falk
30 octobre 2007
1 R´esum´e des objectifs de l’op´eration
La langue naturelle a une expressivit´e forte qui permet d’exprimer un
mˆeme contenu de diff´erentes fa¸cons. Aussi, les syst`emes de Traitement Au-
tomatique des Langues (TAL) commencent-ils souvent par abstraire des
diff´erences surfaciques en calculant une repr´esentation plus ou moins pr´ecise
du sens des textes i.e., une repr´esentation conceptuelle. Cette repr´esentation
permet, par exemple, d’interpr´eter les synonymes voler et erober comme
d´enotant le mˆeme concept.
Dans ce contexte, le projet Syn2vise `a mod´eliser le syst`eme des concepts
´evoqu´es par les verbes du fran¸cais. Plus sp´ecifiquement, il s’agit d’une part,
de d´evelopper une m´ethode permettant d’identifier les concepts li´es aux
verbes et d’autre part, de relier les concepts identifi´es `a un lexique morpho-
syntaxique des verbes du fran¸cais. A moyen terme, cette m´ethode devrait
permettre la cr´eation d’une ressource permettant aux syst`emes de TAL de
raisonner sur le sens des verbes e.g., de d´etecter que la phrase Jean d´erobe
une pomme est une r´eponse `a la question Jean a-t’il pris une pomme ?.
Identifier les concepts li´es aux verbes. Pour le verbe parler, le diction-
naire alphab´etique et analogique de la langue fran¸caise [11] liste les distinc-
tions de sens et les synonymes suivants :
voler :
1.1.1. s’envoler, planer, voleter, voltiger.
1.1.2. survoler.
1.1.3. flotter, soulever.
1.1.4. courir, se presser, convoler.
1.1.5. fuir.
1
1.2. voler.
2.1.1. s’approprier, butiner (vx),d´erober, faire dispara^ıtre,
s’emparer, escamoter, filouter, friponner (vx), marauder, piller,
prendre, ravir, soustraire, subtiliser, barboter(fam.), calotter (fam.),
carotter (fam.), chaparder (fam.), chauffer(vx), chiper, choper,
chouraver (argot), faire, faucher, grapiller,gratter, piquer,
rafler, ratiboiser, refaire, repasser, soulager de,subtiliser,
etourner, emmener, eemporter, enlever, kidnapper, brigander (vx),
cambrioler, griveler.
2.1.2. usurper, d´erober.
2.1.3. s’attribuer,copier, plagier.
2.2.1. arnaquer (fam.), cambrioler, carotter, d´elester,
epouiller, d´etrousser, d´evaliser, empaumer (vieilli), escroquer,
estamper, flibuster, flouer, gruger, piller, rouler.
2.2.2. exploiter, tromper, arranger, ´ecorcher, empiler, ent^oler,
´etriller, tondre,frustrer.
Intuitivement, un dictionnaire analogique donne donc acc`es `a la fois aux
concepts associ´es `a un verbe (identification de plusieurs sens possibles) et `a
l’ensemble des verbes associ´es `a chacun de ces concepts (listes de synonymes).
L’objectif de cette partie du projet a donc ´et´e de d´evelopper une m´ethode
permettant de fusionner de fa¸con automatique 5 des 7 dictionnaires analo-
giques disponibles dans la base des synonymes de l’ATILF `a savoir [7, 4, 8,
11, 14]. En effet, les cinq dictionnaires ne proposent g´en´eralement ni le mˆeme
d´ecoupage en sens, ni le mˆeme ensemble de synonymes. Certains dictionnaires
´etablissent en outre une relation entre sens et cat´egorie syntaxique (nom,
verbe, adjectif), d’autres non. La fusion de plusieurs dictionnaires devait per-
mettre d’une part, d’augmenter la couverture (nombre de concepts et de sy-
nonymes identifi´es) et d’autre part, d’am´eliorer la qualit´e du lexique r´esultant
(information sur les concepts, les synonymes mais ´egalement sur leurs pro-
pri´et´es syntaxiques comme la cat´egorie ou le cadre de sous cat´egorisation).
Relier concepts et lexique syntaxique verbal. Afin de pouvoir acc´eder
aux concepts ´evoqu´es par une phrase, il est n´ecessaire, pour un syst`eme de
TAL, de disposer d’un lexique syntaxico-s´emantique reliant mots, informa-
tion syntaxique et information conceptuelle.
Id´ealement, l’entr´ee d’un verbe dans un tel lexique listera l’ensemble des
usages possibles d’un verbe c-`a-d, l’ensemble des paires (sous-cat,syn) o`u
sous-cat caract´erise les arguments r´egis par le verbe et syn est l’ensemble
des synonymes correspondants.
2
Si un tel lexique n’existe pas pour le fran¸cais `a l’heure actuelle, des tra-
vaux r´ecents ont donn´e lieu `a l’apparition de plusieurs lexiques syntaxiques
librement disponibles `a savoir DicoValence [16], Lefff [6] et SynLeX [9].
Ces lexiques visent `a sp´ecifier pour chaque verbe du fran¸cais l’ensemble des
cadres de sous-cat´egorisation permis pour ce verbe. Par exemple, l’entr´ee de
Lefff pour le verbe voler est :
voler v[pred=’voler<suj:sn>’,@avoir,cat=v]
voler v[pred=’voler<suj:sn,obj:sn,obja:`a-sn>’,@avoir,cat=v]
voler v[pred=’voler<suj:sn,obj:sn>’,@avoir,cat=v]
voler v[pred=’voler<suj:sn,obja:`a-sn>’,@avoir,cat=v]
voler v[pred=’voler<suj:sn>’,@avoir,cat=v]
Comme on le voit, ce type de lexique ne contient aucune information
s´emantique et ne permet, en particulier, ni de distinguer les diff´erents sens
d’un verbe, ni de les associer aux cadres syntaxiques correspondant (voler-fly
est un verbe intransitif i.e., sans compl´ement objet tandis que voler-steal est
un verbe transitif).
L’objectif de cette deuxi`eme partie sera donc de mettre au point une
m´ethodologie permettant de compl´eter de fa¸con semi-automatique un lexique
syntaxique du fran¸cais avec une information s´emantique. Plus pr´ecis´ement, il
s’agira de structurer ce lexique en regroupant les entr´ees d’un verbe relevant
du mˆeme concept puis d’associer `a ces entr´ees les synonymes appropri´es.
2 Travaux effectu´es en 2007
Durant les premiers 7 mois, le travail s’est concentr´e sur l’acquisition d’un
lexique de synonymes pour les verbes du fran¸cais. Les travaux effectu´es ont
port´e sur :
la d´efinition d’une m´ethodologie pour l’acquisition, `a partir de 5 dic-
tionnaires de synonymes et du TLFi, d’un lexique de synonymes
la sp´ecification d’une m´ethode d’´evaluation pour le lexique cr´e´e
l’installation et l’adaptation de diff´erents logiciels permettant le calcul
de similarit´e entre fragments de texte
2.1 Cr´eation automatique d’un lexique de synonymes
L’objectif est de cr´eer, `a partir du TLFi et de 5 dictionnaires de synonymes
existants, un dictionnaire de verbes unique o`u chaque verbe est associ´e avec
un ensemble de sens et chaque sens avec un ensemble de synonymes. Pour
ce faire, nous avons commenc´e par examiner les diff´erents types d’approches
3
pr´esents dans la lit´erature. Nous avons ensuite sp´ecifi´e une m´ethode adapt´ee
aux sources dont nous disposons `a savoir, les 5 dictionnaires de synonymes
et le TLFi.
Approches existantes On peut identifier trois grands types d’approches
permettant la construction d’un lexique de synonymes : les approches fond´ees
sur les corpus, les approches fond´ees sur les dictionnaires g´en´eraux et les ap-
proches fond´ees sur les dictionnaires de synonymes. Toutes ces approches
reposent sur l’id´ee que les synonymes partagent des contextes communs.
Elles diff`erent cependant par le type de contexte qu’elles mettent en jeu : le
contexte d’usage pour l’approche fond´ee sur les corpus ; le contexte d´efinitionnel
pour l’approche fond´ee sur l’usage d’un dictionnaire g´en´eral ; et le contexte
synonymique pour l’approche se fondant sur des bases de synonymes.
Dans l’approche fond´ee sur les corpus [10], l’hypoth`ese de base est que les
mots similaires apparaissent dans les mˆemes contextes d’usage. Diff´erentes
approches ont ´et´e explor´ees qui varient selon la nature du contexte consid´er´e
(document dans lequel le mot apparaˆıt, mots avoisinants, contexte gramma-
tical, etc.) et/ou la fonction de similarit´e utilis´ee.
L’approche fond´ee sur les dictionnaires [12] regroupe les synonymes d’un
mot msur la base des mots compris dans la d´efinition de met des mots
d´efinis par m. Dans cette approche, un graphe est construit `a partir du
dictionnaire tel que chaque mot mest un noeud du graphe ayant pour arcs
sortants des arcs pointant sur les mots entrant dans les d´efinitions de m
et pour arcs entrants, les arcs sortant des mots dont la d´efinition contient
m. Chaque noeud du graphe est ensuite associ´e par un processus it´eratif
convergent `a un rang qui est utilis´e pour mesurer, dans le graphe de voisins
d’un mot, ses voisins les plus proches. Cette approche, inspir´ee de l’algorithme
de John Kleinberg pour l’extraction des pages webs pertinentes pour un
requˆete donn´ee, a ´et´e adapt´ee `a l’extraction de synonymes `a partir d’un
dictionnaire par [5] puis appliqu´ee au TLFi par [12].
Enfin, un troisi`eme type d’approche est fond´ee sur la saisie des relations
synonymiques issues de 7 dictionnaires classiques du fran¸cais (Bailly, Benac,
Du Chazaud, Guizot, Lafaye, Larousse et Robert)1. L’approche repose d’une
part sur la constitution de cliques et d’autre part sur la projection de ces
cliques dans un espace multidimmensionnel et visualis´e par projection sur
les composantes principales. Pour chaque mot, les cliques sont obtenues en
construisant le graphe des relations entre ce mot et ses synonymes dans la
ressource issue de la fusion des 7 dictionnaires. Ensuite, la recherche des
1La saisie des donn´ees et la production des fichiers correspondants a ´et´e effectu´ee `a
l’Institut National de la Langue Fran¸caise (INaLF).
4
sous-graphes complets de ce premier graphe permet d’obtenir les cliques.
Dans un deuxi`eme temps, la projection des cliques obtenues dans un espace
mutlidimensionnel et leur visualisation permet de faire ´emerger les diff´erents
sens d’un mot-vedette, chacun d’eux ´etant repr´esent´e par une ou plusieurs
cliques regroup´ees par la projection. Ainsi, pour l’entr´ee du mot maison,
Ploux et Victorri font ´emerger plusieurs sens parmi lesquels ”baraque”, ”ser-
viteur”, ”habitation”, ”foyer”, ”famille”. Chacun de ces sens est rep´erable
sous la forme de cliques, autrement dit sous la forme de regroupement de
mot-formes. Le sens de ”serviteur” par exemple regroupe les mots domesti-
cit´e, gens, domestique, etc alors que le sens de ”habitation” regroupe abri,
toit, domicile, demeure, logement, etc.
Approche adopt´ee. L’approche poursuivie dans Syn2diff`ere des approches
existantes en ce qu’elle repose sur deux types de dictionnaires : un diction-
naire g´en´eral (le TLFi) et des dictionnaires de synonymes. Nous tirons parti
de cette sp´ecificit´e pour ´eviter certains eccueils des approches existantes en
particulier :
L’utilisation de dictionnaires de synonymes comme source de cr´eation
d’un dictionnaire synonymique unique permet de garantir que les mots
regroup´es sont de fait des synonymes. En ce sens notre approche contraste
avec l’approche fond´ee sur corpus qui ´echoue fr´equemment `a distinguer
entre termes similaires et termes synoymes et regroupe fr´equement des
antonymes par exemple. Dans un moindre degr´e, la mˆeme critique s’ap-
plique ´egalement `a l’approche fond´ee sur les dictionnaires.
L’utilisation du TLFi permet de regrouper les synonymes par sens ce
qui, cette fois, contraste avec l’approche de Ploux et Victorri qui si
elle permet la formation de cliques correspondant `a des nuances de
sens, ne permet pas directement d’´etablir de fa¸con automatique les
sens principaux d’un mot.
Nous exploitons ces deux ressources en adoptant une approche hybride
utilisant `a la fois le contexte synonymique et le contexte d´efinitionnel d’un
verbe. Concr`etement, l’approche peut ˆetre r´esum´ee comme suit :
Pour chaque verbe V , il s’agit d’assigner chacun des synonymes
recens´es pour V dans les 5 dictionnaires de synonymes `a l’une
des d´efinitions list´ees pour V dans le TLFi.
En d’autres termes, l’objectif est de regrouper les synonymes d’un verbe
par sens, ces sens ´etant donn´es par les d´efinitions du TLFi.
Pour d´ecider du sens sur lequel rattacher un synonyme, nous utilisons les
d´efinitions du verbe consid´er´e et de son/ses synonyme(s). Ce regroupement
des synonymes par sens se fait selon le scema suivant :
5
1 / 16 100%

Syn – Création d`un lexique de synonymes verbaux - TALC

La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !