Syn2– Synonymie et Syntaxe
Claire Gardent et Evelyne Jacquey
11 mai 2007
1 Objectifs scientifiques
La langue naturelle a une expressivit´e forte qui permet d’exprimer un
mˆeme contenu de diff´erentes fa¸cons. Aussi, les syst`emes de Traitement Au-
tomatique des Langues (TAL) commencent-ils souvent par abstraire des
diff´erences surfaciques en calculant une repr´esentation plus ou moins pr´ecise
du sens des textes i.e., une repr´esentation conceptuelle. Cette repr´esentation
permettra en particulier, d’interpr´eter les synonymes voler et erober comme
d´enotant le mˆeme concept.
Dans ce contexte, le projet Syn2vise `a mod´eliser le syst`eme des concepts
´evoqu´es par les verbes du fran¸cais. Plus sp´ecifiquement, il s’agit d’une part,
de d´evelopper une m´ethode permettant d’identifier les concepts li´es aux
verbes et d’autre part, de relier les concepts identifi´es `a un lexique morpho-
syntaxique des verbes du fran¸cais. A moyen terme, cette m´ethode devrait
permettre la cr´eation d’une ressource permettant aux syst`emes de TAL de
raisonner sur le sens des verbes e.g., de d´etecter que la phrase Jean d´erobe
une pomme est une r´eponse `a la question Jean a-t’il pris une pomme ?.
Identifier les concepts li´es aux verbes. Pour le verbe parler, le diction-
naire alphab´etique et analogique de la langue fran¸caise [?] liste les distinctions
de sens et les synonymes suivants :
voler :
1.1.1. s’envoler, planer, voleter, voltiger.
1.1.2. survoler.
1.1.3. flotter, soulever.
1.1.4. courir, se presser, convoler.
1.1.5. fuir.
1.2. voler.
2.1.1. s’approprier, butiner (vx),d´erober, faire dispara^ıtre,
1
s’emparer, escamoter, filouter, friponner (vx), marauder, piller,
prendre, ravir, soustraire, subtiliser, barboter(fam.), calotter (fam.),
carotter (fam.), chaparder (fam.), chauffer(vx), chiper, choper,
chouraver (argot), faire, faucher, grapiller,gratter, piquer,
rafler, ratiboiser, refaire, repasser, soulager de,subtiliser,
etourner, emmener, eemporter, enlever, kidnapper, brigander (vx),
cambrioler, griveler.
2.1.2. usurper, d´erober.
2.1.3. s’attribuer,copier, plagier.
2.2.1. arnaquer (fam.), cambrioler, carotter, d´elester,
epouiller, d´etrousser, d´evaliser, empaumer (vieilli), escroquer,
estamper, flibuster, flouer, gruger, piller, rouler.
2.2.2. exploiter, tromper, arranger, ´ecorcher, empiler, ent^oler,
´etriller, tondre,frustrer.
Intuitivement, un dictionnaire analogique donne donc `a la fois les concepts
associ´es `a un verbe (identification de plusieurs sens possibles) et l’ensemble
des verbes associ´es `a chacun de ces concepts (listes de synonymes).
L’objectif de cette partie du projet est de d´evelopper une m´ethode per-
mettant de fusionner de fa¸con automatique 5 des 7 dictionnaires analogiques
disponibles dans la base des synonymes de l’ATILF `a savoir [?,?,?,?,?]. En
effet, les cinq dictionnaires ne proposent g´en´eralement ni le mˆeme d´ecoupage
en sens, ni le mˆeme ensemble de synonymes. Certains dictionnaires ´etablissent
en outre une relation entre sens et cat´egorie syntaxique (nom, verbe, ad-
jectif), d’autres non. La fusion de plusieurs dictionnaires devrait permettre
d’une part, d’augmenter la couverture (nombre de concepts et de synonymes
identifi´es) et d’autre part, d’am´eliorer la qualit´e du lexique r´esultant (infor-
mation sur les concepts, les synonymes mais ´egalement sur leurs propri´et´es
syntaxiques comme la cat´egorie ou le cadre de sous cat´egorisation).
Relier concepts et lexique syntaxique verbal. Afin de pouvoir acc´eder
aux concepts ´evoqu´es par une phrase, il est n´ecessaire pour un syst`eme de
TAL, de disposer d’un lexique syntaxico-s´emantique reliant mots, informa-
tion syntaxique et information conceptuelle.
Id´ealement, l’entr´ee d’un verbe dans un tel lexique listera l’ensemble des
usages possibles d’un verbe c-`a-d, l’ensemble des paires (sous-cat,syn) o`u
sous-cat caract´erise les arguments r´egis par le verbe et syn est l’ensemble
des synonymes correspondants.
Si un tel lexique n’existe pas pour le fran¸cais `a l’heure actuelle, des tra-
vaux r´ecents ont donn´e lieu `a l’apparition de plusieurs lexiques syntaxiques
librement disponibles `a savoir DicoValence [?], Lefff [?] et SynLeX [?].
2
Ces lexiques visent `a sp´ecifier pour chaque verbe du fran¸cais l’ensemble des
cadres de sous-cat´egorisation permis pour ce verbe. Par exemple, l’entr´ee de
Lefff pour le verbe voler est :
voler v[pred=’voler<suj:sn>’,@avoir,cat=v]
voler v[pred=’voler<suj:sn,obj:sn,obja:`a-sn>’,@avoir,cat=v]
voler v[pred=’voler<suj:sn,obj:sn>’,@avoir,cat=v]
voler v[pred=’voler<suj:sn,obja:`a-sn>’,@avoir,cat=v]
voler v[pred=’voler<suj:sn>’,@avoir,cat=v]
Comme on le voit, ce type de lexique ne contient aucune information
s´emantique et ne permet en particulier, ni de distinguer les diff´erents sens
d’un verbe, ni de les associer aux cadres syntaxiques correspondant (voler-fly
est un verbe intransitif i.e., sans compl´ement objet tandis que voler-steal est
un verbe transitif).
L’objectif de cette deuxi`eme partie sera donc de mettre au point une
m´ethodologie permettant de compl´eter de fa¸con semi-automatique un lexique
syntaxique du fran¸cais avec une information s´emantique. Plus pr´ecis´ement, il
s’agira de structurer ce lexique en regroupant les entr´ees d’un verbe relevant
du mˆeme concept puis d’associer `a ces entr´ees les synonymes appropri´es.
2 Etat de l’art
Parmi les travaux portant sur le traitement de la synonymie verbale en
fran¸cais, deux grandes approches pour le TAL se d´egagent : DicoSyn et le
module pour le fran¸cais de EuroWordNet
DicoSyn DicoSyn est un dictionnaire de synonymes ´electronique consul-
table en ligne http://elsap1.unicaen.fr/dicosyn.html. Il contient ap-
proximativement 49 000 entr´ees et 396 000 relations synonymiques. Ce dic-
tionnaire est fond´e sur la saisie des relations synonymiques issues de 7 dic-
tionnaires classiques du fran¸cais (Bailly, Benac, Du Chazaud, Guizot, Lafaye,
Larousse et Robert)1. Les relations synonymiques issues de ce premier travail
ont ´et´e regroup´ees et homog´en´eis´ees. Enfin, cette ressource a ´et´e compl´et´ee
d’un cˆot´e par un important travail de correction (adjonction, suppression
de relations synonymiques) et d’un autre cˆot´e par la r´ealisation d’´etudes et
d’outils permettant de visualiser les espaces s´emantiques de chaque mot en
entr´ee du dictionnaire.
1La saisie des donn´ees et la production des fichiers correspondants a ´et´e effectu´ee `a
l’Institut National de la Langue Fran¸caise (INaLF).
3
Le principe de structuration s´emantique des entr´ees de ce dictionnaire
repose d’une part sur la constitution de cliques et d’autre part sur la pro-
jection de ces cliques dans un espace multidimmensionnel et visualis´e par
projection sur les composantes principales. Pour chaque mot, les cliques sont
obtenues en construisant le graphe des relations entre ce mot et ses syno-
nymes dans la ressource issue de la fusion des 7 dictionnaires. Ensuite, la
recherche des sous-graphes complets de ce premier graphe permet d’obtenir
les cliques. Dans un deuxi`eme temps, la projection des cliques obtenues dans
un espace mutlidimensionnel et leur visualisation permet de faire ´emerger les
diff´erents sens d’un mot-vedette, chacun d’eux ´etant repr´esent´e par une ou
plusieurs cliques regroup´ees par la projection. Ainsi, pour l’entr´ee du mot
maison, Ploux et Victorri font ´emerger plusieurs sens parmi lesquels ”ba-
raque”, ”serviteur”, ”habitation”, ”foyer”, ”famille”. Chacun de ces sens est
rep´erable sous la forme de cliques, autrement dit sous la forme de regroupe-
ment de mot-formes. Le sens de ”serviteur” par exemple regroupe les mots
domesticit´e, gens, domestique, etc alors que le sens de ”habitation” regroupe
abri, toit, domicile, demeure, logement, etc.
Si DicoSyn permet de se faire une id´ee synth´etique de la structure s´e-
mantique d’un mot du fran¸cais, la d´etermination de la structure s´emantique
d’un mot d´epend de la capacit´e du chercheur `a comprendre la projection dans
un espace multidimensionnel et sa visualisation en composantes principales.
Les concepteurs de la ressource soulignent eux-mˆemes que les r´esultats varient
beaucoup en fonction des plans de projection choisis pour la visualisation.
Par ailleurs, DicoSyn ne permet ni d’avoir acc`es aux synynoymes d’un
verbe, ni d’en connaitre la sous-cat´egorisation. En effet, la proedure infor-
matique utilis´ee pour obtenir les cliques, perd les distinctions cat´egorielles,
les nuances s´emantiques ainsi que la structuration en sens pr´esente dans les
ressources initiales. Autrement dit, les relations de synonymie sont ´etablies
entre des mot-formes et non entre des lexies (appariement univoque forme-
sens). Enfin, les distinctions cat´egorielles ´etant perdues, il est difficilement
envisageable d’exploiter cette ressource dans la perspective de constituer un
lexique syntaxique et s´emantique.
EuroWordNet et son module pour le fran¸cais Construit dans le cadre
du consortium EuroWordNet, le module WordNet pour le fran¸cais (FR-
EWN) compte 18 777 entr´ees r´eparties en 14 879 entr´ees nominales et 3
898 entr´ees verbales. Chaque sens de chaque entr´ee ´etant repr´esent´e par un
”synset” (ensemble de sens synonymes), ce module contient 24 499 sens de
substantifs, soit 1,65 sens par entr´ee nominale en moyenne, et 8 310 sens de
verbes, soit 2,13 sens par entr´ee verbale en moyenne.
4
Le mode de constitution de ce module fran¸cais a ´et´e sensiblement le mˆeme
que pour l’ensemble des autres langues repr´esent´ees dans le consortium EWN
(allemand, espagnol, hollandais, tch`eque, etc) : d’une part, on a d´efini des
hi´erarchies conceptuelles de haut niveau ; d’autre part, on a cherch´e `a faire
´emerger `a partir de donn´ees attest´ees (dictionnaires, corpus) les sens, les
lex`emes et les concepts correspondants. Le r´esultat de ces recherches a permis
de produire le module FR-EWN qui est commercialis´e par ELDA.
Le module fran¸cais de EuroWordNet documente donc entre autre, les
relations de synonymies entre verbes du fran¸cais. N´eanmoins, il pr´esente
plusieurs lacunes. Premi`erement, c’est une ressource commercialis´ee et ex-
ploitable via le logiciel Polaris, format propri´etaire. Deuxi`emement, on peut
souligner l’h´et´erog´en´eit´e de la finesse du d´ecoupage s´emantique et de la cou-
verture linguistique de cette ressource [?] : certaines entr´ees comportent des
distinctions de sens trop pr´ecises alors que d’autres champs conceptuels sont
tout simplement absents. Troisi`emement, comme le dictionnaire DicoSyn, le
module fran¸cais d’EuroWordNet, ne fait aucun lien avec la syntaxe.
R´esum´e et motivations pour une nouvelle exp´erience En r´esum´e, ni
DicoSyn, ni FR-EWN ne fournissent une base satisfaisante pour le trai-
tement automatique de la synonymie verbale. DicoSyn traite des formes
plutˆot que des lexies et FR-EWN pr´esente une granularit´e de sens tr`es
irr´eguli`ere. En outre, les deux approches ´echoue `a faire le lien entre syntaxe
(sous-cat´egorisation) et s´emantique (synonymes).
Face `a ce constat, et dans la mesure o`u le besoin d’une ressource synony-
mique en fran¸cais existe notamment dans la communaut´e du TAL, nous nous
proposons de d´efinir et mettre au point une m´ethodologie de constitution de
ressource qui prend pour point de d´epart la base des synonymes de l’ATILF.
3 M´ethodologie et Programme de travail
Le travail prendra pour base trois ressources pour le TAL, `a savoir, la base
des synonymes de l’ATILF, le TLFI et les lexiques syntaxiques disponibles (
Lefff,SynLeX et DicoValence).
Les m´ethodes utilis´ees sont des m´ethodes statistiques coupl´ees avec une
validation manuelle `a travers une interface de validation conviviale et multi-
utilisateurs (service web).
Le programme de travail se d´ecompose en deux grandes phases corres-
pondant aux objectifs sp´ecifi´es dans la section 1.
5
1 / 9 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !