Syn – Création d`un lexique de synonymes verbaux - TALC

publicité
Syn2 – Création d’un lexique de synonymes
verbaux
Evelyne Jacquey, Ingrid Falk
30 octobre 2007
1
Résumé des objectifs de l’opération
La langue naturelle a une expressivité forte qui permet d’exprimer un
même contenu de différentes façons. Aussi, les systèmes de Traitement Automatique des Langues (TAL) commencent-ils souvent par abstraire des
différences surfaciques en calculant une représentation plus ou moins précise
du sens des textes i.e., une représentation conceptuelle. Cette représentation
permet, par exemple, d’interpréter les synonymes voler et dérober comme
dénotant le même concept.
Dans ce contexte, le projet Syn2 vise à modéliser le système des concepts
évoqués par les verbes du français. Plus spécifiquement, il s’agit d’une part,
de développer une méthode permettant d’identifier les concepts liés aux
verbes et d’autre part, de relier les concepts identifiés à un lexique morphosyntaxique des verbes du français. A moyen terme, cette méthode devrait
permettre la création d’une ressource permettant aux systèmes de TAL de
raisonner sur le sens des verbes e.g., de détecter que la phrase Jean dérobe
une pomme est une réponse à la question Jean a-t’il pris une pomme ?.
Identifier les concepts liés aux verbes. Pour le verbe parler, le dictionnaire alphabétique et analogique de la langue française [11] liste les distinctions de sens et les synonymes suivants :
voler :
1.1.1. s’envoler, planer, voleter, voltiger.
1.1.2. survoler.
1.1.3. flotter, soulever.
1.1.4. courir, se presser, convoler.
1.1.5. fuir.
1
1.2. voler.
2.1.1. s’approprier, butiner (vx),dérober, faire dispara^
ıtre,
s’emparer, escamoter, filouter, friponner (vx), marauder, piller,
prendre, ravir, soustraire, subtiliser, barboter(fam.), calotter (fam.),
carotter (fam.), chaparder (fam.), chauffer(vx), chiper, choper,
chouraver (argot), faire, faucher, grapiller,gratter, piquer,
rafler, ratiboiser, refaire, repasser, soulager de,subtiliser,
détourner, emmener, eemporter, enlever, kidnapper, brigander (vx),
cambrioler, griveler.
2.1.2. usurper, dérober.
2.1.3. s’attribuer,copier, plagier.
2.2.1. arnaquer (fam.), cambrioler, carotter, délester,
dépouiller, détrousser, dévaliser, empaumer (vieilli), escroquer,
estamper, flibuster, flouer, gruger, piller, rouler.
2.2.2. exploiter, tromper, arranger, écorcher, empiler, ent^
oler,
étriller, tondre,frustrer.
Intuitivement, un dictionnaire analogique donne donc accès à la fois aux
concepts associés à un verbe (identification de plusieurs sens possibles) et à
l’ensemble des verbes associés à chacun de ces concepts (listes de synonymes).
L’objectif de cette partie du projet a donc été de développer une méthode
permettant de fusionner de façon automatique 5 des 7 dictionnaires analogiques disponibles dans la base des synonymes de l’ATILF à savoir [7, 4, 8,
11, 14]. En effet, les cinq dictionnaires ne proposent généralement ni le même
découpage en sens, ni le même ensemble de synonymes. Certains dictionnaires
établissent en outre une relation entre sens et catégorie syntaxique (nom,
verbe, adjectif), d’autres non. La fusion de plusieurs dictionnaires devait permettre d’une part, d’augmenter la couverture (nombre de concepts et de synonymes identifiés) et d’autre part, d’améliorer la qualité du lexique résultant
(information sur les concepts, les synonymes mais également sur leurs propriétés syntaxiques comme la catégorie ou le cadre de sous catégorisation).
Relier concepts et lexique syntaxique verbal. Afin de pouvoir accéder
aux concepts évoqués par une phrase, il est nécessaire, pour un système de
TAL, de disposer d’un lexique syntaxico-sémantique reliant mots, information syntaxique et information conceptuelle.
Idéalement, l’entrée d’un verbe dans un tel lexique listera l’ensemble des
usages possibles d’un verbe c-à-d, l’ensemble des paires (sous-cat,syn) où
sous-cat caractérise les arguments régis par le verbe et syn est l’ensemble
des synonymes correspondants.
2
Si un tel lexique n’existe pas pour le français à l’heure actuelle, des travaux récents ont donné lieu à l’apparition de plusieurs lexiques syntaxiques
librement disponibles à savoir DicoValence [16], Lefff [6] et SynLeX [9].
Ces lexiques visent à spécifier pour chaque verbe du français l’ensemble des
cadres de sous-catégorisation permis pour ce verbe. Par exemple, l’entrée de
Lefff pour le verbe voler est :
voler
voler
voler
voler
voler
v[pred=’voler<suj:sn>’,@avoir,cat=v]
v[pred=’voler<suj:sn,obj:sn,obja:à-sn>’,@avoir,cat=v]
v[pred=’voler<suj:sn,obj:sn>’,@avoir,cat=v]
v[pred=’voler<suj:sn,obja:à-sn>’,@avoir,cat=v]
v[pred=’voler<suj:sn>’,@avoir,cat=v]
Comme on le voit, ce type de lexique ne contient aucune information
sémantique et ne permet, en particulier, ni de distinguer les différents sens
d’un verbe, ni de les associer aux cadres syntaxiques correspondant (voler-fly
est un verbe intransitif i.e., sans complément objet tandis que voler-steal est
un verbe transitif).
L’objectif de cette deuxième partie sera donc de mettre au point une
méthodologie permettant de compléter de façon semi-automatique un lexique
syntaxique du français avec une information sémantique. Plus précisément, il
s’agira de structurer ce lexique en regroupant les entrées d’un verbe relevant
du même concept puis d’associer à ces entrées les synonymes appropriés.
2
Travaux effectués en 2007
Durant les premiers 7 mois, le travail s’est concentré sur l’acquisition d’un
lexique de synonymes pour les verbes du français. Les travaux effectués ont
porté sur :
– la définition d’une méthodologie pour l’acquisition, à partir de 5 dictionnaires de synonymes et du TLFi, d’un lexique de synonymes
– la spécification d’une méthode d’évaluation pour le lexique créé
– l’installation et l’adaptation de différents logiciels permettant le calcul
de similarité entre fragments de texte
2.1
Création automatique d’un lexique de synonymes
L’objectif est de créer, à partir du TLFi et de 5 dictionnaires de synonymes
existants, un dictionnaire de verbes unique où chaque verbe est associé avec
un ensemble de sens et chaque sens avec un ensemble de synonymes. Pour
ce faire, nous avons commencé par examiner les différents types d’approches
3
présents dans la litérature. Nous avons ensuite spécifié une méthode adaptée
aux sources dont nous disposons à savoir, les 5 dictionnaires de synonymes
et le TLFi.
Approches existantes On peut identifier trois grands types d’approches
permettant la construction d’un lexique de synonymes : les approches fondées
sur les corpus, les approches fondées sur les dictionnaires généraux et les approches fondées sur les dictionnaires de synonymes. Toutes ces approches
reposent sur l’idée que les synonymes partagent des contextes communs.
Elles diffèrent cependant par le type de contexte qu’elles mettent en jeu : le
contexte d’usage pour l’approche fondée sur les corpus ; le contexte définitionnel
pour l’approche fondée sur l’usage d’un dictionnaire général ; et le contexte
synonymique pour l’approche se fondant sur des bases de synonymes.
Dans l’approche fondée sur les corpus [10], l’hypothèse de base est que les
mots similaires apparaissent dans les mêmes contextes d’usage. Différentes
approches ont été explorées qui varient selon la nature du contexte considéré
(document dans lequel le mot apparaı̂t, mots avoisinants, contexte grammatical, etc.) et/ou la fonction de similarité utilisée.
L’approche fondée sur les dictionnaires [12] regroupe les synonymes d’un
mot m sur la base des mots compris dans la définition de m et des mots
définis par m. Dans cette approche, un graphe est construit à partir du
dictionnaire tel que chaque mot m est un noeud du graphe ayant pour arcs
sortants des arcs pointant sur les mots entrant dans les définitions de m
et pour arcs entrants, les arcs sortant des mots dont la définition contient
m. Chaque noeud du graphe est ensuite associé par un processus itératif
convergent à un rang qui est utilisé pour mesurer, dans le graphe de voisins
d’un mot, ses voisins les plus proches. Cette approche, inspirée de l’algorithme
de John Kleinberg pour l’extraction des pages webs pertinentes pour un
requête donnée, a été adaptée à l’extraction de synonymes à partir d’un
dictionnaire par [5] puis appliquée au TLFi par [12].
Enfin, un troisième type d’approche est fondée sur la saisie des relations
synonymiques issues de 7 dictionnaires classiques du français (Bailly, Benac,
Du Chazaud, Guizot, Lafaye, Larousse et Robert)1 . L’approche repose d’une
part sur la constitution de cliques et d’autre part sur la projection de ces
cliques dans un espace multidimmensionnel et visualisé par projection sur
les composantes principales. Pour chaque mot, les cliques sont obtenues en
construisant le graphe des relations entre ce mot et ses synonymes dans la
ressource issue de la fusion des 7 dictionnaires. Ensuite, la recherche des
1
La saisie des données et la production des fichiers correspondants a été effectuée à
l’Institut National de la Langue Française (INaLF).
4
sous-graphes complets de ce premier graphe permet d’obtenir les cliques.
Dans un deuxième temps, la projection des cliques obtenues dans un espace
mutlidimensionnel et leur visualisation permet de faire émerger les différents
sens d’un mot-vedette, chacun d’eux étant représenté par une ou plusieurs
cliques regroupées par la projection. Ainsi, pour l’entrée du mot maison,
Ploux et Victorri font émerger plusieurs sens parmi lesquels ”baraque”, ”serviteur”, ”habitation”, ”foyer”, ”famille”. Chacun de ces sens est repérable
sous la forme de cliques, autrement dit sous la forme de regroupement de
mot-formes. Le sens de ”serviteur” par exemple regroupe les mots domesticité, gens, domestique, etc alors que le sens de ”habitation” regroupe abri,
toit, domicile, demeure, logement, etc.
Approche adoptée. L’approche poursuivie dans Syn2 diffère des approches
existantes en ce qu’elle repose sur deux types de dictionnaires : un dictionnaire général (le TLFi) et des dictionnaires de synonymes. Nous tirons parti
de cette spécificité pour éviter certains eccueils des approches existantes en
particulier :
– L’utilisation de dictionnaires de synonymes comme source de création
d’un dictionnaire synonymique unique permet de garantir que les mots
regroupés sont de fait des synonymes. En ce sens notre approche contraste
avec l’approche fondée sur corpus qui échoue fréquemment à distinguer
entre termes similaires et termes synoymes et regroupe fréquement des
antonymes par exemple. Dans un moindre degré, la même critique s’applique également à l’approche fondée sur les dictionnaires.
– L’utilisation du TLFi permet de regrouper les synonymes par sens ce
qui, cette fois, contraste avec l’approche de Ploux et Victorri qui si
elle permet la formation de cliques correspondant à des nuances de
sens, ne permet pas directement d’établir de façon automatique les
sens principaux d’un mot.
Nous exploitons ces deux ressources en adoptant une approche hybride
utilisant à la fois le contexte synonymique et le contexte définitionnel d’un
verbe. Concrètement, l’approche peut être résumée comme suit :
Pour chaque verbe V , il s’agit d’assigner chacun des synonymes
recensés pour V dans les 5 dictionnaires de synonymes à l’une
des définitions listées pour V dans le TLFi.
En d’autres termes, l’objectif est de regrouper les synonymes d’un verbe
par sens, ces sens étant donnés par les définitions du TLFi.
Pour décider du sens sur lequel rattacher un synonyme, nous utilisons les
définitions du verbe considéré et de son/ses synonyme(s). Ce regroupement
des synonymes par sens se fait selon le schéma suivant :
5
1. Pour chaque verbe v 2 et pour chaque définition defvi de ce verbe, on
extrait l’(( index )) Idefvi de defvi c’est-à-dire l’ensemble de lemmes correspondant aux mots pleins de la définition (verbe, adjectifs, noms,
adverbes).
2. Pour chaque synonyme synjv de v, on extrait l’indexe Isynjv des définitions
de synjv (l’ensemble de lemmes correspondant aux mots pleins de l’ensemble des définitions du synonyme)
3. Pour chaque paire hIdefvi , Isynjv i, on mesure la similarité entre l’index
Idefvi de la définition defvi et l’index Isynjv du synonyme synjv
4. Le synonyme est rattaché à la définition (le sens de v) pour lequel la
similarité entre Idefvi et Isynjv est maximum.
A partir de ce schéma général, nous avons défini plusieurs approches possibles qui se différencient en fonction du pré-traitement des définitions du
TLFi, du partitionnement des données initiales et du type de mesure de
similarité utilisées.
Prétraitement des données TLFi. Les définitions peuvent être utilisées
soit brutes (on considère uniquement les mots contenus entre deux balises
de définitions) ou enrichies (par l’héritage d’information venant des niveaux
supérieurs de l’entrée dictionnairique, par l’information périphérique donné
par le TLFi pour la définition ou encore par les mots que le verbe considéré
sert à définir).
Partitionnement des données. Du fait de la variabilité de la langue,
comparer une définition avec les sens d’un synonyme unique risque de donner des résultats décevants. En effet, le calcul de similarité se fait alors
entre les mots entrant dans la définition considérée et ceux entrant dans la
définition des sens possibles du synonymes. Ces ensembles de mots étant relativement petits et le TLFi utilisant un un vocabulaire relativement riche, il
est fort probable que l’intersection des mots présents dans les définitions comparées soit faible du fait en particulier, des variations morphologiques (chanter/chanson/chant) ou lexicales (hyponyme/hyperonyme, mot/synonyme, mot/antonyme, etc.). Nous projetons donc de comparer deux méthodes : l’une
traitant les synonymes un à un (ci-dessus) et l’autre cherchant à rattacher un
paquet de synonymes (plutot qu’un synonyme unique) à un sens. Ces paquets
étant de taille et de nombre variable d’un dictionnaire à l’autre, nous envisageons également une approche hybride qui combine les deux méthodes de
2
Seuls les verbes présents à la fois dans le TLFi et dans la base de synonymes sont
considérés.
6
la façon suivante. Lorsque le nombre de paquets de synonymes approxime le
nombre de définitions donnés pour le verbe considéré par le TLFi, le rattachement des synonymes se ferait par paquet. Inversement, lorsque le nombre de
paquets de synonyes diffère trop fortement du nombre de définitions présentes
dans le TLFi, le rattachement se ferait par synonymes.
Mesures de similarité. La similarité entre fragments textuels est un domaine de recherche très actif et de nombreuses mesures de similarité peuvent
être utilisées telles que par exemple, le nombre de mots communs aux deux
fragments (word overlap), le nombre de contextes communs aux mots intervenant dans les deux fragments (second order vectors), le nombre de mots (( importants )) communs (Analyse sémnatique latente), etc. Ces mesures peuvent
également faire ou non intervenir une information fréquentielle sur les termes
considérés (fréquence relative des termes dans le dictionnaire, tf.idf, etc.) où
des listes rouges (stop lists) permettant d’exclure de l’analyse les mots dont
le contenu informationnel est faible.
Afin de comparer les différentes mesures de similarité et d’expérimenter
avec les données (pré-traitement plus ou moins fin des définitions du TLFi,
partitionnement des données, etc.), il est cependant nécessaire de disposer d’un lexique de référence. Nous abordons dans la prochaine section, les
problèmes qui se sont posés lors de la création de ce lexique et décrivons en
section 4 comment nous comptons pallier ce problème.
2.2
Evaluation
Afin de déterminer quelle approche est la plus adéquate pour la création
automatique d’un dictionnaire de synonymes, nous avons réalisé une matrice dans laquelle les lignes correspondent à chacune des définitions de ce
verbe dans le TLFi et dans laquelle chaque colonne correspond à l’un des
synonymes associés à ce verbe à la suite de la fusion des cinq dictionnaires
de synonymes. On obtient ainsi une matrice de 8 lignes de définitions par
42 colonnes contenant un verbe synonyme. A l’intérieur de cette matrice,
chaque lexicographe a évalué la plausibilité d’un lien synonymique entre une
définition du verbe organiser et l’un des synonymes proposé. Les réponses
possibles étaient oui (le lien de synonymie est correct) ou non (le lien de
synonymie est incorrect ou l’évaluateur ne peut statuer sur la question). Afin
de faciliter la tâche d’évaluation, un exemple illustratif de chaque définition
a été repris dans le TLFi et dans cet exemple, le test de substitution était
appliqué.
Le résultat de cette première tentative de création d’un lexique de référence
est insatisfaisant : le mesure de l’accord inter-annotateurs est mauvaise. Ce
7
résultat a été analysé et nous a permis de préparer une nouvelle campagne
d’évaluation. Deux éléments majeurs nous semblent responsables.
1. Comparaison entre une définition et un mot synonyme : la polysémie constatée dans les langues naturelles s’appuie pour une part
important sur la polysémie de ses unités lexicales, en gros des mots
vedette, entrées d’un dictionnaire. De ce fait, le jugement de plausibilité d’un lien de synonymie entre un ”mot” et une définition est très
difficile : quel sens du mot compare-t-on à la définition ?
2. Définitions du TLFi : Le TLFi est un dictionnaire à usage humain dans lequel l’information est structurée de deux manières caractéristiques : premièrement, l’information sémantique apparaı̂t dans
différents objets lexicographiques, pas seulement dans la définition ;
deuxièmement, l’information est hiérarchisée et peut-être, selon les entrées
dans le dictionnaire, factorisée.
Ces deux éléments seront pris en compte dans la prochaine campagne d’évaluation.
2.3
Implantation
Le travail théorique de définition d’une méthode de construction et d’évaluation
du dictionnaire s’est accompagné de divers travaux d’implantation nécessaires
à la mise en place d’une infrastructure logicielle permettant le traitement des
données et en particulier :
– La création d’un échantillon de 27 verbes sur lequel portera l’évaluation.
Ces 27 verbes représentent toutes les combinaisons possibles de haute/moyenne/basse
fréquence/polysémie/généralité et ont été identifiés par des calculs automatiques fondés sur
– la liste des fréquences des verbes du corpus Le Monde.
– la relation de hyper/hyponymie dans EuroWordNet.
– le nombre de définitions du TLFi.
– L’implantation de scripts permettant l’extraction des entrées verbales
des 6 dictionnaires (TLFi et dictionnaires de synonymes) et le traitement des données par différentes mesures de similarité
– L’installation de différents logiciels permettant le calcul de similarité
et leur adaptation aux données
– le nombre de mots présents dans chacun des deux indexes comparés
(simple and extended word overlap, Modules Perl WordNet::Similarity,
[2, 3].
– le nombre de mots communs entre les définitions des lemmes intervenant dans les deux indexes comparés (Second Order Gloss Vectors,
Modules Perl WordNet::Similarity, [15, 13])
8
Fig. 1 – Les groupes de synonymes et leurs attribution aux définitions pour
le verbe dépenser.
– le nombre de mots “importants” commun aux deux indexes (Latent
semantic analysis, Infomap-NLP logiciels développés par l’équipe
CSLI de Stanford, [17, 1])
3
Résultats obtenus
Au terme de 7 mois de projet, les acquis sont les suivants :
– Mise au point d’une procédure de création d’un dictionnaire sens/synonymes
prenant comme sources le TLFi et 5 dictionnaires de synonymes
– Mise en place de l’infrastructure logicielle nécessaire à la mise en oeuvre
de cette procédure (et de ses variantes)
– Première tentative de création d’un lexique de référence
Pour illustration, la Figure 1 donne un exemple de sortie pour le verbe
dépenser. Pour chaque groupe de synonymes (première colonne), on calcule sa
(( similarité )) selon une mesure donnée (couleur) par rapport aux définitions
du verbe. Ensuite, ces valeurs sont rangées – le groupe le plus (( proche ))
d’une définition aura une valeur d’1 dans la cellule correspondante.
9
4
Programme de travail pour 2008
Les objectifs du projet pour l’année 2008 sont les suivants :
1. Finalisation d’un lexique de référence
2. Comparaison, évaluation et adaptation des différentes méthodes de rattachement synonyme/sens
3. Application de la meilleure méthode à la création, à partir du TLFi
et de la base des synonymes de l’ATILF, d’un lexique regroupant les
synonymes d’un verbe par sens
4. Mise à disposition de ce lexique par le CNRTL et intégration dans la
platerforme et le labo TALC
5. Mise au point d’une procédure permettant de lier les entrées du lexique
de synonymes créé par Syn2 aux entrées du lexique de sous-catégorisation
créé par BDSyn.
4.1
Création d’un lexique de référence
On rappelle les deux éléments majeurs, responsables de l’accord interannotateurs instatisfaisant dans la première campagne d’évaluation destinée
à réaliser un échantillon de référence :
1. Comparaison entre une définition et un mot synonyme : la polysémie constatée dans les langues naturelles s’appuie pour une part
important sur la polysémie de ses unités lexicales, en gros des mots
vedette, entrées d’un dictionnaire. De ce fait, le jugement de plausibilité d’un lien de synonymie entre un ”mot” et une définition est très
difficile : quel sens du mot compare-t-on à la définition ?
2. Définitions du TLFi : Le TLFi est un dictionnaire à usage humain dans lequel l’information est structurée de deux manières caractéristiques : premièrement, l’information sémantique apparaı̂t dans
différents objets lexicographiques, pas seulement dans la définition ;
deuxièmement, l’information est hiérarchisée et peut-être, selon les entrées
dans le dictionnaire, factorisée.
Afin de prendre en compte ces deux éléments, la méthodologie pour
réaliser un lexique de référence a été raffinée de la manière suivante :
– Comparaison entre une définition et un ensemble de synonyme : en observant plus attentivement les cliques fournies par DicoSyn et en collaboration avec Fabienne Venant, récemment récrutée
dans l’équipe TALARIS et qui a effectué ses recherches de doctorat sur
10
ce dictionnaire de synonymes, on peut constater que le sens d’un ensemble de synonymes est mieux contraint, donc moins polysémie, que le
sens d’une unité lexicale extraite de cet ensemble de synonymes. Dans
la prochaine campagne d’évaluation, ce seront donc les différents ensembles de synonymes fournis par chacun des cinq dictionnaires de la
base de synonymes de l’ATILF qui seront comparés à chaque définition
du mot vedette dans le TLFi, et non plus une définition et un mot
synonyme proposé.
– Restructuration de l’information lexicographique du TLFi :
Afin de prendre en compte la distribution de l’information parmi différents
types d’objets lexicographiques ainsi que la factorisation de cette information dans certaines entrées, les entrées d’un échantillon de référence
seront restructurées manuellement. Cette restructuration vise d’une
part à rassembler l’information si celle-ci est distribuée, en quelque sorte
à “décorer” la définition avec l’ensemble des informations que les lexicographes du dictionnaire avaient jugées nécessaire de donner. D’autre
part, lorsque l’information est factorisée et représentée de manière hiérarchique,
celle-ci est héritée, le cas échéant, vers les niveaux inférieurs. Ainsi,
chaque emploi d’un verbe de l’échantillon de référence sera décrit par
un ensemble d’informations autonomes et l’ensemble des emplois ainsi
représentés seront fournis sous la forme d’un tableau synthétique
Ainsi, pour le verbe calmer par exemple, les annotateurs recevront deux
types d’informations. Le premier correspondra pour chaque verbe du futur
lexique de référence à la représentation restructurée de l’information du TLFi
relative à chaque sens/emploi de ce verbe ; dans le cas du verbe calmer,
on détermine ainsi 12 sens/emplois. Le second type correspondra à tous les
appariemments possibles entre un sens du verbe étudié et les ensembles de
synonymes proposés : chaque colonne correspondra à l’un des sens du verbe
dont on cherche à déterminer et structurer l’ensemble des synonymes de la
base ; chaque ligne correspondra à l’un des ensembles distincts de synonymes
tels qu’ils sont fournis par la base des synonymes de l’ATILF pour les cinq
dictionnaires choisis : Bailly, Benac, Du Chazaud, Larousse, Robert. Dans le
cas du verbe calmer, la base fournit de un unique ensemble de synonymes à
trois ensembles distincts au maximum.
Enfin, deux autres éléments vont être pris en compte.
Dans le TLFi, plusieurs indicateurs d’emploi fournissent une information
syntaxique importante relativement à la structuration de l’information dans
le base des synonymes, notamment la distinction entre emploi pronominal
et emploi non pronominal. Ensuite, le cas des locutions figées et semi-figées,
repérables automatiquement dans la version XML du TLFi, sera traité de
manière isolée et différente par rapport aux autres emplois dans une entrée
11
du TLFi.
Si l’on tient compte de l’ensemble de ces éléments, la restructuration de
l’information lexicographique du TLFi produira pour chaque entrée du futur
lexique de référence au maximum quatre représentations différentes en fonction : expressions figées de l’emploi pronominal du verbe, expressions figées
de l’emploi non pronominal du verbe, sens généraux de l’emploi pronominal
du verbe et sens généraux de l’emploi non pronominal du verbe.
4.2
Evaluation et choix d’une méthode d’acquisition
Une fois le lexique de référence créé, nous utiliserons des métriques classiques (précision et rappel) pour évaluer et comparer les différentes méthodes
évoquées dans la section 2.1. Nous étudierons en particulier l’impact des
éléments suivants sur les résultats :
– Prétraitement des définitions du TLFi : l’idée ici est d’examiner dans
quelle mesure l’enrichissement des définitions brutes par une information héritée des niveaux supérieurs des entrées dictionnairiques permet
d’améliorer les résultats
– Utilisation de l’information fréquentielle pour enrichir les données e.g.,
en utilisant le TF.IDF ou des stop lists pour éliminer des calculs les
mots peu informatifs
– Utilisation des différentes mesures de similarité disponibles
– Rattachement des synonymes : individuel, par paquet ou en approche
hybride (par paquet et individuellement selon les cas)
Les différentes méthodes mises au point seront exécutées sur l’échantillon
des 27 verbes présentés dans la section 2.3 et leur performance mesurées par
rapport au lexique de référence. La méthode donnant les meilleurs résultats
sera ensuite utilisée pour créer le lexique global à partir des verbes du TLFi
et de la base des synonymes de l’ATILF. La ressource ainsi créée sera intégrée
dans la plateforme et le labo TALC. Elle sera également mise à disposition
de la communauté par le biais du CNRTL.
4.3
Lien avec la syntaxe
En parallèle des travaux sur les synonymes, nous chercherons à définir
une méthode permettant de faire le lien entre les entrées du lexique de synonymes créé par Syn2 et le lexique syntaxique créé par BDSyn. Pour ce
faire, il conviendra dans un premier temps, d’établir l’inventaire des informations du TLFi permettant d’associer un cadre de sous-catégorisation à une
définition. Ce travail partira des résultats acquis par Evelyne Jacquey dans
12
le cadre du projet IDILES, projet CPER ILD-ISTC 2003 - 20053 . Dans un
deuxième temps,il s’agira de définir les corrspondances entre informations de
sous-catégorisation données par le TLFi et cadres utilisés dans BDSyn puis
d’utiliser ces correspondances pour faire le lien entre les entrées du lexique
de synonymes créé par Syn2 et le lexique syntaxique créé par BDSyn.
4.4
Échéancier
1. Création du lexique de référence [novembre à février]
2. Comparaison et examen des différentes approches [mars, avril]
3. Affinage de la meilleure approche [mai à septembre]
4. Application de l’approche optimisée à l’ensemble des verbes présents
à la fois dans le TLFi et la base de synonymes (Création d’un lexique
verbe/sens/synonymes) [octobre, novembre]
5. Mise en ligne par le CNRTL [novembre,décembre]
6. Mise au point d’une procédure permettant de relier sens et sous-catégorisation
[février à septembre]
7. Liage des entrées du lexique verbe/sens/synonymes au lexique syntaxique SynLex [septembre à décembre]
3
Ce projet a donné lieu à une communication dans le cadre de la journée ATALA sur
les lexiques syntaxiques du 12 mars 2005 : “Acquisition de cadres de sous-catégorisation
à partir du TLFi XML”, E. Jacquey et A-C. Naels.
13
Lex Réf
Comparaison
Affinage approche
Lexique
CNRTL
Méthode Sens/Syntaxe
5
Déc
Nov
Oct
Sep
Aoû
Juil
Juin
Mai
Avr
Mar
Fév
Jan
Lien syntaxe
Budget utilisé
Fonctionnement. Financement de 5 mois d’un acet scientifique (14 106
E) pour les travaux d’implémentation suivants :
1. pour chaque définition de verbe, création de l’indexe correspondant
2. implémentation des méthodes de calcul de similarité entre définitions
3. création d’une interface pour la construction de la ressource de référence
crée à partir des lexiques existants (service web)
Equipement. Achat d’un PC quadriprocesseur permettant de faire des
calculs complexes rapidement sur les masses de données contenues dans le
TLFi et la base des synonymes (4 692.67E)
Total (en Euros).
Coût Opération
Fonctionnement Equipement Total
14 106
4 692 18 798
14
6
Participants
– Pascale Bernard (IR CNRS), ATILF : Définition du lexique de référence
– Ingrid Falk, ACET scientifique (6 mois), LORIA/Talaris : Programmation ; Installation des logiciels pour les mesures de similarité ; Réalisation
des scripts de traitement et d’extraction
– Geneviève Fléchon (IE CNRS), ATILF : Définition du lexique de référence
– Claire Gardent, DR2 CNRS, LORIA/Talaris : Gestion de l’opération ;
Mise au point de la méthode de création du dictionnaire sens/synonymes
– Evelyne Jacquey, CR1 CNRS, ATILF : Gestion de l’opération ; Mise
au point et définition du lexique de référence
– Christiane Jadelot (IE CNRS), ATILF : Définition du lexique de référence
– Laura Perez, Etudiante Master LCT (M1) ; Adaptation de la méthode
de création du dictionnaire sens/synonymes à EuroWordNet
– Alejandra , Etudiante Master LCT (M1) ; Adaptation de la méthode
de création du dictionnaire sens/synonymes à EuroWordNet
– Fabienne Venant, MC Nancy 2 : Mise au point et définition du lexique
de référence
Références
[1] Computational Semantics Lab at Stanford Universitie’s Center for the
Study of Language and Information. Infomap NLP Software.
[2] S. Banerjee and T. Pedersen. Extended gloss overlaps as a measure of
semantic relatedness, 2003.
[3] Satanjeev Banerjee and Ted Pedersen. An adapted lesk algorithm for
word sense disambiguation using wordnet book series lecture notes in
computer science. In Computational Linguistics and Intelligent Text
Processing : Third International Conference, CICLing 2002, Mexico
City, Mexico, February 17-23, 2002. Proceedings, volume 2276/2002,
pages 117–171. Springer Berlin/Heidelberg, February 2002.
[4] H. Benac, editor. Dictionnaire des synonymes. Hachette, 1974.
[5] Vincent D. Blondel and Pierre P. Senellart. Automatic extraction of
synonyms in a dictionary. In Proceedings of the SIAM Workshop on
Text Mining, Arlington (Texas, USA), 2002.
[6] L. Clément, B. Sagot, and B. Lang. Morphology based automatic acquisition of large-coverage lexica. In Proceedings of LREC’04, Lisbonne,
2004.
15
[7] M. de Toro, editor. Dictionnaire des synonymes de la langue française.
Larousse, inconnue.
[8] H. Bertaud du Chazot, editor. Nouveau dictionnaire des synonymes.
Hachette, inconnue.
[9] C. Gardent, B. Guillaume, G. Perrier, and I. Falk. Extracting subcategorisation information from Maurice Gross’ Grammar Lexicon. Archives
of Control Sciences, 15(LI) :253–264, 2005.
[10] Jay J. Jiang and David W. Conrath. Semantic similarity based on corpus
statistics and lexical taxonomy. CoRR, cmp-lg/9709008, 1997.
[11] Larousse, editor. Le grand larousse de la langue française. Dictionnaire
le Robert, 1971-1978.
[12] Philippe Muller, Nabil Hathout, and Bruno Gaume. Synonym extraction using a semantic distance on a dictionary. In Dragomir Boguraev
and Rada Mihalcea, editors, Workshop on Graph Based Methods for Natural Language Processing (TextGraphs), New York, E.-U., 09/06/200609/06/2006, pages 65–72, http ://www.aclweb.org, 2006. Association for
Computational Linguistics (ACL).
[13] S. Patwardhan and T. Pedersen. Using WordNet-based Context Vectors
to Estimate the Semantic Relatedness of Concepts. In Proceedings of
the EACL 2006 Workshop on Making Sense of Sense : Bringing Computational Linguistics and Psycholinguistics Together, pages 1–8, Trento,
Italy, April 2006.
c
[14] ROBERT, editor. Dictionnaire alphabÃtique
et analogique de la
c edition, 1985. (9
langue française. Dictionnaire le Robert, 2e Ãd.
vol.).
[15] Hinrich Schutze. Automatic word sense discrimination. Computational
Linguistics, 24(1) :97–123, 1998.
[16] Karel van den Eynde and P. Mertens. La valence : l’approche pronominale et son application au lexique verbal. Journal of French Language
Studies 13, 63-104, 2003.
[17] Dominic Widdows. A Mathematical Model for Context and WordMeaning. In Fourth International and Interdisciplinary Conference on
Modeling and Using Context, Stanford, California, June 23-25 2003.
16
Téléchargement