Syn2 – Création d’un lexique de synonymes verbaux Evelyne Jacquey, Ingrid Falk 30 octobre 2007 1 Résumé des objectifs de l’opération La langue naturelle a une expressivité forte qui permet d’exprimer un même contenu de différentes façons. Aussi, les systèmes de Traitement Automatique des Langues (TAL) commencent-ils souvent par abstraire des différences surfaciques en calculant une représentation plus ou moins précise du sens des textes i.e., une représentation conceptuelle. Cette représentation permet, par exemple, d’interpréter les synonymes voler et dérober comme dénotant le même concept. Dans ce contexte, le projet Syn2 vise à modéliser le système des concepts évoqués par les verbes du français. Plus spécifiquement, il s’agit d’une part, de développer une méthode permettant d’identifier les concepts liés aux verbes et d’autre part, de relier les concepts identifiés à un lexique morphosyntaxique des verbes du français. A moyen terme, cette méthode devrait permettre la création d’une ressource permettant aux systèmes de TAL de raisonner sur le sens des verbes e.g., de détecter que la phrase Jean dérobe une pomme est une réponse à la question Jean a-t’il pris une pomme ?. Identifier les concepts liés aux verbes. Pour le verbe parler, le dictionnaire alphabétique et analogique de la langue française [11] liste les distinctions de sens et les synonymes suivants : voler : 1.1.1. s’envoler, planer, voleter, voltiger. 1.1.2. survoler. 1.1.3. flotter, soulever. 1.1.4. courir, se presser, convoler. 1.1.5. fuir. 1 1.2. voler. 2.1.1. s’approprier, butiner (vx),dérober, faire dispara^ ıtre, s’emparer, escamoter, filouter, friponner (vx), marauder, piller, prendre, ravir, soustraire, subtiliser, barboter(fam.), calotter (fam.), carotter (fam.), chaparder (fam.), chauffer(vx), chiper, choper, chouraver (argot), faire, faucher, grapiller,gratter, piquer, rafler, ratiboiser, refaire, repasser, soulager de,subtiliser, détourner, emmener, eemporter, enlever, kidnapper, brigander (vx), cambrioler, griveler. 2.1.2. usurper, dérober. 2.1.3. s’attribuer,copier, plagier. 2.2.1. arnaquer (fam.), cambrioler, carotter, délester, dépouiller, détrousser, dévaliser, empaumer (vieilli), escroquer, estamper, flibuster, flouer, gruger, piller, rouler. 2.2.2. exploiter, tromper, arranger, écorcher, empiler, ent^ oler, étriller, tondre,frustrer. Intuitivement, un dictionnaire analogique donne donc accès à la fois aux concepts associés à un verbe (identification de plusieurs sens possibles) et à l’ensemble des verbes associés à chacun de ces concepts (listes de synonymes). L’objectif de cette partie du projet a donc été de développer une méthode permettant de fusionner de façon automatique 5 des 7 dictionnaires analogiques disponibles dans la base des synonymes de l’ATILF à savoir [7, 4, 8, 11, 14]. En effet, les cinq dictionnaires ne proposent généralement ni le même découpage en sens, ni le même ensemble de synonymes. Certains dictionnaires établissent en outre une relation entre sens et catégorie syntaxique (nom, verbe, adjectif), d’autres non. La fusion de plusieurs dictionnaires devait permettre d’une part, d’augmenter la couverture (nombre de concepts et de synonymes identifiés) et d’autre part, d’améliorer la qualité du lexique résultant (information sur les concepts, les synonymes mais également sur leurs propriétés syntaxiques comme la catégorie ou le cadre de sous catégorisation). Relier concepts et lexique syntaxique verbal. Afin de pouvoir accéder aux concepts évoqués par une phrase, il est nécessaire, pour un système de TAL, de disposer d’un lexique syntaxico-sémantique reliant mots, information syntaxique et information conceptuelle. Idéalement, l’entrée d’un verbe dans un tel lexique listera l’ensemble des usages possibles d’un verbe c-à-d, l’ensemble des paires (sous-cat,syn) où sous-cat caractérise les arguments régis par le verbe et syn est l’ensemble des synonymes correspondants. 2 Si un tel lexique n’existe pas pour le français à l’heure actuelle, des travaux récents ont donné lieu à l’apparition de plusieurs lexiques syntaxiques librement disponibles à savoir DicoValence [16], Lefff [6] et SynLeX [9]. Ces lexiques visent à spécifier pour chaque verbe du français l’ensemble des cadres de sous-catégorisation permis pour ce verbe. Par exemple, l’entrée de Lefff pour le verbe voler est : voler voler voler voler voler v[pred=’voler<suj:sn>’,@avoir,cat=v] v[pred=’voler<suj:sn,obj:sn,obja:à-sn>’,@avoir,cat=v] v[pred=’voler<suj:sn,obj:sn>’,@avoir,cat=v] v[pred=’voler<suj:sn,obja:à-sn>’,@avoir,cat=v] v[pred=’voler<suj:sn>’,@avoir,cat=v] Comme on le voit, ce type de lexique ne contient aucune information sémantique et ne permet, en particulier, ni de distinguer les différents sens d’un verbe, ni de les associer aux cadres syntaxiques correspondant (voler-fly est un verbe intransitif i.e., sans complément objet tandis que voler-steal est un verbe transitif). L’objectif de cette deuxième partie sera donc de mettre au point une méthodologie permettant de compléter de façon semi-automatique un lexique syntaxique du français avec une information sémantique. Plus précisément, il s’agira de structurer ce lexique en regroupant les entrées d’un verbe relevant du même concept puis d’associer à ces entrées les synonymes appropriés. 2 Travaux effectués en 2007 Durant les premiers 7 mois, le travail s’est concentré sur l’acquisition d’un lexique de synonymes pour les verbes du français. Les travaux effectués ont porté sur : – la définition d’une méthodologie pour l’acquisition, à partir de 5 dictionnaires de synonymes et du TLFi, d’un lexique de synonymes – la spécification d’une méthode d’évaluation pour le lexique créé – l’installation et l’adaptation de différents logiciels permettant le calcul de similarité entre fragments de texte 2.1 Création automatique d’un lexique de synonymes L’objectif est de créer, à partir du TLFi et de 5 dictionnaires de synonymes existants, un dictionnaire de verbes unique où chaque verbe est associé avec un ensemble de sens et chaque sens avec un ensemble de synonymes. Pour ce faire, nous avons commencé par examiner les différents types d’approches 3 présents dans la litérature. Nous avons ensuite spécifié une méthode adaptée aux sources dont nous disposons à savoir, les 5 dictionnaires de synonymes et le TLFi. Approches existantes On peut identifier trois grands types d’approches permettant la construction d’un lexique de synonymes : les approches fondées sur les corpus, les approches fondées sur les dictionnaires généraux et les approches fondées sur les dictionnaires de synonymes. Toutes ces approches reposent sur l’idée que les synonymes partagent des contextes communs. Elles diffèrent cependant par le type de contexte qu’elles mettent en jeu : le contexte d’usage pour l’approche fondée sur les corpus ; le contexte définitionnel pour l’approche fondée sur l’usage d’un dictionnaire général ; et le contexte synonymique pour l’approche se fondant sur des bases de synonymes. Dans l’approche fondée sur les corpus [10], l’hypothèse de base est que les mots similaires apparaissent dans les mêmes contextes d’usage. Différentes approches ont été explorées qui varient selon la nature du contexte considéré (document dans lequel le mot apparaı̂t, mots avoisinants, contexte grammatical, etc.) et/ou la fonction de similarité utilisée. L’approche fondée sur les dictionnaires [12] regroupe les synonymes d’un mot m sur la base des mots compris dans la définition de m et des mots définis par m. Dans cette approche, un graphe est construit à partir du dictionnaire tel que chaque mot m est un noeud du graphe ayant pour arcs sortants des arcs pointant sur les mots entrant dans les définitions de m et pour arcs entrants, les arcs sortant des mots dont la définition contient m. Chaque noeud du graphe est ensuite associé par un processus itératif convergent à un rang qui est utilisé pour mesurer, dans le graphe de voisins d’un mot, ses voisins les plus proches. Cette approche, inspirée de l’algorithme de John Kleinberg pour l’extraction des pages webs pertinentes pour un requête donnée, a été adaptée à l’extraction de synonymes à partir d’un dictionnaire par [5] puis appliquée au TLFi par [12]. Enfin, un troisième type d’approche est fondée sur la saisie des relations synonymiques issues de 7 dictionnaires classiques du français (Bailly, Benac, Du Chazaud, Guizot, Lafaye, Larousse et Robert)1 . L’approche repose d’une part sur la constitution de cliques et d’autre part sur la projection de ces cliques dans un espace multidimmensionnel et visualisé par projection sur les composantes principales. Pour chaque mot, les cliques sont obtenues en construisant le graphe des relations entre ce mot et ses synonymes dans la ressource issue de la fusion des 7 dictionnaires. Ensuite, la recherche des 1 La saisie des données et la production des fichiers correspondants a été effectuée à l’Institut National de la Langue Française (INaLF). 4 sous-graphes complets de ce premier graphe permet d’obtenir les cliques. Dans un deuxième temps, la projection des cliques obtenues dans un espace mutlidimensionnel et leur visualisation permet de faire émerger les différents sens d’un mot-vedette, chacun d’eux étant représenté par une ou plusieurs cliques regroupées par la projection. Ainsi, pour l’entrée du mot maison, Ploux et Victorri font émerger plusieurs sens parmi lesquels ”baraque”, ”serviteur”, ”habitation”, ”foyer”, ”famille”. Chacun de ces sens est repérable sous la forme de cliques, autrement dit sous la forme de regroupement de mot-formes. Le sens de ”serviteur” par exemple regroupe les mots domesticité, gens, domestique, etc alors que le sens de ”habitation” regroupe abri, toit, domicile, demeure, logement, etc. Approche adoptée. L’approche poursuivie dans Syn2 diffère des approches existantes en ce qu’elle repose sur deux types de dictionnaires : un dictionnaire général (le TLFi) et des dictionnaires de synonymes. Nous tirons parti de cette spécificité pour éviter certains eccueils des approches existantes en particulier : – L’utilisation de dictionnaires de synonymes comme source de création d’un dictionnaire synonymique unique permet de garantir que les mots regroupés sont de fait des synonymes. En ce sens notre approche contraste avec l’approche fondée sur corpus qui échoue fréquemment à distinguer entre termes similaires et termes synoymes et regroupe fréquement des antonymes par exemple. Dans un moindre degré, la même critique s’applique également à l’approche fondée sur les dictionnaires. – L’utilisation du TLFi permet de regrouper les synonymes par sens ce qui, cette fois, contraste avec l’approche de Ploux et Victorri qui si elle permet la formation de cliques correspondant à des nuances de sens, ne permet pas directement d’établir de façon automatique les sens principaux d’un mot. Nous exploitons ces deux ressources en adoptant une approche hybride utilisant à la fois le contexte synonymique et le contexte définitionnel d’un verbe. Concrètement, l’approche peut être résumée comme suit : Pour chaque verbe V , il s’agit d’assigner chacun des synonymes recensés pour V dans les 5 dictionnaires de synonymes à l’une des définitions listées pour V dans le TLFi. En d’autres termes, l’objectif est de regrouper les synonymes d’un verbe par sens, ces sens étant donnés par les définitions du TLFi. Pour décider du sens sur lequel rattacher un synonyme, nous utilisons les définitions du verbe considéré et de son/ses synonyme(s). Ce regroupement des synonymes par sens se fait selon le schéma suivant : 5 1. Pour chaque verbe v 2 et pour chaque définition defvi de ce verbe, on extrait l’(( index )) Idefvi de defvi c’est-à-dire l’ensemble de lemmes correspondant aux mots pleins de la définition (verbe, adjectifs, noms, adverbes). 2. Pour chaque synonyme synjv de v, on extrait l’indexe Isynjv des définitions de synjv (l’ensemble de lemmes correspondant aux mots pleins de l’ensemble des définitions du synonyme) 3. Pour chaque paire hIdefvi , Isynjv i, on mesure la similarité entre l’index Idefvi de la définition defvi et l’index Isynjv du synonyme synjv 4. Le synonyme est rattaché à la définition (le sens de v) pour lequel la similarité entre Idefvi et Isynjv est maximum. A partir de ce schéma général, nous avons défini plusieurs approches possibles qui se différencient en fonction du pré-traitement des définitions du TLFi, du partitionnement des données initiales et du type de mesure de similarité utilisées. Prétraitement des données TLFi. Les définitions peuvent être utilisées soit brutes (on considère uniquement les mots contenus entre deux balises de définitions) ou enrichies (par l’héritage d’information venant des niveaux supérieurs de l’entrée dictionnairique, par l’information périphérique donné par le TLFi pour la définition ou encore par les mots que le verbe considéré sert à définir). Partitionnement des données. Du fait de la variabilité de la langue, comparer une définition avec les sens d’un synonyme unique risque de donner des résultats décevants. En effet, le calcul de similarité se fait alors entre les mots entrant dans la définition considérée et ceux entrant dans la définition des sens possibles du synonymes. Ces ensembles de mots étant relativement petits et le TLFi utilisant un un vocabulaire relativement riche, il est fort probable que l’intersection des mots présents dans les définitions comparées soit faible du fait en particulier, des variations morphologiques (chanter/chanson/chant) ou lexicales (hyponyme/hyperonyme, mot/synonyme, mot/antonyme, etc.). Nous projetons donc de comparer deux méthodes : l’une traitant les synonymes un à un (ci-dessus) et l’autre cherchant à rattacher un paquet de synonymes (plutot qu’un synonyme unique) à un sens. Ces paquets étant de taille et de nombre variable d’un dictionnaire à l’autre, nous envisageons également une approche hybride qui combine les deux méthodes de 2 Seuls les verbes présents à la fois dans le TLFi et dans la base de synonymes sont considérés. 6 la façon suivante. Lorsque le nombre de paquets de synonymes approxime le nombre de définitions donnés pour le verbe considéré par le TLFi, le rattachement des synonymes se ferait par paquet. Inversement, lorsque le nombre de paquets de synonyes diffère trop fortement du nombre de définitions présentes dans le TLFi, le rattachement se ferait par synonymes. Mesures de similarité. La similarité entre fragments textuels est un domaine de recherche très actif et de nombreuses mesures de similarité peuvent être utilisées telles que par exemple, le nombre de mots communs aux deux fragments (word overlap), le nombre de contextes communs aux mots intervenant dans les deux fragments (second order vectors), le nombre de mots (( importants )) communs (Analyse sémnatique latente), etc. Ces mesures peuvent également faire ou non intervenir une information fréquentielle sur les termes considérés (fréquence relative des termes dans le dictionnaire, tf.idf, etc.) où des listes rouges (stop lists) permettant d’exclure de l’analyse les mots dont le contenu informationnel est faible. Afin de comparer les différentes mesures de similarité et d’expérimenter avec les données (pré-traitement plus ou moins fin des définitions du TLFi, partitionnement des données, etc.), il est cependant nécessaire de disposer d’un lexique de référence. Nous abordons dans la prochaine section, les problèmes qui se sont posés lors de la création de ce lexique et décrivons en section 4 comment nous comptons pallier ce problème. 2.2 Evaluation Afin de déterminer quelle approche est la plus adéquate pour la création automatique d’un dictionnaire de synonymes, nous avons réalisé une matrice dans laquelle les lignes correspondent à chacune des définitions de ce verbe dans le TLFi et dans laquelle chaque colonne correspond à l’un des synonymes associés à ce verbe à la suite de la fusion des cinq dictionnaires de synonymes. On obtient ainsi une matrice de 8 lignes de définitions par 42 colonnes contenant un verbe synonyme. A l’intérieur de cette matrice, chaque lexicographe a évalué la plausibilité d’un lien synonymique entre une définition du verbe organiser et l’un des synonymes proposé. Les réponses possibles étaient oui (le lien de synonymie est correct) ou non (le lien de synonymie est incorrect ou l’évaluateur ne peut statuer sur la question). Afin de faciliter la tâche d’évaluation, un exemple illustratif de chaque définition a été repris dans le TLFi et dans cet exemple, le test de substitution était appliqué. Le résultat de cette première tentative de création d’un lexique de référence est insatisfaisant : le mesure de l’accord inter-annotateurs est mauvaise. Ce 7 résultat a été analysé et nous a permis de préparer une nouvelle campagne d’évaluation. Deux éléments majeurs nous semblent responsables. 1. Comparaison entre une définition et un mot synonyme : la polysémie constatée dans les langues naturelles s’appuie pour une part important sur la polysémie de ses unités lexicales, en gros des mots vedette, entrées d’un dictionnaire. De ce fait, le jugement de plausibilité d’un lien de synonymie entre un ”mot” et une définition est très difficile : quel sens du mot compare-t-on à la définition ? 2. Définitions du TLFi : Le TLFi est un dictionnaire à usage humain dans lequel l’information est structurée de deux manières caractéristiques : premièrement, l’information sémantique apparaı̂t dans différents objets lexicographiques, pas seulement dans la définition ; deuxièmement, l’information est hiérarchisée et peut-être, selon les entrées dans le dictionnaire, factorisée. Ces deux éléments seront pris en compte dans la prochaine campagne d’évaluation. 2.3 Implantation Le travail théorique de définition d’une méthode de construction et d’évaluation du dictionnaire s’est accompagné de divers travaux d’implantation nécessaires à la mise en place d’une infrastructure logicielle permettant le traitement des données et en particulier : – La création d’un échantillon de 27 verbes sur lequel portera l’évaluation. Ces 27 verbes représentent toutes les combinaisons possibles de haute/moyenne/basse fréquence/polysémie/généralité et ont été identifiés par des calculs automatiques fondés sur – la liste des fréquences des verbes du corpus Le Monde. – la relation de hyper/hyponymie dans EuroWordNet. – le nombre de définitions du TLFi. – L’implantation de scripts permettant l’extraction des entrées verbales des 6 dictionnaires (TLFi et dictionnaires de synonymes) et le traitement des données par différentes mesures de similarité – L’installation de différents logiciels permettant le calcul de similarité et leur adaptation aux données – le nombre de mots présents dans chacun des deux indexes comparés (simple and extended word overlap, Modules Perl WordNet::Similarity, [2, 3]. – le nombre de mots communs entre les définitions des lemmes intervenant dans les deux indexes comparés (Second Order Gloss Vectors, Modules Perl WordNet::Similarity, [15, 13]) 8 Fig. 1 – Les groupes de synonymes et leurs attribution aux définitions pour le verbe dépenser. – le nombre de mots “importants” commun aux deux indexes (Latent semantic analysis, Infomap-NLP logiciels développés par l’équipe CSLI de Stanford, [17, 1]) 3 Résultats obtenus Au terme de 7 mois de projet, les acquis sont les suivants : – Mise au point d’une procédure de création d’un dictionnaire sens/synonymes prenant comme sources le TLFi et 5 dictionnaires de synonymes – Mise en place de l’infrastructure logicielle nécessaire à la mise en oeuvre de cette procédure (et de ses variantes) – Première tentative de création d’un lexique de référence Pour illustration, la Figure 1 donne un exemple de sortie pour le verbe dépenser. Pour chaque groupe de synonymes (première colonne), on calcule sa (( similarité )) selon une mesure donnée (couleur) par rapport aux définitions du verbe. Ensuite, ces valeurs sont rangées – le groupe le plus (( proche )) d’une définition aura une valeur d’1 dans la cellule correspondante. 9 4 Programme de travail pour 2008 Les objectifs du projet pour l’année 2008 sont les suivants : 1. Finalisation d’un lexique de référence 2. Comparaison, évaluation et adaptation des différentes méthodes de rattachement synonyme/sens 3. Application de la meilleure méthode à la création, à partir du TLFi et de la base des synonymes de l’ATILF, d’un lexique regroupant les synonymes d’un verbe par sens 4. Mise à disposition de ce lexique par le CNRTL et intégration dans la platerforme et le labo TALC 5. Mise au point d’une procédure permettant de lier les entrées du lexique de synonymes créé par Syn2 aux entrées du lexique de sous-catégorisation créé par BDSyn. 4.1 Création d’un lexique de référence On rappelle les deux éléments majeurs, responsables de l’accord interannotateurs instatisfaisant dans la première campagne d’évaluation destinée à réaliser un échantillon de référence : 1. Comparaison entre une définition et un mot synonyme : la polysémie constatée dans les langues naturelles s’appuie pour une part important sur la polysémie de ses unités lexicales, en gros des mots vedette, entrées d’un dictionnaire. De ce fait, le jugement de plausibilité d’un lien de synonymie entre un ”mot” et une définition est très difficile : quel sens du mot compare-t-on à la définition ? 2. Définitions du TLFi : Le TLFi est un dictionnaire à usage humain dans lequel l’information est structurée de deux manières caractéristiques : premièrement, l’information sémantique apparaı̂t dans différents objets lexicographiques, pas seulement dans la définition ; deuxièmement, l’information est hiérarchisée et peut-être, selon les entrées dans le dictionnaire, factorisée. Afin de prendre en compte ces deux éléments, la méthodologie pour réaliser un lexique de référence a été raffinée de la manière suivante : – Comparaison entre une définition et un ensemble de synonyme : en observant plus attentivement les cliques fournies par DicoSyn et en collaboration avec Fabienne Venant, récemment récrutée dans l’équipe TALARIS et qui a effectué ses recherches de doctorat sur 10 ce dictionnaire de synonymes, on peut constater que le sens d’un ensemble de synonymes est mieux contraint, donc moins polysémie, que le sens d’une unité lexicale extraite de cet ensemble de synonymes. Dans la prochaine campagne d’évaluation, ce seront donc les différents ensembles de synonymes fournis par chacun des cinq dictionnaires de la base de synonymes de l’ATILF qui seront comparés à chaque définition du mot vedette dans le TLFi, et non plus une définition et un mot synonyme proposé. – Restructuration de l’information lexicographique du TLFi : Afin de prendre en compte la distribution de l’information parmi différents types d’objets lexicographiques ainsi que la factorisation de cette information dans certaines entrées, les entrées d’un échantillon de référence seront restructurées manuellement. Cette restructuration vise d’une part à rassembler l’information si celle-ci est distribuée, en quelque sorte à “décorer” la définition avec l’ensemble des informations que les lexicographes du dictionnaire avaient jugées nécessaire de donner. D’autre part, lorsque l’information est factorisée et représentée de manière hiérarchique, celle-ci est héritée, le cas échéant, vers les niveaux inférieurs. Ainsi, chaque emploi d’un verbe de l’échantillon de référence sera décrit par un ensemble d’informations autonomes et l’ensemble des emplois ainsi représentés seront fournis sous la forme d’un tableau synthétique Ainsi, pour le verbe calmer par exemple, les annotateurs recevront deux types d’informations. Le premier correspondra pour chaque verbe du futur lexique de référence à la représentation restructurée de l’information du TLFi relative à chaque sens/emploi de ce verbe ; dans le cas du verbe calmer, on détermine ainsi 12 sens/emplois. Le second type correspondra à tous les appariemments possibles entre un sens du verbe étudié et les ensembles de synonymes proposés : chaque colonne correspondra à l’un des sens du verbe dont on cherche à déterminer et structurer l’ensemble des synonymes de la base ; chaque ligne correspondra à l’un des ensembles distincts de synonymes tels qu’ils sont fournis par la base des synonymes de l’ATILF pour les cinq dictionnaires choisis : Bailly, Benac, Du Chazaud, Larousse, Robert. Dans le cas du verbe calmer, la base fournit de un unique ensemble de synonymes à trois ensembles distincts au maximum. Enfin, deux autres éléments vont être pris en compte. Dans le TLFi, plusieurs indicateurs d’emploi fournissent une information syntaxique importante relativement à la structuration de l’information dans le base des synonymes, notamment la distinction entre emploi pronominal et emploi non pronominal. Ensuite, le cas des locutions figées et semi-figées, repérables automatiquement dans la version XML du TLFi, sera traité de manière isolée et différente par rapport aux autres emplois dans une entrée 11 du TLFi. Si l’on tient compte de l’ensemble de ces éléments, la restructuration de l’information lexicographique du TLFi produira pour chaque entrée du futur lexique de référence au maximum quatre représentations différentes en fonction : expressions figées de l’emploi pronominal du verbe, expressions figées de l’emploi non pronominal du verbe, sens généraux de l’emploi pronominal du verbe et sens généraux de l’emploi non pronominal du verbe. 4.2 Evaluation et choix d’une méthode d’acquisition Une fois le lexique de référence créé, nous utiliserons des métriques classiques (précision et rappel) pour évaluer et comparer les différentes méthodes évoquées dans la section 2.1. Nous étudierons en particulier l’impact des éléments suivants sur les résultats : – Prétraitement des définitions du TLFi : l’idée ici est d’examiner dans quelle mesure l’enrichissement des définitions brutes par une information héritée des niveaux supérieurs des entrées dictionnairiques permet d’améliorer les résultats – Utilisation de l’information fréquentielle pour enrichir les données e.g., en utilisant le TF.IDF ou des stop lists pour éliminer des calculs les mots peu informatifs – Utilisation des différentes mesures de similarité disponibles – Rattachement des synonymes : individuel, par paquet ou en approche hybride (par paquet et individuellement selon les cas) Les différentes méthodes mises au point seront exécutées sur l’échantillon des 27 verbes présentés dans la section 2.3 et leur performance mesurées par rapport au lexique de référence. La méthode donnant les meilleurs résultats sera ensuite utilisée pour créer le lexique global à partir des verbes du TLFi et de la base des synonymes de l’ATILF. La ressource ainsi créée sera intégrée dans la plateforme et le labo TALC. Elle sera également mise à disposition de la communauté par le biais du CNRTL. 4.3 Lien avec la syntaxe En parallèle des travaux sur les synonymes, nous chercherons à définir une méthode permettant de faire le lien entre les entrées du lexique de synonymes créé par Syn2 et le lexique syntaxique créé par BDSyn. Pour ce faire, il conviendra dans un premier temps, d’établir l’inventaire des informations du TLFi permettant d’associer un cadre de sous-catégorisation à une définition. Ce travail partira des résultats acquis par Evelyne Jacquey dans 12 le cadre du projet IDILES, projet CPER ILD-ISTC 2003 - 20053 . Dans un deuxième temps,il s’agira de définir les corrspondances entre informations de sous-catégorisation données par le TLFi et cadres utilisés dans BDSyn puis d’utiliser ces correspondances pour faire le lien entre les entrées du lexique de synonymes créé par Syn2 et le lexique syntaxique créé par BDSyn. 4.4 Échéancier 1. Création du lexique de référence [novembre à février] 2. Comparaison et examen des différentes approches [mars, avril] 3. Affinage de la meilleure approche [mai à septembre] 4. Application de l’approche optimisée à l’ensemble des verbes présents à la fois dans le TLFi et la base de synonymes (Création d’un lexique verbe/sens/synonymes) [octobre, novembre] 5. Mise en ligne par le CNRTL [novembre,décembre] 6. Mise au point d’une procédure permettant de relier sens et sous-catégorisation [février à septembre] 7. Liage des entrées du lexique verbe/sens/synonymes au lexique syntaxique SynLex [septembre à décembre] 3 Ce projet a donné lieu à une communication dans le cadre de la journée ATALA sur les lexiques syntaxiques du 12 mars 2005 : “Acquisition de cadres de sous-catégorisation à partir du TLFi XML”, E. Jacquey et A-C. Naels. 13 Lex Réf Comparaison Affinage approche Lexique CNRTL Méthode Sens/Syntaxe 5 Déc Nov Oct Sep Aoû Juil Juin Mai Avr Mar Fév Jan Lien syntaxe Budget utilisé Fonctionnement. Financement de 5 mois d’un acet scientifique (14 106 E) pour les travaux d’implémentation suivants : 1. pour chaque définition de verbe, création de l’indexe correspondant 2. implémentation des méthodes de calcul de similarité entre définitions 3. création d’une interface pour la construction de la ressource de référence crée à partir des lexiques existants (service web) Equipement. Achat d’un PC quadriprocesseur permettant de faire des calculs complexes rapidement sur les masses de données contenues dans le TLFi et la base des synonymes (4 692.67E) Total (en Euros). Coût Opération Fonctionnement Equipement Total 14 106 4 692 18 798 14 6 Participants – Pascale Bernard (IR CNRS), ATILF : Définition du lexique de référence – Ingrid Falk, ACET scientifique (6 mois), LORIA/Talaris : Programmation ; Installation des logiciels pour les mesures de similarité ; Réalisation des scripts de traitement et d’extraction – Geneviève Fléchon (IE CNRS), ATILF : Définition du lexique de référence – Claire Gardent, DR2 CNRS, LORIA/Talaris : Gestion de l’opération ; Mise au point de la méthode de création du dictionnaire sens/synonymes – Evelyne Jacquey, CR1 CNRS, ATILF : Gestion de l’opération ; Mise au point et définition du lexique de référence – Christiane Jadelot (IE CNRS), ATILF : Définition du lexique de référence – Laura Perez, Etudiante Master LCT (M1) ; Adaptation de la méthode de création du dictionnaire sens/synonymes à EuroWordNet – Alejandra , Etudiante Master LCT (M1) ; Adaptation de la méthode de création du dictionnaire sens/synonymes à EuroWordNet – Fabienne Venant, MC Nancy 2 : Mise au point et définition du lexique de référence Références [1] Computational Semantics Lab at Stanford Universitie’s Center for the Study of Language and Information. Infomap NLP Software. [2] S. Banerjee and T. Pedersen. Extended gloss overlaps as a measure of semantic relatedness, 2003. [3] Satanjeev Banerjee and Ted Pedersen. An adapted lesk algorithm for word sense disambiguation using wordnet book series lecture notes in computer science. In Computational Linguistics and Intelligent Text Processing : Third International Conference, CICLing 2002, Mexico City, Mexico, February 17-23, 2002. Proceedings, volume 2276/2002, pages 117–171. Springer Berlin/Heidelberg, February 2002. [4] H. Benac, editor. Dictionnaire des synonymes. Hachette, 1974. [5] Vincent D. Blondel and Pierre P. Senellart. Automatic extraction of synonyms in a dictionary. In Proceedings of the SIAM Workshop on Text Mining, Arlington (Texas, USA), 2002. [6] L. Clément, B. Sagot, and B. Lang. Morphology based automatic acquisition of large-coverage lexica. In Proceedings of LREC’04, Lisbonne, 2004. 15 [7] M. de Toro, editor. Dictionnaire des synonymes de la langue française. Larousse, inconnue. [8] H. Bertaud du Chazot, editor. Nouveau dictionnaire des synonymes. Hachette, inconnue. [9] C. Gardent, B. Guillaume, G. Perrier, and I. Falk. Extracting subcategorisation information from Maurice Gross’ Grammar Lexicon. Archives of Control Sciences, 15(LI) :253–264, 2005. [10] Jay J. Jiang and David W. Conrath. Semantic similarity based on corpus statistics and lexical taxonomy. CoRR, cmp-lg/9709008, 1997. [11] Larousse, editor. Le grand larousse de la langue française. Dictionnaire le Robert, 1971-1978. [12] Philippe Muller, Nabil Hathout, and Bruno Gaume. Synonym extraction using a semantic distance on a dictionary. In Dragomir Boguraev and Rada Mihalcea, editors, Workshop on Graph Based Methods for Natural Language Processing (TextGraphs), New York, E.-U., 09/06/200609/06/2006, pages 65–72, http ://www.aclweb.org, 2006. Association for Computational Linguistics (ACL). [13] S. Patwardhan and T. Pedersen. Using WordNet-based Context Vectors to Estimate the Semantic Relatedness of Concepts. In Proceedings of the EACL 2006 Workshop on Making Sense of Sense : Bringing Computational Linguistics and Psycholinguistics Together, pages 1–8, Trento, Italy, April 2006. c [14] ROBERT, editor. Dictionnaire alphabÃtique et analogique de la c edition, 1985. (9 langue française. Dictionnaire le Robert, 2e Ãd. vol.). [15] Hinrich Schutze. Automatic word sense discrimination. Computational Linguistics, 24(1) :97–123, 1998. [16] Karel van den Eynde and P. Mertens. La valence : l’approche pronominale et son application au lexique verbal. Journal of French Language Studies 13, 63-104, 2003. [17] Dominic Widdows. A Mathematical Model for Context and WordMeaning. In Fourth International and Interdisciplinary Conference on Modeling and Using Context, Stanford, California, June 23-25 2003. 16