Les relations intercatégorielles Nom-Verbe (observées à travers Upery) Cécile Fabre Passerelles nom ↔ verbe : qqs travaux antérieurs En TAL En sémantique lexicale Les liens N-V calculés par UPery Terminologie Recherche d’information Exemples et premiers résultats Esquisse de typologie Perspectives 2 Objectif général Repérer un contenu informatif comparable à travers ses variantes textuelles « assessment of semantic similarity has proved to be essential for a variety of Natural Language Processing tasks” (Montemagni et al. 98) 3 Repérer les variantes nom-verbe « From an information retrieval point of view the same information can be coded in an NP or in a sentence. By unifying higher-order nouns and verbs in the same ontology it will be possible to match expressions with very different syntactic structures but comparable content » (Vossen 1998) 4 Repérage automatique de variantes terminologiques (Fabre et Jacquemin 2000) But : constituer une grammaire permettant d’identifier les reformulations verbales de termes nominaux Comparaison_N de_P résultat_N ≈ comparer_V les_D résultats_N Technique_N de_P mesure_N ≈ mesure_V à l’aide d’_P une_D technique_N Amélioration_N de_P technique_N ≠ techniques_N permettant_V d’_P améliorer_V 5 Acquisition de ressources lexicales pour la RI (Bouillon, Fabre, Sébillot, Jacqmin, 2000) (Galy, 2000) (Claveau 2003) But : Mettre au point une méthode permettant d’extraire d’un corpus des couples nom-verbe sémantiquement associés ex de patron calculé (programmation logique inductive) : V infinitif + (tout sauf un verbe)* + conj de coord + N 6 Modèles lexicaux On sort du champ balisé des relations sémantiques intracatégorielles Mel’čuk : les fonctions lexicales fonctions lexicales syntagmatiques Oper1 : OBSTACLE => encounter fonctions lexicales paradigmatiques S0 : ACHETER => achat V0 : SERMON => jurer S1 : PARLER =>locuteur 7 Pustejovsky : la structure qualia la représentation des noms intègre des informations relationnelles codées sous forme de prédicats verbaux couteau qualia formal : x telic : couper (e,x,y) […] 8 WordNet • WordNet 1.5 : pas de relations intercatégorielles “In Princeton WordNet nouns and verbs are not interrelated by basic semantic relations such as hyponymy and synonymy. The effect is that very similar synsets are totally unrelated only because they differ in part of speech” (Vossen 97) • WordNet 2.0 «Derivationally related forms » « adoption -(a legal proceeding that creates a parentchild relation […] RELATED TO->(verb) adopt#5 => adopt, take in -9 EuroWordNet • EuroWordNet « cross-part-of speech relations » {adorn V} XPOS_NEAR_SYN {adornment N} « The advantages of such explicit cross-part-of speech relations are: - similar words with different parts of speech are grouped together. […] - From an information retrieval point of view [...] it will be possible to match expressions with very different syntactic structures but comparable content » (Vossen 97) 10 Ex : commémorer obj Catégorie N N N V N N V N Lemme Relation commémoration de célébration de cinquantenaire de célébrer obj festivité de circonstance de coïncider suj anniversaire de a 25 17 11 24 5 11 10 31 Jaccard 0.523 0.257 0.247 0.228 0.227 0.212 0.212 0.203 11 commémorer (obj) commémorer (obj) commémoration (de) anniversaire (de) rafle cinquantenaire bicentenaire débarquement baptême soulèvement centenaire anniversaire […] soulèvement débarquement rafle baptême naissance déportation massacre émeute […] 12 Premiers chiffres indicatifs : • Part des relations N-V N-V = 16% des relations impliquant un nom • Proportion de N-V présentant un lien morphologique : 17 % déverbaux d'action autres déverbaux pas de lien morphologique 13 Le parent distributionnel n’est pas forcément le parent morphologique Nom nb de ctxs partagés verbes début de 83 commencer suj hausse de 114 augmenter obj reprise de 63 relancer obj retour à 138 revenir à vainqueur de 61 66 remporter suj gagner suj Visite à 9 se rendre à 14 Répartition selon les schémas syntaxiques de correspondance Autres action pour X / favoriser X lutter pour X / accéder à X Nom de X / Verbe Xobj rétablissement de X / rétablir X relèvement de X / baisser X Nom à X / Verbe à X rapport à X / remettre à X Nom en X / Verbe en X retour en X / revenir en X Nom de X / Verbe Xsuj rétablissement de X / rétablir X relèvement de X / baisser X 15 Typologie des liens N-V 1- équivalence fusion – regrouper fusion d’entreprises / regrouper des entreprises renforcement – durcir renforcement de la législation / durcir la législation 2- activité typique, fonction bouteille – boire bouteille de vodka / boire de la vodka camion – acheminer camion de vivres / acheminer les vivres victime – souffrir victime d’un traumatisme / souffrir d’un traumatisme 3- antonymie dégradation – améliorer dégradation de l’emploi / l’emploi s’améliore réunification – diviser réunification du pays / diviser le pays 4- contiguïté sémantique ?? succession temporelle élaboration – mettre en œuvre élaboration de la loi / mettre en œuvre la loi distribution – acheter distribution des vivres / acheter les vivres 5- collocations, verbes supports arrêt – rendre arrêt de la cour d’appel /cour d’appel rendre article – paraître article de presse / paraître dans la presse [..] 16 Perspectives Mieux décrire la relation sémantique N-V observer en contexte les zones de reformulation N V - étendre l’observation à d’autres corpus - Etudier l’impact de telles ressources en TAL : - « rentabilité » du lien N-V pour la recherche d’information? - rôle complémentaire par rapport à des ressources de type synonymique ? 17 Bibliographie Bouillon P., Fabre, C., Sébillot P. et Jacqmin, L. (2000) « Apprentissage de ressources lexicales pour l'extension de requêtes », Traitement automatique des langues, 41(2):367-393, numéro spécial Traitement automatique des langues pour la recherche d'informations , coordonné par Christian Jacquemin, ATALA/Hermes sciences publications, Paris. Claveau V. (2003) Acquisition automatique de lexiques sémantiques pour la recherche d'information. Thèse de l'Université de Rennes 1, décembre 2003 (http://olst.ling.umontreal.ca/~vincent/publis.html). Fabre C. et Jacquemin C., (2000), "Boosting Variant Recognition with Light Semantics", actes de COLING (Computational Linguistics), Sarrebrück, août 2000 (voir sur ma page web à l’ERSS) Galy E. (2000), Repérer en corpus les associations sémantiques privilégiées entre le nom et le verbe : le cas de la fonction dénotée par le nom, Mémoire de maîtrise en Sciences du langage, Université Toulouse-Le Mirail. Montemagni S. et Pirelli V. (1998), « Augmenting WordNet-like Lexical Resources with Distributional Evidence. An Application-Oriented Perspective« , in S. Harabagiu, editor, Workshop on Use of WordNet in Natural Language Processing Systems: Proceedings of the Conference, pages 87-93. Association for Computational Linguistics Vossen P. (1997), ‘EuroWordNet: a multilingual database for information retrieval’ In Proceedings of the DELOS workshop on Cross-language Information Retrieval, March 5-7, Zürich 18