Chapitre 2 Approches symboliques en sémantique lexicale 1 L’analyse sémantique s’est orienté très nettement ces dernières années vers l’étude du sens des mots en lexique. Alors que naguère, les items lexicaux n’étaient considérés que comme des variables à instancier au bon moment, depuis dix ans, les grammaires lexicales se multiplient. Celles-ci stockent dans le lexique les traits morphologiques, syntaxiques et sémantiques. Cela prouve l’intérêt croissant pour la sémantique et marque les limites des grammaires : on déplace les problèmes syntaxiques et sémantiques vers les représentations lexicales. Deux méthodes existent pour coder le sens en lexique (Rastier, 1994 ; p.45) : La méthode sémasiologique code les unités lexicales par leur signifiant graphique. A chaque signifiant, on associe l’ensemble des signifiés et l’on cherche à les structurer. Quand elle traite de la polysémie, la méthode sémasiologique présuppose que chaque mot a un sens principal et des sens dérivés. La méthode onomasiologique part des classes de signifiés pour les structurer. Les promoteurs de cette méthode estiment que ces classes forment des zones conceptuelles. Il s’agit pour nous de mettre en relation les mots avec leurs représentations sémantiques. Si nous utilisons la méthode sémasiologique, nous supposons que nous pouvons décrire le sens à partir de la forme. Ce sont pour nous deux choses différentes qui forment une seule entité, le signe. Il nous faut alors décrire séparément les deux composants et les mettre en relation. Nous pouvons utiliser pour cela la méthode onomasiologique, qui regroupent l’ensemble des théories reposant sur les champs sémantiques. En premier lieu, il nous faut comprendre comment définir les termes que nous devons comparer pour la désambiguïsation sémantique lexicale. Pour cela, la définition de la triade sémiotique (forme-sens-référent) du signe permet d’expliciter les notions de sens et de référent d’un terme à comparer pour la désambiguïsation des sens des mots. La définition de la lexie est alors faite pour supplanter le terme de forme dans la triade du signe. Une fois que nous avons défini le terme de lexie, il nous faut savoir comment les intégrer aux lexiques. Les diverses approches du sens lexical sont explicitées et permettent de voir comment coder les sens des mots dans les lexiques sémantiques. Les diverses bases lexicales permettent de créer des représentations des sens orientées par la classification sémantique mais dans ce cas, quel type de dépôt doit-on utiliser ? Nous savons quoi comparer et désambiguïser ; nous savons aussi quel type d’information lexicale nous avons besoin pratiquement. La comparaison va constituer à effectuer des traitements sur les notions du thesaurus. Quel traitement doit-on effectuer ? Pour répondre à cette question, il nous faut connaître les rapports qu’entretiennent les mots entre eux c'est-à-dire les relations lexicales sémantiques. 2 2. 1. Le signe Qu’est-ce que le sens ? Le sens a besoin d’un contenant - d’un réceptacle - pour être connu ou reconnu. L’association entre le sens - ou encore le signifié - et ce réceptacle - la forme ou le signifiant - définit alors le signe. C’est par le signe que le sens peut être lu dans le cas de textes. Sans la forme, le signe et le sens n’existe pas dans le texte, c’est une évidence mais sans le sens, la forme et le signe n’existent pas non plus. Un mot peut avoir un sens mais pas de référent, par exemple les mots grammaticaux : la préposition de, dans « le bateau de pêche », exprime que le bateau sert à aller à la pêche ; il sert à exprimer que pêche est le complément de nom de bateau. L. Tesnière - cité dans (Baylon & Mignot, 1995, p. 31) - oppose ainsi les mots pleins, référentiels - un mot qui désigne un référent - aux mots vides, non référentiels. 2. 1. 1. Le référent et le sens Dans cette association forte qu’est le signe, on peut inclure la notion de référent quand celui-ci existe : le référent n’est pas le sens. Prenons par exemple le mot bateau : il est la forme du signe ; le bateau tel qu’on l’imagine dans un port, n’est pas le sens du signe, il est le référent, la chose auquel le mot réfère. Baylon & Mignot (1995, p.29) définissent le sens par rapport au référent de la manière suivante : On doit faire attention à ne pas confondre sens et référent. […] Le mot cheval ne hennit pas, ne galope pas, contrairement à l’animal ainsi dénommé [le référent]. Comme tout mot, il a un sens, mais ce sens a une réalité psychologique, à bien distinguer de la réalité, extérieure au cerveau et à l’esprit, qu’est un cheval. Ils donnent finalement le triangle sémiotique bien connu suivant pour le signe (Baylon & Mignot, 1995, p. 30) : sens forme référent On voit que le sens et le référent sont distincts. Cependant, le sens peut souvent être une voie d’accès au référent. Quand c’est le cas, deux niveaux de sens sont à regarder : Le sens en langage décrit un savoir usuellement connu par les usagers de la langue et est décrit dans les dictionnaires ; Le sens en emploi qui fait allusion au contexte dans lequel l’énoncé du discours est fait : Pour répondre à la question « Connaissez-vous cette ville ? », il faut connaître le sens en langage du mot ville, mais aussi le contexte utilisé, ici donné par cette. 3 Mais en plus du sens dénotatif (ou sens dénoté, qui désigne le référent) un mot référentiel comporte des connotations qui traduisent : Des jugements de valeurs portés sur le référent du mot ; De l’appartenance du mot à divers niveaux de langue - ou registres. Deux remarques : - Un mot peut avoir plusieurs sens pour un même référent. Cela dépend des connotations : les mots automobile et tire désignent le même objet. Pourtant, ils ont deux sens différents. - De la même manière, une forme peut avoir plusieurs référents et donc plusieurs sens. Les mots polysémiques peuvent avoir plusieurs référents : le mot cheval désigne le cheval (l’équidé) mais aussi le cheval-arçons en gymnastique, et le cheval fiscal (unité de puissance du moteur). Le type de sens des mots que nous utilisons pour la représentation des sens est le sens en langage. Il est en effet celui qui est décrit dans les dictionnaires et aussi dans les thesaurus des mots aux idées puisqu’il correspond au sens que tous les usagers de la langue ont en commun. On voit que le sens d’un mot ne dépend pas que du sens en langage. Cependant, le sens en emploi est difficile à prévoir puisqu’il fait référence à des connaissances extralinguistiques autant que des connaissances transphrasiques : par exemple, le mot cette fait référence à une ville précise donnée autre part dans le texte duquel est extraite la phrase « Connaissez-vous cette ville ? » mais atteindre ces connaissances transphrasiques suppose au moins le traitement de la référence dans les textes et cela ne rentre pas dans le cadre de cette thèse. Par contre, la hiérarchie du thesaurus peut laisser prévoir la construction et l’utilisation du sens dénoté évidemment, mais aussi des connotations. On le verra plus tard dans le chapitre suivant. La description du sens peut prendre plusieurs ouvrages. La description préalablement faite ici si elle n’est pas exhaustive, pose au moins quelques pierres sur la notion du sens des mots et concerne le sens présent majoritairement dans les dictionnaires et dans le thesaurus que nous utilisons. 2. 1. 2. La forme du signe La forme du signe en sémiotique peut prendre plusieurs aspects différents : le son, le graphique et des séquences de caractères formant le mot dans les textes. En sémantique, le mot est généralement divisé en deux parties, la racine et le morphème. Ils sont tous les deux signifiants dans les mots, mais beaucoup de mots ne se réduisent pas à l’addition des sens de leurs deux composants. En fait, nous traitons le mot comme l’unité minimale du sens. Exemple : La racine du verbe chauffer est chauff, mais le 4 morphème -eur (signifiant celui qui) ajouté à la racine chauff donne non pas « celui qui chauffe » mais « celui qui conduit (un véhicule) ». Le mot est aussi désigné sous le terme de lexème simple. De la même manière, les groupes de mots - textes, phrases, syntagmes ou expressions composés - prennent du sens. Dans les textes écrits, le sens de la phrase tout entière dépend des sens des mots ou expressions composées qui la composent plus des contextes transphrasiques et extra-linguistiques. Ces contextes sont difficiles à mettre en œuvre, et nous sommes pour l’instant obligés de ne tenir compte que des sens des composants de la phrase qui sont les mots ou les composés. Un composé est la partie d’un groupe de mots qui est sémantiquement le plus interprétable. Il doit être une combinaison de plus d’un mot pour avoir le bon sens. Dans quelques cas, le sens est idiomatique. Une expression idiomatique a 2 catégories : - Un idiome est une expression spéciale avec un sens spécial. Le sens de toute l’expression est différent de la composition des sens littéraux. Le sens final est difficile à comprendre pour un non-natif de la langue. Il est aussi appelé lexème complexe figé - dont le sens est figé indépendamment du sens des composants. - Un complexe unitaire (un lexème complexe non figé) n’est pas un mot complexe ; c’est un groupe de mots libres. Le sens des mots concaténés dépend suivant le contexte et est soit une réunion des sens des composants soit un sens indépendant des composants. Ce sens indépendant peut être figuratif ou métaphorique. Ce découpage en mots et composés rejoint la définition de la lexie de B. Pottier (1991) et de Mel’uk et al. (1995) dans la théorie Sens-Texte que nous voyons de manière un peu plus approfondie maintenant. 2. 1. 3. La lexie de Mel’uk, Clas et Polguère La théorie lexicologique de Mel’uk, Clas et Polguère est une étude des lexies des langues naturelles. D’après Mel’uk et al. (1995), les lexies forment la partie primordiale de la langue. En exagérant quelque peu, ils prétendent que l’ensemble des lexies est la langue. En effet, une langue est constituée de lexies et de règles servant à la manipulation de ces dernières. Les règles qui assemblent les lexies en syntagmes, les syntagmes en phrases, et les phrases en discours sont - pour eux - nettement secondaires par rapport aux lexies - en ce sens que leur nature et leur forme sont déterminées par les lexies. L’ensemble des règles de la grammaire d’une langue L, permet d’assembler des lexies, et ces règles doivent donc être formulées en fonction des lexies. D’où leur assertion suivante : Le lexique d’une langue prime logiquement sur sa grammaire. 5 La démarche de Mel’uk et al. s’intéresse d’abord à la lexie et ensuite à la manière dont les différentes lexies sont articulées. Ils situent leur travail dans le cadre de la théorie linguistique Sens-Texte, où l’on part de la lexie et de ses caractéristiques sémantiques pour construire des arbres syntaxiques. En ce qui nous concerne, nous nous intéressons à leur définition de l’unité lexicale et de leur utilisation dans les dictionnaires. Ces définitions nous permettent de mieux comprendre ce qu’est une lexie. La lexie Le concept de lexie est une formalisation et, simultanément, une généralisation de la notion de MOT. Définition d’une lexie1 Une lexie (ou unité lexicale), est soit un lexème, soit un phrasème. Un lexème est un mot pris dans une seule acception bien déterminée et munie de tous les renseignements qui spécifient totalement son comportement dans un texte. Voici un exemple : le mot PONT : Lexie 1 : PONT au sens de ‘construction reliant les deux rives d’une étendue d’eau...’ ; Lexie 2 : PONT au sens de ‘jours chômés entre deux jours fériés’ ; Lexie 3 : PONT au sens de ‘ensemble des organes transmettant le mouvement ... [dans une automobile]’ ; Lexie 4 : PONT au sens de ‘circuit électrique formé par 4 composants...’ ; Lexie 5 : PONT au sens de ‘plancher fermant par en haut la coque d’un bateau...’ ; ... Un phrasème est une locution prise dans une seule acception bien déterminée et munie de tous les renseignements qui spécifient totalement son comportement dans un texte Du point de vue sémantique, il en existe 3 types : 1) Le phrasème complet est une locution dont le signifié n’inclut aucun signifié des signifiants le composant. Exemple : POMME DE TERRE. 2) Le semi-phrasème est un phrasème AB dont le signifié ‘AC’ ou ‘BC’ inclut le signifié de l’un de ses constituants, alors que l’autre ne garde pas son sens, ou même s’il garde son sens n’est pas sélectionné librement. 1 Le terme lexie a été défini et proposé par B. Pottier (1991). 6 Exemple : Le signifié de PIQUER UN SOMME ‘faire un somme’ inclut le sens de SOMME ‘sommeil court’ mais pas celui de PIQUER ‘entamer avec une pointe’. C’est un semi-phrasème ou une collocation (avec le mot-clé [un] SOMME). 3) Un quasi-phrasème est un phrasème AB au signifié ‘ABC’ qui inclut les signifiés des deux constituants et un surplus imprévisible ‘C’. Exemple : Le signifié de CENTRE COMMERCIAL ‘centre commercial formé de nombreux magasins et de lieux de service, ayant un parc de stationnement...’ inclut les sens de CENTRE (lieu où diverses activités sont regroupées) et celui de COMMERCIAL ‘relatif au commerce’ plus la composante ‘formé de nombreux magasins et de lieux de services...’ ; c’est un quasi-phrasème. Revenons sur le mot PONT : on connaît toute une série de locutions comprenant le mot PONT, qui constituent d’autres lexies : Lexie 6 : PONTS ET CHAUSSEES au sens de ‘service administratif des voies publiques...’ ; Lexie 7 : PONT AERIEN au sens de ’liaison régulière par avion entre deux points...’ ; Lexie 8 : COUPER LES PONTS [avec quelqu’un] au sens de ‘cesser délibérément les relations [avec quelqu’un]...’ Finalement, une lexie est une entité trilatérale, elle a : - un sens (le signifié saussurien), - une forme phonique/graphique (le signifiant saussurien), et - un ensemble de traits de combinatoire (le syntactique de la théorie Sens-Texte : Mel’uk 1993 : 117). Les sens sont présentés par les expressions entre guillemets ‘sémantiques’ ; les formes phoniques sont exprimées par l’écriture orthographique habituelle (même si parfois il faut préciser la forme phonétique) ; et les traits de combinatoires sont spécifiés par l’indication du genre grammatical (PONT est masculin), du régime (pont entre N1 et N2, ou couper les ponts AVEC N), etc. La délimitation des lexies Le but de Mel’uk et al. est de construire un dictionnaire, c'est-à-dire de créer un ensemble de lexies. Cette construction implique de donner un certain nombre de critères pour différencier ces lexies des autres (la délimitation). La délimitation des lexies, c’est-à-dire la division des acceptions d’un mot ou d’une locution polysème, est un des problèmes les plus délicats et les plus ardus qui se posent au lexicologue ; les décisions prises à ce propos sont toujours lourdes de conséquences. Il s’agit du problème suivant, fort connu en lexicologie (et en lexicographie pratique) : Comment différencier entre l’homonymie, la polysémie, et le caractère vague des lexies ? 7 En fait, délimiter des lexies revient à trancher, dans chaque cas particulier, le problème de l’ambigu vs le vague. Définition : Expression Lexicale Une expression lexicale est une unité linguistique qui manifeste des caractéristiques apparentes d’une lexie. Définissons les deux termes Ambigu et Vague : Définition : Ambigu Une expression lexicale est ambiguë si et seulement si elle correspond alternativement à plus d’une lexie [= soit à L1, soit à L2, soit à ...]. Exemple : Dans la phrase « C’est Jean qui a peint ce plafond. », PEINDRE a trois sens bien différents, le sens ‘a couvert le plafond de peinture’ (=ravalement), le sens ‘a couvert le plafond d’images artistiques’ (=Jean a produit une œuvre d’art) et le sens ‘peindre sur une toile’ (=Jean a peint ce plafond sur une toile). Dans ce cas, Les trois interprétations de PEINDRE sont décrites par trois lexèmes différents. Définition : Vague Une expression lexicale est vague si et seulement si son sens correspond alternativement à plus d’un référent extra-linguistique, alors qu’elle-même correspond à une seule lexie. Exemple : TANTE peut être à la fois ‘une sœur de mon père’ ou ‘une sœur de ma mère’. Il est vague mais pas ambigu ; il ne constituera qu’une seule lexie. Pour aider à choisir si une expression lexicale peut devenir une lexie, il doit la passer au crible de 5 critères donnés dans (Mel’uk et al., 1995, pp. 61 et suivantes). Une expression lexicale qui peut devenir une lexie, est appelée une lexie potentielle. Pour décider si cette lexie potentielle est vraiment une lexie, le lexicologue a deux types de vérifications : - D’une part, pour chaque lexie potentielle L, il doit vérifier s’il peut la considérer comme une seule lexie ou bien s’il faut la scinder en deux lexies, L1 et L2 ; - D’autre part, pour chaque paire de lexies potentielles L1 et L2, il doit vérifier s’il peut les considérer comme distinctes ou bien s’il faut les unir en une seule lexie L. La délimitation permet de bien différencier une acception d’une autre, c'est-à-dire une lexie d’une autre. Ce travail est fait ni plus ni moins que pour construire le dictionnaire qui est une description du lexique de la langue L - sous la forme d’une énumération de lexies de L - dans laquelle chaque lexie est munie d’informations pertinentes. Cette brève description de la théorie lexicologique Sens-Texte nous a permis de mieux appréhender le problème de la lexie et de l’acception de sens qu’elle soit monoterme (le lexème) ou pluriterme (le phrasème) et de toute la syntactique qui leur est étroitement liée. 8 Sans vouloir rentrer dans le débat de courants linguistiques, nous ne partageons pas leurs conclusions dans les faits, puisque justement, nous utilisons le schéma classique de séquences d'analyses - morphologie, syntaxe et enfin sémantique - alors qu'ils s'intéressent essentiellement à la lexie. Leur étude des lexies se veut multilatérale. la lexie est étudiée simultanément sous trois facettes : la facette sémantique, la facette syntaxique et la facette lexico-combinatoire. L’approche lexicologique prime la lexie sur les règles de grammaire. L’étude sur la lexie semble faite de manière plus complète que dans les méthodes classiques, en tenant compte surtout des interactions entre les caractéristiques morphosyntaxiques et les caractéristiques sémantiques des lexies. Cette approche est à séparer des approches courantes en analyse sémique par une description explicite des sens. Le langage descriptif du sens est le langage courant modifié en cas de confusion possible. Le sens n’est ni projeté sur des zones conceptuelles ni différencié des autres sens par des traits sémantiques, il est juste explicité. 2. 2. Les champs sémantiques et le sens lexical On peut manipuler un grand ensemble d’entités sans y introduire au préalable un minimum d’organisation et cela est vrai aussi pour le lexique et les significations des mots puisqu’on vient de le voir dans la définition de la lexie de Mel’uk et al. (1995). En effet, ils codent les lexies dans leur dictionnaire selon l’ordre alphabétique. On peut cependant organiser les connaissances en champs pour amener une différenciation entre ces connaissances. La notion de champ a été utilisé pour : - Découper un domaine de connaissances ; il est alors partagé en plusieurs champs dont on peut examiner les rapports. - Isoler un domaine d’autres domaines ; on y voit un unique champ. Il fournit alors un cadre d’étude autonome, avec des rapports internes entre les autres composantes du champ. Un champ sémantique peut être défini comme un domaine de sens que se répartissent un certain nombre de mots s’organisant ainsi en champs lexical. Cette approche est à différencier de la méthode sémasiologique qui consiste à partir du formant pour retrouver les sens. Pour la dernière méthode, le formant donne le sens principal en cas de polysémie et tous les autre sens sont dérivés. A l’inverse, les champs sémantiques permettent de définir le sens indépendamment du formant. Cet ensemble de champs permet alors une représentation sémantique des mots. Cette approche est utilisée entre autres par les tenants de l’analyse sémique. 9 2. 2. 1. L’analyse sémique ou componentielle L’idée est de trouver un moyen de définir tout morphème ou tout mot comme un ensemble d’éléments (ou de traits) de signification, puis de donner la liste de ces unités élémentaires (les sèmes). Ensuite, une combinatoire allait permettre d’obtenir le sens des énoncés complexes à partir des éléments constituants, dans la mesure où le langage naturel observe la compositionalité. Sa mise en œuvre prônée par L. Hjelmslev dès 1943 (cité dans Baylon & Mignot, 1995, p. 125) [… elle] dure encore aujourd’hui bien que ses très réels succès n’aient jamais été que très fragmentaires. Elle porte aussi le nom d’analyse componentielle ou d’analyse en composants. B. Pottier (1964) a donné une analyse de la catégorie des sièges, présentée résumée dans le tableau suivant : Sèmes : pour s’asseoir Matériau rigide Pour une personne sur pied(s) avec dossier Avec bras Siège + 0 0 0 0 0 Chaise + + + + + - Fauteuil + + + + + + Tabouret + + + + - - Canapé + + - + + 0 Pouf + - + - - - Mots : Dans cet exemple, chaque ligne représente un sémème, c’est-à-dire l’ensemble des sèmes que le mot comporte. Le seul sème qui appartienne à tous les mots est celui de la première colonne, |pour s’asseoir| ; il constitue aussi, à lui seul, le sémème de siège, mot qui peut s’appliquer à tous les objets dénommés par les autres mots de la liste et qui est donc par rapport à eux, l’hyperonyme le plus proche. La sémantique interprétative de F. Rastier (1987) a une ambition plus vaste et une plus grande complexité puisqu’il établit des classifications entre les sèmes des mots de manière à classer les divers mots sous les sèmes caractéristiques représentant chaque classe. F. Rastier (1994, p.61) définit quatre types de classes sémantiques, les taxèmes, les domaines, les champs et les domaines : 10 - Les taxèmes sont à la fois les classes minimales et les seules classes à être nécessaires. Par exemple, autobus et métro appartiennent au même taxème, celui des transports urbains, autocar et train à un taxème différent, celui des transports interurbains. - Les domaines ont une généralité plus grande. Ils correspondent à une pratique sociale déterminée et c’est à aux que renvoient les dictionnaires quand ils assortissent un mot, ou une acception d’un mot, d’une indication telle que marine, chimie, médecine, etc. - Les champs proprement dits se définissent comme des ensembles structurés de taxèmes, mais ici encore, sans que tous les taxèmes entre dans un champ sémantique. Ainsi le champ de moyens de transport réunit le taxème des transports urbains et celui des transports interurbains. - Les dimensions sont des classes peu nombreuses, de grande généralité et souvent grammaticalisées. Elles ne regroupent pas les domaines mais les divisent. Soit la dimension représentant l’opposition animé et non-animé. Elle divise le domaine de la cuisine en permettent d’y distinguer le taxème animé des cuisiniers et le taxème inanimé des instruments de cuisine. Pour être désigné par un mot donné, un référent doit répondre à un certain nombre de conditions, d’où l’appellation de modèle des conditions nécessaires et suffisantes. Lorsque le référent possède toutes les qualités pour entrer dans une catégorie, on considère qu’il lui appartient ; il peut alors se voir appliquer le mot qui la dénomme. Par exemple, la catégorie des oiseaux regroupe les animaux dont les propriétés imputables sont faciles à énumérer : avoir des ailes, un bec, deux pattes, des plumes, pondre un œuf. En principe, un même référent peut donc relever de plusieurs catégories, selon qu’on sélectionne telles ou telles propriétés parmi celles qu’il possède. Un oiseau appartient à la catégorie des ovipares, comme les insectes et la plupart des reptiles, si on ne retient que la propriété de pondre des œufs. La principale objection à cette théorie est : on peut attendre des analyses en traits qu’elles ne se limitent pas à un échantillonnage mais que de proche en proche, comme le lexique, elles couvrent tout le champ de ce qu’on peut parler, de l’expérience humaine, selon l’expression de Martinet. Or, cette expérience est déçue, pour deux raisons : - La première est que pour articuler toute la réalité sous les mots, il faudrait que soit résolue la question des rapports entre les divers champs lexico-sémantiques qui souvent se chevauchent. Or, selon Baylon et Mignot (1995, p.128), elle ne l’est pas, et ils doutent que qu’elle le soit prochainement. - La deuxième, due aux limites intrinsèques de l’analyse sémique, empêche aussi de donner une description complète de l’expérience humaine telle qu’elle se présente dans le lexique. Dans de nombreux cas, la réduction des significations à un ensemble de sèmes est tout simplement impossible à opérer. L’exemple des couleurs bleu, jaune, rouge, vert, etc., est souvent donnée car ces catégories ne semblent pas posséder de propriétés discrètes et on en voit pas comment leur appliquer une analyse en traits ni donc, de façon plus générale, le modèle des conditions nécessaires et suffisantes. 11 2. 2. 2. La sémantique du prototype L’initiatrice en est surtout la psychologue E. Rosch-Heider. Elle a fourni un modèle du sens qui remédie à une partie des faiblesses inhérentes à l’analyse sémique sous ses formes les plus élémentaires. C’est la théorie du prototype (Kleiber, 1990). Entre autres avantages, elle a donné du sens une conception moins rigide et par-là plus adéquate. Le pouvoir référentiel des mots s’en trouve mieux expliqué. Que doit-on entendre par prototype ? Est ou sont désignés sous ce terme le ou les membres les plus caractéristiques de la catégorie dénommée, ceux du moins qui sont jugés tels par les usagers, comme on peut l’établir par divers tests. Par exemple, les aigles et les moineaux sont prototypiques de la catégorie des oiseaux. Elle résout des problèmes où la théorie sémique échoue comme dans l’exemple des couleurs et des couleurs rouge, jaune, vert. On arrive à décomposer un bleu d’un rouge en choisissant un type de bleu et un type de rouge représentatifs d’autres types. La notion de prototype ne se définit pas forcément comme la résultante d’une analyse componentielle mais c’est plutôt un modèle psychologique. Cependant, on peut toujours objecter que les rapports entre les divers champs sémantiques ne sont toujours pas facile à obtenir. A partir du moment où les champs sémantiques se chevauchent, la question se pose de savoir pourquoi chercher à définir les sens par rapport à des traits fins. Il semble que le fait de différencier finement des sens n’apporte rien sur les rapports entre ces champs. Il vaut mieux dans ce cas, prendre des zones conceptuelles plus larges et de définir les sens dans cette représentation sémantique en utilisant le fait que les champs sémantiques se chevauchent, par exemple, dans un thesaurus. De plus, le travail de codage des sens en analyse sémique est énorme et les traits sémiques sont de plus en plus nombreux au fur et à mesure que l’on différencie les termes. 2. 2. 3. La grammaire des cas de Fillmore La théorie casuelle de Fillmore s’inscrit dans la tradition sémanticiste de la théorie linguistique sur la notion de cas défendue par Hjelmslev (1935, p.21). Elle représente non pas une alternative à l’analyse sémique mais un complément à celle-ci en discriminant en aval les formants par des critères syntaxosémantiques. Description de la grammaire des cas de Fillmore La représentation profonde d’une phrase est composée d’une modalité et d’une proposition. La modalité contient des informations sur la négation, le temps, le mode et l’aspect. La proposition est une structure indépendante du temps. Elle permet l’identification du verbe et la reconnaissance des relations sémantiques qui lient les groupes 12 nominaux au verbe. Le verbe est considéré comme le composant central de la phrase. Cette distinction entre modalité et proposition peut se schématiser ainsi : S = M + P et P = V+C1+C2+…+Cn Où chaque Ci est le nom d’un cas qui va représenter un nom lié au verbe par les cas sémantiques Ci. Ci pourra indiquer le cas sémantique qui lie une entité complexe au verbe. Fillmore définit le cas comme suit (1968, p. 24) : Les notions de cas comprennent un ensemble de concepts universels, vraisemblablement innés, qui identifient certains types de jugements que les êtres humains sont capables de faire sur les événements qui sont en cours autour d’eux, des jugements sur des questions comme « Qui l’a fait ? », « A qui cela arrive-t-il ? », et « Qu’est-ce qui a changé ? ». Les cas atomiques L’existence des cas atomiques de la langue d’origine et en nombre restreint constitue l’hypothèse initiale de Fillmore. Les premiers cas proposés sont les suivants : AGENT L’acteur animé d’une action INSTRUMENT L’objet inanimé affecté DATIF L’animé affecté par l’action FACTITIF L’objet résultant de l’action LIEU Lieu ou orientation OBJET Le reste Exemple : Alain va à la mer en voiture. Agent : Alain Lieu : à la mer Instrument : en voiture L’ensemble de ces cas paraît difficilement suffisant et Fillmore proposa ensuite un nouvel ensemble de cas : AGENT L’acteur animé d’une action CONTRE-AGENT La force contre laquelle l’action est exécutée OBJET L’entité dont la position ou l’existence est en question RESULTAT L’entité créée par l’action 13 INSTRUMENT L’élément physique causant l’événement SOURCE Le lieu de départ BUT L’arrivée PATIENT L’entité qui reçoit, accepte ou subit les effets de l’action Exemple : Claude a eu sa licence malgré la difficulté des épreuves. Agent : Claude Résultat : licence Contre-Agent : la difficulté des épreuves Les noms sont représentés par des traits lexicaux fixés par les définitions des notions casuelles. Ainsi, l’Agent exige l’insertion d’un Nom défini comme [+animé]. C’est à ce moment que la complémentarité de l’analyse sémique se fait avec la grammaire des cas. Les Agents ou les autres cas, ou les mots des groupes formant les cas, peuvent être définis par une analyse sémique comme celle de F. Rastier (voir la section 2.2.3.). La notion de cadre casuel L’unicité de la réalisation d’un cas est un aspect fondamental de la théorie des cas. Cela implique que pour un verbe donné, dans une phrase donnée, un seul groupe nominal peut être lié à ce verbe par un cas sémantique donné. Tous les composants syntaxiques de la phrase n’ont pas le même traitement puisque le verbe semble être au centre de la grammaire. En effet, il est représenté par ce que Fillmore appelle le cadre casuel (case frame en anglais). Le deuxième aspect de la théorie consiste à associer a priori à chaque verbe ses cas sémantiques possibles. Un exemple (Sabah, 1988) : Casser [Objet, (Instrument),(Agent)] Dans cette association, on indique également le type facultatif ou obligatoire d’un élément (Ici, les éléments facultatifs sont mis entre parenthèses). Plusieurs ossatures sont associées à un verbe lorsqu’un verbe possède plusieurs sens : Voler [Agent] Voler [Objet] Voler [Agent, Objet] La définition d’un cadre casuel détermine également l’ordre dans lequel les éléments de la phrase doivent être trouvés : Aller [(Agent), Lieu] 14 Ce cadre casuel accepte donc les phrases comme : Pierre va à Paris. Va à Paris. Mais il refuse une phrase comme « A Paris va Pierre. » La notion de cas sémantique permet de distinguer également les phrases de même structure : Cette veste est chaude. (instrument) Cette journée est chaude. (temps) Cette pièce est chaude. (lieu) Son front est chaud. (patient) La liste de cas semble loin d’être définitive - de l’aveu même de Fillmore (1968, p.24) - et l’histoire de la grammaire des cas connaîtra une longue série de changements dans le répertoire des cas (Fillmore, 1977a : pp. 71-72). Enfin, la recherche de cas plus abstraits a été tentée par Grimes ou Simmons. Les réseaux sémantiques empruntent les notions primitives de la grammaire des cas. La grammaire des cas est souvent mise en avant pour ces capacités à relier la syntaxe et la sémantique des phrases en utilisant la notion de cadre casuel. Cependant, des problèmes apparaissent dans son utilisation. - Un des problèmes avec la grammaire des cas est la restriction de l’utilisation de la langue naturelle. En effet, des phrases peuvent être jugées inacceptables par la grammaire des cas car elles sortent de la capacité de traitement de la grammaire des cas. Deux exemples : John and a hammer broke the window. Dans ce premier exemple, il y a coordination de deux syntagmes nominaux (en abrégé SN) représentant deux cas différents (Agent et Instrument) alors que le sujet ne doit être représenté que par un seul cas. A hammer broke the window with a chisel. Ici, on a deux SN non coordonnés représentant le même cas (Instrument). Un autre problème de restriction vient avec l’utilisation de l’analyse sémique pour définir les cas. Le cas Agent est forcément donné avec le trait sémique [+animé] car il y a en principe un lien sémantique d’agent agissant à action accomplie par cet agent. Or, les contre-exemples sont assez nombreux pour réfuter cette hypothèse comme «La terre tourne autour du soleil» et «l’eau coule». - Une autre problème concerne la liaison non pas entre cas et SN mais entre verbe, son cadre casuel et le référent. A chaque utilisation de cadre pour un verbe, doit correspondre un et un seul sens de ce verbe. Si certaines ambiguïtés sont levées par le 15 cadre casuel, d’autres restent comme choquer dans les sens de blesser physiquement et moralement quelqu’un. Le cadre casuel est le même mais les signifiés sont différents. Une autre exemple d’ambiguïté due à la polysémie est le verbe poser dans les deux exemples suivants : 1) Jean pose les rideaux sur la fenêtre. 2) Jeanne pose les couverts sur la table. La cadre casuel de poser est ici Poser[Agent, Objet, (Lieu)] mais on a deux sens différents car dans 1), le verbe poser peut être remplacé par suspendre ou accrocher et dans 2), non. Nous voyons que la grammaire des cas de Fillmore ne résout pas les problèmes syntaxiques ni sémantiques mais qu’à l’inverse, elle en ajoute. On voit bien que la plupart des méthodes utilisées en champs sémantiques ne nous satisfont pas mais que l’hypothèse de zones conceptuelles nous séduit car elle permet une représentation des sens de toute la connaissance et donc un traitement des textes généraux. L’utilisation de dépôts linguistiques comme des dictionnaires ou des thesaurus conservant cette représentation des sens des mots peut peut-être nous aider. 2. 3. Le problème de la classification sémantique La classification sémantique pose le problème de savoir quoi classer et comment le classer. Cette différenciation des connaissances sémantiques se retrouve dans les supports d’information sémantique disponibles ou en cours de réalisation. Les classifications sémantiques sont représentées par trois types de support existants : les taxonomies, les dictionnaires et les thesaurus. Les taxonomies de sens des mots sont des supports existant mais en cours de construction pour la plupart. 2. 3. 1. Les taxonomies de concepts Les taxonomies des mots comme celle de WordNet en anglais (voir la section 1.3) par exemple, sont une manière différente des dictionnaires et des thesaurus de classer les mots. L’idée est de représenter les mots par rapport à des concepts et ces concepts sont hiérarchisés entre eux par deux relation, l’hyponymie et l’hyperonymie, qui donnent alors la taxonomie recherchée. L’hypothèse de base semble que le lexique sémantique d’une langue puisse être organisé comme une seule taxonomie. Or d’après F. Rastier (1994 ; p.44) : En filant la métaphore de l’arbre, disons que le lexique d’une langue n’est pas ramifiée à l’image d’un baobab mais ressemblerait tantôt à une garrigue arborée tantôt à un taillis sous futaie. 16 Une autre objection concerne la distinction des sens : Agirre et Rigau (1995) estiment que les distinctions de sens dans WordNet 1.4, ne semblent pas complètement satisfaisantes pour l’expérimentation. En dehors du fait que WordNet 1.4 est une taxonomie en construction qui contient quand même un vocabulaire de l’ordre de 83.800 noms et environ 87.600 liens entre les concepts, il semble que le travail d’affinage est perpétuel dû au problème de chevauchement des champs sémantiques utilisés. 2. 3. 2. Les dictionnaires sémantiques Un dictionnaire sémantique doit être précis et explicite. Il doit comprendre une théorie sur la manière dont les mots sont utilisés. Un dictionnaire est un dictionnaire au sens ordinaire : il doit donner des définitions ou des descriptions des signifiés des mots. Il doit aussi donner des indications des cas contextuels d'utilisations des mots-sens, i.e. une «classification sémantique». Les mots ont plusieurs sens et donc plusieurs équivalents dans les autres langues, et il est donc nécessaire de choisir le bon candidat. On a souvent lié le choix du sens d’un mot aux domaines de la langue dans lesquels les mots sont répertoriés et des dictionnaires existent alors par rapport à ces domaines. Qu’en est-il de leur utilisation ? La méthode de restriction aux domaines En PHYSIQUE, mass veut dire weight et se traduit donc par masse. L’idée dans cette approche est de diviser la langue naturelle en plusieurs compartiments. L’idée d'utiliser des marqueurs de domaines a déjà été utilisée, mais cela n'a pas été un grand succès. Le problème est qu'un mot donné peut avoir plusieurs sens dans un texte parlant d'un sujet. On ne pourra plus discriminer un sens d'un mot d'un autre dans un contexte donné. De plus, des mots comme avoir, succès ou certain ont des sens différents pour lesquelles il n'y a pas de signification précise dans un domaine. Le sens d’un mot doit être trouvé en contexte et ce contexte ne peut pas être donné d’avance. Le contexte ne peut pas être réduit à l’utilisation d’un domaine fixé préalablement. Cette idée échoue, non pas parce que les marqueurs sont faux mais parce qu’ils sont trop grossiers. Les marqueurs de domaine d’un dictionnaire sémantique ne peuvent pas dans ce cas être utilisés comme classification sémantique des mots et être utilisés en lexique. Cette classification en domaines si elle est nécessaire dans les dictionnaires à la compréhension des termes dans des domaines précis, ne permet pas un réel choix des sens en fonction du contexte. 17 Vers une théorie plus subtile Une théorie plus satisfaisante est nécessaire pour identifier le sens d’un mot en utilisant le contexte environnant. Ce besoin d’une explication plus fine se fait plus pressant si on veut raffiner l’utilisation des étiquettes, pour avoir une analyse associée plus subtile. Supposons que chaque mot dans un texte peut avoir plus d’un sens. Chaque mot d’un texte est potentiellement ambigu. Or, nous comprenons le texte car il véhicule des idées particulières ou un ensemble d’idées. Il transporte un message. Ce n’est pas la répétition des mots qui donne le contenu du message mais la répétition d’une idée ou d’un ensemble d’idées. En fait, plutôt que de dire que les mots ont des sens, il semble raisonnable de dire que les mots expriment des idées différentes. Les mots peuvent exprimer différentes idées mais le discours, pour se tenir, concerne quelques idées reliées les unes aux autres. On peut donc comparer les mots entre eux et avec le discours. Si un texte comportait plusieurs idées non reliées, on ne pourrait pas comprendre le message. Mais si nous disons que des mots peuvent exprimer les mêmes idées, nous faisons alors de la classification sémantique. Nous ne disons pas qu’ils ont la même signification, mais qu’ils expriment la même idée générale, que leurs sens ont quelque chose en commun. Nous les mettons alors ensemble dans une classe sémantique ou conceptuelle. L’hypothèse avancée ici est ainsi une hypothèse sur la manière d’utiliser une classification sémantique pour résoudre l’ambiguïté lexicale. Un dictionnaire sémantique est difficile à utiliser, que ce soit pour sa répartition sémantique des sens des mots dans des domaines, ou non. En effet, les définitions fournies dans les dictionnaires sémantiques utilisent des mots de la langue courante pour définir les autres mots. Il peut donc y avoir des problèmes de cycle dans les définitions. De plus, les définitions sont souvent courtes : on ne peut donc pas utiliser les mots de ces définitions pour fournir un ensemble d’indicateurs valables. Nous avons vu que la recherche d’affinage des sens des mots dans une taxonomie malgré le vocabulaire produit, conduit encore à avoir des problèmes de distinctions de sens entre les mots. En sachant que les champs sémantiques se chevauchent forcément, plutôt que d’essayer d’affiner ces champs, il vaudrait mieux essayer d’utiliser des zones conceptuelles moins fines. Suivant ce dernier critère, le problème est donc de trouver une classification sémantique appropriée pour les mots dans un vocabulaire de la langue naturelle, qui existe déjà pour minimiser le temps de codage à la main des informations. Ce dont nous avons besoin, en fait, est un thesaurus. 18 2. 3. 3. L’utilisation d’un thesaurus Le thesaurus que nous utilisons, le Thesaurus Larousse, est la traduction du Roget’s Thesaurus of English Words and Phrases :. Dans ce thesaurus, les mots sont classés « selon les idées qu’ils expriment ». Les mots qui expriment les mêmes idées, sont alors rassemblés sous la même section ou mot tête. Un mot qui exprime des idées différentes, est présent dans différentes ‘têtes’ qui représentent son ou ses sens. Un thesaurus nous donne alors une interprétation précise pour la notion vague de classification sémantique. Nous pouvons utiliser le thesaurus non simplement comme un outil pour trouver un mot, mais comme un moyen précis et efficace pour classer les mots d’un langage. Les 873 notions du Thesaurus Larousse ne représentent pas les sens des mots mais l’idée ou la notion qu’ils expriment. Le thesaurus est divisé en trois parties : la hiérarchie des notions, les articles et l’index des mots de la langue française. Description d’un article du thesaurus L’exemple suivant donne une description d’une partie d’un article du Thesaurus Larousse : Commentaires sur la cellule à droite Un extrait d’un article du thesaurus Numéro de l’article 239 Poids Numéro de paragraphe N. 1 Poids ; lourdeur, pesanteur ; consistance, densité 238 ; pondérabilité. - Autorité, influence 623. – … Pondération 448. Les paragraphes regroupent les mots par familles de sens. Catégories grammaticales Les paragraphes sont ordonnés selon les catégories grammaticales (ordre : N. V. Adj. Adv.) Commentaires sur la cellule à gauche Titre de l’article Il indique la notion traitée. 6 Poids (un poids) ; charge, chargement, faix, fardeau ; boulet [fig.]. - Surcharge, surpoids ; handicap [TURF]. … V. 14 Peser ; faire tel poids, peser brut ou, vx., ort, peser net ; titrer, valoir, valoir son pesant d’or (ou, par plais. : son pesant de cacahuètes, de moutarde). … Peser lourd, peser le poids d’un âne mort [fam.] ; faire le poids (plus souv., ne pas faire le poids). Les articles sont disposés, partout où cela est possible, par paire de notions opposées ou corrélatives. 16 Alourdir, charger, lester, surcharger ; vx : aggraver, appesantir ; densifier 238.7 ; donner du poids à 438. Un article représente un numéro et une notion du thesaurus. Dans chaque article numéroté de 1 à 873, se trouvent des paragraphes ordonnés par ordre de catégories 19 grammaticales – nom, verbe, adjectif, adverbe. Les paragraphes représentent des familles de sens. La hiérarchie des notions Une particularité du Thesaurus Larousse consiste en une hiérarchie des notions mise en place par les auteurs. Elle semble provenir de deux besoins : - Le premier est d’organiser les idées afin de pouvoir les parcourir pour la consultation pour atteindre plus rapidement l’idée souhaitée ou le domaine de connaissances souhaité. - Le deuxième provient de la construction de ce thesaurus. Pour une plus grande couverture du monde qui nous entoure et de la langue elle-même, il semble logique de construire des domaines, puis de les raffiner en sous-domaines, etc., afin de n’oublier aucune notion dans ce ratissage. Figure 2.1 : La hiérarchie des notions permettant de trouver la notion Durée. L’exemple de la figure 2.1. illustre comment trouver la notion de durée dans la hiérachie mise en place par les auteurs. Cette hiérarchie sera utilisée pour la désambiguïsation des sens des mots. Nous avons besoin pour les sens des mots, des notions qui sont situées au même niveau, sous le même groupe de notions. La figure précédente illustre une partie de cette hiérarchie. 20 L’index du thesaurus L’index, classé alphabétiquement présente la totalité des mots, expressions et locutions contenus dans le thesaurus. Soit l'exemple du mot passé : passé 177 n.m. pas de danse 786.16 t. de grammaire 740.6 passé antérieur 59.6 ; 740.6 passé historique 740.6 appartenir au passé 195.6 adj. accompli 58.22 ; 60.28 ; 538.20 historique 191.16 désuet 196.10 jauni 352.26 ; 358.9 passé de mode 196.8 Il y a deux formants possibles : le nom masculin et l’adjectif. Les premières lignes de l’article de l’index représentent les sens du nom masculin (n.m.) passé avec les numéros de notions exprimées à leur droite. Les locutions suivent en italique avec leurs numéros de notions. Il en va de même pour l’adjectif (adj.) passé. Un cas particulier, le mot passé est un article du thesaurus, son numéro de notion est donc signalé à sa droite (177 en gras). Le thesaurus et le sens des mots On a souvent assimilé le thesaurus de Roget à un thesaurus de synonymes. Or, comme le dit K. Sparck Jones (1986, p. 207), La différence importante entre Roget et les rédacteurs plus récents, était qu’il n’était pas intéressé par les synonymes ; Roget ne voyait pas son thesaurus comme un dictionnaire de synonymes. Un article du thesaurus contient souvent des synonymes, et cela est normal, mais cela n’est pas le but recherché des auteurs. Sous la notion de 239.Poids, il semble logique 21 de trouver des verbes quasi-synonymes peser et alourdir, mais aussi des noms densité et autorité qui ne sont pas des synonymes. Cependant, ceux-ci partagent une certaine signification donnée par la notion de poids. Cette différenciation est importante à considérer car si l’on avait une classification de synonymie, on pourrait alors considérer cette notion comme le sens des mots classés sous lui, comme le fait D. Yarowsky (1992). Comme ce n’est pas le cas, les notions données par le thesaurus sont ni plus ni moins que des notions suffisamment générales pour exprimer les idées du monde, de l’homme et de la société. Ce sont des zones conceptuelles qui sont exprimées sous le nom d’idée ou notion ici. Nous nous apercevons que dans l’index du thesaurus, les sens d’un mot sont projetés sur l’ensemble des zones conceptuelles du thesaurus - voir l’exemple du mot passé. Dans ce thesaurus, on ne recherche pas à différencier un sens par rapport à un autre avec l'aide de traits sémiques. On ne recherche pas non plus à affiner les sens en les plaçant dans une taxonomie qui deviendrait une hiérarchie entremêlée de liens transversaux entre les concepts. Dans le thesaurus, le sens est simplement projeté sur des zones conceptuelles. Le sens d’un mot est représenté par un 1 ou un 0 – présence ou absence – sur l’ensemble des zones conceptuelles du thesaurus. Ces notions ne sont pas disjointes et peuvent éventuellement avoir du sens en commun. En effet, on ne peut pas dire que les sens des mots se réduisent aux 1000 idées du Thesaurus de Roget en anglais ni aux 874 idées du Thesaurus Larousse en français. Donc, les idées du thesaurus ont forcément des choses en commun et ces choses ne peuvent être que du sens. Mais ce qui est un inconvénient dans l’analyse sémique par l’affinement successif des sens devient ici un avantage qui permet aux mots de se projeter sur ces notions. Les idées du thesaurus représentent alors une niveau différent de signification. Cette idée est réjouissante car elle nous extrait quelque peu des différentes théories sur le sens. Le thesaurus est alors un modèle formel de la «façon dont les mots expriment les idées». Nous allons utiliser cet index dans le prochain chapitre pour coder les sens de chaque mot en fonction des critères morphosyntaxiques donnés par le thesaurus. Les sens du nom masculin passé sont donc «pas de danse», et un terme de grammaire «t. de grammaire». Leurs numéros de notion sont respectivement 786.16 et 740.6. De même, l’adjectif passé a quatre sens, accompli, historique, désuet et jauni avec respectivement les listes de numéros (58.22, 60.28, 538.20), (191.16), (196.10), (352.26, 358.9) et (196.8). A chaque sens sera associée une liste de numéros de notions représentant sa projection sur l’ensemble des notions. On aurait pu penser qu’un poids sémantique différent devrait être donné suivant la notion sur laquelle est projetée le sens du mot cherché. Nous ne le faisons pas pour les raisons suivantes : - D’après la définition de Roget, les mots sont classés « selon les idées qu’ils expriment ». Cette définition est floue dans la manière de projeter les sens sur les notions et elle n’indique pas quelle notion est prépondérante dans la liste des notions pour un sens donné. 22 - Si nous donnions une préférence à une idée par rapport à une autre, cela veut dire que nous estimons qu’une idée représente plus le sens qu’une autre, et alors, une question se pose : « Comment choisir une idée plutôt qu’une autre pour un sens donné ? » On se dirige alors vers une méthode de type componentielle avec un ou plusieurs sèmes prépondérants ou vers une méthode de type onomasiologique. Or, on a vu que les notions du thesaurus ne peuvent pas être comparées à des sèmes tels que le définit Rastier (1987). La méthode onomasiologique privilégie le formant alors que nous voulons avec une représentation des sens des mots indépendante des formants et faire le lien avec le formant ensuite. - Enfin, l’idée de la représentation des sens est de pouvoir construire des contextes en fonction des notions. Nous voulons pouvoir exprimer toutes les idées sans discrimination autre que celle donnée par la place des mots dans les syntagmes, les phrases et les textes. Comparaison entre les mots On peut établir deux remarques sur ce thesaurus et la manière dont les sens sont exprimées. Si aucune idée n’est en commun entre les mots, alors les mots n’ont aucun sens en commun. La deuxième remarque est que, à l’inverse, plus deux mots ont des notions en commun plus ils sont proches au niveau du sens. A partir de cette représentation sémantique et de la définition de la synonymie, ou plutôt de la quasi-synonymie, faite plus haut, une notion très utilisée en Recherche d'Informations peut être formalisée. Deux lexies sont similaires sémantiquement ou encore proches sémantiquement s’ils sont quasi-synonymes ou synonymes. Cela se traduit par la projection des sens de ces lexies sur les mêmes notions du thesaurus. Inversement, deux lexies sont éloignées sémantiquement si les sens n’ont aucune idée en commun. A partir de ces deux remarques, on pourra alors définir une mesure de comparaison entre deux mots, ainsi qu’un mot et son voisinage proche ou le texte. 2. 4. Les relations lexicales sémantiques Dans les représentations verticales - dans les hiérarchies notionnelles ou conceptuelles - la relation entre le subordonné et son père dans la structure, est donnée par la relation d’hyponymie et d’hyperonymie. Souvent, les relations de méronymie y sont définies, « Partie_de », « Type_de », etc. Les relations de synonymie, d’antonymie et d’hyponymie ont été définies dans la section 1.3.1. 23 Pour la recherche du sens en contexte, nous allons plutôt nous intéresser ici aux relations entre les sens des mots et ces mêmes mots, puisqu’il nous faut savoir quand un mot a plusieurs sens ou non. Nous allons nous intéresser donc aux relations la monosémie, la polysémie et l’homonymie. 2. 4. 1. La monosémie Le petit Larousse dit d’un mot qu’il est monosémique s’il a un seul sens. L’intérêt de cette définition n’intervient que pour pouvoir la comparer aux mots polysémiques, ou homonymiques, qui nous intéressent vraiment. En effet, il n’y a pas besoin de désambiguïser parmi un seul sens pour un mot. La monosémie se traduira par un seul sens dans l’index du thesaurus même si plusieurs notions expriment ce sens. Le terme caustique est donné par l’index du thesaurus comme étant soit un nom féminin soit un adjectif. Chacun des deux termes a un sens dans l’index, ils sont donc monosémiques. caustique n.f. t. d’optique 350.19 adj. 586.11 2. 4. 2. La polysémie Les définitions de la polysémie et de l’homonymie sont eux intéressants à connaître puisqu’elles permettent de définir le cadre linguistique dans lequel la recherche du sens pertinent prend place. Ce terme a été créé par Michel Bréal dans son Essai de sémantique, paru en 1897, dans un passage où le mot apparaît en conclusion d’une définition préalable (chap. XIV) : ... à mesure qu’une définition nouvelle est donnée au mot, il a l’air de se multiplier et de produire des exemplaires nouveaux, semblables de forme mais différents de valeurs. Nous appellerons ce phénomène de multiplication, la polysémie. 24 C’est donc un phénomène diachronique2 qui consiste en l’addition d’acceptions nouvelles au sens fondamental. Cette multiplication aboutit sur le plan synchronique, à la coexistence de plusieurs significations pour les termes. Ce phénomène se caractérise donc par l’identité d’une forme pour une multiplicité de valeurs. Quelles unités peuvent être polysémiques ? Des unités égales au mot ou plus larges que le mot peuvent être polysémiques : c’est le domaine de la polysémie lexicale et c’est celui qui nous intéresse, ici. Exemples, restauration d’un monument, et restauration comme service d’alimentation. Des unités plus petites que le mot peuvent être polysémiques : - La dérivation qui modifie le sens d’un nom par l’ajout d’un suffixe ou d’un préfixe : -euse dans découpeuse peut être une personne ou une machine. - Des éléments de composition, pour une même forme, peuvent présenter plusieurs significations : télé peut signifier « de ou par télévision » ou « de ou par téléphérique ». Les types de polysémie Il y a essentiellement deux types de polysémie : La polysémie textuelle et la polysémie paradigmatique. - La polysémie textuelle concerne la structuration de l’énoncé. Dans le discours, des termes identiques comportent des cumuls d’information très différents dans le déroulement d’un texte. Par exemple, la définition de X, par un enseignant, en début d’année et en fin d’année ; Dans un texte assez long, sur le mot mère, une modification peut se traduire par la substitution au mot mère du mot marâtre (mauvaise mère). C’est le problème de l’adéquation d’un mot avec lui-même dans l’axe du temps. Le terme devient polysémique entre le début et la fin du texte. - La polysémie paradigmatique concerne les structures de la langue. C’est la conception du sens que l’on retrouve chez les logiciens, la conception référentielle du sens, celle de Wittgenstein (1953) : Le sens d’un mot est son emploi dans le langage... Le sens d’un mot s’explique en montrant ce qui porte le nom. 2 La diachronie est le caractère des phénomènes linguistiques considérés du point de vue de leur évolution dans le temps. Par opposition, la synchronie consiste à considérer les phénomènes de la langue à un moment déterminé, indépendamment de son évolution. 25 Cette conception ne peut être pertinente que dans des domaines linguistiques tout à fait spécifiques tels les vocabulaires scientifiques et techniques qui visent à la monoréférence car la réalité du fonctionnement du langage est contraire à cette analyse des logiciens modernes. On voit que les deux approches s’opposent. Mais ce débat n’a plus lieu. En effet, le principe d’harmonie et de justesse des philosophes du XVIIIe siècle - la prolifération de sens pour un même mot apparaissait comme une corruption du langage « univoque » primitif (Voltaire) - s’oppose à la réalité du langage qui semble être la polysémisation, la « créativité sémantique ». Par rapport à ces deux types de polysémie, notre point de vue se rapproche plus de la polysémie textuelle. Cependant, pour des raisons de représentation des sens, il nous faut une base sur laquelle nous appuyer pour la désambiguïsation des sens des mots. Du coup, nous préférons penser que le mot est polysémique depuis le début du texte. Il nous faut rechercher alors le sens de ce mot soit en fonction de son voisinage immédiat (la phrase, le paragraphe) soit en fonction du texte tout entier, pour chaque occurrence du signifiant dans le texte. En effet, nous supposons que la base de notions sur laquelle nous nous appuyons, contient a priori toutes les informations nécessaires - tous les sens des mots pour la recherche du signifié des mots. Un exemple de mot polysémique est donné par le mot exiger dans l’index du thesaurus : les trois sens sont commander, vouloir et demander. 2. 4. 3. L’homonymie Deux mots sont homonymes s’ils ont la même prononciation avec des sens différents. Les homonymes peuvent être simplement homophones différemment, comme les mots dans les phrases suivantes : s’ils s’écrivent L’air est frais ce matin. Calculez l’aire de ce triangle. Laurent, serrez ma haire avec ma discipline. Fais l’aumône à ce pauvre hère. Il arrive aussi que non seulement les mots soient homophones mais aussi ils sont homographes, comme le verbe louer, remontant au latin locare et au latin laudare : Appartement à louer. Votre conduite en cette affaire est à louer. Une différence d’orthographe garantit clairement l’existence de deux mots distincts. Quelquefois, on a créé une différence artificielle : par exemple, dessin et dessein sont originellement le même mot, dérivés du vieux verbe desseigner (latin designare). 26 2. 4. 4. Homonymie et polysémie Notre étude se pose dans la cadre synchronique et non pas diachronique. Or, en synchronie, on peut prétendre que les mots polysèmes sont des homonymes et inversement, pourvu que l’on traite les mots ayant les mêmes catégories grammaticales Dans ce cas, deux mots homonymiques seront considérés comme un seul mot avec deux groupes de sens différents. De la même manière, un mot polysémique sera un mot a plusieurs acceptions de sens différentes. Le verbe louer qui est homonymique est considéré dans l’index du thesaurus comme un mot avec trois sens différents. Or, le premier sens vient du sens du mot laudare et les deux autres viennent du mot locare. Le signe est la réunion de trois composantes indissociables : le sens, le référent et la forme. Définir le sens par rapport au référent et à la forme permet de mieux discerner les objets de notre étude. L’étude de la lexie de Meluk et al. nous illustre une méthode descriptive du sens d’un mot et définit la lexie avant tout comme une acception de sens. Les diverses approches en analyse componentielle cherchent à différencier le sens d’un mot à l’aide de traits sémiques fins. La grammaire des cas de Fillmore ne résout aucun des problèmes posés par l’analyse sémique. La complexité des traits sémiques et le principe que les champs sémantiques se chevauchent, nous redirige vers la recherche de théories différentes de représentation des sens des mots. Nous nous sommes alors orientés vers les dépôts d’informations sémantiques. Des dictionnaires, des taxonomies ou des thesaurus, nous préférons utiliser un thesaurus. Nous avons décrit le Thesaurus Larousse en détail et montré comment nous comptions l’utiliser pour le chapitre suivant. Les relations lexicales entre les sens des mots sont enfin définies et reliées à leur utilisation à l’aide du thesaurus. 27