2. 1. Le signe

publicité
Chapitre 2
Approches symboliques en sémantique lexicale
1
L’analyse sémantique s’est orienté très nettement ces dernières années vers l’étude
du sens des mots en lexique. Alors que naguère, les items lexicaux n’étaient considérés que
comme des variables à instancier au bon moment, depuis dix ans, les grammaires lexicales
se multiplient. Celles-ci stockent dans le lexique les traits morphologiques, syntaxiques et
sémantiques. Cela prouve l’intérêt croissant pour la sémantique et marque les limites des
grammaires : on déplace les problèmes syntaxiques et sémantiques vers les représentations
lexicales.
Deux méthodes existent pour coder le sens en lexique (Rastier, 1994 ; p.45) :
La méthode sémasiologique code les unités lexicales par leur signifiant graphique. A
chaque signifiant, on associe l’ensemble des signifiés et l’on cherche à les structurer.
Quand elle traite de la polysémie, la méthode sémasiologique présuppose que chaque mot
a un sens principal et des sens dérivés.
La méthode onomasiologique part des classes de signifiés pour les structurer. Les
promoteurs de cette méthode estiment que ces classes forment des zones conceptuelles.
Il s’agit pour nous de mettre en relation les mots avec leurs représentations
sémantiques. Si nous utilisons la méthode sémasiologique, nous supposons que nous
pouvons décrire le sens à partir de la forme. Ce sont pour nous deux choses différentes qui
forment une seule entité, le signe. Il nous faut alors décrire séparément les deux
composants et les mettre en relation. Nous pouvons utiliser pour cela la méthode
onomasiologique, qui regroupent l’ensemble des théories reposant sur les champs
sémantiques.
En premier lieu, il nous faut comprendre comment définir les termes que nous
devons comparer pour la désambiguïsation sémantique lexicale. Pour cela, la définition de
la triade sémiotique (forme-sens-référent) du signe permet d’expliciter les notions de sens et
de référent d’un terme à comparer pour la désambiguïsation des sens des mots. La
définition de la lexie est alors faite pour supplanter le terme de forme dans la triade du
signe.
Une fois que nous avons défini le terme de lexie, il nous faut savoir comment les
intégrer aux lexiques. Les diverses approches du sens lexical sont explicitées et permettent
de voir comment coder les sens des mots dans les lexiques sémantiques.
Les diverses bases lexicales permettent de créer des représentations des sens
orientées par la classification sémantique mais dans ce cas, quel type de dépôt doit-on
utiliser ?
Nous savons quoi comparer et désambiguïser ; nous savons aussi quel type
d’information lexicale nous avons besoin pratiquement. La comparaison va constituer à
effectuer des traitements sur les notions du thesaurus. Quel traitement doit-on effectuer ?
Pour répondre à cette question, il nous faut connaître les rapports qu’entretiennent les
mots entre eux c'est-à-dire les relations lexicales sémantiques.
2
2. 1. Le signe
Qu’est-ce que le sens ? Le sens a besoin d’un contenant - d’un réceptacle - pour être
connu ou reconnu. L’association entre le sens - ou encore le signifié - et ce réceptacle - la
forme ou le signifiant - définit alors le signe. C’est par le signe que le sens peut être lu dans le
cas de textes. Sans la forme, le signe et le sens n’existe pas dans le texte, c’est une évidence
mais sans le sens, la forme et le signe n’existent pas non plus.
Un mot peut avoir un sens mais pas de référent, par exemple les mots
grammaticaux : la préposition de, dans « le bateau de pêche », exprime que le bateau sert à
aller à la pêche ; il sert à exprimer que pêche est le complément de nom de bateau. L.
Tesnière - cité dans (Baylon & Mignot, 1995, p. 31) - oppose ainsi les mots pleins,
référentiels - un mot qui désigne un référent - aux mots vides, non référentiels.
2. 1. 1. Le référent et le sens
Dans cette association forte qu’est le signe, on peut inclure la notion de référent quand celui-ci existe : le référent n’est pas le sens. Prenons par exemple le mot bateau : il est
la forme du signe ; le bateau tel qu’on l’imagine dans un port, n’est pas le sens du signe, il
est le référent, la chose auquel le mot réfère. Baylon & Mignot (1995, p.29) définissent le
sens par rapport au référent de la manière suivante :
On doit faire attention à ne pas confondre sens et référent. […] Le mot
cheval ne hennit pas, ne galope pas, contrairement à l’animal ainsi
dénommé [le référent]. Comme tout mot, il a un sens, mais ce sens a une
réalité psychologique, à bien distinguer de la réalité, extérieure au cerveau
et à l’esprit, qu’est un cheval.
Ils donnent finalement le triangle sémiotique bien connu suivant pour le signe
(Baylon & Mignot, 1995, p. 30) :
sens
forme
référent
On voit que le sens et le référent sont distincts. Cependant, le sens peut souvent être
une voie d’accès au référent. Quand c’est le cas, deux niveaux de sens sont à regarder :
Le sens en langage décrit un savoir usuellement connu par les usagers de la langue et est
décrit dans les dictionnaires ;
Le sens en emploi qui fait allusion au contexte dans lequel l’énoncé du discours est fait : Pour
répondre à la question « Connaissez-vous cette ville ? », il faut connaître le sens en
langage du mot ville, mais aussi le contexte utilisé, ici donné par cette.
3
Mais en plus du sens dénotatif (ou sens dénoté, qui désigne le référent) un mot référentiel
comporte des connotations qui traduisent :
Des jugements de valeurs portés sur le référent du mot ;
De l’appartenance du mot à divers niveaux de langue - ou registres.
Deux remarques :
- Un mot peut avoir plusieurs sens pour un même référent. Cela dépend des
connotations : les mots automobile et tire désignent le même objet. Pourtant, ils ont deux
sens différents.
- De la même manière, une forme peut avoir plusieurs référents et donc plusieurs
sens. Les mots polysémiques peuvent avoir plusieurs référents : le mot cheval désigne le
cheval (l’équidé) mais aussi le cheval-arçons en gymnastique, et le cheval fiscal (unité de
puissance du moteur).
Le type de sens des mots que nous utilisons pour la représentation des sens est le
sens en langage. Il est en effet celui qui est décrit dans les dictionnaires et aussi dans les
thesaurus des mots aux idées puisqu’il correspond au sens que tous les usagers de la langue
ont en commun.
On voit que le sens d’un mot ne dépend pas que du sens en langage. Cependant, le
sens en emploi est difficile à prévoir puisqu’il fait référence à des connaissances extralinguistiques autant que des connaissances transphrasiques : par exemple, le mot cette fait
référence à une ville précise donnée autre part dans le texte duquel est extraite la phrase
« Connaissez-vous cette ville ? » mais atteindre ces connaissances transphrasiques suppose
au moins le traitement de la référence dans les textes et cela ne rentre pas dans le cadre de
cette thèse.
Par contre, la hiérarchie du thesaurus peut laisser prévoir la construction et
l’utilisation du sens dénoté évidemment, mais aussi des connotations. On le verra plus tard
dans le chapitre suivant.
La description du sens peut prendre plusieurs ouvrages. La description
préalablement faite ici si elle n’est pas exhaustive, pose au moins quelques pierres sur la
notion du sens des mots et concerne le sens présent majoritairement dans les dictionnaires
et dans le thesaurus que nous utilisons.
2. 1. 2. La forme du signe
La forme du signe en sémiotique peut prendre plusieurs aspects différents : le son, le
graphique et des séquences de caractères formant le mot dans les textes.
En sémantique, le mot est généralement divisé en deux parties, la racine et le
morphème. Ils sont tous les deux signifiants dans les mots, mais beaucoup de mots ne se
réduisent pas à l’addition des sens de leurs deux composants. En fait, nous traitons le mot
comme l’unité minimale du sens. Exemple : La racine du verbe chauffer est chauff, mais le
4
morphème -eur (signifiant celui qui) ajouté à la racine chauff donne non pas « celui qui
chauffe » mais « celui qui conduit (un véhicule) ». Le mot est aussi désigné sous le terme de
lexème simple.
De la même manière, les groupes de mots - textes, phrases, syntagmes ou
expressions composés - prennent du sens. Dans les textes écrits, le sens de la phrase tout
entière dépend des sens des mots ou expressions composées qui la composent plus des
contextes transphrasiques et extra-linguistiques. Ces contextes sont difficiles à mettre en
œuvre, et nous sommes pour l’instant obligés de ne tenir compte que des sens des
composants de la phrase qui sont les mots ou les composés.
Un composé est la partie d’un groupe de mots qui est sémantiquement le plus
interprétable. Il doit être une combinaison de plus d’un mot pour avoir le bon sens. Dans
quelques cas, le sens est idiomatique. Une expression idiomatique a 2 catégories :
- Un idiome est une expression spéciale avec un sens spécial. Le sens de toute
l’expression est différent de la composition des sens littéraux. Le sens final est difficile à
comprendre pour un non-natif de la langue. Il est aussi appelé lexème complexe figé - dont le
sens est figé indépendamment du sens des composants.
- Un complexe unitaire (un lexème complexe non figé) n’est pas un mot complexe ; c’est
un groupe de mots libres. Le sens des mots concaténés dépend suivant le contexte et est
soit une réunion des sens des composants soit un sens indépendant des composants. Ce
sens indépendant peut être figuratif ou métaphorique.
Ce découpage en mots et composés rejoint la définition de la lexie de B. Pottier
(1991) et de Mel’uk et al. (1995) dans la théorie Sens-Texte que nous voyons de manière
un peu plus approfondie maintenant.
2. 1. 3. La lexie de Mel’uk, Clas et Polguère
La théorie lexicologique de Mel’uk, Clas et Polguère est une étude des lexies des
langues naturelles.
D’après Mel’uk et al. (1995), les lexies forment la partie primordiale de la langue.
En exagérant quelque peu, ils prétendent que l’ensemble des lexies est la langue. En effet,
une langue est constituée de lexies et de règles servant à la manipulation de ces dernières.
Les règles qui assemblent les lexies en syntagmes, les syntagmes en phrases, et les phrases
en discours sont - pour eux - nettement secondaires par rapport aux lexies - en ce sens que
leur nature et leur forme sont déterminées par les lexies.
L’ensemble des règles de la grammaire d’une langue L, permet d’assembler des
lexies, et ces règles doivent donc être formulées en fonction des lexies. D’où leur assertion
suivante :
Le lexique d’une langue prime logiquement sur sa grammaire.
5
La démarche de Mel’uk et al. s’intéresse d’abord à la lexie et ensuite à la manière
dont les différentes lexies sont articulées. Ils situent leur travail dans le cadre de la théorie
linguistique Sens-Texte, où l’on part de la lexie et de ses caractéristiques sémantiques pour
construire des arbres syntaxiques.
En ce qui nous concerne, nous nous intéressons à leur définition de l’unité lexicale et
de leur utilisation dans les dictionnaires. Ces définitions nous permettent de mieux
comprendre ce qu’est une lexie.
La lexie
Le concept de lexie est une formalisation et, simultanément, une généralisation de la
notion de MOT.
Définition d’une lexie1
Une lexie (ou unité lexicale), est soit un lexème, soit un phrasème.
Un lexème est un mot pris dans une seule acception bien déterminée et munie de tous
les renseignements qui spécifient totalement son comportement dans un texte.
Voici un exemple : le mot PONT :
Lexie 1 : PONT au sens de ‘construction reliant les deux rives d’une étendue d’eau...’ ;
Lexie 2 : PONT au sens de ‘jours chômés entre deux jours fériés’ ;
Lexie 3 : PONT au sens de ‘ensemble des organes transmettant le mouvement ... [dans une
automobile]’ ;
Lexie 4 : PONT au sens de ‘circuit électrique formé par 4 composants...’ ;
Lexie 5 : PONT au sens de ‘plancher fermant par en haut la coque d’un bateau...’ ; ...
Un phrasème est une locution prise dans une seule acception bien déterminée et
munie de tous les renseignements qui spécifient totalement son comportement dans un
texte
Du point de vue sémantique, il en existe 3 types :
1) Le phrasème complet est une locution dont le signifié n’inclut aucun signifié des
signifiants le composant.
Exemple : POMME DE TERRE.
2) Le semi-phrasème est un phrasème AB dont le signifié ‘AC’ ou ‘BC’ inclut le signifié
de l’un de ses constituants, alors que l’autre ne garde pas son sens, ou même s’il garde son
sens n’est pas sélectionné librement.
1
Le terme lexie a été défini et proposé par B. Pottier (1991).
6
Exemple : Le signifié de PIQUER UN SOMME ‘faire un somme’ inclut le sens de
SOMME ‘sommeil court’ mais pas celui de PIQUER ‘entamer avec une pointe’. C’est un
semi-phrasème ou une collocation (avec le mot-clé [un] SOMME).
3) Un quasi-phrasème est un phrasème AB au signifié ‘ABC’ qui inclut les signifiés des
deux constituants et un surplus imprévisible ‘C’.
Exemple : Le signifié de CENTRE COMMERCIAL ‘centre commercial formé de
nombreux magasins et de lieux de service, ayant un parc de stationnement...’ inclut les sens
de CENTRE (lieu où diverses activités sont regroupées) et celui de COMMERCIAL
‘relatif au commerce’ plus la composante ‘formé de nombreux magasins et de lieux de
services...’ ; c’est un quasi-phrasème.
Revenons sur le mot PONT : on connaît toute une série de locutions comprenant le
mot PONT, qui constituent d’autres lexies :
Lexie 6 : PONTS ET CHAUSSEES au sens de ‘service administratif des voies publiques...’ ;
Lexie 7 : PONT AERIEN au sens de ’liaison régulière par avion entre deux points...’ ;
Lexie 8 : COUPER LES PONTS [avec quelqu’un] au sens de ‘cesser délibérément les
relations [avec quelqu’un]...’
Finalement, une lexie est une entité trilatérale, elle a :
- un sens (le signifié saussurien),
- une forme phonique/graphique (le signifiant saussurien), et
- un ensemble de traits de combinatoire (le syntactique de la théorie Sens-Texte :
Mel’uk 1993 : 117).
Les sens sont présentés par les expressions entre guillemets ‘sémantiques’ ; les
formes phoniques sont exprimées par l’écriture orthographique habituelle (même si parfois
il faut préciser la forme phonétique) ; et les traits de combinatoires sont spécifiés par
l’indication du genre grammatical (PONT est masculin), du régime (pont entre N1 et N2,
ou couper les ponts AVEC N), etc.
La délimitation des lexies
Le but de Mel’uk et al. est de construire un dictionnaire, c'est-à-dire de créer un
ensemble de lexies. Cette construction implique de donner un certain nombre de critères
pour différencier ces lexies des autres (la délimitation).
La délimitation des lexies, c’est-à-dire la division des acceptions d’un mot ou d’une
locution polysème, est un des problèmes les plus délicats et les plus ardus qui se posent au
lexicologue ; les décisions prises à ce propos sont toujours lourdes de conséquences. Il
s’agit du problème suivant, fort connu en lexicologie (et en lexicographie pratique) :
Comment différencier entre l’homonymie, la polysémie, et le caractère vague des
lexies ?
7
En fait, délimiter des lexies revient à trancher, dans chaque cas particulier, le
problème de l’ambigu vs le vague.
Définition : Expression Lexicale
Une expression lexicale est une unité linguistique qui manifeste des caractéristiques
apparentes d’une lexie.
Définissons les deux termes Ambigu et Vague :
Définition : Ambigu
Une expression lexicale est ambiguë si et seulement si elle correspond alternativement
à plus d’une lexie [= soit à L1, soit à L2, soit à ...].
Exemple : Dans la phrase « C’est Jean qui a peint ce plafond. », PEINDRE a trois
sens bien différents, le sens ‘a couvert le plafond de peinture’ (=ravalement), le sens ‘a
couvert le plafond d’images artistiques’ (=Jean a produit une œuvre d’art) et le sens
‘peindre sur une toile’ (=Jean a peint ce plafond sur une toile). Dans ce cas, Les trois
interprétations de PEINDRE sont décrites par trois lexèmes différents.
Définition : Vague
Une expression lexicale est vague si et seulement si son sens correspond
alternativement à plus d’un référent extra-linguistique, alors qu’elle-même correspond à
une seule lexie.
Exemple : TANTE peut être à la fois ‘une sœur de mon père’ ou ‘une sœur de ma
mère’. Il est vague mais pas ambigu ; il ne constituera qu’une seule lexie.
Pour aider à choisir si une expression lexicale peut devenir une lexie, il doit la passer
au crible de 5 critères donnés dans (Mel’uk et al., 1995, pp. 61 et suivantes). Une
expression lexicale qui peut devenir une lexie, est appelée une lexie potentielle. Pour décider
si cette lexie potentielle est vraiment une lexie, le lexicologue a deux types de vérifications :
- D’une part, pour chaque lexie potentielle L, il doit vérifier s’il peut la considérer
comme une seule lexie ou bien s’il faut la scinder en deux lexies, L1 et L2 ;
- D’autre part, pour chaque paire de lexies potentielles L1 et L2, il doit vérifier s’il
peut les considérer comme distinctes ou bien s’il faut les unir en une seule lexie L.
La délimitation permet de bien différencier une acception d’une autre, c'est-à-dire
une lexie d’une autre. Ce travail est fait ni plus ni moins que pour construire le dictionnaire
qui est une description du lexique de la langue L - sous la forme d’une énumération de
lexies de L - dans laquelle chaque lexie est munie d’informations pertinentes.
Cette brève description de la théorie lexicologique Sens-Texte nous a permis de
mieux appréhender le problème de la lexie et de l’acception de sens qu’elle soit monoterme
(le lexème) ou pluriterme (le phrasème) et de toute la syntactique qui leur est étroitement
liée.
8
Sans vouloir rentrer dans le débat de courants linguistiques, nous ne partageons pas
leurs conclusions dans les faits, puisque justement, nous utilisons le schéma classique de
séquences d'analyses - morphologie, syntaxe et enfin sémantique - alors qu'ils s'intéressent
essentiellement à la lexie. Leur étude des lexies se veut multilatérale. la lexie est étudiée
simultanément sous trois facettes : la facette sémantique, la facette syntaxique et la facette
lexico-combinatoire.
L’approche lexicologique prime la lexie sur les règles de grammaire. L’étude sur la
lexie semble faite de manière plus complète que dans les méthodes classiques, en tenant
compte surtout des interactions entre les caractéristiques morphosyntaxiques et les
caractéristiques sémantiques des lexies.
Cette approche est à séparer des approches courantes en analyse sémique par une
description explicite des sens. Le langage descriptif du sens est le langage courant modifié
en cas de confusion possible. Le sens n’est ni projeté sur des zones conceptuelles ni
différencié des autres sens par des traits sémantiques, il est juste explicité.
2. 2. Les champs sémantiques et le sens lexical
On peut manipuler un grand ensemble d’entités sans y introduire au préalable un
minimum d’organisation et cela est vrai aussi pour le lexique et les significations des mots
puisqu’on vient de le voir dans la définition de la lexie de Mel’uk et al. (1995). En effet, ils
codent les lexies dans leur dictionnaire selon l’ordre alphabétique.
On peut cependant organiser les connaissances en champs pour amener une
différenciation entre ces connaissances.
La notion de champ a été utilisé pour :
- Découper un domaine de connaissances ; il est alors partagé en plusieurs champs
dont on peut examiner les rapports.
- Isoler un domaine d’autres domaines ; on y voit un unique champ. Il fournit alors
un cadre d’étude autonome, avec des rapports internes entre les autres composantes du
champ.
Un champ sémantique peut être défini comme un domaine de sens que se
répartissent un certain nombre de mots s’organisant ainsi en champs lexical.
Cette approche est à différencier de la méthode sémasiologique qui consiste à partir
du formant pour retrouver les sens. Pour la dernière méthode, le formant donne le sens
principal en cas de polysémie et tous les autre sens sont dérivés. A l’inverse, les champs
sémantiques permettent de définir le sens indépendamment du formant. Cet ensemble de
champs permet alors une représentation sémantique des mots.
Cette approche est utilisée entre autres par les tenants de l’analyse sémique.
9
2. 2. 1. L’analyse sémique ou componentielle
L’idée est de trouver un moyen de définir tout morphème ou tout mot comme un
ensemble d’éléments (ou de traits) de signification, puis de donner la liste de ces unités
élémentaires (les sèmes).
Ensuite, une combinatoire allait permettre d’obtenir le sens des énoncés complexes à
partir des éléments constituants, dans la mesure où le langage naturel observe la
compositionalité.
Sa mise en œuvre prônée par L. Hjelmslev dès 1943 (cité dans Baylon & Mignot,
1995, p. 125)
[… elle] dure encore aujourd’hui bien que ses très réels succès n’aient
jamais été que très fragmentaires.
Elle porte aussi le nom d’analyse componentielle ou d’analyse en composants.
B. Pottier (1964) a donné une analyse de la catégorie des sièges, présentée résumée
dans le tableau suivant :
Sèmes :
pour
s’asseoir
Matériau
rigide
Pour une
personne
sur pied(s)
avec
dossier
Avec bras
Siège
+
0
0
0
0
0
Chaise
+
+
+
+
+
-
Fauteuil
+
+
+
+
+
+
Tabouret
+
+
+
+
-
-
Canapé
+
+
-
+
+
0
Pouf
+
-
+
-
-
-
Mots :
Dans cet exemple, chaque ligne représente un sémème, c’est-à-dire l’ensemble des
sèmes que le mot comporte. Le seul sème qui appartienne à tous les mots est celui de la
première colonne, |pour s’asseoir| ; il constitue aussi, à lui seul, le sémème de siège, mot
qui peut s’appliquer à tous les objets dénommés par les autres mots de la liste et qui est
donc par rapport à eux, l’hyperonyme le plus proche.
La sémantique interprétative de F. Rastier (1987) a une ambition plus vaste et une plus
grande complexité puisqu’il établit des classifications entre les sèmes des mots de manière
à classer les divers mots sous les sèmes caractéristiques représentant chaque classe.
F. Rastier (1994, p.61) définit quatre types de classes sémantiques, les taxèmes, les
domaines, les champs et les domaines :
10
- Les taxèmes sont à la fois les classes minimales et les seules classes à être
nécessaires. Par exemple, autobus et métro appartiennent au même taxème, celui des
transports urbains, autocar et train à un taxème différent, celui des transports interurbains.
- Les domaines ont une généralité plus grande. Ils correspondent à une pratique
sociale déterminée et c’est à aux que renvoient les dictionnaires quand ils assortissent un
mot, ou une acception d’un mot, d’une indication telle que marine, chimie, médecine, etc.
- Les champs proprement dits se définissent comme des ensembles structurés de
taxèmes, mais ici encore, sans que tous les taxèmes entre dans un champ sémantique. Ainsi
le champ de moyens de transport réunit le taxème des transports urbains et celui des
transports interurbains.
- Les dimensions sont des classes peu nombreuses, de grande généralité et souvent
grammaticalisées. Elles ne regroupent pas les domaines mais les divisent. Soit la dimension
représentant l’opposition animé et non-animé. Elle divise le domaine de la cuisine en
permettent d’y distinguer le taxème animé des cuisiniers et le taxème inanimé des
instruments de cuisine.
Pour être désigné par un mot donné, un référent doit répondre à un certain nombre
de conditions, d’où l’appellation de modèle des conditions nécessaires et suffisantes. Lorsque le
référent possède toutes les qualités pour entrer dans une catégorie, on considère qu’il lui
appartient ; il peut alors se voir appliquer le mot qui la dénomme. Par exemple, la catégorie
des oiseaux regroupe les animaux dont les propriétés imputables sont faciles à énumérer :
avoir des ailes, un bec, deux pattes, des plumes, pondre un œuf.
En principe, un même référent peut donc relever de plusieurs catégories, selon
qu’on sélectionne telles ou telles propriétés parmi celles qu’il possède. Un oiseau appartient
à la catégorie des ovipares, comme les insectes et la plupart des reptiles, si on ne retient
que la propriété de pondre des œufs.
La principale objection à cette théorie est : on peut attendre des analyses en traits
qu’elles ne se limitent pas à un échantillonnage mais que de proche en proche, comme le
lexique, elles couvrent tout le champ de ce qu’on peut parler, de l’expérience humaine,
selon l’expression de Martinet. Or, cette expérience est déçue, pour deux raisons :
- La première est que pour articuler toute la réalité sous les mots, il faudrait que soit
résolue la question des rapports entre les divers champs lexico-sémantiques qui souvent se
chevauchent. Or, selon Baylon et Mignot (1995, p.128), elle ne l’est pas, et ils doutent que
qu’elle le soit prochainement.
- La deuxième, due aux limites intrinsèques de l’analyse sémique, empêche aussi de
donner une description complète de l’expérience humaine telle qu’elle se présente dans le
lexique. Dans de nombreux cas, la réduction des significations à un ensemble de sèmes est
tout simplement impossible à opérer. L’exemple des couleurs bleu, jaune, rouge, vert, etc., est
souvent donnée car ces catégories ne semblent pas posséder de propriétés discrètes et on
en voit pas comment leur appliquer une analyse en traits ni donc, de façon plus générale, le
modèle des conditions nécessaires et suffisantes.
11
2. 2. 2. La sémantique du prototype
L’initiatrice en est surtout la psychologue E. Rosch-Heider. Elle a fourni un modèle
du sens qui remédie à une partie des faiblesses inhérentes à l’analyse sémique sous ses
formes les plus élémentaires. C’est la théorie du prototype (Kleiber, 1990). Entre autres
avantages, elle a donné du sens une conception moins rigide et par-là plus adéquate. Le
pouvoir référentiel des mots s’en trouve mieux expliqué.
Que doit-on entendre par prototype ? Est ou sont désignés sous ce terme le ou les
membres les plus caractéristiques de la catégorie dénommée, ceux du moins qui sont jugés
tels par les usagers, comme on peut l’établir par divers tests. Par exemple, les aigles et les
moineaux sont prototypiques de la catégorie des oiseaux.
Elle résout des problèmes où la théorie sémique échoue comme dans l’exemple des
couleurs et des couleurs rouge, jaune, vert. On arrive à décomposer un bleu d’un rouge en
choisissant un type de bleu et un type de rouge représentatifs d’autres types. La notion de
prototype ne se définit pas forcément comme la résultante d’une analyse componentielle
mais c’est plutôt un modèle psychologique. Cependant, on peut toujours objecter que les
rapports entre les divers champs sémantiques ne sont toujours pas facile à obtenir.
A partir du moment où les champs sémantiques se chevauchent, la question se pose
de savoir pourquoi chercher à définir les sens par rapport à des traits fins. Il semble que le
fait de différencier finement des sens n’apporte rien sur les rapports entre ces champs. Il
vaut mieux dans ce cas, prendre des zones conceptuelles plus larges et de définir les sens
dans cette représentation sémantique en utilisant le fait que les champs sémantiques se
chevauchent, par exemple, dans un thesaurus. De plus, le travail de codage des sens en
analyse sémique est énorme et les traits sémiques sont de plus en plus nombreux au fur et
à mesure que l’on différencie les termes.
2. 2. 3. La grammaire des cas de Fillmore
La théorie casuelle de Fillmore s’inscrit dans la tradition sémanticiste de la théorie
linguistique sur la notion de cas défendue par Hjelmslev (1935, p.21). Elle représente non
pas une alternative à l’analyse sémique mais un complément à celle-ci en discriminant en
aval les formants par des critères syntaxosémantiques.
Description de la grammaire des cas de Fillmore
La représentation profonde d’une phrase est composée d’une modalité et d’une
proposition. La modalité contient des informations sur la négation, le temps, le mode et
l’aspect. La proposition est une structure indépendante du temps. Elle permet
l’identification du verbe et la reconnaissance des relations sémantiques qui lient les groupes
12
nominaux au verbe. Le verbe est considéré comme le composant central de la phrase.
Cette distinction entre modalité et proposition peut se schématiser ainsi :
S = M + P et P = V+C1+C2+…+Cn
Où chaque Ci est le nom d’un cas qui va représenter un nom lié au verbe par les cas
sémantiques Ci. Ci pourra indiquer le cas sémantique qui lie une entité complexe au verbe.
Fillmore définit le cas comme suit (1968, p. 24) :
Les notions de cas comprennent un ensemble de concepts universels,
vraisemblablement innés, qui identifient certains types de jugements que
les êtres humains sont capables de faire sur les événements qui sont en
cours autour d’eux, des jugements sur des questions comme « Qui l’a
fait ? », « A qui cela arrive-t-il ? », et « Qu’est-ce qui a changé ? ».
Les cas atomiques
L’existence des cas atomiques de la langue d’origine et en nombre restreint constitue
l’hypothèse initiale de Fillmore. Les premiers cas proposés sont les suivants :
AGENT
L’acteur animé d’une action
INSTRUMENT
L’objet inanimé affecté
DATIF
L’animé affecté par l’action
FACTITIF
L’objet résultant de l’action
LIEU
Lieu ou orientation
OBJET
Le reste
Exemple :
Alain va à la mer en voiture.
Agent : Alain
Lieu : à la mer
Instrument : en voiture
L’ensemble de ces cas paraît difficilement suffisant et Fillmore proposa ensuite un
nouvel ensemble de cas :
AGENT
L’acteur animé d’une action
CONTRE-AGENT
La force contre laquelle l’action est exécutée
OBJET
L’entité dont la position ou l’existence est en question
RESULTAT
L’entité créée par l’action
13
INSTRUMENT
L’élément physique causant l’événement
SOURCE
Le lieu de départ
BUT
L’arrivée
PATIENT
L’entité qui reçoit, accepte ou subit les effets de l’action
Exemple :
Claude a eu sa licence malgré la difficulté des épreuves.
Agent : Claude
Résultat : licence
Contre-Agent : la difficulté des épreuves
Les noms sont représentés par des traits lexicaux fixés par les définitions des notions
casuelles. Ainsi, l’Agent exige l’insertion d’un Nom défini comme [+animé]. C’est à ce
moment que la complémentarité de l’analyse sémique se fait avec la grammaire des cas. Les
Agents ou les autres cas, ou les mots des groupes formant les cas, peuvent être définis par
une analyse sémique comme celle de F. Rastier (voir la section 2.2.3.).
La notion de cadre casuel
L’unicité de la réalisation d’un cas est un aspect fondamental de la théorie des cas.
Cela implique que pour un verbe donné, dans une phrase donnée, un seul groupe nominal
peut être lié à ce verbe par un cas sémantique donné.
Tous les composants syntaxiques de la phrase n’ont pas le même traitement puisque
le verbe semble être au centre de la grammaire. En effet, il est représenté par ce que
Fillmore appelle le cadre casuel (case frame en anglais). Le deuxième aspect de la théorie
consiste à associer a priori à chaque verbe ses cas sémantiques possibles. Un
exemple (Sabah, 1988) :
Casser  [Objet, (Instrument),(Agent)]
Dans cette association, on indique également le type facultatif ou obligatoire d’un
élément (Ici, les éléments facultatifs sont mis entre parenthèses). Plusieurs ossatures sont
associées à un verbe lorsqu’un verbe possède plusieurs sens :
Voler  [Agent]
Voler  [Objet]
Voler  [Agent, Objet]
La définition d’un cadre casuel détermine également l’ordre dans lequel les éléments de
la phrase doivent être trouvés :
Aller  [(Agent), Lieu]
14
Ce cadre casuel accepte donc les phrases comme :
Pierre va à Paris.
Va à Paris.
Mais il refuse une phrase comme « A Paris va Pierre. »
La notion de cas sémantique permet de distinguer également les phrases de même
structure :
Cette veste est chaude.
(instrument)
Cette journée est chaude.
(temps)
Cette pièce est chaude.
(lieu)
Son front est chaud.
(patient)
La liste de cas semble loin d’être définitive - de l’aveu même de Fillmore (1968, p.24)
- et l’histoire de la grammaire des cas connaîtra une longue série de changements dans le
répertoire des cas (Fillmore, 1977a : pp. 71-72). Enfin, la recherche de cas plus abstraits a
été tentée par Grimes ou Simmons. Les réseaux sémantiques empruntent les notions
primitives de la grammaire des cas.
La grammaire des cas est souvent mise en avant pour ces capacités à relier la syntaxe
et la sémantique des phrases en utilisant la notion de cadre casuel. Cependant, des
problèmes apparaissent dans son utilisation.
- Un des problèmes avec la grammaire des cas est la restriction de l’utilisation de la
langue naturelle. En effet, des phrases peuvent être jugées inacceptables par la grammaire
des cas car elles sortent de la capacité de traitement de la grammaire des cas.
Deux exemples :
John and a hammer broke the window.
Dans ce premier exemple, il y a coordination de deux syntagmes nominaux (en
abrégé SN) représentant deux cas différents (Agent et Instrument) alors que le sujet ne
doit être représenté que par un seul cas.
A hammer broke the window with a chisel.
Ici, on a deux SN non coordonnés représentant le même cas (Instrument).
Un autre problème de restriction vient avec l’utilisation de l’analyse sémique pour
définir les cas. Le cas Agent est forcément donné avec le trait sémique [+animé] car il y a
en principe un lien sémantique d’agent agissant à action accomplie par cet agent. Or, les
contre-exemples sont assez nombreux pour réfuter cette hypothèse comme «La terre
tourne autour du soleil» et «l’eau coule».
- Une autre problème concerne la liaison non pas entre cas et SN mais entre verbe,
son cadre casuel et le référent. A chaque utilisation de cadre pour un verbe, doit
correspondre un et un seul sens de ce verbe. Si certaines ambiguïtés sont levées par le
15
cadre casuel, d’autres restent comme choquer dans les sens de blesser physiquement et
moralement quelqu’un. Le cadre casuel est le même mais les signifiés sont différents.
Une autre exemple d’ambiguïté due à la polysémie est le verbe poser dans les deux
exemples suivants :
1) Jean pose les rideaux sur la fenêtre.
2) Jeanne pose les couverts sur la table.
La cadre casuel de poser est ici Poser[Agent, Objet, (Lieu)] mais on a deux sens
différents car dans 1), le verbe poser peut être remplacé par suspendre ou accrocher et dans 2),
non.
Nous voyons que la grammaire des cas de Fillmore ne résout pas les problèmes
syntaxiques ni sémantiques mais qu’à l’inverse, elle en ajoute.
On voit bien que la plupart des méthodes utilisées en champs sémantiques ne nous
satisfont pas mais que l’hypothèse de zones conceptuelles nous séduit car elle permet une
représentation des sens de toute la connaissance et donc un traitement des textes généraux.
L’utilisation de dépôts linguistiques comme des dictionnaires ou des thesaurus conservant
cette représentation des sens des mots peut peut-être nous aider.
2. 3. Le problème de la classification sémantique
La classification sémantique pose le problème de savoir quoi classer et comment le
classer. Cette différenciation des connaissances sémantiques se retrouve dans les supports
d’information sémantique disponibles ou en cours de réalisation.
Les classifications sémantiques sont représentées par trois types de support existants
: les taxonomies, les dictionnaires et les thesaurus. Les taxonomies de sens des mots sont
des supports existant mais en cours de construction pour la plupart.
2. 3. 1. Les taxonomies de concepts
Les taxonomies des mots comme celle de WordNet en anglais (voir la section 1.3)
par exemple, sont une manière différente des dictionnaires et des thesaurus de classer les
mots. L’idée est de représenter les mots par rapport à des concepts et ces concepts sont
hiérarchisés entre eux par deux relation, l’hyponymie et l’hyperonymie, qui donnent alors
la taxonomie recherchée.
L’hypothèse de base semble que le lexique sémantique d’une langue puisse être
organisé comme une seule taxonomie. Or d’après F. Rastier (1994 ; p.44) :
En filant la métaphore de l’arbre, disons que le lexique d’une langue n’est
pas ramifiée à l’image d’un baobab mais ressemblerait tantôt à une
garrigue arborée tantôt à un taillis sous futaie.
16
Une autre objection concerne la distinction des sens : Agirre et Rigau (1995)
estiment que les distinctions de sens dans WordNet 1.4, ne semblent pas complètement
satisfaisantes pour l’expérimentation. En dehors du fait que WordNet 1.4 est une
taxonomie en construction qui contient quand même un vocabulaire de l’ordre de 83.800
noms et environ 87.600 liens entre les concepts, il semble que le travail d’affinage est
perpétuel dû au problème de chevauchement des champs sémantiques utilisés.
2. 3. 2. Les dictionnaires sémantiques
Un dictionnaire sémantique doit être précis et explicite. Il doit comprendre une
théorie sur la manière dont les mots sont utilisés.
Un dictionnaire est un dictionnaire au sens ordinaire : il doit donner des définitions
ou des descriptions des signifiés des mots. Il doit aussi donner des indications des cas
contextuels d'utilisations des mots-sens, i.e. une «classification sémantique».
Les mots ont plusieurs sens et donc plusieurs équivalents dans les autres langues, et
il est donc nécessaire de choisir le bon candidat.
On a souvent lié le choix du sens d’un mot aux domaines de la langue dans lesquels
les mots sont répertoriés et des dictionnaires existent alors par rapport à ces domaines.
Qu’en est-il de leur utilisation ?
La méthode de restriction aux domaines
En PHYSIQUE, mass veut dire weight et se traduit donc par masse. L’idée dans cette
approche est de diviser la langue naturelle en plusieurs compartiments.
L’idée d'utiliser des marqueurs de domaines a déjà été utilisée, mais cela n'a pas été
un grand succès.
Le problème est qu'un mot donné peut avoir plusieurs sens dans un texte parlant
d'un sujet. On ne pourra plus discriminer un sens d'un mot d'un autre dans un contexte
donné. De plus, des mots comme avoir, succès ou certain ont des sens différents pour
lesquelles il n'y a pas de signification précise dans un domaine.
Le sens d’un mot doit être trouvé en contexte et ce contexte ne peut pas être donné
d’avance. Le contexte ne peut pas être réduit à l’utilisation d’un domaine fixé
préalablement.
Cette idée échoue, non pas parce que les marqueurs sont faux mais parce qu’ils sont
trop grossiers. Les marqueurs de domaine d’un dictionnaire sémantique ne peuvent pas
dans ce cas être utilisés comme classification sémantique des mots et être utilisés en
lexique. Cette classification en domaines si elle est nécessaire dans les dictionnaires à la
compréhension des termes dans des domaines précis, ne permet pas un réel choix des sens
en fonction du contexte.
17
Vers une théorie plus subtile
Une théorie plus satisfaisante est nécessaire pour identifier le sens d’un mot en
utilisant le contexte environnant. Ce besoin d’une explication plus fine se fait plus pressant
si on veut raffiner l’utilisation des étiquettes, pour avoir une analyse associée plus subtile.
Supposons que chaque mot dans un texte peut avoir plus d’un sens. Chaque mot
d’un texte est potentiellement ambigu.
Or, nous comprenons le texte car il véhicule des idées particulières ou un ensemble
d’idées. Il transporte un message. Ce n’est pas la répétition des mots qui donne le contenu
du message mais la répétition d’une idée ou d’un ensemble d’idées. En fait, plutôt que de
dire que les mots ont des sens, il semble raisonnable de dire que les mots expriment des
idées différentes.
Les mots peuvent exprimer différentes idées mais le discours, pour se tenir,
concerne quelques idées reliées les unes aux autres. On peut donc comparer les mots entre
eux et avec le discours. Si un texte comportait plusieurs idées non reliées, on ne pourrait
pas comprendre le message.
Mais si nous disons que des mots peuvent exprimer les mêmes idées, nous faisons
alors de la classification sémantique. Nous ne disons pas qu’ils ont la même signification, mais
qu’ils expriment la même idée générale, que leurs sens ont quelque chose en commun.
Nous les mettons alors ensemble dans une classe sémantique ou conceptuelle. L’hypothèse
avancée ici est ainsi une hypothèse sur la manière d’utiliser une classification sémantique
pour résoudre l’ambiguïté lexicale.
Un dictionnaire sémantique est difficile à utiliser, que ce soit pour sa répartition
sémantique des sens des mots dans des domaines, ou non. En effet, les définitions
fournies dans les dictionnaires sémantiques utilisent des mots de la langue courante pour
définir les autres mots. Il peut donc y avoir des problèmes de cycle dans les définitions. De
plus, les définitions sont souvent courtes : on ne peut donc pas utiliser les mots de ces
définitions pour fournir un ensemble d’indicateurs valables.
Nous avons vu que la recherche d’affinage des sens des mots dans une taxonomie
malgré le vocabulaire produit, conduit encore à avoir des problèmes de distinctions de sens
entre les mots. En sachant que les champs sémantiques se chevauchent forcément, plutôt
que d’essayer d’affiner ces champs, il vaudrait mieux essayer d’utiliser des zones
conceptuelles moins fines.
Suivant ce dernier critère, le problème est donc de trouver une classification
sémantique appropriée pour les mots dans un vocabulaire de la langue naturelle, qui existe
déjà pour minimiser le temps de codage à la main des informations. Ce dont nous avons
besoin, en fait, est un thesaurus.
18
2. 3. 3. L’utilisation d’un thesaurus
Le thesaurus que nous utilisons, le Thesaurus Larousse, est la traduction du Roget’s
Thesaurus of English Words and Phrases :.
Dans ce thesaurus, les mots sont classés « selon les idées qu’ils expriment ».
Les mots qui expriment les mêmes idées, sont alors rassemblés sous la même section
ou mot tête. Un mot qui exprime des idées différentes, est présent dans différentes ‘têtes’
qui représentent son ou ses sens. Un thesaurus nous donne alors une interprétation précise
pour la notion vague de classification sémantique. Nous pouvons utiliser le thesaurus non
simplement comme un outil pour trouver un mot, mais comme un moyen précis et
efficace pour classer les mots d’un langage. Les 873 notions du Thesaurus Larousse ne
représentent pas les sens des mots mais l’idée ou la notion qu’ils expriment.
Le thesaurus est divisé en trois parties : la hiérarchie des notions, les articles et
l’index des mots de la langue française.
Description d’un article du thesaurus
L’exemple suivant donne une description d’une partie d’un article du Thesaurus
Larousse :
Commentaires sur la
cellule à droite
Un extrait d’un article du thesaurus
Numéro de l’article
239 Poids
Numéro de
paragraphe
N. 1 Poids ; lourdeur, pesanteur ; consistance, densité
238 ; pondérabilité. - Autorité, influence 623. –
…
Pondération 448.
Les paragraphes regroupent
les mots par familles de sens.
Catégories
grammaticales
Les paragraphes sont
ordonnés selon les catégories
grammaticales (ordre : N.
V. Adj. Adv.)
Commentaires
sur la cellule à
gauche
Titre de l’article
Il indique la
notion traitée.
6 Poids (un poids) ; charge, chargement, faix, fardeau ;
boulet [fig.]. - Surcharge, surpoids ; handicap [TURF].
…
V. 14 Peser ; faire tel poids, peser brut ou, vx., ort, peser
net ; titrer, valoir, valoir son pesant d’or (ou, par
plais. : son pesant de cacahuètes, de moutarde). … Peser lourd, peser le poids d’un âne mort [fam.] ;
faire le poids (plus souv., ne pas faire le poids).
Les articles
sont disposés, partout
où cela est possible, par
paire de notions
opposées ou
corrélatives.
16 Alourdir, charger, lester, surcharger ; vx : aggraver,
appesantir ; densifier 238.7 ; donner du poids à 438.
Un article représente un numéro et une notion du thesaurus. Dans chaque article
numéroté de 1 à 873, se trouvent des paragraphes ordonnés par ordre de catégories
19
grammaticales – nom, verbe, adjectif, adverbe. Les paragraphes représentent des familles
de sens.
La hiérarchie des notions
Une particularité du Thesaurus Larousse consiste en une hiérarchie des notions mise
en place par les auteurs. Elle semble provenir de deux besoins :
- Le premier est d’organiser les idées afin de pouvoir les parcourir pour la
consultation pour atteindre plus rapidement l’idée souhaitée ou le domaine de
connaissances souhaité.
- Le deuxième provient de la construction de ce thesaurus. Pour une plus grande
couverture du monde qui nous entoure et de la langue elle-même, il semble logique de
construire des domaines, puis de les raffiner en sous-domaines, etc., afin de n’oublier
aucune notion dans ce ratissage.
Figure 2.1 : La hiérarchie des notions permettant de trouver la notion Durée.
L’exemple de la figure 2.1. illustre comment trouver la notion de durée dans la hiérachie
mise en place par les auteurs.
Cette hiérarchie sera utilisée pour la désambiguïsation des sens des mots. Nous
avons besoin pour les sens des mots, des notions qui sont situées au même niveau, sous le
même groupe de notions. La figure précédente illustre une partie de cette hiérarchie.
20
L’index du thesaurus
L’index, classé alphabétiquement présente la totalité des mots, expressions et
locutions contenus dans le thesaurus.
Soit l'exemple du mot passé :
passé
177
n.m.
pas de danse
786.16
t. de grammaire
740.6
passé antérieur
59.6 ; 740.6
passé historique
740.6
appartenir au passé 195.6
adj.
accompli
58.22 ; 60.28 ; 538.20
historique
191.16
désuet
196.10
jauni
352.26 ; 358.9
passé de mode
196.8
Il y a deux formants possibles : le nom masculin et l’adjectif. Les premières lignes de
l’article de l’index représentent les sens du nom masculin (n.m.) passé avec les numéros de
notions exprimées à leur droite. Les locutions suivent en italique avec leurs numéros de
notions. Il en va de même pour l’adjectif (adj.) passé. Un cas particulier, le mot passé est un
article du thesaurus, son numéro de notion est donc signalé à sa droite (177 en gras).
Le thesaurus et le sens des mots
On a souvent assimilé le thesaurus de Roget à un thesaurus de synonymes. Or,
comme le dit K. Sparck Jones (1986, p. 207),
La différence importante entre Roget et les rédacteurs plus récents, était
qu’il n’était pas intéressé par les synonymes ; Roget ne voyait pas son
thesaurus comme un dictionnaire de synonymes.
Un article du thesaurus contient souvent des synonymes, et cela est normal, mais
cela n’est pas le but recherché des auteurs. Sous la notion de 239.Poids, il semble logique
21
de trouver des verbes quasi-synonymes peser et alourdir, mais aussi des noms densité et
autorité qui ne sont pas des synonymes. Cependant, ceux-ci partagent une certaine
signification donnée par la notion de poids.
Cette différenciation est importante à considérer car si l’on avait une classification de
synonymie, on pourrait alors considérer cette notion comme le sens des mots classés sous
lui, comme le fait D. Yarowsky (1992). Comme ce n’est pas le cas, les notions données par
le thesaurus sont ni plus ni moins que des notions suffisamment générales pour exprimer
les idées du monde, de l’homme et de la société. Ce sont des zones conceptuelles qui sont
exprimées sous le nom d’idée ou notion ici.
Nous nous apercevons que dans l’index du thesaurus, les sens d’un mot sont
projetés sur l’ensemble des zones conceptuelles du thesaurus - voir l’exemple du mot passé.
Dans ce thesaurus, on ne recherche pas à différencier un sens par rapport à un autre avec
l'aide de traits sémiques. On ne recherche pas non plus à affiner les sens en les plaçant
dans une taxonomie qui deviendrait une hiérarchie entremêlée de liens transversaux entre
les concepts. Dans le thesaurus, le sens est simplement projeté sur des zones
conceptuelles. Le sens d’un mot est représenté par un 1 ou un 0 – présence ou absence –
sur l’ensemble des zones conceptuelles du thesaurus.
Ces notions ne sont pas disjointes et peuvent éventuellement avoir du sens en
commun. En effet, on ne peut pas dire que les sens des mots se réduisent aux 1000 idées
du Thesaurus de Roget en anglais ni aux 874 idées du Thesaurus Larousse en français.
Donc, les idées du thesaurus ont forcément des choses en commun et ces choses ne
peuvent être que du sens. Mais ce qui est un inconvénient dans l’analyse sémique par
l’affinement successif des sens devient ici un avantage qui permet aux mots de se projeter
sur ces notions.
Les idées du thesaurus représentent alors une niveau différent de signification. Cette
idée est réjouissante car elle nous extrait quelque peu des différentes théories sur le sens.
Le thesaurus est alors un modèle formel de la «façon dont les mots expriment les idées».
Nous allons utiliser cet index dans le prochain chapitre pour coder les sens de
chaque mot en fonction des critères morphosyntaxiques donnés par le thesaurus. Les sens
du nom masculin passé sont donc «pas de danse», et un terme de grammaire «t. de
grammaire». Leurs numéros de notion sont respectivement 786.16 et 740.6. De même,
l’adjectif passé a quatre sens, accompli, historique, désuet et jauni avec respectivement les listes
de numéros (58.22, 60.28, 538.20), (191.16), (196.10), (352.26, 358.9) et (196.8). A chaque
sens sera associée une liste de numéros de notions représentant sa projection sur
l’ensemble des notions.
On aurait pu penser qu’un poids sémantique différent devrait être donné suivant la
notion sur laquelle est projetée le sens du mot cherché. Nous ne le faisons pas pour les
raisons suivantes :
- D’après la définition de Roget, les mots sont classés « selon les idées qu’ils
expriment ». Cette définition est floue dans la manière de projeter les sens sur les notions
et elle n’indique pas quelle notion est prépondérante dans la liste des notions pour un sens
donné.
22
- Si nous donnions une préférence à une idée par rapport à une autre, cela veut dire
que nous estimons qu’une idée représente plus le sens qu’une autre, et alors, une question
se pose : « Comment choisir une idée plutôt qu’une autre pour un sens donné ? » On se
dirige alors vers une méthode de type componentielle avec un ou plusieurs sèmes
prépondérants ou vers une méthode de type onomasiologique. Or, on a vu que les notions
du thesaurus ne peuvent pas être comparées à des sèmes tels que le définit Rastier (1987).
La méthode onomasiologique privilégie le formant alors que nous voulons avec une
représentation des sens des mots indépendante des formants et faire le lien avec le formant
ensuite.
- Enfin, l’idée de la représentation des sens est de pouvoir construire des contextes
en fonction des notions. Nous voulons pouvoir exprimer toutes les idées sans
discrimination autre que celle donnée par la place des mots dans les syntagmes, les phrases
et les textes.
Comparaison entre les mots
On peut établir deux remarques sur ce thesaurus et la manière dont les sens sont
exprimées. Si aucune idée n’est en commun entre les mots, alors les mots n’ont aucun sens
en commun. La deuxième remarque est que, à l’inverse, plus deux mots ont des notions en
commun plus ils sont proches au niveau du sens.
A partir de cette représentation sémantique et de la définition de la synonymie, ou
plutôt de la quasi-synonymie, faite plus haut, une notion très utilisée en Recherche
d'Informations peut être formalisée.
Deux lexies sont similaires sémantiquement ou encore proches sémantiquement s’ils
sont quasi-synonymes ou synonymes. Cela se traduit par la projection des sens de ces
lexies sur les mêmes notions du thesaurus.
Inversement, deux lexies sont éloignées sémantiquement si les sens n’ont aucune
idée en commun.
A partir de ces deux remarques, on pourra alors définir une mesure de comparaison
entre deux mots, ainsi qu’un mot et son voisinage proche ou le texte.
2. 4. Les relations lexicales sémantiques
Dans les représentations verticales - dans les hiérarchies notionnelles ou
conceptuelles - la relation entre le subordonné et son père dans la structure, est donnée par
la relation d’hyponymie et d’hyperonymie. Souvent, les relations de méronymie y sont
définies, « Partie_de », « Type_de », etc.
Les relations de synonymie, d’antonymie et d’hyponymie ont été définies dans la
section 1.3.1.
23
Pour la recherche du sens en contexte, nous allons plutôt nous intéresser ici aux
relations entre les sens des mots et ces mêmes mots, puisqu’il nous faut savoir quand un
mot a plusieurs sens ou non. Nous allons nous intéresser donc aux relations la monosémie,
la polysémie et l’homonymie.
2. 4. 1. La monosémie
Le petit Larousse dit d’un mot qu’il est monosémique s’il a un seul sens.
L’intérêt de cette définition n’intervient que pour pouvoir la comparer aux mots
polysémiques, ou homonymiques, qui nous intéressent vraiment. En effet, il n’y a pas
besoin de désambiguïser parmi un seul sens pour un mot.
La monosémie se traduira par un seul sens dans l’index du thesaurus même si
plusieurs notions expriment ce sens.
Le terme caustique est donné par l’index du thesaurus comme étant soit un nom
féminin soit un adjectif. Chacun des deux termes a un sens dans l’index, ils sont donc
monosémiques.
caustique
n.f.
t. d’optique
350.19
adj.
586.11
2. 4. 2. La polysémie
Les définitions de la polysémie et de l’homonymie sont eux intéressants à connaître
puisqu’elles permettent de définir le cadre linguistique dans lequel la recherche du sens
pertinent prend place.
Ce terme a été créé par Michel Bréal dans son Essai de sémantique, paru en 1897,
dans un passage où le mot apparaît en conclusion d’une définition préalable (chap. XIV) :
... à mesure qu’une définition nouvelle est donnée au mot, il a l’air de se
multiplier et de produire des exemplaires nouveaux, semblables de forme
mais différents de valeurs. Nous appellerons ce phénomène de
multiplication, la polysémie.
24
C’est donc un phénomène diachronique2 qui consiste en l’addition d’acceptions
nouvelles au sens fondamental. Cette multiplication aboutit sur le plan synchronique, à la
coexistence de plusieurs significations pour les termes. Ce phénomène se caractérise donc
par l’identité d’une forme pour une multiplicité de valeurs.
Quelles unités peuvent être polysémiques ?
Des unités égales au mot ou plus larges que le mot peuvent être polysémiques : c’est
le domaine de la polysémie lexicale et c’est celui qui nous intéresse, ici. Exemples,
restauration d’un monument, et restauration comme service d’alimentation.
Des unités plus petites que le mot peuvent être polysémiques :
- La dérivation qui modifie le sens d’un nom par l’ajout d’un suffixe ou d’un préfixe :
-euse dans découpeuse peut être une personne ou une machine.
- Des éléments de composition, pour une même forme, peuvent présenter plusieurs
significations : télé peut signifier « de ou par télévision » ou « de ou par téléphérique ».
Les types de polysémie
Il y a essentiellement deux types de polysémie : La polysémie textuelle et la
polysémie paradigmatique.
- La polysémie textuelle concerne la structuration de l’énoncé. Dans le discours, des
termes identiques comportent des cumuls d’information très différents dans le
déroulement d’un texte. Par exemple,
la définition de X, par un enseignant, en début d’année et en fin d’année ;
Dans un texte assez long, sur le mot mère, une modification peut se traduire par la
substitution au mot mère du mot marâtre (mauvaise mère). C’est le problème de l’adéquation
d’un mot avec lui-même dans l’axe du temps. Le terme devient polysémique entre le début
et la fin du texte.
- La polysémie paradigmatique concerne les structures de la langue. C’est la
conception du sens que l’on retrouve chez les logiciens, la conception référentielle du sens,
celle de Wittgenstein (1953) :
Le sens d’un mot est son emploi dans le langage... Le sens d’un mot
s’explique en montrant ce qui porte le nom.
2
La diachronie est le caractère des phénomènes linguistiques considérés du point de vue de
leur évolution dans le temps. Par opposition, la synchronie consiste à considérer les phénomènes
de la langue à un moment déterminé, indépendamment de son évolution.
25
Cette conception ne peut être pertinente que dans des domaines linguistiques tout à
fait spécifiques tels les vocabulaires scientifiques et techniques qui visent à la
monoréférence car la réalité du fonctionnement du langage est contraire à cette analyse des
logiciens modernes.
On voit que les deux approches s’opposent. Mais ce débat n’a plus lieu. En effet, le
principe d’harmonie et de justesse des philosophes du XVIIIe siècle - la prolifération de
sens pour un même mot apparaissait comme une corruption du langage « univoque »
primitif (Voltaire) - s’oppose à la réalité du langage qui semble être la polysémisation, la
« créativité sémantique ».
Par rapport à ces deux types de polysémie, notre point de vue se rapproche plus de
la polysémie textuelle. Cependant, pour des raisons de représentation des sens, il nous faut
une base sur laquelle nous appuyer pour la désambiguïsation des sens des mots. Du coup,
nous préférons penser que le mot est polysémique depuis le début du texte. Il nous faut
rechercher alors le sens de ce mot soit en fonction de son voisinage immédiat (la phrase, le
paragraphe) soit en fonction du texte tout entier, pour chaque occurrence du signifiant
dans le texte. En effet, nous supposons que la base de notions sur laquelle nous nous
appuyons, contient a priori toutes les informations nécessaires - tous les sens des mots pour la recherche du signifié des mots.
Un exemple de mot polysémique est donné par le mot exiger dans l’index du
thesaurus : les trois sens sont commander, vouloir et demander.
2. 4. 3. L’homonymie
Deux mots sont homonymes s’ils ont la même prononciation avec des sens
différents.
Les homonymes peuvent être simplement homophones
différemment, comme les mots dans les phrases suivantes :
s’ils
s’écrivent
L’air est frais ce matin. Calculez l’aire de ce triangle. Laurent, serrez ma haire avec ma
discipline. Fais l’aumône à ce pauvre hère.
Il arrive aussi que non seulement les mots soient homophones mais aussi ils sont
homographes, comme le verbe louer, remontant au latin locare et au latin laudare :
Appartement à louer.
Votre conduite en cette affaire est à louer.
Une différence d’orthographe garantit clairement l’existence de deux mots distincts.
Quelquefois, on a créé une différence artificielle : par exemple, dessin et dessein sont
originellement le même mot, dérivés du vieux verbe desseigner (latin designare).
26
2. 4. 4. Homonymie et polysémie
Notre étude se pose dans la cadre synchronique et non pas diachronique. Or, en
synchronie, on peut prétendre que les mots polysèmes sont des homonymes et
inversement, pourvu que l’on traite les mots ayant les mêmes catégories grammaticales
Dans ce cas, deux mots homonymiques seront considérés comme un seul mot avec deux
groupes de sens différents. De la même manière, un mot polysémique sera un mot a
plusieurs acceptions de sens différentes.
Le verbe louer qui est homonymique est considéré dans l’index du thesaurus comme
un mot avec trois sens différents. Or, le premier sens vient du sens du mot laudare et les
deux autres viennent du mot locare.
Le signe est la réunion de trois composantes indissociables : le sens, le référent et la
forme. Définir le sens par rapport au référent et à la forme permet de mieux discerner les
objets de notre étude. L’étude de la lexie de Meluk et al. nous illustre une méthode
descriptive du sens d’un mot et définit la lexie avant tout comme une acception de sens.
Les diverses approches en analyse componentielle cherchent à différencier le sens
d’un mot à l’aide de traits sémiques fins. La grammaire des cas de Fillmore ne résout aucun
des problèmes posés par l’analyse sémique. La complexité des traits sémiques et le principe
que les champs sémantiques se chevauchent, nous redirige vers la recherche de théories
différentes de représentation des sens des mots.
Nous nous sommes alors orientés vers les dépôts d’informations sémantiques. Des
dictionnaires, des taxonomies ou des thesaurus, nous préférons utiliser un thesaurus. Nous
avons décrit le Thesaurus Larousse en détail et montré comment nous comptions l’utiliser
pour le chapitre suivant.
Les relations lexicales entre les sens des mots sont enfin définies et reliées à leur
utilisation à l’aide du thesaurus.
27
Téléchargement