L`étude pilote - Emolex Le lexique des émotions dans 5 langues

PROJET FRANCO-ALLEMAND ANR/DFG EMOLEX
(ANR-09-FASHS-017)
Protocole méthodologique
pour l’étude linguistique
Octobre 2011
Elaboré par E. Melnikova & I. Novakova
2
Sommaire
Sommaire ................................................................................................................................................ 2
Les travaux antérieurs sur le lexique des émotions ................................................................................ 3
L’étude pilote .......................................................................................................................................... 3
Le tri par fréquence ......................................................................................................................... 3
La désambiguïsation et les critères de sélection ............................................................................. 4
Le codage sémantique ..................................................................................................................... 7
Le codage syntaxique ...................................................................................................................... 8
Le corpus Emolex.EmoConc .............................................................................................................. 12
Etape 1 : Choix du corpus .............................................................................................................. 12
Etape 2 : Choix des pivots .............................................................................................................. 13
Etape 3 : Calcul terminé… .............................................................................................................. 15
Etape 4 : Critères d’affichage ........................................................................................................ 15
Etape 5 : Affichage du lexicogramme ........................................................................................... 16
Etape 6 : Extraction des résultats ................................................................................................. 16
Etape 7 : Constitution des grilles de profil sur Excel .................................................................... 17
Etape 8 : Vérification des codages ................................................................................................ 18
Quelques analyses linguistiques........................................................................................................ 19
Les « Camemberts » ...................................................................................................................... 19
Les tableaux croisés dynamiques (TCD) ........................................................................................ 19
Les tableaux des structures actancielles ....................................................................................... 21
Les factor maps : ANALYSE FATORIELLE DES CORRESPONDANCES (AFC) ..................................... 22
La suite de l’étude ............................................................................................................................. 24
3
Les travaux antérieurs sur le lexique des émotions
En linguistique française, de nombreux chercheurs ont étudié le lexique nominal des
émotions (voir entre autres Anscombre 1992, 1995 ; Ruwet 1994 ; Balibar-Mrabti 1995 ;
Leeman, 1995 ; Mathieu, 2000 ; Plantin et al., 2000, Flaux & Van de Velde 2000 ) en prenant
en compte leurs propriétés linguistiques, révélées essentiellement à travers leur
combinatoire syntaxique et lexicale.
Y.-Y. Mathieu (2000) a fait ses classements sur 400 verbes environ, répartis en 34-38
classes. L’équipe de Buvet (2005)
1
a travaillé sur l’ensemble de 293 adjectifs, 228 noms et
365 verbes, répartis dans 63 classes. Le travail du projet PPF (Augustyn et al., 2008 ) visait la
constitution d’une liste de 270 noms, 250 adjectifs et 393 verbes, parties dans 27 classes
sémantiques selon les critères de fréquence ainsi que des traits comme polarité
(positive/négative), intensité (faible, moyenne, forte) et les niveaux de langues (courant,
littéraire, familier).
En comparant les données du projet PPF avec les données de Mathieu (2000) et
Buvet et al.(1995) (Tableau 1), il ressort que les chiffres sont assez proches, mais le nombre
de classes est différent.
Les
émotions
Mathieu
2000
Buvet et al.
2005
Augustyn et al.
2008 (PPF)
Classes
33
27
Noms
-
270
Verbes
400
393
Adjectifs
-
250
Tableau 1 : Les données comparatives du lexique des émotions
Dans un premier temps, dans l’attente de la mise en place des corpus multilingues
(comparable set parallèles) ainsi que de l’interface d’interrogation du projet EMOLEX, il a été
décidé par les deux équipes de procéder à une étude linguistique préliminaire (étude pilote)
sur les corpus disponibles de taille équivalente (Frantext (www.frantext.fr), Ruscorpora
www.ruscorpora.ru, http://corpus.leeds.ac.uk/ruscorpora.html), BNC, corpus de presse
espagnol et allemand).
L’étude pilote
Cette étude avait pour but d’élaborer les différents outils (grilles de dimensions
sémantiques, de relations syntaxiques et de structures actancielles) et d’unifier la
méthodologie du volet linguistique du projet. Trois champs lexicaux ont été choisi :
DECEPTION, SURPRISE et RESPECT composés des lexies appropriées (noms, verbes, adjectifs) selon
le critère de fréquence (seuil de 100 occurrences après désambiguïsation).
Le tri des lexies par la fréquence
1
Buvet, P.-A./Girardin, Ch./Gross, G./Groud, Cl. (2005): “Les prédicats d’<affect>”, in: LIDIL 32, 123-143.
2
Ces verbes sont classés comme suit: 67 verbes d’affect, 197 verbes causatifs (dégoûter), 101 verbes
pronominaux, soit 365 verbes au total.
4
A titre d’exemple, pour le français, les lexies ont été sélectionnées à partir du corpus
catégorisé de Frantext, les textes (tous genres confondus) de 1950 à 2007 (au total 420
textes, 30 millions de mots).
Voici un extrait du tri quantitatif par fréquence absolue (Tableau 2). Le tableau
présente le nombre d’occurrences pour chaque lexie du champ DECEPTION. Les lemmes mis
en gris ont une fréquence insignifiante (moins de 100 occurrences) et n’ont pas été retenus.
Nom
Verbe
Adjectif
Lemme
Fréquence
absolue
Lemme
Fréquence
absolue
Lemme
Fréquence
absolue
Aigreur
44
affliger
105
contrarié
161
Amertume
250
aigrir
42
décevant
113
déception
255
contrarier
260
déçu
335
Dépit
775
décevoir
485
dépité
24
Désappointement
9
défriser
16
désappointé
16
désenchantement
29
dégriser
17
désillusionné
2
désillusion
30
dépiter
30
fâché
135
désabuser
104
fâcheux
133
désappointer
19
frustrant
1
désenchanter
28
désillusionner
2
doucher
385
échauder
15
refroidir
255
Tableau 2 : La sélection des lexies par fréquences absolues (réalisée par Edmée Marazel)
La désambiguïsation et les critères de sélection
La désambiguïsation consiste à enlever les lexies du corpus qui ne véhiculent pas le sens
d’affect (par ex. estimer un objet et estimer qn). La sélection des lexies dans les quatre autres langues
du projet se fait à partir de la sélection des lexies en français (le français étant la langue pivot du
projet). Ceci implique un travail fastidieux dobservation du contexte et de consultation des
dictionnaires explicatifs comme : par exemple pour le français ou le russe :
FR : Trésor de la langue française (http://atilf.atilf.fr/)
RU : Словарь русского языка (Dictionnaire de la langue russe): В 4-х т. / РАН, Ин-т
лингвистич. исследований; Под ред. А. П. Евгеньевой. 4-е изд., стер. М.: Рус. яз.;
Полиграфресурсы, 1999. (электронное научное издание (ЭНИ) : http://feb-web.ru/feb/mas/mas-
abc/default.asp )
Словарь русского языка (Dictionnaire de la langue russe) (1949, 22-е издание, 1990; с
1992 - олковый словарь русского языка", совместно с Н. Ю. Шведовой).
(http://www.ozhegov.org/ )
5
Толковый словарь русского языка (Dictionnaire analytique du russe): В 4 т./ Под
ред.Д. Н. Ушакова. М.: Гос. ин-т "Сов. энцикл."; ОГИЗ; Гос. изд-во иностр. и нац. слов., 1935-
1940. (http://slovari.yandex.ru/)
Словарь русских синонимов (Dictionnaire des synonymes russes), 1999 г. «Словарь
русских синонимов и сходных по смыслу выражений» Н. Абрамова)
A l’issue de la désambiguïsation, voici les listes des lexies des trois champs sélectionnées en
français et leurs équivalents dans les 4 autres langues (Tableaux 3-5) :
Champ
lexical
Partie
de
discours
Unité lexicale (FR) Unité lexicale (RU) Unité lexicale (ES) Unité lexicale (EN) Unité lexicale (DE)
udivitel'nyj amazing
astonishing
bewildering
udivlënnyj asombrado amazed verwundert
bewildered
astonished
izumlënnyj desconcertado bewildered
porazitelnyj perplejo
izumitel'nyj asombroso amazing
ošelomljajuščij sorprendente astonishing
ošelomitel'nyj bewildering
sorprendido überrascht
verwundert
udivlenie asombro amazement Erstaunen
astonishment Verwunderung
izumlenie asombro bewilderment
desconcierto
sobresalto
sorpresa amazement Überraschung
surprise
9épater verwundern
udivljat' IMPERF sorprender to amaze erstaunen
udivit' PERF to astonish überraschen
udivljat'sja IMPERF to baffle verwundern
udivit'sja PERF
izumljat' IMPERF
izumit' PERF
izumljat'sja IMPERF
izumit'sja PERF
poražat' IMPERF asombrar to astound
porazit' PERF sorprender to astonish
poražat'sja IMPERF to startle
porazit'sja PERF
12 souffler verblüffen
ošelomljat' IMPERF asombrar to astound
ošelomit' PERF to startle
Substantif
Adjectif
Surprise
Verbe
10
étonner
étonnant
étonné
stupéfait
surprenant
surpris
étonnement
stupeur
surprise
frapper
stupéfier
4
3
2
1
13
11
8
7
5
6
Tableau 3 : Les lexies du champ Surprise en français, russe, espagnol, anglais et allemand
1 / 24 100%
Study collections
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !