L`étude pilote - Emolex Le lexique des émotions dans 5 langues

publicité
PROJET FRANCO-ALLEMAND ANR/DFG EMOLEX
(ANR-09-FASHS-017)
Protocole méthodologique
pour l’étude linguistique
Octobre 2011
Elaboré par E. Melnikova & I. Novakova
Sommaire
Sommaire ................................................................................................................................................ 2
Les travaux antérieurs sur le lexique des émotions ................................................................................ 3
L’étude pilote .......................................................................................................................................... 3
Le tri par fréquence ......................................................................................................................... 3
La désambiguïsation et les critères de sélection............................................................................. 4
Le codage sémantique..................................................................................................................... 7
Le codage syntaxique ...................................................................................................................... 8
Le corpus Emolex.EmoConc .............................................................................................................. 12
Etape 1 : Choix du corpus .............................................................................................................. 12
Etape 2 : Choix des pivots.............................................................................................................. 13
Etape 3 : Calcul terminé… .............................................................................................................. 15
Etape 4 : Critères d’affichage ........................................................................................................ 15
Etape 5 : Affichage du lexicogramme ........................................................................................... 16
Etape 6 : Extraction des résultats ................................................................................................. 16
Etape 7 : Constitution des grilles de profil sur Excel .................................................................... 17
Etape 8 : Vérification des codages................................................................................................ 18
Quelques analyses linguistiques........................................................................................................ 19
Les « Camemberts » ...................................................................................................................... 19
Les tableaux croisés dynamiques (TCD) ........................................................................................ 19
Les tableaux des structures actancielles ....................................................................................... 21
Les factor maps : ANALYSE FATORIELLE DES CORRESPONDANCES (AFC) ..................................... 22
La suite de l’étude ............................................................................................................................. 24
2
Les travaux antérieurs sur le lexique des émotions
En linguistique française, de nombreux chercheurs ont étudié le lexique nominal des
émotions (voir entre autres Anscombre 1992, 1995 ; Ruwet 1994 ; Balibar-Mrabti 1995 ;
Leeman, 1995 ; Mathieu, 2000 ; Plantin et al., 2000, Flaux & Van de Velde 2000 ) en prenant
en compte leurs propriétés linguistiques, révélées essentiellement à travers leur
combinatoire syntaxique et lexicale.
Y.-Y. Mathieu (2000) a fait ses classements sur 400 verbes environ, répartis en 34-38
classes. L’équipe de Buvet (2005)1 a travaillé sur l’ensemble de 293 adjectifs, 228 noms et
365 verbes, répartis dans 63 classes. Le travail du projet PPF (Augustyn et al., 2008 ) visait la
constitution d’une liste de 270 noms, 250 adjectifs et 393 verbes, réparties dans 27 classes
sémantiques selon les critères de fréquence ainsi que des traits comme polarité
(positive/négative), intensité (faible, moyenne, forte) et les niveaux de langues (courant,
littéraire, familier).
En comparant les données du projet PPF avec les données de Mathieu (2000) et
Buvet et al.(1995) (Tableau 1), il ressort que les chiffres sont assez proches, mais le nombre
de classes est différent.
Les
émotions
Classes
Noms
Verbes
Adjectifs
Mathieu
2000
Buvet et al.
2005
33
400
63
228
3652
293
-
Augustyn et al.
2008 (PPF)
27
270
393
250
Tableau 1 : Les données comparatives du lexique des émotions
Dans un premier temps, dans l’attente de la mise en place des corpus multilingues
(comparable set parallèles) ainsi que de l’interface d’interrogation du projet EMOLEX, il a été
décidé par les deux équipes de procéder à une étude linguistique préliminaire (étude pilote)
sur les corpus disponibles de taille équivalente (Frantext (www.frantext.fr), Ruscorpora
www.ruscorpora.ru, http://corpus.leeds.ac.uk/ruscorpora.html), BNC, corpus de presse
espagnol et allemand).
L’étude pilote
Cette étude avait pour but d’élaborer les différents outils (grilles de dimensions
sémantiques, de relations syntaxiques et de structures actancielles) et d’unifier la
méthodologie du volet linguistique du projet. Trois champs lexicaux ont été choisi :
DECEPTION, SURPRISE et RESPECT composés des lexies appropriées (noms, verbes, adjectifs) selon
le critère de fréquence (seuil de 100 occurrences après désambiguïsation).
Le tri des lexies par la fréquence
1 Buvet, P.-A./Girardin, Ch./Gross, G./Groud, Cl. (2005): “Les prédicats d’<affect>”, in: LIDIL 32, 123-143.
2
Ces verbes sont classés comme suit: 67 verbes d’affect, 197 verbes causatifs (dégoûter), 101 verbes
pronominaux, soit 365 verbes au total.
3
A titre d’exemple, pour le français, les lexies ont été sélectionnées à partir du corpus
catégorisé de Frantext, les textes (tous genres confondus) de 1950 à 2007 (au total 420
textes, 30 millions de mots).
Voici un extrait du tri quantitatif par fréquence absolue (Tableau 2). Le tableau
présente le nombre d’occurrences pour chaque lexie du champ DECEPTION. Les lemmes mis
en gris ont une fréquence insignifiante (moins de 100 occurrences) et n’ont pas été retenus.
Nom
Verbe
Fréquence
absolue
44
Lemme
Aigreur
Adjectif
Fréquence
absolue
105
Lemme
affliger
contrarié
Fréquence
absolue
161
Lemme
Amertume
250
aigrir
42
décevant
113
déception
255
contrarier
260
déçu
335
Dépit
775
décevoir
485
dépité
24
Désappointement
9
défriser
16
désappointé
16
désenchantement
29
dégriser
17
désillusionné
2
désillusion
30
dépiter
30
fâché
135
désabuser
104
fâcheux
133
désappointer
19
frustrant
1
désenchanter
28
désillusionner
2
doucher
385
échauder
15
refroidir
255
Tableau 2 : La sélection des lexies par fréquences absolues (réalisée par Edmée Marazel)
La désambiguïsation et les critères de sélection
La désambiguïsation consiste à enlever les lexies du corpus qui ne véhiculent pas le sens
d’affect (par ex. estimer un objet et estimer qn). La sélection des lexies dans les quatre autres langues
du projet se fait à partir de la sélection des lexies en français (le français étant la langue pivot du
projet). Ceci implique un travail fastidieux d’observation du contexte et de consultation des
dictionnaires explicatifs comme : par exemple pour le français ou le russe :
FR : Trésor de la langue française (http://atilf.atilf.fr/)
RU : Словарь русского языка (Dictionnaire de la langue russe): В 4-х т. / РАН, Ин-т
лингвистич. исследований; Под ред. А. П. Евгеньевой. — 4-е изд., стер. — М.: Рус. яз.;
Полиграфресурсы, 1999. (электронное научное издание (ЭНИ) : http://feb-web.ru/feb/mas/masabc/default.asp )
Словарь русского языка (Dictionnaire de la langue russe) (1949, 22-е издание, 1990; с
1992 - "Толковый словарь русского языка", совместно с Н. Ю. Шведовой).
(http://www.ozhegov.org/ )
4
Толковый словарь русского языка (Dictionnaire analytique du russe): В 4 т./ Под
ред.Д. Н. Ушакова. — М.: Гос. ин-т "Сов. энцикл."; ОГИЗ; Гос. изд-во иностр. и нац. слов., 19351940. (http://slovari.yandex.ru/)
Словарь русских синонимов (Dictionnaire des synonymes russes), 1999 г. «Словарь
русских синонимов и сходных по смыслу выражений» Н. Абрамова)
A l’issue de la désambiguïsation, voici les listes des lexies des trois champs sélectionnées en
français et leurs équivalents dans les 4 autres langues (Tableaux 3-5) :
Champ
lexical
Partie
de
discours
Unité lexicale (FR)
Unité lexicale (RU)
Unité lexicale (ES) Unité lexicale (EN) Unité lexicale (DE)
Adjectif
udivitel'nyj
1
étonnant
2
étonné
3
stupéfait
4
surprenant
5
surpris
6
étonnement
7
stupeur
8
surprise
9
épater
udivlënnyj
asombrado
izumlënnyj
porazitelnyj
izumitel'nyj
ošelomljajuščij
ošelomitel'nyj
desconcertado
perplejo
asombroso
sorprendente
amazing
astonishing
bewildering
amazed
bewildered
astonished
bewildered
amazing
astonishing
bewildering
Substantif
Surprise
sorprendido
étonner
Verbe
10
11
frapper
12
souffler
13
stupéfier
udivlenie
asombro
izumlenie
asombro
desconcierto
sobresalto
sorpresa
verwundert
überrascht
verwundert
amazement
astonishment
bewilderment
Erstaunen
Verwunderung
amazement
surprise
Überraschung
udivljat' IMPERF
udivit' PERF
udivljat'sja IMPERF
udivit'sja PERF
izumljat' IMPERF
izumit' PERF
izumljat'sja IMPERF
izumit'sja PERF
poražat' IMPERF
porazit' PERF
poražat'sja IMPERF
porazit'sja PERF
sorprender
to amaze
to astonish
to baffle
asombrar
sorprender
to astound
to astonish
to startle
ošelomljat' IMPERF
ošelomit' PERF
asombrar
to astound
to startle
verwundern
erstaunen
überraschen
verwundern
verblüffen
Tableau 3 : Les lexies du champ Surprise en français, russe, espagnol, anglais et allemand
5
Partie
de
discours
Adjectif
Champ
lexical
1
2
contrarié
décevant
3
déçu
Unité
lexicale (RU)
razočarovannyj
ogorčënnyj
4 amertume goreč
razočarovanie
ogorčenie
5 déception
Substantif
Déception
Unité
lexicale
(FR)
docada
Verbe
6
7
dépit
Unité
lexicale (ES)
defraudado
decepcionado
frustrado
décepción
desencanto
desengaño
desilusión
desanimo
frustración
razočarovyvat' IMPERF
decepcionar
razocharovat' PERF
desanimar
razočarovyvat'sja IMPERF defraudar
razocharovat'sja PERF
ogorčat' IMPERF
décevoir ogorčit' PERF
ogorčat'sja IMPERF
ogorčit'sja PERF
dosadovat' IMPERF
dosaždat' IMPERF
Unité
lexicale (EN)
disappointed
disillusioned
pique
disappointment
pique
disillusionment
disenchantment
to disappoint
to disillusion
Unité
lexicale (DE)
enttäuscht
frustriert
Enttäuschung
Ernüchterung
Verdruss
Frust
Frustration
enttäuschen
frustrieren
dosadit' PERF
8 contrarier
to defert to
Tableau 4 : Les lexies du champ Déception en français, russe, espagnol, anglais et allemand
Champ
lexical
Partie
de
discours
Unité
lexicale (FR)
Unité
lexicale (RU)
Unité
lexicale (ESP)
Substantif
Verbe
Respect
Adjectif
počtitel'nyj
1
respetuoso
respectueux
Unité
lexicale (EN)
respectable
respected
respectful
appreciative
venerable
uvaženie
aprecio
appreciation
počtenie
consideración esteem
2 considération
regard
reverence
uvaženie
aprecio
appreciation
3
estime
počtenie
estima
esteem
počët
regard
uvaženie
respeto
awe
počët
deference
4
respect
regard
respect
considérer uvažat' IMPERF
to revere
5
uvažat' IMPERF apreciar
to appreciate
6
estimer
cenit' IMPERF
7
honorer
8
respecter
čtit' IMPERF
uvažat' IMPERF respetar
Unité
lexicale (DE)
to honour
to respect
Achtung
Achtung
Anerkennung
Wertschätzung
Achtung
Ehrfurcht
Respekt
achten
anerkennen
schätzen
achten
respektieren
Tableau 5 : Les lexies du champ Respect en français, russe, espagnol, anglais et allemand
Lors des études de ces corpus un système de codage sémantique et syntaxique a été élaboré.
6
Le codage sémantique (grille sémantique) (V. Goossens, A . Grutschus, B. Kern,
E. Melnikova)
La grille sémantique a été élaborée à partir des travaux de l’équipe grenobloise (Goossens
2005, Tutin, Novakova, Grossmann, Cavalla, 2006). Elle comporte 7 dimensions et valeurs
sémantiques établies à partir de collocatifs nomnaux et verbaux (combinatoire lexicale). Le codage
sémantique se fait sur la base de la « Dimension » et de « Valeur » des collocations. Il sert à définir le
profil sémantique du champ lexical étudié (Tableau 6).
Dimension
Valeur
Exemple
manifestation
physique:actif
physique:subi
verbal
externe
contrôle
émotion
manifestation
intensité
fort
faible
neutre
aspect:phasique:inchoatif
aspect:phasique+intensité:fort
causativité
aspect:phasique+intensité:faibl
e
aspect:phasique:terminatif
émotif
communicatif
interne:positif
interne:négatif
externe:positif
externe:négatif
ponctuel:non-itératif
Sauter de joie, manifester sa surprise
Trembler de peur, défaillir de joie
Hurler de joie, s’étouffer de colère
Remarquer l’étonnement, deviner la
surprise
Ravaler sa honte, accepter son chagrin
Dissimuler sa joie, laisser éclater son
bonheur
Très énervé, mourir de peur
Un peu fâché, légèrement surpris
Faire peur, donner de la joie
Eveiller la crainte, faire naître la peur
Attiser la haine, aviver la colère
Calmer les craintes, apaiser la colère
Endiguer la rage, chasser la peur
verbalisation
Hurler sa peur, clamer son désespoir
Avouer ses craintes, raconter son chagrin
polarité
Joie délicieuse, agréablement surpris
Affreuse tristesse, mauvaise surprise
digne d’admiration, dû respect
Joie idiote, nostalgie excessive
aspect
Instant de stupeur, remplir/emplir de
surprise
ponctuel:itératif
Il s’étonna de nouveau, Il s’étonne parfois
non-ponctuel:non-itératif
Nager dans le bonheur, état de tristesse
non-ponctuel:itératif
Il s’étonnait toujours
phasique:inchoatif
Commencer à être triste, apprendre à
respecter
phasique:continuatif
Continuer à étonner
phasique+intensité:fort
La panique augmente, étonnement
grandissant
phasique+intensité:faible
La tristesse s’adoucit, l’étonnement
s’émousse
phasique:terminatif
Cesser d’avoir peur, ne plus être déçu
expérienciation
présence:neutre
Ressentir/éprouver de la tristesse
présence:vsa
Tenir en haine, vouer du mépris
absence:neutre
Ignorer la peur, ne pas s’étonner
absence:vsa
Ne jamais décevoir (vsa causative)
Tableau 6 : La grille sémantique (voir le mode d’emploi Emolex)
7
Le codage syntaxique (grille de relations syntaxiques) (A. Grutschus, B. Kern,
E. Melnikova, I. Novakova)
Cette grille a été élaboré à partir des travaux de l’équipe colonaise (Blumenthal
2007). Elle contient la liste des codes grammaticaux. Les associations des mots-pivots (lexies
d’émotion) et leurs collocatifs sont ici codés en fonction du type de relation syntaxique dans
laquelle ils apparaissent dans la phrase (Tableaux 7 -9) :
1.Mot de base = Nom
Catégorie
Code
1. Épithète/apposition n11
+ nom de base
n12
2. Nom de base +
complément
déterminatif
Sous-catégorie
adjectif ou participe
antéposé ou postposé
adjectif ou participe
postposé
génitif subjectif (y compris
casuel)
Exemples
entière confiance, confiance absolue
n22
autres arguments nominaux
(y compris casuels)
la peur du loup (acc), la peur du gendarme
(acc), confiance dans la justice, confiance
envers les institutions, craintes pour l’avenir,
crainte de représailles
n23
groupe nominal sans
préposition
constructions nominales
non essentielles
confiance parents-enfants, surprise
cochonne, amour passion
un attachement sans faille, les craintes dans la
région, surprise de taille
n25
infinitif
confiance pour défendre les intérêts de X
n26
complétive
le sentiment qu’on ait frôlé la catastrophe
n27
la confiance qu’il témoigne à ses amis
n31
relative caractéristique du
mot de base
nom (+ préposition) + mot
de base (sauf quantification ;
inclut les relations casuelles)
n32
constructions sans
préposition
cadeau surprise, amour passion
n4
adjectif + mot de base
digne de confiance
n51
déterminants quantifiants (y
compris déterminants
complexes)
déterminants
noN+quantifiants
beaucoup de confiance, un minimum de
confiance, manque de confiance, un peu de
sujet grammatical – verbes
non attributifs
sujet grammatical –
constructions attributives
constructions passives
complément direct,
indirect/prépositionnel, y
compris les relations
casuelles
la confiance s’instaure, sentir l’amertume
n21
n24
3. Nom de base =
complément du nom
4. Nom de base =
complément de
l’adjectif/adverbe
5. Détermination
n52
6. Nom de base =
sujet grammatical
n61
n62
7. Nom de base =
complément du verbe
n63
n71
8
confiance absolue
confiance des consommateurs, la confiance
de ses pairs
moment de surprise, expression de surprise,
atmosphère de confiance, Ausdruck der
Überraschung, Vyraženie udivlenija
confiance
une certaine tristesse
poindre
l’espoir est vain
la confiance est acquise
accorder la confiance, bénéficier de la
confiance, plonger dans l’étonnement, gagner
en confiance, il reste de l’amertume
8. Nom de base à
l’intérieur d’un groupe
prépositionnel
n72
compléments
prépositionnels non
essentiels
se figer de surprise, tressaillir de surprise
n73
n74
n81
constructions attributives
compléments d’agent
complément du verbe
être en confiance
être cloué de surprise, être figé de surprise
(penser, etc.) en toute confiance, (écouter, etc.)
avec confiance, (se figer, tressaillir, etc.) de
n82
complément de la phrase
surprise
à la surprise générale, ils...
Tableau 7 : Grille des codes syntaxiques pour les collocations avec le mot de base nominal
2. Mot de base = verbe
Catégorie
1. Modifieur adverbial
+ verbe pivot
Code
v1
2. Verbe pivot +
v21
actants /compléments
v22
v23
v24
3. Verbe pivot =
complément du verbe
v25
v26
v27
v31
v32
4. Verbe pivot =
complément de
l’adjectif
5. Verbe pivot =
complément du nom
v4
6. Constructions
impersonnelles
v6
v5
7. Verbe pivot =
v71
complément de phrase v72
Sous-catégorie
Exemples
beaucoup surprendre, sorprender bastante,
frapper d’autant plus, surprendre outre
mesure
sujet caractéristique
sa réponse m’a beaucoup étonné
complément d’objet direct
(inclut les relations
casuelles)
complément d’objet
indirect/prépositionnel
(inclut les relations
casuelles)
verbe pivot + compléments
prépositionnels non
essentiels
complément d’agent
infinitif
complétive
verbe
support/auxiliaire/semimodal/modal + mot de
base
verbe « plein » (+
préposition) + mot de base
(à l’infinitif)
adjectif + PREP + mot de
base
X surprend Jean, sorprender a
profesionales
sorprenderse de la puntualidad, il s’étonne de
son insolence
s’étonner devant l’ampleur des dégâts,
surprendre en ce moment
frapper par sa richesse
J’étais étonnée de le voir ainsi ; il aime lire
Ça me surprend qu’il soit encore en vie
se laisser surprendre, se faire respecter,
devoir respecter, sembler surprendre,
commencer à respecter, cesser de frapper
apprendre à respecter X
fier de surprendre, heureux de surprendre
nom + PREP + verbe pivot le plaisir de surprendre
à l’infinitif
cela m’étonne ; it amazes me that...
apposition
complément prépositionnel
me surprendre, c’est ce qu’il aime faire
Pour surprendre sa copine, il s’est approché à
pas feutrés.
Tableau 8 : Grille des codes syntaxiques pour les collocations avec le mot de base verbal
9
3.Mot de base = adjectif
Catégorie
1. Modifieur adverbial
+ adjectif pivot
Code
a1
Sous-catégorie
Exemples
très surpris, über alle Maßen überrascht
2. Adjectif pivot +
complément
déterminatif
a21
groupes prépositionnels
(être) fier de son succès, stupéfait par les
a22
a23
a3
infinitif
complétive
3. Adjectif pivot =
épithète
4. Adjectif pivot =
attribut
conséquences
(être) surpris de voir que...
(être) surpris que...
un air surpris
resultar asombroso, mostrarse sorprendido,
declararse decepcionado, to look amazed,
paraître stupéfiant, estar perplejo, être
a4
surpris
5. Adjectif pivot =
apposition
étonné, il se met à rire
a5
Tableau 9 : Grille des codes syntaxiques pour les collocations avec le mot de base adjectival
Grâce à ces codes sémantiques et syntaxiques, l’interrogation du corpus informatique en
ligne sera simplifiée et uniformisée pour les cinq langues. Ceci permettra d’effectuer des analyses
contrastives plus efficaces et permettra de structurer le lexique des émotions et d’élaborer une
cartographie des émotions dans les cinq langues du projet.
Pour faciliter la compréhension des codes syntaxiques lors des requêtes syntaxiques, une
liste d’étiquettes paraphrasées et hiérarchisées a été élaborée (E. MELNIKOVA & J. COMAN). Chaque
étiquette correspond aux significations des codes de la grille de relations syntaxiques (Tableau 10) :
Niveau 1
Niveau 2
Niveau 3
Niveau 4
Code
syntaxique
Mot-pivot = Nom
----------------------------------
----------------------------------
----------------------------------
N+N/COMP/PREP/ESS
N+N
N+N/COMP
N+N/COMP/PREP
N+N/COMP/PREP/NON_ESS
N+N/COMP/APPOS
----------------------------------
N+DET/QUANT
-------------------------------------------------------------------
N+DET
N+DET/NON_QUANT -------------------------------------------------------------------
N+V
N+V/COMP/INF ----------------------------------
N+CS
---------------------------------------------------------------------------------------------------
N+PRON_REL ---------------------------------------------------------------------------------------------------
N+PREP/COMP_V
-------------------------------------------------------------------
N+PREP
N+PREP/COMP_SENT -------------------------------------------------------------------
N+XXX
N+XXX/ATTR
-------------------------------------------------------------------
Mot-pivot = Verbe
V+ADV
---------------------------------------------------------------------------------------------------
V+N/COMP/ESS/DIR
V+N
V+N/COMP
V+N/COMP/ESS
V+N/COMP/ESS/INDIR
N+ADJ
N+ADJ/EPIT
N+ADJ/EPIT/ANTE
N+ADJ/EPIT/POST
N+N/COMP/GEN_SUBJ
10
N11|A3
N12|A3
N21|N31
N22|N31
N24|N31
N23|32
N51
N52
N25|V5
N26
N27
N81
N82
N62
V1
V22|N71
V23|N71
V+N/COMP/NON_ESS
----------------------------------
V+N/SUJ/ACTIF
----------------------------------
V+N/SUJ
V+N/SUJ/PASS
----------------------------------
V+N/AGENT
-------------------------------------------------------------------
V+N/ATTR
-------------------------------------------------------------------
V+V/COMP/INF ----------------------------------
V+V
V+V/MODAL
-------------------------------------------------------------------
V+V/COMP_SENT
-------------------------------------------------------------------
V+ADJ
V+ADJ/ATTR
-------------------------------------------------------------------
V+PRON
V+PRON/IMPERS
-------------------------------------------------------------------
V+PREP
V+PREP/COMP_SENT -------------------------------------------------------------------
V+CS
---------------------------------------------------------------------------------------------------
Mot-pivot = Adjectif
ADJ+ADV
---------------------------------------------------------------------------------------------------
ADJ+N
ADJ+N/COMP
-------------------------------------------------------------------
ADJ+V
ADJ+V/COMP/INF ----------------------------------
ADJ+CS
---------------------------------------------------------------------------------------------------
XXX+ADJ
XXX+ADJ/APP
-------------------------------------------------------------------
Tableau 10 : Les étiquettes hiérarchiques des codes syntaxiques (élaboré par Julien Corman)
11
V24|N72
V21|N61
V28|N63
V25|N74
N73
V26|V32
V31
V71
A4
V6
V72
V27
A1
A21|N4
A22|V4
A23
A5
Le corpus Emolex.EmoConc (S . Diwersy, O. Kraif, A . Falaise)
Après la finalisation de l’étude pilote et la mise en place des outils informatiques et
méthodologiques, l’étude linguistique se poursuit sur les corpus comparables définitifs du
projet (120 Millions de mots en moyenne par langue corpus littéraires + corpus
journalistiques). Une interface d’interrogation EMOCONC a été créée (S. Diwersy & O. Kraif)
et mise en ligne (http://santenay.rom.uni-koeln.de/html/emoconc-so-v1/index.php). Très
bientôt s’y ajouteront des fonctionnalités complémentaires suite à l’adaptation de la base de
données Scientext/Emolex à Emoconc (A. Falaise). Voici le descriptif des corpus (état des
lieux au 01.10.2011)
fldCorpusId
Leimerc08
Guard08a
Times08a
Indep08a
hab08
tasp08
fru08
faz02
fldCorpusName
fldNumToken fldGenre
fldLanguage
The Leicester Mercury 2008
16699431 journalistique en
The Guardian 2008 (01-06)
31503083 journalistique en
Times 2008 (01-06)
37970290 journalistique en
The Independent 2008 (01-06)
22731475 journalistique en
108904279
Hamburger Abendblatt 2008
29113566 journalistique de
Der Tagesspiegel 2008
24862146 journalistique de
Frankfurter Rundschau 2008
32216660 journalistique de
F.A.Z. 2002
37922892 journalistique de
124115264
Dt. Gegenwartsliteratur (Corpus
litcorp_met_ge Métrich)
6376285 littéraire
de
litmod_ge
Dt. Gegenwartsliteratur (Bestseller)
8151140 littéraire
de
14527425
lm07
Le Monde 2007
23653157 journalistique fr
lm08
Le Monde 2008
21874009 journalistique fr
lfi07
Le Figaro 2007
28933120 journalistique fr
lfi08
Le Figaro 2008
11613912 journalistique fr
ouefr07
Ouest-France 2007
17748456 journalistique fr
ouefr08
Ouest-France 2008
13249637 journalistique fr
117072291
litmod_fr
Littérature française contemporaine
15978230 littéraire
fr
15978230
Ci-dessous sont décrites quelques opérations à suivre pour extraire des collocations.
Etape 1 : Choix du corpus
Sélectionner le corpus d’une ou de plusieurs langues (Figure 1).
12
Figure 1 : Choix du corpus sur EmoConc
Le corpus de chaque langue est bien équilibré : 100 millions de mots environ pour les textes
journalistiques et 20 millions de mots environ pour les textes littéraires.
(Le téléchargement du corpus russe est en attente)
Etape 2 : Choix des pivots
Saisir un (ou des) pivot(s) dans la case « Liste des pivots » suivi(s) d’un dièse et le
code de la catégorie (en majuscule(s)), (Figure 2).
13
Figure 2 : Choix des pivots
Ci-dessous, la liste des codes des catégories à saisir avec le dièse :
Catégorie
Nom
Adjectif
Verbe
Adverbe
Pronom
Préposition
Quantifieur
Déterminant
Numéral
Auxiliaire
Conjonction
Ponctuation
Code de la catégorie pour le français,
l’espagnol et l’allemand
N
A
V
ADV
PRON
PREP
DET
NUM
CC (ni)
PUN
Code de la catégorie pour l’anglais
NOUN
ADJ
VERB
ADV
PRON
QUANT
DET
NUM
AUX
CONJ (nor)
PUN
Tableau 11 : Les codes des catégories des pivots et des collocatifs désignés par les analyseurs syntaxiques sur
EmoConc.
Il faudrait bien noter que la fréquence des occurrences par collocatif est de 2 au minimum
(case « Sélection des collocatis – Paramètres statistiques »). La spécificité statistique est calculée en
paramètre log-likelihood dont le seuil est d’au moins 10,83.
Après avoir vérifié ces conditions, calculer la table de contingence (bouton en bas).
14
Etape 3 : Calcul terminé…
Choisir le lien « retourner au menu principal », (Figure 3).
Figure 3 : Calcul terminé…
Etape 4 : Critères d’affichage
Pour afficher les lexicogrammes, on sélectionne le log-likelihood dans la case
« Valeurs statistiques à afficher », likelihood et décroissant(e) dans les cases de « Ordre
d’affichage » , log-likelihood dans la case « Histogrammes », (Figure 4).
Figure 4 : Critères de l’affichage des tables
15
Une fois les valeurs sont sélectionnées, appuyer sur le bouton « Afficher ».
Etape 5 : Affichage du lexicogramme
Le lexicogramme est un tableau qui ressemble tous les collocatifs (I2) du mot-pivot
(I1) selon les critères désignés (Pas 4). Le lexicogramme affiche la fréquence de la
cooccurrence (f) du mot-pivot avec le collocatif, la fréquence du mot pivot (f1) dans le
corpus, la fréquence du collocatif dans le corpus, la spécificité statistique de la cooccurrence
(am.log.likelihood) et le rang de la cooccurrence dans le lexicogramme (r.log.likelihood),
(Figure 5).
Figure 5 : Lexicogramme
Il est possible de visualiser les exemples de chaque cooccurrence en appuyant sur le
lien rouge du mot-pivot.
Etape 6 : Extraction des résultats
Pour extraire les résultats, on trouve une fonctionnalité « Télécharger » en bas du
lexicogramme (mis en rouge sur l’image), (Figure 6).
16
Figure 6 : Téléchargement du lexicogramme
Le format .csv ne reconnaît pas toujours des signes diacritiques dans certaines
langues. Pour l’éviter, il vaut mieux sauvegarder le lexicogramme en format .txt sous codage
UTF-8 ou l’ouvrir avec le logiciel Scite. Avant de transmettre le lexicogramme en Excel, il a
été convenu de séparer les codes de la catégorie (du mot pivot et du collocatif) et de les
noter dans des colonnes séparées. De plus, pour assurer la meilleure reconnaissance des
données, on change le point (.) séparateur du log-likelihood en virgule (,). Toutes ces
opérations s’effectuent avec la commande Rechercher-Remplacer (Ctrl+H).
Etape 7 : Constitution des grilles de lexicogrammes sur Excel
Les tableaux Excel permettent de ranger les informations extraites à partir de
EmoConc, de les trier, de faire des calculs et des figures représentatifs. Plus précisément, ils
servent essentiellement à constituer les profils combinatoires comparatifs (PCC) des
champs lexicaux des émotions (A. Grutschus & B. Kern).
Le tableau Excel est constitué de 18 colonnes (A – S) pour le français et 19 colonnes
(A – T) pour les autres langues. Ces colonnes comportent les informations suivantes :
A-Langue, B-Mot-pivot (MP), C-Catégorie du mot-pivot (Cat.MP), D-MP corrigé, ECat.MP corrigé, F-Collocatif (Coll.), G-Cat.Coll., H-Coll. Corrigé, I-Cat.Coll.corrigé, JConstruction, K-Relation syntaxique (Rel.synt.), L-Dimension, M-Valeur, N-Fréquence (f), OFréquence du MP (f1), P-Fréquence du Coll. (f2), Q-Log-likelihood (am.log.likelihood), Rrang, S-commentaire. Pour les langues autres que le français, la colonne K est réservée pour
la traduction de la construction. Cf. en allemand (Figure 7) :
17
Tableau 7 : Le profil combinatoire d’Enttäuschung (déception) en allemand
Le lexicogramme extrait de EmoConc apparaît donc sous la forme illustrée par le
tableau7. Avant de commencer le codage sémantique et syntaxique, la grille nécessite du
« nettoyage ». Ceci signifie l’élimination des collocatifs non-pertinents (comme noms
propres, pronoms personnels, mots qui ne s’inscrivent pas dans aucune des dimensions
sémantiques désignées), ainsi que le tri des collocatifs intéressants pour l’analyse discursif
ou pour l’analyse actancielle (les prépositions, les interjections etc.)
Les colonnes L-N (Relation syntaxique, Dimension et Valeur) sont remplies par les
désignations établies dans la grille sémantique et les codes de la grille syntaxique. Dans les
colonnes J (Construction) et K (Traduction de la construction) , on note des constructions
type, c.à.d. pour chaque collocatif dans une ligne, la construction la plus fréquente
rencontrée dans les exemples d’EmoConc. La colonne T est une colonne des commentaires
s’il y a hésitation ou précision lors du codage.
Etape 8 : Vérification des codages
C’est une phase importante et nécessaire pour l’harmonisation des codages dans les
cinq langues, effectués par différentes personnes. La vérification se fait par une ou plusieurs
personnes de l’équipe. Dès que les vérifications sont faites, il devient possible de faire les
analyses comparatives.
18
Exemple d’analyses linguistiques comparatives
L’exploration des corpus et la constitution des profils combinatoires pour chaque
champ d’émotion permettent de faire quelques analyses à l’aide des PCC (profils
combinatoires contrastifs).
Les « Camemberts » (A. Grutschus & B. Kern)
Les camemberts de la figure 8 rendent plus facile l’observation des taux de
fréquences pour chaque dimension sémantique par ex. ici en français et en allemand.
Figure 8 : Les dimensions sémantiques du champ Surprise en français et en allemand
Ainsi, l’intensité (37%) apparaît comme dimension sémantique plus importante en
français dont les collocations les plus spécifiques sont frapper de stupeur, grande surprise,
avoir la surprise, grand étonnement. Tandis qu’en allemand, c’est la polarité (43%) s’avère
être plus importante avec la collocation la plus spécifique böse Überraschung/‘mauvaise
surprise‘. Les PCC des cinq langues mis ainsi en contraste permettent d’observer la diversité
des profils sémantiques des lexies des émotions étudiés.
Les tableaux croisés dynamiques (TCD) (E. Melnikova, A. Grutschus, B. Kern))
Les TCD peuvent mettre en contraste tous les profils combinatoires et donner
l’information quantitative sur la représentativité de tel ou tel paramètre (Figure 9)
19
Figure 9 : Extrait du TCD comparatif des 4 langues du champ Déception
Ce tableau comparatif visualise sous forme plus compacte tous les collocatifs des 4
langues en les regroupant par valeur et par dimension. Ceci facilite la comparaison de la
distribution des mots-pivots.
La présentation chiffrée du tableau dynamique fait ressortir les types des relations
syntaxiques fréquentes pour un champ lexical (Figure 10).
Figure 10 : TCD du calcul des relations syntaxique, champ Surprise
20
L’observation des données des TCD est souvent plus parlante quand les chiffres
confirment la spécificité sémantique des mots d’émotion (Figure 11).
Figure 11 : Extrait du TCD du calcul des dimensions sémantique, champ Surprise
Les tableaux des structures actancielles (I. Novakova, F. Grossmann, V.
Goossens)
L’étude des structures actancielles permet d’observer la valence syntaxique et la
valence sémantique des mots d’émotion et définir ainsi leur profil discursif (Tableau 12).
Verbes actifs
SURPRISE
(surprendre,
étonner,
stupéfier)
Valence
syntaxiqu
e Asy
1
1
2
2
RESPECT
(respecter,
estimer,
considérer)
 suppression
du 2ème A (Y)
impossible
2
2
Valence
sémantique
Asé
1
(Z)
2
(Z+Zinstr ; P/Z)
2
(Z+X)
(P/Z+X)
3
(Z+X+ Zinstr ;
P/Z)
2
(X+Y)
(X+Y/Z)
3
(X+YpourZ)
Profil discursif
Exemple
Zthème/ X ø
Après ce repas animé, le silence
surprenait
Z dédoublé,thème/ X Elle étonne avec cette chanson
ø
Les jeunes hommes surprennent
par leur calme beauté
Zthème/ X ø
Elle les stupéfia.
Sa beauté me surprenait
Zdédoublé,thème/ X Les vitraux étonnent le monde par
leur qualité.
prés
Il me surprit avec cet incroyable
spectacle
Xthème/ Y prés
Xthème/ Yprés + Z
prés
21
On vous considérera.
Il estimait son courage.
Il le respectait pour sa bravoure
Tableau 12 : Le profil actanciel des verbes français des champs Surprise et Respect (élaboré par Vannina
Goossens)
Les factor maps : ANALYSE FATORIELLE DES CORRESPONDANCES (AFC) (S.
Diwersy)
Le factor map est un premier essai de représentation statistique des données à partir
des fichiers Excel (Cologne).
Figure 12 : Factor map du champ Sorpresa (surprise) en espagnol
Ce tableau illustre la variabilité dans l’expression des dimensions sémantiques : le
nombre de collocatifs correspondant à une dimension. Les deux axes sont deux
constellations de variables : dimensions sémantiques et nombre de collocatifs. les
diagrammes illustrent les dimensions sémantiques proches d’une lexie, le nombre de
collocatifs qui se concentrent autour d’une lexie : par ex . en espagnol les collocatifs pour
polarité positive et négative se concentrent surtout autour des sorpresa, sorprendido,
sorprender . En bref, ce qui est intéressant à examiner ce sont les contrastes qui émergent et
22
qui montrent qu’il y a quelque chose qui se détache par rapport à la RELATION MOT PIVOT
vs DIMENSION SEMANTIQUE. C’est ainsi le contraste polarité faible/forte pour l’espagnol.
23
La suite de l’étude linguistique
Nous avons retenus 10 champs lexicaux d’émotions et 5 champs en attente (Réunion
de Cologne, mars 2011) selon les critères suivants :
L
Etablir un équilibre entre affects « négatifs/positifs/neutres »
o Retenir aussi des affects « sociaux »
o retenir des paires de contraires
o retenir des affects « marginaux » ainsi que des affects assez bien étudiés
Les 10 champs retenus :
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
Respect
Surprise
Déception
Mépris
Admiration
Colère
Jalousie
Joie
Tristesse
Mélancolie/nostalgie
Les 5 champs sur la liste d’attente:
1.
2.
3.
4.
Peur/inquiétude
Soulagement
Indifférence
Amour ?
Conclusion :
L’étude linguistique du projet vise à combiner deux approches méthodologiques
complémentaires, auparavant exploitées séparément par les équipes française et
allemande :
 l’approche syntaxico-sémantique de l’analyse des collocations des émotions
basées sur corpus, à travers l’étude de la combinatoire syntaxique et lexicale (Tutin,
Novakova, Grossmann, Cavalla, 2006, Novakova & Tutin 2009) qui consiste à identifier les
dimensions sémantiques pertinentes, à relier les dimensions sémantiques aux structures
syntaxiques des lexies des émotions
 l’élaboration de cartographies basées sur le calcul de l’indice de cohésion entre
coocurrents, de la valeur de similarité linguistique entre des mots pivots, de l’indice de
stéréotypie entre mot pivot et collocatifs (Blumenthal, 2007, 2009, S . Diwersy 2007 entre
autres)
24
Téléchargement
Study collections