PROJET FRANCO-ALLEMAND ANR/DFG EMOLEX (ANR-09-FASHS-017) Protocole méthodologique pour l’étude linguistique Octobre 2011 Elaboré par E. Melnikova & I. Novakova Sommaire Sommaire ................................................................................................................................................ 2 Les travaux antérieurs sur le lexique des émotions ................................................................................ 3 L’étude pilote .......................................................................................................................................... 3 Le tri par fréquence ......................................................................................................................... 3 La désambiguïsation et les critères de sélection............................................................................. 4 Le codage sémantique..................................................................................................................... 7 Le codage syntaxique ...................................................................................................................... 8 Le corpus Emolex.EmoConc .............................................................................................................. 12 Etape 1 : Choix du corpus .............................................................................................................. 12 Etape 2 : Choix des pivots.............................................................................................................. 13 Etape 3 : Calcul terminé… .............................................................................................................. 15 Etape 4 : Critères d’affichage ........................................................................................................ 15 Etape 5 : Affichage du lexicogramme ........................................................................................... 16 Etape 6 : Extraction des résultats ................................................................................................. 16 Etape 7 : Constitution des grilles de profil sur Excel .................................................................... 17 Etape 8 : Vérification des codages................................................................................................ 18 Quelques analyses linguistiques........................................................................................................ 19 Les « Camemberts » ...................................................................................................................... 19 Les tableaux croisés dynamiques (TCD) ........................................................................................ 19 Les tableaux des structures actancielles ....................................................................................... 21 Les factor maps : ANALYSE FATORIELLE DES CORRESPONDANCES (AFC) ..................................... 22 La suite de l’étude ............................................................................................................................. 24 2 Les travaux antérieurs sur le lexique des émotions En linguistique française, de nombreux chercheurs ont étudié le lexique nominal des émotions (voir entre autres Anscombre 1992, 1995 ; Ruwet 1994 ; Balibar-Mrabti 1995 ; Leeman, 1995 ; Mathieu, 2000 ; Plantin et al., 2000, Flaux & Van de Velde 2000 ) en prenant en compte leurs propriétés linguistiques, révélées essentiellement à travers leur combinatoire syntaxique et lexicale. Y.-Y. Mathieu (2000) a fait ses classements sur 400 verbes environ, répartis en 34-38 classes. L’équipe de Buvet (2005)1 a travaillé sur l’ensemble de 293 adjectifs, 228 noms et 365 verbes, répartis dans 63 classes. Le travail du projet PPF (Augustyn et al., 2008 ) visait la constitution d’une liste de 270 noms, 250 adjectifs et 393 verbes, réparties dans 27 classes sémantiques selon les critères de fréquence ainsi que des traits comme polarité (positive/négative), intensité (faible, moyenne, forte) et les niveaux de langues (courant, littéraire, familier). En comparant les données du projet PPF avec les données de Mathieu (2000) et Buvet et al.(1995) (Tableau 1), il ressort que les chiffres sont assez proches, mais le nombre de classes est différent. Les émotions Classes Noms Verbes Adjectifs Mathieu 2000 Buvet et al. 2005 33 400 63 228 3652 293 - Augustyn et al. 2008 (PPF) 27 270 393 250 Tableau 1 : Les données comparatives du lexique des émotions Dans un premier temps, dans l’attente de la mise en place des corpus multilingues (comparable set parallèles) ainsi que de l’interface d’interrogation du projet EMOLEX, il a été décidé par les deux équipes de procéder à une étude linguistique préliminaire (étude pilote) sur les corpus disponibles de taille équivalente (Frantext (www.frantext.fr), Ruscorpora www.ruscorpora.ru, http://corpus.leeds.ac.uk/ruscorpora.html), BNC, corpus de presse espagnol et allemand). L’étude pilote Cette étude avait pour but d’élaborer les différents outils (grilles de dimensions sémantiques, de relations syntaxiques et de structures actancielles) et d’unifier la méthodologie du volet linguistique du projet. Trois champs lexicaux ont été choisi : DECEPTION, SURPRISE et RESPECT composés des lexies appropriées (noms, verbes, adjectifs) selon le critère de fréquence (seuil de 100 occurrences après désambiguïsation). Le tri des lexies par la fréquence 1 Buvet, P.-A./Girardin, Ch./Gross, G./Groud, Cl. (2005): “Les prédicats d’<affect>”, in: LIDIL 32, 123-143. 2 Ces verbes sont classés comme suit: 67 verbes d’affect, 197 verbes causatifs (dégoûter), 101 verbes pronominaux, soit 365 verbes au total. 3 A titre d’exemple, pour le français, les lexies ont été sélectionnées à partir du corpus catégorisé de Frantext, les textes (tous genres confondus) de 1950 à 2007 (au total 420 textes, 30 millions de mots). Voici un extrait du tri quantitatif par fréquence absolue (Tableau 2). Le tableau présente le nombre d’occurrences pour chaque lexie du champ DECEPTION. Les lemmes mis en gris ont une fréquence insignifiante (moins de 100 occurrences) et n’ont pas été retenus. Nom Verbe Fréquence absolue 44 Lemme Aigreur Adjectif Fréquence absolue 105 Lemme affliger contrarié Fréquence absolue 161 Lemme Amertume 250 aigrir 42 décevant 113 déception 255 contrarier 260 déçu 335 Dépit 775 décevoir 485 dépité 24 Désappointement 9 défriser 16 désappointé 16 désenchantement 29 dégriser 17 désillusionné 2 désillusion 30 dépiter 30 fâché 135 désabuser 104 fâcheux 133 désappointer 19 frustrant 1 désenchanter 28 désillusionner 2 doucher 385 échauder 15 refroidir 255 Tableau 2 : La sélection des lexies par fréquences absolues (réalisée par Edmée Marazel) La désambiguïsation et les critères de sélection La désambiguïsation consiste à enlever les lexies du corpus qui ne véhiculent pas le sens d’affect (par ex. estimer un objet et estimer qn). La sélection des lexies dans les quatre autres langues du projet se fait à partir de la sélection des lexies en français (le français étant la langue pivot du projet). Ceci implique un travail fastidieux d’observation du contexte et de consultation des dictionnaires explicatifs comme : par exemple pour le français ou le russe : FR : Trésor de la langue française (http://atilf.atilf.fr/) RU : Словарь русского языка (Dictionnaire de la langue russe): В 4-х т. / РАН, Ин-т лингвистич. исследований; Под ред. А. П. Евгеньевой. — 4-е изд., стер. — М.: Рус. яз.; Полиграфресурсы, 1999. (электронное научное издание (ЭНИ) : http://feb-web.ru/feb/mas/masabc/default.asp ) Словарь русского языка (Dictionnaire de la langue russe) (1949, 22-е издание, 1990; с 1992 - "Толковый словарь русского языка", совместно с Н. Ю. Шведовой). (http://www.ozhegov.org/ ) 4 Толковый словарь русского языка (Dictionnaire analytique du russe): В 4 т./ Под ред.Д. Н. Ушакова. — М.: Гос. ин-т "Сов. энцикл."; ОГИЗ; Гос. изд-во иностр. и нац. слов., 19351940. (http://slovari.yandex.ru/) Словарь русских синонимов (Dictionnaire des synonymes russes), 1999 г. «Словарь русских синонимов и сходных по смыслу выражений» Н. Абрамова) A l’issue de la désambiguïsation, voici les listes des lexies des trois champs sélectionnées en français et leurs équivalents dans les 4 autres langues (Tableaux 3-5) : Champ lexical Partie de discours Unité lexicale (FR) Unité lexicale (RU) Unité lexicale (ES) Unité lexicale (EN) Unité lexicale (DE) Adjectif udivitel'nyj 1 étonnant 2 étonné 3 stupéfait 4 surprenant 5 surpris 6 étonnement 7 stupeur 8 surprise 9 épater udivlënnyj asombrado izumlënnyj porazitelnyj izumitel'nyj ošelomljajuščij ošelomitel'nyj desconcertado perplejo asombroso sorprendente amazing astonishing bewildering amazed bewildered astonished bewildered amazing astonishing bewildering Substantif Surprise sorprendido étonner Verbe 10 11 frapper 12 souffler 13 stupéfier udivlenie asombro izumlenie asombro desconcierto sobresalto sorpresa verwundert überrascht verwundert amazement astonishment bewilderment Erstaunen Verwunderung amazement surprise Überraschung udivljat' IMPERF udivit' PERF udivljat'sja IMPERF udivit'sja PERF izumljat' IMPERF izumit' PERF izumljat'sja IMPERF izumit'sja PERF poražat' IMPERF porazit' PERF poražat'sja IMPERF porazit'sja PERF sorprender to amaze to astonish to baffle asombrar sorprender to astound to astonish to startle ošelomljat' IMPERF ošelomit' PERF asombrar to astound to startle verwundern erstaunen überraschen verwundern verblüffen Tableau 3 : Les lexies du champ Surprise en français, russe, espagnol, anglais et allemand 5 Partie de discours Adjectif Champ lexical 1 2 contrarié décevant 3 déçu Unité lexicale (RU) razočarovannyj ogorčënnyj 4 amertume goreč razočarovanie ogorčenie 5 déception Substantif Déception Unité lexicale (FR) docada Verbe 6 7 dépit Unité lexicale (ES) defraudado decepcionado frustrado décepción desencanto desengaño desilusión desanimo frustración razočarovyvat' IMPERF decepcionar razocharovat' PERF desanimar razočarovyvat'sja IMPERF defraudar razocharovat'sja PERF ogorčat' IMPERF décevoir ogorčit' PERF ogorčat'sja IMPERF ogorčit'sja PERF dosadovat' IMPERF dosaždat' IMPERF Unité lexicale (EN) disappointed disillusioned pique disappointment pique disillusionment disenchantment to disappoint to disillusion Unité lexicale (DE) enttäuscht frustriert Enttäuschung Ernüchterung Verdruss Frust Frustration enttäuschen frustrieren dosadit' PERF 8 contrarier to defert to Tableau 4 : Les lexies du champ Déception en français, russe, espagnol, anglais et allemand Champ lexical Partie de discours Unité lexicale (FR) Unité lexicale (RU) Unité lexicale (ESP) Substantif Verbe Respect Adjectif počtitel'nyj 1 respetuoso respectueux Unité lexicale (EN) respectable respected respectful appreciative venerable uvaženie aprecio appreciation počtenie consideración esteem 2 considération regard reverence uvaženie aprecio appreciation 3 estime počtenie estima esteem počët regard uvaženie respeto awe počët deference 4 respect regard respect considérer uvažat' IMPERF to revere 5 uvažat' IMPERF apreciar to appreciate 6 estimer cenit' IMPERF 7 honorer 8 respecter čtit' IMPERF uvažat' IMPERF respetar Unité lexicale (DE) to honour to respect Achtung Achtung Anerkennung Wertschätzung Achtung Ehrfurcht Respekt achten anerkennen schätzen achten respektieren Tableau 5 : Les lexies du champ Respect en français, russe, espagnol, anglais et allemand Lors des études de ces corpus un système de codage sémantique et syntaxique a été élaboré. 6 Le codage sémantique (grille sémantique) (V. Goossens, A . Grutschus, B. Kern, E. Melnikova) La grille sémantique a été élaborée à partir des travaux de l’équipe grenobloise (Goossens 2005, Tutin, Novakova, Grossmann, Cavalla, 2006). Elle comporte 7 dimensions et valeurs sémantiques établies à partir de collocatifs nomnaux et verbaux (combinatoire lexicale). Le codage sémantique se fait sur la base de la « Dimension » et de « Valeur » des collocations. Il sert à définir le profil sémantique du champ lexical étudié (Tableau 6). Dimension Valeur Exemple manifestation physique:actif physique:subi verbal externe contrôle émotion manifestation intensité fort faible neutre aspect:phasique:inchoatif aspect:phasique+intensité:fort causativité aspect:phasique+intensité:faibl e aspect:phasique:terminatif émotif communicatif interne:positif interne:négatif externe:positif externe:négatif ponctuel:non-itératif Sauter de joie, manifester sa surprise Trembler de peur, défaillir de joie Hurler de joie, s’étouffer de colère Remarquer l’étonnement, deviner la surprise Ravaler sa honte, accepter son chagrin Dissimuler sa joie, laisser éclater son bonheur Très énervé, mourir de peur Un peu fâché, légèrement surpris Faire peur, donner de la joie Eveiller la crainte, faire naître la peur Attiser la haine, aviver la colère Calmer les craintes, apaiser la colère Endiguer la rage, chasser la peur verbalisation Hurler sa peur, clamer son désespoir Avouer ses craintes, raconter son chagrin polarité Joie délicieuse, agréablement surpris Affreuse tristesse, mauvaise surprise digne d’admiration, dû respect Joie idiote, nostalgie excessive aspect Instant de stupeur, remplir/emplir de surprise ponctuel:itératif Il s’étonna de nouveau, Il s’étonne parfois non-ponctuel:non-itératif Nager dans le bonheur, état de tristesse non-ponctuel:itératif Il s’étonnait toujours phasique:inchoatif Commencer à être triste, apprendre à respecter phasique:continuatif Continuer à étonner phasique+intensité:fort La panique augmente, étonnement grandissant phasique+intensité:faible La tristesse s’adoucit, l’étonnement s’émousse phasique:terminatif Cesser d’avoir peur, ne plus être déçu expérienciation présence:neutre Ressentir/éprouver de la tristesse présence:vsa Tenir en haine, vouer du mépris absence:neutre Ignorer la peur, ne pas s’étonner absence:vsa Ne jamais décevoir (vsa causative) Tableau 6 : La grille sémantique (voir le mode d’emploi Emolex) 7 Le codage syntaxique (grille de relations syntaxiques) (A. Grutschus, B. Kern, E. Melnikova, I. Novakova) Cette grille a été élaboré à partir des travaux de l’équipe colonaise (Blumenthal 2007). Elle contient la liste des codes grammaticaux. Les associations des mots-pivots (lexies d’émotion) et leurs collocatifs sont ici codés en fonction du type de relation syntaxique dans laquelle ils apparaissent dans la phrase (Tableaux 7 -9) : 1.Mot de base = Nom Catégorie Code 1. Épithète/apposition n11 + nom de base n12 2. Nom de base + complément déterminatif Sous-catégorie adjectif ou participe antéposé ou postposé adjectif ou participe postposé génitif subjectif (y compris casuel) Exemples entière confiance, confiance absolue n22 autres arguments nominaux (y compris casuels) la peur du loup (acc), la peur du gendarme (acc), confiance dans la justice, confiance envers les institutions, craintes pour l’avenir, crainte de représailles n23 groupe nominal sans préposition constructions nominales non essentielles confiance parents-enfants, surprise cochonne, amour passion un attachement sans faille, les craintes dans la région, surprise de taille n25 infinitif confiance pour défendre les intérêts de X n26 complétive le sentiment qu’on ait frôlé la catastrophe n27 la confiance qu’il témoigne à ses amis n31 relative caractéristique du mot de base nom (+ préposition) + mot de base (sauf quantification ; inclut les relations casuelles) n32 constructions sans préposition cadeau surprise, amour passion n4 adjectif + mot de base digne de confiance n51 déterminants quantifiants (y compris déterminants complexes) déterminants noN+quantifiants beaucoup de confiance, un minimum de confiance, manque de confiance, un peu de sujet grammatical – verbes non attributifs sujet grammatical – constructions attributives constructions passives complément direct, indirect/prépositionnel, y compris les relations casuelles la confiance s’instaure, sentir l’amertume n21 n24 3. Nom de base = complément du nom 4. Nom de base = complément de l’adjectif/adverbe 5. Détermination n52 6. Nom de base = sujet grammatical n61 n62 7. Nom de base = complément du verbe n63 n71 8 confiance absolue confiance des consommateurs, la confiance de ses pairs moment de surprise, expression de surprise, atmosphère de confiance, Ausdruck der Überraschung, Vyraženie udivlenija confiance une certaine tristesse poindre l’espoir est vain la confiance est acquise accorder la confiance, bénéficier de la confiance, plonger dans l’étonnement, gagner en confiance, il reste de l’amertume 8. Nom de base à l’intérieur d’un groupe prépositionnel n72 compléments prépositionnels non essentiels se figer de surprise, tressaillir de surprise n73 n74 n81 constructions attributives compléments d’agent complément du verbe être en confiance être cloué de surprise, être figé de surprise (penser, etc.) en toute confiance, (écouter, etc.) avec confiance, (se figer, tressaillir, etc.) de n82 complément de la phrase surprise à la surprise générale, ils... Tableau 7 : Grille des codes syntaxiques pour les collocations avec le mot de base nominal 2. Mot de base = verbe Catégorie 1. Modifieur adverbial + verbe pivot Code v1 2. Verbe pivot + v21 actants /compléments v22 v23 v24 3. Verbe pivot = complément du verbe v25 v26 v27 v31 v32 4. Verbe pivot = complément de l’adjectif 5. Verbe pivot = complément du nom v4 6. Constructions impersonnelles v6 v5 7. Verbe pivot = v71 complément de phrase v72 Sous-catégorie Exemples beaucoup surprendre, sorprender bastante, frapper d’autant plus, surprendre outre mesure sujet caractéristique sa réponse m’a beaucoup étonné complément d’objet direct (inclut les relations casuelles) complément d’objet indirect/prépositionnel (inclut les relations casuelles) verbe pivot + compléments prépositionnels non essentiels complément d’agent infinitif complétive verbe support/auxiliaire/semimodal/modal + mot de base verbe « plein » (+ préposition) + mot de base (à l’infinitif) adjectif + PREP + mot de base X surprend Jean, sorprender a profesionales sorprenderse de la puntualidad, il s’étonne de son insolence s’étonner devant l’ampleur des dégâts, surprendre en ce moment frapper par sa richesse J’étais étonnée de le voir ainsi ; il aime lire Ça me surprend qu’il soit encore en vie se laisser surprendre, se faire respecter, devoir respecter, sembler surprendre, commencer à respecter, cesser de frapper apprendre à respecter X fier de surprendre, heureux de surprendre nom + PREP + verbe pivot le plaisir de surprendre à l’infinitif cela m’étonne ; it amazes me that... apposition complément prépositionnel me surprendre, c’est ce qu’il aime faire Pour surprendre sa copine, il s’est approché à pas feutrés. Tableau 8 : Grille des codes syntaxiques pour les collocations avec le mot de base verbal 9 3.Mot de base = adjectif Catégorie 1. Modifieur adverbial + adjectif pivot Code a1 Sous-catégorie Exemples très surpris, über alle Maßen überrascht 2. Adjectif pivot + complément déterminatif a21 groupes prépositionnels (être) fier de son succès, stupéfait par les a22 a23 a3 infinitif complétive 3. Adjectif pivot = épithète 4. Adjectif pivot = attribut conséquences (être) surpris de voir que... (être) surpris que... un air surpris resultar asombroso, mostrarse sorprendido, declararse decepcionado, to look amazed, paraître stupéfiant, estar perplejo, être a4 surpris 5. Adjectif pivot = apposition étonné, il se met à rire a5 Tableau 9 : Grille des codes syntaxiques pour les collocations avec le mot de base adjectival Grâce à ces codes sémantiques et syntaxiques, l’interrogation du corpus informatique en ligne sera simplifiée et uniformisée pour les cinq langues. Ceci permettra d’effectuer des analyses contrastives plus efficaces et permettra de structurer le lexique des émotions et d’élaborer une cartographie des émotions dans les cinq langues du projet. Pour faciliter la compréhension des codes syntaxiques lors des requêtes syntaxiques, une liste d’étiquettes paraphrasées et hiérarchisées a été élaborée (E. MELNIKOVA & J. COMAN). Chaque étiquette correspond aux significations des codes de la grille de relations syntaxiques (Tableau 10) : Niveau 1 Niveau 2 Niveau 3 Niveau 4 Code syntaxique Mot-pivot = Nom ---------------------------------- ---------------------------------- ---------------------------------- N+N/COMP/PREP/ESS N+N N+N/COMP N+N/COMP/PREP N+N/COMP/PREP/NON_ESS N+N/COMP/APPOS ---------------------------------- N+DET/QUANT ------------------------------------------------------------------- N+DET N+DET/NON_QUANT ------------------------------------------------------------------- N+V N+V/COMP/INF ---------------------------------- N+CS --------------------------------------------------------------------------------------------------- N+PRON_REL --------------------------------------------------------------------------------------------------- N+PREP/COMP_V ------------------------------------------------------------------- N+PREP N+PREP/COMP_SENT ------------------------------------------------------------------- N+XXX N+XXX/ATTR ------------------------------------------------------------------- Mot-pivot = Verbe V+ADV --------------------------------------------------------------------------------------------------- V+N/COMP/ESS/DIR V+N V+N/COMP V+N/COMP/ESS V+N/COMP/ESS/INDIR N+ADJ N+ADJ/EPIT N+ADJ/EPIT/ANTE N+ADJ/EPIT/POST N+N/COMP/GEN_SUBJ 10 N11|A3 N12|A3 N21|N31 N22|N31 N24|N31 N23|32 N51 N52 N25|V5 N26 N27 N81 N82 N62 V1 V22|N71 V23|N71 V+N/COMP/NON_ESS ---------------------------------- V+N/SUJ/ACTIF ---------------------------------- V+N/SUJ V+N/SUJ/PASS ---------------------------------- V+N/AGENT ------------------------------------------------------------------- V+N/ATTR ------------------------------------------------------------------- V+V/COMP/INF ---------------------------------- V+V V+V/MODAL ------------------------------------------------------------------- V+V/COMP_SENT ------------------------------------------------------------------- V+ADJ V+ADJ/ATTR ------------------------------------------------------------------- V+PRON V+PRON/IMPERS ------------------------------------------------------------------- V+PREP V+PREP/COMP_SENT ------------------------------------------------------------------- V+CS --------------------------------------------------------------------------------------------------- Mot-pivot = Adjectif ADJ+ADV --------------------------------------------------------------------------------------------------- ADJ+N ADJ+N/COMP ------------------------------------------------------------------- ADJ+V ADJ+V/COMP/INF ---------------------------------- ADJ+CS --------------------------------------------------------------------------------------------------- XXX+ADJ XXX+ADJ/APP ------------------------------------------------------------------- Tableau 10 : Les étiquettes hiérarchiques des codes syntaxiques (élaboré par Julien Corman) 11 V24|N72 V21|N61 V28|N63 V25|N74 N73 V26|V32 V31 V71 A4 V6 V72 V27 A1 A21|N4 A22|V4 A23 A5 Le corpus Emolex.EmoConc (S . Diwersy, O. Kraif, A . Falaise) Après la finalisation de l’étude pilote et la mise en place des outils informatiques et méthodologiques, l’étude linguistique se poursuit sur les corpus comparables définitifs du projet (120 Millions de mots en moyenne par langue corpus littéraires + corpus journalistiques). Une interface d’interrogation EMOCONC a été créée (S. Diwersy & O. Kraif) et mise en ligne (http://santenay.rom.uni-koeln.de/html/emoconc-so-v1/index.php). Très bientôt s’y ajouteront des fonctionnalités complémentaires suite à l’adaptation de la base de données Scientext/Emolex à Emoconc (A. Falaise). Voici le descriptif des corpus (état des lieux au 01.10.2011) fldCorpusId Leimerc08 Guard08a Times08a Indep08a hab08 tasp08 fru08 faz02 fldCorpusName fldNumToken fldGenre fldLanguage The Leicester Mercury 2008 16699431 journalistique en The Guardian 2008 (01-06) 31503083 journalistique en Times 2008 (01-06) 37970290 journalistique en The Independent 2008 (01-06) 22731475 journalistique en 108904279 Hamburger Abendblatt 2008 29113566 journalistique de Der Tagesspiegel 2008 24862146 journalistique de Frankfurter Rundschau 2008 32216660 journalistique de F.A.Z. 2002 37922892 journalistique de 124115264 Dt. Gegenwartsliteratur (Corpus litcorp_met_ge Métrich) 6376285 littéraire de litmod_ge Dt. Gegenwartsliteratur (Bestseller) 8151140 littéraire de 14527425 lm07 Le Monde 2007 23653157 journalistique fr lm08 Le Monde 2008 21874009 journalistique fr lfi07 Le Figaro 2007 28933120 journalistique fr lfi08 Le Figaro 2008 11613912 journalistique fr ouefr07 Ouest-France 2007 17748456 journalistique fr ouefr08 Ouest-France 2008 13249637 journalistique fr 117072291 litmod_fr Littérature française contemporaine 15978230 littéraire fr 15978230 Ci-dessous sont décrites quelques opérations à suivre pour extraire des collocations. Etape 1 : Choix du corpus Sélectionner le corpus d’une ou de plusieurs langues (Figure 1). 12 Figure 1 : Choix du corpus sur EmoConc Le corpus de chaque langue est bien équilibré : 100 millions de mots environ pour les textes journalistiques et 20 millions de mots environ pour les textes littéraires. (Le téléchargement du corpus russe est en attente) Etape 2 : Choix des pivots Saisir un (ou des) pivot(s) dans la case « Liste des pivots » suivi(s) d’un dièse et le code de la catégorie (en majuscule(s)), (Figure 2). 13 Figure 2 : Choix des pivots Ci-dessous, la liste des codes des catégories à saisir avec le dièse : Catégorie Nom Adjectif Verbe Adverbe Pronom Préposition Quantifieur Déterminant Numéral Auxiliaire Conjonction Ponctuation Code de la catégorie pour le français, l’espagnol et l’allemand N A V ADV PRON PREP DET NUM CC (ni) PUN Code de la catégorie pour l’anglais NOUN ADJ VERB ADV PRON QUANT DET NUM AUX CONJ (nor) PUN Tableau 11 : Les codes des catégories des pivots et des collocatifs désignés par les analyseurs syntaxiques sur EmoConc. Il faudrait bien noter que la fréquence des occurrences par collocatif est de 2 au minimum (case « Sélection des collocatis – Paramètres statistiques »). La spécificité statistique est calculée en paramètre log-likelihood dont le seuil est d’au moins 10,83. Après avoir vérifié ces conditions, calculer la table de contingence (bouton en bas). 14 Etape 3 : Calcul terminé… Choisir le lien « retourner au menu principal », (Figure 3). Figure 3 : Calcul terminé… Etape 4 : Critères d’affichage Pour afficher les lexicogrammes, on sélectionne le log-likelihood dans la case « Valeurs statistiques à afficher », likelihood et décroissant(e) dans les cases de « Ordre d’affichage » , log-likelihood dans la case « Histogrammes », (Figure 4). Figure 4 : Critères de l’affichage des tables 15 Une fois les valeurs sont sélectionnées, appuyer sur le bouton « Afficher ». Etape 5 : Affichage du lexicogramme Le lexicogramme est un tableau qui ressemble tous les collocatifs (I2) du mot-pivot (I1) selon les critères désignés (Pas 4). Le lexicogramme affiche la fréquence de la cooccurrence (f) du mot-pivot avec le collocatif, la fréquence du mot pivot (f1) dans le corpus, la fréquence du collocatif dans le corpus, la spécificité statistique de la cooccurrence (am.log.likelihood) et le rang de la cooccurrence dans le lexicogramme (r.log.likelihood), (Figure 5). Figure 5 : Lexicogramme Il est possible de visualiser les exemples de chaque cooccurrence en appuyant sur le lien rouge du mot-pivot. Etape 6 : Extraction des résultats Pour extraire les résultats, on trouve une fonctionnalité « Télécharger » en bas du lexicogramme (mis en rouge sur l’image), (Figure 6). 16 Figure 6 : Téléchargement du lexicogramme Le format .csv ne reconnaît pas toujours des signes diacritiques dans certaines langues. Pour l’éviter, il vaut mieux sauvegarder le lexicogramme en format .txt sous codage UTF-8 ou l’ouvrir avec le logiciel Scite. Avant de transmettre le lexicogramme en Excel, il a été convenu de séparer les codes de la catégorie (du mot pivot et du collocatif) et de les noter dans des colonnes séparées. De plus, pour assurer la meilleure reconnaissance des données, on change le point (.) séparateur du log-likelihood en virgule (,). Toutes ces opérations s’effectuent avec la commande Rechercher-Remplacer (Ctrl+H). Etape 7 : Constitution des grilles de lexicogrammes sur Excel Les tableaux Excel permettent de ranger les informations extraites à partir de EmoConc, de les trier, de faire des calculs et des figures représentatifs. Plus précisément, ils servent essentiellement à constituer les profils combinatoires comparatifs (PCC) des champs lexicaux des émotions (A. Grutschus & B. Kern). Le tableau Excel est constitué de 18 colonnes (A – S) pour le français et 19 colonnes (A – T) pour les autres langues. Ces colonnes comportent les informations suivantes : A-Langue, B-Mot-pivot (MP), C-Catégorie du mot-pivot (Cat.MP), D-MP corrigé, ECat.MP corrigé, F-Collocatif (Coll.), G-Cat.Coll., H-Coll. Corrigé, I-Cat.Coll.corrigé, JConstruction, K-Relation syntaxique (Rel.synt.), L-Dimension, M-Valeur, N-Fréquence (f), OFréquence du MP (f1), P-Fréquence du Coll. (f2), Q-Log-likelihood (am.log.likelihood), Rrang, S-commentaire. Pour les langues autres que le français, la colonne K est réservée pour la traduction de la construction. Cf. en allemand (Figure 7) : 17 Tableau 7 : Le profil combinatoire d’Enttäuschung (déception) en allemand Le lexicogramme extrait de EmoConc apparaît donc sous la forme illustrée par le tableau7. Avant de commencer le codage sémantique et syntaxique, la grille nécessite du « nettoyage ». Ceci signifie l’élimination des collocatifs non-pertinents (comme noms propres, pronoms personnels, mots qui ne s’inscrivent pas dans aucune des dimensions sémantiques désignées), ainsi que le tri des collocatifs intéressants pour l’analyse discursif ou pour l’analyse actancielle (les prépositions, les interjections etc.) Les colonnes L-N (Relation syntaxique, Dimension et Valeur) sont remplies par les désignations établies dans la grille sémantique et les codes de la grille syntaxique. Dans les colonnes J (Construction) et K (Traduction de la construction) , on note des constructions type, c.à.d. pour chaque collocatif dans une ligne, la construction la plus fréquente rencontrée dans les exemples d’EmoConc. La colonne T est une colonne des commentaires s’il y a hésitation ou précision lors du codage. Etape 8 : Vérification des codages C’est une phase importante et nécessaire pour l’harmonisation des codages dans les cinq langues, effectués par différentes personnes. La vérification se fait par une ou plusieurs personnes de l’équipe. Dès que les vérifications sont faites, il devient possible de faire les analyses comparatives. 18 Exemple d’analyses linguistiques comparatives L’exploration des corpus et la constitution des profils combinatoires pour chaque champ d’émotion permettent de faire quelques analyses à l’aide des PCC (profils combinatoires contrastifs). Les « Camemberts » (A. Grutschus & B. Kern) Les camemberts de la figure 8 rendent plus facile l’observation des taux de fréquences pour chaque dimension sémantique par ex. ici en français et en allemand. Figure 8 : Les dimensions sémantiques du champ Surprise en français et en allemand Ainsi, l’intensité (37%) apparaît comme dimension sémantique plus importante en français dont les collocations les plus spécifiques sont frapper de stupeur, grande surprise, avoir la surprise, grand étonnement. Tandis qu’en allemand, c’est la polarité (43%) s’avère être plus importante avec la collocation la plus spécifique böse Überraschung/‘mauvaise surprise‘. Les PCC des cinq langues mis ainsi en contraste permettent d’observer la diversité des profils sémantiques des lexies des émotions étudiés. Les tableaux croisés dynamiques (TCD) (E. Melnikova, A. Grutschus, B. Kern)) Les TCD peuvent mettre en contraste tous les profils combinatoires et donner l’information quantitative sur la représentativité de tel ou tel paramètre (Figure 9) 19 Figure 9 : Extrait du TCD comparatif des 4 langues du champ Déception Ce tableau comparatif visualise sous forme plus compacte tous les collocatifs des 4 langues en les regroupant par valeur et par dimension. Ceci facilite la comparaison de la distribution des mots-pivots. La présentation chiffrée du tableau dynamique fait ressortir les types des relations syntaxiques fréquentes pour un champ lexical (Figure 10). Figure 10 : TCD du calcul des relations syntaxique, champ Surprise 20 L’observation des données des TCD est souvent plus parlante quand les chiffres confirment la spécificité sémantique des mots d’émotion (Figure 11). Figure 11 : Extrait du TCD du calcul des dimensions sémantique, champ Surprise Les tableaux des structures actancielles (I. Novakova, F. Grossmann, V. Goossens) L’étude des structures actancielles permet d’observer la valence syntaxique et la valence sémantique des mots d’émotion et définir ainsi leur profil discursif (Tableau 12). Verbes actifs SURPRISE (surprendre, étonner, stupéfier) Valence syntaxiqu e Asy 1 1 2 2 RESPECT (respecter, estimer, considérer) suppression du 2ème A (Y) impossible 2 2 Valence sémantique Asé 1 (Z) 2 (Z+Zinstr ; P/Z) 2 (Z+X) (P/Z+X) 3 (Z+X+ Zinstr ; P/Z) 2 (X+Y) (X+Y/Z) 3 (X+YpourZ) Profil discursif Exemple Zthème/ X ø Après ce repas animé, le silence surprenait Z dédoublé,thème/ X Elle étonne avec cette chanson ø Les jeunes hommes surprennent par leur calme beauté Zthème/ X ø Elle les stupéfia. Sa beauté me surprenait Zdédoublé,thème/ X Les vitraux étonnent le monde par leur qualité. prés Il me surprit avec cet incroyable spectacle Xthème/ Y prés Xthème/ Yprés + Z prés 21 On vous considérera. Il estimait son courage. Il le respectait pour sa bravoure Tableau 12 : Le profil actanciel des verbes français des champs Surprise et Respect (élaboré par Vannina Goossens) Les factor maps : ANALYSE FATORIELLE DES CORRESPONDANCES (AFC) (S. Diwersy) Le factor map est un premier essai de représentation statistique des données à partir des fichiers Excel (Cologne). Figure 12 : Factor map du champ Sorpresa (surprise) en espagnol Ce tableau illustre la variabilité dans l’expression des dimensions sémantiques : le nombre de collocatifs correspondant à une dimension. Les deux axes sont deux constellations de variables : dimensions sémantiques et nombre de collocatifs. les diagrammes illustrent les dimensions sémantiques proches d’une lexie, le nombre de collocatifs qui se concentrent autour d’une lexie : par ex . en espagnol les collocatifs pour polarité positive et négative se concentrent surtout autour des sorpresa, sorprendido, sorprender . En bref, ce qui est intéressant à examiner ce sont les contrastes qui émergent et 22 qui montrent qu’il y a quelque chose qui se détache par rapport à la RELATION MOT PIVOT vs DIMENSION SEMANTIQUE. C’est ainsi le contraste polarité faible/forte pour l’espagnol. 23 La suite de l’étude linguistique Nous avons retenus 10 champs lexicaux d’émotions et 5 champs en attente (Réunion de Cologne, mars 2011) selon les critères suivants : L Etablir un équilibre entre affects « négatifs/positifs/neutres » o Retenir aussi des affects « sociaux » o retenir des paires de contraires o retenir des affects « marginaux » ainsi que des affects assez bien étudiés Les 10 champs retenus : 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. Respect Surprise Déception Mépris Admiration Colère Jalousie Joie Tristesse Mélancolie/nostalgie Les 5 champs sur la liste d’attente: 1. 2. 3. 4. Peur/inquiétude Soulagement Indifférence Amour ? Conclusion : L’étude linguistique du projet vise à combiner deux approches méthodologiques complémentaires, auparavant exploitées séparément par les équipes française et allemande : l’approche syntaxico-sémantique de l’analyse des collocations des émotions basées sur corpus, à travers l’étude de la combinatoire syntaxique et lexicale (Tutin, Novakova, Grossmann, Cavalla, 2006, Novakova & Tutin 2009) qui consiste à identifier les dimensions sémantiques pertinentes, à relier les dimensions sémantiques aux structures syntaxiques des lexies des émotions l’élaboration de cartographies basées sur le calcul de l’indice de cohésion entre coocurrents, de la valeur de similarité linguistique entre des mots pivots, de l’indice de stéréotypie entre mot pivot et collocatifs (Blumenthal, 2007, 2009, S . Diwersy 2007 entre autres) 24