Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans [email protected] Objectif Exploration en corpus des revues de linguistique française et de leurs genres et objets spécifiques Corpus d’articles de revues linguistiques (ASL) Représentation par année de publication Représentation par revue et numéro ASL: années de publication 70 60 50 40 Année 30 20 10 0 1995 1996 1997 1999 2000 2001 2002 2003 ASL: répartition des revues 40 35 30 25 Nb articles Nb numéros 20 15 10 5 VE R X LI N B U M O LI A SC SP R LF AX PR M SE SY N IE L C M IO EL H SE LA N G AG E 0 Méthodologie d’analyse générale... 1. Première exploration par 2. Exploration des spécificités et caractérisation différentielle Analyse en Composantes Principales (ACP) Classification Ascendante Hiérarchique (CAH) Analyse des spécificités (des correspondances) 3. Exploration conceptuelle ACP sur co-occurrents (S. Loiseau) avec corpus Reader et jeux de descripteurs utilisés Descripteurs lexicaux Mots non vides 140 descripteurs morphosyntaxiques Parties du discours traditionnelles Descripteurs spécifiques au discours scientifique linguistique IL impersonnel vs. anaphorique, ON, modaux, connecteurs (opposition, causalité, conséquence, etc.), marqueurs de structuration textuelle, éléments étrangers (non français), etc. Marqueurs de formalisation linguistique (SN, SV, ? et *, morphèmes, etc.) Les trois genres de la revue de linguistique française L’article de recherche La présentation Le compte rendu Corpus 250 200 150 100 Nb textes 50 0 Articles Présentations Comptes rendus Exploration et caractérisation différentielle des trois genres Corpus d’articles Première exploration Textes entiers Textes sans exemples Textes sans exemples ni citations Analyse en Composantes Principales (ACP) + Classification Ascendante Hiérarchique (CAH) Caractérisation Analyse des spécificités Lexicales Morphosyntaxiques CAH en 12 classes: répartition des trois genres 60 50 40 Articles Comptes rendus Présentations 30 20 10 0 1 2 3 4 5 6 7 8 9 10 11 12 Caractérisation lexicale des 3 genres: en positif Articles Comptes rendus Présentations Chiffres 1 > 12 et 2 ouvrage, chapitre > 23.5 numéro > 19 Pronoms > 11 ON, JE et NOUS auteur > 16.5 articles > 15 Symbole x et > 15 linguistique > 11 p > 13.5 réflexion > 11.5 >9 Caractérisation lexicale des 3 genres: en négatif Articles Comptes rendus Présentations Chapitre, ouvrage < -19 nous < -11 Chiffres 1, 2 et 3 < -9 auteur < -18 Pronoms ON et JE < -9 Symbole x < -8 Articles, numéro < -16 Chiffres 1 < -8 et 2 est < -8 peut < -8 Synthèse Articles vs. présentations P: ‘articles’ et ‘numéro’ A: symboles et chiffres Articles A: vs. comptes rendus pronoms NOUS, ON et JE + chiffres CR: ‘chapitre’, ‘ouvrage’ et ‘auteur’ Spécificités morphosyntaxiques Articles vs. CR et présentations Articles vs. présentations A: longueur, structuration, modaux présent, deux points, connecteurs de conséquence... CR et P: noms propres, connecteurs d’addition, numéraux ordinaux... A: symboles, négations Articles vs. comptes rendus CR: déterminants définis Sous-domaines et thématique scientifique linguistique Corpus: 224 articles Comment caractériser la thématique et les sous-domaines du corpus? Exploration par ACP Descripteurs morphosyntaxiques Descripteurs épistémiques Analyse des exemples et des citations Analyse des spécificités des revues et des numéros thématiques Analyse des concepts linguistiques Exemple de LINGUISTIQUE Première exploration du corpus d’articles ACP 140 descripteurs morphosyntaxiques Examen des deux premiers axes factoriels La parole intérieure La langue des signes Genres et intertexte Histoire, Epistémologie, Langage Spécificités lexicales du corpus Exemples et citations Typologie des exemples Répartition par revue et numéro Répartition des exemples dans l’ensemble du corpus littéraire journalistique construit cité attesté NSP varia Répartition des exemples par numéro de revue 400 PRAX RSP LF VERBUM 350 SCOLIA 300 LANG ex.attesté 250 CIEL LINX ex. journalistique 200 SYNT ex. littéraire 150 ex.cité SEMIO 100 ex. varia 50 ex.construit HEL 0 P1 P3 C2 R2 R4 H2 LA LF2 X1 X3 SC1 S1 V1 V3 V5 T1 Répartition des citations par numéro de revue LF SCOLIA PRAX CIEL VERBUM HEL LINX RSP LANG SEMIO SYNT Rapport exemples/citations par numéro 450 400 350 HEL 300 250 LF Citations Exemples 200 150 100 PRAX 50 0 P1 P2 P3 C1 C2 R1 R2 R3 R4 H1 H2 H3 LA LF1 LF2 LF3 X1 X2 X3 X4 SC1 SC2 S1 S2 V1 V2 V3 V4 V5 V6 T1 T2 Spécificités des numéros et des revues Intérêt Évaluation de l’homogénéité des articles d’un même numéro/d’une même revue Détermination des concepts et objets caractéristiques des numéros/des revues Numéros lexicalement homogènes 17 numéros thématiques sur 30 Spécificités positives Objets: intertexte, dénomination, prépositions, dialogue, participe, parole intérieure, langues des signes, hypothétique, contexte(s), impossible, futur, référence discursive, référence pronominale plurielle, relations de discours, sémantique des verbes, syntaxe au-delà de la phrase, sémantique verbale Gain en précision Futur 37.9 Visée 17.37 Présent 16.88 Autour du futur Verbum Linguistique de la dénomination Cahiers de Praxématique Verbe -7.6 Verbes -6.5 Préposition -6,49 Texte -6.54 Dénomination 44.3 Dénominations 23.9 Famille 18.44 Nom 14.7 Gain en précision q et p 26.7 si 23,24 condition 18.62 énonciateur (17,8) L’hypothétique LINX Référence discursive et accessibilité cognitive Verbum langue -9.9 verbe -8.4 verbes -7,8 sens -7.5 CR 26.6 segment 25.6 référent 24 centrage 22.2 énoncé 18.1 Numéros moins homogènes Causes: Hétérogénéité du numéro Spécificités d’un ou deux textes Horizons de la grammaire Alexandrine HEL MAIS contexte -4.6 français -4.07 interprétation -3,6 langues -3.4 Surface 28.5 Côté 7.9 Nombre 7.5 Commun 7.4 Quatre 6.5 Analyse des concepts linguistiques Deux exemples d’analyse avec CR (S. Loiseau) Exemple de LINGUISTIQUE Fréquence de linguistique par revue PRAX Scolia HEL dialogue LF lexique RSP NT Sémiotiques ACP Individus: 50 premiers co-occurrents de LINGUISTIQUE Variables: fréquences dans les segments des textes délimités par la variable ‘indice de structuration’ 50 premiers co-occurrents de ‘linguistique’ num | lemme 1 | système 2 | sponsoring 3 | sens 4 | mots 5 | mot 6 | linguistiques 7 | linguistique 8 | langue 9 | langage 10 | idiome 11 | grammaire 12 | discours 13 | des 14 | Saussure 15 | Jakobson 16 | ' 17 | terminologie 18 | conception 19 | Vygotskij 20 | contexte 21 | texte 22 | traducteur 23 | Jakubinskij 24 | représentations 25 | extra- | | | | | | | | | | | | | | | | | | | | | | | | | | rate | freq | subfreq 1.00000000000000000 | 727 | 296 1.00000000000000000 | 37 | 37 1.00000000000000000 | 2368 | 822 1.00000000000000000 | 1296 | 495 1.00000000000000000 | 958 | 391 1.00000000000000000 | 660 | 353 1.00000000000000000 | 1331 | 1206 1.00000000000000000 | 2037 | 835 1.00000000000000000 | 1184 | 563 1.00000000000000000 | 74 | 59 1.00000000000000000 | 308 | 161 1.00000000000000000 | 1830 | 672 1.00000000000000000 | 21203| 6343 1.00000000000000000 | 97 | 76 1.00000000000000000 | 44 | 40 1.00000000000000000 | 2688 | 905 0.99999999999999989 | 185 | 102 0.99999999999999989 | 309 | 150 0.99999999999999989 | 72 | 53 0.99999999999999967 | 1568 | 559 0.99999999999999956 | 1313 | 479 0.99999999999999944 | 120 | 74 0.99999999999999667 | 48 | 39 0.99999999999999256 | 312 | 146 0.99999999999998512 | 65 | 47 26 | recherches 27 | analyse 28 | relations 29 | la 30 | études 31 | sélection32 | linguistes 33 | habere 34 | sémiotique 35 | traduction 36 | théorie 37 | unité 38 | les 39 | [ 40 | ] 41 | scientifique 42 | dialogue 43 | traitement 44 | communauté 45 | phonèmes 46 | WordNet 47 | concepts 48 | intérieur 49 | unités 50 | sciences | 0.99999999999998324 | 188 | 99 | 0.99999999999994549 | 1302 | 465 | 0.99999999999993983 | 960 | 358 | 0.99999999999950795 | 35232 | 9889 | 0.99999999999941214 | 259 | 122 | 0.99999999999923739 | 21 | 21 | 0.99999999999917411 | 179 | 92 | 0.99999999999905631 | 24 | 23 | 0.99999999999893030 | 81 | 52 | 0.99999999999873723 | 242 | 115 | 0.99999999999761136 | 625 | 244 | 0.99999999999664757 | 547 | 218 | 0.99999999999640732 | 19686 | 5618 | 0.99999999999580502 | 1287 | 450 | 0.99999999999374434 | 1287 | 449 | 0.99999999999013101 | 128 | 70 | 0.99999999998670397 | 338 | 146 | 0.99999999998612410 | 344 | 148 | 0.99999999998441302 | 109 | 62 | 0.99999999997350364 | 72 | 46 | 0.99999999996460620 | 77 | 48 | 0.99999999994672506 | 223 | 104 | 0.99999999988978017 | 519 | 203 | 0.99999999988648036 | 669 | 251 | 0.99999999986778498 | 91 | 53 Histoire, Epistémologie, Langage Genres et intertexte La parole intérieure Contexte(s) Conclusion et perspectives (1/2) Intérêt des méthodes statistiques pour cartographier le champ linguistique français Détermination des propriétés formelles et différentielles des genres de la revue Détermination de potentiels mots-clés Expérimentations complémentaires (analyse plus précise des thèmes des numéros de revue et des concepts les plus discriminants) Conclusion et perspectives (1/2) Analyse plus précise des exemples selon la cartographie obtenue Analyse contrastive interlangue Comparaison avec un corpus de 200 articles de revues linguistiques anglosaxonnes Genres et sous-domaines scientifiques dans un corpus d’articles de linguistique Céline Poudat CORAL – Orléans [email protected]