Power Points - Revue Texto

publicité
Genres et sous-domaines
scientifiques dans un corpus
d’articles de linguistique
Céline Poudat
CORAL – Orléans
[email protected]
Objectif
Exploration en corpus des revues de
linguistique française et de leurs
genres et objets spécifiques
Corpus d’articles de revues
linguistiques (ASL)


Représentation par année de
publication
Représentation par revue et numéro
ASL: années de publication
70
60
50
40
Année
30
20
10
0
1995 1996 1997 1999 2000 2001 2002 2003
ASL: répartition des revues
40
35
30
25
Nb articles
Nb numéros
20
15
10
5
VE
R
X
LI
N
B
U
M
O
LI
A
SC
SP
R
LF
AX
PR
M
SE
SY
N
IE
L
C
M
IO
EL
H
SE
LA
N
G
AG
E
0
Méthodologie d’analyse
générale...

1. Première exploration par



2. Exploration des spécificités et
caractérisation différentielle


Analyse en Composantes Principales (ACP)
Classification Ascendante Hiérarchique (CAH)
Analyse des spécificités (des correspondances)
3. Exploration conceptuelle

ACP sur co-occurrents (S. Loiseau) avec corpus
Reader
et jeux de descripteurs utilisés

Descripteurs lexicaux


Mots non vides
140 descripteurs morphosyntaxiques


Parties du discours traditionnelles
Descripteurs spécifiques au discours scientifique
linguistique


IL impersonnel vs. anaphorique, ON, modaux,
connecteurs (opposition, causalité, conséquence, etc.),
marqueurs de structuration textuelle, éléments étrangers
(non français), etc.
Marqueurs de formalisation linguistique (SN, SV, ? et *,
morphèmes, etc.)
Les trois genres de la revue de
linguistique française
L’article de recherche
 La présentation
 Le compte rendu

Corpus
250
200
150
100
Nb textes
50
0
Articles
Présentations
Comptes
rendus
Exploration et caractérisation
différentielle des trois genres

Corpus d’articles




Première exploration


Textes entiers
Textes sans exemples
Textes sans exemples ni citations
Analyse en Composantes Principales (ACP) +
Classification Ascendante Hiérarchique (CAH)
Caractérisation

Analyse des spécificités


Lexicales
Morphosyntaxiques
CAH en 12 classes: répartition
des trois genres
60
50
40
Articles
Comptes rendus
Présentations
30
20
10
0
1 2 3 4 5 6
7 8 9 10 11 12
Caractérisation lexicale des
3 genres: en positif
Articles
Comptes
rendus
Présentations
Chiffres 1 > 12
et 2
ouvrage,
chapitre
> 23.5
numéro
> 19
Pronoms > 11
ON, JE et
NOUS
auteur
> 16.5
articles
> 15
Symbole
x
et
> 15
linguistique > 11
p
> 13.5
réflexion
> 11.5
>9
Caractérisation lexicale des
3 genres: en négatif
Articles
Comptes
rendus
Présentations
Chapitre,
ouvrage
< -19
nous
< -11
Chiffres 1,
2 et 3
< -9
auteur
< -18
Pronoms
ON et JE
< -9
Symbole x
< -8
Articles,
numéro
< -16
Chiffres 1 < -8
et 2
est
< -8
peut
< -8
Synthèse
 Articles
vs. présentations
 P:
‘articles’ et ‘numéro’
 A: symboles et chiffres
 Articles
 A:
vs. comptes rendus
pronoms NOUS, ON et JE + chiffres
 CR: ‘chapitre’, ‘ouvrage’ et ‘auteur’
Spécificités morphosyntaxiques

Articles vs. CR et présentations



Articles vs. présentations


A: longueur, structuration, modaux présent, deux
points, connecteurs de conséquence...
CR et P: noms propres, connecteurs d’addition,
numéraux ordinaux...
A: symboles, négations
Articles vs. comptes rendus

CR: déterminants définis
Sous-domaines et thématique
scientifique linguistique
Corpus: 224 articles
Comment caractériser la thématique
et les sous-domaines du corpus?
 Exploration
par ACP
 Descripteurs
morphosyntaxiques
 Descripteurs épistémiques
 Analyse
des exemples et des citations
 Analyse des spécificités des revues et
des numéros thématiques
 Analyse des concepts linguistiques
 Exemple
de LINGUISTIQUE
Première exploration du corpus
d’articles
ACP
140 descripteurs morphosyntaxiques
Examen des deux premiers axes factoriels
La parole intérieure
La langue des signes
Genres et intertexte
Histoire, Epistémologie, Langage
Spécificités lexicales du corpus
Exemples et citations
Typologie des exemples
 Répartition par revue et numéro

Répartition des exemples dans
l’ensemble du corpus
littéraire
journalistique
construit
cité
attesté
NSP
varia
Répartition des exemples par
numéro de revue
400
PRAX
RSP
LF
VERBUM
350
SCOLIA
300
LANG
ex.attesté
250
CIEL
LINX
ex. journalistique
200
SYNT
ex. littéraire
150
ex.cité
SEMIO
100
ex. varia
50
ex.construit
HEL
0
P1
P3
C2
R2
R4
H2
LA
LF2
X1
X3
SC1
S1
V1
V3
V5
T1
Répartition des citations par
numéro de revue
LF
SCOLIA
PRAX
CIEL
VERBUM
HEL
LINX
RSP
LANG
SEMIO
SYNT
Rapport exemples/citations par
numéro
450
400
350
HEL
300
250
LF
Citations
Exemples
200
150
100
PRAX
50
0
P1
P2
P3
C1
C2
R1
R2
R3
R4
H1
H2
H3
LA LF1 LF2 LF3
X1
X2
X3
X4 SC1 SC2 S1
S2
V1
V2
V3
V4
V5
V6
T1
T2
Spécificités des numéros et des
revues
Intérêt
 Évaluation
de l’homogénéité des
articles d’un même numéro/d’une même
revue
 Détermination
des concepts et objets
caractéristiques des numéros/des
revues
Numéros lexicalement
homogènes

17 numéros thématiques sur 30
 Spécificités positives
 Objets:

intertexte, dénomination, prépositions, dialogue,
participe, parole intérieure, langues des signes,
hypothétique, contexte(s), impossible, futur,
référence discursive, référence pronominale
plurielle, relations de discours, sémantique des
verbes, syntaxe au-delà de la phrase, sémantique
verbale
Gain en précision
Futur 37.9
Visée 17.37
Présent 16.88
Autour du futur
Verbum
Linguistique de la dénomination
Cahiers de Praxématique
Verbe -7.6
Verbes -6.5
Préposition -6,49
Texte -6.54
Dénomination 44.3
Dénominations 23.9
Famille 18.44
Nom 14.7
Gain en précision
q et p 26.7
si 23,24
condition 18.62
énonciateur (17,8)
L’hypothétique
LINX
Référence discursive et
accessibilité cognitive
Verbum
langue -9.9
verbe -8.4
verbes -7,8
sens -7.5
CR 26.6
segment 25.6
référent 24
centrage 22.2
énoncé 18.1
Numéros moins homogènes
 Causes:
 Hétérogénéité
du numéro
 Spécificités d’un ou deux textes
Horizons de la grammaire
Alexandrine
HEL
MAIS
contexte -4.6
français -4.07
interprétation -3,6
langues -3.4
Surface 28.5
Côté 7.9
Nombre 7.5
Commun 7.4
Quatre 6.5
Analyse des concepts
linguistiques
Deux exemples d’analyse avec
CR (S. Loiseau)
Exemple de LINGUISTIQUE
Fréquence de linguistique par
revue
PRAX
Scolia
HEL dialogue
LF lexique
RSP
NT
Sémiotiques
ACP

Individus: 50 premiers co-occurrents
de LINGUISTIQUE

Variables: fréquences dans les
segments des textes délimités par la
variable ‘indice de structuration’
50 premiers co-occurrents de
‘linguistique’
num | lemme
1 | système
2 | sponsoring
3 | sens
4 | mots
5 | mot
6 | linguistiques
7 | linguistique
8 | langue
9 | langage
10 | idiome
11 | grammaire
12 | discours
13 | des
14 | Saussure
15 | Jakobson
16 | '
17 | terminologie
18 | conception
19 | Vygotskij
20 | contexte
21 | texte
22 | traducteur
23 | Jakubinskij
24 | représentations
25 | extra-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| rate
| freq | subfreq
1.00000000000000000 | 727 | 296
1.00000000000000000 | 37 | 37
1.00000000000000000 | 2368 | 822
1.00000000000000000 | 1296 | 495
1.00000000000000000 | 958 | 391
1.00000000000000000 | 660 | 353
1.00000000000000000 | 1331 | 1206
1.00000000000000000 | 2037 | 835
1.00000000000000000 | 1184 | 563
1.00000000000000000 | 74 | 59
1.00000000000000000 | 308 | 161
1.00000000000000000 | 1830 | 672
1.00000000000000000 | 21203| 6343
1.00000000000000000 | 97 | 76
1.00000000000000000 | 44 | 40
1.00000000000000000 | 2688 | 905
0.99999999999999989 | 185 | 102
0.99999999999999989 | 309 | 150
0.99999999999999989 | 72 | 53
0.99999999999999967 | 1568 | 559
0.99999999999999956 | 1313 | 479
0.99999999999999944 | 120 | 74
0.99999999999999667 | 48 | 39
0.99999999999999256 | 312 | 146
0.99999999999998512 | 65 | 47
26 | recherches
27 | analyse
28 | relations
29 | la
30 | études
31 | sélection32 | linguistes
33 | habere
34 | sémiotique
35 | traduction
36 | théorie
37 | unité
38 | les
39 | [
40 | ]
41 | scientifique
42 | dialogue
43 | traitement
44 | communauté
45 | phonèmes
46 | WordNet
47 | concepts
48 | intérieur
49 | unités
50 | sciences
| 0.99999999999998324 | 188 | 99
| 0.99999999999994549 | 1302 | 465
| 0.99999999999993983 | 960 | 358
| 0.99999999999950795 | 35232 | 9889
| 0.99999999999941214 | 259 | 122
| 0.99999999999923739 | 21 | 21
| 0.99999999999917411 | 179 | 92
| 0.99999999999905631 | 24 | 23
| 0.99999999999893030 | 81 | 52
| 0.99999999999873723 | 242 | 115
| 0.99999999999761136 | 625 | 244
| 0.99999999999664757 | 547 | 218
| 0.99999999999640732 | 19686 | 5618
| 0.99999999999580502 | 1287 | 450
| 0.99999999999374434 | 1287 | 449
| 0.99999999999013101 | 128 | 70
| 0.99999999998670397 | 338 | 146
| 0.99999999998612410 | 344 | 148
| 0.99999999998441302 | 109 | 62
| 0.99999999997350364 | 72 | 46
| 0.99999999996460620 | 77 | 48
| 0.99999999994672506 | 223 | 104
| 0.99999999988978017 | 519 | 203
| 0.99999999988648036 | 669 | 251
| 0.99999999986778498 | 91 | 53
Histoire, Epistémologie, Langage
Genres et intertexte
La parole intérieure
Contexte(s)
Conclusion et perspectives
(1/2)

Intérêt des méthodes statistiques pour
cartographier le champ linguistique français

Détermination des propriétés formelles et
différentielles des genres de la revue

Détermination de potentiels mots-clés

Expérimentations complémentaires (analyse plus
précise des thèmes des numéros de revue et des
concepts les plus discriminants)
Conclusion et perspectives
(1/2)
 Analyse
plus précise des exemples
selon la cartographie obtenue
 Analyse
contrastive interlangue
 Comparaison
avec un corpus de 200
articles de revues linguistiques anglosaxonnes
Genres et sous-domaines
scientifiques dans un corpus
d’articles de linguistique
Céline Poudat
CORAL – Orléans
[email protected]
Téléchargement