Logométrie, Textométrie

publicité
Logométrie, Textométrie
Damon MAYAFFRE (CNRS-UNSA/MSH de Nice)
Bénédicte PINCEMIN (CNRS, Lyon)
MISAT 2009, Besançon
Mayaffre/Pincemin
DM
1
Lexicométrie, Textométrie, Logométrie,…
Tradition qui dégage l’interaction entre deux pôles
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
1960 / Pierre Guiraud / Problèmes et méthodes de la statistique linguistique
1973 / Charles Muller / Initiation aux méthodes de la statistique linguistique
1973 / Saint-Cloud / revue Travaux de lexicométrie et de lexicologie politique
1977 / Charles Muller / Principes et méthodes de statistique lexicale
1978 / Slatkine / collection Travaux de linguistique quantitative
1980 / Saint-Cloud / rubrique Lexicométrie dans la revue MOTS
1983 / Montréal / Centre d’Analyse de Texte par Ordinateur (ATO)
1985 / Nice+ / Colloque international CNRS Méthodes quantitatives et informatiques dans l'étude des textes
(en hommage à Charles Muller)
1987 / Saint-Cloud / Laboratoire Lexicométrie et textes politiques
1988 / Ludovic Lebart et André Salem / Analyse statistique des données textuelles
1992 / Barcelone / Premières Journées internationales d'Analyse statistique des Données Textuelles
1994 / Ludovic Lebart et André Salem / Statistique textuelle
1997 / Paris 3 (Salem et alii) / revue électronique Lexicométrica
2002 / Nice (Mayaffre) / Astrolabe 2002 : « logo-matique »
2003 / Lyon / sous-équipe Textométrie et lexicographie
2004 / JADT : Nice (Mayaffre) : « logométrie » ; Paris 3 (Salem, Zimina) : « textométrie »
2004 / équipe niçoise Logométrie et corpus politiques, médiatiques et littéraires
2006 / Lyon+ / projet ANR Textométrie
2009 / Besançon+ / école Méthodes Informatiques et Statistiques en Analyse de Textes
[!!! Ceci n'est pas une chronologie représentative de la discipline,
mais simplement un relevé de variations de dénomination !!!]
MISAT 2009, Besançon
Mayaffre/Pincemin
BP
2
Textométrie / Logométrie : une discipline qui
passe par une (re)définition de…
• L’objet
=> Le texte comme objet complexe herméneutique
• La méthode
=> Mise en place de parcours de lecture
complémentaires qui articulent approche
qualitative et approche quantitative du corpus
MISAT 2009, Besançon
Mayaffre/Pincemin
DM
3
1. Texte, corpus textuels, unités textuelles
1.1. Le texte comme objet
herméneutique
1.2. L'importance du corpus,
sa place déterminante
1.3. Le matérialisme textuel et
les unités textuelles
complexes
MISAT 2009, Besançon
Mayaffre/Pincemin
BP
4
Textualité et traitements (semi-)automatiques
1. MATIERE
LINGUISTIQUE
4. RÔLE CONSTITUTIF
DE LA LECTURE
2. ORGANISATION
INTERNE
clôture et autonomie,
linéarité, hiérarchie,
orientation
3.
INTERTEXTUALITE
Cf. thèse (Bommier-Pincemin, 1999)
MISAT 2009, Besançon
Mayaffre/Pincemin
BP
5
Herméneutique et objectivité
La description ou
représentation est...
Par opposition à…
(déception ?)
la bonne représentation
-première, originale
multiple
incomplète, ouverte
(quoique contrainte)
complétude
relative
au choix des "données",
au contexte (intertexte)
MISAT 2009, Besançon
Mayaffre/Pincemin
neutralité
BP
6
Herméneutique et calculs statistiques
• La textométrie ne calcule pas le sens d'un texte
• Et pourtant, les calculs ont bien leur place :
– ils produisent des résultats (vs. une réponse)
– l'automatisation facilite ajustements progressifs,
cheminement interprétatif
MISAT 2009, Besançon
Mayaffre/Pincemin
BP
7
Logométrie, discipline interprétative
•
Entre rejet et fascination…
[rejet] calcul : non pas aliénation, mais donne à voir
[fascination] appareillage mathématique, mais : indices vs preuve
•
Dimension heuristique, vocation herméneutique
ce que la logométrie peut apporter quand elle outille d'autres disciplines (Linguistique, Histoire, Sciences politiques, Littérature, ...) :
C’est non pas des…
– réponses objectives ou des preuves (dimension probatoire ? Attribution
d’auteur?)
Mais de…
– nouveaux modes d'appréhension des textes (quantitatif + qualitatif,
paradigmatique + syntagmatique, textuel + hypertextuel), de nouveaux parcours
de lecture
L’objectif est moins d’objectiver un « donné » textuel (un « contenu » du
texte, le « sens » du texte) que d’objectiver des parcours interprétatifs
MISAT 2009, Besançon
Mayaffre/Pincemin
DM
8
1. Texte, corpus textuels, unités textuelles
1.1. Le texte comme objet
herméneutique
1.2. L'importance du corpus,
sa place déterminante
1.3. Le matérialisme textuel et
les unités textuelles
complexes
MISAT 2009, Besançon
Mayaffre/Pincemin
DM
9
Quantitatif : d’abord un problème de taille ?
• Suffisamment grand…
– apports de l'ordinateur (vitesse, mémoire)
– gamme de fréquences ; contrastes
• … mais pas trop :
– lire autrement vs sonder
• < 10 000 mots : lecture naturelle ?
• > 10 millions de mots : TAL, extraction automatique ?
• 100 000 mots, 500.000, 1, 2 ou 3 millions de mots :
optimal ? (mais attention au nombre de partitions)
MISAT 2009, Besançon
Mayaffre/Pincemin
DM
10
Qualitatif: interprétabilité, réflexivité
• des critères généraux : représentativité, homogénéité,
complétude...
• interprétabilité : construction (vs accumulation)
• réflexivité : le corpus définit une norme
endogène, il sert de référence
• La centralité du corpus : une inquiétude
partagée : "linguistique de corpus« (Biber, etc.),
"apprentissage endogène" (Bourigault), "sémantique
différentielle" (Rastier), "stylistique endogène" (Viprey),
"lexicologie endogène" (Valette)...
• illustration concrète des effets contextuels du
corpus : le premier Mitterrand
et l'imparfait du subjonctif
BP, DM
MISAT 2009, Besançon
Mayaffre/Pincemin
11
Mitterrand (1er septennat) sous-emploie le subjonctif imparfait...
MISAT 2009, Besançon
Mayaffre/Pincemin
12
Changement de contexte ou de corpus (on supprime de Gaulle) , et
maintenant Mitterrand (1er septennat) sur-emploie le subjonctif
MISAT 2009, Besançon
Mayaffre/Pincemin
13
imparfait
1. Texte, corpus textuels, unités textuelles
1.1. Le texte comme objet
herméneutique
1.2. L'importance du corpus,
sa place déterminante
1.3. Le matérialisme textuel
et les unités textuelles
complexes
MISAT 2009, Besançon
Mayaffre/Pincemin
DM
14
Matérialisme textuel, originel
• Dès l'origine, cf. travaux de Saint-Cloud :
– "Sur quoi pouvons-nous compter ?" (Tournier, 1985)
• texte "brut" (vs. lemmatisation, étiquetage sémantique en
concepts,...)
– Objection théorique : minimiser les pré-interprétations (a priori)
– Objection pratique : uniformité et reproductibilité du
dépouillement
• Matérialisme textuel et cercle herméneutique :
– point d'entrée
– Point de sortie : retour au texte pour l’interprétation
– Bref, centralité du texte : intentio auctoris, intention lectoris,
intentio operis (Umberto Eco ; Les limites de l’interprétation)
MISAT 2009, Besançon
Mayaffre/Pincemin
DM
15
Imperfection, imperfectivité
• Limites de la représentation et vertus
statistiques :
– on estompe des « perturbations » (robustesse),
– mais on ne gomme pas les biais.
• Bilan :
– Place centrale de la matérialité textuelle
– Enrichissement par une pluralité de descriptions
linguistiques
– Philologie : l ’établissement du texte est en fait au
terme de l ’interprétation.
MISAT 2009, Besançon
Mayaffre/Pincemin
BP
16
2. Pluralité des « états de texte » :
croiser les différents points de vue
2.1. La « querelle » à propos de la
lemmatisation
2.2. La textométrie/logométrie actuelle
2.3. Prospective
MISAT 2009, Besançon
Mayaffre/Pincemin
DM
17
Lemmatiser ? Un antagonisme historique
– le camp des lemmatiseurs vs le camp des
formalistes (Muller 1984). Trahir le texte vs
trahir la langue (Tournier 1985)
– Débat lié à l’état de l’art des codages des
corpus
– nuances : pertinence selon objectif (Tournier
1985)
MISAT 2009, Besançon
Mayaffre/Pincemin
DM
18
2. Pluralité des « états de texte » :
croiser les différents points de vue
2.1. La « querelle » à propos de la
lemmatisation
2.2. La textométrie/logométrie actuelle
2.3. Prospective
MISAT 2009, Besançon
Mayaffre/Pincemin
BP
19
Non plus antagonisme, mais juxtaposition
• Descriptions parallèles, points de vue
complémentaires
• Implémentation logicielle diffusée commence fin
des années 1990 : Lexploreur (Weblex),
Hyperbase, Astartex-Diatag, Le Trameur…
• Illustrations : la logométrie actuelle
– comment cela se présente dans Hyperbase pour
diverses fonctionnalités
– quels apports
MISAT 2009, Besançon
Mayaffre/Pincemin
BP, DM
20
Juxtaposition des états de texte dans la fonction Lecture (1)
(texte brut à gauche / texte étiqueté à droite)
MISAT 2009, Besançon
Mayaffre/Pincemin
21
Juxtaposition des états de texte dans la fonction Lecture (2)
MISAT 2009, Besançon
Mayaffre/Pincemin
22
Juxtaposition des états de texte dans le dictionnaire (Index)
MISAT 2009, Besançon
Mayaffre/Pincemin
23
Exemples d'apports
de l'accès à différents points de vue
• Catégories grammaticales
• Discours nominal versus discours verbal
• Flexions
• Temps verbaux : l'usage d'un présent pragmatique chez
Chirac
• Structures syntaxiques
• négation : adverbe + verbe + adverbe chez Sarkozy : formule
négative (ne veux pas, ne faut pas) qui avance
(lexicalement) la notion d'autorité comme valeur
• discours nominal complexe : deter + nom + conj de coord+
déter + nom chez Royal
• niveau de langue : coord + coord : croissance entre 1958 et
2008 qui marque peut-être un relâchement du discours
MISAT 2009, Besançon
Mayaffre/Pincemin
BP
24
Distribution des verbes versus des noms entre 1958 et 2007
MISAT 2009, Besançon
Mayaffre/Pincemin
25
Exemples d'apports
de l'accès à différents points de vue
• Catégories grammaticales
• Discours nominal versus discours verbal
• Flexions
• Temps verbaux : l'usage d'un présent pragmatique chez
Chirac
• Structures syntaxiques
• négation : adverbe + verbe + adverbe chez Sarkozy : formule
négative (ne veux pas, ne faut pas) qui avance
(lexicalement) la notion d'autorité comme valeur
• discours nominal complexe : deter + nom + conj de coord+
déter + nom chez Royal
• niveau de langue : coord + coord : croissance entre 1958 et
2008 qui marque peut-être un relâchement du discours
MISAT 2009, Besançon
Mayaffre/Pincemin
BP
26
Appauvrissement des temps verbaux : le discours politique est depuis les années 1980 conjugué au (seul)
présent de l’indicatif
MISAT 2009, Besançon
Mayaffre/Pincemin
27
Exemples d'apports
de l'accès à différents points de vue
• Catégories grammaticales
• Discours nominal versus discours verbal
• Flexions
• Temps verbaux : l'usage d'un présent pragmatique chez
Chirac
• Structures syntaxiques
• négation : adverbe + verbe + adverbe chez Sarkozy :
formule négative (ne veux pas, ne faut pas) qui avance
(lexicalement) la notion d'autorité comme valeur
• discours nominal complexe : deter + nom + conj de coord+
déter + nom chez Royal
• niveau de langue : coord + coord : croissance entre 1958 et
2008 qui marque peut-être un relâchement du discours
MISAT 2009, Besançon
Mayaffre/Pincemin
BP
28
La structure {Pronom + Adverbe + Verbe) dans la campagne électorale de 2007
MISAT 2009, Besançon
Mayaffre/Pincemin
29
Exemples d'apports
de l'accès à différents points de vue
• Catégories grammaticales
• Discours nominal versus discours verbal
• Flexions
• Temps verbaux : l'usage d'un présent pragmatique chez
Chirac
• Structures syntaxiques
• négation : adverbe + verbe + adverbe chez Sarkozy : formule
négative (ne veux pas, ne faut pas) qui avance
(lexicalement) la notion d'autorité comme valeur
• discours nominal complexe : deter + nom + conj de coord+
déter + nom chez Royal
• niveau de langue : coord + coord qui marque peut-être
un relâchement du discours
MISAT 2009, Besançon
Mayaffre/Pincemin
BP
30
Un discours relâché ? L’explosion de la double conjonction de coordination chez
Sarkozy (mais donc, et donc…)
MISAT 2009, Besançon
Mayaffre/Pincemin
31
2. Pluralité des « états de texte » :
croiser les différents points de vue
2.1. Dépassement de la « querelle » à
propos de la lemmatisation
2.2. La textométrie/logométrie actuelle
2.3. Prospective
MISAT 2009, Besançon
Mayaffre/Pincemin
BP
32
Articulation des descriptions
• dans les moteurs de recherche :
– [catégorie=« pronom »] [catégorie=« verbe » lemme=« indiquer »]
[catégorie=« adverbe »]
– cela se fait déjà : CQP (Weblex), Xaira, (Hyperbase)…
• dans les traitements quantitatifs : prospective (ex.
projet ANR textométrie)
– la représentation du corpus (Pincemin 2004) :
• propriétés de codage,
ex. : Ncms ; Vmip2s
• propriétés élémentaires,
ex. : catégorie, sous-catégorie,
genre, nombre, temps, personne...
• propriétés descriptives,
ex.: temps et mode,
personne et nombre...
MISAT 2009, Besançon
Mayaffre/Pincemin
BP
33
Articulation des descriptions
• Dans les étapes d'un calcul (Pincemin 2004) :
–
–
–
–
la sélection du "fond" ou sous-corpus
ex. cat=Vb
la sélection d'une "forme" ou focus ex. lemme = pouvoir)
ce qu'on compte dans le calcul
ex. lemme+temps
ce qu'on affiche
ex. graphies
MISAT 2009, Besançon
Mayaffre/Pincemin
BP
34
Dynamique et ajustement (1)
• Lemmatisation endogène ?
– Exemples avec la fonction Thème :
dis/dira
salaire/salaires
MISAT 2009, Besançon
Mayaffre/Pincemin
BP
35
dira / dis : co-occurrents
MISAT 2009, Besançon
Mayaffre/Pincemin
36
salaire/salaires : co-occurrents
MISAT 2009, Besançon
Mayaffre/Pincemin
37
Dynamique et ajustement (2)
• Multiplicité de segmentations
– lexicalisation/figement
• ex. « la classe ouvrière »
• segments répétés dès années 1980
– paliers (« chaînes »)
•
•
•
•
répliques (théâtre)
vers caractérisés par leur profil rythmique
types de phrases
...
MISAT 2009, Besançon
Mayaffre/Pincemin
BP
38
3. Nourrir l’interprétation : articuler quantitatif
et qualitatif au sein de parcours interprétatifs
3.1. Le retour au texte intégral :
une lecture " naturelle " du
texte… mais instrumentée
3.2. De la concordance et autres
recherches d’attestations
3.3. Des co-occurrences
MISAT 2009, Besançon
Mayaffre/Pincemin
DM
39
Le retour au texte
• central dans nos pratiques ; central dans tous
les logiciels
« Le contexte, c’est tout le texte » (Rastier 2001)
-exemple : l’ergonomie générale d'Hyperbase et ses
différentes fonctions statistiques qui renvoient au texte
intégral
MISAT 2009, Besançon
Mayaffre/Pincemin
DM
40
3. Nourrir l’interprétation : articuler quantitatif
et qualitatif au sein de parcours interprétatifs
3.1. Le retour au texte intégral : une
lecture " naturelle " du texte…
mais instrumentée
3.2. De la concordance et autres
recherches d’attestations
3.3. Des co-occurrences
MISAT 2009, Besançon
Mayaffre/Pincemin
BP
41
Quatre formes de recherche d’attestations
• (KWOC) liste des formes (vocabulaire,
dictionnaire, index…)
• (KWAC) concordance
• (KWIC) contextes, extraits
• (KWUT) le texte, avec surlignage des
occurrences
• Réagencements, tris : entre qualitatif et
quantitatif
MISAT 2009, Besançon
Mayaffre/Pincemin
BP
42
Liste des formes, vocabulaire
• Caractéristiques et usages
– formes (expression)
– dominances
– lacunes
• Exemples (trois diapos successives) :
– MOT fascisme dans le dictionnaire et ses voisins
– LISTE des mots en –isme
– LISTE des mots en -nationalis- et -privatis-
MISAT 2009, Besançon
Mayaffre/Pincemin
BP
43
MISAT 2009, Besançon
Mayaffre/Pincemin
44
MISAT 2009, Besançon
Mayaffre/Pincemin
45
MISAT 2009, Besançon
Mayaffre/Pincemin
46
Concordance
• Caractéristiques et usages
– effet de superposition
• empilement par alignement vertical et contexte sur une ligne
• mise en valeur typographique
• tris, en particulier sur les contextes
– heuristique visuelle
• enchaînements
• répétitions
• Exemple
• CONCORDANCE de Europe. Tri à gauche : apparition visuelle de la
fréquence de « l’union de l’Europe ». Tri à droite : apparition visuelle
de la fréquence de « Europe occidentale ».
MISAT 2009, Besançon
Mayaffre/Pincemin
BP
47
MISAT 2009, Besançon
Mayaffre/Pincemin
48
MISAT 2009, Besançon
Mayaffre/Pincemin
49
Contextes
• Caractéristiques et usages
– extraits de passages
• à lire
• à classer
– une ou plusieurs occurrences
– lecture papier
– obtention de citations, d’exemples
• Exemples
• CONTEXTES de bourgoisie et prolétariat.
• CONTEXTES de Québec
• CONTEXTES de amour
MISAT 2009, Besançon
Mayaffre/Pincemin
BP
50
MISAT 2009, Besançon
Mayaffre/Pincemin
51
MISAT 2009, Besançon
Mayaffre/Pincemin
52
MISAT 2009, Besançon
Mayaffre/Pincemin
53
Lecture du texte intégral
• Caractéristiques et usages
– position dans la structure, le déroulement
– concentration, rythme
• Exemple
– LECTURE Chirac et mise en valeur de répétitions
rhétoriques
MISAT 2009, Besançon
Mayaffre/Pincemin
BP
54
MISAT 2009, Besançon
Mayaffre/Pincemin
55
3. Nourrir l’interprétation : articuler quantitatif
et qualitatif au sein de parcours interprétatifs
1.1. Le retour au texte intégral : une
lecture " naturelle " du texte…
mais instrumentée
1.2. De la concordance et autres
recherches d’attestations
1.3. Des co-occurrences
MISAT 2009, Besançon
Mayaffre/Pincemin
DM
56
Co-occurrences :
entre quantitatif et qualitatif ?
La co-occurrence fait appel :
• -à un calcul statistique (« co-présence statistique… »)
• -à une fenêtre contextuelle de lecture (le paragraphe, la
phrase, la page)
• Elle peut être définie comme un phénomène de
contextualisation (minimale) via la statistique
• Elle aboutit à réfléchir au texte ou à la textualité comme
un phénomène de micro/macro contextualisation de ses
unités
MISAT 2009, Besançon
Mayaffre/Pincemin
DM
57
Idées principales
• Pluralité des descriptions… et importance des
graphies
• Articuler quantitatif et qualitatif
• Point de vue herméneutique : instrumenter et
renouveler les parcours interprétatifs
MISAT 2009, Besançon
Mayaffre/Pincemin
DM
58
Téléchargement