Logométrie, Textométrie Damon MAYAFFRE (CNRS-UNSA/MSH de Nice) Bénédicte PINCEMIN (CNRS, Lyon) MISAT 2009, Besançon Mayaffre/Pincemin DM 1 Lexicométrie, Textométrie, Logométrie,… Tradition qui dégage l’interaction entre deux pôles • • • • • • • • • • • • • • • • • • • 1960 / Pierre Guiraud / Problèmes et méthodes de la statistique linguistique 1973 / Charles Muller / Initiation aux méthodes de la statistique linguistique 1973 / Saint-Cloud / revue Travaux de lexicométrie et de lexicologie politique 1977 / Charles Muller / Principes et méthodes de statistique lexicale 1978 / Slatkine / collection Travaux de linguistique quantitative 1980 / Saint-Cloud / rubrique Lexicométrie dans la revue MOTS 1983 / Montréal / Centre d’Analyse de Texte par Ordinateur (ATO) 1985 / Nice+ / Colloque international CNRS Méthodes quantitatives et informatiques dans l'étude des textes (en hommage à Charles Muller) 1987 / Saint-Cloud / Laboratoire Lexicométrie et textes politiques 1988 / Ludovic Lebart et André Salem / Analyse statistique des données textuelles 1992 / Barcelone / Premières Journées internationales d'Analyse statistique des Données Textuelles 1994 / Ludovic Lebart et André Salem / Statistique textuelle 1997 / Paris 3 (Salem et alii) / revue électronique Lexicométrica 2002 / Nice (Mayaffre) / Astrolabe 2002 : « logo-matique » 2003 / Lyon / sous-équipe Textométrie et lexicographie 2004 / JADT : Nice (Mayaffre) : « logométrie » ; Paris 3 (Salem, Zimina) : « textométrie » 2004 / équipe niçoise Logométrie et corpus politiques, médiatiques et littéraires 2006 / Lyon+ / projet ANR Textométrie 2009 / Besançon+ / école Méthodes Informatiques et Statistiques en Analyse de Textes [!!! Ceci n'est pas une chronologie représentative de la discipline, mais simplement un relevé de variations de dénomination !!!] MISAT 2009, Besançon Mayaffre/Pincemin BP 2 Textométrie / Logométrie : une discipline qui passe par une (re)définition de… • L’objet => Le texte comme objet complexe herméneutique • La méthode => Mise en place de parcours de lecture complémentaires qui articulent approche qualitative et approche quantitative du corpus MISAT 2009, Besançon Mayaffre/Pincemin DM 3 1. Texte, corpus textuels, unités textuelles 1.1. Le texte comme objet herméneutique 1.2. L'importance du corpus, sa place déterminante 1.3. Le matérialisme textuel et les unités textuelles complexes MISAT 2009, Besançon Mayaffre/Pincemin BP 4 Textualité et traitements (semi-)automatiques 1. MATIERE LINGUISTIQUE 4. RÔLE CONSTITUTIF DE LA LECTURE 2. ORGANISATION INTERNE clôture et autonomie, linéarité, hiérarchie, orientation 3. INTERTEXTUALITE Cf. thèse (Bommier-Pincemin, 1999) MISAT 2009, Besançon Mayaffre/Pincemin BP 5 Herméneutique et objectivité La description ou représentation est... Par opposition à… (déception ?) la bonne représentation -première, originale multiple incomplète, ouverte (quoique contrainte) complétude relative au choix des "données", au contexte (intertexte) MISAT 2009, Besançon Mayaffre/Pincemin neutralité BP 6 Herméneutique et calculs statistiques • La textométrie ne calcule pas le sens d'un texte • Et pourtant, les calculs ont bien leur place : – ils produisent des résultats (vs. une réponse) – l'automatisation facilite ajustements progressifs, cheminement interprétatif MISAT 2009, Besançon Mayaffre/Pincemin BP 7 Logométrie, discipline interprétative • Entre rejet et fascination… [rejet] calcul : non pas aliénation, mais donne à voir [fascination] appareillage mathématique, mais : indices vs preuve • Dimension heuristique, vocation herméneutique ce que la logométrie peut apporter quand elle outille d'autres disciplines (Linguistique, Histoire, Sciences politiques, Littérature, ...) : C’est non pas des… – réponses objectives ou des preuves (dimension probatoire ? Attribution d’auteur?) Mais de… – nouveaux modes d'appréhension des textes (quantitatif + qualitatif, paradigmatique + syntagmatique, textuel + hypertextuel), de nouveaux parcours de lecture L’objectif est moins d’objectiver un « donné » textuel (un « contenu » du texte, le « sens » du texte) que d’objectiver des parcours interprétatifs MISAT 2009, Besançon Mayaffre/Pincemin DM 8 1. Texte, corpus textuels, unités textuelles 1.1. Le texte comme objet herméneutique 1.2. L'importance du corpus, sa place déterminante 1.3. Le matérialisme textuel et les unités textuelles complexes MISAT 2009, Besançon Mayaffre/Pincemin DM 9 Quantitatif : d’abord un problème de taille ? • Suffisamment grand… – apports de l'ordinateur (vitesse, mémoire) – gamme de fréquences ; contrastes • … mais pas trop : – lire autrement vs sonder • < 10 000 mots : lecture naturelle ? • > 10 millions de mots : TAL, extraction automatique ? • 100 000 mots, 500.000, 1, 2 ou 3 millions de mots : optimal ? (mais attention au nombre de partitions) MISAT 2009, Besançon Mayaffre/Pincemin DM 10 Qualitatif: interprétabilité, réflexivité • des critères généraux : représentativité, homogénéité, complétude... • interprétabilité : construction (vs accumulation) • réflexivité : le corpus définit une norme endogène, il sert de référence • La centralité du corpus : une inquiétude partagée : "linguistique de corpus« (Biber, etc.), "apprentissage endogène" (Bourigault), "sémantique différentielle" (Rastier), "stylistique endogène" (Viprey), "lexicologie endogène" (Valette)... • illustration concrète des effets contextuels du corpus : le premier Mitterrand et l'imparfait du subjonctif BP, DM MISAT 2009, Besançon Mayaffre/Pincemin 11 Mitterrand (1er septennat) sous-emploie le subjonctif imparfait... MISAT 2009, Besançon Mayaffre/Pincemin 12 Changement de contexte ou de corpus (on supprime de Gaulle) , et maintenant Mitterrand (1er septennat) sur-emploie le subjonctif MISAT 2009, Besançon Mayaffre/Pincemin 13 imparfait 1. Texte, corpus textuels, unités textuelles 1.1. Le texte comme objet herméneutique 1.2. L'importance du corpus, sa place déterminante 1.3. Le matérialisme textuel et les unités textuelles complexes MISAT 2009, Besançon Mayaffre/Pincemin DM 14 Matérialisme textuel, originel • Dès l'origine, cf. travaux de Saint-Cloud : – "Sur quoi pouvons-nous compter ?" (Tournier, 1985) • texte "brut" (vs. lemmatisation, étiquetage sémantique en concepts,...) – Objection théorique : minimiser les pré-interprétations (a priori) – Objection pratique : uniformité et reproductibilité du dépouillement • Matérialisme textuel et cercle herméneutique : – point d'entrée – Point de sortie : retour au texte pour l’interprétation – Bref, centralité du texte : intentio auctoris, intention lectoris, intentio operis (Umberto Eco ; Les limites de l’interprétation) MISAT 2009, Besançon Mayaffre/Pincemin DM 15 Imperfection, imperfectivité • Limites de la représentation et vertus statistiques : – on estompe des « perturbations » (robustesse), – mais on ne gomme pas les biais. • Bilan : – Place centrale de la matérialité textuelle – Enrichissement par une pluralité de descriptions linguistiques – Philologie : l ’établissement du texte est en fait au terme de l ’interprétation. MISAT 2009, Besançon Mayaffre/Pincemin BP 16 2. Pluralité des « états de texte » : croiser les différents points de vue 2.1. La « querelle » à propos de la lemmatisation 2.2. La textométrie/logométrie actuelle 2.3. Prospective MISAT 2009, Besançon Mayaffre/Pincemin DM 17 Lemmatiser ? Un antagonisme historique – le camp des lemmatiseurs vs le camp des formalistes (Muller 1984). Trahir le texte vs trahir la langue (Tournier 1985) – Débat lié à l’état de l’art des codages des corpus – nuances : pertinence selon objectif (Tournier 1985) MISAT 2009, Besançon Mayaffre/Pincemin DM 18 2. Pluralité des « états de texte » : croiser les différents points de vue 2.1. La « querelle » à propos de la lemmatisation 2.2. La textométrie/logométrie actuelle 2.3. Prospective MISAT 2009, Besançon Mayaffre/Pincemin BP 19 Non plus antagonisme, mais juxtaposition • Descriptions parallèles, points de vue complémentaires • Implémentation logicielle diffusée commence fin des années 1990 : Lexploreur (Weblex), Hyperbase, Astartex-Diatag, Le Trameur… • Illustrations : la logométrie actuelle – comment cela se présente dans Hyperbase pour diverses fonctionnalités – quels apports MISAT 2009, Besançon Mayaffre/Pincemin BP, DM 20 Juxtaposition des états de texte dans la fonction Lecture (1) (texte brut à gauche / texte étiqueté à droite) MISAT 2009, Besançon Mayaffre/Pincemin 21 Juxtaposition des états de texte dans la fonction Lecture (2) MISAT 2009, Besançon Mayaffre/Pincemin 22 Juxtaposition des états de texte dans le dictionnaire (Index) MISAT 2009, Besançon Mayaffre/Pincemin 23 Exemples d'apports de l'accès à différents points de vue • Catégories grammaticales • Discours nominal versus discours verbal • Flexions • Temps verbaux : l'usage d'un présent pragmatique chez Chirac • Structures syntaxiques • négation : adverbe + verbe + adverbe chez Sarkozy : formule négative (ne veux pas, ne faut pas) qui avance (lexicalement) la notion d'autorité comme valeur • discours nominal complexe : deter + nom + conj de coord+ déter + nom chez Royal • niveau de langue : coord + coord : croissance entre 1958 et 2008 qui marque peut-être un relâchement du discours MISAT 2009, Besançon Mayaffre/Pincemin BP 24 Distribution des verbes versus des noms entre 1958 et 2007 MISAT 2009, Besançon Mayaffre/Pincemin 25 Exemples d'apports de l'accès à différents points de vue • Catégories grammaticales • Discours nominal versus discours verbal • Flexions • Temps verbaux : l'usage d'un présent pragmatique chez Chirac • Structures syntaxiques • négation : adverbe + verbe + adverbe chez Sarkozy : formule négative (ne veux pas, ne faut pas) qui avance (lexicalement) la notion d'autorité comme valeur • discours nominal complexe : deter + nom + conj de coord+ déter + nom chez Royal • niveau de langue : coord + coord : croissance entre 1958 et 2008 qui marque peut-être un relâchement du discours MISAT 2009, Besançon Mayaffre/Pincemin BP 26 Appauvrissement des temps verbaux : le discours politique est depuis les années 1980 conjugué au (seul) présent de l’indicatif MISAT 2009, Besançon Mayaffre/Pincemin 27 Exemples d'apports de l'accès à différents points de vue • Catégories grammaticales • Discours nominal versus discours verbal • Flexions • Temps verbaux : l'usage d'un présent pragmatique chez Chirac • Structures syntaxiques • négation : adverbe + verbe + adverbe chez Sarkozy : formule négative (ne veux pas, ne faut pas) qui avance (lexicalement) la notion d'autorité comme valeur • discours nominal complexe : deter + nom + conj de coord+ déter + nom chez Royal • niveau de langue : coord + coord : croissance entre 1958 et 2008 qui marque peut-être un relâchement du discours MISAT 2009, Besançon Mayaffre/Pincemin BP 28 La structure {Pronom + Adverbe + Verbe) dans la campagne électorale de 2007 MISAT 2009, Besançon Mayaffre/Pincemin 29 Exemples d'apports de l'accès à différents points de vue • Catégories grammaticales • Discours nominal versus discours verbal • Flexions • Temps verbaux : l'usage d'un présent pragmatique chez Chirac • Structures syntaxiques • négation : adverbe + verbe + adverbe chez Sarkozy : formule négative (ne veux pas, ne faut pas) qui avance (lexicalement) la notion d'autorité comme valeur • discours nominal complexe : deter + nom + conj de coord+ déter + nom chez Royal • niveau de langue : coord + coord qui marque peut-être un relâchement du discours MISAT 2009, Besançon Mayaffre/Pincemin BP 30 Un discours relâché ? L’explosion de la double conjonction de coordination chez Sarkozy (mais donc, et donc…) MISAT 2009, Besançon Mayaffre/Pincemin 31 2. Pluralité des « états de texte » : croiser les différents points de vue 2.1. Dépassement de la « querelle » à propos de la lemmatisation 2.2. La textométrie/logométrie actuelle 2.3. Prospective MISAT 2009, Besançon Mayaffre/Pincemin BP 32 Articulation des descriptions • dans les moteurs de recherche : – [catégorie=« pronom »] [catégorie=« verbe » lemme=« indiquer »] [catégorie=« adverbe »] – cela se fait déjà : CQP (Weblex), Xaira, (Hyperbase)… • dans les traitements quantitatifs : prospective (ex. projet ANR textométrie) – la représentation du corpus (Pincemin 2004) : • propriétés de codage, ex. : Ncms ; Vmip2s • propriétés élémentaires, ex. : catégorie, sous-catégorie, genre, nombre, temps, personne... • propriétés descriptives, ex.: temps et mode, personne et nombre... MISAT 2009, Besançon Mayaffre/Pincemin BP 33 Articulation des descriptions • Dans les étapes d'un calcul (Pincemin 2004) : – – – – la sélection du "fond" ou sous-corpus ex. cat=Vb la sélection d'une "forme" ou focus ex. lemme = pouvoir) ce qu'on compte dans le calcul ex. lemme+temps ce qu'on affiche ex. graphies MISAT 2009, Besançon Mayaffre/Pincemin BP 34 Dynamique et ajustement (1) • Lemmatisation endogène ? – Exemples avec la fonction Thème : dis/dira salaire/salaires MISAT 2009, Besançon Mayaffre/Pincemin BP 35 dira / dis : co-occurrents MISAT 2009, Besançon Mayaffre/Pincemin 36 salaire/salaires : co-occurrents MISAT 2009, Besançon Mayaffre/Pincemin 37 Dynamique et ajustement (2) • Multiplicité de segmentations – lexicalisation/figement • ex. « la classe ouvrière » • segments répétés dès années 1980 – paliers (« chaînes ») • • • • répliques (théâtre) vers caractérisés par leur profil rythmique types de phrases ... MISAT 2009, Besançon Mayaffre/Pincemin BP 38 3. Nourrir l’interprétation : articuler quantitatif et qualitatif au sein de parcours interprétatifs 3.1. Le retour au texte intégral : une lecture " naturelle " du texte… mais instrumentée 3.2. De la concordance et autres recherches d’attestations 3.3. Des co-occurrences MISAT 2009, Besançon Mayaffre/Pincemin DM 39 Le retour au texte • central dans nos pratiques ; central dans tous les logiciels « Le contexte, c’est tout le texte » (Rastier 2001) -exemple : l’ergonomie générale d'Hyperbase et ses différentes fonctions statistiques qui renvoient au texte intégral MISAT 2009, Besançon Mayaffre/Pincemin DM 40 3. Nourrir l’interprétation : articuler quantitatif et qualitatif au sein de parcours interprétatifs 3.1. Le retour au texte intégral : une lecture " naturelle " du texte… mais instrumentée 3.2. De la concordance et autres recherches d’attestations 3.3. Des co-occurrences MISAT 2009, Besançon Mayaffre/Pincemin BP 41 Quatre formes de recherche d’attestations • (KWOC) liste des formes (vocabulaire, dictionnaire, index…) • (KWAC) concordance • (KWIC) contextes, extraits • (KWUT) le texte, avec surlignage des occurrences • Réagencements, tris : entre qualitatif et quantitatif MISAT 2009, Besançon Mayaffre/Pincemin BP 42 Liste des formes, vocabulaire • Caractéristiques et usages – formes (expression) – dominances – lacunes • Exemples (trois diapos successives) : – MOT fascisme dans le dictionnaire et ses voisins – LISTE des mots en –isme – LISTE des mots en -nationalis- et -privatis- MISAT 2009, Besançon Mayaffre/Pincemin BP 43 MISAT 2009, Besançon Mayaffre/Pincemin 44 MISAT 2009, Besançon Mayaffre/Pincemin 45 MISAT 2009, Besançon Mayaffre/Pincemin 46 Concordance • Caractéristiques et usages – effet de superposition • empilement par alignement vertical et contexte sur une ligne • mise en valeur typographique • tris, en particulier sur les contextes – heuristique visuelle • enchaînements • répétitions • Exemple • CONCORDANCE de Europe. Tri à gauche : apparition visuelle de la fréquence de « l’union de l’Europe ». Tri à droite : apparition visuelle de la fréquence de « Europe occidentale ». MISAT 2009, Besançon Mayaffre/Pincemin BP 47 MISAT 2009, Besançon Mayaffre/Pincemin 48 MISAT 2009, Besançon Mayaffre/Pincemin 49 Contextes • Caractéristiques et usages – extraits de passages • à lire • à classer – une ou plusieurs occurrences – lecture papier – obtention de citations, d’exemples • Exemples • CONTEXTES de bourgoisie et prolétariat. • CONTEXTES de Québec • CONTEXTES de amour MISAT 2009, Besançon Mayaffre/Pincemin BP 50 MISAT 2009, Besançon Mayaffre/Pincemin 51 MISAT 2009, Besançon Mayaffre/Pincemin 52 MISAT 2009, Besançon Mayaffre/Pincemin 53 Lecture du texte intégral • Caractéristiques et usages – position dans la structure, le déroulement – concentration, rythme • Exemple – LECTURE Chirac et mise en valeur de répétitions rhétoriques MISAT 2009, Besançon Mayaffre/Pincemin BP 54 MISAT 2009, Besançon Mayaffre/Pincemin 55 3. Nourrir l’interprétation : articuler quantitatif et qualitatif au sein de parcours interprétatifs 1.1. Le retour au texte intégral : une lecture " naturelle " du texte… mais instrumentée 1.2. De la concordance et autres recherches d’attestations 1.3. Des co-occurrences MISAT 2009, Besançon Mayaffre/Pincemin DM 56 Co-occurrences : entre quantitatif et qualitatif ? La co-occurrence fait appel : • -à un calcul statistique (« co-présence statistique… ») • -à une fenêtre contextuelle de lecture (le paragraphe, la phrase, la page) • Elle peut être définie comme un phénomène de contextualisation (minimale) via la statistique • Elle aboutit à réfléchir au texte ou à la textualité comme un phénomène de micro/macro contextualisation de ses unités MISAT 2009, Besançon Mayaffre/Pincemin DM 57 Idées principales • Pluralité des descriptions… et importance des graphies • Articuler quantitatif et qualitatif • Point de vue herméneutique : instrumenter et renouveler les parcours interprétatifs MISAT 2009, Besançon Mayaffre/Pincemin DM 58