Formes verbales et fréquence

publicité
Formes verbales et fréquence
Charles MULLER
Cette réunion, comme les congrès de Metz (1983) ou de Nice (1985) montre
clairement que l'analyse quantitative des textes, à hase cl 'informatique et de
statistique, cherche à étendre son champ cl 'action, à ne plus se borner au
domaine lexical, qui a vu ses premiers essais et ses succès les plus décisifs.
Ce qui nous conduit à traiter d'autres unités que le lI mo f' 1 plus larges ou plus
étroites (moins faciles aussi à délimiter), et à admettre que le regroupement des
unités en ensembles paradigmatiques peut, lui aussi, envisager d'autres bases
que le "vocable ll ou le lemme.
Que le chercheur soit linguiste ou "littéraire", il ne peut guère éviter
de consulter les documents de base, s'ils existent, que sont les index, les
concordances, les dictionnaires de fréquence, soit pour y chercher des données
quantitatives de référence, soit pour localiser les faits de langue ou les thèmes
qui Pintéressent. J'envisage donc ici avant tout les index et concordances qui
portent sur des corpus étendus, et qui peuvent ou doivent se prêter à des
exploitations diverses, aussi ouvertes que possible.
L'époque héroïque des dépouillements manuels est révolue; celle de la
mécanographie (Besançon, Liège des années 50), qui nous a montré la voie, a
pris fin avec Pentrée en jeu de Pordinateur, de plus en plus accessible, qui nous
fournit des index imprimés, des concordances (le plus souvent sur microfiches),
des banques de données.
Ce que Pordinateur sait le mieux faire, c'est d'enregistrer fidèlement la suite
d'unités graphiques (Umots") des textes, puis de redistribuer ces unités suivant
un ordre quelconque (ordre alphabétique, inverse, par longueur, etc.), fondé
sur le seul aspect graphique. Mais ces unités, arrachées au contexte, deviennent
ambiguës, et cela à plusieurs niveaux; j'en distinguerai quatre:
un niveau lexical: la forme graphique marche peut être une occurrence du
verbe marcher ou un nom féminin;
Extrait de la Revue Informatique et Statistique dans les Sciences humaines
XXIV, 1 à 4, 1988. C.I.P.L. - Université de Liège - Tous droits réservés.
286
CHARLES MULLER
un niveau sémantique: le nom marche peut signifier soit un objet (la partie
d'un escalier), soit un mouvement C'pratiquer la marche))), soit encore une
province frontalière (cette acception étant en général distinguée au IÙveau
lexical) ;
un niveau grammatical: la forme verbale marche peut être un indicatif, un
subjonctif ou un impératif, une lèr\ une 2e ou une ae personnej
uu niveau syntaxique: le nom marche, ou tout autre nom, peut être sujet,
objet, complément prépositionnel, etc.
A un mot du texte, on peut donc attacher une ou plusieurs informations
destinées à lever ces ambiguïtés. Mais, pour chacune de ces informations, on
doit s'interroger sur son utilité, sur sa fiabilité, sur son coût.
Parlons d'abord du coût: il est maximal quand la levée de l'ambiguïté ne
peut être demandée qu'à une lecture humaine du contexte j il est faible quand ce
résultat peut être obtenu par un traitement informatique valable pour un grand
nombre de cas. Ainsi toute forme immédiatement précédée de il, je, on, se,
ne, ... sera reconnue comme verbale, ce qui lève un grand nombre d'ambiguïtés
lexicales et quelques ambiguïtés grammaticales j mais aucun programme ne
saurait résoudre la plupart des polyvalences sémantiques.
La fiabilité de l'information est bonne quand le découpage lexical, sémantique, grammatical ou syntaxique ne rencontre pas de cas douteux, ou quand
ceux-ci sont très exceptionnelsj ainsi, pour considérer qu'il y a deux noms
féminins marche et qu'il s'agit - aussi bien en diachronie qu'en synchronie
- d'homonymes, l'avis unanime des dictionnaires nous suffit et on conçoit
difficilement un contexte (jeux de mots mis à part) qui réunirait les deux exceptionsj l'unité lexicale qui réunit la marche d'escalier,la marche sportive,la
marche funèbre et la marche d'une entreprise est moins évidente; mais toute
subdivision sémantique de cet ensemble lexical créera des cas douteux; fiabilité
réduite des comptages, où plusieurs arbitres n'arriveraient pas nécessairement
à une même répartition.
Quant à l'utilité des distinctions, elle dépend évidemment de l'utilisation
projetée, et je ne tenterai pas de l'analyser j en gros, les données purement
lexicales semblent prioritaires j les classements syntaxiques sont sans doute les
moins susceptibles d'exploitation. Mais mon intention est de plaider ici pour une
indexation grammaticale, et plus précisément pour l'identification des formes
verbales dans les catégories traditionnelles de la personne, du temps, du mode.
C'est que je pose en principe que l'analyse stylistique d'un texte gagnerait à
ne pas borner ses données quantitatives au seul lexique, et que le maniement
par l'écrivain des catégories verbales mérite une attention d'autant plus grande
qu'il constitue certainement un élément d'une grande mobilité, et qui fournit des
Extrait de la Revue Informatique et Statistique dans les Sciences humaines
XXIV, 1 à 4, 1988. C.I.P.L. - Université de Liège - Tous droits réservés.
FoID.'IES VERBALES ET FRÉQUENCE
287
indications précieuses sur la composition de l'œuvre, sur sa structure stylistique
et thématique.
On souhaiterait donc des index où la catégorisation lexicale des occurrences
se double, au moins pour les verbes, d'une sous-catégorisation grammaticale,
qui permettrait à l'usager de connaître non seulement la fréquence de chaque
verbe pris comme unité de lexique, mais celle des ensembles grammaticaux
constitués par la réunion de toutes les formes d'un même temps, d'un même
mode, d'une même personne. Tâche supplémentaire, dont il convient d'évaluer
le coût, la fiabilité et l'utilité.
Dans un article publié ailleurs, j'ai tenté un bilan des homographies
internes du verbe français; voici, en bref, le résultat de cet inventaire.
Sur les 51 formes simples (participes compris) que génère la "conjugaison"
d'un verbe français, 18 ne sont jamais ambiguës i 4 le sont dans tous les verbes,
mais pour la personne seulement; les 29 autres sont ambiguës dans un nombre
plus ou moins grand de verbes. Si l'on tient compte de la fréquence des formes
graphiques ambiguës, dont l'identification grammaticale exigerait un codage,
on peut l'estimer à 20 % des occurrences verbales, soit 5 % environ des mots
du texte. Au passage, jetons un regard d'envie sur ceux qui, comme Étienne
Évrard, travaillent sur une langue comme le latin classique, où le verbe ne
connaît d'homographies internes que dans un très petit nombre de formes de
très faible fréquence !
Mais une remarque sur ces fréquences: la proportion en formes ambiguës
est la plus faible dans les verbes les plus fréquents (les auxiliaires, les semiauxiliaires, les verbes irréguliers (3' groupe); elle est la plus forte dans les
conjugaisons régulières (1" et 2' groupes).
Autre constatation utile: une bonne proportion des homographies verbales
coïncide avec une homograpWe lexicale. Exemples: soit la forme entre, qui a
378 occurrences dans le corpus analysé par G. Engwall (nous en reparlerons) j il
a fallu toutes les traiter en contexte pour les répartir entre la préposition (347)
et le verbe (31); mais ces 31 entre représentent près de la moitié des formes de ce
verbe qui appelaient un examen grammatical; la forme porte (345 occurrences)
à 49 occurrences verbales, qui sont 80 % des formes ambignës du verbe porter;
même proportion pour reste dont 114 occnrrences (snr 195) sont verbales.
Une bonne partie de la tâche grammaticale pourrait donc, à peu de frais, être
accomplie en même temps que la lemmatisation.
L'indexation grammaticale des formes verbales n'est donc, par rapport à
l'indexation lexicale, qu'un supplément modeste. Reste à s'interroger sur son
utilité et sur sa fiabilité. Or) je crains que ces deux qualités n'aillent pas de
pair.
Extrait de la Revue Informatique et Statistique dans les Sciences humaines
XXIV, 1 à 4, 1988. C.I.P.L. - Université de Liège - Tous droits réservés.
288
CHARLES MULLER
Les réponses à la question posée par les 6 personnes verbales sont cl lune
fiabilité excellente: les ambiguïtés graphiques n'existent qu'entre la 1ère et
la 2e ou la 1ère et la 3e du singulier 1 et on ne voit guère de contextes qui
laisseraient un doute j mais cette répartition des formes verbales ne révèle
que des caractères stylistiques assez évidents par ailleurs (présence ou non du
dialogue, tutoiement, ...) 1 qui sont aussi bien mis en lumière par une simple
statistique des pronoms dits "de dialogue)).
En revanche, la répartition des formes entre ce qu'on nomme les "temps"
de la conjugaison (ce qui inclut les modes) se heurte à deux difficultés.
La première est mineure: il est des cas où un examen du contexte ne réussit
pas toujours à décider si un dit-il est un présent indicatif ou un passé simple,
si un finissent est un présent ou un imparfait du subjonctif; il y a des doutes
insolubles, mais quantitativement négligeables.
Ce qui est plus sérieux, c'est le problème posé par les nombreuses formes
composées avec l'auxiliaire être : "il est mort" est tantôt un présent, tantôt
un passé composé i que l'on compare de même "le train est arrivé à l'heure))
(passé composé) et llie train est arrivé depuis dix minutes" (présent); et là les
cas douteux sont nombreux. Cette difficulté n'affecte pas les modesj mais ou
bien il faudra distinguer, pour toutes les formes du verbe être, entre les emplois
auxiliaires et les emplois proprement verbaux (comme l'a ,fait A. Juilland),
ou bien on renoncera à dénombrer les occurrences des temps composés. D'où
une fiabilité discutable dans la première option, un résultat incomplet dans la
seconde.
On comprend donc que les index et les concordances dont nous disposons
ne se soient guère engagés dans cette voie; les dépouillements qui portent sur
des très vastes ensembles, comme ceux de Nancy et les publications d'Étienne
Brunet, qui en sont issues, ne nous sont d'aucun secours pour tout ce qui dépasse
le lexique. Le dictionnaire d'A. Juilland est le seul qui ait codé grammaticalement les formes verbales et réparti les fréquences entre les homographes j mais
ce qui est publié ne couvre pas la totalité du corpus, ne permet pas de remonter aux contextes, et les données grammaticales ne sont pas regroupées.
Quant aux relevés de G. Engwall, lemmatisés intégralement, ils distinguent
bien toutes les formes verbales, mais sans résoudre les homographies j le listage
inverse de toutes les formes permet certes d'isoler les formes bien caractérisées
par leur désinence (futurs, conditionnels, subjonctifs imparfaits, ...); mais un
classement complet exige le recours aux contextes, vocable par vocable, dans
la concordance sur microfiches.
Une thèse (non publiée) a tenté il y a une quinzaine d'années, d'extraire
du dictionnaire de Juilland des données quantitatives sur les modes, les temps
et les personnes des verbes. Son auteur, A. Lapierre, qui enseigne maintenant
Extrait de la Revue Informatique et Statistique dans les Sciences humaines
XXIV, 1 à 4, 1988. C.I.P.L. - Université de Liège - Tous droits réservés.
FORM:ES VERBALES ET FRÉQUENCE
289
à l'Université d'Ottawa, a borné son relevé aux temps simples (impératif et
formes nominales exclus), et sans y comprendre les verbes avoir et être. Ce
sont les seules données, à ma connaissance, dont nous disposions actuellement.
Elles montrent en tout cas de façon éloquente que les catégories verbales se
distribuent de façon très irrégulière entre les types stylistiques qui constituent
les cinq sous-corpus du F.D.F. W., ce qui confirmé leur intérêt pour l'analyse
des œuvres littéraires.
Ce qui paraît souhaitable et réalisable, c'est une indexation à la fois lexicale
et grammaticale de corpus importants (de l'ordre du dellÙ-million ou du million
d'occurrences), prélevés sur les enregistrements déjà existants (Nancy, ...), avec
un maximum de données synthétiquesj en somme, la méthode de G. Engwall,
avec un peu de grammaire en plus.
Extrait de la Revue Informatique et Statistique dans les Sciences humaines
XXIV, 1 à 4, 1988. C.I.P.L. - Université de Liège - Tous droits réservés.
Téléchargement