Formes verbales et fréquence Charles MULLER Cette réunion, comme les congrès de Metz (1983) ou de Nice (1985) montre clairement que l'analyse quantitative des textes, à hase cl 'informatique et de statistique, cherche à étendre son champ cl 'action, à ne plus se borner au domaine lexical, qui a vu ses premiers essais et ses succès les plus décisifs. Ce qui nous conduit à traiter d'autres unités que le lI mo f' 1 plus larges ou plus étroites (moins faciles aussi à délimiter), et à admettre que le regroupement des unités en ensembles paradigmatiques peut, lui aussi, envisager d'autres bases que le "vocable ll ou le lemme. Que le chercheur soit linguiste ou "littéraire", il ne peut guère éviter de consulter les documents de base, s'ils existent, que sont les index, les concordances, les dictionnaires de fréquence, soit pour y chercher des données quantitatives de référence, soit pour localiser les faits de langue ou les thèmes qui Pintéressent. J'envisage donc ici avant tout les index et concordances qui portent sur des corpus étendus, et qui peuvent ou doivent se prêter à des exploitations diverses, aussi ouvertes que possible. L'époque héroïque des dépouillements manuels est révolue; celle de la mécanographie (Besançon, Liège des années 50), qui nous a montré la voie, a pris fin avec Pentrée en jeu de Pordinateur, de plus en plus accessible, qui nous fournit des index imprimés, des concordances (le plus souvent sur microfiches), des banques de données. Ce que Pordinateur sait le mieux faire, c'est d'enregistrer fidèlement la suite d'unités graphiques (Umots") des textes, puis de redistribuer ces unités suivant un ordre quelconque (ordre alphabétique, inverse, par longueur, etc.), fondé sur le seul aspect graphique. Mais ces unités, arrachées au contexte, deviennent ambiguës, et cela à plusieurs niveaux; j'en distinguerai quatre: un niveau lexical: la forme graphique marche peut être une occurrence du verbe marcher ou un nom féminin; Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIV, 1 à 4, 1988. C.I.P.L. - Université de Liège - Tous droits réservés. 286 CHARLES MULLER un niveau sémantique: le nom marche peut signifier soit un objet (la partie d'un escalier), soit un mouvement C'pratiquer la marche))), soit encore une province frontalière (cette acception étant en général distinguée au IÙveau lexical) ; un niveau grammatical: la forme verbale marche peut être un indicatif, un subjonctif ou un impératif, une lèr\ une 2e ou une ae personnej uu niveau syntaxique: le nom marche, ou tout autre nom, peut être sujet, objet, complément prépositionnel, etc. A un mot du texte, on peut donc attacher une ou plusieurs informations destinées à lever ces ambiguïtés. Mais, pour chacune de ces informations, on doit s'interroger sur son utilité, sur sa fiabilité, sur son coût. Parlons d'abord du coût: il est maximal quand la levée de l'ambiguïté ne peut être demandée qu'à une lecture humaine du contexte j il est faible quand ce résultat peut être obtenu par un traitement informatique valable pour un grand nombre de cas. Ainsi toute forme immédiatement précédée de il, je, on, se, ne, ... sera reconnue comme verbale, ce qui lève un grand nombre d'ambiguïtés lexicales et quelques ambiguïtés grammaticales j mais aucun programme ne saurait résoudre la plupart des polyvalences sémantiques. La fiabilité de l'information est bonne quand le découpage lexical, sémantique, grammatical ou syntaxique ne rencontre pas de cas douteux, ou quand ceux-ci sont très exceptionnelsj ainsi, pour considérer qu'il y a deux noms féminins marche et qu'il s'agit - aussi bien en diachronie qu'en synchronie - d'homonymes, l'avis unanime des dictionnaires nous suffit et on conçoit difficilement un contexte (jeux de mots mis à part) qui réunirait les deux exceptionsj l'unité lexicale qui réunit la marche d'escalier,la marche sportive,la marche funèbre et la marche d'une entreprise est moins évidente; mais toute subdivision sémantique de cet ensemble lexical créera des cas douteux; fiabilité réduite des comptages, où plusieurs arbitres n'arriveraient pas nécessairement à une même répartition. Quant à l'utilité des distinctions, elle dépend évidemment de l'utilisation projetée, et je ne tenterai pas de l'analyser j en gros, les données purement lexicales semblent prioritaires j les classements syntaxiques sont sans doute les moins susceptibles d'exploitation. Mais mon intention est de plaider ici pour une indexation grammaticale, et plus précisément pour l'identification des formes verbales dans les catégories traditionnelles de la personne, du temps, du mode. C'est que je pose en principe que l'analyse stylistique d'un texte gagnerait à ne pas borner ses données quantitatives au seul lexique, et que le maniement par l'écrivain des catégories verbales mérite une attention d'autant plus grande qu'il constitue certainement un élément d'une grande mobilité, et qui fournit des Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIV, 1 à 4, 1988. C.I.P.L. - Université de Liège - Tous droits réservés. FoID.'IES VERBALES ET FRÉQUENCE 287 indications précieuses sur la composition de l'œuvre, sur sa structure stylistique et thématique. On souhaiterait donc des index où la catégorisation lexicale des occurrences se double, au moins pour les verbes, d'une sous-catégorisation grammaticale, qui permettrait à l'usager de connaître non seulement la fréquence de chaque verbe pris comme unité de lexique, mais celle des ensembles grammaticaux constitués par la réunion de toutes les formes d'un même temps, d'un même mode, d'une même personne. Tâche supplémentaire, dont il convient d'évaluer le coût, la fiabilité et l'utilité. Dans un article publié ailleurs, j'ai tenté un bilan des homographies internes du verbe français; voici, en bref, le résultat de cet inventaire. Sur les 51 formes simples (participes compris) que génère la "conjugaison" d'un verbe français, 18 ne sont jamais ambiguës i 4 le sont dans tous les verbes, mais pour la personne seulement; les 29 autres sont ambiguës dans un nombre plus ou moins grand de verbes. Si l'on tient compte de la fréquence des formes graphiques ambiguës, dont l'identification grammaticale exigerait un codage, on peut l'estimer à 20 % des occurrences verbales, soit 5 % environ des mots du texte. Au passage, jetons un regard d'envie sur ceux qui, comme Étienne Évrard, travaillent sur une langue comme le latin classique, où le verbe ne connaît d'homographies internes que dans un très petit nombre de formes de très faible fréquence ! Mais une remarque sur ces fréquences: la proportion en formes ambiguës est la plus faible dans les verbes les plus fréquents (les auxiliaires, les semiauxiliaires, les verbes irréguliers (3' groupe); elle est la plus forte dans les conjugaisons régulières (1" et 2' groupes). Autre constatation utile: une bonne proportion des homographies verbales coïncide avec une homograpWe lexicale. Exemples: soit la forme entre, qui a 378 occurrences dans le corpus analysé par G. Engwall (nous en reparlerons) j il a fallu toutes les traiter en contexte pour les répartir entre la préposition (347) et le verbe (31); mais ces 31 entre représentent près de la moitié des formes de ce verbe qui appelaient un examen grammatical; la forme porte (345 occurrences) à 49 occurrences verbales, qui sont 80 % des formes ambignës du verbe porter; même proportion pour reste dont 114 occnrrences (snr 195) sont verbales. Une bonne partie de la tâche grammaticale pourrait donc, à peu de frais, être accomplie en même temps que la lemmatisation. L'indexation grammaticale des formes verbales n'est donc, par rapport à l'indexation lexicale, qu'un supplément modeste. Reste à s'interroger sur son utilité et sur sa fiabilité. Or) je crains que ces deux qualités n'aillent pas de pair. Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIV, 1 à 4, 1988. C.I.P.L. - Université de Liège - Tous droits réservés. 288 CHARLES MULLER Les réponses à la question posée par les 6 personnes verbales sont cl lune fiabilité excellente: les ambiguïtés graphiques n'existent qu'entre la 1ère et la 2e ou la 1ère et la 3e du singulier 1 et on ne voit guère de contextes qui laisseraient un doute j mais cette répartition des formes verbales ne révèle que des caractères stylistiques assez évidents par ailleurs (présence ou non du dialogue, tutoiement, ...) 1 qui sont aussi bien mis en lumière par une simple statistique des pronoms dits "de dialogue)). En revanche, la répartition des formes entre ce qu'on nomme les "temps" de la conjugaison (ce qui inclut les modes) se heurte à deux difficultés. La première est mineure: il est des cas où un examen du contexte ne réussit pas toujours à décider si un dit-il est un présent indicatif ou un passé simple, si un finissent est un présent ou un imparfait du subjonctif; il y a des doutes insolubles, mais quantitativement négligeables. Ce qui est plus sérieux, c'est le problème posé par les nombreuses formes composées avec l'auxiliaire être : "il est mort" est tantôt un présent, tantôt un passé composé i que l'on compare de même "le train est arrivé à l'heure)) (passé composé) et llie train est arrivé depuis dix minutes" (présent); et là les cas douteux sont nombreux. Cette difficulté n'affecte pas les modesj mais ou bien il faudra distinguer, pour toutes les formes du verbe être, entre les emplois auxiliaires et les emplois proprement verbaux (comme l'a ,fait A. Juilland), ou bien on renoncera à dénombrer les occurrences des temps composés. D'où une fiabilité discutable dans la première option, un résultat incomplet dans la seconde. On comprend donc que les index et les concordances dont nous disposons ne se soient guère engagés dans cette voie; les dépouillements qui portent sur des très vastes ensembles, comme ceux de Nancy et les publications d'Étienne Brunet, qui en sont issues, ne nous sont d'aucun secours pour tout ce qui dépasse le lexique. Le dictionnaire d'A. Juilland est le seul qui ait codé grammaticalement les formes verbales et réparti les fréquences entre les homographes j mais ce qui est publié ne couvre pas la totalité du corpus, ne permet pas de remonter aux contextes, et les données grammaticales ne sont pas regroupées. Quant aux relevés de G. Engwall, lemmatisés intégralement, ils distinguent bien toutes les formes verbales, mais sans résoudre les homographies j le listage inverse de toutes les formes permet certes d'isoler les formes bien caractérisées par leur désinence (futurs, conditionnels, subjonctifs imparfaits, ...); mais un classement complet exige le recours aux contextes, vocable par vocable, dans la concordance sur microfiches. Une thèse (non publiée) a tenté il y a une quinzaine d'années, d'extraire du dictionnaire de Juilland des données quantitatives sur les modes, les temps et les personnes des verbes. Son auteur, A. Lapierre, qui enseigne maintenant Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIV, 1 à 4, 1988. C.I.P.L. - Université de Liège - Tous droits réservés. FORM:ES VERBALES ET FRÉQUENCE 289 à l'Université d'Ottawa, a borné son relevé aux temps simples (impératif et formes nominales exclus), et sans y comprendre les verbes avoir et être. Ce sont les seules données, à ma connaissance, dont nous disposions actuellement. Elles montrent en tout cas de façon éloquente que les catégories verbales se distribuent de façon très irrégulière entre les types stylistiques qui constituent les cinq sous-corpus du F.D.F. W., ce qui confirmé leur intérêt pour l'analyse des œuvres littéraires. Ce qui paraît souhaitable et réalisable, c'est une indexation à la fois lexicale et grammaticale de corpus importants (de l'ordre du dellÙ-million ou du million d'occurrences), prélevés sur les enregistrements déjà existants (Nancy, ...), avec un maximum de données synthétiquesj en somme, la méthode de G. Engwall, avec un peu de grammaire en plus. Extrait de la Revue Informatique et Statistique dans les Sciences humaines XXIV, 1 à 4, 1988. C.I.P.L. - Université de Liège - Tous droits réservés.