Formes verbales et fréquence

Téléchargement

Extrait de la Revue Informatique et Statistique dans les Sciences humaines

Formes

verbales

fréquence

Charles

MULLER

Cette

réunion, comme les congrès de

Metz

(1983) ou

Nice (1985) montre

clairement que

l'analyse

quantitative

des

textes,

hase

'informatique

statistique,

cherche à

étendre

son

champ

'action,

plus

borner

domaine lexical, qui avu ses premiers essais

ses succès les

plus

décisifs.

Ce qui nous

conduit

traiter

d'autres

unités

que le

1plus larges ou

plus

étroites (moins faciles aussi àdélimiter),

admettre

que

le regroupement des

unités

en ensembles

paradigmatiques

peut,

lui aussi, envisager

d'autres

bases

que le "vocable

ou le lemme.

Que le chercheur soit linguiste ou "littéraire",

peut

guère éviter

de consulter les

documents

de base, s'ils

existent,

que sont les

index,

les

concordances, les dictionnaires

fréquence,

soit

pour

ychercher des données

quantitatives

référence, soit

pour

localiser les faits

langue

les

thèmes

qui Pintéressent. J'envisage donc ici

avant

tout

les

index

concordances qui

portent

sur

des corpus

étendus,

qui

peuvent

doivent

prêter

àdes

exploitations diverses, aussi ouvertes

que

possible.

L'époque

héroïque des dépouillements manuels

est

révolue; celle de

mécanographie (Besançon, Liège des années 50), qui nous a

montré

voie, a

pris

fin avec Pentrée en

jeu

Pordinateur,

plus

en plus accessible, qui

nous

fournit des

index

imprimés, des concordances (le plus

souvent

sur

microfiches),

des banques de données.

Ce que

Pordinateur

sait

mieux

faire,

c'est

d'enregistrer

fidèlement

suite

d'unités

graphiques (Umots") des

textes,

puis

redistribuer

ces

unités

ordre quelconque (ordre alphabétique, inverse,

par

longueur,

etc.),

fondé

sur

le seul

aspect

graphique. Mais ces

unités,

arrachées

contexte,

deviennent

ambiguës,

cela àplusieurs niveaux;

j'en

distinguerai

quatre:

niveau lexical:

forme

graphique

marche

peut

être

une

occurrence

verbe marcher

nom

féminin;

Extrait de la Revue Informatique et Statistique dans les Sciences humaines

286

CHARLES

MULLER

niveau

sémantique:

nom

marche

peut

signifier

soit

objet

(la

partie

d'un

escalier),

soit

mouvement

C'pratiquer

marche))),

soit

encore

une

province frontalière

(cette

acception

étant

général

distinguée

IÙveau

lexical) ;

niveau grammatical:

forme verbale marche

peut

être

indicatif,

subjonctif

impératif,

une

lèr\

une

personnej

niveau syntaxique: le

nom

marche,

tout

autre

nom,

peut

être

sujet,

objet,

complément prépositionnel,

etc.

mot

texte,

peut

donc

attacher

une

ou plusieurs

informations

destinées àlever ces ambiguïtés. Mais,

pour

chacune

de ces

informations,

doit

s'interroger

sur

son

utilité,

sur

fiabilité,

sur

son

coût.

Parlons d'abord du

coût:

il est maximal quand la levée de l'ambiguïté ne

peut

être

demandée

qu'à

une

lecture

humaine

contexte

jil

est

faible

quand

résultat

peut

être

obtenu

par

traitement

informatique

valable

pour

grand

nombre de cas. Ainsi

toute

forme

immédiatement

précédée de il, je,

on,

se,

ne,

...

sera

reconnue

comme

verbale, ce qui lève

grand

nombre

d'ambiguïtés

lexicales

quelques

ambiguïtés

grammaticales

mais

aucun

programme

saurait

résoudre

plupart

des

polyvalences

sémantiques.

fiabilité de

l'information

est

bonne

quand

le découpage lexical,

séman-

tique,

grammatical

syntaxique

rencontre

pas

cas

douteux,

quand

ceux-ci

sont

très

exceptionnelsj

ainsi,

pour

considérer

qu'il

y a

deux

noms

féminins marche

qu'il

s'agit

-aussi bien

diachronie

qu'en

synchronie

d'homonymes,

l'avis

unanime

des

dictionnaires

nous suffit

on conçoit

difficilement un contexte (jeux de mots mis àpart) qui réunirait les deux ex-

ceptionsj

l'unité

lexicale qui

réunit

marche

d'escalier,la

marche

sportive,la

marche

funèbre

marche

d'une

entreprise

est

moins

évidente;

mais

toute

subdivision sémantique de cet ensemble lexical créera des cas douteux; fiabilité

réduite

des

comptages,

où

plusieurs

arbitres

n'arriveraient

pas

nécessairement

une

même

répartition.

Quant àl'utilité des distinctions, elle dépend évidemment de l'utilisation

projetée,

tenterai

pas

l'analyser

gros, les

données

purement

lexicales semblent

prioritaires

jles classements

syntaxiques

sont

sans

doute

les

moins susceptibles

d'exploitation.

Mais

mon

intention

est

plaider

ici

pour

une

indexation

grammaticale,

plus

précisément

pour

l'identification

des formes

verbales

dans

les catégories

traditionnelles

personne,

temps,

mode.

C'est que

pose en principe que l'analyse stylistique

d'un

texte gagnerait à

pas

borner

ses données

quantitatives

seul lexique,

que

maniement

par

l'écrivain des catégories verbales

mérite

une

attention

d'autant

plus

grande

qu'il constitue certainement un élément d'une grande mobilité, et qui fournit des

Extrait de la Revue Informatique et Statistique dans les Sciences humaines

FoID.'IES

VERBALES

FRÉQUENCE

287

indications précieuses sur la composition de l'œuvre, sur sa structure stylistique

thématique.

souhaiterait donc des index où la catégorisation lexicale des occurrences

se double, au moins pour les verbes, d'une sous-catégorisation grammaticale,

qui permettrait àl'usager de connaître non seulement la fréquence de chaque

verbe pris comme unité de lexique, mais celle des ensembles grammaticaux

constitués par la réunion de toutes les formes d'un même temps, d'un même

mode, d'une même personne. Tâche supplémentaire, dont il convient d'évaluer

le coût,

fiabilité

l'utilité.

Dans un article publié ailleurs, j'ai tenté un bilan des homographies

internes

verbe français; voici, en bref, le résultat de cet inventaire.

Sur les

formes simples (participes compris) que génère

"conjugaison"

d'un verbe français, 18 ne sont jamais ambiguësi4le sont dans tous les verbes,

mais pour

personne seulement; les 29 autres sont ambiguës dans un nombre

plus ou moins grand de verbes. Si l'on tient compte de la fréquence des formes

graphiques ambiguës, dont l'identification grammaticale exigerait un codage,

on peut l'estimer à20 %des occurrences verbales, soit 5%environ des mots

du texte. Au passage, jetons un regard d'envie sur ceux qui, comme Étienne

Évrard, travaillent sur une langue comme le latin classique, où le verbe ne

connaît d'homographies internes que dans un très

petit

nombre de formes de

très faible fréquence !

Mais une remarque sur ces fréquences:

proportion en formes ambiguës

est

plus faible dans les verbes les plus fréquents (les auxiliaires, les semi-

auxiliaires, les verbes irréguliers

(3'

groupe); elle est

plus forte dans les

conjugaisons régulières

(1"

groupes).

Autre constatation utile: une bonne proportion des homographies verbales

coïncide avec une homograpWe lexicale.

Exemples:

soit la forme entre, qui a

378 occurrences dans le corpus analysé par

Engwall (nous en reparlerons) jil

afallu toutes les

traiter

en contexte pour les

répartir

entre

préposition (347)

verbe (31); mais ces

entre représententprès de

moitié des formes de ce

verbe qui appelaient un examen grammatical; la forme porte (345 occurrences)

occurrences verbales, qui sont 80 %des formes ambignës

verbe porter;

même proportion

pour

reste dont 114 occnrrences (snr 195) sont verbales.

Une bonne partie de

tâche grammaticale

pourrait

donc, à

peu

de frais, être

accomplie en même temps que

lemmatisation.

L'indexation grammaticale des formes verbales n'est donc, par rapport à

l'indexation lexicale, qu'un supplément modeste. Reste às'interroger sur son

utilité et sur sa fiabilité.

Or)

crains que ces deux qualités n'aillent pas de

pair.

Extrait de la Revue Informatique et Statistique dans les Sciences humaines

288

CHARLES

MULLER

Les réponses à

question posée

par

les 6personnes verbales

sont

lune

fiabilité

excellente:

les ambiguïtés graphiques

n'existent

qu'entre

ère

singulier1

voit guère

contextes qui

laisseraient un doute jmais

cette

répartition

des formes verbales

révèle

que des caractères stylistiques assez évidents

par

ailleurs (présence

non

dialogue, tutoiement,

...

)1qui

sont

aussi bien mis en lumière

par

une

simple

statistique

des pronoms

dits

"de dialogue)).

revanche,

répartition

des formes

entre

qu'on

nomme

les "temps"

de la conjugaison (ce qui inclut les modes) se heurte àdeux difficultés.

première est

mineure:

est

des cas où

examen

contexte

ne réussit

pas

toujours àdécider si

dit-il

est

un présent

indicatif

passé simple,

si un finissent est un présent ou un

imparfait

subjonctif; il yades doutes

insolubles, mais

quantitativement

négligeables.

Ce qui est plus sérieux,

c'est

le problème posé

par

les nombreuses formes

composées avec l'auxiliaire être :"il

est

mort" est

tantôt

présent,

tantôt

un passé composéique

l'on

compare de même "le

train

est

arrivé àl'heure))

(passé composé)

llie

train

est

arrivé depuis dix minutes"

(présent);

là

les

cas

douteux

sont

nombreux.

Cette

difficulté n'affecte pas les

modesj

mais ou

bien il faudra distinguer,

pour

toutes les formes

verbe être,

entre

les emplois

auxiliaires et les emplois proprement verbaux (comme

l'a

,fait

Juilland),

ou bien on renoncera àdénombrer les occurrences des

temps

composés.

D'où

une fiabilité discutable dans

première option, un résultat incomplet dans

seconde.

comprend donc

que

les index

les concordances

dont

nous disposons

ne se soient guère engagés

dans

cette

voie; les dépouillements qui

portent

sur

des très vastes ensembles, comme ceux de Nancy

les publications

d'Étienne

Brunet,

qui en sont issues, ne nous

sont

d'aucun

secours

pour

tout

ce qui dépasse

le lexique.

dictionnaire d'A. Juilland est le seul qui

ait

codé grammaticale-

ment les formes verbales

réparti

les fréquences

entre

les homographesjmais

ce qui est publié ne couvre

pas

totalité

corpus, ne

permet

pas

de re-

monter

aux

contextes,

les données grammaticales

sont

pas

regroupées.

Quant

aux

relevés de G. Engwall, lemmatisés intégralement, ils distinguent

bien

toutes

les formes verbales, mais

sans

résoudre les homographiesjle listage

inverse

toutes

les formes

permet

certes d'isoler les formes bien caractérisées

par

leur

désinence (futurs, conditionnels, subjonctifs imparfaits,

...

);

mais un

classement complet exige le recours

aux

contextes, vocable

par

vocable,

dans

concordance

sur

microfiches.

Une thèse (non publiée) atenté

yaune quinzaine d'années, d'extraire

du dictionnaire de Juilland des données quantitatives sur les modes, les temps

les personnes des verbes.

Son

auteur,

A. Lapierre, qui enseigne

maintenant

Extrait de la Revue Informatique et Statistique dans les Sciences humaines

FORM:ES

VERBALES

FRÉQUENCE

289

àl'Université

d'Ottawa,

borné

son relevé

aux

temps

simples (impératif

formes nominales exclus),

sans ycomprendre les verbes avoir

être. Ce

sont les seules données, à

connaissance,

dont

nous disposions actuellement.

Elles

montrent

tout

cas de façon éloquente que les catégories verbales se

distribuent

façon très irrégulière

entre

les types stylistiques qui constituent

les cinq sous-corpus

F.D.F.

W.,

ce qui confirmé leur

intérêt

pour

l'analyse

des œuvres littéraires.

Ce qui

paraît

souhaitable

réalisable, c'est une indexation à

fois lexicale

grammaticale de corpus

importants

(de l'ordre

dellÙ-million ou

million

d'occurrences), prélevés

sur

les enregistrements

déjà

existants (Nancy,

...

avec

un maximum de données synthétiquesj en somme,

méthode

G. Engwall,

avec

peu de grammaire en plus.

1 / 5 100%

Documents connexes

Mon livret d’outils pour écrire

Séquence : Le futur

Français - Instit.free

ont des verbes très compliqués, mais très fréquents et donc bien

Les phrases verbales et non verbales. La phrase verbale est formée

Le verbe être au présent de l`indicatif

passé composé check-in

Capsule octobre 2010_Il me fait plaisir_version courte

Exercices de vocabulaire : Verbes et noms

Les 3 groupes de verbe.

7 Familles grammaire

L`analyse grammaticale Les mots sont classés selon leur nature (ou

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Formes verbales et fréquence

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Formes verbales et fréquence

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib