Extrait de la Revue Informatique et Statistique dans les Sciences humaines
XXIV, 1 à 4, 1988. C.I.P.L. - Université de Liège - Tous droits réservés.
Formes
verbales
et
fréquence
Charles
MULLER
Cette
réunion, comme les congrès de
Metz
(1983) ou
de
Nice (1985) montre
clairement que
l'analyse
quantitative
des
textes,
à
hase
cl
'informatique
et
de
statistique,
cherche à
étendre
son
champ
cl
'action,
à
ne
plus
se
borner
au
domaine lexical, qui avu ses premiers essais
et
ses succès les
plus
décisifs.
Ce qui nous
conduit
à
traiter
d'autres
unités
que le
lI
mo
f'
1plus larges ou
plus
étroites (moins faciles aussi àdélimiter),
et
à
admettre
que
le regroupement des
unités
en ensembles
paradigmatiques
peut,
lui aussi, envisager
d'autres
bases
que le "vocable
ll
ou le lemme.
Que le chercheur soit linguiste ou "littéraire",
il
ne
peut
guère éviter
de consulter les
documents
de base, s'ils
existent,
que sont les
index,
les
concordances, les dictionnaires
de
fréquence,
soit
pour
ychercher des données
quantitatives
de
référence, soit
pour
localiser les faits
de
langue
ou
les
thèmes
qui Pintéressent. J'envisage donc ici
avant
tout
les
index
et
concordances qui
portent
sur
des corpus
étendus,
et
qui
peuvent
ou
doivent
se
prêter
àdes
exploitations diverses, aussi ouvertes
que
possible.
L'époque
héroïque des dépouillements manuels
est
révolue; celle de
la
mécanographie (Besançon, Liège des années 50), qui nous a
montré
la
voie, a
pris
fin avec Pentrée en
jeu
de
Pordinateur,
de
plus
en plus accessible, qui
nous
fournit des
index
imprimés, des concordances (le plus
souvent
sur
microfiches),
des banques de données.
Ce que
Pordinateur
sait
le
mieux
faire,
c'est
d'enregistrer
fidèlement
la
suite
d'unités
graphiques (Umots") des
textes,
puis
de
redistribuer
ces
unités
suivant
un
ordre quelconque (ordre alphabétique, inverse,
par
longueur,
etc.),
fondé
sur
le seul
aspect
graphique. Mais ces
unités,
arrachées
au
contexte,
deviennent
ambiguës,
et
cela àplusieurs niveaux;
j'en
distinguerai
quatre:
un
niveau lexical:
la
forme
graphique
marche
peut
être
une
occurrence
du
verbe marcher
ou
un
nom
féminin;
Extrait de la Revue Informatique et Statistique dans les Sciences humaines
XXIV, 1 à 4, 1988. C.I.P.L. - Université de Liège - Tous droits réservés.
286
CHARLES
MULLER
un
niveau
sémantique:
le
nom
marche
peut
signifier
soit
un
objet
(la
partie
d'un
escalier),
soit
un
mouvement
C'pratiquer
la
marche))),
soit
encore
une
province frontalière
(cette
acception
étant
en
général
distinguée
au
IÙveau
lexical) ;
un
niveau grammatical:
la
forme verbale marche
peut
être
un
indicatif,
un
subjonctif
ou
un
impératif,
une
lèr\
une
2e
ou
une
ae
personnej
uu
niveau syntaxique: le
nom
marche,
ou
tout
autre
nom,
peut
être
sujet,
objet,
complément prépositionnel,
etc.
A
un
mot
du
texte,
on
peut
donc
attacher
une
ou plusieurs
informations
destinées àlever ces ambiguïtés. Mais,
pour
chacune
de ces
informations,
on
doit
s'interroger
sur
son
utilité,
sur
sa
fiabilité,
sur
son
coût.
Parlons d'abord du
coût:
il est maximal quand la levée de l'ambiguïté ne
peut
être
demandée
qu'à
une
lecture
humaine
du
contexte
jil
est
faible
quand
ce
résultat
peut
être
obtenu
par
un
traitement
informatique
valable
pour
un
grand
nombre de cas. Ainsi
toute
forme
immédiatement
précédée de il, je,
on,
se,
ne,
...
sera
reconnue
comme
verbale, ce qui lève
un
grand
nombre
d'ambiguïtés
lexicales
et
quelques
ambiguïtés
grammaticales
j
mais
aucun
programme
ne
saurait
résoudre
la
plupart
des
polyvalences
sémantiques.
La
fiabilité de
l'information
est
bonne
quand
le découpage lexical,
séman-
tique,
grammatical
ou
syntaxique
ne
rencontre
pas
de
cas
douteux,
ou
quand
ceux-ci
sont
très
exceptionnelsj
ainsi,
pour
considérer
qu'il
y a
deux
noms
féminins marche
et
qu'il
s'agit
-aussi bien
en
diachronie
qu'en
synchronie
-
d'homonymes,
l'avis
unanime
des
dictionnaires
nous suffit
et
on conçoit
difficilement un contexte (jeux de mots mis àpart) qui réunirait les deux ex-
ceptionsj
l'unité
lexicale qui
réunit
la
marche
d'escalier,la
marche
sportive,la
marche
funèbre
et
la
marche
d'une
entreprise
est
moins
évidente;
mais
toute
subdivision sémantique de cet ensemble lexical créera des cas douteux; fiabilité
réduite
des
comptages,
plusieurs
arbitres
n'arriveraient
pas
nécessairement
à
une
même
répartition.
Quant àl'utilité des distinctions, elle dépend évidemment de l'utilisation
projetée,
et
je
ne
tenterai
pas
de
l'analyser
j
en
gros, les
données
purement
lexicales semblent
prioritaires
jles classements
syntaxiques
sont
sans
doute
les
moins susceptibles
d'exploitation.
Mais
mon
intention
est
de
plaider
ici
pour
une
indexation
grammaticale,
et
plus
précisément
pour
l'identification
des formes
verbales
dans
les catégories
traditionnelles
de
la
personne,
du
temps,
du
mode.
C'est que
je
pose en principe que l'analyse stylistique
d'un
texte gagnerait à
ne
pas
borner
ses données
quantitatives
au
seul lexique,
et
que
le
maniement
par
l'écrivain des catégories verbales
mérite
une
attention
d'autant
plus
grande
qu'il constitue certainement un élément d'une grande mobilité, et qui fournit des
Extrait de la Revue Informatique et Statistique dans les Sciences humaines
XXIV, 1 à 4, 1988. C.I.P.L. - Université de Liège - Tous droits réservés.
FoID.'IES
VERBALES
ET
FRÉQUENCE
287
indications précieuses sur la composition de l'œuvre, sur sa structure stylistique
et
thématique.
On
souhaiterait donc des index la catégorisation lexicale des occurrences
se double, au moins pour les verbes, d'une sous-catégorisation grammaticale,
qui permettrait àl'usager de connaître non seulement la fréquence de chaque
verbe pris comme unité de lexique, mais celle des ensembles grammaticaux
constitués par la réunion de toutes les formes d'un même temps, d'un même
mode, d'une même personne. Tâche supplémentaire, dont il convient d'évaluer
le coût,
la
fiabilité
et
l'utilité.
Dans un article publié ailleurs, j'ai tenté un bilan des homographies
internes
du
verbe français; voici, en bref, le résultat de cet inventaire.
Sur les
51
formes simples (participes compris) que génère
la
"conjugaison"
d'un verbe français, 18 ne sont jamais ambiguësi4le sont dans tous les verbes,
mais pour
la
personne seulement; les 29 autres sont ambiguës dans un nombre
plus ou moins grand de verbes. Si l'on tient compte de la fréquence des formes
graphiques ambiguës, dont l'identification grammaticale exigerait un codage,
on peut l'estimer à20 %des occurrences verbales, soit 5%environ des mots
du texte. Au passage, jetons un regard d'envie sur ceux qui, comme Étienne
Évrard, travaillent sur une langue comme le latin classique, le verbe ne
connaît d'homographies internes que dans un très
petit
nombre de formes de
très faible fréquence !
Mais une remarque sur ces fréquences:
la
proportion en formes ambiguës
est
la
plus faible dans les verbes les plus fréquents (les auxiliaires, les semi-
auxiliaires, les verbes irréguliers
(3'
groupe); elle est
la
plus forte dans les
conjugaisons régulières
(1"
et
2'
groupes).
Autre constatation utile: une bonne proportion des homographies verbales
coïncide avec une homograpWe lexicale.
Exemples:
soit la forme entre, qui a
378 occurrences dans le corpus analysé par
G.
Engwall (nous en reparlerons) jil
afallu toutes les
traiter
en contexte pour les
répartir
entre
la
préposition (347)
et
le
verbe (31); mais ces
31
entre représententprès de
la
moitié des formes de ce
verbe qui appelaient un examen grammatical; la forme porte (345 occurrences)
à
49
occurrences verbales, qui sont 80 %des formes ambignës
du
verbe porter;
même proportion
pour
reste dont 114 occnrrences (snr 195) sont verbales.
Une bonne partie de
la
tâche grammaticale
pourrait
donc, à
peu
de frais, être
accomplie en même temps que
la
lemmatisation.
L'indexation grammaticale des formes verbales n'est donc, par rapport à
l'indexation lexicale, qu'un supplément modeste. Reste às'interroger sur son
utilité et sur sa fiabilité.
Or)
je
crains que ces deux qualités n'aillent pas de
pair.
Extrait de la Revue Informatique et Statistique dans les Sciences humaines
XXIV, 1 à 4, 1988. C.I.P.L. - Université de Liège - Tous droits réservés.
288
CHARLES
MULLER
Les réponses à
la
question posée
par
les 6personnes verbales
sont
cl
lune
fiabilité
excellente:
les ambiguïtés graphiques
n'existent
qu'entre
la
1
ère
et
la
2e
ou
la
1
ère
et
la
3e
du
singulier1
et
on
ne
voit guère
de
contextes qui
laisseraient un doute jmais
cette
répartition
des formes verbales
ne
révèle
que des caractères stylistiques assez évidents
par
ailleurs (présence
ou
non
du
dialogue, tutoiement,
...
)1qui
sont
aussi bien mis en lumière
par
une
simple
statistique
des pronoms
dits
"de dialogue)).
En
revanche,
la
répartition
des formes
entre
ce
qu'on
nomme
les "temps"
de la conjugaison (ce qui inclut les modes) se heurte àdeux difficultés.
La
première est
mineure:
il
est
des cas
un
examen
du
contexte
ne réussit
pas
toujours àdécider si
un
dit-il
est
un présent
indicatif
ou
un
passé simple,
si un finissent est un présent ou un
imparfait
du
subjonctif; il yades doutes
insolubles, mais
quantitativement
négligeables.
Ce qui est plus sérieux,
c'est
le problème posé
par
les nombreuses formes
composées avec l'auxiliaire être :"il
est
mort" est
tantôt
un
présent,
tantôt
un passé composéique
l'on
compare de même "le
train
est
arrivé àl'heure))
(passé composé)
et
llie
train
est
arrivé depuis dix minutes"
(présent);
et
les
cas
douteux
sont
nombreux.
Cette
difficulté n'affecte pas les
modesj
mais ou
bien il faudra distinguer,
pour
toutes les formes
du
verbe être,
entre
les emplois
auxiliaires et les emplois proprement verbaux (comme
l'a
,fait
A.
Juilland),
ou bien on renoncera àdénombrer les occurrences des
temps
composés.
D'où
une fiabilité discutable dans
la
première option, un résultat incomplet dans
la
seconde.
On
comprend donc
que
les index
et
les concordances
dont
nous disposons
ne se soient guère engagés
dans
cette
voie; les dépouillements qui
portent
sur
des très vastes ensembles, comme ceux de Nancy
et
les publications
d'Étienne
Brunet,
qui en sont issues, ne nous
sont
d'aucun
secours
pour
tout
ce qui dépasse
le lexique.
Le
dictionnaire d'A. Juilland est le seul qui
ait
codé grammaticale-
ment les formes verbales
et
réparti
les fréquences
entre
les homographesjmais
ce qui est publié ne couvre
pas
la
totalité
du
corpus, ne
permet
pas
de re-
monter
aux
contextes,
et
les données grammaticales
ne
sont
pas
regroupées.
Quant
aux
relevés de G. Engwall, lemmatisés intégralement, ils distinguent
bien
toutes
les formes verbales, mais
sans
résoudre les homographiesjle listage
inverse
de
toutes
les formes
permet
certes d'isoler les formes bien caractérisées
par
leur
désinence (futurs, conditionnels, subjonctifs imparfaits,
...
);
mais un
classement complet exige le recours
aux
contextes, vocable
par
vocable,
dans
la
concordance
sur
microfiches.
Une thèse (non publiée) atenté
il
yaune quinzaine d'années, d'extraire
du dictionnaire de Juilland des données quantitatives sur les modes, les temps
et
les personnes des verbes.
Son
auteur,
A. Lapierre, qui enseigne
maintenant
Extrait de la Revue Informatique et Statistique dans les Sciences humaines
XXIV, 1 à 4, 1988. C.I.P.L. - Université de Liège - Tous droits réservés.
FORM:ES
VERBALES
ET
FRÉQUENCE
289
àl'Université
d'Ottawa,
a
borné
son relevé
aux
temps
simples (impératif
et
formes nominales exclus),
et
sans ycomprendre les verbes avoir
et
être. Ce
sont les seules données, à
ma
connaissance,
dont
nous disposions actuellement.
Elles
montrent
en
tout
cas de façon éloquente que les catégories verbales se
distribuent
de
façon très irrégulière
entre
les types stylistiques qui constituent
les cinq sous-corpus
du
F.D.F.
W.,
ce qui confirmé leur
intérêt
pour
l'analyse
des œuvres littéraires.
Ce qui
paraît
souhaitable
et
réalisable, c'est une indexation à
la
fois lexicale
et
grammaticale de corpus
importants
(de l'ordre
du
dellÙ-million ou
du
million
d'occurrences), prélevés
sur
les enregistrements
déjà
existants (Nancy,
...
),
avec
un maximum de données synthétiquesj en somme,
la
méthode
de
G. Engwall,
avec
un
peu de grammaire en plus.
1 / 5 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !