12h-12h45 Max SILBERZTEIN (LASELDI- CNRS, Université de Franche-Comté) Analyse
automatique des constructions verbales « psychologiques » avec NooJ
Aujourd’hui, l’informatique peut apporter des outils précieux pour la linguistique. D’une part, les
linguistes peuvent formaliser à l’aide de dictionnaires et de grammaires « électroniques » des
phénomènes morphologiques, lexicaux ou syntaxiques ; d’autre part, l’ordinateur peut appliquer ces
formalisations à des corpus de taille importante (par exemple Internet) pour les valider, ou les
invalider.
Le logiciel INTEX (prédécesseur de NooJ) utilisait un ensemble de dictionnaires électroniques : le
système DELA qui avait été construit en formalisant les bases de données lexicales du LADL (cf.
Courtois, Silberztein éds, 1990). Il est important de savoir que les dictionnaires électroniques ont une
nature très différente des dictionnaires destinés à être utilisés par des humains (cf. Gross 1989). Par
exemple, la construction du dictionnaire électronique DELAC à partir d’un ensemble de listes de mots
composés avait fait l’objet d’un travail long et complexe (cf. Silberztein, 1993).
Le dictionnaire de verbes décrit dans (Dubois, Dubois-Charlier, 1997) est plus complexe que les
dictionnaires du LADL, tant du point de vue du nombre d’emplois distingués que du nombre de
propriétés explicitées. En revanche, ce dictionnaire a été construit pour être utilisé par des linguistes
humains, et n’est pas utilisable par des logiciels d’analyse automatique de textes. La formalisation de
ce dictionnaire, i.e. la reformulation des propriétés décrites, de façon à les rendre « traitables » par des
programmes d’analyse automatique tels que NooJ, présente donc des défis sérieux.
Nous comptons pour cette expérience pour tester la possibilité de formaliser ce dictionnaire, en nous
intéressant pour commencer aux verbes dits « psychologiques ». Dans cet extrait, les tables Pxx
représentent environ 800 emplois de verbes dits « psychologiques ». A partir de ces tables, nous avons
construit un « module NooJ » qui consiste en un ensemble de paires (dictionnaires électroniques,
grammaires électroniques) -- grosso modo, une paire par table -- ; chaque paire représente la
formalisation des propriétés d’un ensemble d’emplois homogènes. Les propriétés formalisées sont :
. des propriétés morphologiques : il s’agit de décrire la flexion de chaque verbe, mais aussi les
dérivations éventuelles (notamment l’adjectivation et la nominalisation de chaque verbe)
. des propriétés structurelles : il s’agit de décrire avec des grammaires NooJ l’ensemble représentatif
des structures de base qui caractérisent chaque emploi, par exemple N0 V N1, N0 se V, etc.
. des propriétés distributionnelles : il s’agit de décrire les distributions des actants pour chaque emploi,
par ex. N0=N+Hum ou N1=N-Hum
Le module ainsi formalisé peut alors être appliqué par NooJ à des textes de taille importante.
Dans un premier temps, NooJ peut alors être utilisé pour trouver des exemples d’emplois pour les
verbes décrits, ainsi que des contre-exemples (par exemple des occurrences qui sont en désaccord avec
les propriétés décrites) et des lacunes (par exemple des occurrences qui ne sont pas décrites). Ce type
d’expériences, classique de la linguistique de corpus, devrait permettre de vérifier, corriger et
améliorer les données du dictionnaire.
Dans un deuxième temps, NooJ peut être utilisé pour analyser les phrases reconnues, i.e. pour
sélectionner l’ensemble des emplois décrits dans le dictionnaire qui pourraient correspondre à chaque
occurrence. En tenant en compte le contexte syntaxique et distributionnel de chaque occurrence, on
devrait pouvoir lever des ambiguïtés sur ces emplois : par exemple, si dans le corpus une occurrence
du verbe « amuser » apparaît dans le contexte « Luc amuse Paul », on pourra invalider les entrées
lexicales strictement pronominales pour ce verbe : amuser3 (« Luc s’amuse à un jeu stupide »),
amuser4 (« ne t’amuse pas à ce jeu ») et amuser7 (« Luc s’est bien amusé pendant les vacances »)
pour ne garder que l’entrée amuser1 (« Luc amuse Paul avec qqchose »).
Références
Courtois B. & Silberztein M. (éds) (1990) Les dictionnaires électroniques, Langue française 87,
Larousse, Paris.
Dubois J. & Dubois-Charlier F. (1997) Les Verbes français, Larousse, Paris.
Gross M. (1989) « La construction de dictionnaires électroniques », Annales des télécommunications,
tome 44, CNET.