green final afisa - Institut d`électronique et d`informatique Gaspard

publicité
Département d'Etudes françaises et de Langues vivantes
Department of French Studies and Modern Languages
COLLOQUE INTERNATIONAL
LEXIQUE ET G R A M M A I R E
INTERNATIONAL CONFERENCE
LEXIS AND G R A M M A R
Conférenciers
Invités
2011
5-8
Keynote
Speakers
Georges Kleiber (Strasbourg)
Octobre/October
Margarita Alonso Ramos (Coruña)
Raffaele Simone (Rome 3)
Comité
d'Organisation
Organising
Committee
Fryni Kakoyianni-Doa (Cyprus)
Matthieu Constant (Paris-Est Marne-la-Vallée)
.
Université de Chypre
Salle de Conférences
75, rue Kallipoleos
Nicosie
University of Cyprus
Conference Room
75, Kallipoleos Street
Nicosia
Sébastien Paumier (Paris-Est Marne-la-Vallée)
Partners
www.lexisgrammar.ucy.ac.cy
Partenaires
Sponsors
Secrétariat du Colloque Conference Secretary
Thekla Constantinou (Cyprus)
design by Andri Nikiforou
Table des Matières / Table of Contents
Conférence plénière / Keynote Address
Kleiber Georges
ÉNONCIATION ET ESPACE : LE CAS D’ICI ..................................................................... 1
Alonso Ramos Margarita
STRUCTURE ARGUMENTALE ET COLLOCATIONS VERBALES .............................. 7
Simone Raffaele
DISCOURSE OPERATIONS .................................................................................................... 11
Abeillé Anne, Vivès Robert
LES CONSTRUCTIONS À VERBE SUPPORT DANS LA GRANDE GRAMMAIRE
DU FRANÇAIS ........................................................................................................................... 13
Andriamise Lakoarisoa, Ranaivoson Jeannot Fils, Rakotoalison Sylvie Fanjanirina
LES LOCUTIONS SUPPORTS EN MALGACHE : LE CAS DE MISY AZY ................... 21
Bloch-Trojnar Maria
MORPHOSYNTACTIC AND ASPECTUAL CHARACTERISTICS OF
PREDICATIVE VERBAL NOUNS IN LVCS IN IRISH ...................................................... 29
Botouhely Jean Lewis, Ralalaoherivony Baholisoa Simone
LES ADJECTIFS DE PROPRIÉTÉ HUMAINE DU PARLER (MALGACHE) DU
NORD : ACTUALISATION ET ASPECTS ............................................................................ 37
Brugman C.,Conners T., David A., Gnanadesikan A.
BEYOND ASPECT: THE PARTICIPANT IN SOUTH ASIAN LVCS................................ 45
Constant Matthieu, Dister Anne et Nakamura Takuya
DE LA LIBERTÉ COMBINATOIRE AU FIGEMENT.
LE VERBE FAIRE DANS UN CORPUS DE FRANÇAIS PARLÉ ...................................... 53
D’Agostino Emilio
À PROPOS DES NOMS SUPPORTS ET PRÉDICATS ET DES OPÉRATEURS
DISCURSIFS ............................................................................................................................... 61
Edoardo Lombardi Vallauri
LEXICALIZATION OF JAPANESE LIGHGT VERB CONSTRUCTIONS
BETWEEN MORPHOLOGY AND SYNTAX ........................................................................ 67
i
Elia Annibale, Marano Federica, Monteleone Mario, Monti Johanna, Napoli
Antonella, Vellutino Daniela
LINGUISTICALLY MOTIVATED KNOWLEDGE MANAGEMENT:
EXPLOITATION OF LANGUAGE RESOURCES FOR NLP APPLICATIONS.............. 75
Elia Annibale
ON LEXICAL, SEMANTIC AND SYNTACTIC GRANULARITY OF ITALIAN
VERBS ......................................................................................................................................... 83
Fista Evangelia, Kyriacopoulou Tita, Tziafa Eleni
LES NOMS PRÉDICATIFS DANS LA LANGUE SPÉCIALISÉE DE LA BOURSE ....... 91
Foufi Vassiliki
LES NOMS COMPOSÉS A(A)N DU GREC MODERNE ET LEURS VARIANTES ........ 99
Garcia-Vega Michelle, Machonis A. Peter
THE SUPPORT VERB TAKE ................................................................................................... 107
Garnier-Oeliarisoa Dina, Battistelli Delphine, Minel Jean-Luc
VERS L'ANNOTATION AUTOMATIQUE DES NOMS PRÉDICATIFS
D'ÉVÉNEMENTS MÉDIATIQUES ......................................................................................... 115
Geierhos Michaela
TOWARDS A LOCAL GRAMMAR-BASED PERSONDATA GENERATOR FOR
WIKIPEDIA BIOGRAPHIES ................................................................................................... 123
Ioannidou Kyriaki, Tolone Elsa
CONSTRUCTION DU LEXIQUE LGLEX À PARTIR DES TABLES DU LEXIQUEGRAMMAIRE DES VERBES DU GREC MODERNE ......................................................... 131
Khemakhem Aïda, Gargouri Bilel, Hammadou Abdelmajid Ben
MODÉLISATION SYNTAXICO-SÉMANTIQUE NORMALISÉE POUR LA
LANGUE ARABE ...................................................................................................................... 139
Kyriacopoulou Tita, Martineau Claude, Mavropoulos Thanassis
LES NOMS PROPRES EN FRANÇAIS ET GREC : RECONNAISSANCE,
EXTRACTION ET ENRICHISSEMENT DE DICTIONNAIRES ....................................... 147
Lim Joon Seo
UNE ÉTUDE SUR LA DESCRIPTION LEXICO-SYNTAXIQUE DU VERBE
DOEDA EN CORÉEN ................................................................................................................ 155
Marque-Pucheu Christiane
POUR UNE GRAMMAIRE LOCALE DES VERBES INTRODUCTEURS
D’EXCLAMATIVE INDIRECTE ............................................................................................ 163
ii
Martineau Claude, Voyatzi Stavroula
CONSTRUCTION DES RESSOURCES POUR LA DÉTECTION D’OPINIONS ET
L’ANALYSE DE SENTIMENTS : ATTRIBUTION DE POLARITÉ ET CALCUL
INCRÉMENTAL DE L’ INTENSITÉ ...................................................................................... 171
Márton Náray-Szabó
LES CONSTRUCTIONS À VERBE SUPPORT ET L’AFFIXATION EN
HONGROIS................................................................................................................................. 179
Mirto Mauro Ignazio
METAPHORICAL VS. LITERAL: NOTES ON THE ITALIAN VERB STRAPPARE .... 187
Monville-Burston Monique, Kakoyianni-Doa Fryni
PRÉPOSITIONS /CONJONCTIONS TEMPORELLES AVEC ORIENTATION
PROSPECTIVE : JUSQUE/UNTIL/MECHRI......................................................................... 195
Nguyen Tien Van, Gaio Mauro
UTILISATION DE LA RELATION « VERBE – PRÉPOSITION – TOPONYME »
POUR UN INVENTAIRE LEXICAL AUTOMATIQUE ...................................................... 203
Paumier Sébastien, Nam Jeesun
UN SYSTÈME DE DICTIONNAIRE DE MOTS SIMPLES DU CORÉEN ........................ 211
Piot Mireille
SYNTAXE VS PHONOLOGIE DANS LA FORMATION DU SYSTÈME ROMAN
DES CONJONCTIONS DE SUBORDINATION :
LA QUESTION DES ORIGINES DES COMME ET DE LEURS ÉQUIVALENTS
ROMANS ..................................................................................................................................... 219
Ranaivoson Jeannot Fils, Andriamise Lakoarisoa
LES VALEURS SÉMANTIQUES DES SUPPORTS EN MALGACHE .............................. 227
Ronan Patricia
FUNCTIONS OF SUPPORT VERB CONSTRUCTIONS IN EARLY ENGLISH ............. 235
Samvelian Pollet, Danlos Laurence, Sagot Benoît
ON THE PREDICTABILITY OF LIGHT VERBS ................................................................ 243
Schneider Gerold
USING AUTOMATICALLY PARSED CORPORA TO DISCOVER LEXICOGRAMMATICAL FEATURES OF ENGLISH VARIETIES ............................................... 251
Sigogne Anthony, Constant Matthieu, Laporte Éric
INTÉGRATION DES DONNÉES D’UN LEXIQUE SYNTAXIQUE DANS UN
ANALYSEUR SYNTAXIQUE PROBABILISTE.................................................................... 259
iii
Tolone Elsa, La Clergerie Éric, Sagot Benoît
ÉVALUATION DE LEXIQUES SYNTAXIQUES PAR LEUR INTÉGRATION
DANS L'ANALYSEUR SYNTAXIQUE FRMG ..................................................................... 267
Tovena M. Lucia, Colinet Margot
ARGUMENTS OF DEADJECTIVAL VERBS AND FACETS OF ADJECTIVAL
BASES .......................................................................................................................................... 275
Ulland Harald
LOOKING FOR SEMANTICALLY EMPTY SUPPORT VERBS:
THE CASE OF THE VERBS FORETA AND UTFØRE IN NORWEGIAN ........................ 283
Valetopoulos Freiderikos, Lamprou Efi
LES VERBES SUPPORTS DES NOMS DE SENTIMENTS EN GREC MODERNE :
NOUVEL ÉTAT DES LIEUX ................................................................................................... 291
Varga Lidia
VERBE SUPPORT ET NOMS PRÉDICATIFS À L’ACCUSATIF DU HONGROIS ........ 299
Vetulani Zygmunt, Vetulani Grażyna
THROUGH WORDNET TO LEXICON GRAMMAR .......................................................... 307
Walther Géraldine, Sagot Benoît
PROBLÈMES D’INTÉGRATION MORPHOLOGIQUE D’EMPRUNTS
D’ORIGINE ANGLAISE EN FRANÇAIS .............................................................................. 315
iv
Kleiber Georges
Université de Strasbourg
[email protected]
ENONCIATION ET ESPACE : LE CAS D’ICI
Introduction
Nous nous proposons … « ici » d’aborder l’adverbe spatial ici de manière inhabituelle. Non pas
en en donnant une définition générale que viendraient conforter ensuite deux ou trois exemples
authentiques ou attestés particulièrement bien choisis, mais en « décortiquant » à fond un
exemple précis pour montrer, de manière explicite, comment il fonctionne réellement, c’est-àdire comment en partant de l’occurrence d’ici analysée on est finalement conduit au lieu visé par
l’adverbe. Notre objectif sera de mettre en lumière les différentes étapes du processus référentiel
accompli par ici et de montrer ainsi la complexité réelle de son fonctionnement.
Les raisons de notre choix sont claires. Comme nous l’avons montré ailleurs (Kleiber, 2008 et
2010), les approches classiques d’ici se contentent le plus souvent d’indiquer qu’ici renvoie au
lieu où se trouve le locuteur ou qu’il marque le lieu d’énonciation de l’occurrence, ou, en termes
de distance, qu’il marque un lieu proche du locuteur, ou encore, en termes non spatiaux, qu’il
correspond à l’engagement du locuteur (Smith, 1992). Ce faisant, elles pensent que l’affaire est
pliée et en restent généralement là1. Or, il suffit de mettre à l’épreuve leurs définitions pour
s’apercevoir qu’elles présentent deux défauts majeurs.
Le premier est qu’elles ne conviennent chacune qu’à un type d’emploi d’ici. Elles sont toutes
monofonctionnelles en ce qu’elles attribuent à ici un sens déterminé quant au type de lieu dénoté,
alors qu’une des caractéristiques principales d’ici est d’être de ce point de vue-là sous-déterminé
ou sous-spécifié. Il peut renvoyer certes au lieu où se trouve le locuteur, mais il peut aussi
dénoter un lieu proche du locuteur ou encore le lieu délimité par sa propre occurrence ou par un
geste du locuteur, etc. Il apparaît sous-déterminé par rapport à ces différentes spécifications. Ce
qui est commun à tous ses emplois, c’est qu’il renvoie à son référent spatial par l’intermédiaire
d’éléments reliés spatio-temporellement à son occurrence2. Autrement dit, pour trouver le lieu
visé, il faut partir de l’occurrence même d’ici et identifier les éléments intermédiaires contigus
qui conduisent à ce lieu, ces éléments pouvant varier selon le type d’emploi réalisé.
Le second défaut est que, même dans le cas des emplois qui leur sont favorables, les
approches classiques n’explicitent pas entièrement comment s’effectue la « trouvaille » du lieu
auquel renvoie ici. Dire qu’ici renvoie au lieu où se trouve le locuteur ne permet pas de rendre
compte de la différence de lieu dénoté dans les deux exemples suivants :
(1) Ici on travaille dur (un ouvrier en parlant de son usine)
(2) Viens ici ! (un père à son fils)
Même si dans les deux cas il s’agit bien du lieu où se trouve le locuteur, ce lieu n’est pas du
même type : dans le premier énoncé, il s’agit d’un lieu englobant, qui n’est pas délimité par le
locuteur, mais dans lequel se trouve le locuteur, alors que dans le second, le lieu visé est celui
1
Voir par exemple le peu de place qu’occupent les adverbes spatiaux dans Borillo
(1998).
2
Dans la littérature spécialisée, on parle de token-réflexivité ou de réflexif
d’emploi. On peut aussi utiliser le terme de symbole indexical.
1
même déterminé par la position précise du locuteur. D’où la nécessité de mettre la main à la pâte
et de voir en détails et sur pièce comment « roule » réellement l’adverbe spatial ici.
La « pièce » choisie sera l’énoncé :
(3) Il fait chaud ici (un professeur à ses étudiants dans la salle de cours)
qui nous a servi tout au long de notre parcours dans le domaine de la deixis spatiale3 et que nous
avons choisi, parce qu’apparemment il ne pose aucune difficulté d’analyse. Nous exposerons
d’abord le problème que pose le calcul de la référence d’ici. Nous rechercherons ensuite quels
sont les éléments spatio-temporellement contigus qui mènent au référent et décrirons en dernier
comment se fait le choix du lieu pertinent.
1. Le problème posé : comment arriver d’ici à la salle de cours ?
Nous admettrons que, dans (3), le lieu visé est bien la salle dans laquelle fait cours l’enseignant.
On admettra aussi que, par la partie symbolique de son sens, ici restreint le référent à être un lieu
(une portion d’espace). Il reste donc à trouver le lieu en question et ceci en se conformant à
l’instruction déictique sous-déterminée véhiculée par ici, qui stipule que le lieu visé doit être
trouvé par l’intermédiaire d’éléments spatio-temporellement reliés à l’occurrence même d’ici.
Si l’on considère que l’occurrence d’ici dans la situation envisagée est une entité sonore, non
spatiale donc, mais temporelle et en conséquence unidimensionnelle, et que le lieu visé (la salle
de cours) est une entité spatiale tridimensionnelle, on voit quel est le problème posé : il faut
pouvoir expliquer par quel moyen spatio-temporel l’entité spatiale tridimensionnelle qu’est la
salle de cours est reliée à l’occurrence temporelle unidimensionnelle ici. Comment passe-t-on
d’une entité non spatiale, temporelle, à une entité spatiale non temporelle ? Bref, quel est
l’élément intermédiaire contigu à l’occurrence d’ici de (3) qui permet d’atteindre la salle de
cours? On notera que cet élément intermédiaire doit être une interface telle qu’elle puisse relier
du temporel (unidimensionnel) à du spatial.
2. L’endroit où est prononcée l’occurrence d’ici ?
On peut tout d’abord penser que cet élément intermédiaire est le lieu où est prononcée
l’occurrence d’ici (Perret, 1991). Une occurrence se produisant dans un lieu, ce lieu est en
relation spatiale avec cette occurrence et le passage de l’occurrence d’ici à la salle de cours peut
par conséquent s’appuyer sur ce lien spatial : il suffit en effet de voir quel est le lieu où est
prononcée l’occurrence d’ici pour aboutir dans la situation analysée à la salle de cours.
Cette solution a donc incontestablement de quoi séduire. Malheureusement, une étape du
raisonnement sur lequel elle est construite s’avère erronée, celle qui postule que l’entité
temporelle (unidimensionnelle) qu’est l’occurrence orale d’ici est reliée directement à une entité
spatiale, tridimensionnelle, le lieu d’énonciation (la salle de cours). Une telle relation n’est
évidemment pas possible : il n’y a pas de lien immédiat possible entre une entité temporelle, qui
n’occupe pas d’espace, et une entité spatiale tridimensionnelle. Dit autrement, on ne peut passer
sans intermédiaire, de l’occurrence orale d’ici à un lieu ou endroit qui est une entité spatiale
tridimensionnelle. Le statut temporel d’une occurrence orale ne lui permet pas, en effet, d’entrer
directement en contact avec un lieu. Il faut une autre interface qui, comme nous l’avons dit cidessus, soit reliée à l’occurrence temporelle d’ici et à l’espace tridimensionnel de la salle de
cours.
3
Voir Kleiber (2008 et 2010) dont nous reprenons ici certains développements.
2
La dépendance ontologique des événements vis-à-vis des entités matérielles montre que
l’élément intermédiaire, donc l’interface pertinente, à prendre en considération est ici le locuteur
(ou l’interlocuteur).
3. L’endroit où se trouve le locuteur de l’occurrence d’ici
C’est en effet le locuteur qui assure le lien spatio-temporel entre l’occurrence d’ici et le lieu
dénoté. Il peut remplir le rôle d’interface entre ces deux entités dans la mesure où il est à la fois
une entité temporelle et une entité matérielle, tridimensionnelle, qui occupe une portion d’espace.
Comme il est dans une relation causale avec l’occurrence d’ici — c’est lui qui l’a prononcée —
et comme il est une entité spatiale, il constitue l’élément contigu à l’occurrence d’ici qui est
nécessaire pour assurer le passage d’ici à un lieu.
Quel est ce lieu ou cet endroit ? En tant qu’entité matérielle, le locuteur occupe, nous l’avons
dit, une certaine partie de l’espace et peut donc servir d’élément pour référer à l’endroit où il se
trouve. L’intéressant, c’est qu’il occupe, comme nous l’avons déjà vu avec (1) et (2) ci-dessus, en
fait deux endroits ou deux positions en même temps accessibles à l’aide d’ici. Ou, dit autrement,
il y a deux façons de comprendre l’endroit où se trouve le locuteur dénoté par ici :
(i) le locuteur détermine comme lieu la portion d’espace qu’il occupe
(ii) le locuteur détermine un lieu déjà constitué en lieu
Il y a, en effet, d’une part l’endroit précis délimité par la position exacte de son corps. Cet
endroit change donc avec chaque déplacement du corps. Il y a d’autre part aussi le ou les lieux
englobants ou incluants, qui contiennent en quelque sorte le locuteur. La position exacte
qu’occupe le corps à l’intérieur de ces espaces inclusifs n’est cette fois-ci plus pertinente : le
locuteur peut y changer de place sans pour autant changer de lieu. Ce n’est en effet plus le
locuteur qui détermine avec son corps le lieu, mais c’est le lieu englobant qui permet de le
repérer (cf. je suis en France/ à Strasbourg/ dans la cuisine, etc.).
Le test du déplacement révèle clairement quel lieu est pertinent pour Il fait chaud ici. Il s’agit
d’un espace inclusif. Le professeur peut être au tableau ou au fond de la salle au moment où il
prononce son énoncé : ici continue de renvoyer à la salle de cours. Il n’en va pas de même avec
notre deuxième type d’emploi d’ici :
(2) Viens ici !
Là, c’est la position exacte du corps qui s’avère décisive : si le locuteur se déplace du tableau
vers le fond de la salle, le lieu auquel renvoie ici changera avec le déplacement.
On est à présent en mesure de compléter la chaîne référentielle indexicale qui mène de
l’occurrence temporelle d’ici à l’entité spatiale non temporelle tridimensionnelle qu’est la salle
de cours. Il faut ajouter à notre résultat précédent que l’endroit où se trouve le locuteur est un
lieu inclusif : ici renvoie à la salle de cours en tant qu’elle est un lieu qui contient le locuteur.
L’enquête n’est pas close pour autant. Il s’agit encore de préciser le statut de ces lieux
englobants. Comme ce n’est pas la position exacte du corps qui délimite le lieu et qu’ici ne
comporte aucune indication sur son extension, il faut qu’il soit en quelque sorte déjà constitué
comme lieu. Il n’y a en effet aucun autre moyen pour tracer un tel lieu que la connaissance a
priori sur ce qui est un lieu inclusif. Tout espace qui englobe le locuteur ne saurait ainsi, comme
l’a souligné Klein (1982 : 165), devenir un lieu pertinent pour ici : «It is very unlikely that a
particular here will be used to refer to a chair (with speaker) ant the surrounding space at an
exact distance of 69.3 cm, or to the room and the two adjacent rooms...». Même s’il fait aussi
chaud dans le couloir que dans la salle de cours, ici ne saurait dans notre exemple-fil rouge
3
renvoyer à l’ensemble inclusif formé par la salle de cours et le couloir, parce qu’un tel ensemble
n’est pas reconnu comme une unité englobante.
On ne peut en conséquence tracer sans plus des cercles concentriques autour du locuteur pour
marquer l’aire d’application d’un ici inclusif : seuls les ensembles englobants qui sont déjà ou
qui peuvent être reconnus comme lieux englobants, de façon stéréotypique ou situationnelle,
peuvent être retenus comme candidats éventuels. Nos connaissances sur le monde et des
phénomènes de perception entrent ici en ligne de compte et montrent que la question est d’ordre
cognitif : toute portion d’espace n’est pas reconnue ou appréhendée comme lieu.
4. La détermination du lieu englobant pertinent ?
L’élimination des portions d’espace englobantes non pertinentes au moyen de la contrainte
cognitive de lieu inclusif n’aboutit pas à l’univocité : si tout espace autour d’un locuteur ne peut
convenir, il y a tout de même, nous l’avons vu, plus d’un lieu englobant possible. Pourquoi, dans
le contexte imaginé pour Il fait chaud ici, est-ce alors plutôt la salle de cours qui est retenue que
le fond de la salle, ou l’Université, ou encore la ville dans laquelle se trouve l’Université, etc. ?
L’équivoque n’est pas impensable, même si dans la majorité des cas elle ne se produit pas. Une
histoire de contrôleurs de train helvétiques illustre plaisamment la question : pour apprendre le
métier à un jeune collègue qui le remplacera, un contrôleur proche de la retraite lui enseigne de
répéter ses gestes et ses paroles lors du trajet Yverdon-Neuchâtel qu’ils effectueront ensemble,
l’apprenti en queue de train et le “maître” en tête. Lorsque le train arrive en gare de Neuchâtel, le
contrôleur aîné ouvre la portière du premier wagon et d’une voix assurée par l’expérience et la
compétence lance un tonitruant :
(4) Ici, Neuchâtel !
Lui répond alors en écho dans le dernier wagon le jeune contrôleur avec un tout aussi
tonitruant :
(5) Ici aussi !
.On laisse au lecteur le soin de démonter le mécanisme, plus complexe qu’il n’y paraît, de
l’équivoque spatiale sur laquelle est construite cette hélvétique histoire ferroviaire.
L’important pour notre propos est d’apporter des éléments de réponse à la question
qu’elle illustre : comment se fait le choix du lieu englobant pertinent ? Le point à ne pas perdre
de vue est que l’élément intermédiaire, à savoir le locuteur, ne donne pas le lieu directement luimême. C’est un endroit englobant dans lequel se trouve le locuteur, nous l’avons vu, mais
comme il n’y en a pas qu’un de possible, celui qui se trouve être le bon n’est pas pointé par le
locuteur. Autrement dit, l’attention de l’interlocuteur n’est pas dirigée sur le lieu en question,
comme elle l’est avec un ici gestuel, par exemple. C’est l’interlocuteur qui doit l’inférer à partir
des différentes connaissances présumées partagées ou manifestes dans la situation d’énonciation.
C’est dire que le lieu en question est présumé être accessible à l’interlocuteur à partir de
l’élément intermédiaire qu’est le locuteur et à partir des autres informations contextuelles.
La preuve en est que dans l’hypothèse où le locuteur estime que l’interlocuteur ne peut
accéder à l’interprétation spatiale pertinente de l’endroit où se trouve le locuteur, il fait suivre son
ici englobant d’une apposition identifiante qui lève toute ambiguïté :
(6) Ici, à Pfaffenheim / dans le vignoble/ dans le Haut-Rhin/ en Alsace, le
Gewürztraminer se boit comme du petit lait
Dans la plus grande partie des cas, le locuteur présume que le lieu en question est accessible,
c’est-à-dire que l’interlocuteur dispose des moyens nécessaires pour accéder à la bonne
4
interprétation et qu’il saura reconnaître, en somme, parmi les lieux potentiels, lequel est le bon
endroit. C’est ici qu’on peut faire jouer des théories interprétatives comme la théorie de la
pertinence de Sperber et Wilson (1986) pour modéliser le mécanisme de sélection de la bonne
interprétation.
Deux facteurs, dont le premier n’est en fait qu’un élément du second, nous semblent
primordiaux dans la stratégie de recouvrement du lieu pertinent :
a) la connaissance qu’a l’interlocuteur de la situation ou position du locuteur au moment
où il prononce l’occurrence d’ici ;
b) le contexte sur lequel s’appuie l’énonciation de la phrase comportant ici.
Le premier facteur n’est que la conséquence de la nécessité de trouver un endroit englobant le
locuteur : la perception et les connaissances qu’a l’interlocuteur sur la situation ou position du
locuteur se révèlent ainsi déterminantes dans le calcul pour inférer le lieu pertinent. Si la pièce
dans laquelle téléphone le locuteur ne se révèle pas appropriée comme référent d’ici et que l’on
choisisse plutôt des entités comme la ville, la région ou le pays où se trouve le locuteur, c’est
parce que la situation d’échange téléphonique rend saillant l’éloignement entre locuteur et
interlocuteur et que, donc, pour l’interlocuteur, le lieu-où-se-trouve-le-locuteur pertinent est celui
qui marque cet éloignement. Cela peut être ainsi une pièce, un bureau, par exemple, si locuteur
et interlocuteur se téléphonent à l’intérieur d’un même immeuble.
Le second facteur découle de la nécessaire intégration de tout énoncé dans un contexte, le
contexte (certains parlent de modèle discursif ou contextuel ou encore construction de sens) en
vigueur au moment de son énonciation. Il est en effet clair que si dans un tel modèle contextuel
le type de lieu englobant, par exemple, se trouve déjà activé, l’interprétation d’ici en sera
forcément affectée, comme l’illustrent (7) et (8) :
(7) Là-bas commence ici (publicité dans l’aéroport d’Enztheim-Strasbourg)
(8) En Allemagne, la réunification divise. Ici, la division réunifie (journal humoristique)
Conclusion
Nous sommes au bout de notre périple, puisque nous avons mis au jour, comme annoncé, les
différentes étapes du processus référentiel effectué par ici dans Il fait chaud ici. Nous espérons
avoir montré que ce processus est beaucoup plus complexe qu’on ne peut le penser de prime
abord et, surtout, qu’il consiste en une subtile recherche des éléments intermédiaires spatiotemporellement reliés à l’occurrence d’ici. En abordant d’autres types d’emplois, on verrait que
d’autres éléments que le locuteur peuvent être mis à contribution, que les types de lieu peuvent
varier, que la dimension spatiale que présente une occurrence écrite d’ici entraine plutôt la mise
en avant du lieu spatial où figure ici, etc. Il faudrait raccrocher son fonctionnement à celui de làbas décrit par Brault (2001) et surtout l’opposer inter-catégoriellement de façon détaillée à là,
que nous avons placé dans le giron des expressions anaphoriques et non plus déictiques (Kleiber,
1993, 1995 a, b et c, 1997). Nous ne conclurons donc pas …
5
Bibliographie
Borillo, A., 1998, L’espace et son expression en français, Gap, Ophrys.
Brault, G., 2001, Les adverbes spatiaux. Le cas de “là-bas”, Strasbourg, Thèse de Doctorat,
Université Marc Bloch de Strasbourg.
Kleiber, G., 1993, « L'espace d'ICI: sur la pragma-sémantique des adverbes spatiaux », Cahiers
de Linguistique Française, 14, 85-104.
Kleiber, G., 1995 a, « D'ici à là et vice versa: pour les aborder autrement », Le Gré des Langues,
8, 8-27.
Kleiber, G., 1995 b, « Ici on ne peut pas utiliser là », in A. Figueroa & J. Lago (eds), Estudios en
homenaxe ás profesoras Françoise Jourdan Pons e Isolina Sánchez Regueira, Saint-jacques
de Compostelle, Université de Saint-Jacques de Compostelle, Département de Philologie
Française et Italienne, 133-146.
Kleiber, G., 1995 c, « Pour une nouvelle approche des adverbes spatiaux ici et là », in Sypnicki,
J. (ed.), Les acquis de la linguistique et l'enseignement du français langue étrangère, Lódz,
Wydawnictwo Uniwersytetu Lódzkiego, 63-75.
Kleiber, G., 1997, « Pourquoi faut-il éteindre la cigarette ici et non là ? », in K. Bogacki, & T.
Giermak-Zielinska, (éds), Espace et temps dans les langues romanes et slaves), Varsovie,
Institut de Philologie Romane de l’Université de Varsovie, 169-192.
Kleiber, G., 2008, « Comment fonctionne ICI », Cahiers Chronos, 20, 2008, 113-145.
Kleiber, G., 2010, « La deixis d’ICI », in Maass, C., & Schrott, A. (Hg.), Wenn Deiktika nicht
zeigen : zeigende und nichtzeigende Funktionen deiktischer Formen in den romanischen
Sprachen, Berlin, LIT Verlag Dr. W. Hopf, 33-54.
Klein, W., 1982, « Local Deixis in Route Directions », in Jarvella, R. et W. Klein (eds), Speech,
Place and Action. Studies in Deixis and related Topics, Chichester, John Whiley & Sons
LTD, 161-182.
Perret, M. (1991), Le système d’opposition ici, là, là-bas en référence situationnelle, in Ezkénazi,
A. et Perret, M., Etudes de linguistique française à la mémoire d’Alain Lerond, Nanterre,
Numéro spécial de LINX, Nanterre, Université de Paris X, 141-159.
Smith, J.-C., 1992, « Traits, marques et sous-spécification : application à la deixis », in M.-A.
Morel et L. Danon-Boileau (éds), La deixis, Paris, PUF, 257-264.
Sperber, D. et Wilson, D., 1986, Relevance : Cognition and Communication, Oxford, Basil
Blackwell. Trad. Française : La pertinence : communication et cognition, Paris, Minuit, 1989.
6
Alonso Ramos Margarita
Universidade da Coruña (Espagne)
[email protected]
STRUCTURE ARGUMENTALE ET COLLOCATIONS VERBALES
Ce travail porte sur les collocations verbales espagnoles comme declarar su admiración
„déclarer son admiration‟, planear un atentado „planifier un attentat‟, promover una
campaña „promouvoir une campagne‟, organizar una expedición „organiser une
expédition‟, vencer las dificultades „vaincre les difficultés‟, etc. Dans les collocations,
la base joue le rôle principal puisqu‟elle détermine la sélection lexicale du collocatif.
Dans nos exemples, c‟est le nom qui joue le rôle de base ; le verbe, étant sélectionné
lexicalement, a un poids sémantiquement inférieur. Ceci ne signifie pas qu‟il est
sémantiquement vide. Bien au contraire, tout le monde serait d‟accord pour dire que ces
verbes sont sémantiquement pleins. Or, ces verbes partagent certaines propriétés avec
les verbes supports (comme dans dar un paseo „faire une promenade‟, hacer uso „faire
usage‟, ou tener miedo „avoir peur‟). Cette ressemblance vient du fait que le prédicat sur
lequel la structure argumentale est organisée correspond au nom et non pas au verbe. En
d‟autres termes, on pourrait dire que la situation linguistique (dans le sens de Mel‟čuk
2004) exprimée par ces collocations est désignée par la base nominale (admiración,
dificultad, expedición, paseo, uso ou miedo) plutôt que par le collocatif verbal
(declarar, planear, organizar, etc.).
Les verbes collocatifs, y compris les verbes supports, ont la capacité de partager les
actants des noms prédicatifs, qui jouent le rôle de base de la collocation. Ainsi, le sujet
grammatical de ces verbes est coindexé avec le premier argument du prédicat exprimé
par le nom objet ; par exemple, celui qui déclare l‟admiration pour quelqu‟un désigne le
même référent que celui qui éprouve de l‟admiration (on pourrait le nommer un
admirateur et non pas un déclarant). Le fait de partager les mêmes arguments peut
expliquer pourquoi, à l‟instar des constructions à verbe support, les verbes de ces
collocations présentent ce qu‟on appelle la « double analyse » (Giry-Schneider 1987 :
45-58) :
(1)
a. La admiración por el profesor que Pedro declara es…
„L‟admiration pour le professeur que Pedro déclare est…‟
b. La admiración que Pedro declara por el profesor es ...
„L‟admiration que Pedro déclare pour le professeur est…‟
(2)
a. La expedición al Himalaya que Pedro organizó…
„L‟expédition à l‟Himalaya que Pedro a organisé…‟
b. La expedición que Pedro organizó al Himalaya…
„L‟expédition que Pedro a organisé à l‟Himalaya…‟
7
Il découle de ces exemples que les verbes collocatifs permettent de détacher le groupe
nominal du groupe prépositionnel, ce qui n‟est pas possible lorsqu‟ils apparaissent dans
des combinaisons libres. Ainsi, le comportement du verbe organizar dans (3) est
différent de celui qu‟il présente dans (2):
(3)
a. La información sobre los últimos atentados que el periodista organizó…
„L‟information sur les derniers attentats que le journaliste a organisé…‟
b. *La información que el periodista organizó sobre los últimos atentados…
„L‟information que le journaliste a organisé sur les derniers attentats…‟
En effet, le verbe organizar a trois actants syntaxiques dans (2b), tandis que dans (3) il
en a seulement deux, car il n‟existe pas de relation lexicale spéciale entre le verbe et le
nom información, ce qui permettrait le transfert d‟arguments du nom prédicatif vers le
verbe.
Pour pouvoir expliquer ce transfert d‟arguments, il est nécessaire d‟effectuer une
distinction entre le niveau sémantique et le niveau syntaxique, comme celle qui est
proposée dans le cadre théorique de la Théorie Sens-Texte (Mel‟čuk 2004). Le débat sur
le syntagme prépositionnel (comme al Himalaya dans 2b) et son statut de complément
du verbe ou de complément du nom n‟est pas posé ici car nous distinguons d‟un côté,
les actants sémantiques du nom et, d‟un autre côté, les actants syntaxiques du verbe.
Dans l‟exemple (2b), le syntagme prépositionnel al Himalaya est un actant syntaxique
du verbe et simultanément, un actant sémantique du nom expedición. Cette recherche
est encadrée donc dans la Lexicologie Explicative et Combinatoire, qui est la
composante lexicale de la Théorie Sens-Texte (TST, Mel‟čuk 1997, Mel‟čuk et al.
1995, entre autres). La TST est particulièrement pertinente pour le problème qui nous
intéresse, étant donné son approche particulièrement lexicaliste et l‟importance qu‟elle
accorde au concept théorique d‟actant.
Nous articulerons ce travail de la façon suivante : nous commencerons par clarifier
certains concepts sémantiques et lexicaux qui aideront à mieux comprendre ce qu‟est
une collocation. Après avoir exposé ce qu‟on entend par « être un prédicat » et « être
prédicat de », nous présenterons la notion d‟actant dans notre cadre théorique, cadre qui
distingue, d‟un côté, entre « participant » et « actant » et d‟un autre côté, entre « actants
sémantiques » et « actants syntaxiques ». Nous ferons une comparaison du traitement
offert par la TST avec celui qui est offert dans d‟autres cadres théoriques qui font usage
du concept de la co-composition (Pustejovsky 1995). Finalement, nous étudierons le
traitement lexicographique des actants dans les collocations verbales.
8
Références
Giry-Schneider, J., 1987, Les prédicats nominaux en français : les phrases simples à verbe
support, Genève/Paris, Droz.
Mel‟čuk, I., 1997, Vers une linguistique Sens-Texte, Paris, Collège de France.
Mel‟čuk, I., 2004, “Actants in Semantics and Syntax I: actants in Semantics ”, Linguistics, 42-1,
1-66.
Mel‟čuk, I., A. Clas, A. Polguère, 1995, Introduction à la lexicologie explicative et
combinatoire, Louvain-la-Neuve, Duculot.
Pustejovsky, J., 1995, The Generative Lexicon, Cambridge, MIT Press.
9
10
Raffaele Simone
Université de Rome 3, Italie
[email protected]
DISCOURSE OPERATIONS
Abstract
This paper proposes the notion of 'discourse operations' as atheoretical construct able
to explain various phenomena, in particular most of the seemingly extravagant or
even erroneous innovations that take place in discourse. Two classes of such
operations are proposed: format coercions and transpositions: the former expand and
modulate the meaning of lexical units according to principles; the latter overcome
occasional gaps in the system through the pattern-sensitive combination of units.
Some of such solution may eventually be incorporated into the systems. Data from
various languages corroborate the theoretical hypotheses.
11
12
Abeillé Anne
Université Paris 7
[email protected]
Vivès Robert
Université Paris 8
[email protected]
LES CONSTRUCTIONS A VERBE SUPPORT
DANS LA GRANDE GRAMMAIRE DU FRANÇAIS
Résumé
Nous présentons la notion de verbe support telle qu’elle est redéfinie dans le projet de Grande
Grammaire du français (Abeillé et al 2007, 2010). Tout en s’inspirant des travaux du LADL,
nous nous efforçons d’inclure ces constructions dans la catégorie plus générale des
constructions à prédicat complexe (Abeillé et Godard 2003).
1. Le projet de Grande grammaire du français
Le projet de Grande Grammaire du français, est un ouvrage collectif en préparation depuis
2004, sous l'égide du CNRS et de la DGLFLF.
Il réunit une cinquantaine d’auteurs linguistes, et s'inspire des grandes grammaires
encyclopédiques, écrites par des universitaires à l’usage du grand public (par exemple, pour
l’italien la Grande Grammatica italiana di consultazione, (1989-1991), pour l’espagnol la
Gramatica descriptiva de la lengua española, (1999) et pour l’anglais la Cambridge
Grammar of the English Language, (2002).
Il vise à présenter dans un cadre unifié une synthèse des connaissances disponibles sur la
syntaxe du français et ses interfaces avec le lexique, la sémantique, le discours et la prosodie.
Cet ouvrage a un but descriptif et non pas normatif, et ne s'appuie pas sur un modèle
formalisé car il prétend s'adresser aussi à un public de non linguistes.
Il s'appuie sur un cadre descriptif basé sur des structures de constituants les plus simples
possibles, et sur une séparation plus rigoureuse que celle qu'on trouve habituellement dans les
grammaires, entre catégorie et fonction grammaticale, mais aussi entre catégorie et valence, et
entre fonction grammaticale et rôle sémantique.
Ceci nous amène ainsi à revoir la terminologie usuelle et à parler simplement de complément
oblique, là où la tradition distingue "complément d'agent", "complément d'attribution" etc.
Les principes gouvernant les choix terminologiques ont été présentés dans Abeillé et al 2007.
Nous utilisons à la fois les exemples construits (surtout pour les variantes agrammaticales) et
sur des exemples attestés. Contrairement aux grammaires existantes qui se basent
essentiellement sur le français écrit, littéraire (Le bon usage) ou journalistique (Grammaire
méthodique du français), avec un empan chronologique assez large (concluant notamment
Molière ou Marivaux), nous nous appuyons sur des données attestées représentatives du
français contemporain (à partir de 1950). Sans nous interdire le recours à certains textes
littéraires (notamment via la base Frantext catégorisée), nous utilisons principalement des
données représentatives de ce que F Gadet appelle le français "ordinaire". Nous nous
appuyons en particulier sur les corpus de français parlé disponibles (Corpaix, CRFP, CFPP,
C-Oral-rom, ESLO, Valibel...) mais incluons aussi une étude des usages sur internet ou des
SMS (Fairon et al 2009).
Nous ne nous limitons pas à la France, mais tentons de faire le point sur la variété des usages
dans les principaux pays francophones (Canada, Belgique, Suisse ...). Nous proposons un
marquage des données selon leur statut (grammatical, douteux ou agrammatical) et selon leur
origine (Régional, Belgique...), y compris un marquage comme non standard (courant mais
13
stigmatisé), comme variable (accepté seulement par certains locuteurs mais sans
stigmatisation), ou comme archaïque.
2. La notion de prédicat complexe
On appelle « prédicat complexe » une séquence formée de deux verbes, ou d’un verbe et d’un
prédicat non verbal, qui se comporte du point de vue syntaxique comme un verbe simple,
c’est-à-dire qui forment un seul domaine syntaxique. C’est le cas par exemple des auxiliaires
de temps être et avoir suivis d’un participe passé :
(1)
a
b
Paul a réparé la voiture.
Paul est allé à Rome.
L’auxiliaire et le participe ont forcément le même sujet, mais ils partagent également les
mêmes compléments. Le fait que les compléments attendus par le participe soient également
sélectionnés comme compléments de l’auxiliaire se voit quand on les pronominalise : les
clitiques correspondants se placent obligatoirement sur l’auxiliaire :
(2)
a
b
c
Paul l’a réparée.
Paul y est allé.
* Paul est y allé
Ces séquences se distinguent d’autres périphrases comme aller et venir qui ne permettent pas
cette pronominalisation précoce, et ne forment donc pas des prédicats complexes :
(3)
a
b
Paul va aller à Rome / va y aller / * y va aller
Paul vient de réparer la voiture / vient de la réparer / * la vient de réparer
Ce placement précoce des proformes clitiques s’observe avec d’autres séquences de verbes
comme certains verbes causatifs (faire) ou certains verbes de perception (voir, entendre) :
(4)
a
b
Paul fait réparer la voiture à Jean / la fait réparer à Jean/ *fait la réparer à Jean
Paul a entendu dire cela / l’a entendu dire /* a entendu le dire
Il s’observe aussi avec des séquences formées d’un verbe et d’un prédicat non verbal comme
les constructions avec un attribut adjectival ou un verbe support suivi d’un nom prédicatif :
(5)
a
b
Paul est fidèle à ses amis/ leur est fidèle.
Paul fera le résumé de l’émission/ en fera le résumé.
En (5a) la proforme leur correspond au complément de l’adjectif fidèle, et en (5d) la proforme
en correspond au complément du nom résumé.
Les auxiliaires de temps ont une seule structure associée (la structure plate) mais pour les
autres constructions, on a une double analyse possible :
- Soit le prédicat qui suit le verbe tête forme un seul syntagme complément (structure
hiérarchique) et on a ainsi : Fidèle à ses amis, Paul l’est,
- Soit le verbe tête hérite des compléments du prédicat qui le suit (structure plate) et on
a ainsi : Fidèle Paul l’est à ses amis ou C’est à ses amis que Paul est fidèle.
14
On résume dans le tableau 1 les différentes constructions à « prédicat complexe » du français,
(voir aussi Abeillé et Godard 2003). On dit que la phrase correspondante comprend une seule
tête syntaxique, c’est-à-dire un seul domaine pour la sous-catégorisation. On parle aussi de
constructions monoclausales ou de monoclausalité.
Les constructions
Prédicat complexe
Auxiliaires de temps
être et avoir
Constructions attributives
Jean est allé à Paris
Jean a mangé le pain
Jean est fidèle à ses amis
L’histoire nous a rendus
sensibles à ce sujet
Jean fait lire le livre aux enfants
Jean laisse parler Marie du sujet
Jean a peur des araignées
Jean fera un résumé du sujet
Placement des proformes
clitiques
Jean y est allé
Jean l’a mangé
Jean leur est fidèle
L’histoire nous y a rendus
sensibles
Jean le fait lire aux enfants
Jean en laisse parler Marie
Jean en a peur
Jean en fera un résumé
Jean entend dire des bêtises
Jean verra construire la maison
Jean en entend dire
Jean la verra construire
Constructions causatives
Faire, laisser
Constructions à verbe
support :
avoir, faire, prendre etc
Verbes de perception :
voir, entendre, sentir
3. Les constructions à Vsup dans la GGF
Si l’on compare les propriétés des phrases à verbe simple et des phrases à verbe support, on
peut avoir l’impression que les deux phrases (6a) et (6b) sont organisées de façon similaire si
l’on ne tient pas compte du sens des noms bonbon et gifle :
(6)
a
b
Jean donne un bonbon à Bob
Jean donne une gifle à Bob
[phrase à verbe simple]
[phrase à Vsup]
Elles présentent toutefois des différences bien connues :
- le déterminant du nom objet direct est plus contraint en (6b) qu’en (6a),
- une nominalisation du verbe est possible en (6a) et pas en (6b),
- on peut former un SN dont la tête est bonbon ou gifle en conservant le complément en (6b)
mais pas en (6a) :
(7)
a
b
c
d
e
f
Jean donne un / mon / le bonbon à Bob
Jean donne une / ?ma / ?la gifle à Bob
Le don d’un bonbon est mal vu dans cette école
*Le don d’une gifle est mal vu dans cette école
*Son bonbon à Bob était acidulé
Sa gifle à Bob était inutile
Ces différences sont liées au fait qu’en (6a), le prédicat principal est donner, qui a trois
arguments sémantiques, Jean, bonbon et Bob, et la phrase décrit un transfert d’objet. En (6b),
le prédicat principal est le Npréd gifle associé au verbe support donner. Ce prédicat n’a que
deux arguments, Jean et Bob, et la phrase décrit un coup.
3.1. Critères définitoires
Parmi l’ensemble des propriétés des phrases à Vsup, on retient comme définitoires :
- le caractère obligatoire du nom prédicatif,
15
- la formation d'un SN complexe avec le nom prédicatif comme tête, le sujet de la phrase étant
conservé et introduit par la préposition de (ou par), tout comme les compléments éventuels
qui peuvent être introduits de la même façon que dans la construction à Vsup:
(8)
a
b
c
Jean donne une gifle à Bob => la gifle de Jean à Bob
Paul a envie de chocolat / de partir / qu’il neige
=> l’envie de Paul de chocolat / de partir / qu’il neige
Paul fait un voyage en Espagne => le voyage de Paul en Espagne
Le fait que le sujet du Vsup corresponde à un complément du nom prédicatif dans le SN
correspondant est une propriété qui permet de distinguer les phrases à verbe support d’autres
expressions plus ou moins figées. Ainsi avoir le désir de est une expression à Vsup, avoir le
temps de n'en est pas une, avoir faim est une expression à Vsup, avoir froid n'en est pas une :
(9)
a
b
c
d
Paul a le désir de venir =>
Paul a le temps de venir
Paul a faim
=>
Paul a froid
=>
le désir de Paul de venir
=>
* le temps de Paul de venir
la faim de Paul
*le froid de Paul
Le fait que le Vsup ne sélectionne pas le sujet ni les autres compléments, et ne leur assigne
pas de rôle sémantique, explique que le Npred soit obligatoire. Ce caractère obligatoire du
Npred permet également de distinguer les phrases à Vsup de constructions à objet
informationnel, ou thème incrémental, tel que livre, film, match etc. qui peuvent permettre la
formation d’un SN complexe (10a,b). Dans ces constructions en effet, le complément du nom
peut aussi être analysé comme complément du verbe (10c,d), et on peut dire qu’il y a identité
d’arguments entre le verbe et le nom, mais le nom n’est pas toujours obligatoire, et le verbe a
le même sens sans le nom (10e,f):
(10)
a
b
c.
d.
e
f
Paul a écrit un livre sur les Indiens
Lyon a joué un match contre Metz
C’est un livre sur les Indiens que Paul a écrit
C’est un livre que Paul a écrit sur les Indiens
Paul a écrit sur les Indiens
Lyon a joué contre Metz
le livre de Paul sur les Indiens
le match de Lyon contre Metz
3.2. Diversité des constructions à Vsup
Du point de vue syntaxique, on analyse le verbe support comme la tête car c’est lui qui
détermine le mode et le temps de la phrase, et le nom prédicatif comme un valent. Le nom
prédicatif peut avoir plusieurs fonctions syntaxiques. C’est généralement la tête d’un
complément d’objet direct, qui peut parfois devenir sujet au passif (11a,b):
(11)
a
b
Paul fera le résumé de la pièce
Le résumé de la pièce sera fait par Paul.
Quand le passif n’est pas possible, un autre test pour analyser le Npred comme un
complément d’objet est fourni par les constructions causatives. Dans la construction
causative, le Vsup se comporte bien comme un verbe transitif direct et non comme un verbe
intransitif, c’est-à-dire que le causataire (interprété comme sujet de l’infinitif) doit être
introduit par la préposition à (12c), ce qui n’est pas le cas avec un verbe intransitif comme
fuir (12d) :
(12)
a
b
c
Paul fuit / prend la fuite
*Le loup fait prendre la fuite Paul
Le loup fait prendre la fuite à Paul
16
d.
Le loup fait fuir Paul / *à Paul
On analyse donc le résumé et la fuite en (11a, 12a) comme des compléments d’objet des Vsup
faire et prendre, respectivement. Le nom prédicatif peut aussi avoir d’autres
fonctions syntaxiques:
- complément oblique : Paul procède à l’arrestation des suspects
- sujet :
Le bruit court que Paul va gagner
On a donc une certaine variété de constructions à Vsup, selon la fonction du Nom prédicatif,
et selon la présence d’un ou plusieurs compléments additionnels, qu’on peut résumer dans le
tableau 2.
Fonction du
Npred
Sujet
Sujet
Sujet
Sujet
Sujet
Objet
Objet
Objet
Objet
Objet
Objet
Construction à Vsup
Exemple
Npred Vsup
Npred Vsup SN
Npred Vsup SP
Npred Vsup Phrase
Npred Vsup SVinf
Vsup Npred
Vsup Npred SP
Vsup Npred Phrase
Vsup Npred SVinf
Vsup Npred SP SP
Vsup Npred SVinf SP
Objet
Vsup Npred Phrase SP
Un orage éclate
La peur prend Max
Une malédiction pèse sur Max
Le bruit court que vous gagnerez
L’envie prend Max de partir
Max prend une douche
Max fait le portrait de Marie
Paul a le désir que vous veniez
Max a besoin de parler
Max fait le récit de ses aventures à Luc
Paul donne l’autorisation de partir à
Luc
Paul donne l’ordre que tout soit fait à
Luc
Paul jouit d’une bonne santé
Paul procède à l’arrestation de Max
Max accable Luc de reproches
Cplt oblique
Vsup Prep Npred
Cplt oblique
Vsup Prep Npred SP
Cplt oblique
Vsup SN Prep Npred
Tableau 2. Principales Constructions à Vsup
Ces constructions présentent donc une discordance entre la fonction syntaxique et le rôle
sémantique :
- du point de vue syntaxique, le Vsup est la tête et le Npred est un valent (sujet, objet, ou
complément oblique),
- du point de vue sémantique, le Npred est le prédicat principal, et peut assigner un rôle
sémantique aux autres valents, tandis que le Vsup fournit essentiellement des informations sur
le temps, l’aspect et la modalité.
3.3 La liste des Vsup
La plupart des verbes ont des emplois comme verbes simples et des emplois comme Vsup,
d’où des ambiguïtés possibles. Le verbe prendre peut être interprété comme verbe simple en
(13a) ou bien comme verbe support en (13b), et la combinaison signifie ‘photographier’,
comme en témoignent les continuations différentes:
(13)
a
b
Marie prend une photo de Luc (parmi celles qui sont sur la table) [verbe simple]
Marie prend une photo de Luc (en train de rire)
[verbe support]
17
Quelques verbes comme commettre, perpétrer, asséner et intenter ne semblent pouvoir se
construire qu’avec un Npred et sont donc uniquement des verbes supports :
(14)
a
b
c
d
Max assène des coups à Luc => les coups de Marc à Luc
Max intente une action en justice contre Luc => l’action en justice de Max contre Luc
*Max assène un marteau
*Max intente de sortir
On compte environ 350 Vsup différents en français, dont voici la liste des plus courants, avec
un exemple de Npred pour chacun.
Liste de Vsup pour la construction Npred Vsup
(un événement) arriver, (un accident) avoir lieu, (un bruit) courir, (un spectacle) se donne, (le match) se
déroule, (un orage) éclater, (le silence) régner, (une histoire) se passer, (un événement) se produire, (une
réunion) se tenir, (un événement) survenir
Liste de Vsup pour la construction Npred Vsup SN
(une tempête) frapper, (un événement) prendre place, (une fête) tomber, (un ouragan) toucher
Liste de Vsup pour la construction Vsup Npred :
accumuler (les erreurs), adopter (une position), avoir (du courage), arborer (une mine fière), arrêter (une
décision), attraper (un coup de soleil), bâtir (un projet), concevoir (une idée), connaître (la sérénité), dégager
(une odeur), détenir (un secret), dresser (un constat), édifier (un projet), édicter (un règlement), effectuer (une
opération), endurer (des souffrances), entreprendre (une action), éprouver (de la joie), essuyer (un orage), fixer
(une règle), forger (un plan), former des vœux, goupiller (une plan), instaurer des règles, instruire (une affaire),
jouer (un rôle), manifester (du mécontentement), mitonner (un plan), monter (une combine), montrer (de la
légèreté), opérer (une retraite), passer (un examen), posséder (un savoir-faire), pousser (un cri), pratiquer (une
opération), prendre (la fuite), promulguer (un décret), prononcer (un discours), propager (une rumeur),
ressentir (de la tristesse), relever (un défi), souscrire (une assurance), soutenir (une idée), subir (un orage),
tisser (des intrigues)
Liste de Vsup pour la construction Vsup Prep Npred :
s’adonner (à l’escrime), faire étalage (de courage), faire montre (de courage), faire preuve (d’intelligence),
jouir (d’une bonne santé), procéder (à une opération), procéder (d’une grande méchanceté), se livrer (à des
confidences)
Liste des Vsup pour la construction Vsup Npred SP
administrer (une correction à), accorder (son pardon à), adresser (des reproches à), allonger (une gifle à),
allouer (une indemnité à), asséner (une gifle à), balancer (une plaisanterie à), bercer (le projet de), brandir (une
menace contre), caresser (le projet de), commettre (un crime contre), concéder (un prêt à), conduire (une
enquête sur), conférer (une distinction à), contracter (un engagement avec), cracher (des injures à), déposer
(une plainte contre), dicter (ses ordres à), diriger (une enquête sur), dispenser (des consolations à), donner (son
accord à), émettre (un avis sur), élever (une objection contre), engager (une discussion avec), exercer (une
influence sur), faire (l’éloge de), ficher (des coups à), filer (des coups à), flanquer des coups à, formuler (des
remarques à), impartir (un délai à), infliger (des reproches à), intenter (un procès à), intimer (un ordre à),
lâcher (des injures à), lancer (un défi à), libeller (un message à), livrer un combat contre, machiner (un complot
contre), magouiller (une escroquerie contre), marteler (un ordre à), mener (un combat contre), nourrir (l’espoir
de), octroyer (une aide à), offrir (son aide à), ourdir (un complot contre, passer (un accord avec), perpétrer (un
crime contre), piquer (une colère contre), pondre (un article sur), porter (une attaque contre), poser (une
question à), prêter (un appui à), procurer (une aide à), prodiguer (des conseils à), produire (un effet sur),
ratifier (un accord avec), recevoir (un conseil de), soulever (une objection contre), tramer (un complot contre),
vouer (une grande admiration à)
18
Liste de Vsup pour la construction Vsup SN Prep Npred
accabler X (de reproches), gratifier X (d’une récompense), nantir X (de provisions), soumettre X (à la torture)
Beaucoup de Vsup entrant dans la construction Vsup Npred SP entrent également dans la
construction Vsup Npred SP SP, selon que le Npred prend un autre complément
prépositionnel: lancer à X l’ordre de, contracter avec X l’engagement de, faire à X l’éloge
de…
3.4. L’analyse syntaxique des constructions à Vsup
On analyse le verbe support comme un verbe à héritage, qui hérite les valents attendus par le
nom prédicatif, et les constructions à verbe support comme des prédicats complexes car les
compléments éventuels du nom prédicatif se pronominalisent sur le Vsup :
(15)
a
b
Paul a envie de chocolat / en a envie.
Paul fait un voyage en Espagne / y fait un voyage.
Comme les autres constructions à prédicat complexe, les constructions à Vsup ont une double
structure syntaxique (voir aussi M Gross 1976). Quand le nom prédicatif sélectionne un
complément, celui-ci a une double réalisation possible : soit comme complément du nom
prédicatif, soit comme complément du verbe support. Il en résulte une structure enchâssée (A)
ou une structure « plate » (B), analogue à celles qu’on trouve avec les temps auxiliés, les
verbes attributifs ou les verbes causatifs :
Structure A
Structure B
SV
Tête
complément
SN
Tête
V
SV
Complt
SN
Complt
SP
V
N
fait
le résumé
SP
du livre
fait
le résumé
du livre
Figure 1. Les deux structures des phrases à verbe support
La structure enchâssée (A) est la plus générale, et la seule qu’on trouve quand le Npred est
complément oblique. En effet, dans ce cas, on ne peut pronominaliser le complément du
Npred sur le Vsup, ni permuter le Npred et son complément, ni extraire le Npred sans son
complément :
(16)
a
b
c
d
e
Paul procède [au recyclage des ordures]
*Paul en procède au recyclage
* Paul procède des ordures au recyclage
C’est [au recyclage des ordures] que Paul procède
* C’est au recyclage que Paul procède des ordures
On considère donc que le Npred marqué par une préposition forme toujours un seul
constituant avec son complément éventuel.
Quand le Npred est sujet ou complément d’objet, la structure B permet plus de possibilités
que la structure A concernant l’ordre des mots, l’extraction ou la pronominalisation. Nous
allons les examiner successivement.
19
Le complément prépositionnel peut précéder le nom prédicatif si celui-ci a un déterminant
(voir Abeillé et Godard 2004 pour une contrainte de légèreté plus générale concernant les
noms sans déterminant):
(17)
a
b
c
Paul a fait de votre dernier livre un résumé magnifique
Paul a de ce tableau une terrible envie
*Paul a de ce tableau envie
On peut extraire, dans une interrogative ou une construction clivée (c’est…que), le Npred
seul, le complément seul ou les deux en un seul constituant:
(18)
a
b
c
d
e
f
De quel livre a-t-il fait le résumé ?
Quel résumé a-t-il fait de votre livre ?
Quel résumé de votre livre a-t-il fait ?
C’est de votre livre que Paul a fait un résumé
C’est un résumé de votre livre que Paul a fait
C’est un résumé que Paul a fait de votre livre
On peut reprendre par un pronom le Npred avec son complément, mais aussi le Npred seul ou
le complément seul :
(19)
a
b
c
Ce résumé, Paul l’a fait de son dernier livre
Ce résumé de son dernier livre, Paul l’a fait hier
Paul en a fait le résumé hier
Cette double analyse du SP, comme complément du Npred ou du Vsup, s’observe également
lorsque le complément est une complétive ou un infinitif. On peut avoir une permutation,
comme entre deux compléments de verbe (20a). On peut cliver (entre c’est et que) le nom
prédicatif seul ou avec l’infinitive, ou l’infinitive seule, ce qui montre qu’ils peuvent former
un SN complexe ou deux compléments indépendants. Dans une relative, on peut avoir
l’infinitive à la suite du Npred ou à la suite du Vsup (20e):
(20)
a
b
c
d
e
Paul avait [un grand désir] [de venir] / [de venir] [un grand désir]
C’est [un grand désir] que Paul avait [de venir]
C’est [un grand désir de venir] que Paul avait
C’est [de venir] que Paul avait un grand désir
Le désir de venir qu’il avait / qu’il avait [de venir]
Références
A. Abeillé, D Godard, 2003. Les prédicats complexes, in D. Godard (Ed.) Les Langues Romanes, Paris, CNRS
Editions. p. 125-184.
A. Abeillé, D. Godard 2004. De la légèreté en syntaxe, Bulletin Société Linguistique de Paris, XCIX/1, 69-106.
A.Abeillé, A. Delaveau, D. Godard, 2007. La Grande Grammaire du français : principes de construction, Revue
roumaine de linguistique, 2007, LII, 4. p. 403-419.
A. Abeillé, D. Godard, 2010. The Grande Grammaire du français project, Conférence LREC, Malte.
L. Danlos. 1992. Support Verb Constructions: linguistic properties, representation, translation. Journal of
French Language Studies 2(1): 1-32.
J. Giry-Schneider, 1987. Les prédicats nominaux en français : les phrases simples à verbe support.
Genève/Paris, Droz.
J. Giry-Schneider, 1978. Les nominalisations en français : l’opérateur FAIRE dans le lexique. Genève/Paris,
Droz.
G. Gross. 1989. Les constructions converses du français . Genève, Paris : Droz.
M Gross 1976 Sur quelques groupes nominaux complexes, in Méthodes en grammaire française (Chevalier &
Gross éds), Paris: Klincksieck.
M Gross 1998 La fonction sémantique des verbes supports. Travaux de linguistique 37, p.25-46
É. Laporte, E. Ranchhod, A. Yannacopoulou. 2008. Syntactic variation of support verb
constructions. Lingvisticae Investigationes. 31 (2). 173–185.
20
Andriamise Lakoarisoa
Université d’Antananarivo
[email protected]
Ranaivoson Jeannot Fils
Université d’Antananarivo
[email protected]
Rakotoalison Sylvie Fanjanirina
Université d’Antananarivo
[email protected]
LES LOCUTIONS SUPPORTS EN MALGACHE
LE CAS DE MISY AZY
Résumé
La présente étude porte sur la locution support misy azy dans les constructions du type Misy
azy Prép Npréd N0. Sa fixité morphosyntaxique, son figement sémantique, sa
correspondance avec des affixes à valeur grammaticale et sa combinaison avec un nom
prédicatif ainsi que sa désémantisation et la prise en charge exclusivement de la valeur
sémantique par le NPréd nous ont permis d’affirmer qu’il s’agit bien d’une locution support.
Outre sa fonction d’actualisateur diathétique, la Lsup misy azy comporte une valeur
d’intensif. Elle est utilisée pour parler d’un comportement, d’un sentiment, d’un état
physiologique ou psychologique. La structure dans laquelle elle opère est différente des
structures à support ordinaire. Dans la construction à Lsup misy azy, le NPréd est
obligatoirement introduit par la préposition amina.(en, par, dans, à).
Mots clés: Locution support, Malgache, Valeur aspectuelle, Intensif, Nom prédicatif
Introduction
L’ étude des supports autres que les supports élémentaires n’est pas encore faite en malgache.
Si les valeurs grammaticales de ces éléments ont été plus ou moins décrites, leurs valeurs
sémantiques ne l’ont été que de manière subsidiaire. Nous nous proposons de combler cette
lacune autant que faire se peut.
La présente étude porte sur la locution misy azy1, considérée comme un support, dans
les constructions du type Misy azy Prép NPréd N0
(1) Misy azy amin’ny ditra Rabe (il y a lui (à + en + dans) le entêtement Rabe)
(De l’entêtement, Rabe en a.)
(2) Misy azy amin’ny avona Rabe (il y a lui (à + en + dans) le dédain Rabe)
(Du dédain, Rabe en a.)
Dans ces construction, le NPréd peut se placer indifféremment avant ou après le sujet
sans déclencher ni changement morphologique, ni variation sémantique. (1) a exactement le
même sens que (1a) et (2) que (2a).
(1a) Misy azy Rabe amin’ny ditra (il y a lui Rabe (à + en + dans) le entêtement)
(De l’entêtement, Rabe en a.)
(2a) Misy azy Rabe amin’ny avona (il y a lui Rabe (à + en + dans) le dédain)
(Du dédain, Rabe en a.)
Ces genres de construction nominale relèvent plutôt de la langue orale. Dans la langue
écrite, ce sont les phrases verbales ou adjectivales correspondantes qui sont plus fréquentes.
(1) correspond à la phrase adjectivale (1’)
(1’)Maditra be Rabe (têtu très Rabe)
(Rabe est très têtu)
1
Généralement, misy azy signifie « en avoir », misy « exister », « il y a ». azy est un pronom personnel au
troisième personne du singulier à la forme accusative disjointe
21
(2) à la phrase verbale (2’)
(2’) Miavona be Rabe (hautain très Rabe)
(Rabe est très hautain)
1 Fonction de misy azy
Misy azy répond à toutes les définitions afférentes au support.
D’une part, « Un verbe support est un verbe sémantiquement vide ». Dans les phrases
(1) et (2), les contenus sémantiques sont véhiculés respectivement par ditra (entêtement) et
avona (dédain), qui sont les vrais prédicats des deux phrases2. Misy azy est une séquence
sémantiquement vide.
Elle correspond quasi-systématiquement à un affixe grammatical. Ceci confirme que la
valeur de cette séquence n’est pas lexicale mais grammaticale. Dans (1a) et (2a), elle
correspond respectivement au préfixe ma-, formatif d’adjectif et mi-, formatif de verbe.
D’autre part, dans les langues comme le français, un support sert à actualiser un nom ou
un adjectif prédicatif. L’actualisation consiste en l’insertion dans le temps (conjugaison) de
ces éléments. En malgache, les noms et les adjectifs peuvent recevoir des affixes temporels.
L’actualisation est donc d’un autre type que nous appellerons désormais, actualisation
diathétique. En l’occurrence, misy permet la transformation causative qui est impossible avec
les noms prédicatifs seuls.
De (1) et (2), nous avons les formes causatives suivantes :
(1’’) Mampisy azy an-dRabe amin’ny ditra ny nitaizan-drenibeny azy. (faire avoir lui à
Rabe (à + en + dans) le entêtement le élevé de grand-mère de lui lui)
(Rabe est d’un entêtement extrême à cause qu’il a été élevé par sa grand-mère)
(2’’) Mampisy azy an-dRabe amin’ny avona ny tsy fahampian’ny fahalalany. (faire
avoir lui à Rabe (à + en + dans) le dédain le non suffisant de la connaissance de lui)
(Rabe a de l’dédain de façon excessive à cause de son manque de culture)
Par ailleurs, misy azy est effaçable dans ces constructions sans que la phrase perde son
statut. Il en est ainsi dans la nominalisation suivante :
(1)Misy azy amin’ny ditra Rabe
Ny ditra izay mampisy azy an-dRabe (l’entêtement qui faire avoir lui à Rabe /
l’entêtement qui fait que Rabe fait parade)
Ny ditran-dRabe (l’entêtement de Rabe)
Ces caractéristiques de misy azy nous permettent d’affirmer que la séquence est un
support.
2 Statut lexical de misy azy
Intuitivement, il semble que misy azy est une locution.
Le premier critère d’une locution est la polylexicalité. Dans ces constructions, la
séquence misy azy est constituée par le verbe misy et la forme accusative du pronom
personnel à la troisième personne du singulier azy.
Le second critère est l’opacité sémantique. Comme nous l’avons déjà annoncé
précédemment, la suite misy azy, dans ces constructions, n’a pas de contenu lexical mais une
simple idée d’intensité. Or, misy signifie « exister », « y avoir » et azy, « lui », « elle ». La
séquence misy azy n’a rien avoir avec la combinaison des sens de misy et de azy.
Le troisième critère est le blocage des propriétés transformationnelles. En construction
libre, la séquence misy azy présente une relation verbe-objet. Dans ce cas, elle peut faire
l’objet d’un certains nombres de transformations. Par contre, dans les exemples que nous
2
En malgache, tous les noms sont prédicables mais tous ne sont pas prédicatifs. Appartiennent à cette deuxième
catégorie les noms qui fonctionnent comme prédicat au moyen des supports. Il s’agit de noms abstraits tel que
les noms d’action, les noms d’état et les noms d’événement.
22
avons pris, ces transformations sont refusées. La forme attendue dans la nominalisation de
misy (il y a + exister) est fisiana (existence) mais elle n’est pas attestée dans le contexte qui
nous intéresse. Les phrases (1) et (2) n’ont pas de correspondantes nominales du type
*Ny fisiany amin’ny ditra Rabe. (Le existence de lui (à + en + dans) le entêtement
Rabe)
*Ny fisiany amin’ny avona Rabe. (Le existence de lui (à + en + dans) le dédain Rabe)
La substituabilité est aussi un autre critère pouvant confirmer le caractère libre ou figé
d’une séquence. Dans son emploi ordinaire, misy peut commuter avec manana (avoir),
comme dans (misy + manana) vola izy (il a de l’argent) ou avec feno (plein) comme dans
(misy + feno) olona ny trano ((il y a + plein) personne la maison) (il y a des personnes dans la
maison, la maison est pleine de gens). Aucun de ces éléments ne peut se substituer à misy
dans les phrases (1) et (2)
*(Manana + feno) azy amin’ny ditra Rabe. ((avoir + plein) lui en matière de entêtement
Rabe)
*(Manana + feno) azy amin’ny avona Rabe. ((avoir + plein) lui en matière de dédain
Rabe)
Azy (à lui) commute naturellement avec les autres pronoms personnels à l’accusatif. Or,
cette opération est impossible avec les phrases soumises à l’étude.
*Misy (ahy + anao + anareo) amin’ny ditra Rabe (il y a (à moi + à toi + à vous) (à + en
+ dans) le entêtement Rabe)
De par ces différents constats, il n’est plus hasardeux de dire que dans les constructions
qui nous intéressent, misy azy est une locution.
En récapitulant ce que nous avons dit, la fixité morphosyntaxique de misy azy , son
figement sémantique, sa correspondance avec des affixes à valeur grammaticale ainsi que sa
combinaison avec un nom prédicatif sont des critères suffisants pour affirmer qu’il s’agit bien
d’une locution support, désormais noté Lsup.
3 Lsup misy azy et les autres emplois de la suite
La suite misy azy est soit une séquence ordinaire, soit une séquence figée.
3.1 Premier cas : séquence ordinaire
Et tant que séquence ordinaire, elle assume
- soit la fonction de modifieur d’un nom signifiant un lieu comme dans :
(toerana + faritra + trano +…) misy azy ((lieu + maison +…) où il est) qu’on peut voir
dans la phrase
Madio ny trano misy azy. (propre la maison il y a lui / la maison où il (est + habite) est
propre.)
Dans ces cas, le sens de la suite est entièrement compositionnel. Misy est un verbe
ordinaire qui signifie « être » et azy, un pronom personnel à l’accusatif.
Chacun des deux éléments est éminemment substituable.
(toerana + faritra + trano +… ) ahitana azy ((lieu + maison +…) être vu lui) ((lieu +
maison +…) où on le ou la voit)
(toerana + faritra + trano +…) misy (ahy + anao + anareo +…) ((lieu + maison +…) il
y a (moi + toi + vous)) ((lieu + maison +…) où (je suis + tu es + vous êtes))
- soit la fonction d’auxiliaire à valeur partitive suivi du prédicat comme dans :
Misy azy amin’ireto trano ireto. (il y a à lui parmi ces maisons) (il y a certaines qui lui
appartiennent parmi ces maisons) qui s’oppose à azy ireto trano ireto (à lui ces maisons) (ces
23
maisons lui appartiennent). Dans ce cas, misy signifie bien « exister » ou « être » et azy,
pronom personnel à valeur possessive qui signifie « à lui, à elle ».
3.2 Deuxième cas : séquence figée
Dans les constructions :
(3) Misy azy ery ny morona, noho izato hamevamevany ( il y a lui la berge, à cause
cette beauté de lui) (la berge est fière à cause de sa beauté3)
(4) Misy azy ery ny vorona, mipetra-mora aevaevany. (il y a lui les oiseaux, perchés
doucement bércés) (les oiseaux sont fiers, bercés doucement)
(5) Misy azy amin’ny tsy antony iny zaza iny raha vao mahazo zavatra kely. ( il y a lui
(à + en + dans) le non cause cet enfant là dès que obtenir chose petite) (cet enfant est
fanfaron à propos de n’importe quoi)
Misy azy signifie « être fier » ou « être fanfaron ». Or, l’idée « être fier » ou « être
fanfaron » n’a rien à voir avec la combinaison du sens de misy et de celui de azy. De par cette
opacité sémantique, misy azy est donc une locution.
Le problème est la distinction entre misy azy dans ces dernières phrases et misy azy
dans les phrases (1) et (2).
Lsup misy azy concernée par cette étude commence une phrase contrairement à celle
qui fonctionne comme modifieur dans (toerana + faritra) misy azy (lieu où il est) qu’on peut
voir dans la phrase
Si on fait abstraction des subordonnées dans (3), (4) et (5), ces phrases s’analysent en
misy azy Dét N où la charge sémantique est entièrement assumée par misy azy. Dans les
phrases (1) et (2) qui s’analysent en misy azy PrépN Dét N0, cette charge sémantique,
comme il a été démontré plus haut, est assumée par N et pas par misy azy. Dans les phrases
(3), (4) et (5), misy azy est une locution verbale fonctionnant comme prédicat. Dans les
phrases (1) et (2), elle est aussi une locution mais fonctionnant comme support d’un nom
prédicatif.
4 La valeur sémantique de misy azy
Outre sa fonction d’actualisateur, la Lsup misy azy comporte une valeur d’intensif. Cette
valeur s’appréhende par la mise en parallèle des phrases nominales et des phrases verbales ou
adjectivales.
(6) Misy azy amin’ny hadalana Rabe ((il y a lui (à + en + dans) la bêtise Rabe)
(Rabe est très bête)
est le synonyme de Adala be Rabe (bête très Rabe)
où on a l’adverbe be (très) à valeur d’intensif. On sait que le passage d’un adjectif à un
substantif n’apporte pas cette valeur. Entre adala (fou) et hadalana (folie), on ne décèle
aucune idée d’intensité. C’est donc la Lsup qui est chargée de l’expression de cette valeur
aspectuelle.
Lsup misy azy est utilisé pour parler d’un comportement, d’un sentiment, d’un état
physiologique ou psychologique si extraordinaire qu’il paraît impossible de l’exprimer
autrement qu’avec une forte intensité ou un haut degré .
(7’)Tezitra mafy Rabe raha vao nandre izany vaovao izany (en colère très Rabe dès que
entendre cette nouvelle) (Rabe était très en colère dès qu’il a entendu cette nouvelle),
3
Cela renvoie à raphia du poème de Dox intitulé Rafia
24
(7) Nisy azy tamin’ny hatezerana Rabe raha vao nandre izany vaovao izany ((pass)il y a
lui (à + en + dans) la colère Rabe dès que entendre cette nouvelle) (Rabe était très en
colère dès qu’on lui a annoncé cette nouvelle),
(8’) Ho faly aokizany Rabe raha afa-panadinana ianao ((fut)content comme cela Rabe
si reussir examen tu) (Rabe serait très content si tu réussis ton examen),
(8) Hisy azy amin’ny hafaliana Rabe raha afa-panadinana ianao ((fut) il y a lui (à + en +
dans) la joie Rabe si reussir examen tu) (Rabe serait très content si tu réussis ton
examen),
5 Propriétés distributionnelles des noms prédicatifs ayant comme support misy azy
Dans la construction à Lsup misy azy, NPréd est obligatoirement introduit par la préposition
amina.(en, dans, à) :
Misy azy (*E + *ny + amina) ditra Rabe (il y a lui (*E + *le + (à + en + dans)) le
entêtement Rabe) (Rabe est très têtu).
Misy azy (*E + *ny + amina) avona Rabe (il y a lui (*E + *le + (à + en + dans)) le
dédain Rabe) Rabe est très dédaigneux).
Ce comportement est très spécifique, puisque la plupart du temps, entre le support et le
nom supporté, il n’y a aucun élément grammatical tel que les prépositions ou les
déterminants.
Manao (E + *ny + *amina) baolina ny ankizy (Faire (E + *le + * (à + en + dans ))
ballon les enfants) (Les enfants jouent au ballon)
Ces Npréd appartiennent à des classes de noms différentes. Ils sont soit :
- Des noms de comportement comme ditra (entêtement), avona (dédain) et
rehareha (fierté) …
- Des noms de sentiment comme hafaliana (joie), hatezerana (colère) , alahelo
(tristesse)…
- Des noms d’état physique comme hatsaran-tarehy (beauté), halavana (hauteur,
grandeur…), hahiazana (maigreur)…
- Des noms d’état psychologique comme habadoana (ignorance), haranitantsaina (intélligence), fahendrena (sagesse)…
Sont par contre exclus les noms d’action comme fianarana (étude), fambolena
(plantation), filalaovana (jeux)…, les noms concrets comme trano (maison), omby (bœuf),
soratra (écriture)… sauf en cas d’emploi métaphorique ou métonymique de ces derniers
comme dans
(9) Misy azy amin’ny vava Rabe (Il y a (à + en + dans) la bouche Rabe) ( Rabe est une
grande gueule / Rabe est très bavard)
(10) Misy azy amin’ny tenda Rabe (Il y a (à + en + dans) la gorge Rabe) (Rabe est très
gourmand)
Les noms de comportement, de sentiment et d’état psychologique sélectionnent comme
on s’y attend un sujet humain ou du moins animé.
Misy azy amin’ny (ditra + hatezerana + habadoana) (Rasoa + *ny voninkazo) (Il y a lui
(à + en + dans) le (entêtement + colère + ignorance) (Rasoa + *les fleurs) (De le
(entêtement + colère + ignorance), (Rasoa + *les fleurs) en a)
Par contre, les noms d’état physique acceptent des noms concrets non humains comme
sujet.
Misy azy amin’ny hatsaran-tarehy (Rasoa + ny voninkazo) (Il y a lui (à + en + dans) la
beauté (Rasoa + les fleurs) (De la beauté, (Rasoa en a + les fleurs en ont))
25
Misy azy amin’ny siaka (Rabe + ny omby + ny sakay) (Il y a lui (à + en + dans) la
(méchanceté + goût piquant) (Rabe + le bœuf + le piment)) (De la méchanceté, (Rabe +
le bœuf) en a / Du goût piquant, le piment en a)
Les schémas prédicatifs des substantifs en question dépendent de la classe d’objet à
laquelle ils appartiennent. En général, les noms de comportement selectionnent un
complément datif de forme Prép N tel que Prép = amina.
(2b) Misy azy amin’ny avonavona amin’ny mpiara-miasa aminy Rabe. (Il y a lui (à + en
+ dans) le dédain envers les collègues à lui Rabe) (Rabe est très dédaigneux envers ses
collègues)
(1b) Misy azy amin’ny ditra amin’ny ray aman-dreniny Rabe. (Il y a lui (à + en + dans)
le entêtement envers les parents de lui Rabe) (Rabe est très entêté envers ses parents)
Mais les substantifs noms de sentiment semblent refuser ce type de complément4.
*Misy azy amin’ny hafaliana aminao izy. (Il y a lui (à + en + dans) la joie envers toi il)
*Misy azy amin’ny hatezerana amin-dreniny izy. (Il y a lui (à + en + dans) la colère
envers mère de lui il)
Il en est de même pour les substantifs noms d’état physique ou psychologique.
*Misy azy amin’ny halavana amin’ny olona Rabe (Il y a lui (à + en + dans) la longueur
envers les gens Rabe)
*Misy azy amin’ny hahiazana amin’ny zokiny Rabe (Il y a lui (à + en + dans) la
maigreur envers le ainé de lui Rabe)
*Misy azy amin’ny habadoana amiko Rabe (Il y a lui (à + en + dans) l’ignorance envers
moi Rabe)
Il semble que dans une construction misy azy Prép N Prép N1 Dét N0, où N1 est un datif,
N est nécéssairement un nom de comportement.
En ce qui concerne les circonstants, tous les substantifs qui nous intéressent, acceptent
une circonstance de cause. Néanmoins, les noms de comportement, d’état physique et
psychologique choisissent des causes « logiques », et les noms de sentiment, des causes
« accidentelles ».
Nous appellons causes « logiques » celles qui sont plus ou moins permanentes et
« accidentelles » celles qui sont ponctuelles.
(2c) Misy azy amin’ny avonavona noho ny tsy fahampiam-pahalalany Rabe (Il y a lui
(à + en + dans) le dédain à cause de le non suffisance culture à lui Rabe) (Rabe est très
dédaigneux à cause de son ignorance)
(2d) *Misy azy amin’ny avonavona noho ny fahatongavanao Rabe (Il y a lui (à + en +
dans) le dédain à cause de la venue de toi Rabe)
(8d) *Misy azy amin’ny hafaliana noho ny tsy fahampiam-pahalalany Rabe (Il y a lui (à
+ en + dans) la joie à cause de le non suffisance culture de lui Rabe)
(8c) Misy azy amin’ny hafaliana noho ny fahatongavanao Rabe (Il y a lui (à + en +
dans) la joie à cause de la venue de toi Rabe) (Rabe est très content de ta venue)
4
Les adjectifs et les verbes correspondants à ces NPréd acceptent bien un complément datif.
Faly aminao izy (Content envers toi il) (Il est content de toi)
Tezitra amin-dreniny izy (En colère envers mère de lui il) (Il est en colère contre sa mère)
C’est donc la Lsup qui bloque ce type de complémentation.
26
Conclusion
Ce bref survol sur le fonctionnement des constructions à misy azy, nous a permis de constater
que dans la structure misy azy PrépN N0, misy azy est une locution support en ce sens qu’il
actualise diathétiquement le nom prédicatif tout en apportant la valeur aspectuelle d’intensif.
La structure dans laquelle elle opère est différente des structures à support ordinaire vu qu’elle
requiert une préposition devant le NPréd. Etant donné que misy azy est totalement
désémantisé et que la charge sémantique lexicale est assumée exclusivement par le substantif,
la forme misy azy Prép N est donc un prédicat constitué d’un nom supporté par une locution.
La valeur d’intensif de la locution soumise à l’étude a été démontrée tout au long de l’étude
par comparaison avec les phrases adjectivales ou verbales correspondantes à la forme
nominale. Par contre, aucun support neutre ou qui n’ait de valeur intensive ne peut commuter
avec misy azy. Ce constat ouvre un boulevard dans l’étude des constructions à support en
malgache.
27
Bibliographie
Abinal et Malzac, RR.PP, 1888, Dictionnaire Malgache-Français, Edition de 1993,
Fianarantsoa : Librairie Ambozontany.
Benveniste, E., 1974, Problèmes de linguistique générale II, Paris : Éditions Gallimard.
Giry-Schneider, J, 1991, L’article zéro dans le lexique-grammaire des noms prédicatifs,
Langages, 102, pp. 23-35.
Giry-Schneider, J., 1978, Les constructions du verbe faire. (L’opérateur faire dans le
lexique), Genève : Droz.
Giry-Schneider, J.1987. Les prédicats nominaux en français. Les phrases simples à verbe
support. Genève-Paris : Droz.
Gross, G., 1989. Les constructions converses du français. Genève-Paris : Droz.
Gross, G., 1981, Prédicats nominaux et compatibilité aspectuelle, Langages, 121, pp. 54-72.
Gross, G., 2011, Manuel d’analyse linguistique, manuscrit.
Gross, G., 1996. Les expressions figées en français, Collection l’essentiel français. Paris :
OPHRYS.
Gross, M. 1968. Grammaire transformationnelle du français. Syntaxe du verbe. Paris :
Larousse.
Gross, M., 1975, Méthode en syntaxe, Paris : Hermann.
Harris, Z. S., 1976, Notes du cours de syntaxe, Paris : Le seuil.
Rabenilaina, R. B., 1985, Lexique-grammaire du malgache. Constructions transitives et
intransitives, Thèse de doctorat d’Etat, Université Paris VII, L.A.D.L.
Raharinirina-Rabaovololona, L., 1991, Lexique-grammaire des composés malgaches, Thèse
de doctorat, Université Paris VII, L.A.D.L.
Rajaona, S., 1972, Structures du malgache. Etude des formes prédicatives, Fianarantsoa,
Librairie Ambozontany.
Ralalaoherivony, B. S., 1994, Lexique-grammaire du malgache. Constructions adjectivales,
Thèse de doctorat, Université Paris VII, L.A.D.L.
Ranaivoson J. F. 1996(a), La nominalisation en malgache. Etude des formes manaoN, Thèse
de doctorat de troisième cycle, Université d’Antananarivo, Département de Langue et
Lettres Malgaches.
Ranaivoson J. F. 1996(b), Etude des constructions à prédicat mx-N en malgache. Classe
d’objets et traduction, Thèse de doctorat, Université Paris XIII, L.L.I.
28
Bloch-Trojnar Maria
University of Lublin
[email protected]
MORPHOSYNTACTIC AND ASPECTUAL CHARACTERISTICS OF
PREDICATIVE VERBAL NOUNS IN LVCS IN IRISH
Abstract
This paper is a qualitative study of the morphosyntactic and aspectual properties of
predicative verbal nouns (VNs) in Light Verb Constructions (LVCs) in Modern Irish. VNs in
combination with light verbs display the characteristics typical of heads of regular noun
phrases in object position. However, they form a unique morphological class and should be
conceived of as count nouns having a distinct genitive ending but incapable of pluralizing.
LVCs are argued to have a telicizing effect which results from the interaction of syntax and
lexical information regarding the internal structure of the event denoted by the VN
complement.
Key words: Light Verb Construction, Verbal Noun, Aktionsart, Telicity, Irish.
1 Introduction
Predicative verbal nouns (VNs) in Light Verb Constructions (LVCs) in Irish are the focus of
this paper. There is no unambiguous definition of a LVC to be found in the pertinent literature
and the term can be used with reference to disparate phenomena in diverse languages (cf. Butt
and Geuder 2001, Butt 2003, Bowern 2006). Here it is applied to complex predicates
consisting of a semantically bleached verb of general meaning and a deverbal nominalization.
English LVCs provide a useful analogy since both languages express aspectual distinctions by
contrasting inflected forms of the verb with periphrastic progressive constructions and in both
languages LVCs have been argued to have a telicizing effect, i.e. they specify a
spatiotemporal limit on the entities in the extension of the predicate.1 However, we can
observe interesting differences in the morphosyntactic characteristics of predicative nouns. In
English we have to do with count nouns,2 whereas predicative VNs in Irish seem to be neither
count nor mass – an intermediate category which can be counted but not made plural. The
paper is organized as follows: in section 2 basic facts about VNs and LVCs in Irish are
presented. Section 3 deals with determiner constraints on predicative VNs and their
morphological properties. Section 4 is devoted to their aspectual characteristics. It will be
demonstrated that morphological countability of predicative VNs is not a necessary
prerequisite to the telicizing effect of LVCs and that it can be achieved though the interaction
of syntactic determiners and modifiers with the semantics of the VN.
2 LVCs and VNs in Irish – an overview
The category of verbal nouns lies at the heart of Irish grammar on account of its formal
complexity and the variety of syntactic functions it fulfils. Some of the contexts which feature
VNs are set out in (1), where socrú is a VN form of the verb socraigh ‘settle, arrange’.3
1
Wierzbicka (1982), Brinton (1998), Willim (2006) argue for the telicizing character of LVCs in English. An
element of boundedness or telicity in LVCs can also be observed in Urdu, Hindi and other South Asian
languages (see Butt 2003 and the references therein).
2
In English nominals featuring in LVCs are countable, which means that they can take overt plural markers and
occur with the indefinite article, cardinal numbers and enumerative determiners as in, e.g. They gave each other
glances, I took several rides in his car [...], Can I have two guesses? (Cetnarowska, 1993:43).
3
The Irish examples cited throughout this paper come mostly from standard dictionaries and grammar books
such as Ó Dónaill (1977), de Bhaldraithe (1959, 1985) and Ó hAnluain (1999). A corpus devised by Ó Duibhín
29
(1)
a.
Caithfidh mé fiacha a
must
shocrú.
Infinitive
I debt-pl. PRT settle-VN
‘I have to settle debts.’
Táim tar éis iasacht a
I-am after
loan
shocrú.
Participle
PRT settle-VN
‘I have arranged a loan.’
Tá an aimsir ag socrú.
is
Progressive Verbal Aspect
the weather PRT settle-VN
‘The weather is becoming settled.’
b.
socrú
gaoithe, gleo
Action Nominalization
(uncountable)
settle-VN wind-gen., noise-gen.
‘abatement of wind, noise’
socruithe sochraide
Lexicalised Nominalization
(countable)
settle-VN-pl. funeral-gen.
‘funeral arrangements’
VNs can discharge the function of non-finite verb forms (1a) and lexical derivational
categories (1b). VNs also feature in LVCs, as in (2) below.
(2)
Déanfaidh an Chúirt socrú
make-fut.
the court
settle-VN
chun duine a
to
man
dhul
in ionad
an Chláraitheora.
PRT go-VN in place of the registrar-gen.
‘The court shall arrange for replacement of the Registrar.’
Apart from the general verb of action déan ‘do, make’, LVCs include the following light
verbs: tabhair ‘give’, lig ‘let’, caith ‘spend, throw’, faigh ‘get’, cuir ‘put’, téigh ‘go’, tag
‘come’ and bain ‘take, extract’ (Ó Siadhail 1989: 304-308, Wigger 2008, Bloch-Trojnar
2009a). In view of the multiplicity of syntactic functions and surface homonymy, the
categorial status of the VN complement in LVCs is not immediately evident4 and in the
following section we shall present arguments for regarding it as an abstract action nominal,
which with respect to the cline presented in (1) above should be positioned between
uncountable action nominals and countable lexicalised nouns.
LVCs are employed in cases where there is no verb to denote the relevant notion, the verb
does exist but is stylistically marked or is defective and occurs only in the progressive as
illustrated in (3a) and (3b) respectively. As far as the majority of verbs is concerned, i.e. verbs
with a full set of inflected forms, LVCs may appear as an alternative means of expressing
perfective aspect (3c).
(2006) was the main source of literary examples. The starred forms reflect grammaticality judgments of
proficient speakers of Irish. The data were verified among others at the colloquia of Societas Celto-Slavica in
Dubrovnik 2008 and Lodz 2009. The creation of a 30 million word corpus of Irish Texts (New Corpus for
Ireland) opened up new promising vistas of research in Computational Linguistics for Irish, which remains
largely an uncharted area (with notable exceptions of Wigger 2008 and Uí Dhonnachadha 2008). Uí
Dhonnachadha (2008) aims to develop tools and methods for automatic part-of-speech tagging and partial
parsing. However, the identification of relationships between chunks and long distance dependencies is beyond
the scope of her work. Research is thwarted by the fact that Irish is a VSO language with a lot of surface
homonymy and unclear status of aspectual structures.
4
Even in English the nominal status of the complement in LVCs is not taken for granted, e.g. Wierzbicka
(1982), Kearns (2002), Stevenson et al. (2004) regard it as a verbal element whereas Jespersen (1954), Cattell
(1984), Cetnarowska (1993) argue for its nominal status.
30
(3) LVC
a. Rinne sé
geoin díom.
do-past he
Finite verb
*Gheoin sé díom.
Periphrastic progressive
*Tá sé ag geoin díom
*Gháir sé.
Bhíodar
derision to-me
‘He ridiculed me.’
b. Rinne sé gáirí.
ag gáirí.
do-past he laugh-VN/laughter
be-past3rd pl. PRT laugh-VN
‘He laughed.’
‘They were laughing.’
c. Thug
sé diúltú.
Dhiúltaigh
sé.
Tá sé ag diúltú
an bhia.
give-past-3rdsg.ind. he refuse-VN
refuse-past-3rdsg.ind. he
is
he PRT refuse-VN the food-gen.
‘He gave a refusal/He refused.’
‘He refused.’
‘He is going off his food.’
Such constructions are used to achieve a partitive or singulative effect, i.e. to refer to an action
of a limited duration or a single occurrence respectively (Ó Siadhail 1989: 307, Wigger 2008,
Bloch-Trojnar 2009a).
3 Morphosyntactic properties of VNs in LVCs
The range of determiners and modifiers accompanying the VN in LVCs leaves no doubt as to
its nominal status (Bloch-Trojnar 2009b). VNs in LVCs are accompanied by the definite
article,5 possessives, demonstratives, NPs in the genitive case and adjectives, as depicted in
(4) below:
(4)
a. an spreagadh nach bhfuair sé
the urge-VN
PRT-rel.neg. get-past he
‘the encouragement he didn’t get’
b. Ní raibh blas caitheamh ina dhiaidh acu an liúradh
not was nothing regret
afterwards
sin
a thabhairt do na ministéaraí.
at-them the trounce-VN that PRT give-VN to the ministers
‘They hadn’t the slightest regret about giving that trouncing to the ministers.’
c. Fuair mé mo chéasadh
get-past I
leo.
my torment-VN with-them
‘They were the bane of my life.’
d. Tabhair
fuarú
gaoithe
give-imper.sg. cool-VN wind-gen.
duit
féin.
to-you self
‘Let the breeze cool you.’
e. Déan
géarú
beag.
do-imper.sg. quicken-VN small
‘Hurry on a bit.’
Morphological evidence, however, is somewhat equivocal. Plural and case inflection are
morphological hallmarks of nouns. VNs in LVCs can inflect for case but not for number, even
though the nouns involved have the morphological form of the plural available.
The object NP following a verb in the progressive in Irish is as a rule in the genitive case.
When light verbs in LVCs are in the progressive6 they require the genitive case of the
following verbal nominal, as depicted in (5) below. 7
5
There is no indefinite article in Irish.
LVCs in the progressive are very hard to come by since their primary function is to provide a telic or
antidurative interpretation. They are supposed to contrast with verbs in the progressive.
7
The number in bold stands for the noun class to which a given noun belongs.
6
31
(5)
a.
b.
d.
e.
f.
VN – VN-gen.
toirmeasc,1 gen.sg. & nom.pl
-misc, pl. ~ ‘prohibit-VN’
teilgean, 1 gen.sg. -gin ‘cast,
throw-VN’
léim, 2 gs. léime, pl.
léimeanna ‘jump-VN’
VN-gen. in LVCs
an rud atá ag déanamh toirmisc
the thing is PRT do-VN
dom
prohibit-VN-gen.sg. to-me
‘what is holding me back’
ag cur
teilgin
(ar phrátaí)
PRT put-VN throw-VN-gen.sg. on potatoes
‘earthing potatoes’
ag caitheamh léime
PRT throw-VN
jump-VN-gen.sg.
‘jumping’
Ní raibh siad ach ag cur
féachaint,f. 3 gs. féachana, pl.
féachana
ort.
féachaintí ‘look-VN, test-VN’ not were they but PRT put-VN look-VN-gen.sg. on-you
‘They only wanted to know how you would react.’
troid, 3 gen.sg. -oda, pl.
Ná
bí
ag baint
troda
as.
PRT-neg.
be-imper.
PRT
extract-VN
quarrel-VN-gen.
from-him
-eanna ‘quarrel-VN, fight’
‘Don’t pick quarrels with him.’
VNs in LVCs do not feature in the plural, despite the fact that lexical entries of some of them
contain a plural form.
(6)
faisnéis, 2 gen.sg. faisnéise, pl. faisnéisí ‘relate, inquire-VN’
Bhí sé ag cur
d’ fhaisnéise
/ *faisnéisí.
was he PRT put-VN your inquire-VN-gen.sg. / *inquire-VN-gen.pl.
‘He was inquiring about you.’
However, the ability to pluralize is an indication of lexicalization, i.e. loss of an actional
interpretation, as illustrated in (7). VNs in LVCs retain an actional reading.
(7)
Verb – VN
Nominalization (plural)
imigh – imeacht ‘go, go on’
imeachtaí an lae ‘events of the day’
buail – bualadh ‘hit’
bualaí cloiche ‘bruises from stones on the feet’
tóg – tógáil ‘lift, raise’
Is breá na tógálacha iad. ‘They are fine structures.’
abair – rá ‘say’
ráite béil ‘statements, remarks’
Paradoxically, VNs cannot be pluralized but they co-occur with quantifying expressions which
point to their countability. These include the numeral amháin ‘one’ and eile which combines
with a singular countable noun to mean ‘another’.
(8)
a.
Thug mé féachaint amháin orthu.
give-past I
look-VN
one
on-them
‘I took a glance at them.’
b.
Tabhair
téamh beag eile
give-imper.-you warm-VN small another
don bhainne.
to-the milk
‘Warm the milk a little more.’
There is a fair number of examples with modifiers which make it clear that more than one
instance or occurrence of a given action is referred to, i.e. cardinal numbers and quantifiers
such as iomaí ‘many’ or cúpla ‘a few’, which as a rule are followed by singular count nouns.
(9)
a.
Chuir sé na seacht seachaint orm.
put-past he the seven
guard-VN on-me
‘He warned me (repeatedly) to be careful.’
32
b.
Is iomaí tiortáil
is many
a
fuair
sé ina
lá.
knock about-VN PRT get-past he in-his day
‘He took many a knock in his day.’
c.
Déan
cúpla scrabhadh
do-imper. a few scratch-VN
leis an scian air.
with the knife on-it
‘Score it a few times with a knife.’
VNs are also attested with modifiers which are used with both count and non-count nouns.
(10)
a.
Ní
mórán
breathnú a thug mé air.
is-not many/much
look-VN
PRT give-past I
on-it
‘I did not look too closely at it.’
b.
…i gcomhar éinne
with
a
dhéanfadh aon bhagairt
anyone PRT would-do
ortha
any threaten-VN on-them
‘…for anyone who would threaten them in any way’
In view of the facts presented above, we can conclude that nominalisations in LVCs in Irish
are morphologically singular, but different from mass nouns. In the lexical process of verb to
noun transposition the resulting noun is equipped with Number features [0Sg, 0Pl]. The fact
that VNs cannot be made plural in LVCs but some of them have the plural form available in
other contexts (cf. (5) and (7) above), would suggest that the feature plural is present in the
representation of VNs in LVCs but with no specified value. The fact, that they occur with
modifiers sensitive to the feature [+Sg] (e.g. eile ‘another’) implies that it is also present in
their representation. Consequently, we will argue that in contradistinction to their English
opposite numbers, LVCs in Irish require a morphologically singular deverbal noun, which
bears the feature complex [+Sg, 0Pl]. Their status is intermediate between count nouns [+Sg,
-Pl] and mass nouns [0Sg, 0Pl].8 In the approach to transposition adopted here (Beard 1995)
number features may be left unspecified if there is noun class marking. Lexicalized nominals
belong to one of the five declension classes traditionally identified for Irish. Nominalizations
characterized by productive exponents -(e)adh and -ú lend support to an analysis on which
two classes of actional nominals are recognized. Transnumeral VNs form a class characterised
by a distinct genitive ending -t(h)a/-t(h)e (Carnie 2008), whereas the genitive form of VNs in
LVCs is best analysed as class 4, i.e. a class in which the genitive form is the same as the
common form (Bloch-Trojnar 2010).
(11)
a.
VN – VN-gen.
milleadh – millte ‘(act of) damaging’
VN-gen. in LVC
ag déanamh milleadh ‘doing damage/ruin’
b.
athrú – athraithe ‘(act of) changing’
ag déanamh athrú ‘making alteration’
4 The telic character of LVCs in Irish
LVCs in Irish are a means of telicizing activities. According to Brinton (1998: 38-9) ‘the
entire VP enters into the expression of aktionsart’, e.g. run is an activity verb (atelic), but the
8
For a detailed discussion of the representation of count and mass nouns as advocated here see Beard (1995:
177-9). Count nouns are singular because they refer to one member of a set of objects, but the conceptual
distinction of singular and plural is ‘irrelevant’ as far as mass nouns are concerned. They are singular by default
because the singular is the morphologically unmarked number used ‘where number is irrelevant or ambiguous’
(Beard 1982: 144). According to Acquaviva (2005: 259) nouns that denote activity predicates together with
homogenous masses, collective masses and abstract nouns are transnumeral. They form categories that transcend
the semantic opposition between singular and plural and ‘in all these cases, the nouns’ domain of reference is
non-discrete’.
33
predicate run (home, to the corner) contains an endpoint/goal and is thus an accomplishment
(telic). Therefore, the aspectual interpretation of complex predicates must comprise both the
temporal characteristics of states of affairs denoted by particular VN complements (their
Aktionsart)9 and the range of quantifying, nominal and spatio-temporal expressions
accompanying the VN.
A traditional classification of situation types (Vendler 1967) distinguishes between
continuities and events. The former encompass states and activities whereas the latter
subsume accomplishments, achievements and semelfactives. The table below (modelled on
the figure form Brinton 1998: 38) lists the five abovementioned situation types together with
their characteristics and examples from Irish.
(12)
Situation type
states
activities
accomplishments
achievements
semelfactives
Characteristics
static, durative, nontelic
dynamic, durative, nontelic
dynamic, durative, telic
dynamic, punctual, telic
dynamic, punctual, telic
iterative meaning in the progressive
Irish
amharc ‘see’, creid ‘believe’
ól ‘drink’, imir ‘play’, codail ‘sleep’
teach a thógáil ‘build a house’, rás a rith ‘run a race’
dúnmharaigh ‘murder’, dúisigh ‘wake’
léim ‘jump’, spléach ‘glance’
Let us now examine how the syntactic contribution varies depending on the situation type
of the verb which serves as the base for the VN.
Verbal predicates which contain an inherent endpoint or individuating boundary due to
their lexico-semantic specification (i.e. are telic) do not require additional individuation at the
syntactic level. Hence, LVCs with VNs derived from accomplishments and achievements are
equivalent to inflected verbs and need not be further individuated contextually, as in (3c)
above and in (13) below:
(13)
Ná
déan
aon athrú
PRT-neg. do-imper. any change-VN
air.
Ná
on-it
PRT-neg. change-imper. it
‘Make no change(s) in it.’
hathraigh
é.
‘Don’t change it.’
VNs derived from semelfactive verbs such as léim ‘jump’ impose a single event reading
(cf. Cetnarowska 1993: 44-46, Brinton 1998: 5, Willim 2006: 119). Being inherently
individuated they can be counted and multiplied.
(14)
a. Thug
sí léim
eile agus thúirling
sí thar náis.
give-past she jump-VN other
and descend-past
she back
‘She gave another jump and descended back.’
b. thug
sí aon léim amháin ar deire thiar thall
give-past she any jump
one
in the end west beyond
‘She gave one jump in the end’
However, syntax has an important contribution to make in LVCs involving VNs derived
from continuities. The telicizing nature of LVCs manifests itself in their occurrence with
cardinal numbers, enumerative determiners (e.g. amháin ‘one’, eile ‘another’, chéad ‘first’,
iomaí ‘many’, cúpla ‘a few’)10 and adverbials (cúpla uair ‘a few times’, arís ‘again’11), which
9
For a detailed explanation of the Aspect vs. Aktionsart distinction the reader is referred to Brinton (1988).
Brinton (1998: 50) explains that ‘the result of multiplying situations (no matter what their type) a specific
number of times is a situation of the accomplishment type. Thus, to ascend a mountain (an accomplishment) two
times or to run (an activity) five times both take a certain amount of time; they have necessary endpoints, namely
when the two or five repetitions are completed’.
11
If activities are perceived as occurring in bounded episodes they are replicable (Langacker 1987: 80).
10
34
provide the necessary counting criterion. States are homogenous as any part of the situation
they denote is like the entire situation and in LVCs we can only count the occasions of a given
state, as shown in (15).
(15)
a. D’imíomair orainn siar abhaile, agus go fuaireas mo chéad amharc ar Thomás.
go-past-we
on-us westwards home
and PRT get-past-I
my
first
see-VN
at Tomas
‘We proceeded homewards, and I first saw Tomas.’
b.
Bean
a bhí thoir in aice le hOileán Ciarraí a fuair amharc súl
woman that was east
near
island
ar Phiaras cúpla uair
Kerry that get-past see-VN eye-pl. on Piaras
couple time
‘There was a woman over east in Castleisland who saw Piaras a couple of times.’
Examples in (8) and (9) above and those in (16) below illustrate LVCs with VNs based on
activity verbs.
(16)
a.
cuireann siad ag beirbhiú iad go dtí go mbaineann siad dhá fhliuchadh asta
put-pres.ind they PRT
boil-VN them until
PRT g et-pres.ind. they two
wet-VN
from-them
‘they boil/bake them until they have wetted them (added water to them) twice.’
b.
Is iomaí cardáil
a
is many wool-carding-VN
PRT
rinneadh
was-done
ar an scéal sin.
on the story that
‘That story has often been sifted, debated.’
c.
Déan
do mhachnamh arís air.
do-imper.-you your think-VN
again on-it
‘Think it over.’
Activities give rise to two dominant readings in LVCs. Firstly, continuous activities, such as
sleeping or walking denote an activity lasting for some unspecified but limited period of time,
i.e. a bounded portion. Note the modifier geábh in (17a), which means ‘(short) run, (quick)
trip, (hurried) spell of activity’. Atelic verbs can denote conclusive situations if they are
accompanied by time adverbials containing an endpoint in their semantic structure or
adverbials indicating destination – John was walking (activity) vs. John walked to the shore
(accomplishment).
(17)
a. geábh siúil a dhéanamh ‘to do a spell of walking’
b. ní mór an codladh a dheineann siad an oidhche sin
is-not big the sleep-VN that make
they the night
that
‘they don’t get much sleep that night’
c. Pé
siúl
whatever walk-VN
a dhein an t-iascaire go dtí an dtig ...
PRT did
the fisherman
to
the house
‘The fisherman happened to walk to the house...’
Iterative activities which can be conceptualized as a series of discrete parts such as
shaking when nominalised in LVCs will refer to a single subevent (a semelfactive).
(18)
Bhain
sé croitheadh
extract-past he shake-VN
as
an buidéal.
from the bottle
‘He shook the bottle.’
In sum: the situation types in LVCs are accomplishments, achievements or semelfactives.
35
5 Conclusion
LVCs in Irish are a means of telicizing activities. Irish VNs are not morphologically countable
but are attested with determiners used with count nouns. Telicity of LVCs in Irish is
compositional in that it results from the interaction of lexical information and syntax.
Nominalizations derived from atelic verbs are more likely to accept determiners and modifiers
which measure-out or delimit the event denoted by the base verb. Nominalizations which are
delimited (telic) show no need for further individuation.
References
Acquaviva, P. 2005. The morphosemantics of transnumeral nouns. In Morphology and linguistic typology. Online Proceedings of the Fourth Mediterranean Morphology Meeting (MMM4), ed. G. Booij, E. Guevara, A.
Ralli, S. Sgroi, and S. Scalise, 252–265. University of Bologna (URL http://morbo.lingue.unibo.it/mmm).
Beard, R. 1995. Lexeme Morpheme Base Morphology. Albany, NY: SUNY Press.
Beard, R.1982. Plural as a lexical derivation. Glossa 16, 133–48.
Bloch-Trojnar, M. 2009a. Aspectual characteristics of light verbs constructions in Modern Irish. In Perspectives
on Celtic languages, ed. M. Bloch-Trojnar, 63–85. Lublin: Wydawnictwo KUL.
Bloch-Trojnar, M. 2009b. On the nominal status of VNs in light verb constructions in Modern Irish. In PASE
Papers 2008. Vol.1. Studies in Language and Methodology of Teaching Foreign Languages, ed. M. Kuźniak
and B. Rozwadowska, 25–33. Wrocław: Oficyna Wydawnicza ATUT.
Bloch-Trojnar, M. 2010. Verb to noun transposition in Modern Irish – evidence from inflectional paradigms. In
Verb Structures. Between Phonology and Morphosyntax, ed. E. Cyran and B. Szymanek, 27–52. Lublin:
Wydawnictwo KUL.
Bowern, C. 2006. Inter-theoretical approaches to complex verb constructions. A position paper for the Eleventh
Biennial
Rice
University
Linguistics
Symposium
March
16th–18th,
2006.
www.ruf.rice.edu/~lingsymp/position.pdf
Brinton, L. 1988. The Development of English Aspectual Systems. Cambridge: CUP.
Brinton, L. 1998. Aspectuality and countability: a cross-categorial analogy. English Language and Linguistics 2,
37–63.
Butt, M. 2003. The Light Verb Jungle. www.ai.mit.edu/people/jimmylin/papers/Butt03.pdf.
Butt, M. and Geuder, W., 2001, On the (semi)lexical status of light verbs. In Semilexical Categories: On the
Content of Function Words and the Function of Content Words, ed. N. Corver and H. van Riemsdijk, 323–
370. Berlin: Mouton de Gruyter.
Carnie, A. 2008. Irish Nouns. Oxford: OUP.
Cattell, R. 1984. Composite Predicates in English. Sydney: Academic Press.
Cetnarowska, B. 1993. The Syntax, Semantics and Derivation of Bare Nominalisations in English. Katowice:
Uniwersytet Śląski.
de Bhaldraithe, T. 1959. English – Irish Dictionary. Dublin: An Gúm.
de Bhaldraithe,T. 1985: Foirsiún Focal as Gaillimh. Dublin: Acadamh Ríoga na hÉireann.
Jespersen, O. 1954. A Modern English Grammar. London: George Allen and Unwin Ltd.
Kearns. 2002. Light verbs in English. http://www.ling.canterbury.ac.nz/kate/lightverbs.pdf.
Langacker, R. W. 1987. Nouns and verbs. Language 63, 53-94.
Ó Dónaill, N. 1977. Foclóir Gaeilge-Béarla. Dublin: An Gúm.
Ó Duibhín, C. Tobar na Gaedhilge, version 1.3 (2006), Gaelic textbase and retrieval system. Freely
downloadable from http://www.smo.uhi.ac.uk/~oduibhin/tobar/index.htm
Ó hAnluain, L. A. 1999. Graiméar Gaeilge na mBráithre Críostaí. Dublin: An Gúm.
Ó Siadhail, M. 1989. Modern Irish. Grammatical Structure and Dialectal Variation. Cambridge: CUP.
Stevenson, S., Fazly, A. and R. North. 2004. Statistical measures of the semi-productivity of light verb
constructions. www.qwantz.com/mwe04-ref.pdf
Uí Dhonnachadha, E. 2008. Part-of-Speech Tagging and Partial Parsing for Irish Using Finite-State
Transducers
and
Constraint
Grammar.
PhD
Dissertation.
Dublin
City
University.
doras.dcu.ie/2349/1/PhD_Elaine_Final.pdf
Vendler, Z. 1967. Linguistics in Philosophy. New York: Cornell University Press.
Wierzbicka. A. 1982. Why can you have a drink when you can’t *have an eat? Language, 58(4), 753-799.
Wigger, A. 2008. Advances in the lexicography of Modern Irish verbs. In Issues in Celtic Linguistics, ed. A.
Bloch-Rozmej, 233–250. Lublin: Wydawnictwo KUL.
Willim, E. 2006. Individuation and Countability: A Study with Special Reference to English and Polish. Kraków:
Jagiellonian University Press.
36
Botouhely Jean Lewis
Université d’Antsiranana
Madagascar
[email protected]
Ralalaoherivony Baholisoa Simone
Université d’Antananarivo
Madagascar
[email protected]
LES ADJECTIFS DE PROPRIETE HUMAINE
DU PARLER (MALGACHE) DU NORD :
ACTUALISATION ET ASPECTS
Résumé
Par rapport aux adjectifs d’état qui ont trait à un état passager et ponctuel, les adjectifs de
propriété relèvent d’un tempérament ou d’un comportement habituel. La présente étude
devrait nous permettre de nous renseigner sur les propriétés syntaxico-sémantique des
adjectifs de propriété humaine du parler (malgache) du Nord en termes d’actualisation et de
système aspectuel et d’élaborer une liste des verbes supports susceptibles d’actualiser ces
prédicats relevant des qualités permanentes et/ou naturelles à une personne. Dans le parler du
Nord, comme en français, la préposition joue un rôle aussi important dans l’expression de
l’aspect.
Mots-clés: humain, adjectifs, propriété, actualisation, aspect.
Présentation de l’objet d’étude
Par rapport aux adjectifs d’état qui ont plutôt trait à un état passager et ponctuel, les adjectifs
de propriété relèvent d’un tempérament ou d’un comportement habituel. Cependant, nous
tenons à préciser que dans le cadre du présent article, nous optons pour les adjectifs relevant
des comportements et des tempéraments à aspect plus ou moins duratif, c’est-à-dire des
tempérament ou comportements soit à caractère permanent et naturel (inné, intrinsèque), soit
à caractère permanent empirique1, soit à fréquence répétitive2. En aucun cas, nous ne
parlerons d’adjectif comme kajo « être fatigué » qui relève d’un état ponctuel, par opposition
à des adjectifs de propriété du type mahay « intelligent ». Nous avons choisi d’inscrire notre
analyse dans le cadre de la théorie des classes d’objets, une approche qui permet de mieux
connaître les emplois et vis-à-vis du problème posé par la polysémie, elle permet de lever les
ambiguïtés et de savoir de quel emploi il s’agit.
1. L’actualisation
1.1. L’information temporelle
Pour parler de l’actualisation, nous rappelons que « tous les prédicats sont soumis au
temps » (Valetopoulos, 2003 : 137). Qu’il s’agisse de prédicat nominal, adjectival ou verbal,
ceci est vrai mais le phénomène est beaucoup plus apparent dès lors qu’il s’agit d’un verbe à
cause de la conjugaison. Contrairement aux verbes, les adjectifs du français ne peuvent pas
fournir des informations temporelles mais ils sont actualisés par des verbes supports3,
généralement le verbe « être ». Dans le cas de la langue malgache en général, soulignons que
« le verbe être […] n’a pas de correspondant » (Rahajarizafy, 1960). Ainsi, contrairement à
1
Dont on connaît le début et/ou la fin.
Voire à caractère habituel.
3
Z. S. Harris, 1964 ; E. Laporte, 1992 ; M. Gross, 1996.
2
37
l’actualisation des adjectifs du français, l’actualisation des adjectifs de propriété humaine du
malgache ne nécessite pas forcément la présence d’un verbe support car sans l’intermédiaire
de ce dernier, les adjectifs peuvent véhiculer des informations temporelles et aspectuelles.
Prenons un exemple :
(1) Naditry i Jao.
Jao était têtu.
Dans la phrase (1), on sait que le n-4 de l’adjectif naditry nous précise l’information
temporelle que véhicule l’adjectif.
Toutefois, il existe des adjectifs malgaches qui peuvent être actualisés par des verbes
supports. À vrai dire, ces adjectifs ne font pas partie des adjectifs de propriété, mais ce sont
des adjectifs d’état situationnel et passager. Entre autres, dans le parler du Nord, nous
pouvons prendre comme exemple les verbes supports mahareñy, mahatsiaro « se sentir »,
misöra « sembler, paraître », etc. :
(2) Mahareñy kajo i Jao.
Jao se sent fatigué.
(3) Karaha kajo i Jao.
Jao semble fatigué.
Ces verbes ont les mêmes propriétés que le verbe support être du français : ils actualisent les
prédicats adjectivaux, ils peuvent être effacés, ils ne peuvent pas faire l’objet d’une
prédication (nominale ou adjectivale) et ils prennent en charge les informations temporelles et
aspectuelles véhiculées par l’adjectif. Cependant, dans le cadre de notre analyse, ces verbes
supports ne paraissent pas pertinents étant donné qu’ils ne peuvent pas actualiser des adjectifs
de propriété :
(4) (Mahareñy + E) kajo i Jao.
Jao (se sent + *E) fatigué.
(5) Mahareñy (kajo + *lava) i Jao.
Jao se sent (fatigué + *grand).
Contrairement aux cas de karaha « sembler » et mahareñy « se sentir » il existe des verbes
supports qui sont susceptibles d’actualiser les adjectifs de propriété humaine. C’est, entre
autres, le cas des verbes supports manjary + mivadiky « devenir », mimpody ndrêky + mieriñy
koa « redevenir », vôly + nijanoño « cesser de » et de la locution adverbiale mböla ……fo qui
correspondent au verbe support « rester + demeurer », que nous allons mieux élucider par
rapport au système aspectuel du malgache que nous illustrons avec des exemples en parler du
Nord :
(6) Nanjary kizitiñy i Mbôty.
Mbôty est devenue caractérielle.
(7) Nimpody ösa ndrêky koa i Jao.
4
Par opposition à m- pour le présent et h- pour le temps futur.
38
Jao est redevenu maladif.
(8) Mböla makikitry fo i Mbôty.
Mbôty demeure avare.
(9) Vôly naditry i Jao.
Jao a cessé d’être têtu.
1.2. La restructuration
Les adjectifs de propriété humaine à suffixe –iñy sont généralement des adjectifs dérivés
d’un nom de partie du corps (Npc) comme dans Vavaiñy i Mbôty (de vava « bouche »)
(Mbôty est bavarde) / Somôriñy i Jao (de sômotro « barbe ») (Jao est barbu). Mais ils peuvent
aussi être dérivés d’un nom de substance pouvant caractériser le comportement physique ou
psychique d’un humain : Jamalaiñy i Jao (de jamala « drogue ») (Jao est nerveux). La plupart
de ces adjectifs de structure Npc-iñy accepte la restructuration en be « grand, beaucoup,
excessif » Npc (Adj : be Npc). Par exemple :
(10)
Vavaiñy i Mbôty (de vava « bouche »). = Be vava5 i Mbôty.
Mbôty est bavarde.
(11)
Somôriñy i Jao (de sômotro « barbe ») = Be sômotro i Jao.
Jao est barbu.
Néanmoins, pour certains de ces adjectifs la restructuration en be Npc est possible mais elle
peut engendrer une nuance au niveau de la valeur sémantique que dénotent ces deux
structures. Si l’adjectif be sômotro (somôriñy) de la phrase (11) n’a comme équivalent que
l’adjectif « barbu », be vava de la phrase (10) peut vouloir dire vavaiñy « bavard(e) » et be
vava « avoir une large bouche », selon ses contextes d’apparition. Aussi, les adjectifs de
propriété humaine à suffixe –iñy dérivés d’un nom de substance caractérisant le
comportement ou le tempérament d’un humain font exception et n’acceptent pas la
restructuration en be N si N indique la substance :
(12)
Jamalaiñy i Jao (de jamala « drogue ») = Be (*jamala + siaka6) i Jao.
Jao est nerveux.
Contrairement aux adjectifs somôriñy « barbu » et vavaiñy « bavard », l’adjectif jamalaiñy
« nerveux » n’admet pas la restructuration en be N car N relève de la substance jamala
« drogue ». Dans ce cas, afin de garder à peu près le même sens, il faut remplacer le N (nom
de substance) par un autre N relevant plutôt du comportement ou du tempérament qui en
résulte comme siaka (nervosité).
2. Le système aspectuel
La présence ou l’absence d’une préposition s’avère significative pour l’expression de
l’aspect en français comme dans le parler du Nord. Autrement dit, il existe des prépositions
qui sont susceptibles de traduire des informations temporelles et surtout aspectuelles par
rapport aux adjectifs de propriété humaine. Dans ce sens, il ne pourrait s’agir que soit
5
6
Be vava au sens de « bavard », contrairement à son sens « avoir une large bouche ».
Siaka « nervosité »
39
d’adjectifs de propriété permanente empirique, soit d’adjectifs de comportement habituel car,
comme nous le signalons à chaque fois, les adjectifs de propriété permanente par définition
n’admettent que le temps présent. Prenons des exemples :
(13)
Vêmbaña7 i Mbôty rango izy dimy taoño.
Mbôty est polissonne depuis qu’elle avait cinq ans.
(14)
Naditry i Jao zisk’izy telopolo taoño.
Jao a été têtu jusqu’à l’âge de trente ans.
Les valeurs aspectuelles des prépositions que comportent les exemples (13) et (14) sont
totalement différentes. La préposition rango « depuis » de l’exemple (13) exprime le début ou
le point de départ (l’âge de cinq ans) de la propriété vêmbaña « polisson(ne) ». Ainsi, la
phrase exprime une propriété présente et à aspect inchoatif8. Cependant, sur le plan temporel,
la préposition rango (lêtry) « depuis » ne s’associe qu’avec un prédicat conjugué au temps
passé. Rares sont les cas où elle se trouve dans une phrase dont le prédicat évoque le temps
présent :
(15)
(*Manjary + Nanjary) vêmbaña i Mbôty rango izy dimy taoño.
Mbôty (*devient + est devenue) polissonne depuis qu’elle a eu cinq ans.
Contrairement à l’exemple (13), la phrase (14) exprime la fin de la propriété naditry « têtu ».
Cette information est contenue dans la valeur aspectuelle de la préposition zisky « jusqu’à ».
Dans ce sens, nous pouvons déduire que, dans le parler du Nord, la préposition zisky
« jusqu’à » ne peut exprimer qu’une propriété permanente empirique (qui n’est plus
d’actualité) à aspect terminatif9. S’agissant des adjectifs de propriété humaine, le seul temps
accepté par la préposition zisky « jusqu’à » est le passé :
(16)
(*Maditry + Naditry) i Jao zisk’izy telopolo taoño.
Jao (*est + a été) têtu jusqu’à l’âge de trente ans.
Ainsi, ce qui fait l’objet de notre analyse porte, ici, sur ce que I. Kokochkina appelle « aspect
interne »10, c’est-à-dire l’état fondamental du prédicat, qui lui est propre par son sémantisme.
Prenons un exemple :
(17)
Nimpody sesitsesiky ndrêky i Jao.
Jao est redevenu dyspnéique.
Dans cet exemple, d’une part, la conjugaison temporelle (le passé) nous permet de savoir qu’il
s’agit ici d’une propriété qui a débuté dans le passé. D’autre part, le sémantisme du verbe
support nimpody ……ndrêky « redevenir » qui sert à actualiser l’adjectif de propriété
sesitsesiky « dyspnéique » nous aide à comprendre qu’il s’agit d’une propriété à fréquence
7
Vêmbaña « polisson(ne) » est ici conjugué au passé et devrait être actualisé par le verbe support nanjary
« devenir ». Autrement dit, il s’agit de la forme elliptique de nanjary vêmbaña « est devenu polisson(ne) ».
8
G. Gross, 1999-2000.
9
idem.
10
Si I. Kokochkina (2004) distingue l’« aspect interne » de ce qu’elle appelle « aspect externe », F. Valetopoulos
(2003) choisit la dénomination « aspect grammatical » et « aspect lexical » pour faire la différence entre « l’état
fondamental du prédicat, qui lui est propre par son sémantisme » et « les valeurs aspectuelles qui s’ajoutent à la
valeur essentielle durative ou ponctuelle du prédicat et qui permettent au locuteur de traduire le début, la
continuation ou la fin du procès désigné par celui-ci ».
40
répétitive, donc un comportement habituel. Pour mieux élucider ces phénomènes, nous
continuons nos analyses et parlons du cas des verbes supports manjary + mivadiky
« devenir », mimpody ……ndrêky + mieriñy ……koa « redevenir », vôly + nijanoño « cesser
de » et de la locution adverbiale mböla ……fo correspondant au verbe support « rester +
demeurer ».
2.1. Le verbe support manjary + mivadiky « devenir »
Le verbe support manjary + mivadiky « devenir » actualise l’adjectif de propriété et prend
en charge l’information aspectuelle véhiculée par l’adjectif. Le sémantisme de ce verbe
indique un changement d’état à un temps t1 par rapport à un temps antérieur t0. Cependant, si
des chercheurs comme F. Valetopoulos veulent que ce passage soit « vu dans sa phase finale
et non dans son évolution » et y trouvent un aspect terminatif (Valetopoulos, 2003 : 142),
pour le cas des adjectifs de propriété humaine, nous aimerions plutôt voir ce passage dans sa
phase initiale et y trouverions un aspect inchoatif. Nous prenons un exemple :
(18)
Nanjary kizitiñy i Mbôty.
Mbôty est devenue caractérielle.
Cette phrase nous traduit que le N0hum Mbôty n’avait pas l’adjectif kizitiñy « caractérielle »
comme propriété dans le temps antérieur t0. Donc, le début de la propriété kizitiñy
« caractérielle » est marqué par le temps t1 qui ne peut exprimer qu’un aspect inchoatif par
rapport à l’adjectif de propriété kizitiñy. Autrement dit, dans le temps t0 l’adjectif dénotant la
propriété du N0hum Mbôty ne pouvait être que le contraire de kizitiñy. Pour pouvoir « devenir
kizitiñy » à partir du temps t1, il faut que le N0hum ait été tsotra « sympathique » dans le
temps initial t0.
2.2. Le verbe support mimpody ……ndrêky (E + koa) + mieriñy ……koa « redevenir »
Par rapport au verbe support manjary « devenir », la locution verbale-support
mimpody ……ndrêky (E + koa) « redevenir » marque le passage d’un état à un autre et plus
précisément le retour vers un état antérieur t0 par rapport à un autre temps t1. Dans une phrase,
sa vraie structure est Mimpody AdjPréd ndrêky (E + koa) Dét N0 correspondant à la structure
française « Dét N0 redevenir AdjPréd ». Elle dénote un aspect répétitif exprimé par la
particule ndrêky « de nouveau ». Ainsi la propriété exprimée par des adjectifs actualisés par
cette locution ne pourra être que ce que nous appelons un comportement habituel. Par
exemple :
(19) Nimpody ösa ndrêky koa i Jao.
Jao est redevenu maladif.
Cet exemple sous-entend qu’à un moment supposé t0, le N0 Jao a eu l’AdjPréd ösa
« maladif » comme propriété :
(20)
Ösa i Jao.
Jao est maladif.
Après t0, il y a eu un autre temps t1 où le N0 devenait salama « bien portant » (supposé
comme AdjPréd1) :
(21)
Nanjary salama i Jao.
Jao devenait bien portant.
41
ensuite, il y a encore eu un moment t2 où le N0 Jao cesse d’être l’AdjPréd1 salama « bien
portant » et passe de nouveau à la même propriété exprimée par l’AdjPréd ösa « maladif » du
temps t0 :
(22)
Ösa ndrêky koa i Jao.
Jao est de nouveau maladif.
Notre exemple met en relief le temps t2 où le N0 Jao a de nouveau l’AdjPréd ösa « maladif »
comme propriété. Soulignons, cependant, que cette locution verbale-support mimpody
……ndrêky « redevenir » ne peut pas s’associer avec des adjectifs de propriété humaine
irréversibles comme le cas de certains adjectifs de la sous-classe <apparence physique
taille> :
(23)
*Nimpody kana ndrêky koa i Jao.
*Jao est redevenu petit.
2.3. La locution adverbiale mböla ……fo
Tout d’abord, nous soulignons que la locution adverbiale mböla ……fo correspond au
verbe support « rester + demeurer ». À vrai dire, malgré son statut d’adverbe, cette locution
est susceptible d’actualiser un adjectif prédicatif et elle joue ainsi le rôle d’un actualisateur.
Cependant, par rapport à sa qualité d’actualisateur (mböla ……fo « rester + demeurer »), elle
est surtout employée comme adverbe (mböla ……fo « toujours »). Dans ce cas, la phrase est
de structure Mböla AdjPréd fo Dét N0 correspondant à la structure « Dét N0 rester AdjPréd »
du français :
(24)
Mböla makikitry fo i Mbôty.
Mbôty (demeure + est toujours) avare.
par conséquent, les adjectifs de propriété actualisés par mböla ……fo « rester + demeurer » ne
peuvent exprimer qu’un aspect duratif. Ils dénotent une propriété qui a commencé dans le
passé, qui demeure d’actualité au moment présent et n’a connu aucun moment de
discontinuité. Par rapport à la notion de propriété, l’actualisation en mböla ……fo « rester +
demeurer » devrait en constituer un critère définitionnel étant donné qu’elle est compatible
avec tous les adjectifs de propriété, qu’ils soient permanente par définition, permanente
empirique ou comportement habituel. Toutefois, il s’avère important de signaler que cette
locution sous-entend une possibilité de changement à un moment donné dans le futur. Ainsi
elle ne peut pas s’associer à des adjectifs dénotant un état ou une qualité qui n’évolue pas :
(25)
Mböla (kajo + *kamboty) fo i Jao.
Jao demeure (fatigué + *orphelin).
2.4. Le verbe support vôly « cesser de »
Les verbes supports vôly + miahaña + mijanoño11 « cesser de » expriment un aspect
terminatif. Ils dénotent un trait de caractère qui était permanent, qui durait pendant une durée
moins succincte mais qui ne reste plus d’actualité. Par son sémantisme, les verbes supports
11
Le verbe mijanoño nécessite une attention particulière dans le parler du Nord, car il a deux sens presque
opposés : demeurer et cesser de. Il est ici pris au sens de cesser de qui marque la fin d’une propriété permanente
empirique ou un comportement habituel et annonce un changement.
42
vôly + miahaña + mijanoño « cesser de » sous-entendent un contrôle de la part de l’individu.
C’est ainsi qu’ils traduisent la fin d’une propriété permanente empirique ou encore d’un
comportement habituel mais pas une propriété permanente par définition :
(26)
Niahaña (*nahira-tsaiñy + nasiaka12) i Jao.
Jao a cessé d’être (*doué + méchant).
(27)
Vôly (naditry + *nahay) i Mbôty.
Mbôty a cessé d’être (têtue + *brillante).
Comme le cas de la locution verbale mböla ……fo « rester + demeurer », le verbe support vôly
« cesser de » ne s’associe pas à des adjectifs qui dénotent un état ou une qualité qui ne change
pas :
(28)
Vôly (minêhanêha + *kambaña) i Mbôty ndrêky i Soa.
Mbôty et Soa cessent d’être (têtues + *jumelles).
Outre les locutions verbales, les verbes supports dont nous venons de parler, pour
l’actualisation des adjectifs, le parler du Nord, considéré sous l’optique variationnelle,
possède d’autres verbes supports comme le cas de mahareñy, mahatsiaro « se sentir », mais
dans le cadre de notre étude, l’analyse de ces verbes ne s’avère pas pertinente étant donné
qu’ils actualisent plutôt les adjectifs d’état passager ou transitoire.
3. Conclusion
La présente étude nous a permis de nous renseigner sur les propriétés syntaxicosémantique des adjectifs de propriété humaine du malgache (dans sa manifestationen parler
du Nord) en terme d’actualisation et de système aspectuel. Nous avons pu élaborer une liste
des verbes supports susceptibles d’actualiser ces prédicats adjectivaux qui relèvent des
qualités permanentes et/ou naturelles (innées, intrinsèques) à une personne, soit à caractère
permanent empirique soit à fréquence répétitive. En malgache, comme en français, la
préposition joue un rôle important dans l’expression de l’aspect. Il existe ainsi des
prépositions qui sont susceptibles de traduire des informations temporelles et surtout
aspectuelles par rapport aux adjectifs de propriété humaine.
12
En tant que comportement et non un tempérament.
43
Bibliographie
BORILLO, A., 1998, Les adjectifs et l’aspect en français, Cahiers Chronos 2, pp. 177-189 ;
BOTOUHELY, J. L., 1998, L’élargissement de sens dans les emprunts saint-mariens au
français, Mémoire de maîtrise, Université Nord Madagascar, 113p ;
COMRIE, B., 1995, Aspect, an introduction to the study of verbal aspect and related
problems, Cambridge University Press ;
DESCLES, J.-P., 1989, State, events, process and topology, General linguistics, N°29-3, pp.
159-200 ;
FRANÇOIS, J., 2004, L’Adjectif en français et à travers les langues, Presses Universitaires
de Caen ;
GHIGLIONE, R., BROMBERG, M., FRIEMEL, E., KEKENBOSCH, C., VERSTIGGEL,
J.C., 1990, Prédicats d’état, de déclaration et d’action : essai de classification en vue d’une
application en analyse de contenu, Langages, N°100, pp. 81-100 ;
GODEL, R., 1950, Verbes d’état et verbes d’événements, Cahiers de Ferdinand de Saussure,
N°9, pp. 33-50 ;
GROSS, M., 1996, Les verbes supports d’adjectifs et le passif, Langages 121, pp. 8-18 ;
KOKOCHKINA, I., 2004, Typologie des prédicats d’états, Thèse de doctorat sous la
direction de G. Gross, Laboratoire de Linguistique Informatique, Université Paris XIII,
330p ;
LAPORTE, E., 1997, L’analyse des phrases adjectivales par rétablissement de noms
appropriés, Langages 126, pp. 79-104 ;
LE PESANT, D., MATHIEU-COLAS, M., 1998, Introduction aux classes d’objets, Langages
131, pp. 6-33 ;
MALZAC, R. P., 1960, Essais de Grammaire malgache, Antananarivo, Imprimerie
Catholique, 198p ;
MOURELATOS, A. P. D., 1978, Events, processes and states, Linguistics and philosophy,
N°2, pp. 415-434 ;
RABENILAINA, R.-B. et alii, 1989, Ny fitsipiky ny teny T.11, Antananarivo : FO.FI.PA ;
RAHARINIRINA-RABAOVOLOLONA, R. L., 1991, Lexique-grammaire des composés du
malgache. Les adverbes de temps, Thèse de doctorat, Université Paris 7 : LADL, Centre
d'Etudes et de Recherches en Informatique Linguistique ;
RAJAONA, S., 1972, Structure du malgache, Etudes des formes prédicatives, Ambozontany,
Fianarantsoa, 785p ;
RAJAONARIMANANA, N., 1994, Grammaire moderne de la langue malgache, INALCO,
Paris, 128 p ;
RALALAOHERIVONY, B. S., 1995, Lexique-grammaire du malgache : constructions
adjectivales, Thèse de doctorat sous la direction de M. Gross, U.F.R. de Linguistique,
Université Paris VII ;
SMITH, C. S., 1991, The parameter of aspect, London, Kluwer Academic Publ. ;
VALETOPOULOS, F., 2003, Les adjectifs prédicatifs en grec et en français : de l’analyse
syntaxique à l’élaboration des classes sémantiques, Thèse de doctorat sous la direction de
G. Gross, Laboratoire de Linguistique Informatique, Université Paris XIII, 351p ;
VAN DE VELDE, D., 1999, Adjectifs d’état, adjectifs de qualité, Fonctions syntaxiques et
rôles sémantiques, Arras : Artois Presses Universitaires, pp. 151-160.
44
Brugman C.
[email protected]
Conners T.
David A.
[email protected]
[email protected]
University of Maryland Center2
Gnanadesikan1 A.
[email protected]
BEYOND ASPECT: THE PARTICIPANT IN SOUTH ASIAN LVCS
Abstract
This paper makes explicit a particular facet of the semantic contribution of light verbs in a
number of South Asian languages. A range of examples is described in terms of a modeling of
the role of the participant, in both the narrated and speech event, in a broadly Jakobsonian
account. In moving beyond the frequently noted contribution of the LV in terms of aspect and
valency, we begin a more systematic account of a range of phenomena common in the South
Asian linguistic area.
Keywords: Light Verb Constructions; Participant Role; South Asian languages.
1. Introduction
1.1. Background and scope
This paper explores a grammatically-defined subset of light verb constructions (LVCs) found in
a number of South Asian languages. Representing the beginnings of a larger comparative study
of South Asian predication phenomena, the paper focuses on features of the semantic and
functional properties of these complex predication constructions and the light verbs (LVs) that
characterize them. Cross-linguistically many LVs are form-identical with verbs of posture and
verbs of directional motion or directed interaction. For South Asia, LVs include the more
productive and common „give‟, „take‟, and „go‟, as well as more restricted LVs such as „push‟,
„die‟, „hit‟, and „sit‟.
Past analyses of LVs have characterized their contribution to the LVC largely in terms of
event semantics, in particular aspect (Butt 2005, Hook 1993, Bashir 1993) and/or thematic role
assignment (Grimshaw & Mester 1988, Davies 1993). Those properties of these constructions
deserve more attention cross-linguistically. In this paper, however, we assume a basic understanding of those phenomena, and add for consideration some sub-thematic properties of the
participant and of the speaker‟s assessment of the event or its participants—an assessment which
may focus on a participant or on the event as a whole. Such qualities have been observed by
many South Asian scholars; however, they have largely been treated as a series of idiosyncratic
curiosities rather than as a feature of these constructions that may be subject to generalization
(exceptions include Butt 1993 and Paul 2004). Our more inclusive account moves beyond
describing these features of event semantics to sketch out a unified account for this larger range
of effects that LVCs can contribute to an utterance. Our approach takes off from Jakobson‟s
1
This paper has benefitted from discussion with and comments from Kanwal Bashir, Charles Chang, Christopher
Green, Mohini Madgavkar, Polly O‟Rourke, and Tristan Purvis.
2
This material is based upon work supported, in whole or in part, with funding from the United States Government.
Any opinions, findings and conclusions or recommendations expressed in this material are those of the authors and
do not necessarily reflect the views of the University of Maryland, College Park and/or any agency or entity of the
United States Government.
45
(1957) formalization for notating linguistically-expressed relationships among the speech event,
the narrated event, and their respective participants.3
According to our working definition (adapted from Butt 2003), light verbs have the
following properties:
i.
ii.
iii.
iv.
v.
The LV is form-identical to a lexical verb, and not subject to phonological reduction;
The LV is “bleached” semantically with respect to its lexical-verb counterpart, but
nevertheless contributes lexical semantics to the construction;
The LV carries the tense/aspect/modality and agreement inflection, if there is any;
The LV and its verbal complement together denote a single event;
The LV may contribute substantially to the argument structure of the event.
Note that property (iv) excludes causative and permissive constructions, which can be analyzed
as two separate events (Dowty 1979).
Cross-linguistically, LVCs may involve a nominal, adjectival, or verbal complement. Studies
of LVCs have focused largely on Japanese, Korean, Australian languages, and to a lesser extent
Turkic and Caucasian languages (see Bowern 2005 and 2009 for recent surveys). Here we limit
our analysis to those with verbal complements (hereafter V-V LVCs), though we suggest that the
analysis can be extended to account for the other types of LVCs. Given the productivity and
range of V-V LVCs in both Indo-Aryan and Dravidian languages, these constructions have
received relatively little attention in the literature. Those works that have discussed it have
largely limited discussion to a few often cited languages such as Hindi/Urdu, Tamil, and to a
lesser extent Marathi, Malayalam, and Bangla (cf. Butt 1993, 1995, 2003 on Hindi/Urdu; Fedson
1981, 1993 on Tamil; Saurov 2011 on Bangla; Pandharipande 1993 and Deoskar 2006 on
Marathi). Here we consider in addition Divehi and Panjabi.
1.2. Some initial examples
South Asian V-V LVCs have been described as conveying certain aspectual interpretations. The
following minimal pair from Punjabi shows a typical distinction:
(1) a.
Billi ne saaraa dúd pitaa.
cat ERG all
milk drink.PRF.MSG
„The cat drank all the milk.‟
b.
Billii saaraa dúd pii gaii.
cat all
milk drink go.PRF.FSG
„The cat drank up all the milk.‟
Panjabi
(based on Bhatia 1993:252)
In (1b), the LV gaii „went‟ makes explicit the telicity of the event that in (1a), which contains a
simplex verb, is conveyed only through the quantifier. In addition to telicity, such aspectual
contributions of LVs as inception, progressivity, and iterativity have been noted.
Another range of previous accounts examines the potential contribution of LVs to the overall
argument structure. The two Malayalam LVs tār and koʈukk „give‟ increase the number of
arguments, as exemplified in (2) (Davies 1993, citing Mohanan 1983).
(2) a.
3
Amma kuʈʈikkə pustakam waaŋŋik-koʈuttu
mother child.DAT book
bought-gave
„Mother bought the child the book.‟
Cf. Fedson (1993), who also references Jakobson.
46
Malayalam
b.
Amma enikkə ninakkə pustakam waaŋŋit-tannu
mother 1SG.DAT/2SG.DAT book
bought-gave
„Mother bought me/you the book.
(Davies 1993)
Light verbs glossed as „give‟ similarly add benefactive arguments in other South Asian
languages: denaa in Panjabi (Bhatia 1993), denī in Divehi (Reynolds 2003), and dewa in
Bangla (Paul 2004). Davies observes that such LVs impose their thematic role assignments on
the sentence containing the construction, that is, the overall argument structure represents the
union of the arguments assigned by the complement predicate and those assigned by the light
verb.
The above examples show that LVCs in Panjabi and Malayalam are associated with some of
the same properties of event structure as LVCs in better-studied languages. However, neither
aspect nor thematic role assignment can account for a number of effects elaborating the
participants‟ behavioral or internal states, or the speaker‟s assessment of the action or event.
Example (3b) represents a step away from event semantics, as it requires reference to both the
speech event and its participants as well as the narrated event and its participants:
(3) a.
b.
onan ne dasiyaa
they-OBL ERG tell.PRFT.MSG
„They said.‟
Panjabi
(based on Bashir & Kazmi forthcoming)
smajh
naiɳ aandii
kyoɳ tuɳh saarii
understanding NEG come.PRS.FSG why you all
gall onuɳ das baiʈhii
eɳ!
matter her.OBL tell sit.PSTPRT.FSG AUX. 2S.PRS
„I just don‟t understand why you‟ve told her this! (Now she will really
exaggerate it and tell the whole city!)‟
(K. Bashir p.c.)
In (3b), the LVC conveys the speaker‟s assessment of some element of the narrated event, an
interpretation of inappropriateness that is highly dependent on the surrounding context.4 It may
be for that reason—the inextricably pragmatic nature of this feature of meaning—that it is not
considered within the same traditions of scholarship that have attended to the aspectual and
thematic-role contributions of LVCs. In the section below we collect more examples from the
literature, classify them in terms of Jakobson‟s distinctions, and speculate about why LVs should
be the source for such a wide range of effects.
2. Two events and their participants
Many theorists of linguistic meaning have provided means of articulating the relationships
between the speech event and its components—including the speaker and the hearer—and the
narrated event and its components—including its participants and its activities (e.g. Allan‟s
(1986) differentiation between the setting and the world spoken of). An early model of this
distinction, in the modern western linguistics tradition, was sketched by Jakobson (1957) to
provide a means for describing the Russian evidential system—a linguistic phenomenon
considered at that time to be peculiar. He notes that
in order to classify verbal categories two basic distinctions are to be observed:
4
We thank a reviewer for emphasizing this point to us. In what follows, we capture this observation with the use of
terms like “implicated,” without assuming any particular theory of implicature.
47
1. speech itself (s) and its topic, the narrated matter (n);
2. the event itself (E), and any of its participants (P), whether „performer‟ or „undergoer‟.”
Consequently four items are to be distinguished: a narrated event (E n), a speech event (E s), a participant of
the narrated event (P n), and a participant of the speech event (P s), whether addresser or addressee.
(Jakobson 1957 : 389-390)
Because a complex predicate represents a type of single narrated event En being denoted by
two lexemes, both of which carry some semantic content, it would follow that the event
semantics—that is, its aspectual and argument-structure properties—will be affected by both
lexemes. This indeed is what has been observed and well-analyzed. In other words, these
categories comfortably account for the minimal pairs in (1) and (2) where telicity and semantic
role assignment respectively are contributed by the light verb. Jakobson‟s model and our
working definition of LVCs allow us additionally to suggest how the lexical semantics vestigial
in LVs would also be capable of contributing to any other verbal phenomena making reference to
En. That is, aspectual or thematic effects invite inferences that require reference to other verbal
categories in which En plays a role, such as Jakobson‟s PnEn and PnEn/Ps. In what follows, we
explain how the former can be associated with agency and the latter, which Jakobson identified
with the category of mood, with speaker assessment of Pn‟s action. We additionally posit a
category of En/Ps, accounting for the speaker‟s evaluation of the event; our examples below
involve mirativity.
Let us begin with the PnEn relationship. Originally conceptualized by Jakobson as accounting
for voice, it can also be understood to capture sub-thematic effects in terms of agency, since
agency is a property of the relation between the participant and the event. This includes meaning
contributions of involvement or increased agency of the actor. Consider the following Divehi
examples:
(4) a. Hongkonggai 64 aharuge in ir i anhenaku
marā-likamuge
Divehi
HongKong.LOC 64 yr.GEN English woman.UNSPEC kill.prspart-put.pstpart-NMLZ.GEN
tuhumatu ai “Farīdu” namaka kiyā
29 aharuge divehi
suspicion.LOC Fareed name.UNSPEC.DAT-call.PRESPART 29 year.GEN Maldivian
irihenaku era u ai
hayyaruko ieve.
man.UNSPEC that.island.LOC arrested.PERF.end
„A 29 year-old Maldivian man named Fareed has been arrested on suspicion of having
murdered a 64-year-old English woman in HongKong.‟
(Minivan News 2011)
b. bomek
govvā-lai
de-mīhun marā-laifi-eve.
bomb.INDEF explode.CVB-put.CVB two-people kill.CVB-put.CVB.PFCT.END.
„A bomb exploded violently and killed two people (violently).‟
(adapted from Haama Daily 2010)
c. Muzāharāa
evvi
mīhun-vanī, emerikā e raī
bush-akī
demonstration.DAT gather.PSTPART people-be.FOC America.GEN president Bush-COP
duniy ai mīhun marā,
duniy e emme-bo u aniyā-veriyā kama -eve.
world.LOC people kill.PRESPART, world.GEN single-big violent-person that-END.
„To the people gathered at the demonstration, American President Bush is the most
violent person in the world, killing the people of the world.‟
(Haama Daily 2011)
In Divehi, the LV lanī „put‟ can contribute shades of meaning regarding degrees of involvement
of the participants, which may play out in particular ways depending on other semantic
properties of the sentence. In (4a), the verb maranī „kills‟ appears in construction with the LV
48
lanī „puts‟. The LVC characterizes the agent‟s activity in terms of increased involvement—here,
deliberateness—conveyed in the translation by the word „murder‟. This LVC also allows nonhuman elements in the agent role; in (4b), for example, increased involvement implicates greater
effective force. In (4c), the simple verb maranī „kills‟ is used in preference to the LVC,
conveying that though there is a human agent, his involvement is less direct or immediate. This
triple shows the variation in shades of meaning of the LVC, as well as meaning differences
associated with the choice or the avoidance of the LVC. Such effects can be found across
languages.
Next we look at Jakobson‟s category PnEn/Ps, which we claim captures what other scholars
have characterized as speaker attitude; we use instead the term “speaker assessment,” since it
includes inferences based on observable elements of the event, as well as more internallyfocused speaker opinion.
For example, the Panjabi LV suʈʈnaa „throw‟ may add a characterization of impatience or
vehemence on the participant of the narrated event, or Pn. Further examples include cheɖɖnaa
„leave‟, which may characterize the Pn as indifferent or reluctant; maarnaa „hit, beat, shut‟,
which may emphasize the vehemence, deliberativeness, or aggressiveness of the action.
Similarly, Panjabi vekhnaa „see‟ qualifies the action of the agent, or Pn, as tentative,
experimental or exploratory; jaanaa „go‟ when used with psychological verbs adds a
characterization of impulsiveness on the part of the agent (for Panjabi see Bhatia 1993, and
Akhtar 1997 and 2004). A similar effect of LV dzā ‟go‟ can be found for Marathi:
Madhū he bolūn elā
Madhu this say went.SG.M
„Madhu said this (inadvertently).‟
(5)
Marathi
(Pandharipande
1993)
In Divehi annanī „gets‟ indicates that the agent is behaving unreservedly (Cain & Gair 2000).
In (6a) below, from Marathi, the LV ghenar „take‟ reflects the speaker‟s judgment that in doing
work for his mother the agent is actually benefiting himself:
(6) a.
b.
tyāne āī āʈhī te kām karūn ghetle
Marathi
he.ERG mother.for that work do
took
„He did the work for his mother. (He felt that he was doing it for himself.)‟
(Pandharipande 1993)
tyāne āī āʈhī te kām kele
he.ERG mother.for that work did
„He did the work for his mother.‟
(M. Madgavkar p.c.)
Such ascriptions of involvement, affectedness, effectiveness, etc., take a crucial step out into the
world of the speech event because they involve speaker assessment of the event participant‟s
actions. All of the above examples may be characterized as inferences by the speaker regarding
the participant‟s internal state.
Another type of speaker assessment of the Pn would be Ps‟s opinion of Pn‟s action. For
example, Tamil taɭɭu „push‟, while imposing iterative aspect on the activity, can further convey
the speaker‟s view of this activity as positive or negative, as in (7), which can convey the
speaker‟s disapproval of the narrated event:
(7)
Kumār cikaret ūti.t
taɭɭukiṟāṉ.
Kumar cigarette smoke.CVB push.3.PRS.SG.M
„Kumar smokes one cigarette after another.‟
49
Tamil
(Lehmann 1989)
An analogous case obtains in Bangla, where the speaker, Ps, imputes durative aspect to the
narrated event, En, and additionally assesses it as futile, as exemplified in (8).
(8)
Ma ʃara-jibon ʃɔnʃarer jonne kheʈe
morlen
Bangla
Mother whole-life family.GEN for work.PRFPART die.3HON.PST
„Mother worked the whole of her life for (her) family. [Implying futility]
(Paul 2004)
This relationship further captures the role of LVs such as Panjabi baiʈhnaa „sit‟ in (3b) above,
which characterizes the narrated event, En as inappropriate—crucially an assessment made by the
speaker, or Ps.
Finally we consider the category En/Ps, or the relation between the speaker and the narrated
event without reference to the event participants. Consider the mirative effect of the Bangla LV
bɔʃa ‘sit‟, which imposes a telic quality on „say‟ and further characterizes the narrated event as
unexpected or surprising:
(9)
Ritu ʃɔbar majhe kɔthaʈa
bole
boslo.
Ritu all.GEN among word.CLSF say.PRFPART sit.3PST
„Ritu went and said it in the middle of the crowd!‟
Bangla
(Paul 2004)
By contrast with this, the Panjabi LV that conventionally conveys the event‟s unexpectedness for
the speaker is reported to be penaa „fall‟(Bhatia 1993).
Not all South Asian languages display the same range of LVs and LVCs. In fact, Divehi
seems to be comparatively limited and Panjabi particularly rich in their respective LV
inventories. In all cases, however, some notion of Jakobson‟s participant roles is needed to
understand the full range of semantic/pragmatic shadings of the LV and the LVC. Such sublexical semantic properties of the LVs as deictic and directional meaning, volition, and directness
within the chain of action can be contributions. In some cases, the relationship between the
semantics of the full-verb counterpart and this more abstract contribution is intuitive—for
instance in (4a) with LV „put‟, involvement in the action and the ab-origo directionality provided
by the LV correspond to those properties in the full verb. In (6a), the self-directedness of the
action corresponds to the ad-origo directionality of the full verb „take‟. For other cases, such as
in (3b) with LV „sit‟, the relationship between the lexical verb and the corresponding LV‟s
contribution to its construction is not so easily discerned; nevertheless, the LVC does
conventionalize this meaning.
3. Conclusions and Extensions
Given the space limits of this paper, we have, by necessity, excluded discussion of a number of
constructions that are both frequently encountered in South Asian languages and are often
subsumed in discussions of LVs. These include constructions where a LV appears with a nonverbal complement, a noun or adjective. While we do not discuss these in detail here, we do note
that our participant-based account of V-V LVCs has a natural extension to N-V LVCs. We
observe first that an LVC can add a participant in the thematic hierarchy. Thus, „be‟ verbs
generally create intransitive predicates, while „do‟ verbs create transitive predicates. This is
directly analogous to the way in which „give‟ adds a beneficiary to V-V LVCs.
Secondly, LVs that govern substantival complements may characterize the event structure or
add speaker assessment. Consider the following Tamil examples:
(10) a.
nān an
pōha-māʈʈ n;
romba boor aɖikkudu.
50
Tamil
1sg there go.INF-NEG.FUT.1SG. very bore beat.PRES.3SG.
„I won‟t be going there; it‟s really boring.‟
b.
c.
kāppi paɳɳu
copy do
„to copy‟ (neutral)
kāppi aɖi
copy beat
„to copy‟ (with pejorative connotation of wrongness, unpleasantness, etc.)
(based on Schiffman 1999)
In (10a), aɖi „beat, strike‟ emphasizes the speaker‟s negative assessment of the event, or En/Ps;
the minimal pair in (10b) and (10c) further illustrate this additional effect of negative speaker
assessment that aɖi can have.
In this account of V-V LVCs in some South Asian languages we have used Jakobson‟s
primary distinction between the narrated event and the speech event, and his secondary focus on
participants—especially the agent of the narrated event and the speaker, the analogue in the
speech event of the agent. Jakobson‟s typology allows us to account naturally for a wider range
of meaning properties of LVCs than can be covered by linguistic models that ignore the primary
distinction. In Jakobson‟s classification, the participant of the narrated event, Pn, is the domain of
agency, volitionality, and involvement. The category PnEn/Ps includes features of speaker
inference and opinion. We note, however, that Jakobson‟s putative categorical distinction
becomes blurred when we try to classify some of the effects that involve sub-thematic properties
of Pn: any reference to Pn‟s internal state actually involves an inference of the speaker‟s;
however, some inferences are more directly tied to the observable situation En than others.
Additionally, we found that LVCs may implicate Pn‟s assessment of the En: in particular, the
speaker‟s evaluation of En as unexpected falls into this category.
This paper represents a preliminary sketch of a range of LV behaviors that has hitherto been
somewhat neglected. A more systematic study of these constructions, particularly in natural
contexts, will enable us to draw cross-linguistic conclusions as to the inventory of LVs used in
South Asia, their contribution to the interpretation of the sentence, the interaction between their
event-semantics functions, and the ascriptions by and to participants in the narrated event and the
speech event.
51
References
Akhtar, Raja Nasim. 1997. Affix „-s(uu)‟ Constructions in Punjabi. In Spencer, A. ed., Essex Graduate Student
Papers in Language and Linguistics. Vol. 1, University of Essex.
Akhtar, Raja Nasim. 2004. Aspectual Complex Predicates in Punjabi. In Singh, Rajendra, ed., The Yearbook of
South Asian Languages and Linguistics. The Hague: Mouton de Gruyter.
Allan, Keith. 1986. Linguistic Meaning. Two Volumes. Sydney: Routledge and KeganPaul.
Bashir, E. 1993. Causal Chains and Compound Verbs. In M. Verma, ed., Complex Predicates in South Asian
Languages, 1-31. Delhi: Manohar Publishers.
Bashir, Kanwal & Abbas Kazmi. Forthcoming. Punjabi-English Dictionary. Hyattsville, MD: Dunwoody Press.
Bhatia, Tej K. 1993. Punjabi: A Cognitive-descriptive Grammar. London: Routledge.
Bowern, Claire. 2005. Position paper: Symposium on Intertheoretical Approaches to Complex Predicates. Houston.
Ms.
Bowern, Claire. 2009. The Historical Linguistics of Complex Predication. Houston. Ms.
Butt, Miriam. 1993. Conscious Choice and Some Light Verbs in Urdu. In M. Verma, ed., Complex Predicates in
South Asian Languages, 31-46. Delhi: Manohar Publishers.
Butt, Miriam. 1995. The Structure of Complex Predicates in Urdu. CSLI: Stanford.
Butt, Miriam. 2003. The Light Verb Jungle. Handout from the Workshop on Multi-Verb Constructions, Trondheim.
Cain, Bruce D. & James W. Gair. 2000. Dhivehi (Maldivian). Languages of the World/Materials 63. Munich:
Lincom Europa.
Davies, William D. 1993. A Union Analysis of a Telugu Complex Predicate Construction. In M. Verma, ed.,
Complex Predicates in South Asian Languages, 47-61. Delhi: Manohar Publishers.
Deoskar, Tejaswini. 2006. Marathi Light Verbs. Ithaca, NY. Ms.
Dowty, David. 1979. Word Meaning and Montague Grammar. Dordrecht: Reidel.
Fedson, V. 1981. The Tamil Serial or Compound Verb. PhD Dissertation. University of Chicago.
Fedson, V. 1993. Complex Verb-Verb Predicates in Tamil. In M. Verma, ed., Complex Predicates in South Asian
Languages, 63-76. Delhi: Manohar Publishers.
Grimshaw, Jane & Armin Mester. 1988. Light Verbs and Theta-Marking, Linguistic Inquiry 19.2:205-232.
Hook, Peter E. 1993. Aspectogenesis and the Compound Verb in Indo-Aryan. In M. Verma, ed., Complex
Predicates in South Asian Languages, 97-113. Delhi: Manohar Publishers.
Jakobson, Roman. 1957. Shifters and Verbal Categories. In Waugh, Linda and Monique Monville-Burston , eds. On
Language: Roman Jakobson. Cambridge, MA: Harvard University Russian Language Project 1990.
Lehmann, Thomas. 1989. A Grammar of Modern Tamil. Pondicherry: Pondicherry Institute of Linguistics and
Culture.
Montaut, A. 2006. Mirative Meanings as Extensions of Aorist in Hindi/Urdu. In R. Singh, ed., The Yearbook of
South Asian Languages and Linguistics, 71-86. Berlin: Mouton de Gruyter.
Mohanan, K.P. 1983. Move NP or Lexical Rules? Evidence from Malayalam Causativization. In L. Levin, M.
Rappaport, and A. Zaenen, eds, Papers in Lexical-Functional Grammar. Bloomington, IN: Indiana University
Linguistics Club.
Pandharipande, Rajeshwari. 1993. Serial Verb Constructions in Marathi. In M. Verma, ed., Complex Predicates in
South Asian Languages, 177-195. Delhi: Manohar Publishers.
Paul, Soma. 2004. An HSPG Account of Bangla Compound Verbs with LKB Implementation. PhD Dissertation,
University of Hyderabad.
Reynolds, Christopher. 2003. A Maldivian Dictionary. London: RoutledgeCuzon.
Saurov, Syed. 2011. Classification of Light Verbs in Bangla. Handout from the Workshop in South Asian Syntax
and Semantics, Amherst MA.
Schiffman, Harold F. 1999. A Reference Grammar of Spoken Tamil. Cambridge: Cambridge University Press.
52
Constant Matthieu
Université Paris-Est
[email protected]
Dister Anne
Facultés universitaires Saint-Louis
[email protected]
Nakamura Takuya
Université de Louvain
[email protected]
DE LA LIBERTE COMBINATOIRE AU FIGEMENT.
LE VERBE FAIRE DANS UN CORPUS DE FRANÇAIS PARLE
Résumé
Dans cet article, nous analysons les différents emplois de faire dans un corpus de
transcriptions de français parlé. Nous avons relevé 4035 occurrences du verbe faire, que nous
avons réparties en 7 emplois différents : causatif, passe-partout, verbe support, emploi figé et
semi-figé, pro-verbe et une catégorie « divers » qui demandera à être affinée. Nous discutons
plus particulièrement de cas problématiques, notamment ceux qui concernent la distinction
entre verbe plein et verbe support ou encore la différence entre le verbe plein et le verbe
passe-partout. Nous présentons également des données chiffrées de ces différents emplois
dans notre corpus d’oral spontané.
Mots clés: faire, lexique-grammaire, corpus, liberté combinatoire, verbe support.
1. La tripartition du verbe faire dans le cadre du lexique-grammaire
Depuis le commencement de l’entreprise du lexique-grammaire du français, le verbe faire a
toujours reçu une attention particulière, en fonction du développement théorique de ce qu’on
connait aujourd’hui sous le nom de verbe support.
Inspiré de Zellig Harris (1965, entre autres) qui a analysé certains types de verbes anglais
comme opérateurs unaires de nominalisation qui s’appliquent à une phrase verbale, Maurice
Gross (1975) a d’abord lui aussi introduit la notion de l’opérateur de nominalisation dans la
description des phrases simples en français : une phrase avec un verbe (ou un adjectif)
prédicatif peut avoir une phrase avec un opérateur suivi d’un prédicat déverbal (ou
désadjectival). La relation d’équivalence entre deux types de phrase est une transformation, et
théoriquement, elle sert à réduire le nombre d’unités lexico-syntaxiques : les deux types de
phrases sont des réalisations variantes d’un même prédicat (sémantique, cf. Gross 1981) et de
ses arguments1. Parmi ce type d’opérateurs unaires, Gross (1975) comptait des verbes comme
faire, avoir, être, etc. La période après Méthodes jusqu’au milieu des années 80 a vu
l’application intensive de cette idée de nominalisation avec plusieurs opérateurs, selon la ligne
tracée par Gross (1975, 1981). La nominalisation avec l’opérateur faire a été étudiée par GirySchneider (1978).
En conséquence de diverses études de nominalisation avec opérateurs, la notion de
l’opérateur unaire s’est révélée généralisable, au-delà d’une relation de nominalisation : en
effet, un substantif sans aucun lien morphologique avec un verbe ou un adjectif peut
également fonctionner comme prédicat, sélectionnant ses propres arguments, mais il ne peut
pas à lui seul construire une phrase simple, pour des raisons morphologiques. Il faut donc un
« support » d’informations morphologiques de temps, aspect et mode. Ce sont exactement
ceux qui ont été appelés opérateurs qui assument cette fonction et les opérateurs s’appellent
1
La transformation de nominalisation implique la même grille d’arguments pour les deux types de prédicats,
verbaux et nominaux. Mais sur l’insuffisance de cette hypothèse, voir Nakamura (2009a,b).
53
désormais verbes supports. La généralisation de la notion du support a ouvert un vaste champ
de description vers les prédicats non verbaux, et leurs études descriptives ont été conduites de
la même façon que celles sur les prédicats déverbaux : étant donné un verbe support
particulier, il fallait lister tous les prédicats nominaux qui peuvent se combiner avec lui pour
former une phrase simple. Une étude exhaustive sur les substantifs prédicatifs qui sont
construits avec le verbe support faire a été réalisée par Giry-Schneider (1987). Depuis,
l’emploi en tant que support du verbe faire a donc été étudié intensivement, en même temps
que divers types de substantifs prédicatifs.
Il va de soi que l’emploi du verbe support est défini d’une manière différentielle, c’est-àdire, en opposition à un emploi non support du même verbe. Le premier emploi non support
du verbe faire est l’emploi dit distributionnel (ou plein) : contrairement à une phrase avec le
support, une phrase avec l’emploi plein de faire est construite autour du prédicat faire et non
autour d’un substantif prédicatif. Un autre emploi du même verbe, qui ne reçoit pas
d’habitude une catégorisation particulière, est le verbe faire qui apparait dans une expression
figée. Certains faire qui apparaissent dans une expression figée sont considérés comme
supports (cf. Giry-Schneider 1987) : mais trop peu d’attention a été portée à ce type de faire
pour pouvoir trancher sur son statut. Il est donc raisonnable de partir de l’hypothèse que les
emplois du verbe faire sont tripartites : plein, support et figé.
Avec cette distinction comme hypothèse de départ, quelques décennies après les travaux de
Giry-Schneider (1978, 1987) sur l’opérateur et le support faire, nous revenons sur ce verbe, et
nous entreprenons plus spécifiquement une étude descriptive d’un corpus du français parlé, ce
qui est rare dans le genre. En effet, la classification du lexique-grammaire a presque toujours
été conduite sur un lexique théorique et elle n’a presque jamais été confrontée à des données
attestées, qui plus est issues de l’oral. Cette double particularité de notre approche – des
données attestées issues de l’oral non planifié – nous a confrontés à un foisonnement
d’emplois très peu discutés dans le cadre du lexique-grammaire.
2. Corpus et méthodologie
Les données sur lesquelles nous avons choisi de travailler sont extraites de la banque de
données textuelles orales Valibel (Dister et al. 2009). Il s’agit de transcriptions d’un oral non
planifié, qui relève principalement de deux situations de communication (conversations
informelles en famille ou entre amis et entrevues sociolinguistiques) ; les locuteurs ont des
profils sociolinguistiques variés, allant d’étudiants de l’enseignement technique à des cadres
de sociétés ou des professionnels de la parole (pour le détail du corpus, voir Dister 2007).
Le corpus, composé de 60 textes, comprend 443 047 mots graphiques et correspond
grosso modo à 40 heures de parole. Avec le logiciel de traitement de corpus Unitex (Paumier
2003), nous avons extrait automatiquement toutes les occurrences du verbe faire. Après avoir
éliminé manuellement les occurrences non souhaitées (où l’une des formes potentiellement
fléchies de faire correspond dans nos données à une occurrence d’une autre classe
grammaticale), nous avons obtenu 4035 formes que nous avons systématiquement codées
pour ce qui est des emplois du verbe faire (cf. section 2).
Chacun d’entre nous a effectué le codage sur un tiers des données, celles-ci étant triées
sur la concordance où les occurrences de faire étaient classé dans l’ordre alphabétique.
Ensuite, les données ont été triées suivant le nom remplissant la place syntaxique de N1 (qu’il
soit prédicatif ou pas), afin de valider le 1er codage. Cette manière de procéder en deux
passes, avec trois codeurs différents ayant élaboré en commun les critères de classification,
nous semble garantir une homogénéisation du codage, même si – et cela semble inhérent à la
tâche – de nombreux cas problématiques demeurent.
54
3. Typologie des emplois de faire
Cette étude nous a amenés à établir une typologie des différents emplois du verbe faire
trouvés dans le corpus. En partant de la tripartition classique du lexique-grammaire, de l'étude
de Giry-Schneider (1987) et des différentes observations sur les données, nous avons réparti
les occurrences de faire en 6 classes.
 Les emplois causatifs (fac)2
Certaines occurrences de faire jouent le rôle d'un opérateur causatif. Le plus souvent, elles
sont détectables par la construction syntaxique dans laquelle rentre faire : il admet comme
complément une complétive ou une infinitive.
je crois que je vais la faire agrandir
il ne parvient pas à faire passer son message
Nous considérons aussi comme causatives les constructions syntaxiques N0 faire N1 de N2
paraphrasables en N0 transformer N2 en N1 :
je n'ai pas envie qu'on en fasse un enseignement obligatoire
= Je n'ai pas envie qu'on le transforme en enseignement obligatoire
= Je n'ai pas envie qu'on fasse que cela devienne un enseignement obligatoire
Comme le note Giry-Schneider (1987), il existe également des cas causatifs de la forme faire
N. En général, soit le sujet est non agentif et non restreint, soit le complément N est une
réduction d’une phrase élémentaire.
c'est un trait un peu relâché qui fait un peu paysan
il fait le désespoir de son père
= il cause le désespoir de son père
= il fait que son père a du désespoir
 Les emplois « passe-partout » (pp)
Le verbe faire a parfois la particularité de remplacer un verbe plein. Il joue alors le rôle d'un
verbe « passe-partout »3. Giry-Schneider (1987) utilise quant à elle le terme « pro-verbe »,
que nous réservons quant à nous à un autre emploi (cf. ci-dessous). Dans un grand nombre de
cas, le verbe substitué a le sens traditionnel – appelé parfois sens plein – de
« créer/produire/fabriquer ».
il ne faut que deux semaines pour faire un châssis
= il ne faut que deux semaines pour fabriquer un châssis
c’est bien pour des troisièmes là faire des meubles toute l’année c’est pas mal
= c’est bien pour des troisièmes là fabriquer des meubles toute l’année c’est pas mal
il avait fait un trou là-bas et il avait caché son coffre
= il avait creusé un trou là-bas et il avait caché son coffre
Il existe des cas où la notion de production est moins évidente, voire inexistante :
il est certain je crois que si on doit faire un pourcentage
= il est certain je crois que si on doit calculer un pourcentage
il fait carrément trente kilomètres parfois euh quarante
= il parcourt carrément trente kilomètres parfois euh quarante
2
Pour de nombreux cas, l’interprétation de faire dépend du contexte. Nous ne discuterons pas dans cet article,
par manque de place, des nombreux exemples virtuellement ambigus qui nécessitent un retour au texte – que
nous avons fait – pour leur analyse.
3
Mirto (2003) propose le terme de "Proxy verb" pour les emplois similaires du verbe fare en italien.
55
Nous avons également observé des occurrences où faire mettait en relation une personne avec
un évènement :
vous avez connu des personnes qui faisaient tous les enterrements
= vous avez connu des personnes qui assistaient à tous les enterrements
tu as fait (toux) tu as fait ton marathon // à Paris quand ?
= tu as fait (toux) tu as (couru + participé à) ton marathon // à Paris quand ?
 Les emplois « support » (sup)
Le verbe faire fonctionne également comme un verbe support (cf. section 1). Il entre dans une
construction N0 faire Det N W avec W des compléments potentiels. Le verbe faire n'est alors
pas substituable par un autre verbe (sauf variantes aspectuelles et stylistiques). Ce n'est plus
faire qui sélectionne les arguments, mais le nom prédicatif N. Contrairement à Giry-Schneider
(1987), nous avons considéré comme obligatoire, pour classer faire parmi les supports, le
critère de la réduction de la construction en groupe nominal via une relativation et un
effacement de faire :
il n’y a pas à faire de hiérarchisation
on va faire des achats
 Les emplois figés (fig)
Nous avons répertorié environ 70 expressions figées différentes en faire de différentes natures
comme le montrent les exemples ci-dessous :
recommencer tout / et euh / faire table rase du wallon
il y a un moment où on a fait son temps
il fait en sorte que la communication ne passe plus
on n'a pas fait bande à part
un jour et demi à faire les magasins à courir pour une chose
ça fait partie aussi d' une d' une ambiance générale
 Les emplois semi-figés (semi)
Nous avons utilisé une classe incorporant des emplois semi-figés, qui ont comme définition
de rentrer dans une construction syntaxique figée, mais admettant un complément avec une
certaine variation lexicale (le plus souvent appartenant à une classe sémantique claire). Par
exemple,
Ça fait DUREE que P
=: Ça fait (15 ans+longtemps+3 minutes+...) que j'attends
Il fait ADJ_METEO
=: Il fait (mauvais+beau+pluvieux+...)
N0 faire DU ACTIVITE
=: Marie fait du (piano+ski+...)
Nous avons également trouvé des constructions figées de la forme
N0 faire LE N
=: Max fait le malin
Comme le note Giry-Schneider (1987), ce cas est un peu particulier car le complément N est
très productif.
 Les emplois pro-verbe (pro)
Nous utilisons le terme pro-verbe faire comme il a été défini par Togeby (1983 : 214 et sv).
Le verbe faire reprend, comme le ferait un pronom pour un syntagme nominal, un autre verbe
(ou une construction verbale), indépendamment de la classe et du sens de celui-ci.
alors ce qu’on essaie de faire / c’est au début du camp ils apportent leurs enfants ils
disent au revoir aux enfants et puis / ils partent
56
Dans cet emploi, il est très souvent accompagné d'un pronom (ex. le, ce que, cela, etc.) :
blaJV1 {il} travaille chez Schumacher / en Outremeuse
blaND0 et il est content
blaJV1 non / (rire) c' est pas ce qu' il veut faire lui il veut se mettre indépendant avoir
son magasin quoi
 Les autres emplois
Il existe encore d’autres emplois emplois de faire, comme des emplois autonymiques :
j’ai demandé à un gars qu’il conjugue faire
Outre ces emplois autonymiques, nous nous sommes trouvés confrontés à certains emplois de
faire, plus inattendus, très peu traités dans la littérature, que nous n’avons actuellement pas
classés car nous n’avons pas encore établie de critères. Dans le présent article, nous avons
décidé de les laisser de côté.
4. Cas problématiques
Enumérons quelques cas qui nous paraissent fondamentaux du point de vue théorique.
4.1.
Verbe plein ou verbe support4 ?
Pour Giry-Schneider (1987, dorénavant GS), le support faire peut avoir, selon les N1, des
verbes extensions de faire : par exemple, un des emplois prédicatifs du substantif article est
classé dans la table FNPN, et comme le montrent les exemples donnés par l’auteure, le
support faire dans ce cas-ci est substituable par le verbe écrire :
Marie fait un article sur la situation des pêcheurs
= Marie écrit un article sur la situation des pêcheurs
(GS, 1987 : 111)
Selon ce raisonnement, le verbe écrire est une extension du verbe support faire, il est donc lui
aussi un verbe support et, par conséquent, le substantif un article est le prédicat principal de la
phrase. Les critères majeurs pour reconnaitre un verbe support : 1) identité des sujets5, 2)
double analyse, 3) réduction au syntagme nominal, etc., semblent également être vérifiés par
les phrases avec faire et avec écrire. De ce point de vue, les deux verbes sont qualifiés de
verbe support. De plus, il est difficile de nier l’intuition que le verbe écrire est un verbe plein
qui sélectionne lui-même ses arguments. Face à cette intuition, GS dit dans sa note (22) :
« Un verbe support (...) n’a pas toujours un sens vide ; ou bien c’est un verbe extension
de Vsup qui garde son sens plein comme signer dans signer un chèque à quelqu’un,
(...) » (ibid. : 211)
Cela semble donc être un cas où convergent les propriétés d’une phrase à verbe plein et celles
d’une phrase à verbe support : le fait que GS ait donné le statut du verbe support à faire et à
écrire est une interprétation extrême des phénomènes, conduite par la volonté théorique.
D’ailleurs, une autre interprétation extrême, qui consiste à dire que ni l’un ni l’autre n’est
un verbe support, semble logiquement possible et elle n’a pas pu être complètement exclue
par GS elle-même. Voyons la seconde partie conjointe de la note (22) :
« (...) ou bien c’est un verbe comme faire, qui a un sens vide en combinaison avec tel ou
tel N, mais qui peut se paraphraser par un verbe sémantiquement plein » (ibid., 211)
Cette seconde partie de la conjonction laisse le statut plein au verbe écrire et donne un statut
non plein au verbe faire, ce qui semble contredire le fait d’avoir considéré le verbe écrire
comme extension du support. A notre sens, il faut ici changer d’orientation du raisonnement :
4
Sur ce problème, voir Nakamura (2009a).
Qu’est-ce que ça veut dire pour un nom comme article d’avoir un sujet ? Nous mettons à part la question que
pose une phrase du type Ce corbeau a (fait/écrit) l’article de ce journaliste sur les centrales nucléaires.
5
57
ce n’est pas le verbe écrire qui est une extension du support, mais c’est faire qui est une
extension de certains verbes pleins, parce qu’il remplace certains verbes pleins. Ici, le verbe
faire s’approche plus du plein que du support. Sous cette optique, un substantif comme article
n’est pas à proprement parler prédicatif, mais un argument du verbe.
L’observation de notre corpus indique, en effet, qu’il s’agit là d’un phénomène général où
le verbe faire paraphrase un verbe sémantiquement plein, notamment un verbe dont l’objet
direct se réfère à un objet qui résulte du procès décrit par le verbe : faire = fabriquer, créer,
écrire, construire, inventer, dessiner, énoncer, etc. et N1 = agenda, album, dictionnaire,
patron, BD, billet, bouquin, livre, texte, phrase, avion, châssis, escalier, meuble, etc. Dans ces
emplois, nous avons classé faire comme « passe-partout », une dénomination bien sûr
préthéorique. Sans doute ce type de faire doit-il être considéré comme faire plein, verbe
générique dont l’objet direct reçoit l’interprétation résultative à l’issue d’une quelconque
activité de création.
4.2. Verbe plein ou verbe passe-partout ?
Examinons une autre série d’exemples, que nous avons également classés parmi les emplois
de faire comme verbe passe-partout : faire (les cafés/les enterrements/les
marchés/l’université/...). Dans notre corpus, interprétativement, ce sont des cas où le verbe
faire se substitue à des verbes pleins comme (assister/aller) à. Distributionnellement, le verbe
faire remplaçant un syntagme V Prép, il n’est pas clair que l’on puisse parler d’une
quelconque extension d’un verbe plein. Contrairement aux cas de la section précédente, le
verbe faire n’assigne pas à son élément post-verbal une interprétation résultative, et sa
fonction grammaticale n’est pas clairement celle d’objet direct (impossibilité de passivation).
Il est à remarquer que le même syntagme, par exemple, faire un enterrement, peut être
ambigüe au moins de deux façons, selon la fonction que joue faire : dans un cas, faire peut
être substituable par organiser (donc faire plein), dans l’autre, par assister à (donc faire pp).
Syntaxiquement, ces deux emplois sont distingués par le fait que seul dans le premier cas, le
substantif post-faire se comporte comme objet direct.
La raison pour laquelle nous n’avons pas classé ces emplois de faire parmi les supports –
alors que les N1 semblent bien des noms prédicatifs – est que nous ne pouvons pas déterminer
une relation d’identité des sujets entre le sujet du verbe faire et le sujet éventuel de ces N1.
Faute de place, nous ne pouvons approfondir cette question, donc nous nous contentons de les
appeler pp.
4.3. Verbe support, opérateur causatif, variante de être ?
Il est traditionnellement reconnu que le verbe faire a un emploi causatif. Cet emploi causatif
se construit soit avec une infinitive, soit avec une complétive. Notre corpus abonde en
exemples de cet emploi.
Par ailleurs, une phrase avec faire qui se construit avec un prédicat non verbal peut être
analysée comme résultat de l’application d’un opérateur causatif à une phrase à prédicat
nominal de base. GS (1987, chapitre 8) traite de ce problème en détail : son exemple est Ceci
fait une impression bizarre à Marie qui est considéré comme résultat de l’application de
l’opérateur causatif à une phrase à verbe support de base Marie a une impression bizarre.
A côté de cette analyse d’expressions causatives avec l’opérateur faire, elle énumère une
série d’exemples desquels elle ne s’est pas prononcée (on ne sait pas si elle le considère
comme support) : Jean (fait = est) (vieux/prof/curé/vielle France/vieux jeu).
Dans notre corpus, à part des exemples de ce dernier type comme il fait fermier, je fais
plus petit, etc., nous observons des expressions avec le sujet non restreint ça : ça fait
58
(paysan/bizarre/drôle/exotique/grand/classe...). Ces expressions sont sémantiquement
causatives, dans la mesure où le sujet ça est interprété comme une cause qui fait que quelque
chose ou quelqu’un semble paysan, bizarre, etc. et où on ne peut pas les paraphraser avec un
verbe copulatif à la place du verbe faire. Le sujet d’une proposition de base (ou proposition
enchâssée) ne peut pas, cependant, se construire autour du verbe faire : *ça (le/lui) fait
(paysan/bizarre/drôle/exotique/grand/classe...), ce qui est étrange puisque généralement, le
sujet d’une proposition de base à laquelle un opérateur causatif s’applique est conservé
comme un complément direct ou indirect de la phrase principale (ou sous forme de par N).
Ce type de faire est donc un type très spécial, homonyme entre faire opérateur causatif et
faire synonyme de être. Nous devons laisser à une autre occasion l’approfondissement de
cette question.
5. Répartition des emplois dans le corpus
Le codage systématique des 3045 occurrences du verbe faire (et ses formes fléchies) dans le
corpus a conduit à la répartition suivante :
Type
Nombre d'occurrences Pourcentage (%)
causatif (fac)
476
16
passe-partout (pp) 294
10
support (sup)
1024
33
figé (fig)
287
9
semi-figé (semi)
243
8
pro-verbe (pro)
567
19
Autres
8
0
non exploitable
166
5
TOTAL
3045
100
On observe que 5% des occurrences n'ont pu être codées. Les raisons en sont diverses, mais
tiennent en général au fait que le discours est interrompu, ce qui ne permet pas l’identification
de N1. On a également dans cette catégorie les emplois qu’il nous faut encore classer, et que
nous laissons actuellement de côté. On notera que les codeurs ont exprimé un doute sur 10%
des codages réalisés (ce qui montre en partie la complexité de la tâche). Les constructions les
plus fréquentes en corpus sont celles à verbe support, avec un tiers des occurrences. Elles sont
suivies par les emplois de faire comme pro-verbe (19% des cas), puis par les constructions
causatives (16%).
Sur l’ensemble des données, 4% des occurrences relèvent d’un emploi pronominal de faire.
En ce qui concerne les emplois causatifs, faire est suivi d'une infinitive dans 55% des cas et
d’une complétive dans 17% des cas. Environ 12% des emplois causatifs sont figés. Parmi les
occurrences de faire comme verbe support, on note que 75% d’entre elles sont répertoriées
dans la version 3.3 du lexique-grammaire (Tolone 2011) et que 29% sont des nominalisations
de verbes pleins à la Giry-Schneider (1978). En cumulant les emplois figés des catégories fig
et fac, on recense 11% d'occurrences figées dans le corpus, dont environ deux tiers sont
répertoriées dans le lexique-grammaire des expressions figées.
59
Conclusion
L’originalité de cet article nous semble résider dans l’approche : analyser les emplois du
verbe faire à partir d’un vaste corpus de français parlé, et en quantifier les différentes
occurrences. Comme on pouvait s’y attendre, les emplois de faire comme verbe support sont
les plus nombreux, mais ses utilisations en tant que pro-verbe ou comme verbe passe-partout
sont loin d’être négligeables, puisque ces occurrences constituent plus d’un tiers des emplois
du corpus.
Devant l’ampleur du travail, nous nous sommes trouvés confrontés, malgré les critères
élaborés, à un certain nombre de difficultés de classement. Outre qu’il nous faut sans doute
encore affiner nos critères, l’analyse de données attestées met également en évidence des cas
rarement, voire pas du tout, traités dans la littérature. Si on ne veut pas se contenter de les
évacuer devant la difficulté de la tâche – comme nous l’avons fait ici –, c’est évidemment vers
ces cas plus difficiles que nous devons concentrer notre future recherche.
Par ailleurs, le codage de nos données est beaucoup plus riche que nous l’avons présenté
ici. Ainsi, on aurait encore beaucoup à dire sur les noms prédicatifs utilisés, la correspondance
ou non de la construction avec verbe support et non prédicatif avec un verbe associé,
l’utilisation fréquente de pronoms en N1, etc. De plus, si les constructions avec verbe support
sont les plus fréquentes, une analyse affinée permettrait de se rendre compte que les noms
prédicatifs utilisés sont finalement peu variés, proportionnellement moins que les N1 utilisés
dans les constructions avec verbes « passe-partout ». La richesse de nos données nous permet
d’envisager une description plus large que celle présentée ici, par manque de place, des
usages de faire.
Références bibliographiques
Dister Anne (2007) De la transcription à l’étiquetage morphosyntaxique. Le cas de la banque de données
textuelles orales VALIBEL. Thèse de doctorat, Université catholique de Louvain.
Dister Anne, Francard Michel, Hambye Philippe et Simon Anne Catherine (2009) Du son, du texte, des métadonnées. L’évolution de la banque de données textuelles orales VALIBEL (1989-2006), Cahiers de
linguistique 33/2, Grands corpus de français parlé. Bilan historique et perspectives de recherches, pp. 113129.
Giry-Schneider Jacqueline (1978) Les nominalisations en français : l'opérateur ''faire'' dans le lexique, Genève,
Droz.
Giry-Schneider Jacqueline (1987) Les prédicats nominaux en français : les phrases simples à verbe support,
Genève, Droz.
Gross Gaston (1989) Les constructions converses du français, Genève, Droz.
Gross Maurice (1975) Méthodes en syntaxe, Paris, Herman.
Gross Maurice (1981) Les bases empiriques de la notion de prédicat sémantique, Langages 67, pp. 7-52.
Gross Maurice (1996) Les verbes supports d’adjectifs et le passif, Langages 121, pp. 8-18.
Gross Maurice (1996) La fonction sémantique des verbes supports, Travaux de linguistique 37.
Harris Zellig (1965) Transformational Theory. Language 41 (3), pp. 363-401.
Mirto Ignazio (2003). Che fare? Analisi di costrutti di un verbo critico in italiano, in Il verbo italiano. Studi
diacronici, sincronici, contrastivi, didattici, a cura di M. Giacomo-Marcellesi e A. Rocchetti, Bulzoni, Roma,
277-91.
Nakamura, Takuya (2009a) Observations sur la variation : prédicat verbal, prédicat nominal avec verbe support
et prédicat nominal sans verbe support. M.S., Université de Marne-la-Vallée.
Nakamura, Takuya (2009b) Sur la correspondance entre adverbe dans une phrase verbale et adjectif dans une
phrase à verbe support. Arena Romanistica 4.
Paumier Sébastien (2003) De la reconnaissance de formes linguistiques à l’analyse syntaxique, Université de
Marne-la-Vallée, Thèse non publiée.
Togeby Knud (1983) Grammaire française, Copenhague, Gyldendal.
Tolone Elsa (2011) Intégration des tables du lexique-grammaire dans un analyseur syntaxique, Thèse de
doctorat, Université Paris-Est
60
D’Agostino Emilio
Université de Salerne
[email protected]
A PROPOS DES NOMS SUPPORTS ET PRÉDICATS
ET DES OPERATEURS DISCURSIFS
Résumé
Dans cette communication, nous voulons examiner une fois encore le rôle des formes nominales,
dans le cadre de la théorie des opérateurs de Z. S. Harris, à partir de Discourse Analisys (1965)
jusqu’à Grammar of English of Mathematical Principles (1988) et Language and Information
(1990), développée par la suite par M. Gross. Suivant D’Agostino (1993), (1999), (2001), (2007) et
(2010), on peut penser que leur dimension quantitative et qualitative est prépondérante dans
l’univers de la prédication nominale. Les données concernent la langue italienne (et l’ensemble des
langues néo-latines), mais on ne peut pas exclure qu'un tel phénomène ait une importance bien
supérieure. Une typologie des formes nominales, dans ce sens, trouve des opérateurs élémentaires et
non élémentaires de plusieurs types, opérateurs aspectuels et modaux, Vsup et leurs variantes. Dans
la première partie de cette communication, nous traiterons d’un type particulier de variantes de
Vsup et, dans la deuxième, nous formulerons une hypothèse de travail sur certaines formes du parlé
de l’italien.
Mots clés: opérateurs nominaux, verbes supports, variantes de verbe support, opérateurs
discursifs, langue parlée.
1. Introduction
Depuis de nombreuses années nous traitons de l'importance des noms comme des variantes, soit de
Vsup, soit d’opérateurs.1 Nous voulons ici discuter d’autres variantes et de questions plus
complexes, telles que l'aspect et le rôle des adverbiaux sur les opérateurs de métalangage. Pour les
adjectifs, on connaît déjà leur valeur prédicative, mais on peut aussi consulter La Fauci (2000).
2. Les verbes support en italien
Les noms ont déjà une valeur d’opérateur en italien ancien.2 Par exemple:
(a) Donne c’avete intelletto d’amore (Dante, Vita Nova, cap. XIX)
(b) Meravigliosamente un amor mi distringe e mi tene ad ogn'ora (Jacopo da Lentini, XIII°)
Dans ces deux exemples, qui sont reliés à une "mente meravigliosa" (meravigliosa-mente), en (b) le
prédicat est un verbe (mi distringe e mi tene), en (a) le prédicat est un nom (intelletto =
"connaissance"). On pourrait donner de nombreux autres exemples de ce type.
3. Variantes de Vsup
Les phrases suivantes sont de bons exemples de variantes de Vsup:
1. Num obbl casca dal sonno (Num obbl tombe de sommeil)
2. Num obbl piomba nel buio più assoluto (Num obbl se précipite dans l'obscurité totale)
3. Num obbl esce dal tunnel della droga (Num obbl sort du tunnel de la drogue)
1
2
Voir D’Agostino (2010).
Voir La Fauci (1979) et Salvi (2010).
61
ainsi que les variantes positives et négatives: cadere, precipitare, scivolare, piombare, cadere a
capofitto, allontanarsi, andarsene etc. Cela n’est pas vrai pour des verbes qui en sont faussement
synonymes, comme: capitombolare, cadere in/a pezzi etc.3 Dans les trois exemples ci-dessus, on a à
faire avec des opérateurs simples ou composés, ou idiomatiques, (sommeil, obscurité et tunnel) qui,
à notre avis, sont associés à des variantes de Vsup. Les trois variantes ont à voir avec certaines
caractéristiques typiques des Vsup. C'est-à-dire qu'elles sont reliées à avere molto sonno (avoir
beaucoup de sommeil), essere (stare) nell’oscurità totale (être dans l'obscurité totale) et essere
(stare) nel tunnel della droga (être dans le tunnel de la drogue). Ces variantes ont des traits de
détermination de la qualité et de la quantité, ou indiquent des traits "aspectuels".4
Cette caractéristique est liée à un type de phrase tel que :
Num obbl est bien éveillé ≠ Num obbl a sommeil ≠ Num obbl commence à avoir sommeil ≡
Num obbl commence à avoir beaucoup sommeil ≡ Num obbl tombe dans le sommeil ≠ Num
obbl se réveille
Num obbl est à la lumière ≠ Num obbl est dans l’obscurité ≡ Num obbl commence à être
dans l’obscurité ≡ Num obbl se précipite dans l'obscurité
Même l’aspect (et l’actionalité) et toutes les phrases dérivées et/ou associées, peuvent être
expliquées de façon similaire. Par exemple, compte tenu des phrases :
4. il mio discorso è durato 6 minuti (mon discours a duré 6 min.)
5. il mio discorso ha avuto una durata di 6 minuti (mon discours a eu une durée de 6 min.)
6. il mio discorso è stato di 6 minuti di durata (mon discours a été d'une durée de 6 min.)
7. la durata del mio discorso è stata di 6 minuti (la durée de mon intervention a été de 6 min.)
8. 6 minuti sono stati la durata del mio discorso (6 min. a représenté la durée de mon discours)
elles sont interprétées comme des représentations du temps telles que des "séquences":
9. la sequenza temporale del mio discorso è stata (E + di) 6 minuti (la séquence temporelle de
mon intervention a été de 6 minutes)
Dans ce cas, l'explicitation totale des éléments phrastiques cachés donne l'occasion d’interpréter
plus correctement une catégorie aspectuelle (la "durativité"), en faisant appel aux mêmes phrases de
la langue.5 Pour Harris et pour Maurice Gross, des réductions sont possibles même en présence d'un
adverbe de temps :
10. Luca è intervenuto (E + prima) (Luca a pris la parole (E + d’abord)
11. Luca è intervenuto (Luca a parlé)
D'autres phrases sont possibles, par exemple, si elles indiquent une "répétition" (ou similaires):
3
Le cas de la cascare nous est venu à l'esprit, du fait de la lecture du dernier livre de J. L. Nancy, traduit en
italien, intitulé Cascare dal sonno (R. Cortina, Milano, 2009, Tombe de sommeil, Ed. Galilée, Paris, 2007).
4
Voir Vivès (1983) et D’Agostino (2011).
5
Une langue est définie par Harris comme l’ensemble de deux sous-ensembles. Le premier comprend toutes les
phrases possibles sans aucune réduction à zéro et le deuxième les phrases sur lesquelles on a appliqué ces réductions. Le
premier est redondant, totalement explicite et a une fonction métalinguistique, tandis que l’autre est caractérisé par les
réductions et les paraphrases.
62
11. il chiodo non manterrà, perché già è successo (le clou ne tiendra pas parce que cela est déjà
arrivé)
A propos de la détermination temporelle, on peut encore noter qu'en italien, comme dans d’autres
langues indo-européennes, on peut déterminer, d’un point des vue temporel, un événement soit
d’une façon exacte, soit d’une façon approximative. Dans ce cas, les adverbiaux de temps sont
nombreux. Par exemple: avec des suffixes (decina, ventina etc.), avec des moyens lexicaux (due
minuti, più o meno alle quattro, da circa un’ora etc.), ou avec des quantifieurs génériques (un
pugno di soldi, un pizzico di sale etc.). Par exemple, avec l’opérateur sonno on trouvera avere una
botta di sonno (un coup de sommeil), qui relève de la langue parlée. En italien, en particulier, on
trouve dans la langue parlée ce cadre de fréquence pour les noms opérateurs en question :
Nome operatore
RA
N
G
O
coraggio
crimine
dolore
inganno
perversione
sonno
incubo
strada
trance
vergogna
1672
//
1689
6505
//
1534
//
492
6505
3405
TO
TA
LE
O
CC
O
RR
EN
ZE
16
//
9
2
//
21
//
90
1
5
US
O
11
//
6
0
//
13
//
60
0
2
On peut noter que le rang et le total des occurrences sont inversement proportionnels et que ce
qu’on appelle ici "uso" (emploi) est égal au rapport entre la fréquence et la "dispersion", c'est-à-dire
la diffusion entre différents emplois fonctionnels.6
4. Tableau des noms opérateurs
Nous allons maintenant commenter le tableau suivant :
N Operatore
Vsup
E + Det
Prep = in
(E + Det)
Prep = a
(E + Det)
Prep = da
(E + Det)
coraggio
tirar fuori
+
-
-
-
crimine
cadere
-
+
-
-
dolore
cadere a capofitto
-
+
-
-
inganno
cascare
-
+
-
-
perversione
precipitare
-
+
-
-
6
Voir D’Agostino (1993) et (2001) pour l’analyse des fréquences des opérateurs nominaux dans la typologie du
niveau parlé de l’italien construite à partir du Lessico di frequenza dell’Italiano Parlato curato da De Mauro, 1990.
63
sonno
cascare
-
-
-
+
stanchezza
cadere
-
-
-
+
buona strada
allontanarsi
-
-
-
+
cattiva strada
allontanarsi
-
-
-
+
trance
cadere
-
+
-
-
vergogna
precipitare
-
+
-
-
idea
lanciarsi
-
+
-
-
Ce tableau très réduit correspond à des phrases comme :
12. Eva ha tirato fuori il (coraggio + fiato) (E + dal cuore + dai polmoni)
13. Luca è caduto nel (E + crimine + fango)
14. Max è caduto a capofitto nel (E + dolore + infamia)
15. Maria è cascata (E + in un inganno + nelle mani di uno strozzino)
16. soltanto Max poteva precipitare in (E + quella perversione + quell’errore)
17. Jean Luc Nancy casca dal sonno
18. Emilio stanotte è scivolato in (E + un incubo + una gaffe)
19. finalmente Maria si è allontanata dalla (E + buona + cattiva) strada
20. a volte Paolo cade in (E + trance + in un qualche errore)
21. ogni tanto, Max precipita nella (E + vergogna + sonnolenza)
Il faut ici noter plusieurs choses. Les variantes de Vsup sont toutes des emplois verbaux de
mouvement et ont toutes des sujets humains obligatoires. Elles donnent alors lieu à des phrases qui
ne sont pas idiomatiques et, en même temps, à des phrases idiomatiques. C'est-à-dire qu'elles sont
ambigües et interprétables à partir du contexte.
5. Opérateurs métadiscursifs
Une autre conséquence découle de l’analyse harrisienne pour ce qui concerne la langue parlée et
uniquement pour la langue parlée.7 L'intonation est associée à des caractéristiques de phrases
déclaratives, interrogatives et exclamatives, traditionnellement appelées "traits suprasegmentaux".
Ces traits ont une pertinence syntaxique complète et, par conséquent, ne peuvent pas être analysés
uniquement en termes de phonologie et de prosodie. L'intonation, par exemple, relève aussi de la
syntaxe et il en va de même du volume.8 Pour les langues tonales, par exemple le chinois, on peut
dire que le changement de ton cause le changement de catégorie du mot et, donc, le changement de
la structure de la forme de phrases.9
Sur cette base, on peut concevoir les trois traits suprasegmentaux (déclaratif, interrogatif e
exclamatif) comme des adverbiaux appliqués sur l’opérateur de métalangage I say, de la même
façon que les formes anglaises concernant la "Modalité" probably, scarcely, falsely etc., qui
correspondent aux énoncés "sémantiques" d’Aristote.10 De telle manière, des phrases comme:
7
Voir Harris (1946) e (1982).
Le "ton" est un trait prosodique caractérisé par la variation de la hauteur du son d’une syllabe. Dans les
langues tonales, le ton est distinctif parce qu'il permet de distinguer les mots homophones, tandis que l’accent opère sur
une syllabe et l’intonation sur la phrase. Le volume, de son côté, est une variation de hauteur de la voix. En effet, il est
nécessaire de noter qu'un geste ou une expression du visage peuvent avoir la même valeur.
9
Pour le chinois aussi on peut dire que la différence des tons est un trait socio-linguistique.
10
Voir Harris (1982) par. 2.65.
8
64
22. si segga! ("je vous ordonne de vous asseoir")
23. si segga!!! ("je vous ordonne de vous asseoir avec plus de force")
24. lei è veramente intelligente ! ("avec ironie je vous dis que vous êtes stupide")
seraient interprétées comme des opérateurs métadiscursifs de la façon suivante :11
- je vous dis de vous asseoir avec un ton impérieux correspond au fait que je dis comme un
ordre de vous asseoir
- je vous dis de vous asseoir avec un volume plus élevé correspond au fait que je vous dis de
vous asseoir avec une voix plus forte12
- je dis ironiquement que vous êtes très intelligent, correspond au fait que je vous dis ça avec
un sourire malin
En outre, Troubetzkoy (Grundzüge Der Phonologie) avait déjà affirmé, dans les parties concernant
la phonostylistique, que "l'appel [est] utilisé par l'orateur pour susciter des émotions et des
sentiments chez l'auditeur", comme, par exemple, l'extension de la vocale tonique (beeello!), ou
celle d'une consonne initiale (cccaro amico!) ou pour indiquer transport, ironie, irritation, douleur et
ainsi de suite. Dans tous les cas, l'analyse fondée sur l'interprétation des caractéristiques suprasegmentaires d’Harris est prometteuse pour l’étude de la langue parlée, mais elle n'a pas encore été
mise au point pour l'italien.
Conclusions
Elles sont très simples. La première est que les noms opérateurs représentent l’absolue majorité du
lexique d’une langue. La seconde est qu'ils peuvent être aussi bien opérateur de type associatif que
non associatifs et, dans d’autres cas, même variantes de Vsup. La troisième conclusion est que tout
cela s’applique soit pour la langue écrite, soit pour la langue parlée. La quatrième, enfin, que les
noms opérateurs peuvent jouer aussi le rôle d’opérateur méta-discursif pour tous le scas qu’on a vu
ici. En effet, la difficulté de l’analyse, dans les cas présentés, est due à plusieurs questions:
a) la taille du dictionnaire des noms ;
b) la difficulté de représentation des donnés ;
c) la difficulté de calculer la fréquence des noms opérateurs et non opérateurs dans un corpus écrit
et parlé, ce qui n’est pas simplement une question de statistique.13
11
Par simplicité nous supprimons l’opérateur antécédent I say.
La proximité de l’auditeur, ou sa présence dans l’espace visuel du locuteur, n’est pas une question pertinente,
parce que rien n'empêche d’ordonner quelque chose à quelqu’un qui n’est pas à côté.
13
Voir D’Agostino (1993) dejà cité.
12
65
Références
Boons, Guillet, Leclère 1992
J. P. Boons, A. Guillet, Ch. Leclère, La structure des phrases simples en français. Constructions
transitives locatives, Droz, Genève
D’Agostino 1993
E. D’Agostino, Sociolinguistica computazionale. Un'applicazione descrittiva al corpus del L.I.P.,
Ed. 10/17, Salerno
D’Agostino 2001
E. D’Agostino, Le forme lessicali del parlare: analisi quantitativa e qualitativa del parlato italiano,
Ed. Scientifica, Napoli
D’Agostino 2010
E. D’Agostino, Variantes de Verbes support et opérateurs aspectuelles, in D. Vitas et C. Krsteva,
Proceedings on the 29th International Conference on Lexis and Grammar, Fac. of Mathematics,
Univ. of Belgrade, pp. 83-95
D’Agostino 2011
E. D’Agostino, Lingue e linguaggi, Guida, Napoli
Gross 1975
M. Gross, Méthodes en syntaxe, Herman, Paris
Harris 1946
Z. S. Harris, From Morpheme to Utterance, in “Language”, 22, 3, pp. 161-183
Harris 1970
Z. S. Harris, Papers in Structural and Transformational Linguistics, Reidel Publ. Company,
Dordrect
Harris 1982
Z. S. Harris, A Grammar of English on Mathematical Principles, J. Wiley & Sons, New York
La Fauci 1979
N. La Fauci, Costruzioni con verbo operatore in testi italiani antichi, Giardini editori e stampatori,
Pisa
La Fauci 2000
N. La Fauci, Negatività del dato nella teoria della Gemmazione Predicativa in Forme romanze
della funzione predicativa. Teorie, testi, tassonomie, Ed. ETS, Pisa, pp. 91-109
Salvi (2010)
G. Salvi, Costruzioni predicative con predicati non verbali, in G. Salvi e L. Renzi, Grammatica
dell’Italiano antico, il Mulino, Bologna, pp. 181-239
Vivès 1983
R. Vivès, Avoir, prendre, perdre: constructions à verbes supports et extensions aspectuelles, Thèse
de doctorat de 3ème cycle, L.A.D.L., Univ. Paris VIII
66
Edoardo Lombardi Vallauri
Università Roma Tre
[email protected]
LEXICALIZATION OF JAPANESE LIGHT VERB CONSTRUCTIONS
BETWEEN MORPHOLOGY AND SYNTAX
Summary
Japanese complex predicates of the type "Verbal Noun + suru ('to do') may be classified (i) either as lexicalized
units or as syntactic constructions, and (ii) as compounds activated either morphologically or syntactically. Surupredicates appear essentially in two possible forms: VN-suru and VN-o suru (where -o is an accusative marker).
Examination of a set of parameters leads to the conclusion that the two constructions both take an intermediate
position between compound words and syntactic structures as concerns lexicalization. At the same time, VN-suru
constructions are closer to compounds activated morphologically and VN-o suru to compounds activated
syntactically.
Keywords: japanese, lexicalization, compounds, syntactic compounds.
1. Light verb constructions in Japanese
Today’s Japanese forms new verbs almost only by using the light verb suru (do) added to a
so-called Verbal Noun (VN). This leads to two different constructions, both intermediate
between complex verb phrases on the one hand, and compound verbs on the other. VNs such
as benkyoo ‘study’ and dansu ‘dance’ build verb phrases meaning ‘to study’ or ‘to copy’:
(1)
benkyoo-o suru
study-ACC do
‘to study’
dansu-o
suru
dance-ACC do
‘to dance’
and complex predicates without the accusative marker:
(2)
benkyoo-suru
study
do
‘to study’
dansu-suru
dance do
‘to dance’
The patterns described apply to nouns of Chinese or other foreign origin:
(3)
(4)
Sino-Japanese nouns
annai ‘guide’
benkyoo ‘study’
denwa ‘telephone’
eigyoo ‘business’
hason ‘damage’
junbi ‘preparation’
- suru
keikoku ‘warn’
kekkon ‘marriage’
kenkyuu ‘research’
ryokoo ‘travel’
sanpo ‘walk’
foreign nouns
arubaito ‘part-time job’
charenji ‘challenge’
dansu ‘dance’
doraibu ‘drive’
janpu ‘jumping’
kuriiningu ‘cleaning’
- suru
nekutai ‘necktie’
to guide
to study
to phone
to do business
to damage
to prepare
to warn
to get married
to do research
to travel
to take a walk
Sino-Japanese nouns
sentaku ‘washing’
setsumei ‘explanation’
shitsumon ‘question’
shokuji ‘meal’
shucchoo ‘business trip’
shuppatsu ‘departure’
- suru
soodan ‘discussion’
sooji ‘cleaning’
toochaku ‘arrival’
yakusoku ‘promise’
yoyaku ‘reservation’
to do the washing
to explain
to ask questions
to have a meal
to travel for business
to leave
to discuss
to clean
to arrive
to promise
to reserve
foreign nouns
to work part-time nokku ‘knock’
to challenge
ranningu ‘running’
to dance
saikuringu ‘cycling’
to drive
sutoraiki ‘strike’
to jump
taipu ‘type’
to clean
tenisu ‘tennis’
- suru
to tie one’s necktie tesuto ‘test’
67
to knock
to run
to cycle
to do a strike
to type
to play tennis
to test
But also, more rarely, to Japanese nouns or phonosymbolic expressions:
(5)
(6)
original Japanese nouns
kaimono ‘shopping’
mane ‘imitation’
yamanobori ‘mountain climbing’
Phonosymbolic expressions
yukkuri ‘slowly’
bonyari ‘absent-mindedly’
niko niko ‘with a smile’
waku waku ‘with excitement’
chin ‘ding’ (a mechanical noise)
gorogoro ‘purr’
to go shopping
to imitate
to climb mountains
- suru
- suru
to stay long
to be absent minded
to smile
to be excited
to ‘ding’ (to microwave)
to be lazy, doing nothing
The VN(-o) suru structures have intermediate status between bona fide phrasal constructions
and bona fide lexical units (diachronically arising from former compounds) such as the no
longer productive verbs in (7) and (8):
(7)
(8)
ai-su ‘to love’
kai-su ‘to understand’
shoo-su ‘to call’
hai-su ‘to bow’
ka-su ‘to assign’
to-su ‘to wager’
ji-su ‘to resign’
kyoo-su ‘to offer’
kan-jiru ‘feeling-do, to feel’
tsuu-jiru ‘passage-do, to pass, to be understood’
kin-jiru ‘prohibition-do, to forbid’
zon-jiru ‘knowledge-do, to know’
shin-jiru ‘faith-do, to believe’
2. Morphological or syntactic selection of the Noun?
In order to participate in the suru construction, a noun must possess an argument structure. A
noun like enpitsu ‘pencil’ has nothing in its morphological structure that makes it different
from, say, joohatsu ‘evaporation’, from the point of view of being able to go with suru
(Miyagawa 1987), still, this is excluded by the grammar of Japanese: *enpitsu suru. In other
words, it is not at the morphological level that a selection applies as to which nouns will enter
the construction under examination, but at the syntactic or even semantic level,1 since
projecting an argument structure is strictly connected to describing an action or a process,
rather than an object, in reality. This is obviously the reason why those under examination are
usually called Verbal Nouns.
On the other side, the absence of the accusative marking on the VN (as in (2)) is a sign
of morphological formation. The many verbs that allow this must be considered as
intermediate (and perhaps moving) between two extremes: the status of compound, and
perhaps even derivate verbs,2 and the condition of syntactic structures.
3. Lexicalization and morphological compoundhood
Following the proposal by Gaeta & Ricca (2009), we will try to assess whether suru-verbs can
be regarded as "compounds" according to both lexical and morphological criteria, and if they
appear to be more tightly bound units (and consequently less syntactic in nature) when
regarded from the former or the latter perspective. In other words, we will try to show to
which extent the complex verbs under examination can be considered respectively as lexical
units and morphological compounds, i.e., on the one hand, if they can be regarded as
independent and autonomous units of the lexicon (listemes) rather than as syntactic structures;
1
Of course this doesn't mean that the process by which the formation of such structures takes place is not
morphological in nature.
2
Cf. Bauer (2005) on the boundary between derivation and compounding.
68
on the other hand, if they are generated by activating a morphological pattern, rather than a
syntactic one. Using Gaeta & Ricca’s (2009) abbreviations in this sense, we will try to show
which ones among the features of suru-verbs can be regarded as (+lex) or (–lex), (+morph) or
(–morph).
3.1. Lexical features (±lex)
Some suru-verbs are very common in speech and writing, certainly reaching among the
highest frequencies of Japanese verbs overall. This obviously candidates them as lexical units.
We will try to check if they also display other (+lex) features.
3.1.1. Unitary meaning: +lex
It wil be argued that the verb suru is a typical light verb, semantically almost empty, which
leaves the VN completely free to express its meaning. As a consequence, VN-(o) suru verbs
exhibit unitary meaning, which happens to match perfectly the meaning of the VN.
3.1.2. Compositional meaning: -lex
It will be shown that suru-verbs systematically exhibit compositional meaning. This is not in
contrast with their meaning being unitary, simply because suru’s semantic value is neutral,
which makes the compositional meaning of a suru-verb coincide with the predicative version
of the VN.
3.1.3. Sociolinguistic remarks
A possible explanation for the striking similarity in meaning displayed by the two suru
constructions may be sociolinguistic in nature. The accusative marker –o, like the topic
marker -wa, can be omitted in informal speech. This means that not only with suru, but with
any transitive verb, any Japanese noun can appear as the direct object of a transitive verb
without case marking. It will be argued that this whole situation may prevent the two
constructions from acquiring significant distance from each other as concerns function and
meaning.
3.1.4. No anaphoric islands: -lex
Separate anaphoric reference to the VN is possible in the VN-o suru construction (Lombardi
Vallauri 2005: 323):
(9)
kenkyuu1-o
shitara sore1-ga
hyooka
sareta
research1 ACC done it1 NOM appreciation do-PASS-PAST
‘after I had done some research1, it1 received appreciation’
and, more significantly, with VN-suru:
(10)
kenkyuu1-shitara, sore1-ga
hyooka
sareta
research1 done it1 NOM appreciation do-PASS-PAST
‘after I had research1ed, it1 received appreciation’
This qualifies both constructions as weakly bound (-lex), since bona fide compounds are
usually anaphoric islands in Japanese (Shibatani & Kageyama 1988: 473).
3.1.5. Different separability: +lex, -lex
While VN-o suru perfectly admits (as in 11) the introduction of linguistic material, VN-suru
does not (as in 12):
(11)
(12)
benkyoo -o
issho-kenmei
shita
study-ACC with maximal energy did
‘(I) studied hard’
benkyoo *issho-kenmei
shita
study with maximal energy did
In this respect, while VN-suru verbs behave as autonomous items of the lexicon (+lex), VN-o
suru constructions clearly behave the other way (-lex).
69
3.1.6. Summary of ±lex features
VN(-o) suru constructions seem to occupy an intermediate position between compound words
and syntactic structures as concerns lexicalization. There seems to be only a slight difference
between the two constructions, namely as concerns separability. This is shown in Table 1
below.
Table 1: Lexicalization features
frequency in the lexicon: high
unitary meaning: yes
compositional meaning: yes
anaphoric islands: no
separability: no / yes
VN-suru
+lex
+lex
-lex
-lex
+lex
=
=
=
=
≠
VN-o suru
+lex
+lex
-lex
-lex
-lex
3.2. Morphological features (±morph)
The features that can characterize a construction as more or less close to the ideal compound
morphologically are more than those that can speak for/against the status of lexical unit. We
review some of them here even more shortly than the ±lex ones. Obviously, more space
(including full exemplification) will be devoted to them in the oral presentation.
With +morph we mean (with Gaeta & Ricca 2009) the fact of being activated
morphologically. Still, this may cover at least two senses, namely that of being a
morphologically activated compound and that of being a morphologically activated derivate.
We will keep the issue in the background,3 except for shortly mentioning that it can be
questioned whether suru should be considered a lexical morpheme or an ‘auxiliary’ verbal
root similar to those expressing past, causative, passive, potential, politeness, etc.
3.2.1. Constructional valency: +morph
Unlike lexical meaning, which we have shown to be compositional and denoting little unity,
the kind of external syntactic relations established by suru constructions speak in favour of
morphological unity because they can be regarded as ‘constructional’: in fact, they can require
the presence of syntactic arguments requested neither by the VN nor by suru separately, but by
the construction as a whole.
3.2.2. Tone patterns: +morph, -morph
In VN-o suru constructions each word keeps its usual tone pattern, as it normally happens to
Japanese words when used in syntax:
(13)
be-n-kyo-o o
L-H- H-H L
su-ru
L-H
(from be-n-kyo-o
L-H- H-H
and
su-ru)
L-H
On the contrary, N-suru verbs behave as compound words, adopting single-word contours,
characterized by the fact that there can be only one stretch of high pitch:
(14)
se-i-ko-o-su-ru
L-H-H-H-H-H
(from se-i-ko-o
L-H-H-H
and
su-ru)
L-H
Pitch patterns can thus be seen as characterizing respectively VN-o suru constructions as
morphologically non-compounds (-morph), and VN-suru as compounds (+morph).
3.2.3. Structuring by functional words: +morph, -morph
(Passim: it will be exposed in the oral communication)
3.2.4. Nature of modifiers: +morph, -morph
Only adverbs, and not adjectives, can modify suru-predicates (Nakajima 2008:272). This
shows that the VN-suru construction works as a verb, its interior remaining opaque to syntax,
3
For wider discussion on such problems, cf. Bauer (2005).
70
so that the noun cannot be modified separately. VN-o suru constructions behave in a different
way, allowing both adjectival and adverbial modification:
(15)
Taroo-ga hageshii/hageshiku UNDOO-o
shi-ta
Taro-NOM hard (AGG/AVV) exercise ACC do-PAST
‘Taro exercised hard’
This can be regarded as a further argument characterizing VN-o suru verbs as (-morph)
syntactic constructions, VN-suru as (+morph) compounds.
3.2.5. Partial Modification: +morph, -morph
Syntactic modification (by e.g. a genitive, an adjective, a demonstrative) for one element is
not allowed in Japanese compounds, and significantly proves impossible also for VN-suru
verbs. On the contrary, separate modification of the noun regularly applies to VN-o suru
constructions.
This can be regarded as a feature clearly separating our two constructions, and
characterizing VN-suru verbs as more compound-like (+morph), VN-o suru structures as
more syntactic in nature (-morph).
3.2.6. Reduplication: -morph
Japanese can express repetition or continuity of an action by reduplicating the infinitive form
of the predicate.4 Compound verbs are treated as simple words, i.e. reduplicated entirely,
while the repetition of just one element of the compound is not allowed.
Interestingly, VN-o suru behave like syntactic predicates, by repeating shii, the infinitive
form of suru:
(16)
dokusho-o
shii-shii aruita
reading ACC do do walk-PAST
‘(I) walked, reading’
Even more interestingly, also VN-suru verbs follow the pattern of syntactic phrases, repeating
suru and not the whole complex verb:
(17)
(18)
dokusho-shii-shii aruita
reading do do walk-PAST
‘(I) walked, reading’
*dokusho-shii dokusho-shii aruita
reading-do reading-do walk-PAST
As a whole, the patterns shown in reduplication by both VN-suru and VN-o suru distinguish
them from true compounds. We summarize this by the label (-morph).
3.2.7. Coordinate Objects: +morph, -morph
In VN-o suru constructions the object may be represented by two or more coordinate VNs, as
in (19):
(19)
ashita-wa
benkyoo to undoo-o
suru tsumori da
tomorrow TOP study and training ACC do intention is
‘I intend to study and do training tomorrow’
The same doesn’t hold for VN-suru verbs:5
(20)
*ashita-wa
benkyoo to undoo-suru tsumori da
tomorrow TOP study and training do intention is
Now, since N-V compounds in Japanese are basically made from no more than one noun, we
can say that VN-suru verbs are morphologically compound verbs from this respect, while VNo suru constructions are not.
4
Some of the examples given in this paragraph, as well as its central idea, are slightly modified from Kageyama
(1977: 125-127).
5
The utterance in (20) obviously becomes acceptable in informal speech, where the omission of the particle -o is
generalized (and not limited to our constructions).
71
3.2.8. Gapping for the Noun: ?morph, -morph
This parameter will not give us a clear response, because data tend to be contradictory. As
shown by an example proposed by Kageyama (1982), in VN-suru structures gapping for the
VN seems to be acceptable:6
(21)
Gakkai
de, Amerika-jin wa yoku hatsugen-suru ga, Nihon-jin wa amari Ø-shi-nai
conference at Americans TOP often remark-do
but Japanese TOP seldom do-not
‘At academic meetings, Americans always speak out, but the Japanese seldom do’
Kageyama recalls that suru is not used as a pro-verb in Japanese, leading for example to the
unacceptability of utterances like (22) (Kageyama (1977: 128; 1991: 179):
(22)
*Taroo wa hashitta shi, Jiroo mo shita
Taro TOP ran
and Jiro also did
‘Taro ran and so did Jiro’
This should mean that the negative form of suru in (21) is lacking its Object, namely the VN
hatsugen, in what may be considered a gapping construction. Now, since gapping is not
allowed in Japanese for a part of a word, in Kageyama’s opinion hatsugen-suru is ‘a
compound generated in syntax rather than in the lexicon’, which is to say that hatsugen and
suru must be regarded as not forming a single morphological word. But a different opinion is
put forward by Miyagawa (1987:35-37): if we consider (23), it is clear that coordination in
Japanese can arise between two slightly different structures, namely VN-suru and VN-o suru:
(23)
Gakkai de, Amerika-jin wa yoku hatsugen-suru ga, Nihon-jin wa amari hatsugen o
shi-nai
conference at Americans TOP often remark-do
but Japanese TOP seldom remark ACC do-not
‘At academic meetings, Americans always speak out, but the Japanese seldom do’
As a consequence, the gapping for hatsugen in Kageyama’s example (here, 21) may be seen as
occurring with the VN-o suru construction, not with VN-suru. Miyagawa gives evidence to
support this hypothesis, represented by the fact that gapping actually seems to be excluded by
those VNs that do not allow the VN-o suru structure (like seikoo ‘success’), and allowed by
those that can build both constructions (like benkyoo):
(24)
(25)
Taroo wa mainichi benkyoo-suru ga, Hanako wa tokidoki shika Ø shi-nai
Taro TOP everyday study do but Hanako TOP sometimes only do-not
‘Taro studies everyday, but Hanako does so only sometimes’
*Taroo wa itsumo seikoo-suru ga, Hanako wa tokidoki shika Ø shi-nai
Taro TOP always success do but Hanako TOP sometimes only do-not
‘Taro always succeeds, but Hanako only sometimes’
If Miyagawa is right, their behaviour as concerns gapping should characterize VN-suru verbs
as morphological compounds (+morph), VN-o suru constructions as syntactic structures (morph). Still, things seem to be more complicate. Matsumoto (1996) points out that the
answer by speaker B in (26) is possible, with gapping showing that the VN rakka ‘fall’ and
suru (which allow rakka-suru but not *rakka-o suru) do not form a single word:
(26)
A: Sore-wa rakka si-masi-ta ka?
it-TOP fall do-POL-PAST INT
‘Did it fall?’
B: Hai, Ø si-masi-ta.
yes, do-POL-PAST
‘Yes, it did.’
To this, Kageyama (2009:11) replies that the situation is not univocal, because although (26)
speaks in favour of a certain degree of syntactic analyzability in rakka-suru, on the other hand
the unacceptability of a structure like (27), with gapping for suru, shows its syntactic
indeformability:
(27)
*Akai huusen-wa [rakka-si], aoi huusen-wa [zyoosyoo-si-ta].
red balloon-TOP [fall-do] blue balloon-TOP [rise-do-PAST]
‘The red balloon fell and the blue one went up.’
6
Martin (1975: 880) goes in the same direction, specifying that such a gapping is acceptable with what he calls
‘free VNs’. We quote ex. (21) directly from Kageyama (1982), and (23-25) from Miyagawa (1987).
72
To sum up, we can say that gapping really qualifies VN-o suru constructions as (-morph), but
leaves the question open as concerns the status of VN-suru.
3.2.9. Lexical suppletion: -morph
Japanese can express some grammatical categories related to verbal paradigms, such as
Politeness or Potential, by means of lexical suppletion, i.e. by employing different verbal
roots. Suru is among the verbs involved in this pattern. In honorific contexts, when used as an
autonomous verb, it becomes the respectful form nasaru. On the contrary, when appearing in
bona fide compounds made with suru, like aisuru and taisuru, it cannot be replaced by
nasaru. This can be done, however, in VN-o suru and, more significantly, VN-suru
constructions.
Both constructions behave the same way as concerns substitution by other suppletive
roots, such as the potential dekiru ‘can do’ and the humble form itasu. As a consequence we
can say that the possibility of lexical suppletion seems to count as a (-morph) feature, setting
both VN-suru and VN-o suru verbs apart from true compounds, and characterizing them as
more similar to syntactic constructions.
3.2.10. Summary of ±morph features
Unlike their status as ±lex lexicalized items, VN-suru and VN-o suru constructions seem to
occupy quite different positions between compounds and syntactic structures as concerns
(±morph) features. This is shown in Table 2:
Table 2: Morphological compound features
Constructional valency
Reduplication
Lexical suppletion
Tone patterns
Structuring by functional words
Nature of modifiers
Coordinate Objects
Gapping for the Noun
VN-suru
+morph
-morph
-morph
+morph
+morph
+morph
+morph
?morph
=
=
=
≠
≠
≠
≠
?
VN-o suru
+morph
-morph
-morph
-morph
-morph
-morph
-morph
-morph
As can be seen, there is one feature that qualifies both constructions as morphological
compounds, and two features that tend to locate them among syntactically formed structures.
These include lexical suppletion, which can be regarded as a central feature of any Japanese
verb, equivalent to paradigmatic inflexion in fusive languages. But the other features
considered, including key parameters such as tone patterns, structuring by functional words
and nature of allowed modifiers, draw a clear boundary between the two constructions.
4. Conclusions
As a conclusion, we will summarize our observations about suru-verbs in Japanese as follows:
1. Complex verbs formed with suru must be regarded as intermediate between syntactic
phrases and lexicalized items, since, as we have seen in § 3.1, they show characteristic
features of the one and the other status. But, interestingly, there seems to be very little
difference between VN-suru and VN-o suru from this respect, their behaviours being quite
parallel. In other words, one can question whether we have to do with lexical units or not,
but in any case the answer tends to be the same for both constructions.
2. As concerns morphological vs. syntactic activation, some important features group the two
constructions together with syntactic constructions, speaking against their nature of
morphological compounds; however, the majority of the features considered draw a
boundary between VN-suru and VN-o suru, characterizing the former as morphologically,
the latter as syntactically activated compounds.
73
References
ALFONSO Anthony 1966. Japanese Language Patterns. Tokyo: Sophia University.
BAUER Laurie 2005. The borderline between derivation and compounding. In DRESSLER Wolfgang U., Dieter
KASTOVSKY, Oskar E. PFEIFFER & Franz RAINER (eds.). Morphology and its Demarcations. Amsterdam /
Philadelphia: John Benjamins. 97-108.
BOOIJ
Geert
forthcoming.
Compound
constructions
in
a
hierarchical
lexicon.
http://website.leidenuniv.nl/~booijge/pdf/Compound%20construction%20in%20a%20hierarchical%20lexicon
.pdf
DUBINSKY Stanley 1994. Syntactic underspecification: a minimalist approach to light verbs. MIT Working
Papers in Linguistics 24. 61-81.
DUBINSKY Stanley 1997. Syntactic underspecification and light verbs phenomena in Japanese. Linguistics 35.
627-672.
GAETA Livio & Davide RICCA 2009. Composita solvantur: Compounds as lexical units or morphological
objects?”. In Italian Journal of Linguistics 21.1, 2009, pp. 35-70.
GRIMSHAW Jane & Armin MESTER 1988. Light verbs and theta-marking. Linguistic Inquiry 19. 181-205.
JAKOBSEN Wesley 1991. The Transitive Structure of Events in Japanese. Tokyo: Kuroshio.
KAGEYAMA Taroo 1977. Incorporation and Sino-Japanese verbs. Papers in Japanese Linguistics 5. 117-155.
KAGEYAMA Taroo 1982. Word formation in Japanese. Lingua 57. 215-258.
KAGEYAMA Taroo 1991. Light verb constructions and the syntax-morphology interface. In NAKAJIMA Heizo
(ed.). Current English Linguistics in Japan. Berlin: Mouton de Gruyter. 169-203.
KAGEYAMA Taroo 2009. Isolate: Japanese. In LIEBER Rochelle & Pavol ŠTEKAUER (eds.). The Oxford Handbook
of Compounding. Oxford: Oxford University Press. 512-526.
KISHIMOTO Hideki 1996. Split intransitivity in Japanese and the unaccusative hypothesis. Language 72. 2. 248286.
KUBOTA Yoko 1989. Grammatica di giapponese moderno. Venezia: Cafoscarina.
KUNO Susumu 1973. The Structure of the Japanese Language. Cambridge, MA: MIT Press.
LOMBARDI VALLAURI Edoardo 2000. Gli aggettivi giapponesi fra Nome e Verbo. In SIMONE Raffaele (ed.).
Classi di parole e conoscenza lessicale. SILTA 2. 311-345.
LOMBARDI VALLAURI Edoardo 2003. Noms ‘verbaux’. Le cas du Japonais. In BRION Cécile & Eric CASTAGNE
(eds.). Nom et Verbe, catégorisation et référence. Reims: Presses Universitaires de Reims. 161-187.
LOMBARDI VALLAURI Edoardo 2005. When are phrases ‘compounds’? The case of Japanese. In GROSSMANN
Maria & Anna Maria THORNTON (eds.). La formazione delle parole. Roma: Bulzoni. 309-334.
LOMBARDI VALLAURI Edoardo 2009. Lexicalization and morphological activation as criteria for Japanese
compound verbs. In Italian Journal of Linguistics, 21, 1, 2009: 181-208.
MATSUMOTO Yo 1996. Complex Predicates in Japanese. Stanford, CA: CSLI Publications.
MARTIN Samuel E. 1975. Reference Grammar of Japanese. New Haven: Yale University Press.
MIYAGAWA Shigeru 1987. Lexical Categories in Japanese. Lingua 73. 29-51.
MIYAGAWA Shigeru 1989. Light verbs and the ergative hypothesis. Linguistic Inquiry 20. 659-668.
MIYAMOTO Tadao 1999. The Light Verb Construction in Japanese. Amsterdam / Philadelphia: Benjamins.
NAKAJIMA Takashi 2008. Loan word syntax: a case in the light verb construction. Toronto Working Papers in
Linguistics 28. 259-280.
OZUMI Asuka 2007. Onomatopee giapponesi: strategie di traduzione nel romanzo e nel manga. In CAROLI Rosa
(ed.). Atti del XXXI Convegno di studi sul Giappone. Venezia: Associazione Italiana per gli Studi
Giapponesi. 281-300.
SHIBATANI Masayoshi 1990. The Languages of Japan. Cambridge, MA: Cambridge University Press.
SHIBATANI Masayoshi & Taroo KAGEYAMA 1988. Word formation in a modular theory of grammar:
postsyntactic compounds in Japanese. Language 64. 451-484.
TAMAOKA Katsuo, Chizuko MATSUOKA, Hiromu SAKAI & Shogo MAKIOKA 2005. Predicting attachment of the
light verb -suru to Japanese two-kanji compound words using four aspects. Glottometrics 10. 73-81.
TSUJIMURA Natsuko 1990a. Ergativity of nouns and case assignment. Linguistic Inquiry 21. 277-287.
TSUJIMURA Natsuko 1990b. The unaccusative hypothesis and noun classification. Linguistics 28. 929-957.
TSUJIMURA Natsuko 1996. An Introduction to Japanese Linguistics. Oxford: Blackwell.
UCHIDA Yoshiko & Mineharu NAKAYAMA 1993. Japanese verbal noun constructions. Linguistics 31. 623-666.
UEHARA Satoshi 1998. Syntactic Categories in Japanese: a Cognitive and Typological Introduction. Tokyo:
Kuroshio.
74
Elia Annibale
[email protected]
Marano Federica
[email protected]
Monteleone Mario
[email protected]
Monti Johanna
[email protected]
Napoli Antonella
[email protected]
Vellutino Daniela
[email protected]
University of Salerno
LINGUISTICALLY MOTIVATED KNOWLEDGE MANAGEMENT:
EXPLOITATION OF LANGUAGE RESOURCES FOR NLP APPLICATIONS
Abstract
In this paper we describe how to exploit tailor-made Linguistic Resources (LR) accurately in
order to hold up a Knowledge Management System (KMS) with the purpose of implementing
human interaction with technologies and of meeting specific knowledge needs. LR developed
in this way can be used in Natural Language Processing (NLP) applications, such as: Information Retrieval (IR), Information Extraction (IE), Information Storage, Machine Translation
(MT), ontology development, lexicon-dependent Semantic Web, query-free procedures for
knowledge structuring, question answering. We also present a methodology for Multiword
Unit (MWU) treatment. As a sample, we built a monitor corpus annotated for MWUs using
XML and processed it with a Text Classification tool.
Keywords: natural language processing, information retrieval, multiword unit, text classification.
1 Introduction
In this paper we describe a set of NLP applications achieved by means of LR exploitation and
with the purpose of structuring an effective Knowledge Management (KM) system. The explosion of data, together with their criticality and world increasing dependency on digital information, are leading to larger and more complex knowledge management environments that
are gradually more challenging to handle. In the digital and new media era, particularly in the
“www” era, it is crucial to know in which manner humans interact with technologies, in order
to meet their knowledge needs. In our opinion, the best way to help humans in their relationship with technologies is to develop a coherent and exhaustive natural language formalization
and treatment system to be used, on one hand, as an interface between human and machine,
and on the other hand, as a tool for KM environments.
Our work focuses on the manually-based development of tailor-made LR used in NLP applications: Information Retrieval, Information Extraction, Information Storage, Machine
Translation, Ontology Development, Lexicon-Dependent Semantic Web, Query-Free Procedures for Knowledge Structuring, Question Answering. Our LRs are developed according to
Lexicon-Grammar Theory (LG). LG provides a theoretical basis allowing to imagine and
work towards a linguistically-motivated system in which any type of user is able to obtain the
exact information he is looking for. Therefore, in this paper we summarize how to exploit our
LR in order to hold up the whole KM system accurately. In this research work we also focus
on MWU treatment. Considering that the analysis of large corpora highlights the massive
presence of these linguistic forms, MWU recognition is to be considered as a crucial task for
NLP activities.
To achieve this goal, we built a sample corpus, and in it we annotated all MWUs using an
XML tagging: by means of NooJ1, each compound word has been automatically tagged with
1
See http://www.nooj4nlp.net/pages/nooj.html.
75
the specific attributes of the field of knowledge of Medicine, in order to give semantic values
to tags2. Choosing a specific knowledge domain depends on the empirical observations in
real-world texts, which highlight a strict necessity relation between MWUs and Terminology.
It is possible to state that from a formal and semantic point of view, terminology fully exploits
the procedures of compound word formation, in which a lexical element – for instance a noun
with a generic meaning such as vessel – can be specified by adding other lexical elements, as
happens with lymph vessel, blood vessel, arterial vessel, venous vessel, and so on. MWU recognition is also crucial in Text Classification; to achieve it, we used Cataloga3, a text classification software.
2 Related works on linguistic data treatment for NLP
LG is based on morpho-syntactically and semantically tagged electronic dictionaries, syntactic-semantic tables and local grammars. These tools can be used by any kind of “intelligent
agent” to process data and retrieve information by means of semi-automatic or automatic routines. Being a manually based method, LG distinguishes itself from the many not manuallybased methods, which basically rely on statistical approaches to retrieve the same linguistic
facts. For instance, Manning et al. (1999) developed a language model in a probabilistic
framework: in their vector space model, documents are represented as vectors in a common
vector space (Manning et al. 2008). Due to the fact that we present here particular features of
NLP – i.e. NLP applications in specific domains of knowledge for text classification and for
corpus annotation – it is important to highlight the strong relationship between terminology,
which is a peculiarity of specialized domain lexica, and MWU treatment, which are massively
present in specialized texts. For this reason, in this section, we would like to present a review
of the main problems related with the notion of MWU, (Downing, 1977; Silberztein, 1993;
Sag et al., 2001; Girju, 2005; Laporte et al., 2008; De Bueriis G. and Elia A. eds., 2008).
In literature we often find concurrent terms such as “compound words”, “collocations”,
“multiword expressions”, but all these terms, even though ambiguous in themselves, all refer
to the same concept of “string of words in which all elements are related one to the other”.
A collocation is an expression consisting of two or more words that corresponds to some
conventional way of saying things (Manning and Schütze, 1999), that has the characteristics
of a syntactic and semantic unit, having an exact and unambiguous meaning or connotation
which cannot be derived from the meaning or connotation of its components (Choueka,
1998). Also Sinclair (1991) considers collocations as typical expressions of a linguistic combination principle not bounded by grammaticality constraints.
Indeed, Computational Linguistics developed lots of measures of association; an association is any relationship between two measured quantities that renders them statistically dependent. These measures are useful to quantify the strength of the bond between two or more
words in a text. But many methods which rely on frequentist or probabilistic approaches to
retrieve MWUs do not take into account strings of words referred to as “single meaning units”
in a proper way, even if highly frequent, thus resulting in loss of information. On the contrary,
our approach aims at building a linguistically motivated identification of MWUs, on the basis
of a systematic and exhaustive formalization of natural language.
Unlike Generative Grammars (Chomsky, 1957; 1965) 4 , we assume that syntactic rules
must take into account lexical phenomena. Of course, while automatic statistical methods get
2
See
Tim
Berners
Lee,
Using
labels
to
give
semantics
to
tags
(2006-11-23)
http://www.w3.org/DesignIssues/TagLabel.html
3
Cataloga is a software developed by Alberto Postiglione, Mario Monteleone and Annibale Elia of the Department of Political, Social and Communication Sciences at University of Salerno.
4
Nevertheless, in the Minimalist Program Chomsky acknowledges that the phrase structure is also derived from
the lexicon, thus there is a projection of the lexicon upon the syntax (Chomsky, 1993; 1995).
76
almost good results in a faster way, our manual method, even if is time-consuming and much
more expensive, gives us more accurate and quite complete results useful to Semantic Tagging practices to give semantics to tags.
3 Methodology
Our linguistic methodology is based on the LG theoretical and practical analytical framework.
LG theory was set up by the French linguist Maurice Gross during the „60s (Gross, 1968;
1989). It assumes that natural language formal description must start from the observation of
lexicon and of lexical entry combinatory behaviours, encompassing syntax and, also, lexicon.
It differs from the best known among current linguistic theories, i.e. Chomsky‟s deep grammar and its various offspring (Chomsky, 1957; 1965), which is strictly formalist and syntaxbased. LG has also reached important results in the domain of automatic textual analysis and
parsing, with the creation of software and lingware fully oriented toward NLP, such as
INTEX and UNITEX5, and more recently NooJ and Cataloga.
As previously mentioned, LG invests lexicon, and especially the concepts of “meaning unit”,
“lexical unit” and “word group”. Of course, the first problem in the MWU treatment is the
identification of strings of words properly representing strings of “words related to each
other”. Subsequently, we interpret and formalize the syntactic structure of the collected MWU
by classifying them (Harris, 1970) as Part of Speech patterns6 (POS) and analyzing their semantic properties (Semantic Tagging). Then we define when a MWU is used compositionally
or non-compositionally. LRs developed in this way are used in NLP applications and are useful to achieve effective semantic tagging. Furthermore, our research is part of a complex LG
study on specialty languages (see also Gross, 1975; Elia, 1984).
4 Resources and Tools
Our LRs consist of electronic dictionaries morphologically and semantically tagged; local
grammars in the form of Finite State Transducers/Automata (FST/FSA); and tables presenting
lexical entry syntactic-semantic properties.
An electronic dictionary is a lexical database homogeneously structured, in which the morphologic and grammatical characteristics of lexical entries (gender, number and inflection) are
formalized by means of distinctive and non-ambiguous alphanumeric tags. All electronic dictionaries built according to LG descriptive method form the DELA System, which works as a
linguistic engine embedded in automatic textual analysis software systems, and parsers.
DELA electronic dictionaries are of two types:
- simple word (DELAS 135,000 simple words and DELAF 1,200,000 inflected simple
words), which include lexical units semantically autonomous and formed by sequences of
characters delimited by blanks. This is the case of words such as home and chair;
- compound word (DELAC 154,000 compound words and DELACF 480,000 inflected
compound words collected in dictionaries of specific domains), which include lexical units
composed of two or more simple words having an overall meaning. This is the case of sequences such as nursing home, and rocking chair.
As already stated, terminological entries are mainly lemmatized in compound word electronic dictionaries.
Together with electronic dictionaries, local grammars are used in NLP routines. Local
grammars are useful to cope with specific characteristics of natural language; more appropriately, local grammars design is based on syntactic description, which encompasses transfor-
5
More information on the website http://www-igm.univ-mlv.fr/~unitex/.
According to Manning and Schütze (1999) we consider POS “a part of the grammar of a language which includes the lexical entries for all the words in the language and which may also includes other information”.
6
77
mational rules and distributional behaviours (Harris, 1957). We develop local grammars in
the form of FSA/FST (Silberztein, 1993; 2002).
To develop and test electronic dictionaries and local grammars we use two software packages: NooJ and Cataloga.
NooJ is a complex NLP environment in which it is possible to automatically read digitized
texts and retrieve from them specific linguistic patterns in the form of concordances. NooJ
engine is based on the DELA system of electronic dictionaries, on LG syntactic tables and on
FSA/FST, developed in the form of graphs and used in LG to parse texts.
Cataloga is a software for semantic-based data mining which reads digitized texts matching them with LG terminological electronic dictionaries. At present, it is configured as a
stand-alone software which can be integrated in Web sites and portals to be used online. The
main linguistic goal of this software is to extract terminology from a given scientific or technological text and to automatically determine, without human reading:
- if a given text deals with a generic or a terminological topic;
- which is the eventual main specific knowledge domain dealt with in that text;
- as for the same text, if other terminological knowledge domains are dealt with, and
which statistical relevance they have with reference to the main one.
Up to today, Cataloga has been used to analyze large and heterogeneous text corpora. It is
important to stress the Cataloga achieves detailed and successful analyses also with very short
text files.
5 NLP applications for Knowledge Management
LG method gives us the theoretical basis to imagine and work towards a linguistically motivated system in which any type of user is able to obtain the exact information that he/she is
looking for. This aim seems easy to obtain. But, the first trial, not yet surmounted, is to digit a
query using sentences in natural language; nowadays, humans usually make efforts in “translating” that query into proper keywords, or even into non-acceptable sequences of nouns
and/or adjective which they never would use in ordinary communication. This obstacle,
which concerns the questioning-answering issue, could be solved by means of the development, the updating and the application of FST/FSA. A second more important trial is that the
outputs are full of noise, and humans have to filter results in order to obtain the information
they need. In order to achieve effective IR and IE results, any KM system, whether closed or
open (i.e. the World Wide Web), could avoid most of the noise if it worked with ontologies
developed taking into account syntactic, lexical and semantic rules (under W3C criteria); or
also, if it could be linked to repositories of data and documents to extract proper and updated
information (Information Storage Techniques). This sophisticated mechanism could come
closer to the project of the Semantic Web (Berners-Lee, 2001). In addition, if we envisage
multilingual resources, which follow the above-mentioned criteria, it is possible to improve
Machine Translation performances.
5.1 MWU tagging in the Italian DELACF
The development and management of an electronic dictionary consist of three main steps:
- Lexical acquisition. During this on-going phase, MWUs are extracted from corpora
and/or certified glossaries and continuously updated.
- Morpho-grammatical and syntactic tagging. Each lexical entry is given an inflectional
paradigm, in order to be inflected. The following string gives a sample of this morphogrammatical formalization procedure:
facce anteriori dell'iride, faccia anteriore dell'iride, N + Genere = f + Numero = p + Class = NAPN + Term
= MED + Eng = facies anterior iridis, Class = NAN
The tag “N” (noun) indicates the grammatical function of the whole compound. The elements that form the morphologic and grammatical patterns of each compound structure -
78
“NAPN” (noun + adjective + preposition + noun), “f” and “p” (feminine plural), “MED”
(terminological tag referring to the electronic dictionary of Medicine - are followed by the
English translation.
- Testing on corpora. The dictionary is used to automatically analyze and process large
corpora.
5.2
Structures of the Italian DELACF entries
In order to acquire information on compound words formation processes, we identify the typologies of MWU structure in the dictionary, as shown in the following table:
N° of constituents in the
lexical unit
bi-gram
tri-gram
POS tags
Example
NA
NN
…
NPN
NPN
NPN
…
aborto spontaneo (MED)
interfaccia utente (INF)
…
capacità del disco (INF)
cassa di risparmio (ECON)
morbo di Crohn (MED)
…
fourth-gram
NAPN
…
disturbo respiratorio del sonno (MED)
…
fifth-gram
NPNPN
…
…
disturbo da deficit di attenzione (MED)
…
…
…
Table 1: Morpho-syntactic subcategories of MWU
5.3
The Italian DELACF of Medicine
The following sample of electronic dictionary is an excerpt from our Italian Electronic Dictionary of Medicine and Biomedicine7:
quarto ventricolo, N + Genere = m + Numero = s + Class = AN + Term = MED
pronto soccorso, N + Genere = m + Numero = s + Class = AN + Term = MED
malattie infettive, malattia infettiva, N + Genere = f + Numero = p + Class = NA + Term = MED
agenti patogeni, agente patogeno, N + Genere = m + Numero = p + Class = NA + Term = MED
flora residente, N + Genere = f + Numero = s + Class = NA + Term = MED
Furthermore, our LRs also consist of bilingual dictionaries useful for many other NLP applications such as machine translation systems. The following example represents a string extracted from the Italian-English dictionary of Medicine:
7
It‟s important to specify that our domain dictionaries, collected in the DELAC system, cover about 180 different semantic tags. The most important dictionaries are those of Informatics (54,000 entries ca.), Medicine
(46,000 entries ca.), Law (21,000 entries) and Engineering (19,000 entries ca.). Each dictionary has been created
and verified under the supervision of domain experts. Subset tags are also previewed for those domains that include specific subsectors. This is the case of Engineering, for which a generic tag ING is used, while nine more
explicit tags are used for Acoustic Engineering (ING ACUS), Aeronautics and Aerospace Engineering (ING
AER), Chemical Engineering (ING CHIM), Civil Engineering (ING CIV), Mechanical Engineering (ING
MECC), Mining Engineering (ING MIN), Naval Engineering (ING NAV), Nuclear Engineering (ING NUCL)
and Oil Engineering (ING PETROL). A same formalization was used for Physics, which has been given a generic tag FIS plus more specific tags for Atomic Physics (FIS ATOM), Nuclear Physics (FIS NUCL), Physics of
Plasma (FIS PLASMA), Solid-State Physics (FIS SOL) and Subnuclear Physics (FIS SUBNUCL).
79
ubriachezze patologiche, ubriachezza patologica, N + Genere = f + Numero = p + Class = NA + Term =
MED + Eng = pathologic intoxication, pathologic intoxication, Number = s+ Class = AN
uditi cromatici, udito cromatico, N + Genere = m + Numero = p + Class = NA+ Term= MED + Eng =
chromatic audition, chromatic audition, Number = s+ Class = AN
uditi residui, udito residuo, N + Genere = m + Numero = p+ Class = NA + Term = MED + Eng = residual
hearing, residual hearing, Number = s + Class = AN
5.4 NLP applications
In order to test our system, we developed a monitor corpus, which we are still updating. It is a
part of the Medicine Manual edited by Merck Sharp & Dohme, available on line at
http://www.msd-italia.it/altre/manuale/index.html.
The current size of corpus is: 899048 Word Forms and 36370 Different Tokens.
By means of the software NooJ, MWUs were located inside the corpus and transformed into
XML tags: each compound was also automatically marked with the label MED (i.e. the tag
use for Medicine semantic domain).
We retrieved 16% (5,858 occurrences) of MWUs on the total of different tokens, 66%
(3,913 occurrences) of which are specific in the Medicine domain. Table 2 displays MWU
POS patterns based on their morph-syntactic structure.
POS
Pattern
# MWU
% on the total (5,858)
# MED MWU
% on the total of MED
(3,913)
NA
4,089
69.80
2962
75.70
NPN
1,425
24.33
818
20.90
NN
157
2.68
108
2.76
AN
153
2.61
25
0.64
Others (Avv., Prep., etc.)
34
0.58
/
/
Table 2: Number of occurrences of MWU by subcategory
Furthermore, we performed a Text Classification task on the abovementioned monitor corpus. For this purpose, we used Cataloga, which works as a text classifier. This study intends
to highlight the relationship between domain terminology and MWU, which are massively
present in specialized texts. In fact, Cataloga classifies texts on the basis of their prevailing
semantic field. The results confirm our hypothesis: the relationship between terminology and
MWU is high. Table 3 shows the classification outputs.
Knowledge domain
Medicine
Economics
Informatics
Law
Physics
Geography
Navigation
Zoology
Sciences & Techniques
Chemical
Hydrology
Optics
80
MWU
(average %)
76.47
4.99
3.02
2.51
1.09
0.65
0.46
0.28
0.25
0.14
0.13
0.10
Microbiology
0.07
Other domains (Engineering, Astronomy, Psychology, Ecology, etc.)
0.02
Table 3: Average of MWU classified in any knowledge domain
As shown in the previous table, Cataloga accurately classified texts in the Medicine domain because it recognized a high presence of MWU in that domain. Of course, if in the texts
there are MWUs of any other knowledge domain, they are properly recognized and duly classified by Cataloga.
6 Qualitative Evaluation
Our approach does not require a statistical evaluation of results but rather a qualitative one. It
is a supervised approach based on manually-developed LR, which are exhaustive and further
enriched by means of the implementation with institutional and acknowledged lexica under
the supervision of domain experts. As a consequence, our resources may be considered as a
gold standard useful, for example, in machine learning and/or machine translation systems. In
other words, the real evaluation process has to be carried out not on the procedure itself, but
on the performativity of electronic dictionaries, which must always be updated to ensure consistent and reliable results.
7 Conclusion and future works
To conclude, in this paper we described a linguistic approach to NLP based on the development of well-crafted LR useful in the structuring of an effective Knowledge Management
System. This research could head to the improvement of Information Retrieval, Information
Extraction, Information Storage, Machine Translation, ontology development, lexicondependent Semantic Web, query free procedures for knowledge structuring, question answering, fostering a better “intelligent agent” interaction between humans and technology. Besides, we showed a methodology to coherently and completely describe MWU phenomena.
Hence, as for the topics dealt with in this paper, our future research perspectives will be
focused on the following main themes:
- validation and updating of our manually-based LR;
- creation and implementation of terminological electronic dictionaries for emerging
semantic domains;
- enlargement of the monitor corpus in specific domains.
In addition, our well-crafted LR, thanks to their specific focus on MWU treatment, could
interface with standard languages (OWL) for ontology design: in fact, on one hand we use
these dictionaries as semantic-lexical sources for domain ontologies, and on the other hand,
we use local grammars to convert logical inferences of ontology in natural language queries.
Furthermore, as a future work, we intend to develop a dedicated search engine based on all
the previously mentioned NLP applications.
81
References
Berners-Lee T., Hendler J. & Lassila O. (2001). The semantic web. Scientific American, May.
Bloomfield L. 1933. Language. Henry Holt, New York.
Chomsky N.A. 1957. Syntactic Structures. Mouton, The Hague, Paris.
Chomsky N.A. 1965. Aspects of the Theory of Syntax. MIT Press, Cambridge, Massachusetts.
Chomsky, Noam. 1993. "A minimalist program for lin-guistic theory". En: Hale, Kenneth L. and S. Jay Key-ser,
eds. The view from Building 20: Essays in linguistics in honor of Sylvain Bromberger. Cam-bridge, MA:
MIT Press. 1-52
Chomsky, Noam. 1995. The Minimalist Program. Cam-bridge, Mass.: The MIT Press.
Choueka Y. 1998. Looking for needles in a haystack or locating interesting collocational expressions in large
textual database. In Proceedings of the RIAO, pp. 38-43.
De Bueriis G., Elia A. (eds.). 2008. Lessici elettronici e descrizioni lessicali, sintattiche, morfologiche ed
ortografiche. Plectica, Salerno.
Downing P. 1977. On the creation and use of English compound nouns. In Language Vol. 53, pp. 810-842.
Elia A. 1984. Le verbe italien. Les completives dans les phrases à un complement, Schena-Nizert, Fasano di
Puglia – Parigi.
Elia A., Bocchino F., Lngella A.M., Monteleone M., Vellutino D. Grammatiche locali per il riconoscimento
automatico e la classificazione delle FAQ sull'Informazione Comunitaria Europea. In Bolasco, Chiari,
Giuliano (eds.), Statistical Analysis of Textual Data, Proceedings of 10th International Conferences
“Journées D‟Analyse Statistique des Données Textuelles”. LA SAPIENZA - University of Rome Italy, 9 - 11
June 2010, MILANO: LED Ed. Universitarie Lettere Economia Diritto, vol. 2, p. 1227-1236, 2010
Elia A., Marano F. Monteleone M., Sabatino S., Vellutino D. Strutture lessicali delle informazioni comunitarie
all‟interno di domini specialistici. In Bolasco, Chiari, Giuliano (eds.), Statistical Analysis of Textual Data,
Proceedings of 10th International Conferences “Journées D‟Analyse Statistique des Données Textuelles”. LA
SAPIENZA - University of Rome Italy, 9 - 11 June 2010, MILANO: LED Ed. Universitarie Lettere
Economia Diritto, vol. 2, p. 1227-1236, 2010
Girju R., Moldovan D., Tatu M., Antohe D. 2005. On the semantics of noun compounds. Computer Speech and
Language, 19:479-496.
Gross M. 1968. Grammaire transformationnelle du français. – I – Syntaxe du verbe, Larousse, Paris.
Gross M. 1975. Méthodes en syntaxe, régime des constructions complétives, Hermann, Paris.
Gross M. 1989. La construction de dictionnaires électroniques. Annales des Télécommunications, vol. 44, n° 12: 4-19, CENT, Issy-les-Moulineaux/Lannion.
Gross M., Halle M. & Schützenberger M.P. 1973. Formal analysis of natural languages. Proceedings of the first
international conference (Paris 1970). The Hague, Paris.
Harris Z.S. 1957. Co-occurrence and transformation in linguistic structure. Language 33, pp. 293-340.
Harris Z.S. 1970. Papers in Structural and Transformational Linguistics. Reidel, Dordrecht.
Laporte E., Nakamura T., and Voyatzi S. 2008. A French Corpus Annotated for Multiword Nouns. Language
Resources and Evaluation Conference. Workshop Towards a Shared Task on Multiword Expressions. June
pp. 27-30.
Manning C.D. and Schütze H. 1999. Foundations of Statistical Natural Language Processing. The MIT Press
Cambridge, Massachusetts, London, England.
Manning C.D., Raghavan P. and Schütze H. 2008. Introduction to Information Retrieval, Cambridge University
Press, New York, USA.
Sag I.A., Baldwin T., Bond F., Copestake A. and Flickinger D. 2001. Multiword Expressions: A Pain in the
Neck for NLP. In Proceedings of the 3rd International Conference on Intelligent Text Processing and Computational Linguistics (CICLing-2002, pages 1–15, Mexico City, Mexico.
Silberztein M. 1993. Dictionnaires électroniques et analyse automatique de textes, Masson, Paris.
Silberztein M. 2002. NooJ Manual. Available for download at: www.nooj4nlp.net.
Sinclair J. 1991. Corpus, Concordance, Collocation. Oxford University Press, New York.
Vietri S., Elia A., D'Agostino E. (2004). “Lexicon-grammar, Electronic Dictionaries and Local Grammars in
Italian”, in Laporte, Leclère, C., Piot, M., Silberztein M. (eds.), Syntaxe, Lexique et Lexique-Grammaire.
Volume dédié à Maurice Gross, Lingvisticae Investigationes Supplementa 24, John Benjamins,
Amsterdam/Philadelphia.
82
Elia Annibale
University of Salerno - Italy
[email protected]
ON LEXICAL, SEMANTIC AND SYNTACTIC GRANULARITY
OF ITALIAN VERBS
Abstract
This paper discusses the results of a research conducted on a lexico-syntactic database containing the
classification of almost 5,000 monorhematic Italian verbal uses, based on 1,349 total combinatorial properties. In
the wake of Maurice Gross’s research for French, the lexico-syntactic profiles of these verbs were identified and
classified in a matrix form. Our studies highlighted that these profiles tend to be unique, i.e. each verb has its
own profile. By means of several examples, this paper presents the evidence of the granularity of verb lexicalsyntactic properties, and shows how syntax seems highly dependent on lexicon and strongly separated from
semantics.
Keywords: italian lexicon-grammar, lexical-syntactic profile, lexical granularity, syntax
granularity, semantic granularity.
Introduction
On the basis of the availability of the lexico-syntactic information on the combinatorial
behavior of Italian language, it is possible to set up macro-intuitive semantic classes which
correspond to specific sequences in texts and are therefore automatically recognizable. These
macro-semantic classes show that the semantic intuition that drives us to put together certain
predicates and their argument is not correlated to the set of syntactic properties of the verbs,
nor is it "helped" by it, except in a very superficial way.
Let’s now focus on a concrete example. 313 verbs enter in a sentence construction of type
N0 V N1 a N2, in which N1 is a complement or an infinitive clause and N0 and N2 are
“human” nouns. This sentence construction characterizes the verbs which point to a
communicative transfer process between N0 and N2 and belong to class 47 of the Lexicogrammar. The combinatory properties analyzed are 34, the tested sentences are 10,642.
Among the analyzed properties there are two interesting ones:
1. N0 V di V0 Inf a N2 =: Max promise a Eva di partire, Eva sussurrò a Max di
amarla (Max promised Eva to go, Eva whispered to Max to love her)
2. N0 V di V2 Inf a N2=: Eva intimò a Max di partire, Max sussurrò a Eva di
andarsene (Eva ordered Max to go. Max whispered to Eva to leave)
These two properties identify three types of verbs:
a) with subject of the infinitive clause coreferent with N0 (promettere: 99 verbs)
b) with subject of the infinitive clause coreferent with N2 (intimare: 84 verbs)
c) with subject of the infinitive clause coreferent with N0 or with N2 (sussurrare: 130
verbs)
but at a closer analysis, we observe that the tense of the infinitive may influence the examined
properties of type c) with reference to the subject of the infinitive clause of the verb
sussurrare:
Max le sussurrò che aveva sbagliato a comportarsi così [lui, lei] (Max whispered to
her that he/she was wrong in having behaved in this way.)
83
Max le sussurrò di aver sbagliato a comportarsi così [lui, ?*lei] (Max whispered to
her that he/ ?*she was wrong in having behaved in this way)
Max le sussurrò che si togliesse dalle scatole [*lui, lei] (Max whispered to her to get
out of his way [* he, she])
Max le sussurrò di togliersi dalle scatole [*lui, lei] (Max whispered to her to get out
of his way [* he, she])
Max le sussurrò che se ne era andato/a con la coda tra le gambe [lui,lei] (Max
whispered to her that he/she went off with his/her tail between his/her legs)
Max le sussurrò di essersene andato con la coda tra le gambe [lui, *lei] (Max
whispered to her that he went off with his tail between his legs)
*Max le sussurrò di essersene andata con la coda tra le gambe [*lui , lei,] (Max
whispered to her that she went off with her tail between his/her legs)
The 130 verbs that may have a double co-reference with the subject of the infinitive
clause do not have a homogeneous syntactic behaviour and show fluctuations of acceptability
dependent on the tense and the morpho-syntactic structures of the verbs of the complement
and infinitive clause. It can be stated that these are not simple dependencies, but complex
concatenations of dependencies. At present, to the best of our knowledge, Lexicon-grammar
is the only theoretical and methodological approach which takes into account these types of
complex concatenations, both lexical and syntactic, in a coherent way.
N0 V il fatto Ch F al fatto
Che
+ + -
N0 V N1 -um a N2um
-
N0 V N1 um a N2um
N0 V a N1=um
V -> Nstrum= fusione
- + - + - + -
N0 V Ch F
-
N0 Vsup V-N Ch F a N3
N0 V
Passivo
+ + + + -
N0 V C h F ver so N2
- + + + - - - + + - + + + + + + -
N0 V a N2 di Nx
N1 =: N1 V1-inf Comp
N1 =: se F o se F
il fatto Ch F a N2
N0 V di V2 Aux Comp a N2
N0 V di V0 Aux Comp a N2
N0 V di V2 Comp a N2
N0 V di V0 Comp a N2
N0 V che Fcong a N2
N0 V che F a N2
V
chiedere
dire
V -> N
-
V= verso animale/umano
+ + -
N0 =: V1 Comp
N0 =: il fatto Ch F
N0 =: Num
1. Syntactic individuality of verbs
In this paper we present some empirical and descriptive evidences, that derive from the
analysis of the lexicon-grammar of the Italian verbs. We will refer to the lexico-syntactic
database1 concerning the classification of almost 5,000 mono-rhematic verbal uses, based on
1,349 combinatorial properties (in all). We classified the verbs in a matrix form (with + and to indicate the acceptance and the non-acceptance of properties). In the class matrix, each
verb is inserted in a row and the properties are placed in columns, so that for each verb there
is a line that contains a sequence of + and -, as in the following example:
+ + -
The sequence of + and - is called "lexical-syntactic profile”.
Starting from a word list of 4,437 verbs, we have made up 68 classes2, of which 23 with
non-elementary arguments which correspond to 2,411 verbal uses (with complement and/or
infinitive clauses) and 45 with elementary arguments which correspond to 2,026 (transitive,
intransitive, neutral or inaccusative) verbal uses. In order to identify the identical profiles
1
This is for version 1.0, available at http://dsc.unisa.it/composti/tavole/combo/tavole.asp .
A description of the various classes can be found in Elia 2005, although it refers to a previous version of the
LG.
2
84
within each class, we developed a program3 which groups them together within each lexicosyntactic class. The results confirm the situation identified by Gross (1975) for the French
language4, i.e. that, on average, there are not two Italian verbs that share the same syntactic
profile. The following table shows the numerical values that we have developed on the basis
of the analyses carried out on the syntactic behaviours of the verbs. Table 1 summarizes three
separated tables, one for the verbs with complement clause, one for the intransitive verbs and
finally one for the transitive verbs.
VERBS
WITH
COMPLEMENT
CLAUSES
57,288 tested sentences
23 CLASSES
INTRANSITIVE
VERBS
23,827 tested sentences
20 CLASSES
TRANSITIVE VERBS
19,453 tested sentences
25 CLASSES
ALL VERBS
100,568
tested
sentences
68 CLASSES
USES
PROFILES
RATIO %
PROPERTIES AVERAGE
2411
1450
1,66
443
19
852
597
1,42
54
27
1174
805
1,45
361
14
4437
2852
1,5
1349
20
Table 1: Verbs of LG
Table 1 allows to have a general overview of the results of the analysis of all 100,568
sentences on the basis of 1,349 properties (in all) tested on 4,437 verbs. The average of
identical syntactic profiles is 1.5. The average of the analysed properties per class is 20. We
observed that the increase of 5 analyzed properties increases the rate of difference among
syntactic profiles of 0.3 points: this means that the next version of the LG, which will entail a
considerable extension of the observed properties (we are considering an average of 40
properties), will probably lead to the identification of the total individuality of the profiles.
For each verbal use only one syntactic profile will be determined5.
2. The granularity of the lexical-syntactic properties
At this stage of the LG it is already possible to determine the nature and distribution of lexical
and syntactic profiles more precisely. Thanks to the software program developed by Di Maio,
we can calculate the consistency and the distribution profile of the groups of profiles within
each class.
3
The program was developed by Francesco Di Maio at the Department of Political, Social and Communication
Sciences of the University of Salerno.
4
Gross estimated that on average French verbs come in groups of identical syntactic profiles of 1.5.
5
We are currently normalizing the set of the properties in order to extend its total number to 2,600 properties. In
this version of the LG the morpho-syntactic correlations were still analyzed in an episodic way, i.e. only in some
classes and not in all of them. The adjectives in morphological connection with verbs have been systematically
studied only for Class 41 (see Messina 2010). In addition, the current version of the verbal LG has not been
connected to the fragments of adjectival and nominal LG yet (in order to analyse the support verb constructions
in which adjectives and nouns have a predicative value: see at least Giry-Schneider 1978, Cicalese 1995,
D'Agostino 2007), nor with the LG of multiword verbs (see Vietri 1996, 2004). In the coming years we will
provide a more detailed and thorough overview.
85
N1 =: Num
Ppv =: gli
N1 =: N-um
N1 =: il fatto Ch F
N0 V a N1 q
N0 V in N1 q
N0 V (di + da) N1 q
Ppv =: (ci + vi)
N0 V dal fatto Ch F
N0 V Prep
N1 di V1 Comp
ne V N0
+
+
+
+
+
+
+
+
+
+
+
+
+
calere
competere
dispiacere
frullare
importare
pesare
prudere
restare
rimanere
sconvenire
spettare
spiacere
suonare avvm
a
a
a
a
a
a
a
a
a
a
a
a
a
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
-
-
-
-
-
-
-
-
-
-
importer
convenir
d{plaire
passer
importer
peser
d{manger
rester
rester
d{convenir
appartenir
d{plaire
sonner
5
5
5
5
5
5
5
5
5
$
5
5
5
42
42
42
42
42
42
42
42
42
42
42
42
42
-
-
+
+
+
+
+
+
-
ribollire
riecheggiare
rimbombare
rintronare
scintillare
scoppiare
loc
loc
loc
loc
loc
loc
-
-
+
+
+
+
+
+
-
-
-
-
-
-
-
+
+
+
+
+
+
+
+
+
+
+
+
bouilloner
retentir
gronder
r{sonner
scintiller
{clater
34LO
5
5
5
5
5
42
42
42
42
42
42
V fr
classe it
N0 =: V1 Comp
+
+
+
+
+
+
+
+
+
+
+
+
+
Classe fr
N0 =: Ch F
+
+
+
+
+
+
+
+
+
+
+
+
+
Prep
N0 =: Nnr
-
V
N0 =: Num
Here is a sample page of a class sorted by groups:
-+++++----------+++++----------+++++----------+++++----------+++++----------+++++----------+++++----------+++++----------+++++----------+++++----------+++++----------+++++----------+++++---------13
--+---+-------++
--+---+-------++
--+---+-------++
--+---+-------++
--+---+-------++
--+---+-------++
6
In the first page of class 42, the first group has 13 profiles and the second one has 6 different
profiles. Having taken a closer look at the individual groups of profiles present in all the
classes we observed the presence of a widespread granularity of the distribution of the
properties shared by the verbs belonging to the same class. In other words, there is a very high
percentage of specific syntactic properties of individual verbs, of couples and groups of three
verbs. Table 2 below shows the presence of identical syntactic profiles in each class. As you
can see it can range from few groups with a maximum number of profiles (from 35 to 22) to
many groups with a minimum number of them (from 3 to 2) and many more groups with a
single profile.
GROUP
QUANTITY
PROFILE
QUANTITY
PRESENCE IN THE CLASSES
1
1
1
1
1
2
3
1
7
6
3
4
7
15
23
18
35
34
27
25
21
22
16
14
13
12
11
10
9
8
7
6
25
5
(47)
(20UM)
(20UM)
(20UM)
(20UM)
(48) (11)
(49) (54) (48B)
(48B)
(41)2 (42) (43B) (48)2 (54)
(41)2 (54) (57) (2)
(54) (3) (20UM)
(43B) (57) (20R) (47)
(43B) (56)2 (58)2 (20R) (21A)
(41)3 (43B) (47)4 (49) (54) (55) (57) (58) (2B) (21A)
(41)4 (43)7 (43B) (48) (48B) (49) (56)2 (57)2 (58) (2) (2A) (20UM)
(41) (42) (43B) (47)2 (49) (57)2 (58) (1) (2)2 (11) (12) (20i) (20R)2
(21A)
(41)5 (43) (43B) (47) (48)3 (48B) (50) (51)3 (52) (56) (20B)2 (10) (20A)
(20L) (23D)2
86
61
4
109
3
343
2
2221
1
(41)12 (42) (43) (43B)2 (47)4 (48)2 (50) (52) (54) (55)2 (56) (57)6 (58)
(2)4 (2A)2 (2B)2 (3A) (5A) (8) (9)2 (11)3 (18) (19) (20L) (20NR) (20R)2
(21) (21A) (22)
(41)17 (42)3 (43B)5 (44B)2 (45) (46)4 (47)10 (47B) (48) (48B)2 (49)3
(50)2 (58)4 (51) (53)2 (54) (55)4 (56)4 (57)5 (58)3 (1)2 (2)2 (2B) (6)
(7S) (8) (9) (11)3 (12)2 (16A) (18) (19) (20A)4 (20i)3 (20R)5 (20UM)
(21) (21A)3 (22)2 (27) (31A)
(41)50 (42)8 (43)26 (43B)2 (44) (44B)4 (45)3 (45B)2 (46)4 (47)25
(47B)8 (48)5 (49)11 (50)2 (51)3 (53)2 (54) (55)3 (56)2 (57)14 (58)12
(1)4 (2A)9 (2B)4 (3)6 (3A)2 (4)3 (5)2 (5A)4 (6)4 (6A) (7D)3 (7DP)6
(7P) (7S)4 (8)6 (9)4 (10)8 (11)7 (16A)2 (16)2 (17)2 (18)3 (19)3 (20A)2
(20i)2 (20L)3 (20NR)6 (20R)10 (20UM) (21)4 (21A)4 (22)14 (23D)6
(24)4 (27)3 (28ST) (28)2 (30) (31) (31A)2
(41)270 (42)66 (43)217 (43B)35 (44)31 (44B)30 (45)22 (45B)19 (46)12
(47)123 (47B)14 (48)22 (48B) (49)28 (50)29 (51)11 (52)5 (53)18 (54)6
(55)5 (56)16 (57)43 (58)40 (1)10 (2)61 (2A)7 (2B)10 (3)22 (3A)2 (4)25
(5)20 (5A)14 (6)14
(6A) (7D)31 (7DP)58 (7P)23 (7S)30 (8)41 (9)53 (10)35 (11)17 (12)3
(16A)39 (16)18 (17)21 (18)27 (19)8 (20A)23 (20i)6 (20L)25 (20NR)67
(20R)32 (20UM)7 (21)14 (21A)20 (22)25 (23D)35 (24)64 (27)28
(28SC)31 (28ST)10 (28)58 (29)17 (309)20 (31)42 (31A)6
Table 2: Groups and Profiles
Table 2 is significant for the granularity of the lexical-syntactic properties of verbs.
Overall, we observe that 2,221 groups over 2,852 are unique profiles. Therefore almost 78%
of the groups of the syntactic profiles concerns a single verb. This confirms that, on the level
of simple sentences, the syntax of verbs is almost entirely dependent on a lexical
idiosyncrasy.
3. The search for convergence among lexicon, syntax and semantics
Despite the apparent lexical granularity of the verbal syntax, we wanted to analyze the
distribution of the syntactic profiles, looking for sub-classes of semantic-syntactic
convergences and divergences. Keeping ourselves into the average number of tested
properties we observed that many groups of identical syntactic profiles do not correspond to
groups of semantic convergence, as it is the case of these 12 verbal uses of Class 41 which are
syntactically similar : affaticare, depravare, disacerbare, emancipare, emarginare, raffinare,
raffreddare, riabilitare, spersonalizzare, spoliticizzare, svagare, traviare These verbs do not
show any similarity in meaning, apart from a general causative "psychological" interpretation,
in sentences such as Guardare la televisione (affatica, deprava, …) i ragazzi. A small group
of 9 uses of Class 20R with the same syntax profiles has a stronger semantic divergence:
bocciare, brillare, coltivare, prescrivere, presentare, proiettare, riparare, rivoltare,
soffriggere. One of the most significant examples of syntactic and semantic convergence is
represented by 35 verbal uses of class 47: balbettare, barbugliare, barrire, belare, … vagire,
vomitare. These verbs indicate animal sounds, noises and sounds in general, which, in special
circumstances, take an infinitive sentence or a complement clause. By examining the different
classes according to the groupings of identical syntactic profiles we have extracted three lists
of groups on the basis of an initial intuitive analysis performed according to three criteria:
1.Syntactic and semantic similarity (avvenire, capitare, succedere), 2. Syntactic similarity and
semantic differences (indossare, parlare, sapere, scordare), 3. Syntactic differences and
semantic similarity (allietare, rincuorare, rinfrancare). The result is that, on average, there
are many groups with a maximum amount of two or three verbs.
4. The macro-semantic classes
87
The search for correlations and convergences between meanings and syntactic forms for the
verbs did not produce any significant results. The picture that emerges is that of a
quantitatively and qualitatively weak convergence. Above all, apart from a few examples,
there is no apparent systematic principle and the convergences, if present, show a casual and
episodic trend. The syntax is highly dependent on the lexicon and strongly separated from
semantics.
In the LG research6 we showed that, in spite of this dependence and this separation, on the
basis of the availability of the lexico-syntactic information on the combinatorial behaviour of
the Italian language starting from the verbs, it is possible to set up macro-intuitive semantic
classes which correspond to specific sequences in texts and are therefore automatically
recognizable. In this section we present eight macro-semantic classes of 2.117 verbs (on the
total of 4.437), built from the items which are in several lexical-syntactic LG classes. In many
cases, the semantic classes coincide with classes or parts of lexico-syntactic classes or
groupings of several classes. With the abbreviation c.p. we mean constant properties (all + or
all -) and with tot.p. we mean the total properties; % indicates the ratio between c.p. and tot.p.
The lower is the value of the percentage (%), the more arbitrary is the syntactical / semantic
correlation.
1. Class of meteorological verbs
pertinent total
c. p.
tot. p. %
Class 1 (V: piovere)
30
30
0
9
0
2. Class of psychological verbs
(sentiments, sensations, esthetical/moral judgments)
pertinent total
c. p.
tot. p. %
Class 41 (Ch F V Num1: angosciare)
599
599
5
23
0,2
Class 42 (Ch F V Prep Num1: piacere)
7
114
13
17
0,7
Class 43 (N0 V Ch F, Num1: amare)
14
298
8
36
0,2
Class 43 B (biasimare)
28
142
7
12
0,58
Total
648 1153
33
88
0,37
3. Class of body verbs
pertinent total
c. p.
tot. p. %
Class 18 (Num0 V Num1 LocN2pc: baciare)
40
40
6
19
0,3
Class 19 (Num0 V N1pc: spettinare)
15
15
5
19
0,26
Total
55
55
11
38
0,28
4. Class of creation verbs
pertinent total
c. p.
tot. p. %
Class 20 (Num0 V N-um1: creare)
46
46
7
17
0,4
5. Class of epistemic verbs (knowledge, perception, memory, deduction)
pertinent total
c. p.
tot. p. %
Class 43 (Num0 V Ch F: sapere)
204
298
2
36
0,05
Class 43 B (fraintendere)
10
142
2
19
0,1
Class 54 (N0 V Ch F Prep N2: dedurre)
28
75
8
17
0,47
Total
242
515
12
72
0,16
6. Class of personal transfer verbs (someone transfers something to someone else)
pertinent total
c. p.
tot. p. %
Class 23D (Num0 V N1 a Num2: dare)
57
145
3
26
0,1
Class 23R (Num0 V N1 da Num2: ereditare)
6
See Gross 1981, Elia, D'Agostino 1983; for applications on the possibility of automatically identifying
semantic predicates and their arguments, see Elia, Vietri 2010, Elia et al. 2010.
88
18
34
4
26
0,1
Class 23Ra (Num0 V N1 a Num2: rubare) 11
34
4
26
0,1
Class 24 (Num0 V Nun1 di N2: rifornire) 13
73
8
22
0,36
Total
99
286
19
100 0,19
7. Class of communication transfer verbs (someone communicates something to someone else)
pertinent total
c. p.
tot. p. %
Class 47 (Num0 V Ch F a Num2: dire)
276
313
3
34
0,08
Class 47B (estorcere)
10
34
3
23
0,1
Total
286
347
6
57
0,1
8. Class of locative transfer verbs (displacement, movement, direction)
pertinent total
c. p.
tot. p. %
Class 7D (N0 V Loc N1: entrare)
37
Class 7P (N0 V Loc=:daN1: provenire)
25
Class 7DP (N0 V Loc N1 Loc N2: andare) 70
Class 7S (N0 V Loc N1 “scenico”: naufragare)
Class 8 (N0 V “statico” Loc N1: abitare) 60
Class 16A (N0 “luogo” V N1: eruttare)
46
Class 20L (Num0 V N1 “luogo”: attraversare)
37
25
70
1
2
2
38
34
43
0,02
0,05
0,04
42
60
46
42
1
1
2
38
18
44
0,02
0,05
0,04
1
15
0,06
3
32
0,09
3
27
0,1
7
26
0,2
7
32
0,2
1
32
0,03
14
0,1
2
395
18
0,08
40
40
Class 28 (Num0 V N1 Loc N2 “destinazione”: mettere)
62
62
Class 28SC (N0 V N1 Loc N2“luogo”: localizzare)
31
31
Class 28ST (N0 V “statico” N1 Loc N2 “luogo”: mantenere)
12
12
Classe 29 (Num0 V N1 Loc N2 “provenienza”: tagliare)
17
17
Classe 30 (N0 V N1 Loc N2 Loc N3: scagliare)
22
22
Classe 57 (Num0 V Loc N1, a VinfW: correre)
171 171 2
Classe 58 (N0 V N1 Loc N2, a Vinf W: accompagnare)
76
76
Total
711
711 35
0,1
We can observe that the ratio between the constant properties and the total properties is
always very low. In particular, the verbs of locative transfer (711 in all) is only equal to 0.08.
The class of verbs of personal transfer (99 in all) also has a low ratio (0.19). We recently
developed an application for the recognition of the transfer predicates and their arguments that
works fine (more than 90% recognition of predicates and of their arguments in the Italian
Civil Code7). These macro-semantic classes show that the semantic intuition that drives us to
put together certain predicates and their argument is not correlated to the set of syntactic
properties of the verbs, nor is it "helped" by it, except in a very superficial way, indeed we
might say that the granular nature of the syntax in the lexicon would be an obstacle for a mind
that is organized in an efficient and rigorous logic way.
7
It is Elia et al. 2010, Elia, Vietri 2010.
89
Bibliography
Cicalese, A., (1995), L'analisi dei nomi operatori con il verbo fare, in E. D'Agostino, a cura
di,Tra sintassi e semantica. Descrizione e metodi di elaborazione automatica della lingua
d'uso, ESI: Napoli, 11-166.
D'Agostino, E. Elia, A. (1983), Lessico e sintassi dei locativi in italiano, in AAVV, Italia
linguistica: idee, storia strutture, il Mulino: Bologna
D’Agostino, E. (2007), Classificazioni grammaticali: ovvero come liberarsi dall’angoscia, in
Elia A., Landi A., a cura di, Testualità. Testo materia forme, Quaderni del Dipartimento di
Scienze della Comunicazione dell’Università di Salerno, Carocci: Roma
Di Maio F. (in press), Metodi per l’estrazione di profili sintattici dal Lessico-grammatica, in
“Studi Italiani di Linguistica Teorica e Applicata” in press
Elia A. (2005). Lessico Grammatica dell'italiano, in: De Mauro T.,Chiari I., a cura di, Parole
e numeri. Analisi quantitative dei fatti di lingua, Aracne Editrice: Roma
Elia A.; Vietri S. (2010). Lexis-grammar and Semantic Web, in “Infoteka”, pp.15a- 38a, Vol.
XI,1
Elia A., Postiglione A. , Vietri S., Monteleone M., Marano F.(2010), Data Mining Modular
Software System, in: AA.VV, WorldComp2010. 12-15 luglio 2010, pp.127- 133, CSREA
Press: Las Vegas
Giry-Schneider, J. (1978), Les nominalisations en français. L'opérateur FAIRE dans le
lexique, Droz:Genève
Gross, M. (1975), Méthodes en syntaxe, Hermann: Paris
Gross, M. (1981), Les bases empiriques de la notion de prédicat sémantique, in « Langages »
n. 63, Larousse : Paris
Messina S. (2010), L’aggettivalizzazione nel lessico-grammatica della lingua italiana: la
classe AG41, in stampa.
Vietri, S. (1996),
The syntax of the Italian verb essere Prep, in “Lingvisticae
Investigationes”, XX:2
Vietri, S., A. Elia, E. D'Agostino, (2003), Lexicon-grammar, Electronic Dictionaries and
Local Grammars in Italian, in Laporte, Eric, Christian Leclère, Mireille Piot & Max
Silberztein (eds.). Syntaxe, Lexique et Lexique-Grammaire Volume dédié à Maurice
Gross. Lingvisticae Investigationes Supplementa 24, John Benjamins Publishing :
Amsterdam/Philadelphia
Vietri S. (2004), Lessico-grammatica dell’italiano. Metodi, descrizioni, applicazioni, UTET,
Torino
90
Fista Evangelia
Université Aristote de
Thessalonique
[email protected]
Kyriacopoulou Tita
Université Paris-Est
Marne-la-Vallée
[email protected]
Tziafa Eleni
Université Aristote de
Thessalonique
[email protected]
LES NOMS PREDICATIFS
DANS LA LANGUE SPECIALISEE DE LA BOURSE
Résumé
En nous appuyant sur un corpus de textes boursiers, nous nous proposons d’étudier les noms
prédicatifs (Npred) et plus précisément les constructions à verbe support (CVS) du type Vsup
+ Npred comme p. ex. θάλω απνϋινπνίεζε (procéder à la dématérialisation), θάλω
ξεπζηνπνίεζε (procéder à la liquidation), ζπλάπηω ζπκθωλία (conclure un accord), etc. Nous
avons mené notre recherche sur un corpus de textes boursiers d’une taille de 40 millions de
mots ce qui nous a permis d’extraire cent cinquante Npred que nous avons par la suite repartis
en cinq tables suivant la méthodologie du Lexique-Grammaire développée au sein du LADL1.
Ce travail fait partie d’une thèse de doctorat cofinancée par l’Union Européenne et par
l’État Grec, dans le cadre du programme « Heracleitus II. Investing in knowledge society
through the European Social Fund » de «Education and Lifelong Learning », « National
Strategic Reference Framework (NSRF) ».
Mots-clés : noms prédicatifs, verbes supports, langue spécialisée, corpus boursier.
1. Introduction
Les langues spécialisées représentent une source de difficultés essentielle pour le Traitement
Automatique des Langues (TAL), la récupération de l’information (Information Retrieval), la
terminologie, la traduction. Pour les applications informatiques, un problème commun pour
toutes les langues, qu’elles soient générales ou spécialisées, est la description formelle des
Npred et des verbes supports appropriés. Des travaux sur la reconnaissance des constructions
à verbe support pour le français (E. Laporte et al. 2008), ont démontré l’utilité des ressources
lexicales du DELAF2.
A cette fin, nous avons recensé les données linguistiques et puis nous avons décrit les
propriétés syntactico-sémantiques des Npred, présentes dans le corpus boursier. A titre
d’exemple, les Npred apparaissent dans des phrases de type :
(1) H εηαηξεία έθαλε ξεπζηνπνίεζε ηωλ θιαζκαηηθώλ ππνινίπωλ
(La société a effectué la liquidation des fractions)
(2) H ζύκβαζε νξίδεη ην δηθαίωκα ιήμεο ηεο ζύκβαζεο
(La convention définit le droit de résiliation du contrat)
(3) Oη κεηνρέο έρνπλ εηζαρζεί πξνο δηαπξαγκάηεπζε ζε νξγαλωκέλε αγνξά
(Les actions sont admises à la négociation sur un marché réglementé)
Dans les exemples (1), (2) et (3) nous avons affaire à des Npred qui relèvent de la langue
générale mais, le plus souvent, l’on rencontre à côté d’un Npred, des verbes supports et des
compléments spécifiques au domaine boursier3. Par conséquent, pour la construction des
1
Cf. Bibliographie générale du LADL sur le site web de l’Equipe d’Informatique linguistique du Laboratoire
d’Informatique de l’IGM (Université de Marne-la-Vallée) : http://igm.univ-mlv.fr/infolingu.
2
Dictionnaire morpho-syntactique qui contient 950.000 entrées.
3
Cf. les travaux de M-C. L’Homme (1998) sur les verbes spécialisés.
91
tables du lexique-grammaire des Npred nous nous sommes basés sur le corpus boursier que
nous présentons en détail à la section 2.
Dans le cadre de cet article, nous avons extrait à l’aide de Unitex4, les Npred du
vocabulaire boursier et ensuite nous avons procédé à leur description suivant la méthodologie
du lexique-grammaire tout en prenant en compte leurs spécificités morphologiques,
sémantiques et leurs cooccurrences dans le domaine de la Bourse. A la section 2 nous
présentons notre corpus. A la section 3 nous présentons brièvement le cadre théorique de
notre recherche ainsi que les spécificités des Npred de notre étude. A la section 4 nous
présentons les tables des Npred du domaine boursier. Nous concluons en présentant quelques
perspectives.
2. Corpus boursier
Notre corpus est constitué de textes écrits tirés de sources et de registres très divers,
spécifiques au domaine boursier, collectés de 1999 à 2010, une période marquée par deux
crises majeures en Grèce, la crise boursière et la crise de la dette. Le corpus sur lequel nous
travaillons compte approximativement 40 millions de mots. Même si, à l’heure actuelle,
certains corpus de la langue générale (en principe en anglais) sont de très grande taille5, un
corpus spécialisé est considéré représentatif, s’il contient entre 500.000 et 5.000.000 mots
(Bowker & Pearson 2000, Williams 2002). Or, nous pouvons considérer que notre corpus est
relativement de grande taille pour la langue grecque étant donné que l’anglais s’impose de
plus en plus comme la lingua franca des marchés internationaux suite à l’acquisition des
Bourses Européennes par la Bourse de New York.
Ce corpus se compose de quatre sous-corpus de textes grecs6. Le sous-corpus A est
constitué de messages publiés dans les débats publics dans deux forums sur internet, tous
deux, consacrés à la bourse. Ce genre de forum est apparu en Grèce les trois dernières années.
Le sous-corpus B provient de textes journalistiques, numérisés et couvre la période 19992000. Il a été complété par des articles sous format électronique de 2000 à 2010, écrits dans le
même registre de langue. Le sous-corpus C provient du site de la Bourse d'Athènes et contient
des avis, des rapports annuels et des articles parus en 2000. Le sous-corpus C pourrait
constituer une base pour une étude plus approfondie des textes parallèles, puisque les textes
inclus sont accompagnés de leurs traductions en anglais. Le sous-corpus D contient des textes
académiques essentiellement axés sur les marchés monétaires et les marchés boursiers
dérivés, fournis à partir de modules universitaires. De plus, ont été utilisés des thèses de
troisième cycle et de doctorat, disponibles en ligne.
Tous les textes du corpus boursier ont été automatiquement annotés de catégories
grammaticales et sont lemmatisés sous Unitex. Ainsi, nous avons extrait les collocations
verbo-nominales, les locutions verbales, figées ou semi-figées et par la suite nous nous
sommes intéressés à l’analyse des CVS. Il est à noter que dans notre corpus de travail, les
Npred constituent le 10% de mots.
4
http://igm.univ-mlv.fr/~unitex/.
Le corpus Google Books (American English) contient 155 milliards de mots (disponible sur le site :
http://googlebooks.byu.edu) et le corpus présenté par J. Pomikalek (BiWeC) contient à l’heure actuelle 5,5
milliards de mots.
6
Cf. D. Goutsos (2003), J. Sinclair (2005).
5
92
3. Lexique-grammaire des Npred du domaine boursier
3.1. Cadre Théorique
Pour faire une description des Npred du domaine de la Bourse, nous avons adopté l’approche
théorique globale de Z. S. Harris (1951, 1952) et la méthodologie du lexique-grammaire
élaboré par M. Gross (1981). La notion de verbe support apparaît pour la première fois vers la
fin des années soixante-dix dans des publications du LADL7, dans A. Daladier (1978) et J.
Giry-Schneider (1978b), et elle se précise dans M. Gross (1981)8.
En ce qui concerne les Npred, nous nous appuyons sur les travaux menés au sein du LADL
pour le français et sur ceux effectués pour le grec par A. Fotopoulou (1989), S. Theodorou
(1992), A. Moustaki (1997), E. Lambrou (1997), E. Sklavounou (1994), T. Kyriacopoulou et
V. Sfetsiou (2002), V. Sfetsiou (2007), E. Fista et T. Kyriacopoulou (2009). Dans la
construction à verbe support, le nom prédicatif est considéré comme le pivot de la phrase.
C’est lui qui sélectionne ses arguments.
3.2. Spécificités des Npred
Le recensement des Npred du vocabulaire spécialisé boursier a été effectué en 3 étapes. Lors
de la première étape, à l’aide du système Unitex nous avons collecté plus de 125.000
occurrences comportant le verbe θάλω (faire) dans le corpus boursier de 40 millions de mots
mentionné dans la section 2. Pour ce qui est de la seconde étape, nous avons utilisé le
dictionnaire électronique du grec (DELAFGR) des Npred (cf. V. Sfetsiou 2007) et le
dictionnaire électronique boursier (cf. E. Tziafa 2005) et nous avons ainsi extrait 150 Npred
qui sont actualisés par le verbe support θάλω (faire), sa variante πξνβαίλω ζε (procéder à) et
des synonymes possibles appartenant éventuellement à des niveaux de langue particuliers. A
la dernière étape, à partir des critères formels (J. Giry-Schneider 1978b), nous les avons
soumis à l’examen systématique dans notre corpus pour mieux rendre compte du
fonctionnement des Npred dans la langue spécialisée de la Bourse.
Pour la classification des CVS du type θάλω (faire) + Npred du domaine de la Bourse,
nous nous sommes basés sur la classification faite par V. Sfetsiou (2007) pour les CVS du
grec moderne9. Pour ne pas perdre des informations linguistiques, nous avons ajouté des
propriétés morphologiques et syntactico-sémantiques apparaissant dans le corpus boursier. En
général, les Npred entrent dans les constructions suivantes:
θάλω (faire) + Npred
θάλω (faire) + Npred Prep N1
θάλω (faire) + Npred Prep Ν1 Prep N2
Certains Npred du domaine de la Bourse acceptent comme argument un substantif qui
dénote une valeur (Νvaleur), comme κεηνρή (action), δείθηεο (indice) etc. Concernant les
constructions étudiées, ce substantif peut apparaître soit en position sujet (Ν0) soit en position
complément prépositionnel (Ν1 ou Ν2). Cette marque sémantique ne désigne pas
obligatoirement une valeur monétaire mais elle peut se référer à un indice boursier, mesurable
en unités ; c’est le cas dans les exemples (4) et (5):
(4) Ο δείθηεο Dow Jones έθαλε κηα ηζηνξηθή βνπηηά
(L'indice Dow Jones a connu un plongeon historique)
7
Laboratoire d’Automatique Documentaire et Linguistique.
La bibliographie du L.A.D.L. sur les verbes supports est très abondante. Pour ne citer que les travaux non liés
directement à un verbe support donné, voir, entre autres, M. Gross (1991), M. Gross (1994), G. Gross (1993), G.
Gross et R. Vivès (1986), A. Guillet (1993) et notamment, le numéro 121 de Langages, édité par A. Ibrahim
(1996), consacré aux verbes supports.
9
Selon P. Lerat (1995) la spécificité des langues de spécialité réside plutôt dans les emplois spécialisés et les
usages que l’on fait de la langue générale dans des contextes particuliers.
8
93
(5) Τν ρξεκαηηζηήξην ηνπ Παξηζηνύ έθιεηζε κε άλνδν
(La Bourse de Paris a terminé en nette hausse)
De plus, la plupart des compléments qui acceptent cette propriété peuvent accepter
aussi des déterminants numériques comme en (6) :
(6)
O CAC 40 έθιεηζε κε ειαθξά άλνδν 0,25% ζηις 3.908,58 μονάδες
(Le CAC 40 a terminé en légère hausse de 0,25% à 3.908,58 points)
Νous avons jugé utile d’insérer dans nos tables du lexique-grammaire des Npred, une
colonne où sont notés tous les termes étrangers utilisés dans le vocabulaire boursier comme
split, deal, bid etc. et une autre où sont représentés les termes grecs équivalents. Par exemple :
ζπάζηκν / δηάζπαζε / fracture / split, ζπκθωλία / contrat, etc.
Pour que la description des Npred soit complète, nous avons décrit toutes les variantes
graphiques des Npred comme ξηκπάνπλη / rebound, split / ζπιηη, spread / ζπξελη.
Dans nos tables, nous avons explicité les emplois métaphoriques des Npred. Nous
considérons les métaphores comme des variations de distributions qui sont susceptibles
d’avoir un impact sur le comportement syntaxique du Npred. Voici un exemple :
(7) Η κεηνρή έθαλε άικα έωο θαη 5,5%
(L’action a affiché un bond de 5,5%)
Après examen de notre corpus, il en résulte que certains Npred de cette table sont aussi
actualisés par les verbes supports έρω (avoir) et είκαη (être). On pourrait ainsi considérer que
les constructions (8a), (8b) et (8c) sont sémantiquement équivalentes :
(8)
a.
b.
c.
Ο δείθηεο X έθαλε άλνδν
(L’indice X a enregistré une hausse)
≈ O δείθηεο X είρε άλνδν
(L’indice X a eu une hausse)
≈ O δείθηεο X είλαη ζε άλνδν
(L’indice X est en hausse)
Enfin, nous avons remarqué que certaines constructions à verbe support θάλω (faire)
admettent plus naturellement la forme du passif γίλνκαη (devenir)10. Par exemple :
(9)
H εμαγνξά ζα γίλεη κε αληαιιαγή κεηνρώλ
(Le rachat se fera par échange d'actions)
Dans les tables du lexique-grammaire des Npred, nous avons représenté en colonnes les
verbes supports θάλω (faire) έρω (avoir), είκαη (être) ainsi que d’autres verbes supports11,
10
Il faut souligner qu’en grec moderne, le verbe θάλω (faire) n’a pas de forme passive associée. Ainsi, dans une
construction passive, il n’apparaît plus comme θάλω mais comme γίλνκαη (devenir) (cf. T. Kyriacopoulou & V.
Sfetsiou 2002).
11
Les verbes qui peuvent entrer dans la construction à support en français sont nombreux : A. Daladier (1978 :
23) en a la première, dénombré 14 (faire, donner, mettre, passer, pousser, prendre, tirer, tenir, poser, porter,
prêter, avoir, être et lancer). Selon A. Ibrahim (2000: 89) « Gaston Gross en 1998 en comptait 98 » et A.
Ibrahim en a listé plus de 80, « des verbes ayant un éventail plus ou moins large d’emplois comme verbes
supports …accuser, administrer, adopter, adresser, afficher, allonger, apporter, arborer, assurer, avancer,
avoir, commettre, connaître, développer, dire, dispenser, donner, émettre, engager, entrer, éprouver, établir,
être etc.
94
dont le nombre s’élève à 64 à savoir: πξνρωξώ ζε (procéder à), πξαγκαηνπνηώ (effectuer),
αλνίγω (ouvrir), δίλω (donner), θιείλω (fermer), ζπλάπηω (conclure), επηρεηξώ (entreprendre),
επηηπγράλω (réussir), δηαπξαγκαηεύνκαη (négocier), θξαηώ (tenir), αλαθνηλώλω
(communiquer), παξνπζηάδω (présenter), θαηαγξάθω (enregistrer), γίλνκαη (devenir) etc. Pour
extraire ces 64 verbes supports nous nous sommes servis de la liste de 150 Npred de la langue
spécialisée de la Bourse. Le concordancier de Unitex nous a permis d’obtenir des
constructions V+Npred à partir de notre corpus boursier, de collecter les verbes susceptibles
d’être des candidats verbes-supports et de procéder par la suite à leur validation suivant des
critères formels.
De plus, dans les tables du lexique-grammaire des Npred du domaine boursier, nous
faisons figurer en colonne des exemples attestés, tirés de notre corpus, illustrant les
principales formes de phrases associées aux emplois des Npred correspondants. Ces colonnes
nous aideront à compléter la description linguistique des noms prédicatifs du domaine de la
bourse en vue du traitement automatique des langues (TAL). Donnons un extrait du lexiquegrammaire des Npred :
Table FNPN: Extrait du lexique-grammaire des Npred
4. Présentation des tables de Npred
Après avoir étudié les 150 Npred extraits du domaine de la Bourse, nous les avons classés
dans 5 tables que nous présentons par la suite :
La table FN : à l’heure actuelle, la table FN regroupe 30 Npred à construction de base θάλω
(faire)+Npred. Par exemple :
(10)
Η κεηνρή X έθαλε άλνδν
(L'action X a fait des hausses)
En ce qui concerne la distribution du sujet N0, ce dernier peut être dans tous les cas soit
humain (N0hum) soit non humain (N0hum) ou encore un nom dénotant une valeur (Nvaleur).
A noter également que certains Νpred qui s’actualisent aussi avec le verbe support έρω (avoir)
peuvent s’actualiser, sans aucun changement sémantique, avec les Vsup ζεκεηώλω (noter),
εκθαλίδω (afficher), παξνπζηάδω (présenter). Ainsi :
θάλω άλνδν ≈ έρω άλνδν ≈ ζεκεηώλω άλνδν ≈ εκθαλίδω άλνδν ≈ παξνπζηάδω άλνδν
95
(enregistrer une hausse ≈ avoir une hausse ≈ noter une hausse ≈afficher une hausse ≈
présenter une hausse)
La table FNPN : Nous avons recensé dans cette table 20 Npred qui entrent dans des
constructions de type N0 και N1 θάλω (faire) Npred et Ν0 θάλω (faire) Npred κε (avec) Ν1.
Par exemple :
(11)
Οη επελδπηέο πξνηηκνύλ λα θάλνπλ ηε δηαθνξνπνίεζε ηνπ ραξηνθπιαθίνπ ηνπο
(Les investisseurs préfèrent procéder eux-mêmes à la diversification de leur
portefeuille)
La table FNAN : Dans cette table, nous avons répertorié 75 Npred du type : θάλω (faire)
Npred ζε Ν1 ou θάλω (faire) Npred Ν1gen. Par exemple :
(12)
H εηαηξεία κπνξεί λα απνθαζίζεη λα πξνβεί ζηελ απνπιεξωκή όιωλ ηωλ
νκνιόγωλ
(La société peut décider de procéder à l'amortissement de la totalité des titres)
La table FNDNAN : Elle regroupe 50 Npred qui acceptent dans leur construction de base un
complément N1 au génitif et un complément prépositionnel introduit par la préposition ζε (à):
θάλω (faire) Npred N1 gen ζε (à) N2. Par exemple :
(13)
Tν κέξηζκα ην νπνίν πξνηείλεηαη από ηελ εηαηξεία ζα είλαη 0.50 Επξώ αλά
κεηνρή, δίλνληαο απόδνζε ηεο ηάμεο ηνπ 7,8%
(Le dividende qui sera proposé par la société sera de 0,50 euros par action, soit
un rendement d'environ 7,8%)
La table FNNDEN : Cette table réunit 10 Npred à construction θάλω (faire) Npred N1 από
(de) N2.
(14)
Ο Όκηινο X απνθάζηζε ηε δηαγξαθή ηωλ κεηνρώλ ηεο από ην ρξεκαηηζηήξην ηνπ
Παξηζηνύ
(Le Groupe X a décidé de procéder à la radiation de ses actions de la Bourse
Paris)
Conclusion
Nous avons entrepris la description des Npred de la langue spécialisée du domaine de la
Bourse en utilisant la même méthodologie que pour la langue générale tout en prenant en
compte les spécificités lexicales, syntactico-sémantiques des Npred et leurs cooccurrences
dans le corpus spécialisé. Etant donné que les verbes supports ne sont pas des prédicats, nous
avons classé les Npred en tables et les avons analysés comme des verbes et des adjectifs, à
savoir comme des prédicats assortis d’un certain nombre d΄arguments (les sujets et les
compléments). Pour couvrir l’ensemble des nominalisations apparaissant dans les textes réels
spécialisés, il serait nécessaire de poursuivre cette étude dans le même cadre théorique et
méthodologique afin de compléter la description des Npred qui sélectionnent d’autres verbes
supports comme έρω (avoir), είκαη (être) etc. Aussi envisageons-nous de recenser les Npred
dans le corpus boursier au moyen des soixante quatre verbes supports actualisant les Npred
dans la langue spécialisée. Naturellement, comme cette démarche d’enrichissement de notre
recherche est expérimentale, reste à être validée par des critères formels ainsi que par un
travail manuel considérable.
96
Bibliographie
BOWKER, L. & J. PEARSON. (2002), Working with Specialized Language: a practical guide to using corpora,
Routledge, London.
DALADIER, A. (1978), Quelques problèmes d’analyse d’un type de nominalisation et de certains groupes
nominaux français, Thèse de 3e cycle (sous dir. Maurice Gross), Université Paris VII.
FISTA, E & Τ. KYRIACOPOULOU. (2009), Prédicats non verbaux préfixés en grec moderne : Le cas des
préfixes με- et παξα- ζηο Colloque Ιnternational « Supports et prédicats non verbaux dans les langues du
monde », Mars 2009, ζζ. 34-39, Paris.
FOTOPOULOU, A. (1989), Etude comparative des extensions aspectuelles des verbes supports avoir, être Prép
et faire en français et en grec moderne. Séminaire de Linguistique Grecque, Mémoires du CERIL 4.
HARRIS, Z.S.. (1951), Methods in Structural Linguistics. Chicago: University of Chicago Press.
HARRIS, Z.S. (1952), “Discourse Analysis”, Language 28, no 4, 474-94.
GAVRIILIDOU, Z. (2004), « Verbes supports et intensité en grec moderne », Linguisticae Investigationes, vol.
XXXVII no 2, Amsterdam : John Benjamins, pp. 295-308.
GIRY-SCHNEIDER, J. (1978a), « Interprétation aspectuelle des constructions verbales à double analyse »,
Linguisticae Investigationes II, Amsterdam, John Benjamins BV, pp. 23-54.
GIRY-SCHNEIDER, J. (1978b), Les Nominalisations en français: l’opérateur « faire » dans le lexique, Genève:
Droz, 353 p.
GIRY-SCHNEIDER, J. (1986), « Les noms construits avec faire : compléments ou prédicats ? », Langue
française 69, Paris : Larousse, pp. 49-63.
GIRY-SCHNEIDER, J. (1987), Les prédicats nominaux en français: les phrases simples à verbes supports,
Genève: Droz, 396 p.
GOUTSOS, D. (2003), «Σώμα Ελληνικών Κειμένων: Στεδιαζμός και σλοποίηζη». Πξαθηηθά ηνπ 6νπ Δηεζλνύο
Σπλεδξίνπ Ειιεληθήο Γιωζζνινγίαο, Πανεπιζηήμιο Κρήηης, 18-21 Σεπηεμβρίοσ 2003.
GROSS, G. (1993), "Trois applications de la notion de verbe support". L'Information grammaticale 59 , pp. 1622.
GROSS, M. (1981), « Les bases empiriques de la notion de prédicat sémantique», Langages 63, Formes
Syntaxiques et Prédicats Sémantiques, Alain GUILLET & Christian LECLÈRE (Eds), Paris : Larousse, pp.
7-53.
GROSS, M. (1991), "Linguistic representations and text analysis". In Linguistic Unity and Linguistic Diversity
in Europe, London: Academia Europaea, pp. 31-61.
GROSS, M., (1994), « La structure d’argument des phrases élémentaires », Lingua Franca 1, Comunità delle
università mediterranee, Schena Editore.
IBRAHIM, A., H. (éd.) (1996), « Les supports : le terme, la notion et les approches », pp. 3-7 & « La forme
d'une théorie du langage axée sur les termes supports », pp. 99-119, Langages 121, Paris: Larousse.
IBRAHIM, A., H. (2000), Une classification des verbes en 6 classes asymétriques hiérarchisées, Syntaxe et
Sémantique 2, Sémantique du lexique verbal (Françoise Cordier, Jacques François & Bernard Victorri éds),
Caen : Presses Universitaires de Caen, pp. 81-98.
KILGARIFF A., J. POMIKALEK, P. RYCHLY (2009), Scaling to Billion-plus Word Corpora. Advances in
Computational Linguistics. Special Issue of Research in Computing Science Vol 41, Mexico City.
KYRIACOPOYLOY, T., V. SFETSIOU (2002), Les constructions nominales à verbe support en grec moderne.
Linguistic Insights 5, Stefania Nuccorini éd., Peter Lang, pp. 163-181.
KYRIACOPOULOU, T. (2005), L’analyse automatique des textes écrits: le cas du grec moderne, University
Studio Press, Thessalonique.
LAMBROU, E. (1997), Les verbes supports en français et en grec. D.E.A. Paris: Université Paris 13.
LAPORTE, E., E. RANCHHOD, A. YANNACOPOULOU, (2008), « Syntactic variation of support verb
constructions ». Lingvisticae Investigationes. 31 (2). pp. 173–185.
LERAT, P. (1995), Les langues spécialisées, Paris, PUF.
L’HOMME, M.-C. (1998), "Définition du statut du verbe en langue de spécialité et sa description
lexicographique", Cahiers de lexicologie 73(2), pp. 125-148.
MOUSTAKI, Α. (1997), « Etude contrastive des expressions etre PrepX en grec moderne et en francais ».
Linguisticae Investigationes: XXI:2, Amsterdam: Benjamins.
SFETSIOU, V., (2007), Καηεγνξεκαηηθά νλόκαηα: Μέζνδνο αλάιπζήο ηνπο γηα ειεθηξνληθέο εθαξκνγέο, Thèse
de Doctorat, Université Aristote de Thessalonique.
SINCLAIR, J., (2005), Corpus and Text – Basic Principles, in Developing Linguistic Corpora: a Guide to Good
Practice, Oxford, Oxbow Books.
97
SKLAVOUNOU, E. (1994), "Support nouns: application to the special lexicon of tennis". In Themes in Greek
Linguistics. Papers from the 1st International Conference on Greek Linguistics, Reading, September 1993, I.
Philipakki-Warburton, K. Nicolaidis & M. Sifianou (eds.), Current Issues in Linguistic Theories 117,
Amsterdam/Philadelphie: Benjamins, pp. 515-520.
THEODOROU, S. (1992), Le verbe support kano (faire) en grec moderne. D.E.A. Paris: Université Paris 13.
TZIAFA, E. (2005), Έλα Σύζηεκα Απηόκαηεο Αλάιπζεο Κεηκέλωλ ηεο Νέαο Ειιεληθήο : Μέζνδνη Μνξθνινγηθήο
Πεξηγξαθήο θαη Ηιεθηξνληθήο Κωδηθνπνίεζεο ηωλ Όξωλ ηνπ Χξεκαηηζηεξίνπ, D.E.A. Université Aristote de
Thessalonique.
GROSS, G., R. VIVES. (1986), "Les constructions nominales et l'élaboration d'un lexique-grammaire". Langue
française 69 , pp. 5-27.
WILLIAMS, G. (2002), “In search of representativity in specialised corpora: categorisation through
collocation”. International Journal of Corpus Linguistics, 7/1, pp. 43-64.
98
Foufi Vassiliki
Université Aristote de Thessalonique
[email protected]
LES NOMS COMPOSÉS A(A)N DU GREC MODERNE ET LEURS VARIANTES
Résumé
Le présent article a pour objet l’étude des variantes des noms composés grecs du type
Adjectif(+Adjectif)+Nom (AN/AAN) provenant soit de la substantivation de l’adjectif soit de
l’élimination du nom ou de l’adjectif de la structure. Le traitement des données linguistiques,
c’est-à-dire, la génération automatique des variantes ainsi que leur flexion, s’effectue à l’aide
du programme de flexion des mots composés Multiflex. Tout d’abord, nous présenterons des
exemples représentatifs du phénomène de la variation, puis nous formulerons des
observations sur le comportement syntaxique de ces variantes et sur les résultats issus de
l’application du dictionnaire aux textes.
Mots clés: nom composé, flexion, variation, substantivation, ambiguïté.
Introduction
Dans cet article, nous traitons des noms composés du type Adjectif(+Adjectif)+Nom
(AN/AAN) et plus précisément, nous présentons le traitement auquel ils sont soumis tant au
niveau de la flexion qu’au niveau de la variation. Cette catégorie de mots composés est très
productive en grec moderne et apparaît sous diverses formes soit étendues soit abrégées. Pour
la flexion des mots composés et la génération de leurs variantes, nous utilisons le programme
de flexion des mots composés Multiflex (Savary et al., 2007)1. Ensuite, nous ferons des
remarques sur les résultats issus de l’application du dictionnaire des variantes à un corpus
grec et nous aborderons le problème des ambiguïtés.
1 La variation des noms composés
La variation est un phénomène qui caractérise les noms composés et qui porte sur le niveau
graphique, lexical, morphologique et syntaxique. Le phénomène de la variation des noms
composés a été traité par Poncet-Montange (1991) qui a analysé les groupes nominaux
français de structure NAN et NAV et leurs variantes dans le discours. Comme elle le constate,
« il y a une tendance naturelle des formes longues à évoluer vers des formes plus
compactes ».
Tous les types de la variation des noms composés grecs ont été énumérés par
Kyriacopoulou (2005). Ensuite, Kyriakopoulou (2011), dans sa thèse, a analysé tous les cas
possibles de variation des noms composés grecs appartenant à la catégorie N(E+DET:G)N:G.
Au cours de notre recherche, nous avons dépouillé deux grands dictionnaires papier du grec
moderne2 d’où nous avons recensé environ 40 000 noms composés constitués de noms et
d’adjectifs:
a) la classe AN (Adjectif+Nom) πνιηηηθό θόκκα/parti politique (environ 33 000 entrées)
1
Voir aussi http://www-igm.univ-mlv.fr/~unitex/UnitexManual3.0.pdf.
Les dictionnaires monolingues du grec moderne de G. Babiniotis et de M. Triandafyllidis [Institut des Études
Néohelléniques].
2
99
b) la classe AAN (Adjectif+Adjectif+Nom) αθαζάξηζην εζληθό πξνϊόλ/produit national brut
(environ 400 entrées) et
c) la classe NA (Nom+Adjectif) βαξνκεηξηθό ρακειό/dépression barométrique (environ
300 entrées).
Les variantes morphosyntaxiques des noms composés du type Adjectif+Nom (AN) portent
principalement sur trois différents types de variation:
a) la substantivation de l’adjectif, p.ex. ηδηαίηεξν κάζεκα/cours particulier > ηδηαίηεξν/
particulier
b) l’élimination de l’adjectif, p.ex. γπκλαζηηθέο επηδείμεηο/démonstrations de gymnastique
> επηδείμεηο/démonstrations et
c) la soudation de deux constituants d’un nom composé, p.ex. ράξηηλνο αεηόο/cerf-volant >
ραξηαεηόο (ραξη de ράξηηλνο et αεηόο) 3.
Les noms composés du type Adjectif+Adjectif+Nom (AAN) se réduisent soit:
a) à un nom simple qui provient de la substantivation du premier adjectif du composé,
comme le composé έγρνξδν κνπζηθό όξγαλν/instrument de musique à cordes qui se
réduit au nom simple έγρνξδν/instrument à cordes
b) à un nom composé constitué de deux des trois constituants du composé initial comme le
nom Εληαίν Πνιπθιαδηθό Λύθεην/Lycée Polyvalent Général qui se réduit à Πνιπθιαδηθό
Λύθεην/Lycée Polyvalent. À noter que ce dernier peut à son tour se réduire à un nom
simple Πνιπθιαδηθό/Polyvalent.
2 Les types de variation
2.1 Substantivation de l'adjectif
Selon Thavoris (1969), pratiquement chaque adjectif du grec peut se transformer en nom à
condition qu’il joue le rôle du déterminant d'un nom. Dans ce cas-là, le nom peut être éliminé
et l’adjectif acquiert son sens. Pour Anastassiadis-Simeonidis (1986), la substantivation de
l’adjectif d’une structure nominale est un phénomène qui présuppose que cette structure soit
composée. Par exemple, le nom composé ηδηαίηεξν κάζεκα/cours particulier se réduit à un
mot simple (ηδηαίηεξν/particulier) où le nom κάζεκα/cours est effacé et l’adjectif acquiert un
emploi nominal. En ce qui concerne le nom composé πιαζηηθή επέκβαζε/opération esthétique,
le nom επέκβαζε/opération peut disparaître et l’adjectif πιαζηηθή/esthétique se transforme
alors en nom. Il faut souligner ici que les deux constructions ont le même sens et que
l’adjectif substantivé, qui est un nom simple, devient du même genre que le nom du composé
(Anastassiadis-Simeonidis, 1986). Monceaux (1993), qui a étudié les noms composés français
de structure Nom+Adjectif (NA), affirme que « cette synonymie suggère que l'ellipse du nom
est à l’origine de la "recatégorisation" (substantivation) de l'adjectif, et que cette ellipse a lieu
après la lexicalisation du syntagme ».
2.2 Élimination de l’adjectif
La structure composée γπκλαζηηθέο επηδείμεηο/démonstrations de gymnastique, qui apparaît
toujours au pluriel, se réduit à επηδείμεηο/démonstrations tout en conservant le même objet de
référence. Dans la même perspective, le nom composé θνηλόο ηξαπεδηθόο ινγαξηαζκόο/compte
bancaire commun se réduit au nom composé θνηλόο ινγαξηαζκόο/compte commun. Nous
remarquons que le deuxième adjectif du nom composé, ηξαπεδηθόο/bancaire, est éliminé et le
nouveau composé est formé de deux constituants (le premier adjectif et le nom) sans
changement de sens.
3
Dans cet article, nous allons présenter les deux premiers cas.
100
Enfin, soulignons que le même nom composé peut se réduire soit à un adjectif substantivé
soit à un nom simple (Kyriacopoulou, 2005) comme, par exemple, le composé αζηηθό
ιεωθνξείν/autobus urbain qui peut se réduire soit à αζηηθό/urbain soit à ιεωθνξείν/autobus.
3 Les variantes dans les textes écrits
L'apparition des variantes des noms composés dans les textes grecs est courante dans la
mesure où, il est fréquent d’avoir au début d’un texte le nom composé sous sa forme étendue
et ensuite le même composé sous sa forme abrégée (Kyriacopoulou, 2005).
Les exemples ci-dessous issus de sites journalistiques grecs illustrent notre propos:
Titre de l'article
Extrait de l'article
Texte grec
«Λνπθέηα» ζε 120.000 μικρομεσαίες
επιτειρήσεις κέρξη ην 2012 βιέπεη ε
ΔΣΔΔ.
Δπηδίωμε είλαη λα ζηαζεξνπνηεζεί ε
αγνξά ζε απηή ηε δύζθνιε πεξίνδν,
θαζώο, ζύκθωλα κε ηνλ θ. Κνξθίδε, «κε
βίαην ηξόπν πξνζπαζνύλ νη πνιπεζληθνί
όκηινη θαη ηα πνιπθαηαζηήκαηα λα
πάξνπλ ην κεξίδην ηωλ μικρομεσαίων».
Texte en français
120.000 petites et moyennes entreprises
vont fermer jusqu'en 2012 selon ESEE.
Notre but est de stabiliser le marché
pendant cette période difficile, car,
selon M. Korkidis, « les groupes
multinationaux et les grands magasins
essayent de prendre la part du gâteau des
petites et moyennes (entreprises) de
manière violente ».
Tableau 1. Extrait d'un article paru sur www.in.gr le 21/02/11
Dans le tableau ci-dessus, nous observons que le nom composé κηθξνκεζαίεο
επηρεηξήζεηο/petites et moyennes entreprises figure dans le titre de l’article et ensuite nous
avons la variante κηθξνκεζαίωλ/petites et moyennes (entreprises) qui provient de la
substantivation de l'adjectif (premier composant de la structure).
Cependant, nous rencontrons souvent la forme abrégée d'un nom composé dans le titre
d'un article –puisque le nombre de mots y est limité– et dans le texte qui suit, nous avons la
forme la plus étendue comme dans l’exemple suivant:
Titre de l’article
Extrait de l’article
Texte grec
Βηνθαξπέη: Παξνρή εγγπήζεωλ γηα
ομολογιακό θσγατρικής.
Τελ παξνρή εγγπήζεωο πξνο ηνπο
Οκνινγηνύρνπο Γαλεηζηέο ππέξ ηεο
θσγατρικής εταιρείας Δμάιθν, γηα ηελ
έθδνζε Ομολογιακού Δανείοσ αμίαο 50
εθαη. επξώ πιένλ ηόθωλ θαη εμόδωλ,
ελέθξηλε ζήκεξα ε Έθηαθηε Γεληθή
Σπλέιεπζε ηεο Βηνθαξπέη.
Texte en français
Viokarpet: Des garanties pour un
(emprunt) obligataire à la filiale.
Des garanties aux préteurs obligataires
pour émettre un emprunt obligataire de
50 millions d'euros à la filiale Exalco, a
été approuvé aujourd'hui par la session
extraordinaire de l'Assemblée Nationale de
Viokarpet.
Tableau 2. Extrait d'un article paru sur www.naftemporiki.gr le 05/04/11
Dans l’article du tableau ci-dessus, nous observons que, dans le titre, figurent les variantes de
deux noms composés: νκνινγηαθό/obligataire et ζπγαηξηθή/filiale qui proviennent de la
substantivation des noms composés νκνινγηαθό δάλεην/emprunt obligataire et ζπγαηξηθή
εηαηξεία/filiale respectivement.
Nous avons également pu observer dans le corpus étudié des cas où, l’adjectif substantivé
d’un nom composé est dans le titre d’un article et la forme élargie du nom ou le nom de la
101
construction, précédé d’un marqueur qui indique qu’on a déjà cité ce nom, est localisée dans
le texte.
Titre de l’article
Texte grec
Χάζεθαλ 17.000 ζέζεηο εξγαζίαο ζηηο
εισηγμένες ην 2010.
Texte en français
17.000 postes de travail des (entreprises)
introduites (en bourse) ont été perdues en
2010.
Environ 17.000 postes de travail des
entreprises introduites en bourse ont été
perdues en 2010, comme il résulte de
l'analyse des listes économiques qui sont
présentées aujourd'hui dans le journal "H"
de Samedi. L'emploi dans ces entreprises
a été diminué de 4,1% en 2010 par rapport
à 2009.
Σρεδόλ 17.000 ζέζεηο εξγαζίαο ράζεθαλ
ην 2010 από ηηο εισηγμένες επιτειρήσεις
ζην Χξεκαηηζηήξην, όπωο πξνθύπηεη από
ηελ αλάιπζε ηωλ νηθνλνκηθώλ
θαηαζηάζεωλ πνπ παξνπζηάδεη ζήκεξα ε
H ηνπ Σαββάηνπ. H απαζρόιεζε ζηηο
σσγκεκριμένες επιτειρήσεις κεηώζεθε
ην 2010 θαηά 4,1% ζε ζύγθξηζε κε ην
2009.
Tableau 3. Extrait d’un article paru sur www.e-go.gr le 09/04/11
Extrait de l’article
Dans l’exemple du tableau 3, le nom simple εηζεγκέλεο/introduites qui provient de εηζεγκέλεο
επηρεηξήζεηο/entreprises introduites en bourse) est situé dans le titre de l’article. Ensuite, on
trouve tout le nom composé en question dans le texte et quelques lignes plus bas figure
seulement le nom de la structure επηρεηξήζεηο/entreprises précédé d’un marqueur
ζπγθεθξηκέλεο/ces qui indique qu’on a déjà mentionné ce nom.
4 Génération des variantes
Les remarques précédentes montrent qu’il nous faut établir un lien entre les noms composés et
leurs éventuelles variantes. Thilikos & Voskaki (2003) ont fait une première approche au
niveau de la reconnaissance des adjectifs à emploi nominal du grec moderne et, ils ont traité
les différentes catégories par des automates à état fini. Dans notre étude, nous avons opté pour
la génération des variantes morphosyntaxiques de chaque nom composé à l’aide des
automates finis utilisés par Multiflex.
Jusqu’à ce stade de notre recherche, en tenant compte des cas observés, nous avons créé
onze (11) graphes qui génèrent des variantes morphosyntaxiques. À l’aide de chaque graphe
flexionnel, nous générons simultanément toutes les formes fléchies du nom composé et de
sa/ses variantes.
Ensuite, nous présentons le graphe des noms composés AN où l’adjectif devient substantif. À
partir de ce graphe, nous aurons recensé toutes les formes fléchies du nom composé AN
comme par exemple du nom πιαζηηθή επέκβαζε/opération esthétique ainsi que de sa variante
(ici πιαζηηθή/esthétique):
πιαζηηθή επέκβαζε,πιαζηηθή επέκβαζε.N:Nfs
πιαζηηθέο επεκβάζεηο,πιαζηηθή επέκβαζε.N:Nfp
πιαζηηθήο επέκβαζεο,πιαζηηθή επέκβαζε.N:Gfs
πιαζηηθήο επεκβάζεωο,πιαζηηθή επέκβαζε.N:Gfs
πιαζηηθώλ επεκβάζεωλ,πιαζηηθή επέκβαζε.N:Gfp
πιαζηηθή επέκβαζε,πιαζηηθή επέκβαζε.N:Afs
πιαζηηθέο επεκβάζεηο,πιαζηηθή επέκβαζε.N:Afp
πιαζηηθή επέκβαζε,πιαζηηθή επέκβαζε.N:Vfs
πιαζηηθέο επεκβάζεηο,πιαζηηθή επέκβαζε.N:Vfp
πιαζηηθή,πιαζηηθή επέκβαζε.N:Nfs
πιαζηηθέο,πιαζηηθή επέκβαζε.N:Nfp
πιαζηηθήο,πιαζηηθή επέκβαζε.N:Gfs
102
πιαζηηθώλ,πιαζηηθή επέκβαζε.N:Gfp
πιαζηηθή,πιαζηηθή επέκβαζε.N:Afs
πιαζηηθέο,πιαζηηθή επέκβαζε.N:Afp
πιαζηηθή,πιαζηηθή επέκβαζε.N:Vfs
πιαζηηθέο,πιαζηηθή επέκβαζε.N:Vfp
La première ligne du graphe indique les deux composants du nom composé AN ($1 & $3) et
l’espace qui les sépare ($2). La deuxième ligne montre que le troisième constituant ($3)
s’élimine et que la structure composée se transforme en nom simple.
5 Quelques remarques sur la syntaxe des AN et de leurs variantes
Les noms composés, comme les noms simples, se divisent en noms prédicatifs et noms nonprédicatifs. Kyriakopoulou (2011) spécifie que « les propriétés des noms prédicatifs de
structure N(E+DET:G)N:G sont identiques à celles des noms prédicatifs simples ». Monceaux
(1993) constate aussi que les propriétés syntaxiques des NA non-compositionnels prédicatifs
sont celles de noms simples.
En ce qui concerne les noms composés prédicatifs du type AN en grec moderne, nous
pouvons constater qu’au niveau syntaxique, ils se comportent, en général, de la même façon
que le nom de la structure. Par exemple, le nom composé ρεηξνπξγηθή επέκβαζε/opération
chirurgicale et sa variante επέκβαζε/opération ont le même comportement syntaxique.
(1) Η Μαξία έθαλε ρεηξνπξγηθή επέκβαζε ζην πόδη/Marie a subi une opération chirurgicale à
la jambe.
(2) Η Μαξία έθαλε επέκβαζε ζην πόδη/Marie a subi une opération à la jambe.
La même constatation est valable pour les adjectifs à emploi nominal. Par exemple, le nom
prédicatif δηπιωκαηηθή (adjectif) εξγαζία (nom)/mémoire peut se réduire au nom simple
δηπιωκαηηθή/mémoire. Malgré la réduction, le verbe support reste le même (θάλω/préparer).
(3) Η Μαξία θάλεη δηπιωκαηηθή (εξγαζία)/Marie prépare un mémoire.
103
Rien ne change même si nous insérons un déterminant possessif dans la structure composée,
par exemple :
(4) Η Μαξία θάλεη ηε δηπιωκαηηθή ηεο (εξγαζία)/Marie prépare son mémoire.
Cependant, il y a des exceptions comme le nom simple δηδαθηνξηθό/doctorat qui provient de
la réduction de deux noms composés de sens similaire : du composé δηδαθηνξηθό (adjectif)
δίπιωκα (nom)/doctorat et du composé δηδαθηνξηθή (adjectif) δηαηξηβή (nom)/thèse de
doctorat. Le nom composé δηδαθηνξηθό (adjectif) δίπιωκα (nom)/doctorat apparaît dans le
discours précédé des verbes supports έρω/avoir ou παίξλω/obtenir:
(5) Η Μαξία έρεη/πήξε δηδαθηνξηθό δίπιωκα ζηε Γιωζζνινγία/Marie a/a obtenu un
doctorat en linguistique.
De l’autre côté, le nom composé δηδαθηνξηθή (adjectif) δηαηξηβή (nom)/thèse de doctorat se
combine avec les verbes supports θάλω/faire, έρω/avoir et παίξλω/obtenir:
(6) Η Μαξία θάλεη/έρεη/πήξε δηδαθηνξηθή δηαηξηβή ζηε Γιωζζνινγία/Marie prépare sa
thèse de doctorat/a une thèse de doctorat/a obtenu une thèse de doctorat en Linguistique.
La réduction δηδαθηνξηθό/doctorat se construit avec les verbes supports έρω/avoir et
παίξλω/obtenir, mais aussi avec le verbe θάλω/faire :
(7) Η Μαξία έρεη/πήξε/θάλεη δηδαθηνξηθό ζηε Γιωζζνινγία/Marie a/a obtenu/fait un doctorat
en Linguistique
mais nous ne pouvons pas dire
(8) *Η Μαξία θάλεη δηδαθηνξηθό δίπιωκα ζηε Γιωζζνινγία/Marie fait un doctorat en
Linguistique.
Nous pouvons donc en déduire qu’il n’y a pas toujours d’équivalence syntaxique absolue
entre un nom composé AN et sa réduction. Dans ce cas-là, il faut déterminer si les deux noms
ont des différences au niveau sémantique et si oui, il ne faut pas les lier dans le dictionnaire
morphologique.
6 L'ambiguïté des variantes
Selon Gross (1996), quand nous procédons à des réductions dans certaines circonstances
précises, des ambiguïtés se lèvent. Il est vrai que la génération de toutes les variantes
possibles des noms composés crée un grand nombre d’ambigüités. Cela est dû au fait que
l’adjectif substantivé peut provenir de différentes sources (Monceaux, 1993). Par exemple, le
nom γεληθόο/général4 -qui est un adjectif substantivé- provient des noms composés AN
suivants: γεληθόο δηεπζπληήο/directeur général, γεληθόο γξακκαηέαο/secrétaire général (premier
secrétaire), γεληθόο επηζεωξεηήο/inspecteur général mais il peut aussi provenir des noms
composés du type AN+DET:G+N:G, comme γεληθόο δηαθόπηεο ηνπ ξεύκαηνο/coupe-circuit et
4
Traduction littérale.
104
γεληθόο δηαθόπηεο ηνπ λεξνύ/vanne. Gross (2001) souligne que les formes abrégées des mots
composés deviennent ambiguës lorsqu’elles sont prises isolément, mais ne le sont pas en
général dans un contexte où le mot composé a déjà été employé.
Nous avons appliqué un extrait du dictionnaire des variantes des noms composés AN (726
formes fléchies) à un corpus de 6 000 000 mots et nous avons obtenu 7092 concordances.
Dans les résultats, un grand nombre d’ambiguïtés ont été enregistrées. En voici quelques
exemples :
a) Le nom simple ηδηαίηεξα/cours particuliers (variante du nom composé ηδηαίηεξα
καζήκαηα/cours particuliers) et l’adverbe ηδηαίηεξα/particulièrement.
b) La variante du nom composé κπζηηθόο αζηπλνκηθόο/agent secret, κπζηηθόο/secret se
confond avec le nom simple κπζηηθό/secret.
c) L’adjectif substantivé ζεηηθόο/degré positif qui provient du nom composé ζεηηθόο
βαζκόο/degré positif se confond avec l’adjectif ζεηηθόο/positif.
d) La variante πίεζε/tension qui vient du composé αξηεξηαθή πίεζε/tension artérielle se
confond avec le nom polysémique πίεζε/pression.
e) Le nom effacé n’est pas toujours récupérable (Monceaux, 1993) comme c’est le cas du nom
γεληθόο/général5.
Quant aux noms composés du type AAN, le nombre d’ambiguïtés n’est pas si élevé du fait
que, dans la plupart des cas, les AAN se réduisent à d’autres noms composés.
De façon générale, nous avons pu observer qu’un tel dictionnaire appliqué à un corpus crée
un grand nombre d’ambiguïtés. Pourtant, nous considérons que le lien entre un nom composé
et sa/ses variante/s est une information qui doit être comprise dans un dictionnaire
électronique. La levée des ambiguïtés sera réalisée ultérieurement.
7 Conclusion
Dans cet article, nous avons présenté une catégorie de variantes de noms composés formés
d’un ou plusieurs adjectifs et d’un nom et leur traitement automatique. De plus, nous avons
formulé quelques observations sur les ambiguïtés qui se lèvent et sur le comportement
syntaxique des composés A(A)N prédicatifs. Mais, comme Poncet-Montange (1991) le
constate : « Ces ellipses ne sont pas prévisibles. On ne peut déterminer à l’avance quels
composés peuvent subir quels effacements. Cela dépend des combinaisons lexicales en jeu et
de facteurs extralinguistiques difficiles à cerner ». Notre recherche nous permet également de
déduire qu’il n’y a pas toujours d’équivalence syntaxique absolue entre un nom composé AN
et sa réduction. Ainsi, il est très difficile de traiter l’ensemble des noms automatiquement.
Nous sommes donc obligés de traiter chaque composé séparément même si le
programme Multiflex facilite la tâche de la flexion des mots composés qui sont regroupés
selon leur typologie et leurs variantes.
5
Traduction littérale.
105
Références
Anastassiadis-Simeonidis, Α. 1986. Η Νενινγία ζηελ Κνηλή Νενειιεληθή. Thèse de doctorat,
Thessalonique : Université Aristote de Thessalonique.
Babiniotis, G. 1998. Λεμηθό ηεο Νέαο Ειιεληθήο. Athènes : Centre de Lexicologie.
Gross, G. 1996. Les expressions figées en français. Noms composés et autres locutions. Paris :
Ophrys.
Gross, M. 2001. « Les ambiguïtés ». Lingvisticae Investigationes 24 (1), pp. 3-41.
Kyriacopoulou, T. 2005. Analyse automatique des textes écrits : le cas du grec moderne.
Thessalonique : University Studio Press.
Kyriakopoulou, A. 2011. Les noms composés de type N(E+DET:G)N:G en grec moderne,
Thèse de doctorat, Université Paris-Est Marne-La-Vallée.
Monceaux, A. 1993. La formation des noms composés de structure nom adjectif: Élaboration
d'un lexique électronique. Thèse de doctorat, Paris : Université Paris 7.
Poncet-Montange, A. 1991. Les groupes nominaux de structure NAN et NAV. Thèse de
doctorat, Paris: Université Paris 13.
Savary A., Krstev C. & D. Vitas. 2007. "Inflectional non compositionality and variation of
compounds in French, Polish and Serbian, and their automatic processing". In
DZIADKIEWICZ A., THOMAS I. (éds.), "Les langues slaves et le français : approches
formelles dans les études contrastives", pp. 73-93. Bulag 32 : Presses Universitaires de
Franche-Comté.
Thavoris, Α. 1969. Οπζηαζηηθά από επίζεηα (θαη κεηνρέο) ζηε Νέα Ειιεληθή. Thessalonique :
Ellinika.
Thilikos, I. & R. Voskaki. 2003. « Représentation des adjectifs à emploi nominal en grec
moderne par des automates à état fini ». In Actes de la 24ème Rencontre Annuelle de la
Section de Linguistique du Département de Philologie de l’Université Aristote de
Thessalonique (2002). Vol. II, pp. 814-825. Université Aristote de Thessalonique (en
grec).
Triandafyllidis, M. 1996. Λεμηθό ηεο Κνηλήο Νενειιεληθήο. Thessalonique : Institut des Études
Néohelléniques.
106
Garcia-Vega Michelle
Florida International University
[email protected]
Machonis A. Peter
Florida International University
[email protected]
THE SUPPORT VERB TAKE
Abstract
Using the lexicon-grammar framework as developed by Maurice Gross (1994), we
systematically analyzed 255 verbs that can be used as nominals with the light or support verb
take. The data was divided into three main tables: purely intransitive verbs (e.g. bathe  take a
bath), transitive (e.g. drink N1  take a drink of N1), and intransitive with prepositional
complements (e.g. look at N1 take a look at N1). A final table demonstrates a set of converse
take constructions as initially observed by Gaston Gross (1989), (e.g. N0 confess N1 to N2 ↔ N1
take the confession ↔ N2 take the confession).
Keywords: lexicon-grammar, light verbs, support verb constructions, support verb take.
Gross (1988) claims that verbs should be separated into three types: ordinary verbs, verbs as
constituents of idiomatic expressions, and support verbs. While traditional grammars often
group these three types of verbs together based on surface similarities such as tense, conjugation,
and the syntactic structures of sentences in which they appear, lexicon-grammar clearly
distinguishes the three types on semantic grounds.
(1) Max took the money
(2) That performance took the cake
(3) Ty took a bath
[= steal]
[= be the best or most surprising]
[= bathe]
In (1) take is an ordinary verb meaning “obtain possession”; in (2) it is part of the idiom take the
cake; in (3) the verb take is a support verb or light verb. The semantic content of the expression
is carried by the following noun, bath, which we refer to as a deverbal nominal that can be
derived from the verb bathe.
This article presents a preliminary analysis of 254 support verb constructions with take within
a lexicon-grammar framework. The data was collected by systematically sifting through the
Oxford English Dictionary 2010 and verified using Google search engine. Expressions were
limited to the relatively semantically empty verb take with the meaning being similar to that of
dummy do, or other light verbs such as make, have, or give (Machonis (1991 & 2004). Support
verb constructions are highly productive in language. Although Wierzbicka (1982) recorded “to
take a feel/chat/try/cuddle” as unacceptable English constructions, using the Google search
engine resulted in thousands of instances of these expressions. For example, “took a feel”
resulted in 40,200 instances, perhaps not all genuine support verb constructions, but still showing
that native speakers continue to create these expressions.
Although the boundary between idiomatic expressions and support verbs is at times fuzzy, the
semantic argument of prototypical support verb constructions, which Langer (2004) sees as
“semi-compositional verb-noun constructions,” is selected by the noun rather than the verb, i.e.
complain to N1 about N2  make a complaint about N1 to N2, look carefully at N1  take a
careful look at N1, etc. All of the constructions analyzed in this study are syntactically
represented as (4) where N0 indicates the subject, N1 indicates the first complement, and the
107
arrow signifies „relative synonymy‟. The V-n indicates a deverbal nominal, i.e., a verb derived
from a noun.
(4) N0 V ↔ N0 take V-n
a. Ty bathed ↔ Ty took a bath
b. Evan chugged (E + the milk) ↔ Evan took a chug (E + of milk)
c. The boxer swung (E + at his rival) ↔ The boxer took a swing (E + at his rival)
All of the verbs in our corpus may undergo the transformation in (4). This criterion distinguishes
the support verb take from its more ordinary uses such as in (1). It also distinguishes it from take
in idiomatic expressions as in (2), as well as expressions in which the support verb construction
cannot appear in simple verb form, i.e. Max took hold of the situation → *Max held the situation.
Although it is at times difficult to clearly differentiate support verbs from idiomatic verbal
expressions -- Freckleton (1984), for example, lists (give + take) umbrage as an idiom, whereas
others might see this as a support verb construction -- for this preliminary analysis we only
considered take followed by a noun clearly related to a verb in the sense of (4) above.
The 255 verbs appearing as nominals in light verb take constructions were divided into three
main tables: (1) purely intransitive verbs (e.g., bathe), (2) transitive verbs (e.g., chug N1), and (3)
intransitive with prepositional complement (e.g., swing at N1). All the deverbal nominals in the
data were also specified for determiner and quantificational phrases. These expressions are
highly productive in language and, as will be shown, require the development of a formal lexicon
or lexicon-grammar to best describe the not always predictable properties of support verb
constructions.
1. Intransitive verbs with support take
Intransitive verbal constructions that may appear in expressions with the light verb take consist of
66 of the 255 entries. Many of these may be categorized into a subclass of Levin‟s (1993) verbs of
manner of motion which we further divide into run, jump, and walk verbs, but also include
other categories, like wash and sleep verbs, and bodily function verbs:
(5)
a. Run verbs: The runner hiked/jogged/dashed/ran ↔
The runner took a hike/jog/ dash/ run
b. Jump verbs: The tiger hopped/ leaped/ skipped ↔
The tiger took a hop/ leap/skip
c. Walk verbs: The old man paced/walked/strolled ↔
The old man took a pace/walk/stroll
d. Wash verbs: Ty bathed/rinsed/showered ↔
Ty took a bath/rinse/shower
e. Sleep verbs: The woman dozed/napped/snoozed ↔
The woman took a doze/nap/snooze
f. Bodily function verbs: The old man peed/ pooped/ coughed/sneezed ↔
The old man took a pee/ poop/cough/sneeze
These support verb take constructions, however, are not entirely predictable based solely on
semantic class as seen by the unacceptability of the manner of motion verbs *take a dart/roam/
race/scurry/scram, the following sleep verbs *take a drowse/sleep/slumber and the
ungrammaticality of the bodily function verbs in *take a cry/drool/vomit/weep/bleed.
108
It is also worth mentioning that support verbs may contribute a various aspectual interpretation
not fully synonymous with the single verb expression. These constructions may be ambiguous
between the semantically empty take and a more contentive verb, as in The lawyer took the
foreclosure where the expressions may be interpreted as „did‟ „accept‟ or „choose‟. At times, the
choice of determiner is responsible for the difference between the support verb take interpretation
(e.g. Ty took a bath) and the literal meaning (e.g. I then took the bath to a panel beater and they
sprayed the thing with baked enamel for $250), where the indefinite determiner a forces a more
natural light verb interpretation whereas the definite determiner the forces a literal one. However,
even with the indefinite determiner a, there is also the possibility of the idiomatic expression take a
bath on N, as in Max took a bath on that deal (i.e., got the bad end of).
1.1 Determiners and quantifiers
All of the take constructions were systematically analyzed for the indefinite determiner a, the
definite determiner the, zero article represented as E, and general quantificational phrases such
as number terms and quantifiers like several, many, much, and the first. Over 90% of the data
may take the indefinite determiner a in the take construction:
(9) Max took a (drive + swim + plunge + jog + prance)
There are, however, 30 expressions that do not accept the determiner a as part of the light verb
take construction, and prefer the zero article, noted E:
(10) The security officer took (E + *a) (watch + guard + patrol)
Although some might argue that these should be construed as idiomatic expressions, we point
out that these also appear with the support verb keep, as well as part of be + Prep expressions:
(11) The security officer (keeps + is on) (watch + guard + patrol)
Other verbs reject both the indefinite determiner a, as well as the zero article, but prefer the
definite determiner the instead, like (12).
(12) Max took (*E + *a + the ) (rebound + reign)
Few examples freely accept any determiner or quantificational expression as part of the
construction, as in (13).
(13) The artist took (E + a + the + several + two + the two) (sketches + photographs + flights)
Some only accept the indefinite article and reject all the other phrases, while other expressions
accept, or reject, a combination of possible phrases that precede the nominal. As can be seen
below, even verbs from the same semantic class vary in the type of determiner or quantificational
phrase the construction accepts:
(14) Bodily function verbs
a. The girl took (a + *the + *E + *several + *the two + *the first) pee(s)
b. The boy took (a + *the + *E + several + the two + the first) poop(s)
c. The man took (a + *the + *E + *several + *the two + *the first) puke(s)
109
(15) Drink verbs
a. The man took (a + *the + E + several + *the two + the first) sip(s)
b. The woman took (a + *the + *E + *several + *the two + *the first) drink(s)
c. The girl took (a + *the + *E + several + *the two + *the first) chug(s)
(16) Wash verbs
a. The baby took (a + *the + E + several + two + *the two) bath(s)
b. The girl took (a + *the + E + several + two + *the two) shower(s)
c. The boy took (a + the + *E + *several + *two + *the two) rinse(s)
N take quant V-n
N take the quant V-n
+
+
+
+
+
+
+
+
+
+
+
+
+
+
-
+
+
-
+
+
+
+
-
+
+
-
V-n
-E
-E
-E
-E
-E
-E
-E
-ation
-ation
-E
-ment
-E
-E
-ation
-E
N0 V = N0 take V-n
N take the V-n
+
+
+
-
N take V-n
N0 =: N-hum
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
Verb
pace
pant
pause
pee
poop
pout
prance
relax
resign
rest
retire
rinse
roar
rotate
run
N take a V-n
N0 =: Nhum
Table 1 illustrates a sample of the intransitive support verb constructions with take and some
of the possible combinatorial properties of determiners and quantificational phrases these
expressions exhibit. For each verb, a potential subject N0 is marked for the properties of human
(Nhum) and non-human (N-hum) indicated by a plus or minus sign. The next column illustrates
the verb, while the following columns show the acceptability of the indefinite article a, zero
article E, the definite article the, a quantifier, and the plus a quantificational phrase, marked by a
plus or minus sign. While all the verbs in the data were specified for determiner and
quantificational phrases, for exposition purposes, they have been excluded from the subsequent
tables. Finally, the V-n indicates the nominalizing suffix of the verb, where -E represents empty
morpheme. This column is followed by the intransitive construction and the semantic properties
of the verb.
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
Semantic
Properties
walk
breathe
stop
bodily function
bodily function
be sad
run
relax
resign
relax
retire
wash
sound
transfer
run
Table 1: Sample of Intransitive Verbs with take specified for determiner and
quantificational phrases
110
2. Transitive verbs with support take
Table 2 demonstrates a sample of the transitive verbs that may appear as a nominal complement
to the light verb take. The first two columns are specified for human/non-human properties,
followed by the verb, the determiners and quantifiers, and the nominalzing suffix, V-n. This
column is followed by the intransitive, N0 V, and transitive, N0 V N1, features, and a potential
first complement, N1, marked for (Nhum/N-hum). The next three columns demonstrate the N1
complement optionally reappearing in the light verb construction as part of a case or
prepositional phrase like of, at, with, on, in, over or around. Transitive verbs consist of 122
entries – almost half of our entire database of 255 examples.
N0 take V-n of N1 was the most common transformation seen in our data. In fact, 94 of
122 entries or 77% of the constructions derived from the transitive verbs in Table 2 can introduce
the second complement, N1, into the take expression by means of an optional case particle of
phrase, as exemplified in (17) and (18):
N0 V N1 = N0 take V-n of N1
N0 V N1 = N0 take V-n at N1
N0 V N1 = N0 take V-n on N1
N0 V N1 = N0 take V-n in N1
N0 V N1 = N0 take V-n over N1
N0 V N1 = N0 take V-n around N1
+
+
+
+
+
+
+
+
+
+
+
+
+
N1 =: N-hum
+
+
+
+
+
+
+
-
N1
engine
his sins
the area
paper
Max
the shirt
the man
Max
money
the food
the door
Max
the car
N1 =: Nhum
N0 V N1 = N0 take V-n
+
+
+
+
-
V-n
+ + + - - -ation
- + - - -E
- + - - -E
+ + + + + -E
+ + + + + -E
+ - - - -E
- + - + -E
+ - + - -E
+ + + - -E
+ - - - -E
+ - - + -E
+ + - + -E
+ - + + + -E
N0 V = N0 take V-n
+
+
+
+
+
+
+
+
+
+
+
+
+
Verb
observe
pardon
patrol
photocopy
photograph
pick
pity
profile
profit
puke
pull
punch
quote
N take a V-n
N take V-n
N take the V-n
N take quant V-n
N take the quant V-n
N0 =: Nhum
N0 =: N-hum
(17) Verbs of protecting: The officer is (patrolling + watching + observing + guarding) ↔ The
officer is (patrolling + watching + observing + guarding) the area ↔ The officer is taking (patrol
+ watch + observations + guard) (E + of the area)
(18) Verbs of recording: The director is (photographing + recording + videotaping) ↔ The
director is (photographing + recording + videotaping) the artist ↔ The director is taking a
(photograph + recording + videotape) (E + of the artist)
+
+
+
+
+
+
+
+
-
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
-
+
+
+
-
+
-
+
-
Table 2: Sample of Transitive Verbs with take
111
Semantic
Properties
observe
forgive
patrol
photocopy
photograph
pick
feel bad
profile
profit
bodily function
pull
punch
estimate
36% of the verbs classified in Table 2 take have no intransitive ordinary verb use, but can appear
in both intransitive and transitive support verb constructions, as in (19).
(19) Verbs of controlling: Max (*controlled + *surveyed + *gripped) ↔ Max
controlled/surveyed/gripped the situation ↔ Max took control/surveillance/a grip (E + of the
situation)
Some of these verbs have both an intransitive and transitive use as ordinary verbs, while others
are purely transitive even though they form part of the same semantic class:
(20) Verbs of inhaling: Max (breathed + sniffed + gasped + *smelled + *whiffed) ↔ Max
(breathed + sniffed + gasped + smelled + whiffed) the air ↔ Max took a (breath + sniff + gasp +
smell + whiff) (E + of the air)
3. Intransitive take constructions with prepositional complements
In our data, there are 68 light verb take entries that can be derived from intransitive verbs that
take a PP complement, but reject a direct object N1. These intransitive verbs with prepositional
complements are marked with a plus in each column syntactically represented as (21).
(21) N0 V ↔ *N0 V N1 ↔ N0 V Prep N1 ↔ N0 take a V-n (E + Prep N1)
a. The man (winked + gazed + glanced + glimpsed + looked + stared + smirked) ↔ *The man
(winked + gazed + glanced + glimpsed + looked + stared + smirked) the woman ↔ The man
(winked + gazed + glanced + glimpsed + looked + stared + smirked) at the woman ↔ The man
took a (wink + gaze + glance + glimpse + look + stare + smirk) (E + at the woman)
Other verbs in this table only take a PP complement and reject purely intransitive and transitive
uses, as exemplified in (22).
(22) *N0 V ↔ *N0 V N1 ↔ N0 V Prep N1 ↔ N0 take a V-n (E + Prep N1)
a. *The surfer barreled ↔ *The surfer barreled the wave ↔ The surfer barreled in the ocean ↔
The surfer took a barrel (E + in the ocean)
b. *The class broke ↔ *The class broke 5 minutes ↔ The class broke for 5 minutes ↔
The class took a break (E + for 5 minutes)
Highlighting the importance of constructing lexicon-grammars, other examples show that the
preposition changes in the prepositional phrase between the ordinary verb and the support verb
construction:
(23) The mother cared for the baby ↔ The mother took care of the baby
(24) Max obsessed over his girlfriend ↔ Max took an obsession for his girlfriend
(25) The hockey player went for the goal ↔ The hockey player took a go at the goal
(26) The scientist accounted for the situation ↔ The scientist took an account of the situation
Finally, some of these verbs may not introduce the PP complement at all when part of the
support verb construction:
(27) *Max sided ↔ *Max sided friends ↔ Max sided with friends ↔ Max took (a side + sides)
(E + *with friends)
112
N1 =: N-hum
N0 take V-n for N1
N0 take V-n to N1
N0 take V-n in N1
N0 take V-n on N1
N0 take V-n at N1
N0 take V-n with N1
N0 take V-n of N1
V-n
-E
-ment
-ion
-E
-E
-E
-E
-E
-E
-E
-E
-E
-E
-E
-ation
N1 =: Nhum
Verb
+ + account
+ + advance
+ - act
+ - audition
+ - bake
+ - bark
+ - bargain
+ - barrel
+ - bet
+ - bow
+ - break
+ - care
+ - chat
+ - chuckle
+ - consider
N0 V = N0 take V-n
N0 V N1 = N0 take V-n
N0 V for N1 = N0 take V-n
N0 V to N1 = N0 take V-n
N0 V in N1 = N0 take V-n
N0 V on N1 = N0 take V-n
N0 V over N1 = N0 take V-n
N0 V at N1 = N0 take V-n
N0 V into N1 = N0 take V-n
N0 V with N1 = N0 take V-n
N0 =: Nhum
N0 =: N-hum
The sample Table 3 shows the variety of prepositional complements these verbs may take and
the variation exhibited when part of the light verb construction.
+
+
+
+
+
+
+
+
+
-
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
-
+
+
+
+
+
+
+
+
+
-
+
-
+
+
+
-
+
+
-
+
-
+
+
+
+
-
-
N1
- situation
- career
- the plan
- the play
- the sun
- Max
- glasses
- the wave
- Max
- Max
- an hour
- the car
+ Max
- the joke
- problem
Semantic
Property
- - - - - note
+ - - - - improve
- + - - - act
- - - - - audition
+ - - - - get sun
- - + - - scream
- - - - - bargain
+ - - - - surf
- - - - - risk
- - + - - bow
- - - - - rest
- - - - - care
- - - + - talk
- - + - - laugh
- - - - + consider
Table 3: Sample of light verb take constructions with prepositional complements
4. Residual data.
In addition to the 255 examples analyzed in this article so far, we also discovered two smaller,
restricted, but rather interesting tables. Table 4 consists of 22 intransitive verbs that can also be
transitive (e.g., sail (E + the ocean)). Due to space considerations, these residual tables are not
shown, but briefly, the verbs in Table 4 can all introduce a PP complement, Prep N1, that may be
an implicit part of the construction when in its transitive form, N0 V N1. These transitive verbs
with implicit locative PP complements vary as to the type of preposition accepted by the
construction, even if part of the same semantic class, as exemplified in (28):
(28) N0 V N1 ↔ N0 take V-n (E + Prep N1)
a. We sailed the Atlantic ↔ We took a sail ↔ We took a sail (to +*of +*at + in + on + around +
up) the Atlantic
b. The pirate walked the plank ↔ ?The pirate took a walk ↔ The pirate took a walk (*to + *of +
*at + on + *around + up) the plank
c. The old man hiked the hill ↔ The old man took a hike ↔ The old man took a hike (to + *of + at
+ on + around + up) the hill
113
We also discovered another small table of N0 V N1 Prep N2 expressions that involve a
symmetrical relationship such that either N1 take V-n (e.g., criticize) or N2 take V-n exists (e.g.
confess). These types of support verbs were first referred to as “converse support verb
constructions” by Gross 1989. The 22 verbs in this table reveal a variety of transformational
properties in the sense of Harris (1956), in which there is a potential relationship of relative
synonymy between the transitive verbal expression and the take construction. In the converse
support verb construction, however, take implies „accept‟ or „receive‟ in the abstract or
metaphorical sense. In the first of these transformations, the complement N1 becomes the subject
of the take construction, as in (29):
(29) N0 V N1 Prep N2 ↔ N1 take V-n
a. The people criticized the president for the speech ↔ The president took the criticism
b. The mother blamed the child for the error ↔ The child took the blame
In others, the complement N2 becomes the subject of the take construction. In a few cases,
however, both the N0 and N2 complement may occupy the subject position of the support take
expression, like (30), which shows that take may be ambiguous between two interpretations: one
being the light verb Max confessed ↔ Max took confession, and the other being the converse
support verb, where take means something like „perform‟, as in Max confessed to the priest
↔The priest took the confession.
(30) N0 V N1 Prep N2 ↔ N1 take V-n ↔ N2 take V-n
a. Lawyers appealed the case to the court ↔ Lawyers took the appeal ↔ The court took the appeal
b. Max confessed his sins to the priest ↔ Max took confession ↔ The priest took the confession
Further research will show if these last two tables are more productive in English, and perhaps
also reflective of other support verbs. Nevertheless, we can see that take support verb
expressions are highly productive in English, but due to high variability of acceptable
expressions, even among verbs in semantically related verb classes, they are best described
through a formal lexicon or lexicon-grammar.
References
Freckleton, Peter. 1984. Une taxonomie des expressions idiomatiques anglaises. Unpublished Ph.D. Dissertation.
Paris: Université de Paris 7.
Gross, Gaston. 1989. Les constructions converses du français. Geneva: Droz.
Gross, Maurice. 1988. Les limites de la phrase figée. Langages, 90, 7-22.
Gross, Maurice. 1994. Constructing Lexicon-grammars. In Computational Approaches to the Lexicon, Atkins and
Zampolli (eds.), Oxford University Press, pp. 213-263.
Harris, Zellig. 1956. Introduction to Transformations. Papers in Structural and Transformational Linguistics
(1970): 383-389. Dordrecht-Holland: D. Reidel Publising Company.
Langer, Stefan. 2004. A linguistic test battery for support verb constructions, Lingvisticae Investigationes 27,2:
171-184.
Levin, Beth. 1993. English Verb Classes and Alternations: A Preliminary Investigation. Chicago: The University of
Chicago Press.
Machonis, Peter. 1991. The Support Verb make. In Ferenc Kiefer (ed.) International Conference on Computational
Lexicography: Conference Proceedings. Budapest: Hungarian Academy of Sciences. 141-153.
Machonis, Peter. 2004. Nominalizations of English Neutral Verbs. In Christian Leclère et al. (eds.) Lexique,
Syntaxe et Lexique-Grammaire (Syntax, Lexis & Lexicon-Grammar) Papers in honour of Maurice Gross.
Lingvisticae Investigationes Supplementa 24, 413-421.
Oxford English Dictionary. 2010. Oxford University Press.
Wierzbicka, Anna. 1982. Why Can You Have a Drink When You Can't *Have an Eat? Language 58. 4:753-799.
114
Garnier-Oeliarisoa Dina
Université [email protected]
Battistelli Delphine
Université Paris Sorbonne
[email protected]
Minel Jean-Luc
Université Paris
[email protected]
VERS L'ANNOTATION AUTOMATIQUE DES NOMS PREDICATIFS
D'EVENEMENTS MEDIATIQUES
Résumé
Nous proposons une approche linguistique pour la reconnaissance automatique dans un
corpus de dépêches d‟agence d‟événements dits « médiatiques » (et qualifiés comme tels par
une partie de la communauté des journalistes). Dans cet article, nous nous intéressons aux
noms prédicatifs d‟événements. Nous présentons notre démarche visant à construire une base
de connaissance structurée à partir des travaux de description linguistique de S-H.Lee et
G.Gross.
Mots-clés: événement, nom prédicatif d'événement, prédicat.
Abstract
We present a linguistic approach for the automatic processing of “media events” . In this
paper, we focus on the predicative nouns of events. We present our approach for a structured
knowledge base that we developed from the linguistic framework of S-H.Lee and G.Gross.
Keywords: event, predicative noun of event, predicate.
1 Introduction
La notion d‟événement est complexe à définir dans le champ des sciences humaines et
sociales comme dans le champ du traitement automatique des langues (TAL) et de ses
applications en recherche d'information (RI). Elle peut par exemple être abordée selon un
principe de description de la catégorisation aspectuelle de situations (voir les nombreux
travaux de linguistique générale comme de TAL portant sur ce thème) comme selon un
principe de détection de situations perçues comme « nouvelles » dans un flux d'informations
disponibles à un moment donné (voir notamment la tâche de RI appelée Event Detection
Tracking). Il existe du reste (presque) autant de définitions que de champs disciplinaires dans
lesquels la notion d‟évènement est amenée à être considérée. Selon (Prestini-Christophe,
2006), il existe cependant des points communs à toutes ces définitions : (i) un évènement
correspond à une « rupture » ; (ii) un « fait » devient « évènement » en fonction du monde
dans lequel il advient (autrement dit, l‟évènement est « subjectif »). Dans une démarche
relevant essentiellement du paradigme de l‟analyse du discours, quelques travaux se sont ainsi
interrogés sur le rôle de la langue dans la construction, la représentation et l‟interprétation des
évènements en lien avec la mémoire, la culture, l‟histoire, la société (voir notamment (Van de
Velde, 2006), (Lecolle, 2009)). Ils ont pour objet de travailler sur les relations entre
évènements du monde et évènements discursifs, entre un évènement mondialisé et ses
différents traitements, entre évènements et normes/sens commun.
A la croisée de travaux de linguistique générale et d'analyse du discours, nos travaux ont
pour objectif de participer à la « clarification » de la notion d'évènement via la définition de
procédures TAL ancrées dans la spécification de besoins de communautés d'utilisateurs
données. Nous nous intéressons au repérage, dans des textes de type dépêches d'agence,
d'événements dits « médiatiques » et qualifiés comme tels par les journalistes de l‟AFP avec
115
lesquels nous sommes amenés à collaborer dans le cadre du projet RMM21. Leurs besoins en
matière de reconnaissance des évènements sont décrits dans les termes suivants :
« informations qui annoncent un événement à venir ou qui vient de commencer (et qui va se
poursuivre pendant quelques temps), participation ou non d’une personnalité à un événement
culturel ou encore informations qui peuvent avoir un intérêt pour le grand public ».
Cherchant à caractériser l‟expression de ces besoins dans les termes d‟une analyse
linguistique automatisable (au moins en partie), nous proposons de procéder à une annotation
de plusieurs types de marqueurs linguistiques liés à la notion d‟événement (parmi ces
marqueurs, ceux de temps, de lieu et de participant). Nous présentons ici les premiers
éléments de notre démarche quant au repérage de noms prédicatifs d'évènements, forçant à
une analyse approfondie des notions de prédicat et d‟argument, à l'instar des travaux de
(Harris, 1976) et de ceux menés dans le cadre du lexique-grammaire (Gross, 1975, Gross,
1981). La section 2 de cet article présente la manière dont le TAL aborde généralement la
notion d'évènement. Nous présentons en section 3 la typologie sémantique de noms
prédicatifs d‟événements établie par (Lee, 2001). La section 4 évoque une proposition de
structuration en termes de traits (c'est à dire dans un format compatible avec un traitement
informatique) de la typologie présentée précédemment. Nous présentons enfin deux
expérimentations ainsi que l'évaluation de ces dernières en section 5. La première
expérimentation vise à identifier les différentes structures linguistiques des événements
médiatiques dans des textes journalistiques comportant des expressions simples mais
également longues et pouvant être complexes ; la seconde a pour objectif de mesurer la
couverture et la pertinence de la notion de nom prédicatif d‟événement « décontextualisé ».
2 La notion d'événement dans le champ du TAL
Dans le champ du TAL et de ses applications en RI, de plus en plus de travaux s‟intéressent à
la détection et à l'annotation des événements dans les textes (voir par exemple pour l'anglais
(LDC, 2005)). Certains, notamment ceux décrits dans (Arnulphy et al, 2010), les considèrent
comme des entités nommées à part entière ; ils se basent sur une liste pré-établie de noms
déclencheurs d'événement, puis considèrent l‟analyse de certains indices pour détecter des
expressions dites « candidates » représentant des événements dans certains contextes.
D‟autres travaux, notamment ceux adoptant le schéma d'annotation TimeML (Pustejovsky et
al, 2005) comme par exemple (Sauri et al, 2005), (Bittar, 2008, 2009a) ou (Parent et al, 2008),
inscrivent l'analyse des événements dans une problématique plus large qui est celle de la
temporalité linguistique. (Sauri et al, 2005) décrit ainsi un module informatique nommé Evita
(« Events In Text Analyzer »), où des méthodes symboliques sont utilisées pour détecter les
verbes, adjectifs et noms événementiels considérés comme des événements candidats2. La
particularité de ce système est qu‟il ne possède pas une liste pré-établie de patrons
d‟événements et qu‟il n‟est pas associé à un domaine en particulier. Tous ces travaux autour
de la norme TimeML s‟intéressent comme nous à l‟annotation de différents marqueurs de
surface. Encore plus proches de nous, (Bittar, 2009b, 2010) s‟intéresse plus particulièrement à
l‟intégration des constructions à verbe support dans TimeML et propose des consignes
linguistiquement motivées pour l'annotation de la relation entre un verbe support et un nom
prédicatif d'évènement.. Les événements verbaux y sont classés selon les classifications des
verbes dans TimeML ; les noms déverbaux sont classés selon la classification du verbe
associé au nom déverbal tandis que les noms événements qui ne sont pas des déverbaux
appartiennent à la classe OCCURRENCE.
L'objet du travail présenté dans cet article est plus restreint puisqu'il ne concerne pas à
proprement parler l'analyse de cette relation entre un verbe support et un nom prédicatif ; et
1
2
Relax Multimédias 2 : http://www.rmm2.org
Pour les événements de type nom, des méthodes statistiques sont également utilisées pour la désambiguïsation.
116
différent dans la mesure où nous nous intéressons à la classification sémantique des noms
prédicatifs d‟événements en nous fondant sur des travaux linguistiques issus de l'approche de
G. Gross, pour en mesurer à la fois la pertinence et la couverture. Dans une perspective de
traitement automatique, il est souvent indispensable de structurer les connaissances décrites
par les travaux en linguistique générale afin qu‟elles puissent être exploitables
informatiquement. Les tables du lexique-grammaire (Gross, 1975, 1981) établissent par
exemple une correspondance très riche entre d‟une part les verbes, adverbes, noms prédicatifs,
expressions figées et d‟autre part leurs constructions syntaxiques respectives. Si les
informations linguistiques présentes dans les tables sont structurées, elles restent cependant
difficiles à exploiter informatiquement. (Constant & Tolone, 2010) ont mis en place un
système permettant de transformer les données des tables du lexique grammaire dans un
format exploitable informatiquement. Un second travail (Sagot & Tolone, 2009) a été réalisé
afin de transformer les données des tables dans un format compatible avec un analyseur
syntaxique. La dimension sémantique est présente dans cette base de connaissances mais cette
dernière a été réalisée principalement dans un objectif d‟analyse syntaxique. Les travaux de
(Lee, 2001), qui s‟inscrivent eux dans les travaux sur les classes d‟objets de G. Gross3, offrent
une description détaillée du comportement des noms prédicatifs d‟événements en particulier ;
une typologie sémantique de ces derniers, fondée sur des critères syntaxiques, y est proposée,
mais cette analyse n‟est pas exploitable directement en TAL. Dans notre perspective de
traitement des événements médiatiques, nous proposons une structuration de ces
connaissances et une implémentation.
3 Typologie sémantique des noms prédicatifs d’événements
Nous avons choisi d‟annoter les marqueurs d‟événements médiatiques en nous fondant sur la
typologie des noms (prédicatifs) d‟événements décrite par (Lee, 2001) qui s'inscrit dans la
théorie des classes d‟objets de G. Gross. (Lee, 2001) s‟intéresse en particulier aux noms
d‟événements définis par la construction en avoir lieu, c‟est à dire aux noms d‟événements
qui acceptent la construction rappelée en (1).
(1) Dét Nom d'événement avoir lieu W
où Dét désigne ’un’, ‘le’ ou ‘ce’ et W d‟éventuels compléments circonstanciels.
(Lee, 2001) propose par ailleurs les définitions suivantes :

Les verbes supports sont des « verbes vides ou vidés de leur sens lexical d'origine (…)
et qui n'ont pour rôle que d'actualiser4, dans une phrase simple, un terme prédicatif
n'appartenant pas à la catégorie du verbe » (Lee, 2001). Par exemple, le verbe „donner‟ dans
la phrase « L’Orchestre de Paris donnera 41 de ses 85 concerts ou représentations à la Salle
Pleyel » et le verbe „être‟ dans la phrase « Usher est en concert à Paris Bercy ce lundi 24
Janvier 2011 » sont des verbes supports.

Contrairement aux verbes supports, les verbes opérateurs sont prédicatifs et en
relation avec des noms prédicatifs. Par exemple, les verbes „jouer‟ et „diriger‟ dans la phrase
« Le jour de ses 70 ans (samedi 20 février), Christoph Eschenbach jouera et dirigera deux
concertos pour piano de Mozart » et le verbe „célébrer‟ dans la phrase « Le festival de danse
contemporaine Les Hivernales d'Avignon célèbrera dès jeudi soir et jusqu'au 28 février ses
30 ans » constituent des verbes opérateurs.
3
4
Voir par exemple (Pesant & Mathieu-Colas, 1998) pour une introduction à la notion de classe d‟objets.
Ou de « conjuguer » selon (Giry-Scheider, 1987), c'est-à-dire situer dans le temps un prédicat.
117
Le travail de Lee (2001) a débouché sur la création de classes d‟objets-événements. Ces
derniers permettent la classification de tous les noms d‟événements selon des critères à la fois
syntaxiques et sémantiques. (Lee, 2001) part du principe qu'il existe une corrélation entre les
types aspectuels des situations décrites (état, action, événement, ...) et les différents supports
et opérateurs qu‟il qualifie de « généraux ». En d‟autres termes, les verbes supports et verbes
opérateurs généraux permettent d‟aider à la caractérisation de traits aspectuels comme état,
action, événement,…Par exemple, les constructions verbales « il y a » et « avoir lieu »
désignent des verbes supports généraux du trait « événement » ; les verbes « faire » et
« donner » sont des supports généraux du trait « action » et le verbe « avoir » ou « être Prép5 »
sont des supports généraux du trait « état ». Lee (2001) a établi, pour chaque classe d'objet
d'événements, une description du nom prédicatif d'événement ainsi que des différents
supports et opérateurs généraux et ceux qualifiés d'« appropriés » qui lui sont associés. Ces
derniers, contrairement aux supports et opérateurs généraux, permettent de caractériser les
classes d'objets qui sont des sous-classes sémantiques des traits (qui, rappelons-le, peuvent
eux être définis à l‟aide des supports et opérateurs « généraux »). Par exemple, la classe
<crimes et délits> est définie grâce aux verbes supports appropriés « commettre » ou
« perpétuer » ainsi que grâce au verbe opérateur approprié « commanditer » tandis que la
classe <cérémonie d'union> est caractérisée par les verbes opérateurs appropriés « célébrer »
ou « bénir ». Ces différents supports et opérateurs (généraux et appropriés) peuvent être
exploités d‟une part comme des déclencheurs d‟événements et d‟autre part pour permettre la
désambiguïsation de l‟usage événementiel ou non du mot ; par exemple, pour distinguer
l‟emploi du mot „mariage‟ dans les deux phrases suivantes : « Autre incorrection culinaire
annoncée : le mariage du champagne et des fromages les plus coulants, voire les plus forts,
tels le munster... » et « Hélène Mandroux se dit prête à célébrer un mariage homosexuel.... ».
La typologie proposée consiste donc en un regroupement de noms (ou de groupes
nominaux) selon des critères à la fois syntaxiques et sémantiques. Elle comporte les quatre
classes principales suivantes, qui se divisent à leur tour en plusieurs sous-classes :

événements <fortuits>. Ils concernent les évènements de type séisme, inondation,
incendie,explosion, fuite de gaz,....

événements <à double caractère>. Ils concernent les évènements de type mutinerie,
révolution, manifestation, grève, coup d’Etat, échanges de tirs,. altercation,....

événements <cycliques>. Ils correspondent aux événements itératifs comme Noël, 14
juillet, Mardi gras, ....

événements <crées>. Ils concernent les évènements de type colloque, mariage,
congrès, conférence, concert, exposition, foire, marché, championnat, Grand Prix,....
4 Construction d’une base de connaissances structurées et annotation
Dans une première étape de notre travail, nous proposons de structurer et d‟implémenter les
connaissances liées aux noms prédicatifs d‟événements de façon « décontextualisée ». Cela
signifie que nous considérons les noms prédicatifs ainsi que les classes et catégories décrites
par (Lee, 2001) sans prendre en compte les différents supports et opérateurs qui leurs sont
associés. Nous avons fait ce choix pour deux raisons. D‟une part, nous souhaitons mesurer la
couverture des données dans la base de connaissances et tester la pertinence ou non des
catégories et classes de la typologie. D‟autre part, la prise en compte des verbes supports et
opérateurs associés aux noms prédicatifs nécessite des développements plus longs à mettre en
œuvre. Nous traiterons donc ce problème plus complexe dans une seconde étape. La structure
de traits associée à un nom ou à un groupe nominal que nous avons retenue à ce jour est
décrite dans la figure 1.
5
Prép : préposition
118
TYPE nom prédicatif d‟événement
TRAITS
graphie : conférence, concert, cyclone,...
categoGram : N,..
classe : <spectacles>, <réunions intermittentes>, ...
categorie : cree, cyclique,...
Figure 1. Structure de traits associée à un nom (ou groupe nominal) événementiel
Cette structure est décrite dans des fichiers XML et implémentée dans les dictionnaires au
format Unitex (Paumier, 2008). Comme notre démarche est d‟interroger des bases de
connaissances (structurées) pour la recherche et l‟annotation des informations linguistiques,
les grammaires locales nous semblent en effet plus appropriées que les techniques avec
expressions régulières. L'implémentation se déroule en trois étapes : analyse linguistique,
annotation puis validation humaine permettant l'enrichissement incrémental de la base de
connaissances. L'étape d'analyse linguistique est une étape classique d‟analyse morphologique
et lexicale. Nous faisons appel aux ressources et programmes d‟Unitex (Paumier, 2008). Pour
l‟analyse du temps morphologique des verbes, nous faisons appel au Treetagger (Schmid,
1994). Notre système reçoit en entrée soit un fichier au format texte (.txt), soit un fichier au
format xml. Pour l'étape d'annotation, nous faisons appel aux connaissances (structurées)
stockées dans les dictionnaires (au sens d‟Unitex) et à des grammaires locales d‟Unitex. Notre
système produit en sortie un fichier annoté et structuré au format xml. Dans la troisième
étape, notre système offre la possibilité d‟une validation humaine des annotations produites
avec dés lors un enrichissement incrémental de la base de connaissances.
5 Expérimentation et évaluation
Rappelons que notre objectif est de proposer une approche linguistique pour le repérage
automatique d‟événements dits médiatiques. Il est donc important de déterminer les
différentes formes ou structures linguistiques associés à ces événements. Nous avons mis en
place deux expérimentations. La première vise à mesurer les distributions des différentes
« formes » (ou structures linguistiques) d‟événements médiatiques identifiées. La seconde
expérimentation consiste à mesurer la couverture des données dans la base de connaissances
et à mesurer la pertinence de la classification de (Lee, 2001) à partir de noms prédicatifs
d‟événements « décontextualisés ».
Nos corpus sont constitués de dépêches AFP fournis par les journalistes qui collaborent
avec nous dans le cadre du projet RMM2. Nous disposons de deux types de corpus : un
corpus d'étude composé de 33 dépêches contenant 332 phrases et un corpus test composé de
100 dépêches contenant 1431 phrases. Nous n'avons pour l‟instant pas mis en place une étude
de la représentativité de notre corpus.
Une première étape d‟analyse nous a permis d‟identifier cinq types de structures. Elles sont
présentées en relation avec les exemples (a) à (e) dans la figure 2. Les éléments en gras
désignent les supports ou opérateurs tandis que les éléments soulignés désignent les noms
prédicatifs d‟événements ; nous ne mettons pas en gras les supports ou opérateurs des noms
prédicatifs qui ne sont pas à usage événementiel (cf. exemples (x) et (x‟)).
x. Ce rendez-vous avait été lancé en août 2006 dans le cadre intime de l'abbaye cistercienne du XVIIIe siècle de
Valloires par le Britannique Adam Gatehouse, producteur de concerts à la BBC et chef d'orchestre.
x‟. Trois concerts auront lieu le 29 mars, dans les salons de la mairie du XIIIème, le 31 mars dans
l‟amphithéâtre Richelieu de la Sorbonne et enfin le 2 avril à l‟Unesco
119
a. Seul le rez-de-chaussée du musée d‟Orsay est ouvert (moins l‟exposition Masques, mais avec les expositions
Pastels et Picasso) et de ce fait gratuit‟
b. Le jour de ses 70 ans (samedi 20 février), Christoph Eschenbach jouera et dirigera deux concertos pour
piano de Mozart, puis s‟entourera de musiciens amis (le violoniste Gidon Kremer, le violoncelliste Yo-Yo Ma
et le pianiste Tzimon Barto) pour un concert de gala
b‟. Une exposition inédite sur "l‟ombre" dans les oeuvres d‟art, de la Renaissance au XXe siècle, est organisée
à partir de mardi et jusqu‟au 17 mai par le musée madrilène Thyssen-Bornemisza
c. La dixième édition de la Biennale de Lyon, intitulée "Le spectacle du quotidien", aura lieu du 16 septembre
2009 au 3 janvier 2010 et sera conduite par Hou Hanru, commissaire, et Thierry Raspail, directeur artistique,
indiquent les organisateurs
d. L‟Orchestre de Paris donnera 41 de ses 85 concerts ou représentations à la Salle Pleyel, sa résidence jusqu‟à
l‟ouverture de la Philharmonie de Paris à l‟horizon 2012-2013
d‟. Après Chaillot, le spectacle sera donné en mars à Combs-la-Ville (Seine-et-Marne, les 17 et 18), Cusset
(Allier, le 26), le 10 avril à Rethel (Ardennes) et le 28 mai à Cahors
e. Usher est en concert à Paris Bercy ce lundi 24 Janvier 2011 !!
Figure 2. Structures linguistiques possibles
Les noms prédicatifs d'événements « décontextualisés » que nous étudions plus
particulièrement dans cet article sont des noms intervenant dans une construction en « avoir
lieu » telle que celle donnée en (1). Les critères de différenciation des structures sont à la fois
syntaxiques (fonction syntaxique du nom par rapport au verbe, mode de la phrase,...) et
sémantiques (rôle sémantique du nom, type de procès, sens lexical du nom,...). Les structures
s'analysent de la façon suivante. Dans (x) et (x') les noms ne sont pas employés dans un sens
événementiel ; le sens lexical du nom est monosémique dans (x) tandis qu'il peut être
polysémique dans (x'). De (a) à (e), les noms sont employés dans un sens événementiel. Dans
(a), les noms semblent n'être en relation (ou du moins difficilement reliables) avec aucun
verbe (support ou opérateur). Dans (b) et (b'), les noms sont en relation avec des verbes
opérateurs indiquant un procès de type « action » ; le nom est complément du verbe dans (b)
tandis qu'il est sujet dans (b'). Dans (c), le nom est en relation avec un verbe support indiquant
un procès de type «événement » et est sujet du verbe. Dans (d) et (d'), les noms sont en
relation avec des verbes supports indiquant un procès de type « action » ; le nom est
complément du verbe dans (d) tandis qu'il est sujet dans (d'). Dans (e), le nom est en relation
avec un verbe support indiquant un procès de type « état » et est complément de ce verbe. La
distribution des événements médiatiques selon leurs structures linguistiques est présentée dans
le tableau 1.
Type de structure
Distribution
combinaison
(a)
43,91%
Nom prédicatif «isolé »
(b) et (b')
21,26%
Nom prédicatif-Opérateur
(c),(d),(d') et (e)
34,45%
Nom prédicatif-Verbe support
Tableau 1. Distribution des événements médiatiques selon leurs structures linguistiques
120
Notre évaluation fait appel aux critères suivants :
- emploi événementiel ou non d‟un nom ou d‟un groupe nominal. Par exemple le mot
„mariage’ n‟a pas un emploi événementiel dans « le mariage du champagne et des fromages »,
alors qu‟il le possède dans « célébrer un mariage ») ;
- appartenance ou non du nom prédicatif à une classe de la typologie de Lee (2001). Par
exemple, le nom prédicatif manifestation (au sens de manifestation culturelle) apparaissant
dans la phrase « La manifestation intitulée "Pierre Bonnard, scènes d’intérieur" montre 80
toiles, dessins et aquarelles réalisés entre 1923 et 1947 (année de sa mort), pour la plupart
dans cette bourgade qui surplombe Cannes et où il avait acquis une maison avec son épouse
et muse, Marthe » doit être distingué du nom prédicatif manifestation (au sens de descente
dans la rue) apparaissant dans la phrase « Le Tibet reste un sujet extrêmement sensible en
Chine, Pékin étant régulièrement accusée par les responsables tibétains en exil, dont leur
chef spirituel, le dalaï lama, et les militants de leur cause de réprimer férocement toute
manifestation
favorable
à
l’indépendance
du
territoire
himalayen ».
- savoir si un événement est considéré comme médiatique ou pas reste subjectif (et lié à une
communauté donnée). Dans le cadre de ce travail, nous proposons de mener une évaluation de
notre annotation en fonction de ce qui est désigné comme étant un événement médiatique
pour les journalistes de l‟AFP.
Les résultats de cette évaluation sont présentés dans le tableau 2.
Corpus d'apprentissage
Nom prédicatif à usage événement médiatique ET
bien classifié
Corpus test
rappel
précision
rappel
précision
60,91%
89,44%
50,00%
87,55%
Tableau 2.
Le taux de précision élevé montre que les noms prédicatifs « décontextualisés » sont
généralement utilisés dans un usage événementiel et que la classification fondée sur la
typologie de (Lee, 2001) est pertinente pour la situation et le contexte d'utilisation. En
revanche, le taux de rappel bas montre que les noms prédicatifs « décontextualisés » qui ont
été recensés dans (Lee, 2001) ne couvrent pas la (ou les) thématique (s) du corpus de textes
qui a été annoté. La prise en compte des verbes supports et opérateurs (généraux et
appropriés) dans un travail ultérieur devrait permettre une amélioration de ce taux de rappel.
6 Limites et perspectives
Ce travail nous a permis de constater que les événements médiatiques se présentent sous
plusieurs formes et plusieurs « structures linguistiques » dans les textes. Un nom prédicatif
peut être accompagné d'un verbe support ou d'un verbe opérateur (prédicatif) mais ce n‟est
pas forcément toujours le cas. Nous faisons le même constat que celui établi dans (Laporte et
al, 2008) : il existe un certain nombre de noms prédicatifs qui n'occurrent pas avec un verbe
support. Nous pourrions même ajouter qu‟ils n'occurrent pas nécessairement non plus avec
des verbes opérateurs. Pourtant ils représentent bien des événements dits médiatiques (cf.
éléments de la structure (a) dans la figure 2). Ce travail nous a également permis de constater
que, même à travers des noms prédicatifs d'événements « décontextualisés », la classification
de (Lee, 2001) était adaptée à l'analyse et au repérage des événements médiatiques. Notre
travail présente cependant en l'état actuel encore beaucoup de limites. Tout d‟abord, les
différentes formes linguistiques des événements médiatiques que nous avons identifiées n‟ont
pas été définies de manière formelle. Le problème est complexe. Il vient en partie du fait que
nous avons éprouvé une difficulté à cerner des critères qui permettent de différencier par
exemple si un élément est prédicat ou argument, support ou opérateur dans des expressions
longues et complexes provenant de textes réels (dépêches d‟agences) et non construits comme
121
dans le cadre du travail de (Lee, 2001). Ensuite, ayant travaillé sur un corpus de taille réduite,
les cinq structures linguistiques que nous avons identifiées ne sont certainement pas
suffisantes pour représenter les différentes formes linguistiques des événements médiatiques.
Ces structures linguistiques pourront donc être modifiées ou enrichies avec un travail sur des
corpus plus volumineux. Enfin, la structuration des connaissances que nous avons brièvement
montré a été limitée aux noms prédicatifs d‟événements « décontextualisés », ce qui ne reflète
pas la richesse de la typologie proposée dans (Lee, 2001). De manière plus générale, ce travail
nous a amenés à considérer dans toute sa complexité l'identification de ce qui fonctionne
comme élément prédicatif et/ou comme argument dans une unité phrastique. Nos travaux
futurs visent à aborder de manière plus précise et détaillée ce fonctionnement dans une
perspective TAL.
Remerciements
Ce projet est financé par le projet ANR RMM2.
Références
Arnulphy B., Tannier X. & Vilnat A. (2010). Les entités nommées événement et les verbes de causeconséquence. In Actes TALN 2010, Montréal, Canada.
Bittar A. (2008). Annotation des informations temporelles dans des textes en français. In RECITAL 2008,
Avignon, France.
Bittar A. (2009a). Annotation of events and temporal expressions in french texts. In Proceedings of the Third
Linguistic Annotation Workshop, p. 48–51: ACL and AFNLP.
Bittar A. (2009b). Intégration des constructions à verbe support dans TimeML. In TALN 2009, Senlis France.
Bittar A. (2010). Construction d'un TimeBank du français : un corpus de réfé annoté selon la norme ISOTimeML. Thèse de doctorat, Université Paris Diderot.
Constant M. (2003). Grammaires locales pour l‟analyse automatique de textes: Méthodes de construction et
outils de gestion. PhD thesis, Université de Marne-la-Vallée.
Constant M. & Tolone E. (2010). A generic tool to generate a lexicon for NLP from Lexicon-Grammar tables. In
M. D. Gioia, Ed., Actes du 27e Colloque international sur le lexique et la grammaire (L‟Aquila, 10-13
septembre 2008). Seconde partie, volume 1 of Lingue d‟Europa e del Mediterraneo, Grammatica comparata,
p. 79–93. Aracne. ISBN 978-88-548-3166-7.
Giry-Schneider J (1987) Les prédicats nominaux en français. Les phrases simples à verbe support, Genève, Droz.
Gross M. (1975). Méthodes en syntaxe. Paris : Hermann.
Gross M. (1981). Les bases empiriques de la notion de prédicat sémantique. p. 7–52: Langages.
Harris Z. S. (1976), Notes du cours de syntaxe, trad .par M.Gross, Paris, Le Seuil.
Laporte E., Ranchhod E. & Yannacopoulou A. (2008). Syntactic variation of support verb constructions.
Lingvisticae Investigationes, 31(2), 173–185.
LINGUISTIC DATA CONSORTIUM (2005). ACE English Annotation Guidelines for Events, Version 5.4.3
2005.07.01, http://www.ldc.upenn.edu/Projects/ACE/docs/English-Events-Guidelines_v5.4.3.pdf
Lecolle M (2009). « Changement de sens du toponyme en discours : de Outreau “ville” à Outreau “fiasco
judiciaire” », Les Carnets du Cediscor 11, p. 90-106, Presses Sorbonne Nouvelle, Paris, 2009.
Lee S.-H. (2001). Les classes d‟objets d‟événements. Pour une typologie sémantique des noms prédicatifs
d‟événements. Thèse de doctorat, Université Paris 13.
Parent G., Gagnon M. & Muller P. (2008). Annotation d‟expressions temporelles et d‟événements en français. In
Actes de TALN.
Paumier S. (2008). Unitex 2.0 User Manual.
Pesant D. L. & Mathieu-Colas M. (1998). Introduction aux classes d‟objets. Langages, 131, 6–33.
Prestini-Christophe M. (2006). Une nouvelle grille de lecture : l'événement. Pensée plurielle, 13, 81–90.
Pustejovksy J., Castano J., Ingria R., Saurí R., Gauzauskas R., Setzer A. et Katz G. (2005). TimeML: Robust
specification of event and temporal expressions in text. Actes de IWCS-5, Fifth International Workshop on
Computational Semantics.
Sagot B. & Tolone E. (2009). Exploitation des tables du Lexique-Grammaire pour l‟analyse syntaxique
automatique. Arena Romanistica, Journal of Romance Studies, 4, 302–312. ISSN 1473-3536.
Saurí R., Knippen R., Verhagen M. & Pustejovsky J. (2005). Evita: a robust event recognizer for qa systems. In
HLT ‟05: Proceedings of the conference on Human Language Technology and Empirical Methods in Natural
Language Processing, p. 700–707, Morristown, NJ, USA: Association for Computational Linguistics.
Schmid H. (1994). Probabilistic part-of-speech tagging using decision trees. In Proceedings of International
Conference on New Methods in Language Processing.
Van de Velde D. (2006). Grammaire des événements. Presses Universitaires du Septentrion.
122
Geierhos Michaela
University of Munich, Germany
[email protected]
TOWARDS A LOCAL GRAMMAR-BASED PERSONDATA GENERATOR FOR
WIKIPEDIA BIOGRAPHIES
Abstract
Finding information about people in the World Wide Web is one of the most common activities of
Internet users. It is now impossible to manually analyze all this information and new approaches are
needed that are capable of processing the large-scale heterogeneous data in order to extract the pertinent information. The Wikipedia community still puts much effort in manually adding structured data
to biographical articles, the so-called {{Persondata}} template. Thanks to this kind of metadata, semantically-enriched information concerning the biographee (e.g. name, date of birth, place of birth)
can be extracted and processed by search engines. But it is a rather time-consuming task and users
quite often forget to add this template: some biographies contain persondata, others do not. There is
considerably less work done on developing approaches to automatically enhance English Wikipedia
biographies with persondata and therefore improve the quality of structured user contributions. Within
this paper, we describe our method to automatically generate persondata from biographical information in Wikipedia articles.
Keywords: local grammar-based information extraction, wikipedia persondata template generation.
1 Introduction
When writing a Wikipedia biography, it is highly recommended to add a special set of
metadata, the so-called {{Persondata}} template. It consists of standardized data fields
providing information on the biographee (name, date of birth and death, as well as place of
birth and death).1 That way, persondata can be automatically extracted [see DBpedia2] and
processed by cataloging tools and then used for a variety of purposes, such as providing
advanced search capabilities (Nguyen et al., 2010), statistical analysis (Suchanek et al., 2006),
relationship identification (Lehmann et al., 2007), automated categorization (Saleh et al.,
2010), and lists of persons by name or birth place. As of October 2010, the English Wikipedia
had over 277,076 articles with persondata which could only be topped by the German
Wikipedia with over 348,621 articles with persondata. Since 2009 the English speaking
Wikipedia community has caught up in manually adding the {{Persondata}} template to
biographical articles. There were only 43,000 articles with persondata in July 2009.
The original idea behind the use of this template was to automatically alphabetize all the
biographical articles because the titles usually begin with the person’s first name. Since collaborative writing does not contribute to uniform formatting, we cannot rely on this fact. For
example, Chinese names are mostly given the other way round: the family name appears first
followed by the first name, e.g. Wang Xiaoshuai3. Due to the above mentioned inconsistency
it is not possible to build a person name index sorted by family name out of running text. But
not all Wikipedia biographies have persondata.
1
2
3
http://en.wikipedia.org/wiki/Wikipedia:Persondata
http://dbpedia.org
http://en.wikipedia.org/wiki/Wang_Xiaoshuai
123
Figure 1: Sample persondata used for the Wikipedia biography of Luciano Pavarotti
By automatically adding standardized metadata to such articles, the quality of structured
user contribution within Wikipedia pages would significantly improve. There has been a lot of
work done on named entity recognition (Kazama & Torisawa, 2007; Balasuriya et al., 2009)
or named entity disambiguation based on Wikipedia (Cucerzan, 2007; Han & Zhao, 2009),
but there is considerably less work done on developing methods to automatically enrich
Wikipedia articles with structured metadata. Therefore, we first describe our local grammarbased approach (Gross 1997) to automatically fill the persondata template (cf. Figure 1) with
information from the English Wikipedia article itself and to create the corresponding
infoboxes (cf. Figure 2). Secondly, we compare our results to those obtained using the
“Persondata Generator” developed by Magnus Manske4.
Figure 2: Sample infobox given in a Wikipedia biography
2 Wikipedia Persondata: Limited Biographical Information
In general, a person’s biography is a set of all events that have taken place within the life span
of the biographee such as birth, academic and professional experience, personal and
professional relations, and death. But in this case, it is a rather limited issue because the fields
of a persondata template only summarize facts belonging to one’s civil registry (cf. Figure 3).
The Wikipedia infobox indeed contains additional information items such as the nationality or
the occupation (cf. Figure 2 and Figure 3), but it is far away from a complete profile of the
biographee.
{{Persondata
|NAME=
|ALTERNATIVE NAMES=
|SHORT DESCRIPTION=
|DATE OF BIRTH=
|PLACE OF BIRTH=
|DATE OF DEATH=
|PLACE OF DEATH=
}}
{{Infobox Person
| name =
| other_names =
| known_for =
| birth_date =
| birth_place =
| death_date =
| death_place =
| occupation =
| nationality =
}}
Figure 3: Predefined persondata and infobox template used in a Wikipedia biography
4
http://toolserver.org/~magnus/persondata.php
124
As we intend to extract biographical facts out of Wikipedia biographies without using any
structured information provided by Wiki syntax or HTML code, we first have to define which
statements in natural language express biographical information. We therefore use the object
class model (Gross, 1994) where object classes are “semantic classes built upon syntactic
criteria” (Le Pesant & Mathieu-Colas, 1998). In this context, we consider only predicative
relations linking several arguments out of which one is mandatory an element belonging to
the class <Person>. There is no restriction on the selection of the other elements participating
in a relationship which describes biographical information (Geierhos & Blanc, 2010).
However, we observed that other arguments concerning one’s civil registry are typically
instances of the classes <Person>, <Location> and <Date>. Each class is encoded by an
electronic dictionary according to the DELA formalism (Courtois, 2004). The lexical entries
are instances of the original object classes and also hyponymes of the object class name.
Initial Pattern
Birth
X was born in D/L
X was born as N
Marriage
X married Y
Divorce
X was divorced from Y
Death
X died in D/L
Synonymic Patterns
Object Class as Subject
Object Class as Object
X saw the light of day in D/L
X saw the light of day as N
X: Person
X: Person
D: Date, L: Location
N: Name
X and Y became man and wife
X joint in marriage with Y
X plighted X’s troth to Y
X pledged X’s troth to Y
X took Y to wife/husband
X wedded Y
X led Y to the altar
Y was married to X
Y got married to X
Y was wedded to X
X: Person
X: Person
X: Person
X: Person
X: Person
X: Person
X: Person
X: Person
X: Person
X: Person
Y: Person
Y: Person
Y: Person
Y: Person
Y: Person
Y: Person
Y: Person
Y: Person
Y: Person
Y: Person
X filed a divorce from Y
X sued for divorce from Y
X got a divorce from Y
X separated from Y
X split from Y
X broke up with Y
X ended X’s marriage to Y
X annulled X’s marriage to Y
X dissolved X’s marriage to Y
X parted company with Y
X: Person
X: Person
X: Person
X: Person
X: Person
X: Person
X: Person
X: Person
X: Person
X: Person
Y: Person
Y: Person
Y: Person
Y: Person
Y: Person
Y: Person
Y: Person
Y: Person
Y: Person
Y: Person
X breathed X’s last in D/L
X deceased in D/L
X departed X’s life in D/L
X laid down X’s life in D/L
X lost X’s life in D/L
X met X’s death in D/L
X passed away in D/L
X perished in D/L
X: Person
X: Person
X: Person
X: Person
X: Person
X: Person
X: Person
X: Person
D: Date, L: Location
D: Date, L: Location
D: Date, L: Location
D: Date, L: Location
D: Date, L: Location
D: Date, L: Location
D: Date, L: Location
D: Date, L: Location
Table 1: Typology for biographical information belonging to the civil registry (excerpt)
All biographical events listed in Table 1 correspond to statements in natural language that
can be recognized by using a suitable bootstrapping method combined with knowledge-rich
125
context patterns (Meyer, 2001). We therefore define a limited number of syntactic patterns
enriched by lexical information stored in the above mentioned object classes.
3 A Local Grammar-based Approach to Persondata Extraction
The problem that we are addressing is related to the traditional information extraction task,
such as the research presented at the Message Understanding Conferences (MUC) and later
replaced by the Automatic Content Extraction (ACE) campaigns.
In general, information extraction tasks use surface-based patterns to identify concepts and
relations between them. Patterns may be handcrafted or learned automatically, but typically
include a combination of character strings, parts of speech or phrasal information (Grishman,
1997). A succession of regular expressions is normally used to identify these structures; they
are applied when triggered by keywords (McDonald, 1996). Most information extraction systems either use hand written extraction patterns or use a machine learning algorithm that is
trained on a manually annotated corpus. Both of these approaches require massive human effort and hence prevent information extraction from becoming more widely applicable.
Concerning the extraction of biographical facts for automatically generating the persondata
template, we will outline the extraction and infobox creation process, as shown as preview in
Figure 4. As persondata is a subset of an infobox, we will use the same techniques for both of
them.
Figure 4: Sample infobox extracted from a short biography of Paula Abdul
3.1 Local Grammar Development and Application
While the “Persondata Generator” developed by Magnus Manske5 only uses a very small set
of trigger words and analyzes the Wiki syntax within a biographical article, we focus on a
linguistic description of biographical events mentioned in the biographies.
For example, the (born ... died ...) parentheses typically used in biographical articles help
us to spot the date of birth and death in the first line of the biography. However, there are variations in expressing a lifetime period, e.g. Dante Alighieri (May/June c.1265 – September 14,
1321)6. In this case, the keywords born and died are totally missing. There are many syntactic
variations in heterogeneous text expressing the same types of biographical information (e.g.
birth, death) which are reduced to the basics in a structured representation called {{Persondata}}.
5
6
http://toolserver.org/~magnus/persondata.php
http://en.wikipedia.org/wiki/Dante_Alighieri
126
We created local grammars (Gross, 1997) using the free software tool UNITEX7 (Paumier,
2010) in order to describe the syntactic and lexical structures (so-called knowledge-rich context patterns) of biographical information provided by the persondata template. Formally, local grammars are recursive transition networks (Woods, 1970), symbolized by graphs (cf.
Figure 5). From a technical point of view, we apply our local grammars in a cascading style.
Each level of the cascade relies on the results of the previous level. The first levels enable us
to identify and annotate simple entities in the same manner as used in the persondata template
such as ALTERNATIVE NAMES, PLACE OF BIRTH and DATE OF BIRTH. The next levels broaden these entities so as to cover all the predicative relations mentioned above (cf. Table 1). Furthermore, the local grammar illustrated in Figure 5 recognizes the parents of the
biographee which can be displayed in the infobox of a Wikipedia biography.
After applying our local grammar cascade to the biography shown in Figure 4, we receive
the following annotated text:
<result>
<annotated type="text">
<PERSONctx><PERSON type="NAME">Paula Abdul</PERSON></PERSONctx><eos />
<REL type="JOB"><JDctx><JD>Dancer</JD>,<JD info="non-lex">pop singer</JD>,
<JD>choreographer</JD></JDctx></REL>.<eos />
<REL type="BIRTH"> <PERSONctx q="WHO"> <PERSON type="ALT_NAME" sex="F">
Paula Julie Abdul</PERSON></PERSONctx>
<PRED type="BIRTH" text="born"> was born</PRED> <TIMEXctx q="WHEN">
on <DATE> June 19</DATE>, <DATE> 1962</DATE>,</TIMEXctx>
<GEOctx q="WHERE"> in <GEO> Los Angeles</GEO>, <GEO info="non-lex">
California.</GEO></GEOctx></REL><eos />
<REL type="MARRIAGE"><PERSONctx q="WHO"><PERSON type="NAME" sex="UNK">
Abdul</PERSON></PERSONctx> <PRED type="MARRIAGE" text="marry">
was married</PRED> to <REL type="JOB"> <JD>actor</JD>
<PERSONctx q="WHO"> <PERSON type="NAME" sex="M">Emilio Estevez
</PERSON></PERSONctx></REL> <TIMEXctx q="WHEN">from <DATE> 1992
</DATE>-<DATE>1994</DATE>,</TIMEXctx> and to <PERSONctx q="WHO">
<PERSON type="NAME" sex="M"> Brad Beckerman</PERSON></PERSONctx>
<TIMEXctx q="WHEN">from <DATE> 1996</DATE>-<DATE>1999</DATE>
</TIMEXctx></REL>.<eos />
<REL type="LOCATION"><PERSONctx q="WHO"><HUM>She</HUM></PERSONctx>
<PRED type="LOCATION" text="reside">currently resides</PRED>
<GEOctx q="WHERE">in <GEO>Los Angeles</GEO>, <GEO info="non-lex">
California.</GEO></GEOctx></REL><eos />
</annotated>
</result>
The outcome of this is the generation of the following persondata template facilitated by a
PERL script:
{{Persondata
|NAME= Abdul, Paula
|ALTERNATIVE NAMES= Adul, Paula Julie
|SHORT DESCRIPTION= Dancer, Pop Singer, Choreographer
|DATE OF BIRTH= June 19, 1969
|PLACE OF BIRTH= Los Angeles, California
|DATE OF DEATH=
|PLACE OF DEATH=
}}
7
http://www-igm.univ-mlv.fr/~unitex
127
Since the fields of the persondata template are very restricted, other types of biographical
facts like occupational information, spouses as well as the corresponding periods of marriage
and the place of residence (cf. Figure 4) can automatically be added to the infobox of the
Wikipedia article.
Figure 5: Local grammar for the extraction of persondata fields belonging to the event “Birth”
3.2 Limits of ACE Annotation Scheme for Events
Since we dedicated our research to biographical events, we only address the LIFE and
PERSONELL event types defined by the ACE English Annotation Guidelines for Events
(LDC, 2005: 65 ff.). Concerning the ACE English Annotation Guidelines for Events the
number of arguments considered as relevant is quite limited. For example, the BE-BORN
event type disregards useful information such as the birth name, family background, or birth
defects. Especially, birth names are useful to distinguish between people by identifying that,
for example, Stefani Joanne Angelina Germanotta and Lady Gaga is the same person in the
following context:
Lady Gaga was born as Stefani Joanne Angelina Germanotta on March 28, 1986.
Since we need more detailed information about people, their work and occupations, we
dismiss the ACE annotation standard for biographical event types. Hence we propose a more
suitable one, which we presented in the previous section.
4 Evaluation
In this section, we compare our results to those obtained using the “Persondata Generator”
developed by Magnus Manske8 by estimating the quality of the extraction patterns. However,
Magnus Manske’s tool is not the state-of-the-art in this task, so comparison should be made to
other systems performing similar tasks. But his tool is quite frequently used by the Wikipedia
community and can only be tested on Wikipedia biographies. Due to the absence of any
8
http://toolserver.org/~magnus/persondata.php
128
reference corpus, we randomly selected 150 biographical articles with missing persondata
from the English Wikipedia website for testing purposes. . We must admit that this sample is
too small to draw relevant conclusions. Since Magnus Manske’s tool is skipping Wikipedia
articles that already have {{Persondata}}, we can only make a comparison between his
approach exploiting the Wiki syntax and ours when manually verifying both extraction
results.
Local grammar-based tool Magnus Manske’s tool
Differences
Precision Recall F-score Precision Recall F-score Precision Recall F-score
NAME
0.99
0.99
0.99
1.00 1.00
1.00
-0.01 -0.01 -0.01
ALTERNATIVE NAMES
1.00
1.00
1.00
1.00 0.25
0.40
0.00 0.75
0.60
SHORT DESCRIPTION
0.95
0.95
0.95
0.71 0.46
0.56
0.24 0.49
0.39
DATE OF BIRTH
1.00
1.00
1.00
1.00 0.99
1.00
0.00 0.01
0.00
PLACE OF BIRTH
0.96
0.96
0.96
0.87 0.72
0.79
0.09 0.24
0.17
DATE OF DEATH
1.00
1.00
1.00
1.00 1.00
1.00
0.00 0.00
0.00
PLACE OF DEATH
1.00
1.00
1.00
0.00 0.00
0.00
1.00 1.00
1.00
AVERAGE
0.99
0.99
0.99
0.80 0.63
0.68
0.19 0.36
0.31
AVERAGE-SHORTDESCRIPTION
0.99
0.99
0.99
0.81 0.66
0.70
0.18 0.33
0.29
Persondata field
Table 2: Evaluation results
The lesson is clear: The “Persondata Generator” works well as long as the biographical
information is tagged by Wiki syntax. A very prominent example for his malfunction in case
of missing internal links (name of a Wikipedia page enclosed by double square brackets) is
the following Wikipedia biography:
’’’Franz Guenthner’’’ is a professor of Computational Linguistics at the [[Center for
Information and Language Processing]] (CIS) at the [[Ludwig-Maximilians-Universitaet]]
(LMU) in [[Munich]], [[Germany]].
Here, Magnus Manske’s tool extracts for SHORT DESCRIPTION “at the [[LudwigMaximilians-Universitaet]] (LMU) in [[Munich]], [[Germany]]” instead of “professor of
Computational Linguistics” like our local grammar-based persondata generator does.
5 Conclusion
Within this paper, we presented a biographical information extraction method capable of
automatically generating a {{Persondata}} template by retrieving data from a Wikipedia
biographical article. We focused on a linguistic description of biographical events and proved
that the extraction results show high precision and recall. But if one removed the shortdescription category, the results would be slightly different for the non-linguistic approach.
References
BALASURIYA D., RINGLAND N., NOTHMAN J., MURPHY T. and CURRAN J. R. (2009), “Named entity recognition in
Wikipedia”, in People’s Web ’09: Proceedings of the 2009 Workshop on The People’s Web Meets NLP: ACL,
Morristown, NJ, USA: 10–18.
COURTOIS B. (2004), “Dictionnaires électroniques DELAF anglais et français”, in Christian Leclère, Eric Laporte, Mireille Piot and Max Silberztein (Eds.), Lexique, syntaxe et lexique-grammaire; syntax, lexis & lexicon-grammar, John Benjamins, Amsterdam/Philadelphia: 113–123.
CUCERZAN S. (2007), “Large-Scale Named Entity Disambiguation Based on Wikipedia Data”, in Proceedings of
the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL): ACL, Prague, Czech Republic: 708–716.
GEIERHOS M. and BLANC O. (2010), “BiographIE – Biographical Information Extraction from Business News”,
in Michele De Gioia (Ed), Actes du «27e Colloque international sur le lexique et la grammaire» (L’Aquila,
10-13 septembre 2008). Seconde partie. Lingue d’Europa e del Mediterraneo: Grammatica comparata,
Aracne, Rome, Italy: 95–109.
129
GRISHMAN R. (1997), “Information Extraction: Techniques and Challenges”, in Pazienza and Carbonell (Eds.),
Information Extraction: A Multidisciplinary Approach to an Emerging Information Technology, International
Summer School, SCIE-97, Frascati, Italy, 14-18, 1997, vol. 1299, Springer: 10–27.
GROSS G. (1994), “Classes d’objets et description des verbes”, in Langages, vol. 115, Larousse, Paris: 15–30.
GROSS M. (1997), “The Construction of Local Grammars”, in E. Roche & Y. Schabes (Eds), Finite-State Language Processing, MIT Press, Cambridge, Massachusetts, USA: 329–354.
HAN X. and ZHAO J. (2009), “Named entity disambiguation by leveraging Wikipedia semantic knowledge”, in
CIKM ’09: Proceeding of the 18th ACM conference on Information and knowledge management: ACM, New
York, NY, USA: 215–224.
KAZAMA, JUN’ICHI and TORISAWA, KENTARO (2007), “Exploiting Wikipedia as External Knowledge for Named
Entity Recognition”, in Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning: 698–707.
LDC (2005), ACE English Annotation Guidelines for Events, Version 5.4.3 2005.07.01, Linguistic Data Consortium, http://www.ldc.upenn.edu/Projects/ACE/docs/English-Events-Guidelines_v5.4.3.pdf.
LE PESANT D. and MATHIEU-COLAS M. (1998), “Introduction aux classes d’objets”, in Langages, vol. 131, Larousse, Paris: 6–33.
LEHMANN J., SCHÜPPEL J. and AUER S. (2007), “Discovering Unknown Connections - the DBpedia Relationship
finder”, in S. Auer, C. Bizer, C. Müller, A.V. Zhdanova (Eds), Proceedings of 1st Conference on Social Semantic Web, vol. 113: 99–110.
MCDONALD D. (1996), “Internal and External Evidence in the Identification and Semantic Categorization of
Proper Names”, in Corpus Processing for Lexical Acquisition: MIT Press: 31–43.
MEYER I. (2001), “Extracting knowledge-rich contexts for terminography”, in D. Bourigault, C. Jacquemin and
M.-C. L'Homme (Eds.), Recent Advances in Computational Terminology, John Benjamins: 279–302.
NGUYEN H., NGUYEN T., NGUYEN H. and FREIRE J. (2010), “Querying Wikipedia documents and relationships”,
in WebDB ’10: Procceedings of the 13th International Workshop on the Web and Databases: ACM, New
York, NY, USA: 1–6.
PAUMIER S. (2010), Unitex User Manual 2.1, http://igm.univ-mlv.fr/~unitex/UnitexManual2.1.pdf.
SALEH I., DARWISH K. and FAHMY A. (2010), “Classifying Wikipedia Articles into NE’s Using SVM’s with Threshold Adjustment”, in Proceedings of the 2010 NE's Workshop: ACL, Uppsala, Sweden: 85–92.
SUCHANEK F. M., IFRIM G. and WEIKUM G. (2006), “Combining linguistic and statistical analysis to extract relations from web documents”, in KDD ’06: Proceedings of the 12th ACM SIGKDD international conference
on Knowledge discovery and data mining: ACM, New York, NY, USA: 712–717.
WOODS W. A. (1970), “Transition network grammars for natural language analysis”, in Communications of the
ACM, n° 10, vol. 13, ACM, New York, NY, USA: 591–606.
Acknowledgments
This work is supported by the Eurostars Programme, a R&D initiative funded by the
European Community and by the German Federal Ministry of Education
and Research (Grant No. 01QE0902B). We express our sincere thanks to both for
financing this research within the collaborative research project Biographe E!4621
(http://www.biographe.org).
130
Ioannidou Kyriaki
Université Aristote de Thessalonique,
Grèce
Tolone Elsa
Université Paris-Est, France
Universidad Nacional de Córdoba, Argentine
[email protected]
[email protected]
CONSTRUCTION DU LEXIQUE LGLEX A PARTIR DES TABLES DU LEXIQUEGRAMMAIRE DES VERBES DU GREC MODERNE
Résumé
Dans cet article, nous dressons un bilan du travail effectué sur les ressources du grec moderne
concernant le Lexique-Grammaire des verbes1. Nous détaillons les propriétés définitoires de
chaque table, ainsi que l'ensemble des changements effectués sur les intitulés de propriétés
afin de les rendre cohérents. Grâce à l'élaboration de la table des classes, regroupant
l'ensemble des propriétés, nous avons pu envisager la conversion des tables en un lexique
syntaxique : LGLex. Ce lexique, au format texte ou XML, est généré par l'outil LGExtract
(Constant & Tolone, 2010). C'est un format directement exploitable dans les applications de
Traitement Automatique des Langues (TAL).
Mots clés: lexique-grammaire, verbes du grec moderne, table des classes, lglex, lexique
syntaxique.
1. Introduction
Depuis une dizaine d’années, un programme de description formalisée de la langue grecque
pour l’analyse syntaxico-sémantique a permis de construire des tables du LexiqueGrammaire, en adoptant la méthodologie proposée par Gross (1975), Boons, Guillet et
Leclère (1976a ; 1976b). À l’heure actuelle, nous disposons de 17 tables de verbes simples
(Yannacopoulou, 2005 ; Fista, 2007 ; Kyriacopoulou, 2010 ; Voskaki, 2011), 7 de noms
prédicatifs (Sfetsiou, 2007), 16 tables d'adverbes (semi-)figés (Voyatzi, 2006 ; Voyatzi &
Kakoyianni-Doa, 2010) et 2 tables de noms composés (Kyriakopoulou, 2011)2. Dans le cadre
de notre recherche, nous avons pris en compte les tables des prédicats verbaux, le même
travail étant en cours pour les noms prédicatifs.
Afin de procéder à l’analyse syntaxique des textes grecs, il faut intégrer les données du
Lexique-Grammaire dans un analyseur syntaxique, ce qui nécessite la conversion des données
dans un format exploitable en Traitement Automatique des Langues (TAL). Étant fortement
inspirés des travaux déjà réalisés pour le français (Tolone, 2011), nous avons suivi la
démarche suivante pour les prédicats verbaux :
 collecter toutes les tables ;
 créer une table des classes, afin d'y faire figurer les propriétés définitoires décrites dans la
littérature et de rendre cohérent l'ensemble des tables, comme cela a été fait pour le français
(Tolone, 2009 ; Tolone et al., 2010) ;
 créer un script interprétant chaque intitulé de la table des classes qui, exécuté par l'outil
LGExtract (Constant & Tolone, 2010), permet de convertir les tables au format LGLex.
Dans cet article, après la présentation des tables utilisées pour la construction du lexique
1
Ce travail fait partie d’une thèse de doctorat co-financée par l’Union
Européenne (Fonds Social Européen) et par l’État Grec (Cadre de Référence
Stratégique National 2007-2013), dans le cadre du programme « Heracleitus
II. Investissement dans la société de la connaissance / Éducation et Formation Tout au Long de la Vie ».
2
Ces tables seront disponibles ultérieurement sur http://www-igm.univ-mlv.fr/~ressourcesgrec.
131
syntaxique, nous allons lister les types de modifications effectuées lors de la mise en
cohérence des propriétés. Par la suite, nous allons évoquer la création de la table des classes
détaillée dans (Ioannidou & Kyriacopoulou, 2010) qui nous a permis d'ajouter les propriétés
définitoires et d'assurer l’homogénéisation des intitulés des propriétés. Enfin, nous allons
présenter le lexique syntaxique obtenu.
2. Ressources linguistiques et propriétés définitoires des tables
Les tables verbales ainsi que les propriétés définitoires vraies pour l'ensemble des entrées de
chaque table sont les suivantes (la première construction étant la construction de base)3 :
32GA : N0 V N1
avec N1 apparition
32GD : N0 V N1
avec N1 disparition
32GC : N0 V N1
avec N1 =: Nconc
32GCL : N0 V N1
avec N1 =: Npc
32GCV : N0 V N1
avec N0 Vsup N1 Prep V-n
32GH : N0 V N1
avec N1 =: Nhum
32GNM : N0 V N1
avec N1 =: N-hum
32GPL : N0 V N1
avec N1 =: Npl obl
32GRA : N0 V N1
avec N0 Vsup N1 V-adjaccusatif [équivalent à V-adj]4
4G : N0 V N1
avec une complétive en N0
6G : N0 V N1
avec une complétive en N1
9G : N0 V N1 ζε [se=à] N2
avec une complétive en N1
38GL : N0 V N1 Loc N2 source Loc N3 destination
38GLS : N0 V N1 Loc N2 source
38GLD : N0 V N1 Loc N2 destination
38GLH : N0 V N1 Loc N2 destination
avec N1 =: Nhum
38GLR : N0 V N1 Loc N2
L'ensemble des tables verbales représentent 3 997 emplois verbaux décrits. Notons que
pour les verbes, certaines lignes peuvent donner lieu à plusieurs entrées puisque des préfixes
sont également codés, ce qui totalise 4 283 entrées en comptant les verbes préfixés. Certes,
ces tables sont loin de couvrir toute la langue grecque mais la constitution de cette ressource
est en cours. Le nombre de ressources en Grèce n'étant pas très important, il s'agit de la plus
grande ressource syntaxique à ce jour.
3. Modifications dans les tables
Pour procéder à la conversion du contenu de plusieurs tables en un seul fichier, il faut que
l'ensemble des propriétés respecte les mêmes conventions de notation et de structure dans les
différentes tables. De ce fait, nous avons effectué des modifications dans les tables à l’aide de
la table des classes (voir section 4). Pour effectuer ces modifications, nous nous sommes
basées sur la documentation des propriétés des verbes du français5. Cependant, nous avons
pris en compte les particularités de la langue grecque, en essayant d’être le plus proche
possible des notations françaises. Par exemple, l’encodage particulier qu’exige la langue
grecque nous a conduit à ne pas garder les accents français dans les notations. Nous avons
adopté donc les mêmes symboles en enlevant les accents (Prép → Prep pour préposition6).
Les changements effectués concernent toutes les colonnes des tables, sauf celles des
exemples et des traductions qui n'ont pas encore été traitées. Ils peuvent être regroupés en
3
Les notations entre [ ] indiquent la romanisation du mot grec, suivi de sa traduction en français. Elles ont été
ajoutées pour des questions de lisibilités mais ne figurent pas dans les propriétés.
4
Pour le grec, les cas peuvent être spécifiés à droite d'un complément.
5
Disponible avec les tables du Lexique-Grammaire du français sur le site http://infolingu.univ-mlv.fr/ >
Données Linguistiques > Lexique-Grammaire > Téléchargement.
6
Dans cet article, le changement va être noté sous la forme x → y où x est la notation avant le changement et
y la notation d’après.
132
cinq catégories : les modifications typographiques, les modifications au niveau de la structure
des intitulés, l’ajout des informations lexicales, la suppression des colonnes qui contenaient
des propriétés définitoires ou non pertinentes et les changements purement linguistiques.
1. Parmi les erreurs typographiques, on rencontre des fautes dues à l’alternance de
caractères grecs et latins, ou de caractères majuscules et minuscules (ppv → Ppv). D’autres
modifications au niveau typographique concernent la présence ou non d'espaces (N0=:Nhum
→ N0 =: Nhum), le tronquage ou non d’une notation (disp → disparition), ou l’utilisation
d’une notation différente (V-νο [-os] → V-adj, Sfx = νο [os]) (Ioannidou & Kyriacopoulou,
2010). Nous avons, de plus, utilisé la notation x-V où x correspond à un préfixe qui est ajouté
aux verbes grecs (p.ex. εθ-V [ek-], ζπλ-V [syn-], etc.) (Fista, 2007). Cette notation a une
interprétation particulière lors de la conversion des tables au format LGLex. Si cette colonne
vaut + pour une entrée verbale donnée, il faut spécifier cette nouvelle entrée qui correspond
au verbe préfixé partageant les mêmes propriétés que le verbe non préfixé. Les changements
au niveau typographique représentent la plus grande partie des changements effectués dans les
tables (55%).
2. À part les modifications qui concernent les symboles utilisés dans les intitulés des
propriétés, nous avons effectué des changements qui concernent la structure des propriétés
(utilisation de la virgule ou des symboles =:, =, utilisation d’une structure différente pour
désigner un trait sémantique et un rôle thématique). Pour les notations qui existent seulement
pour le grec, nous avons utilisé des structures proches de celles adoptées pour les autres
intitulés, pour faciliter leur conversion au format LGLex. Par exemple, au lieu d'utiliser la
notation Pfxεθ-[ek-]/source qu’on utilisait pour exprimer l’ajout du préfixe εθ qui donne la
notion de source, nous avons noté la construction complète N0 εθ-V [ek-] N1 Loc N2 source
qui est conforme aux conventions du Lexique-Grammaire. Dans le tableau ci-dessous, nous
avons regroupé les différentes structures utilisées pour les intitulés dans les tables grecques 7.
Les modifications qui concernent la structure des notations représentent 30% des
changements effectués.
Type d’information
Exemple
1. distribution des arguments (N0, N1, N2)
N2 =: Nhum
2. distribution des prépositions locatives
Loc N2 =: πξνο [pros=vers] N2
3. interprétation des arguments
N0 destination
4. transformation/construction complète
N0 V
5. transformation/construction relative
N1 =: Ppv
6. complément supplémentaire
κε [me=avec] Ν
7. champ lexical
V-adj
8. formation d’une nouvelle entrée
από-V [apó-]
*
combinaison de No 1 et No 7
N0 =: V-n
*
combinaison de No 2 et No 3
Loc N2 =: από [apó=de] N2 source
*
combinaison de No 3 et No 7
V-n instrument
Tableau 1. L'ensemble des structures utilisées dans les tables (colonne 2) selon les différents types d’information
fournis (colonne 1)
Dans ce cadre, nous avons été obligées de supprimer quelques colonnes ayant le même
intitulé dans une même table. Par exemple, plusieurs colonnes intitulées Npred permettaient
de contenir plusieurs noms prédicatifs pour chaque entrée. Nous avons regroupé dans une
même case ces noms prédicatifs en les séparant par des +. À l’intérieur des tables, nous
pouvons donc avoir une structure du type x+y où x et y sont des mots alternatifs. De plus,
parmi les notations spécifiques, le grec étant une langue à cas, nous avons ajouté
l’information du cas collée au nom concerné (p.ex. N0 V θαηά [katá=contre] N2humgenitif).
7
Une documentation sur l'ensemble des propriétés contenues dans la version actuelle des tables est
disponible sur http://users.auth.gr/~kiroanni > Documentation des tables LG.
133
Plus précisément, concernant les cas, nous n’avons pas intégré l’information du cas à tous
les noms, mais seulement si les règles générales de la langue ne sont pas respectées. Comme
règles générales en grec moderne, nous considérons les suivantes :
a. toutes les prépositions introduisent un groupe nominal à l’accusatif (p.ex. από
[apó=de] N0)
b. le sujet de la phrase (N0) se trouve toujours au nominatif
c. le complément d’objet direct (N1) se trouve toujours à l’accusatif
Il arrive souvent que ces règles ne soient pas respectées : il existe des prépositions (θαηά
[katá=contre]) qui exigent un groupe nominal au génitif ; un sujet de la phrase peut être
introduit par une préposition dans le cadre d’une transformation, et alors il se met au cas
qu’exige la préposition (ex. (1)) ; un complément d’objet direct, dans le cadre d’une
transformation, peut prendre la position syntaxique d’un sujet et se mettre au nominatif (ex.
(2)).
(1)
(2)
Το γεγονόρ όηι
μεηάνιωζε
αμθιζβεηείηαι
Le fait qu’
il a regretté
est contesté
από ηον Πέηπο
[apó=par] N0accusatif
par Pierre
Η πόπηα ανοίγει (transformation de la phrase Εγώ ανοίγω ηεν πόπηα)
N1nominatif V
La porte ouvre (transformation de la phrase J’ouvre la porte)
Pour traiter l'exemple (1), nous avons un ordre de priorité pour les trois règles précédentes
(ordre a, b, c), ce qui permet de les appliquer successivement. Ainsi, la deuxième règle sera
appliquée seulement si la première règle n’est pas valable, ce qui signifie que le sujet de la
phrase se trouve au nominatif sauf s’il est précédé d’une préposition. Pour faire face aux
exceptions, nous avons ajouté l’information du cas pour le nom concerné. Nous avons donc
les notations N1nominatif, θαηά [katá=contre] N2humgenitif, etc.
En plus des règles ci-dessus et à cause de la présence de verbes copules et de verbes
transitifs dans les tables, nous avons précisé dans un fichier à part 8 quels sont les verbes qui
sont transitifs et alors exigent un complément d’objet direct à l’accusatif, et quels sont les
verbes copules qui exigent un attribut au nominatif. Ainsi, nous n’avons pas mis ces
informations dans les intitulés des propriétés, car il s’agit d’une information qui ne concerne
pas une construction donnée mais toute construction contenant le verbe en question. Par
contre, dans quelques constructions nous avons mis l’information datif qui n’est pas
exploitable pour le moment, mais qui est une information linguistique que l'on souhaite
garder.
3. En vue de l’exploitation informatique des tables et de l’intégration d’un lexique
syntaxique dans un analyseur syntaxique, il a fallu ajouter quelques informations lexicales qui
étaient implicites dans les tables. Les informations lexicales ajoutées sont la forme que peut
prendre le participe passé (différents cas) selon la structure ou la phrase complétive, la forme
médiopassive du verbe (en grec, le verbe médiopassif est une entrée différente de la forme
active, aussi bien dans les dictionnaires que dans les tables), le participe passé du verbe ainsi
que l’adjectif dérivé du verbe, ayant des suffixes divers (Sfx = ηνο [tos], Sfx = νο [os], Sfx =
ηηθόο [tikós]). Cette modification concerne 9% de l'ensemble des changements dans les tables.
Ces changements sont effectués soit en changeant les intitulés existants (ex. (3) et (4)) , soit
8
Un fichier explicitant les informations implicites dans les tables est disponible sur
http://users.auth.gr/~kiroanni > Documentation des tables LG.
134
en ajoutant une nouvelle colonne avec des champs lexicaux (VP, Vpp et “V-adj, Sfx = ηνο
[tos]”)
(3)
(4)
Loc N2 – Ppv → Loc N2 = Ppv =: (μος+μαρ+ζος+ζαρ+ηος+ηοςρ+ηερ)
[(mou+mas+sou+sas+tou+tous+tis)=(lui+en)]
N1 = Ppv → N1 = Ppv =: (με+μαρ+ζε+ζαρ+ηον+ηοςρ+ηε+ηεν+ηιρ+ηο+ηα)
[(me+mas+se+sas+ton+tous+ti+tin+tis+to+ta)=(le+la+les)]
De plus, étant donné le petit nombre de tables du Lexique-Grammaire pour le grec
moderne, nous avons ajouté provisoirement une colonne intitulée N0 Vsup Npred dans 12
tables pour pouvoir exploiter les verbes supports (Vsup) et les noms prédicatifs (Npred) qui
existent en tant que champs lexicaux dans les tables.
4. Quelques tables grecques du Lexique-Grammaire contenaient déjà les propriétés
définitoires (Voskaki, 2011). En outre, d’autres tables étant intégrées dans une super-table
(Yannacopoulou, 2005), contenaient l'ensemble des propriétés apparaissant dans les autres
tables, même si elles n’étaient pas pertinentes pour la table en question. Pour chaque table,
nous avons enlevé les colonnes avec les propriétés définitoires ainsi que les propriétés non
pertinentes (5% des changements des tables).
5. Enfin, en modifiant les tables, nous sommes tombées sur quelques fautes linguistiques
que nous avons corrigées et qui représentent moins de 1% des modifications des tables.
Regroupons les symboles ajoutés à cause des particularités de la langue grecque :
a. Traits sémantiques : argent, transport. Le trait transport se réfère à tous les noms qui
désignent un moyen de transport (train, avion, etc.) Le trait argent (ex. (5)) se
différencie du trait monnaie car il ne se réfère pas à une unité monétaire (p.ex. francs,
euros) mais à tout ce qui a une valeur, qui correspond à une somme d’argent (p.ex.
subvention, bourse, etc.)
(5)
Propriété : N1 = : Nargent (ππνηξνθία [ypotrofía=bourse]
Entrée acceptant la propriété : επελδύω [ependýo=investir]
Αςηόρ επένδςζε όλε ηεν ςποηποθία ηος ζε ακίνεηα
Il a investi toute sa bourse dans l’immobilier
b. Rôle thématique : moyen-destination (ex. (6)). Il s’agit d’un nouveau rôle thématique
qui est attribué à un complément essentiel locatif (N2) qui désigne à la fois le moyen
et la destination.
(6)
Propriété : Loc N2 =: (κε[me=avec]+ζε[se=à]) N2 moyen-destination
Entrée acceptant la propriété : θξύβω [krývo=cacher]
Αςηόρ κπύβει ηο ψωμί με ηεν πεηζέηα / Αςηόρ κπύβει ηο ψωμί ζηεν πεηζέηα
Il cache le pain avec la serviette / Il cache le pain à la serviette
c. Concernant les phrases complétives, nous avons utilisé la notation Pcomp0 pour
exprimer qu’il s’agit d’une phrase complétive qui a la position syntaxique d’un sujet
(N0) (Kyriacopoulou, 2005). Cette complétive est par ailleurs décrite explicitement
dans d’autres colonnes de la table, comme l'ensemble des complétives, avec une
notation du type Px où x désigne la conjonction qui introduit la phrase en question
(Pλα, Pόηη). Ceci diffère du français, où c'est le mode de la complétive qui est
indiqué : subjonctif ou indicatif (Pind ou Psubj). La raison de cette différenciation est
qu’il existe plusieurs conjonctions qui exigent l’indicatif (Pόηη [óti=que], Pπωο
135
[pos=que], Pαλ [an=si], Pπνπ [pou=que] et Pκήπωο [mípos=si]). Dans un fichier à
part, nous avons mis toutes les conjonctions utilisées dans une phrase complétive avec
leur mode exigé (voir note 7). De plus, contrairement au français, c'est la complétive
(et non l'infinitive) qui peut être contrôlée par le sujet N0 (ex. (7)).
(7)
Ο Πέηπορ
αμελεί
Pierre
néglige
να ηος ηελεθωνήζει
N1 =: να (na=que) V0
de lui téléphoner
Enfin, les complétives peuvent être de plus nominalisées, c’est-à-dire introduites par
ην [to=le] ou ην γεγνλόο [to gegonés=le fait].
d. Quant aux préfixes, ils ont une interprétation différente dans le lexique syntaxique,
selon la structure de l’intitulé qui les contient (Fista, Kyriacopoulou, Martineau &
Voskaki, 2008). Lorsque l'on a un intitulé contenant uniquement le préfixe avec la
lettre V (με-V [kse-]), nous avons vu précédemment (cf. 3.1) qu'il fallait spécifier une
nouvelle entrée constituée du préfixe suivi du verbe (sans tiret), qui accepte le même
ensemble de propriétés et de transformations que le verbe sans préfixe. Lorsqu'ils sont
utilisés dans une construction (p.ex. N0 εθ-V [ek-] N1 Loc N2 source), pour interpréter
le prédicat, il faut ajouter le préfixe à l’entrée verbale dans cette construction
uniquement. De plus, dans une construction, le préfixe peut être ajouté au participe
passé du verbe (Vpp) avec une notation de la forme εθ-Vpp [ek-] (p.ex. N1 είκαη
[eímai=être] με-Vpp [kse-]). Pour interpréter le prédicat dans une telle construction, il
faut ajouter le préfixe au participe passé du verbe qui se trouve dans une colonne
lexicale. Enfin, la notation X-V n'est pas exploitable, mais contient une information
étymologique, indiquant que le verbe est formé d’un préfixe et d'un autre verbe.
4. Table des classes et lexique LGLex
Tout d'abord, toutes les propriétés définitoires vraies pour l'ensemble des entrées de chaque
table (cf. section 2) ont été ajoutées. Au départ, la table des classes contenait 280 propriétés,
incluant les différentes notations. À partir de la génération automatique de la table des classes,
nous avons repéré les erreurs de notation pour les corriger directement dans les tables. La
nouvelle table des classes générée contient 195 propriétés.
Ensuite, le script d'extraction des verbes a été réalisé, comme pour le français (Tolone,
2011). Il spécifie toutes les opérations liées à chaque propriété devant être effectuées pour
toutes les tables. Cela nous a permis de générer, à l'aide de LGExtract (Constant & Tolone,
2010), une première version du lexique LGLex des verbes grecs9, au format texte et XML. Ce
lexique a vocation à décrire les tables avec les concepts manipulés par celles-ci, en un format
directement exploitable dans les applications de TAL. L'une des utilisations informatiques
possibles est la conversion en un autre format, comme cela a été fait pour le français (Tolone
& Sagot, 2011). Dans sa version textuelle, une entrée de LGLex se présente comme suit :
 l'entrée commence par un identifiant indiquant sa catégorie, la table dont il provient et le
numéro de l'entrée dans cette table (ID=catégorie_numTable_numEntrée) ;
 la section lexical-info indique les informations lexicales liées à l'entrée (le lemme et les
prépositions associées à certains arguments) ;
 la section args décrit les distributions des différents arguments, avec éventuellement
d'autres informations (traits sémantiques, mode et contrôle de la complétive, prépositions) ;
 la section all-constructions liste différentes constructions dans lesquelles l'entrée peut
9
Le lexique LGLex des verbes grecs sera disponible ultérieurement sur http://www-igm.univmlv.fr/~ressourcesgrec.
136
prendre part (soit nommées de façon complète avec tous les éléments dans l'ordre, soit des
transformations à partir de construction de base) ;
 la section example illustre l'entrée.
Voici par exemple, le verbe βγάδω [bgázo=sortir] (ex. (8)) de la table 32GL qui a pour
construction de base N0 V N1 Loc N2 source Loc N3 destination, dont l’argument N2 est
introduit par la préposition από [apó=de] et dont l’argument N3 est introduit par ζε [se=à].
Le N0 est humain et le N1 et N2 concrets, le N1 pouvant se pronominaliser en le+la+les. Les
constructions montrent que les arguments N2 et N3 sont effaçables. Enfin, le verbe préfixé
μαλαβγάδω [ksanabgázo=resortir] (ex. (9)) accepte les mêmes propriétés (voir dans l'extrait
suivant le champs pfx-V) :
(8)
Έβγαλε
N0 V
Il a sorti
ηο γάλα
N1 concret
le lait
από ηο ψςγείο
από [apó=de] N2 source
du frigo
(9)
Ξαναέβγαλε
N0 ξανα- V
Il a re-sorti
ηο γάλα
N1 concret
le lait
από ηο ψςγείο
από [apó=de] N2 source
du frigo
ID=V_38GL_33
lexical-info=[cat="verb",verb=[lemma="βγάδω"],pfx-V=(verb="ξαναβγάδω"),
prepositions=(),locatifs=(locatif=[id="2",list=(prep="από")],
locatif=[id="3",list=(prep="ζε")])]
args=(const=[pos="0",dist=(comp=[cat="NP",hum="true",introd-prep=(),introd-loc=(),
origin=(orig="N0 =: Nhum")])],
const=[pos="1",dist=(comp=[cat="NP",conc="true",introd-prep=(),introd-loc=(),
origin=(orig="N1 =: Nconc")])])
const=[pos="2",dist=(comp=[cat="NP",conc="true",introd-prep=(),introd-loc=(),
origin=(orig="N2 =: Nconc")])],
all-constructions=[absolute=(construction="true::N0 V N1 Loc N2 source Loc N3 destination",
construction="o::N0 V N1 Loc N2 source (E+Loc N3 destination)",
construction="o::N0 V N1 (E+Loc N2 source) Loc N3 destination"),
relative=(construction="N1 = Ppv =: (με+μαρ+ζε+ζαρ+ηον+ηοςρ+ηε+ηεν+ηιρ+ηο+ηα)",
construction="παπα-V")]
example=[example=]
5. Conclusion
L'objectif est d'homogénéiser, corriger et compléter les données pour l'ensemble des tables du
Lexique-Grammaire du grec, y compris les tables des noms prédicatifs. Une fois ces tables
syntaxiques corrigées, elles seront converties au format LGLex, afin d'être exploitables dans
des analyseurs syntaxiques.
Pour compléter les tables du lexique-grammaire des verbes grecs, il reste beaucoup à faire.
En effet, il manque encore des entrées verbales à classifier (par exemple les verbes non
transitifs) et la table des classes reste à coder avec les signes + et -. Les conventions de
notation détaillées dans cet article seront à prendre en compte lors de la création de futures
tables afin de garder l'ensemble cohérent. Puis, nous devons étendre notre travail aux noms
prédicatifs, dont la modification des tables est déjà en cours. Ensuite, nous pourrons envisager
la conversion du lexique LGLex au format Alexina, le format du lexique Lefff (Tolone &
Sagot, 2011). Enfin, si l'on souhaite utiliser ce lexique syntaxique dans un analyseur
syntaxique, il faudra adapter la méta-grammaire FRMG (Thomasset & de la Clergerie, 2005)
du français à celle du grec, comme cela a été fait pour l'espagnol (Fernandez, 2010).
137
Références
Boons, J.-P., Guillet, A. & Leclère, C. (1976a). La Structure des Phrases Simples en Français, Constructions
intransitives. Genève, Librairie Droz.
Boons, J.-P., Guillet, A. & Leclère, C. (1976b). La Structure des Phrases Simples en Français, Classes de
Constructions Transitives. Rapport de recherches No 6. Paris, Université de Paris 7.
Constant, M. & Tolone, E. (2010). A generic tool to generate a lexicon for NLP from Lexicon-Grammar tables.
In Michele De Gioia, editor, Actes du 27e Colloque international sur le lexique et la grammaire (L'Aquila,
10-13 septembre 2008). Seconde partie. Volume 1 of Lingue d'Europa e del Mediterraneo, Grammatica
comparata, pages 79-93. Aracne.
Fernández González, D. (2010). Cadena de procesamiento lingüístico para el español. Mémoire de D.E.A.,
Université de Vigo, Espagne.
Fista, E. (2007). Μέζνδνο απηόκαηεο αλαπαξάζηαζεο πξνζεκαηνπνηεκέλωλ θαη ζύλζεηωλ ξεκάηωλ ηεο Νέαο
Ειιεληθήο. Thèse de doctorat, Université Aristote de Thessalonique.
Fista, E., Kyriacopoulou, T., Martineau, C. & Voskaki, R. (2008). Les verbes préfixés en grec moderne : le
préfixe ζςν. Actes du 27ème Colloque International sur le Lexique et la Grammaire. L’Aquila, Italie :
Università degli Studi dell’Aquila - Universté Paris-Est.
Gross, M. (1975). Méthodes en syntaxe. Paris: Hermann.
Ioannidou, K. & Kyriacopoulou, Τ. (2010). Lexique-grammaire des verbes en grec moderne : Ambiguités
formelles et analyse des textes. Actes du 29ème Colloque International sur le Lexique et la Grammaire, pp.
151-160. Belgrade, Serbie : Faculty of Mathematics of University of Belgrade.
Kyriacopoulou, T. (2005). L’analyse automatique des textes écrits : le cas du grec moderne. Thessalonique:
University Studio Press.
Kyriacopoulou, T. (2010). Lexique-Grammaire des verbes en grec modernes : bilan et perspectives. Cahiers du
CENTAL, 6:18. Mélanges en hommage à Christian Leclère.
Kyriakopoulou, A. (2011). Les noms composés de type N (E+Det:G) N:G en grec moderne. Thèse de doctorat,
Université Paris-Est.
Sfetsiou, V. (2007). Καηεγνξεκαηηθά νλόκαηα: κέζνδνο αλάιπζήο ηνπο γηα ειεθηξνληθέο εθαξκνγέο. Thèse de
doctorat, Université Aristote de Thessalonique.
Thomasset, F & de La Clergerie, É. (2005). Comment obtenir plus des Méta-Grammaires, Actes de la
Conférence sur le Traitement Automatique des Langues Naturelles. Dourdan, France.
Tolone, E. (2009). Les tables du Lexique-Grammaire au format TAL. Actes de la 7ème Manifestation des Jeunes
Chercheurs en Sciences et Technologies de l’Information et de la Communication, Avignon, France.
Tolone, E., Voyatzi S. & Leclère C. (2010). Constructions définitoires des tables du Lexique-Grammaire. Actes
du 29ème Colloque International sur le Lexique et la Grammaire, pp. 321-331. Belgrade, Serbie : Faculty of
Mathematics of University of Belgrade.
Tolone, E. (2011). Analyse syntaxique à l’aide des tables du Lexique-Grammaire du français. Thèse de doctorat,
Université Paris-Est, 326 pp.
Tolone, E. & Sagot, B. (2011). Using Lexicon-Grammar tables for French verbs in a large-coverage parser. In Z.
Vetulani, editor, Human Language Technology, Forth Language and Technology Conference, LTC 2009,
Poznán, Poland, November 2009, Revised Selected Papers. Lecture Notes in Artificial Intelligence. Springer
Verlag. À paraître.
Voskaki, O. (2011). Le lexique-grammaire des verbes du grec moderne : Constructions transitives non locatives
à un complément d’objet direct. Thèse de doctorat, Université Paris-Est.
Voyatzi, S. (2006). Description morpho-syntaxique et sémantique des adverbes figés en vue d'un système
d'analyse automatique des textes grecs. Thèse de doctorat, Université Marne-la-Vallée.
Voyatzi, S. & Kakoyianni-Doa, F. (2010). The electronic dictionary of Modern Greek adverbs. In: 30th Annual
Meeting of the Department of Linguistics, Faculty of Philology, Aristotle University of Thessaloniki, Studies
in Greek Linguistics, 149 pp.
Yannacopoulou, A. (2005). Le lexique-grammaire des verbes du grec moderne : les constructions transitives
locatives standard. Thèse de doctorat, Université de Marne-la-Vallée.
138
Khemakhem Aïda
Gargouri Bilel
Hammadou Abdelmajid Ben
Laboratoire MIRACL
Laboratoire MIRACL
Laboratoire MIRACL
[email protected]
[email protected]
[email protected]
MODÉLISATION SYNTAXICO-SÉMANTIQUE NORMALISÉE POUR LA
LANGUE ARABE
Résume
Le présent travail entre dans le cadre de la construction d’une ressource lexicale à large échelle
pour la langue Arabe selon la norme LMF-ISO 24613. Dans ce papier, nous focalisons sur la
modélisation syntactico-sémantique en apportant une solution appropriée à la flexibilité
syntaxique de l’Arabe. Ainsi, nous traitons la variation des cadres de sous catégorisation des
verbes et des particules fonctionnelles. Aussi, nous mettons l’accent sur les traits et les
prédicats sémantiques ainsi que sur les correspondances syntactico-sémantiques.
Mots-clés : modélisation, arabe, LMF, sous-catégorisation, prédicat sémantique.
1 Introduction
La construction des lexiques grammaires à large échelle a toujours été une préoccupation de la
part des chercheurs en Traitement des Langues. Ainsi, plusieurs travaux relatifs à des langues
différentes sont apparus, parmi lesquels nous citons les tables du LADL (Gross, 1975),
DICOVALENCE (van den Eynde & Mertens, 2006) et Lefff (Sagot, 2010). Dans ce genre de
lexique, les informations syntactico-sémantiques apparaissent comme étant la partie la plus
difficile à modéliser compte tenu de la richesse et la flexibilité des langues naturelles. Ainsi, les
lexiques grammaires ne cessent d’évoluer et de devenir complexes et volumineux. En vue
d’apporter un cadre unifié pour la modélisation des ressources lexicales, d’une manière
générale, et de faciliter leur échange et leur intégration dans les applications, des concepts et
standards de représentation de ces informations, notamment Data Categories Registry (DCR)
[www.isocat.org] et Lexical Markup Framework (LMF) (Francopoulo & al, 2006) sont
proposés. Ces normes couvrent tous les niveaux des langues, notamment la composante
syntactico-sémantique.
En ce qui concerne la langue arabe, il y a eu des tentatives de création les lexiques
syntaxiques tels que ElixirFM (Bielický & Smrz, 2009), (Loukil & al, 2008) et (Al-Qahtani,
2005) mais aucun d’entre eux ne combine de façon satisfaisante les trois types d’information
lexicale de base, à savoir morphologique, syntaxique et sémantique. En plus, chacun des
travaux réalisés utilise ses propres concepts indépendamment des normes. La proposition de
Loukil s’est référée à LMF mais à sa révision 9 avant que cette norme ne soit publiée
officiellement dans sa révision 16.
Par ailleurs, nous disposons au sein de notre équipe d’un Dictionnaire Arabe Normalisé
[http://www.almuajam.org] (Baccar & al 2008) qui fournit une structure raffinée de l’entrée
lexicale surtout aux niveaux morphologique (i.e., lemme, schème, relation morphologique) et
sémantique (i.e., définition, contexte, exemple, relation sémantique). La version actuelle de ce
dictionnaire comporte plus que 37 000 entrées lexicales.
Ainsi, dans le cadre des travaux de construction du dictionnaire normalisé de l’Arabe, nous
visons intégrer les propriétés syntactico-sémantiques afin d’offrir une précision accrue pour les
139
applications de Traitement Automatique de la Langue Naturelle (TALN). Nous traitons la
variation des sous catégorisations des verbes et des particules fonctionnelles. Aussi, nous
mettons l’accent sur les traits et les prédicats sémantiques ainsi que sur les correspondances
syntactico-sémantiques.
Tout d’abord, nous présentons un aperçu sur les travaux actuels autour de la construction des
lexiques grammaires. Ensuite, nous spécifions les propriétés lexicales syntaxiques pour la
langue arabe, le modèle approprié et les critères de variation des sous-catégorisations des
verbes et des particules fonctionnelles. Enfin, nous détaillons les propriétés nécessaires,
notamment les prédicats sémantiques, pour le développement d’un modèle syntacticosémantique assez fin.
2 L’état de l’art
L’organisation et la réutilisation des propriétés syntactico-sémantiques sont parmi les tâches les
plus difficiles dans les applications de traitement des langues naturelles. Ce qui a engendré
l’apparition de plusieurs travaux, nous citons, pour la langue française, DICOVALENCE (van
den Eynde & Mertens, 2003), les tables du lexique-grammaire (Gross, 1975) et Lefff1. Ce
dernier lexique est développé sur la plateforme Alexina2 pour la modélisation et l’acquisition
des lexiques qui couvrent les deux niveaux morphologique et syntaxique. Notons qu’Alexina
est compatible avec la norme LMF (Sagot, 2010).
Pour la langue arabe il y a eu des tentatives de création de lexiques syntaxiques tels que le
lexique ElixirFM (Bielický & Smrž, 2009) et (Loukil & al, 2008). Le lexique ElixirFM est un
lexique morphologique enrichi par les cadres de valence verbale en se basant sur des arbres de
dépendance. Le lexique de Loukil, qui est conforme à la version 9 de la norme LMF, classe les
verbes selon les critères suivants : besoin de compléments, besoin de particule et le nombre de
compléments. Cependant, jusqu’à présent, il n’existe aucune ressource qui combine de façon
satisfaisante les trois types d’information lexicale (morphologique, syntaxique et sémantique)
tout en étant facile à réutiliser dans les applications de TALN.
3 Les propriétés lexicales syntaxiques de la langue arabe
Les propriétés syntaxiques servent à décrire les entrées lexicales et de préciser leur contexte
d’utilisation. Ces propriétés décrivent principalement le cadre de sous-catégorisation qui
présente les arguments et les prépositions appropriées. Les informations concernant la souscatégorisation sont idiosyncratiques c’est-à-dire elles ne peuvent pas être prédites et elles
doivent, de ce fait, figurer dans le lexique. Pour la langue arabe, les phrases se caractérisent par
une syntaxe très flexible (maniable), c'est-à-dire on peut modifier la position de certains
constituants d’une phrase (i.e., les compléments, topique/attribut) sans modification du sens
général. Il y a deux types de phrase : soit verbale qui commence par un verbe complet « ‫األفعال‬
‫( » انتَّا َية‬1), soit nominale qui commence par un nom (2). Néanmoins, la phrase nominale peut
débuter par un NaAsax « ‫ » ََا َسخ‬qui est soit un verbe déficient « ‫( » فِعم ََّاقِص‬4), soit une particule
fonctionnelle « ‫( » َحرف َعا ِيم‬3) sachant qu’elle est formée par un topique « ‫ » ُيثتَذَأ‬et un attribut
« ‫» َخثَر‬. Nous présentons dans les exemples suivants une phrase verbale et trois phrases
nominales qui illustrent les cas 1,2 3 et 4 cités ci-dessus.
)1(
‫ض ان َونَ ُذ‬
َ ‫َي ِر‬
mariDa Alwaladu
Le garçon est malade
(2)
‫ان َونَ ُذ َي ِريط‬
Alwalada mariyDũ
Le garçon est malade
(3)
‫إِ ٌَّ ان َونَ َذ َي ِريط‬
Ǎn~a Alwalada mariyDũ
Il insiste que le garçon est malade
1
Le Lefff est distribué sous licence LGPL-LR. Voir http://alpage.inria.fr/∼sagot/lefff.html
2
https://gforge.inria.fr/projects/alexina
140
(4)
‫ضا‬
ً ‫َكاٌَ ان َونَ ُذ َي ِري‬
kaAna Alwaladu mariyDAã
Le garçon était malade
A travers ces exemples, nous constatons la flexibilité des phases arabes et l’influence des
NawaAsix sur les phrases nominales. La première phrase est verbale qui se base sur un verbe
complet, ensuite nous présentons la même idée dans le deuxième exemple mais sans utilisation
d’un verbe et dans ce cas la phrase est nominale. Ce type de phrase peut être débuté par
NaAsax qui influence ses arguments (son topique et son attribut) comme les exemples (3) et
(4). Ainsi, nous pouvons conclure que la présence d’un NaAsax peut influencer les arguments
de la phrase nominale. En plus, il y a quelques autres particules fonctionnelles qui ne sont pas
de nature NaAsax et qui peuvent modifier le verbe et le nom qu’elles précédent ‫ نَى‬/lam/ et ‫فِي‬
/fiy/. Pour cette raison, nous devons concevoir dans le lexique les connaissances syntaxiques de
chaque NaAsax (quelques particules fonctionnelles et les verbes déficients) et les particules
fonctionnelles.
4 La modélisation syntaxique pour la langue arabe
Nous rappelons tout d’abord que nous travaillons sur le Dictionnaire Arabe Normalisé (Baccar
& al, 2008) qui couvre les informations morphologiques et quelques connaissances
sémantiques telles que le sens, les exemples et les synonymes. Le modèle de ce dictionnaire est
conforme à la norme LMF et il est composé d’un noyau obligatoire et des extensions
optionnelles. Chaque extension se greffe sur le noyau et regroupe les classes et les attributs
d’un seul niveau linguistique.
4.1 Le modèle syntaxique normalisé
Pour modéliser le niveau syntaxique dans ce dictionnaire arabe, nous choisissons les classes
nécessaires à partir de l’extension syntaxique. Nous représentons les comportements
syntaxiques des entrées lexicales arabes par la classe SubcategorizationFrame pour chaque
cadre de sous-catégorisation (CSC). Cette classe est composée par un ensemble de
SyntacticArgument pour présenter les arguments du prédicat de ce cadre et une classe
Lexemeproperty qui regroupe les caractéristiques de ce prédicat sachant que le prédicat est un
élément obligatoire, non supprimable et autour duquel s’organise le reste de l’énoncé. En plus,
chaque CSC est caractérisé par un identifiant et un type. Ce cadre sera lié aux sens concernés
en utilisant la classe "Syntactic Behaviour". Par exemple, dans (5), le prédicat «‫َة‬
َ ‫ » َكت‬prend
deux arguments syntaxiques, l’un est réalisé en position agent « ‫» فَا ِعم‬, l’autre en position
complément d’objet « ‫» َيفعُول تِ ِه‬.
)5(
ُ‫َة ان َونَ ُذ دَر َسه‬
َ ‫َكت‬
Kataba Alwaladu darsahu
Le garçon a écrit sa leçon
Dans la Figure 1, nous présentons le comportement syntaxique du verbe « ‫َة‬
َ ‫ » َكت‬dans la
phrase (5). Nous signalons qu’un CSC peut être valable pour plusieurs entrées lexicales, pour
cette raison il appartient au Lexicon. Nous utilisons la classe SyntacticBihaviour pour relier le
cadre et les sens convenables d’une entrée lexicale. Le cadre présenté dans cet exemple est à la
voix active qui est spécifiée dans Lexeme Property.
141
: Lexicon
: Lemma
writtenForm="ٌ‫" اك اتبا‬
: Lexical Entry
id="‫ك‬3"
: Sense
id="‫ك‬3P1
"
: Syntactic Behaviour
id="‫ك‬3C2
: Subcategorisation Frame
type= " ‫" متعدي بحرف‬
: Lexeme Property
voice= "activeVoice"
: Syntactic Argument
syntacticFonction= «‫» فَا ِعم‬
: Syntactic Argument
syntacticFonction= «‫» َيفعُول ِت ِه‬
introducer = "ٌ‫ب‬
ِ "
Figure 1: Exemple de présentation d'un comportement syntaxique de l’EL «َ‫» َكت ََب‬
i
Nous signalons que dans la plupart des langues, le verbe est le prédicat de la phrase. Mais
pour la langue arabe, nous avons à part les verbes complets, les particules fonctionnelles et les
verbes déficients (voir section 4.2.2) qui sont considérés comme des prédicats.
4.2 Les critères de variation des CSC
Pour inventer les cadres de sous-catégorisation, nous allons étudier la variation des CSC selon
le type du prédicat (i.e., verbe complet, verbes déficient et particule fonctionnelle). Ensuite,
nous spécifions leurs critères de variation pour guider les lexicographes lors de l’acquisition
des informations.
4.2.1 Les verbes complets
Dans des travaux antérieurs tels que Loukil (Loukil & al 2008), le comportement syntaxique
des verbes complets est défini selon trois critères : le besoin en complément (transitif ou
intransitif), le nombre de compléments (un, deux ou trois) et le besoin des particules qui
influencent la nature du complément (Complément d’Objet Direct «COD» ou Complément
Objet Indirect « COI »). Ces critères sont intéressants pour définir les types des comportements
syntaxiques qui sont présentés dans le tableau 1, mais ils ne sont pas suffisants pour donner une
structure argumentale fine pour ceux-ci.
Traduction en français
Arabe
ٌ‫فِعْ لٌٌ اَل ِزم‬
Verbe intransitif
ٌ‫فِعْ لٌٌ ُم ات اعدِيٌلِ ام ْفعُولٌٌ اواحِدٌٌ ِب ان ْفسِ ِه‬
Verbe transitif exigeant un complément direct
ٌ‫ْن‬
ِ ‫فِعْ لٌٌ ُم ات اعدِيٌلِ ام ْفعُولاي‬
ٌ ِ‫ٌِفعْ لٌٌ ُم ات اعدِيٌلِ اث اَل اث ٌِةٌ ام افاع‬
‫يل‬
Verbe transitif exigeant deux compléments directs
Verbe transitif exigeant trois compléments directs
ٌ‫فِعْ لٌٌ ُم ات اعدِيٌلِ ام ْفعُولٌٌ ِب اواسِ اط ٌِةٌأا اداة‬
Verbe transitif exigeant un complément avec particule
ٌ‫ْنٌأاحا ُد ُهمااٌٌِبأ ا اداة‬
ٌِ ‫فِعْ لٌٌ ُم ات اعدِيٌلِ ام ْفعُولاي‬
Verbe transitif exigeant deux compléments, l’un avec particule
ٌ‫ْن‬
ٌِ ‫فِعْ لٌٌ ُم ات اعدِيٌلِ ام ْفعُولاي‬
ِ ‫ْنٌ ِب اواسِ اط ٌِةٌأادا ا اتي‬
Verbe transitif exigeant deux compléments chacun avec particule
Verbe transitif exigeant trois compléments: le premier direct et les
autres sont avec particule
ٌ‫ْن‬
ِ ‫فِعْ لٌٌ ُم ات اعدِيٌلِ اث اَلاٌث ٌِةٌ ام افاعِ يلٌٌ ِب اواسِ اط ٌِةٌأاداا اتي‬
Tableau 1: Les types du CSC des verbes complets
142
Pour améliorer la description des comportements syntaxiques, nous ajoutons deux autres
critères : la voix du verbe (active ou passive) et le choix de la particule (‫ فِي‬/fiy/, ‫ب‬
ِ /bi/, ‫َحتَّى‬
/Hat~aA/,…) qui influence le choix des arguments du CSC.
Pour justifier ces choix, nous présentons les exemples suivants.
)6(
ُ‫ دَر َسه‬/ ‫ ان َونَ ُذ‬/ ‫َة‬
َ ‫َكت‬
kataba Alwaladu darsahu
Le garçon a écrit sa leçon
(7)
‫ تِانقَهَ ِى‬/ ‫ ان َونَ ُذ‬/ ‫َة‬
َ ‫َكت‬
kataba Alwaladu biAlqalami
Le garçon a écrit avec un crayon
(8)
‫ف‬
َ ِ‫ُكت‬
ِ ‫ فِي انصُّ ُح‬/ ‫ ان َخثَ ُر‬/ ‫ة‬
kutiba Alxabaru fiy AlS~uHufi
L’information est écrite dans les
journaux
Ces quatre exemples comportent trois parties principales. La première partie est le verbe qui
peut être à la voix active ou passive. Si la voix est active la deuxième partie sera l’agent ( ‫)انفَا ِعم‬
si la voix est passive la deuxième partie sera le pro-agent (‫)ََائِة انفَا ِعم‬. La troisième partie
regroupe zéro, un, deux ou trois compléments. Ces compléments peuvent être directs comme
(6) et peuvent être indirects comme (7 et 8) c'est-à-dire ils sont précédés par une particule (‫ب‬
ِ ou
‫)فِي‬.
4.2.2 Les verbes déficients
Les verbes déficients précédent les phrases nominales et modifient la déclinaison de leurs
arguments en particulier son attribut (‫ )ان َخثَر‬tels que « ٌَ‫ » َكا‬et « ‫» ظَ َّم‬. Pour les comportements
syntaxiques ces verbes, nous utilisons deux critères de variation qui sont la nature (topique
« ‫ » ُيثتَذَأ‬ou attribut « ‫ )» خَ ثَر‬et le mode (nominatif, génitif) des arguments. Dans les exemples
suivants, nous justifions le choix de ces critères.
)9(
‫ َج ًِيم‬/ ُ‫ انطَّقس‬AlTaqsu jamiylũ
Le temps est beau
(10)
ً ًِ ‫ َج‬/ ُ‫ انطَّقس‬/ ٌَ‫ َكا‬kaAna AlTaqsu jamiylã
‫يل‬
Le temps a été beau
(11)
ً ًِ ‫ َج‬/ ُ‫ انطَّقس‬/ ‫ ظَ َّم‬Ďal~a AlTaqsu jamiylã
‫يل‬
Le temps reste beau
Dans l’exemple (9), représentant une phrase nominale sans NaAsix, nous signalons que le
topique et l’attribut sont nominatifs (marqués par des cercles verts). Dans les exemples (10) et
(11), la modification touche l’attribut, c'est-à-dire la troisième partie, à cause des verbes
déficients ٌَ‫ َكا‬et ‫ ظَ َّم‬qui sont considérés comme NaAsix.
4.2.3 Les particules fonctionnelles
Il y a deux types de particule fonctionnelle et non fonctionnelle qui n’influence pas les mots
qu’elle précède. Les particules fonctionnelles influencent les mots qu’elle précède notamment
les verbes, les substantifs et les phrases nominales. Pour les comportements syntaxiques des
particules fonctionnelles, nous utilisons deux critères : la nature (verbe, substantif, topique ou
attribut) et le mode des arguments.
- Pour les verbes : il y a des particules qui modifient leur mode : subjonctif (‫)انًُصوب‬, apocopé
(‫)انًجسوو‬.
)12(
ُ‫ دَر َسه‬/ ‫ة‬
Il n’écrira pas sa leçon
َ ُ‫ يَكت‬/ ٍَ‫ ن‬lan yaktuba darsahu
(13)
ُ‫ دَر َسه‬/ ‫ يَكتُة‬/ ‫ نَى‬lam yaktub darsahu
Il n’a pas écrit sa leçon
Dans ces deux exemples, l’aspect du verbe est inaccomplie mais les particules qui le
précédent influencent son mode : dans l’exemple (12) le mode du verbe est le subjonctif et dans
l’exemple (13) le mode du verbe est l’apocopé.
- Pour les noms : il y a des particules qui modifient leur flexion casuelle : accusatif (‫)انًجرور‬
ُ ‫ َكتَث‬Katabtu darsiy fiy Almanzili J’ai écrit ma leçon dans la maison
)14( ‫ فِي ان ًَُ ِس ِل‬/ ‫ دَر ِسي‬/ ‫ث‬
143
Dans la troisième partie de cet exemple, nous avons la particule ‫ فِي‬et un nom que sa flexion
casuelle est l’accusatif puisqu’il est précédé par cette particule.
- Pour les phrases nominales : il y a des particules qui modifient la déclinaison de leurs
arguments (topique et attribut) : soit elle rend le topique au génitif (‫ )يُصوب‬et l’attribut au
nominatif, soit elle rend le topique au nominatif et l’attribut génitif. Ces particules sont
considérées comme un Nâsish (‫)ََا ِسخ‬.
)15(
‫ َج ًِيم‬/ ‫س‬
Certainement le temps est beau
َ ‫ انطَّق‬/ ٌَّ ِ‫ إ‬Ǎin~a Taqsa jamiylũ
(16)
ً ًِ ‫ َج‬/ ُ‫ انطَّقس‬/ ‫ َيا‬maA Taqsa jamiylã
‫يل‬
Le temps n’est pas beau
Dans les deux exemples précédents, nous présentons les modifications qui peuvent être
engendrées par les particules. Pour l’exemple (15), la modification touche la deuxième partie
(topique) à cause de la particule ٌَّ ِ‫إ‬. Dans l’exemple (16), la modification touche la troisième
partie (attribut) à cause de la particule ‫ َيا‬.
5 Les propriétés syntactico-sémantiques
Pour lexicaliser les propriétés syntactico-sémantiques, nous devons organiser les traits
sémantiques, les prédicats sémantiques et les correspondances syntactico-sémantiques. Notons
que, les traits sémantiques sont des informations spécifiques à un sens donné. Les autres
propriétés décrivent les contraintes sémantiques de l’environnement.
Pour la langue arabe, à nos connaissances il n’y a pas eu de travaux qui spécifient les
propriétés syntactico-sémantiques appropriées. En ce qui nous concerne, nous dressons la liste
des traits et les rôles thématiques en se basant sur les consensus existants pour les autres
langues tels qu’Eaglse (EAGLSE, 1996), Genelex (GENELEX, 1993) et (GENELEX, 1994).
5.1 Les traits sémantiques
L’utilisation des traits sémantiques permet une description fine des sens des mots et c’est un
moyen pour contraindre la sélection des arguments. Ces traits expriment différents types
d’informations. Dans notre modèle, nous utilisons les trois types de traits : classe majeure,
sous-classe sémantique et le domaine. Sachant que nous utilisons ces traits au niveau des sens
pour spécifier leurs descriptions et au niveau des arguments prédicatifs pour contraindre leurs
arguments. En procédant de la sorte, nous serons capables d’assurer la vérification sémantique
par des contraintes de filtrage.
Pour la classification générale des substantifs, nous utilisons la liste dressée par G. Gross
(Gross 1994) qui comprend huit valeurs que nous présentons avec une traduction pour la langue
arabe : humain "‫"عَاقم‬, animal "ٌ‫" َحيَ َوا‬, végétal "‫"ََثَات‬, inanimé concret "‫" َج ًَاد‬, inanimé abstrait
"‫" ُي َجرَّد‬, locatif "ٌ‫" َي َكا‬, temps "ٌ‫" َز َيا‬, événement "‫" َحذَث‬. La liste des sous-classes sémantiques et
la liste des domaines sont ouvertes. Par exemple, pour la première liste nous citons : vêtement,
fruit, etc. et pour la deuxième nous citons : médicale, politique etc.
5.2 Rôle thématique
A cause de la précision accrue exigée par les machines, nous décorons chaque argument du
prédicat par un rôle thématique. Dans cette optique, nous avons étudié les anciens travaux,
notamment Eagles (EAGLES 1994) et Genelex (GENELEX, 1994). Ainsi, nous utilisons une
liste formée par les valeurs suivantes : agent, patient, expérienceur, thème, location, source, but,
instrument et moyen.
5.3 Le prédicat sémantique
Un prédicat sémantique décrit une situation dans la langue. Il comprend un certain nombre
d’actants ou d’arguments sémantiques qui jouent un certain rôle dans la situation décrite. Au
144
niveau lexical, nous décrivons chaque prédicat par le nombre d’arguments, le rôle thématique
de chacun d’eux, ainsi que les traits sémantiques qui leur sont associés (la classe sémantique en
particulier). En plus, pour donner l’ordre global des arguments, nous utilisons le schéma du
prédicat qui est formé par des paramètres (i.e., A, P, D). Par exemple, un schéma prédicatif du
verbe "‫َة‬
َ ‫ " َكت‬dans le cas de la phrase (7) est <V A ‫ب‬
ِ D>. Le paramètre A représente le premier
argument du verbe qui appartient à la classe sémantique = humain et son rôle thématique =
agent. Le deuxième paramètre D est débuté par la particule ‫ب‬
ِ et il appartient à
la classe sémantique : inanimé concret et son rôle thématique = instrument.
6 La modélisation syntaxico-sémantiques pour la langue arabe
Malgré la difficulté de représenter les propriétés syntaxico-sémantiques par des formules à la
fois complètes et satisfaisantes pour tous les systèmes et toutes les théories, la norme LMF
propose un méta-modèle assez fin pour représenter ces propriétés. Nous choisissons les classes
nécessaires à partir de l’extension sémantique de cette norme. Nous présentons le prédicat
sémantique des sens à travers la classe "SemanticPredicate" qui est caractérisée par un
identifiant, un exemple et un label qui représente le prédicat. Cette classe est composée par des
arguments sémantiques qui caractérisent le prédicat en question et une définition. En plus, nous
assurons la connexion entre les niveaux syntaxique et sémantique par la classe "Predicative
Representation" qui relie un comportement syntaxique, un prédicat sémantique et leur
correspondance "SynSemCorrespondence" comme le montre la Figure 2 suivante.
Figure 2: Exemple de représentation de la correspondance syntaxico-sémantique
Dans cette Figure, nous reprenons l’exemple déjà décrit dans la partie syntaxique (Figure 1)
et nous ajoutons le prédicat sémantique correspondant qui est composé de deux arguments
sémantiques SemanticArgument. Le premier a le thematic role = Agent et la semantic class=
human. Le deuxième argument a le thematic role = instrument et la semantic class = inanimate
Concrete. En plus, nous relions ces arguments sémantiques par leurs correspondants
syntaxiques. Ainsi, la spécification des traits sémantiques au niveau de chaque argument joue
un rôle à la fois de filtrage, de vérification de compatibilité et d’enrichissement de la
représentation sémantique.
145
7 Conclusion et perspectives
Dans ce travail, nous avons profité de l’extensibilité offerte par la norme LMF pour étendre le
Dictionnaire Arabe normalisé par la modélisation des propriétés syntactico-sémantiques. Le
modèle proposé est assez fin et supporte les cadres de sous-catégorisation, les prédicats
sémantiques ainsi que leurs correspondances. Pour inventorier ces propriétés, nous avons
dressé la liste des critères de variation des CSC pour les verbes complets et déficients et les
particules fonctionnelles. Aussi, nous avons fixé une première version des listes des traits
sémantiques et des rôles thématiques qui peuvent être étendues dans le futur. Cette
modélisation constitue un enrichissement des travaux antérieurs notamment ceux de Loukil &
al et elle ouvre des nouveaux horizons par l’intégration des propriétés syntactico-sémantiques
dans les applications de TALN.
Dans les travaux futurs, nous comptons compléter cette modélisation en étudiant les critères
de variation des comportements syntaxiques des substantifs qui peuvent parfois remplacer le
verbe dans la phrase. En plus, nous envisageons proposer une démarche d’alimentation de ce
dictionnaire d’une façon automatique.
Références
Al-Qahtani D.M. (2005), Semantic Valence of Arabic Verbs. Beirut: Libraire du Liban Publishers.
Baccar, F., Khemakhem, A., Gargouri, B., Haddar, K. & Ben Hamadou, A. (2008). LMF standardized
model for the editorial electronic dictionaries of Arabic, NLPCS’08, 12-13 Juillet 2008, Barcelone,
Espagne.
Bielický V. & Smrž O. (2009), Enhancing the ElixirFM Lexicon with Verbal Valency Frames. In
Proceedings of the Second International Conference on Arabic Language Resources and Tools
(MEDAR 2009), Cairo, Egypt.
EAGLES. (1996). Reports of the Computational Lexicons Working Group. Internal Report.
Francopoulo, G., George, M., Calzolari, N., Monachini, M., Bel, N., Pet, M. & Soria, C.
(2006). Lexical Markup Framework (LMF). " In: Proceedings of LREC-2006.
Gardent C., Guillaume B., Perrier G., FALK I. (2005), Maurice Gross' Grammar Lexicon and Natural
Language Processing. Proceedings of the 2nd Language and Technology Conference, Poznan,
Poland.
GENELEX (1993). Projet Eureka GENELEX. Rapport sur la couche syntaxique, Rapport Technique
Version 4.0, ASSTRIL, GSI-ERLI, IBM France and Sema Group, Paris.
GENELEX, Consortium (1994). Projet EUREKA GENELEX. Rapport sur la couche sémantique,
Rapport Technique Version 2.1, ASSTRIL, GSI-ERLI, IBM France, Sema Group.
Gross G. (1994), Classes d’objets et description des verbes, Langages, 115, 15-30.
Gross M. (1975), Méthodes en syntaxe : Régimes des constructions complétives. Hermann, Paris,
France.
Karel van den Eynde and Piet Mertens. (2006), Le dictionnaire de valence DICOVALENCE : manuel
d’utilisation. http://bach.arts.kuleuven.be/dicovalence/manuel 061117.pdf.
Louki N., Haddar K. & Ben Hamadou A. (2008). Towards a syntactic lexicon of Arabic verbs, LREC,
2008.
Sagot B. (2010), The lefff, a freely available and large-coverage morphological and syntactic lexicon for
french. Actes du 7ème Language Resource and Evaluation Conference LREC’10, La Valette, Malte.
146
Kyriacopoulou Tita 1
Université Aristote de
Thessalonique
[email protected] 1
Martineau Claude 2
Université Paris-Est
[email protected] 2,
Mavropoulos Thanassis 3
Université Aristote de
Thessalonique
[email protected] 3
LES NOMS PROPRES EN FRANÇAIS ET GREC : RECONNAISSANCE,
EXTRACTION ET ENRICHISSEMENT DE DICTIONNAIRES
Résumé
Notre recherche s’intéresse à la reconnaissance, l’extraction des noms propres de personne
dans des corpus français et grecs mais aussi à l’enrichissement des dictionnaires existants.
Pour cela nous sommes parti des grammaires développées pour le français et nous les avons
adaptées et enrichies pour le grec. Notre méthode s’appuie en particulier sur les graphes
dictionnaires qui rendent les grammaires produites aisément réutilisables.
Mots-clés: noms propres, dictionnaire électronique, transducteur, graphe dictionnaire
Introduction
Le travail présenté ici s’inscrit dans le cadre d’une collaboration de recherche entre le LTTL1
et le LIGM2 et s’intéresse à la reconnaissance, l’extraction des noms propres de personne
dans des corpus français et grecs mais aussi à l’enrichissement des dictionnaires existants.
Le besoin de créer des outils qui automatisent l’exploitation et/ou l’extraction
d’informations pertinentes, notamment dans les textes, est aujourd’hui un fait. Les systèmes
d’extraction d’information (Hobbs et al. 1996 ; Fourour 2002), de recherche d’information
(Sekine et Isahara 1998) ou de fouille de textes (Jacquemin et Bush 2000) sont de plus en plus
nombreux. Dans cet article, nous proposons une méthode symbolique permettant de traiter les
noms propres de personne du français et du grec.
Après une brève présentation de l’objectif et de l’intérêt de ce travail nous présenterons les
particularités du grec ainsi que les dictionnaires des noms propres développés par le LTTL.
Ensuite nous parlerons des limites des grammaires existantes pour le grec et enfin la
méthodologie que nous avons adopté. Notre objectif étant de proposer une solution commune
pour ces deux langues et adaptable aux autres langues du système UNITEX (Paumier, 2003,
2011).
1. Objectif de la recherche
La reconnaissance de nom de personne a donné lieu à de nombreux travaux, notamment la
thèse de Nathalie Friburger sur les noms propres (Friburger 2002), ou ceux de Denis Maurel
(Maurel et al. 2007) qui se situent dans le cadre plus large de la reconnaissance d’entités
nommées. Des ressources comprenant des dictionnaires de prénoms et des grammaires
existent pour plusieurs langues dont le français.
Pour la reconnaissance des noms de personne des langues romanes ou de l’anglais qui ne
possèdent pas de déclinaisons, le prénom ou la suite de prénom (dans le cas de prénom
1
2
Laboratoire de Traduction et de Traitement Automatique du Langage de l’Université Aristote de Thessalonique.
Laboratoire d’Informatique Gaspard-Monge de L’Université Paris-Est Marne-la-Vallée.
147
composé) sert de déclencheur et le mot voire la séquence de mots commençant par une
majuscule suivant ce prénom (composé ou non) est considérée comme le patronyme
(composé ou non). Mais ceci n’est pas applicable pour les langues à cas comme le grec par
exemple.
En ce qui concerne le grec, qui possède 4 cas (nominatif, génitif, accusatif, vocatif) le
prénom mais aussi le nom patronymique se déclinent et ils possèdent des formes différentes
selon le cas, le genre et le nombre. Des dictionnaires de patronymes ont donc été constitués
qui comme pour les prénoms comportent toutes les formes fléchies (Βαιεηόποσιος,
Βαιεηόποσιο, Βαιεηόποσιου, Βαιεηόποσιε).
Néanmoins ces dictionnaires de patronymes ne pouvant être exhaustifs, des règles de
reconnaissances fondées sur la morphologie respective des formes nominales des quatre cas
du grec ont été développées dans l’environnement Unitex3.
Notre objectif étant de valoriser l’existant, nous sommes partis des grammaires
développées notamment dans le cadre du projet Infom@gic (Martineau et al. 2007) et nous
les avons adaptées au grec ; d'autres ont été mis au point spécialement pour le grec. De plus le
grec utilisant parfois l’alphabet latin il nous a paru intéressant de construire des ressources
couvrant le français et le grec. Ainsi, nos grammaires permettent aujourd’hui non seulement
de reconnaître des noms propres dans les textes mais d’enrichir aussi les dictionnaires
existants en attribuant le plus correctement possible le cas, le genre et le nombre à une forme
reconnue comme nominale qui serait absente du dictionnaire électronique grec ou français des
prénoms et des patronymes.
Dans la présentation qui suit nous mettons principalement l’accent sur les spécificités du
grec qui doivent être prisses en compte et nous ferons des références au français que quand
c’est nécessaire pour la clarté du texte.
2. Brève présentation des dictionnaires des noms propres grecs
Rappelons qu’en grec, pour les noms propres de personne, nous disposons aujourd’hui de
50 000 noms de famille et 500 prénoms. Les noms propres se déclinent comme les autres
mots grecs et a priori n’ont pas de pluriel. Cependant, dans certains cas, les noms propres de
personnes (prénoms, noms de famille) peuvent avoir un pluriel ; nous l’avons donc généré :
Οη Γηώργηδες ήρζαλ
(singulier: ο Γηώργος, Pluriel : οη Γηώργηδες)
*Les Georges sont arrivés
Οη Αθοη Παπαδόποσιοη δοσιεύοσλ καδί
Les frères Papadopoulos travaillent ensemble
Il faut rappeler ici que la méthode adoptée pour pouvoir engendrer toutes les formes
fléchies des mots grecs est celle d’un programme de flexion qui se sert des codes flexionnels
(Kyriacopoulou 2002, 2003).
Les pluriels des noms propres étant souvent spécifiques (ο άλζρωπος/l’homme-οη
άλζρωποι/les hommes, mais ο Γηώργος/Georges-οη Γηώργηδες/*les Georges), nous avons créé
codes flexionnels spécifiques. Voici un extrait de nos dictionnaires :
3
La version utilisée est Unitex3.0beta, 2011.
148
Prénoms
Άγγειος,.N+Hum+Prenom:Nms
Άγγειοσ,Άγγειος.N+Hum+Prenom:Gms
Αγγέιοσ,Άγγειος.N+Hum+Prenom:Gms
Άγγειο,Άγγειος.N+Hum+Prenom:Ams
Άγγειε,Άγγειος.N+Hum+Prenom:Vms
Άγγειοη,Άγγειος.N+Hum+Prenom:Nmp:Vmp
Άγγειωλ,Άγγειος.N+Hum+Prenom:Gmp
Αγγέιωλ,Άγγειος.N+Hum+Prenom:Gmp
Άγγειοσς,Άγγειος.N+Hum+Prenom:Amp
Αγγέιοσς,Άγγειος.N+Hum+Prenom:Amp
Αζαλάζηος,.N+Hum+Prenom:Nms
Αζαλάζηοσ,Αζαλάζηος.N+Hum+Prenom:Gms
Patronymes
Αζαλαζίοσ,Αζαλάζηος.N+Hum+Prenom:Gms
Αζαλάζηο,Αζαλάζηος.N+Hum+Prenom:Ams
Αζαλάζηε,Αζαλάζηος.N+Hum+Prenom:Vms
Αζαλάζηοη,Αζαλάζηος.N+Hum+Prenom:Nmp:Vmp
Αζαλάζηωλ,Αζαλάζηος.N+Hum+Prenom:Gmp
Αζαλαζίωλ,Αζαλάζηος.N+Hum+Prenom:Gmp
Αζαλάζηοσς,Αζαλάζηος.N+Hum+Prenom:Amp
Αζαλαζίοσς,Αζαλάζηος.N+Hum+Prenom:Amp
Αθάθηος,.N+Hum+Prenom:Nms
Αθάθηοσ,Αθάθηος.N+Hum+Prenom:Gms
Αθαθίοσ,Αθάθηος.N+Hum+Prenom:Gms
Αθάθηο,Αθάθηος.N+Hum+Prenom:Ams
Αθάθηε,Αθάθηος.N+Hum+Prenom:Vms
Αθάθηοη,Αθάθηος.N+Hum+Prenom:Nmp:Vmp
Αθάθηωλ,Αθάθηος.N+Hum+Prenom:Gmp
Αθαθίωλ,Αθάθηος.N+Hum+Prenom:Gmp
Αθάθηοσς,Αθάθηος.N+Hum+Prenom:Amp
Αθαθίοσς,Αθάθηος.N+Hum+Prenom:Amp
Patronymes
Εβιίδες,Εβιίδες.N+Hum+Nprop+[Ln]:Nms
Εβιίδε,Εβιίδες.N+Hum+Nprop+[Ln]:Gms:Ams:Vms:Nfs:Gfs:Afs:Vfs
Εβιίδεδες,Εβιίδες.N+Hum+Nprop+[Ln]:Nmp:Amp:Vmp
Εβιίδεδωλ,Εβιίδες.N+Hum+Nprop+[Ln]:Gmp
Εβιίδοσ,Εβιίδες.N+Hum+Nprop+[Ln]:Nfs:Gfs:Afs:Vfs
Εβραίλογιοσ,Εβραίλογιοσ.N+Hum+Nprop+[Ln]:Nms:Gms:Ams:Vms:Nmp:Gmp:Amp:Vmp:Nfs:Gfs:Afs:Vfs:Nfp:Gfp:Afp:Vfp
Εβρεκηηίδε,Εβρεκηηίδες.N+Hum+Nprop+[Ln]:Gms:Ams:Vms:Nfs:Gfs:Afs:Vfs
Εβρεκηηίδεδες,Εβρεκηηίδες.N+Hum+Nprop+[Ln]:Nmp:Amp:Vmp
Εβρεκηηίδεδωλ,Εβρεκηηίδες.N+Hum+Nprop+[Ln]:Gmp
Εβρεκηηίδοσ,Εβρεκηηίδες.N+Hum+Nprop+[Ln]:Nfs:Gfs:Afs:Vfs
Εβρέλ,Εβρέλ.N+Hum+Nprop+[Ln]:Nms:Gms:Ams:Vms:Nmp:Gmp:Amp:Vmp:Nfs:Gfs:Afs:Vfs:Nfp:Gfp:Afp:Vfp
Εβρελέδογιοσ,Εβρελέδογιοσ.N+Hum+Nprop+[Ln]:Nms:Gms:Ams:Vms:Nmp:Gmp:Amp:Vmp:Nfs:Gfs:Afs:Vfs:Nfp:Gfp:Afp:Vfp
Les noms propres de personne peuvent apparaître dans les textes sous les formes suivantes :
΢άθες Ροσβάς (Sakis Rouvas) : Prénom Nom
΢. Ροσβάς (S. Rouvas) : Prénom abrégé Nom
Ροσβάς (Rouvas) : Nom
΢άθες (Sakis) : Prénom
et même précédés d’un article : O ΢άθες Ροσβάς, O ΢άθες, O Ροσβάς
Une représentation par graphe serait trop coûteuse (puisque nous ne pouvons mettre dans
un dictionnaire toutes les combinaisons nom prénom), mais elle permettrait le maintien du
lien entre les différentes formes. Nous avons préféré la représentation par dictionnaire. Ainsi
nous avons dans le dictionnaire des formes simples, des prénoms, des noms de famille et
même des noms de lieux simples identifiés et dans le dictionnaire des mots composés les
formes avec prénoms, noms et surnoms.
En effet, les surnoms ou les diminutifs sont très courants en grec. Pour l’instant, ils n’ont
pas été pris en compte dans nos grammaires mais ils peuvent aider à la désambiguïsation. Par
exemple, pour la famille Papandreou (entre le grand-père (ancien premier Ministre) et le
petit-fils (Premier Ministre actuel) nous avons :
Premier Ministre:
Γηωργάθες + Γηώργος Παπαλδρέοσ
(Giorgakis + Georges Papandreou)
Ancien Premier ministre :
Γεώργηος Παπαλδρέοσ (Georges Papandreou)
*Γηωργάθες Παπαλδρέοσ (Giorgakis Papandreou)
149
Les noms propres peuvent créer des ambiguïtés avec les mots simples :
Αγάπε γηαηί κε προζπερλάς ;
Agapi pourquoi tu m’évites ?
Amour pourquoi tu m’évites ?
Pour les noms de personne complexes (plus d’un prénom ou plus d’un nom de famille)
nous avons opté pour une représentation par graphe. Ces noms peuvent comporter également
des trait d’unions, des lettres initiales de noms ou prénoms comme dans :
Αγγειοπούιοσ-Γαζθαιάθε, Αγγειοπούιοσ-Γ., Α.-Γαζθαιάθε, Αγγειοπούιοσ, Γαζθαιάθε
Άλλα-Μαρία, Άλλα-Μ., Ά.Μ., Ά.-Μ.
A noter aussi que les noms de personnes sont précédés de formes abrégées, utilisés comme
déclencheurs pour la reconnaissance automatique des noms propres. Ils peuvent indiquer
notamment, la civilité de la personne θ. Κύρηος (M. Monsieur) mais peuvent aussi avoir des
mentions particulières comme dans :
΢ηραηεγός ε.α. Ιωάλλες Καιέργες (Stratigos e.a. Ioannis KALERGIS)
΢ηραηεγός ελ αποζηραηεία Ιωάλλες Καιέργες (Stratigos en apostrateia Ioannis KALERGIS)
Général en retraite Ioannis KALERGIS
Enfin il faut signaler qu’en grec, entre le prénom et le nom, il apparaît souvent une lettre
majuscule suivie d’un point terminal qui renvoie au prénom du père :
Γηώργος Χ. Γεωργηάδες (Yiorgos X. Gueoryadis)
Mais cette lettre est ambiguë. Par exemple la lettre « Χ. » de l’exemple précédent peut
correspondre à deux prénoms différents : Χαραιάκποσς (Xaralampous) ou Χαρίιαοσ
(Xarilaou). Pour la reconnaissance de ces séquences nous avons créé le graphe de la figure 1.
Figure 1
En outre, dans certains textes, notamment journalistiques ou issus du web, on trouve
souvent pour les noms de personnes étrangers, à côté de leur transcription grecque, leur
graphie latine d’origine. Par exemple, pour l’ex-premier ministre français, Dominique de
Villepin on trouve sur le wikipedia grec la phrase suivante :
Ο Νηοκηλίθ ληε Βηιπέλ (γαιι. Dominique de Villepin) είλαη Γάιιος δηπιωκάηες θαη
ποιηηηθός, Πρωζσποσργός ηες Γαιιίας από ηης 31 Μαΐοσ 2005 κέτρη ηο 2007.
(Dominiquegrec degrec Villepingrec (français. Dominique de Villepin) est un diplomate
français et homme politique, premier ministre français du 13 Mais 2005 à 2007.)
dans laquelle la forme grecque Νηοκηλίθ ληε Βηιπέλ est suivie de sa forme latine entre
parenthèses. Pour cette raison, les ressources que nous avons développées permettent de
reconnaitre des noms de personne écrits en alphabet grec ou en alphabet latin. Remarquons
qu’en grec, les patronymes étrangers, même écrits en alphabet grec, sont invariables et
possèdent la même forme à tous les cas.
150
3 Approche et ressources développées
Les grammaires existantes sous Unitex développées notamment dans le cadre du projet
Infom@gic (Martineau et al. 2007) dont le but était la reconnaissance d’entités nommées
comportait des graphes ou plutôt des sous-graphes pour chaque type d’entité. Ces graphes ne
permettaient pas facilement de reconnaitre suivant les besoins des noms à particule, d’exiger
ou non la présence du prénom, ou d’extraire les noms de personnes comportant des prénoms
composés.
L’approche adoptée ici et réalisable dans l’environnement Unitex consiste à utiliser la
notion de graphe dictionnaire qui permet de créer dynamiquement des entrées de dictionnaires
similaires à celles présentes dans les dictionnaires Dela (Courtois 1990) statiques réalisés
manuellement. La figure ci-après présente une version ultra simplifiée d’un graphe
dictionnaire reconnaissant un nom de personne et qui produit dans le dictionnaire du texte des
entrées comme : Jean Dupond,.NPersonne.
Figure 2
Une entrée de dictionnaire Dela se présente généralement sous la forme :
forme fléchie, forme canonique.catég gram+traits syntaxico-sémantiques: infos flexionnelles
Les entrées produites par le graphe dictionnaire comportent quelques différences par
rapport à celles d’un dictionnaire Dela statique.
En particulier, la forme canonique d’un nom de personne grec n’est pas toujours la stricte
séquence des formes canoniques de ses constituants. Considérons le nom féminin au génitif
suivant : Μαρίας Γηαθοπούιοσ (MariaGén YiacopoulouGén). La séquence des formes
canoniques serait Μαρία Γηαθόποσιος (Maria Yiacopoulos) or la forme canonique d’un nom
féminin se forme avec le nominatif féminin du nom patronymique. La forme correcte est
donc : Μαρία Γηαθοπούιοσ (Maria Yiacopoulou).
Les nom propres de personne présents dans un texte sont souvent utilisés pour son
indexation. Pour que celle-ci soit correcte, il faut que les différentes formes (cas/déclinaisons,
utilisation de majuscules/minuscules) prises par ces noms soient ramenées à une forme
unique pour que ces formes différentes ne soient pas prises pour des noms de personnes
différents. La forme canonique peut constituer cette forme unique ou normalisée. Ainsi les
quatre formes :
Φρεηδερίθος Βαιεηόποσιος,
Φρεηδερίθε Βαιεηόποσιε
Φρεηδερίθο
Βαιεηόποσιο,
Φρεηδερίθου
Βαιεηόποσιου,
désignent la même personne (Freiderikos Valetopoulos) respectivement au nominatif, à
l’accusatif, au génitif et au vocatif.
La
normalisation
doit
également
prendre
compte
l’unicité
graphique
(majuscule/minuscule) : les noms et prénoms commencent par une majuscule et se
poursuivent par des minuscules, les particules présentes dans les noms sont normalisées en
minuscules et certains préfixes (dans des noms d’origine arabe) commencent eux par une
majuscule. Ainsi des noms présents dans des titres de journaux, écrits entièrement en
151
majuscules ont une forme normalisée où la graphie est définit sans ambigüité. Par exemple
des noms présents dans les titres comme :
ΦΡΑΝ΢ΟΤΆ ΝΣΕ ΛΑ ΡΟ΢ΦΟΤΚΏ (FRANCOIS DE LA ROCHEFOUCAULD)
ΝΑΝΣΙΑ ΕΛ-ΜΑΜΠΡΟΤΚ
(NADIA EL-MABROUK)
ont les formes canonique/normalisées respectives : Φραλζοσά ληε ια Ροζθοσθώ (François de
la Rochefoucauld) et Νάληηα Δι-Μακπροσθ (Nadia El-Mabrouk).
La reconnaissance de nom propre de personnes peut avoir de nombreuses utilisations: être
utilisées en tant que constituants de groupes nominaux (Oi γολείς ηες Μαρίας Γηαθοπούιοσ
(Les parents de Maria Yiacopoulou) et prendre leur part dans le cadre de systèmes d’analyse
syntaxique, être incorporés dans des outils de reconnaissances d’entités nommées , enfin être
utilisées dans des systèmes fondés sur des requêtes comme par exemple : « quels sont les
noms à particules écrits en grec et comportant un prénom composé présents dans le document
traité ? ».
Pour répondre à ces différentes utilisations, les entrées produites par les ressources que
nous avons développées comportent des traits qui gardent une trace du chemin suivi dans le
graphe dictionnaire qui les a créées et qui donnent ainsi des informations sur les mots
reconnus qui sont constituants de ces entrées complexes. Le tableau 1 ci-après donne un large
extrait des traits éventuellement présents dans les entrées dynamiquement produites.
Trait
+prenom
+prenom_composé
+nom
+nom composé
+particule
+préfixe
+saint
+prenom_grec
+prenom_etr
+nom_grec
+prenom_latin
+nom_latin
Indique la présence de
un prénom
un prénom composé
un nom
un nom composé
une particule dans le nom
un préfixe dans le nom
Saint (latin/grec/abrev) avant le prénom
un prénom du dico grec
un prénom étranger du dico grec
un nom du dico grec
un prénom écrit en alphabet latin
un nom écrit en alphabet latin
Tableau 1
Les entrées produites possèdent comme celles présentes dans les dictionnaires Dela
statiques des informations flexionnelles. Celles-ci sont calculées par des grammaires grâce à
des ressources existantes. Le dictionnaire électronique développé par le LTTL1 et le LIGM2
ne comporte pas de prénoms composés. La constitution de telles listes ne saurait être
exhaustive et donc seuls les prénoms simples y figurent. La reconnaissance, par exemple,
d’une forme fléchie d’un prénom composé utilise les ressources disponibles sur ses
composants simples.
A titre d’exemple, la reconnaissance et l’attribution d’infos flexionnelles pour la forme
fléchie composée Κώζηα-Λάδαροσ Γηαθογηάλλε (Kosta-Lazarou Yacoyanni) commence par le
traitement du prénom composé qui s’effectue grâce aux données suivantes4 :
Κώζηα :Gms :Ams :Vms et Λάδαροσ :Gms. D’où Κώζηα-Λάδαροσ : Gms. C’est le prénom qui
4
Voir les tableaux 2 et 3.
152
a la forme la moins ambigüe qui détermine les infos flexionnelles du composé. Ensuite, elles
se combinent avec celles du patronyme5 Γηαθογηάλλε :Gms :Ams :Vms:Gfs :Afs :Vfs qui suit
pour aboutir à celles du nom complet. Ainsi la reconnaissance de Κώζηα-Λάδαροσ
Γηαθογηάλλε donne lieu à la création de l’entrée de dictionnaire munie de traits suivante :
Κώζηα-Λάδαροσ Γηαθογηάλλε,Κώζηας-Λάδαρος Γηαθογηάλλες.Person
+prenom+prenom_composé+prenom_grec +nom+nom_grec+Prenom=Κώζηας-Λάδαρος
Nom=Γηαθογηάλλες:Gms.
Nom.
Gén.
Acc.
Voc.
Singulier
Κώζηας
Κώζηα/Κώζηος
Κώζηα
Κώζηα
Pluriel
Κώζηεδες
Κώζηεδωλ
Κώζηεδες
Κώζηεδες
Tableau 2
Nom.
Gén.
Acc.
Voc.
Singulier
Λάδαρος
Λάδαροσ/Λαδάροσ
Λάδαρο
Λάδαρε
Pluriel
Λάδαροη
Λάδαρωλ/Λαδάρωλ
Λάδαροσς/Λαδάροσς
Λάδαροη
Nom.
Gén.
Acc.
Voc.
Masc. Sing.
Γηαθογηάλλες
Γηαθογηάλλε
Γηαθογηάλλε
Γηαθογηάλλε
Tableau 3
Fém..Sing.
Γηαθογηάλλε
Γηαθογηάλλε
Γηαθογηάλλε
Γηαθογηάλλε
Pluriel
Γηαθογηάλλεδες
Γηαθογηάλλεδες
Γηαθογηάλλεδωλ
Γηαθογηάλλεδες
Tableau 4
En ce qui concerne le traitement des noms écrits en caractères latin, bien que le
dictionnaire français des prénoms utilisé pour les extraire ne contienne que les marque :ms
et :fs , la grammaire que nous avons développé les remplace par les infos flexionnelles
équivalentes adéquates selon leur genre. Les patronymes qui les suivent qui ne figurent pas
dans des dictionnaires (il n’en existe pas pour le français qui ne possède pas de cas) se voient
donc attribuées toutes infos flexionnelles du masculin et du féminins. Voici à titre d’exemples
les formes « hellénisées » attribuées à quelques prénoms français :
Pierre,.N+prenom:Nms:Ams:Gms:Vms
Marie,.N+prenom:Nfs:Afs:Gfs:Vfs
Dominique,.N+prenom:Nms:Ams:Gms:Vms:Nfs:Afs:Gfs:Vfs
Une phrase comme : « Η Μαρία ιαηρεύεη ηολ Sébastien » (Marie adore Sébastien) peut
donc être analysée par une grammaire faite « exclusivement » écrite pour le grec sans
problème. Le graphe dictionnaire développé permet de produire dans le dictionnaire du texte
des entrées pour un nom complet écrit en caractères latins on trouvera dans le dictionnaire du
texte comme :
Eric Rouleau,Eric Rouleau.Person+prenom+prenom_latin+nom+nom_latin+latin+
Prenom=Eric+Nom=Rouleau:Nms:Ams:Gms:Vms
Ces entrées sont ensuite utilisables par des grammaires au même titre que les dictionnaires
statiques. Par exemple si l’on recherche des noms de personne comportant un prénom et un
nom en évitant les édifices religieux ou fête nominales on peut écrire une expression régulière
ou un graphe comportant : <Person+prenom+nom~saint> ou si l’on recherche des noms à
particules : <Person+particule>.
Conclusion et perspectives
Cette présentation très sommaire illustre déjà l’intérêt de ce travail et en particulier de la
méthode des graphes dictionnaires. Il doit être complété pour le grec et le français mais aussi
s’appliquer aux autres langues d’Unitex. Nous sommes persuadés que même si le système de
reconnaissance des noms de personne est commun les règles de désambiguïsations seront
propres à chaque langue voire à chaque pays.
5
Voir tableau 4.
153
Références
Courtois B. (1990), « Un système de dictionnaires électroniques pour les mots simples du
français », in Courtois B. et Silberztein M. (éds), Dictionnaires électroniques du français,
Langue Française, n° 87, Larousse, Paris : 11-22.
Fourour N. (2002), « Nemesis, un système de reconnaissance incrémentielle des entités
nommées pour le français », in Actes de la 9ème Conférence Nationale sur le Traitement
Automatique des Langues Naturelles (TALN 2001), Nancy, vol. 1 : 265-274.
Friburger N. (2002), Reconnaissance automatique des noms propres : Application à la
classification automatique des textes journalistiques, Thèse de doctorat, Université de
Tours, Paris.
Hobbs J., Appelt D., Bear J., Israel D., Kameyama M., Stickel M. et Tyson M. (1996), «
Fastus : a cascaded finite-state transducer for extracting information from natural-language
text», in Roche E. et Schabes Y. (éds), Finite State Devices for Natural Language
Processing, MIT Press, Cambridge, USA : 383-406.
Jacquemin C. et Bush C. (2000), « Fouille du Web pour la collecte d’entités nommées », in
Actes de la 8ème Conférence Nationale sur le Traitement Automatique des Langues
Naturelles (TALN 2000), Lausanne : 187-196.
Kyriacopoulou T., Mrabti S. et Yannacopoulou A. (2002). Le dictionnaire électronique des
noms composés en grec moderne, Lingvisticæ Investigationes 25:1,
Amsterdam/Philadelphia : John Benjamins, 7–28.
Kyriacopoulou T. (2003). Analyse automatique des textes écrits : le cas du grec moderne,
Mémoire d’Habilitation à diriger des recherches, Université de Marne-la-Vallée.
Martineau C., Tolone E., et Voyatzi S (2007). « Le statut référentiel des entités nommées »,
in : Actes du XXVIe Colloque International Lexique et Grammaire, Bonifacio, Corse du
Sud, 2-6 octobre 2007, éds. Catherine Camugli, Matthieu Constant et Anne Dister, 105112.
Maurel, D., Vitas, D., Krstev, C., et Koeva S., 2007 PROLEX: A Lexical Model For
Translation Of Proper Names Application To French, Serbian And Bulgarian
Sekine S. et Nobata C. (1998), « An Information Extraction System and a Customization Tool
», in Proceedings of the New Challenges in Natural Language Processing and its
Application, 25-26 May 1998, Tokyo, Japan.
Paumier, S. 2003. De la reconnaissance de formes linguistiques à l’analyse syntaxique.
Paris : Université de Marne-la-Vallée. [Thèse de doctorat].
Paumier, S. 2011. <www-igm.univ-mlv.fr/~unitex/manuel.htm>.
154
Lim Joon Seo
Université de Paris-Est Marne-la-Vallée
[email protected]
UNE ETUDE SUR LA DESCRIPTION LEXICO-SYNTAXIQUE
DU VERBE « DOEDA » EN COREEN
Résumé
Nous présentons ici une étude sur la description lexico-syntaxique du verbe coréen, « 되다
doeda », au niveau des phrases simples, qui se traduit généralement en français « devenir »,
« se transformer », « se faire », « s’accomplir », etc. Le verbe « doeda » est employé très
largement en coréen, dans la mesure où celui-ci fonctionne non seulement comme le verbe
distributionnel, mais aussi comme le verbe support « passif », sinon le verbe support
« aspectuel ». Il nous faudra une description détaillée, exhaustive et systématique sur tous les
emplois du verbe « doeda ». A travers une telle description, nous pourrons réfléchir à
quelques notions fondamentales.
Mots clefs: verbe support, nom prédicatif, structure argumentale, restructuration, fusion
1. Introduction
Nous présentons ici une étude sur la description lexico-syntaxique du verbe coréen, « 되다
doeda », au niveau des phrases simples, qui se traduit généralement en français « devenir »,
« se transformer », « se faire », « s’accomplir », etc. Le verbe « doeda » est employé très
largement en coréen, dans la mesure où celui-ci fonctionne non seulement comme le verbe
distributionnel -ou plus précisément, le verbe prédicatif-, mais aussi comme le verbe support
« passif » qui fait une paire avec le verbe support « 하다 hada (faire) », sinon le verbe support
« aspectuel » (résultatif ou accompli...). En plus, le verbe « doeda » constitue des
constructions figées par des éléments différents, même avec des compléments qui paraissent
non essentiels (par exemple, des adverbes). En bref, il s’agit d’un verbe très important qui est
intéressant et riche, du point de vue lexico-syntaxique en coréen. Une description formelle de
ce verbe, systématique et exhaustive, nous permettra donc de réfléchir sur quelques notions
fondamentales dans le Lexique-Grammaire : « prédicat », « verbe support », « structure des
arguments », « restructuration » et « fusion », etc.
2. Description du verbe « doeda »
2.1. Compréhension du coréen par le verbe « doeda »
Pour une compréhension générale du verbe « doeda », nous présentons tout d’abord les
emplois comme verbe distributionnel. Le verbe « doeda » fonctionne comme un verbe
attributif. Prenons des exemples.
155
(1) 막스는 레아의 친구가 되었습니다. Max est devenu l’ami de Léa.
(2) 물이 (얼어) 얼음이 되었다. L’eau (gelant) s’ est transformée en glace.
(3) 그 아이는 (커서) 소설가가 될 것 같아요. Cet enfant deviendra peut-être romancier (une fois grandi).
Comme le coréen est une langue agglutinante, chaque nom est suivi d’une particule
grammaticale ou d’une particule sémantiquement spécifique qui exprime un sens particulier.
Une particule grammaticale permet à chaque nom d’assumer une fonction grammaticale
comme le sujet, le complément d’objet direct, le complément locatif, etc. Dans les phrases cidessus, nous observons deux noms suivis d’une particule, le premier pour le sujet et le
deuxième pour le complément d’attribut. Elles sont formalisées comme suit :
(A) Np Np V (pour le coréen)
Par ailleurs, en coréen, à la différence du français, le verbe et l’adjectif sont toujours à la fin
de la phrase. Donc, comme vous le voyez bien dans les phrases ci-dessus (1), (2), (3), le
complément d’attribut précède toujours le verbe. Par contre, en français, la construction à
attribut se formalise autour d’un verbe attributif comme :
(B) N V N (pour le français)
Très généralement, les phrases simples en coréen et en français seront formalisées comme :
(C) Np Np Np W V
(D) N V N Prép N Prép N W
En coréen, tous les groupes nominaux doivent donc être suivis d’une particule postposée « p »
(grammaticale ou sémantiquement spécifique)1 pour avoir une fonction grammaticale, tandis
qu’en français, les groupes nominaux sont précédés d’une préposition « Prép », excepté les
groupes nominaux en position sujet et complément d’objet direct.
Une autre particularité qu’on observe en coréen, c’est l’adjectif qui ressemble au verbe du
point de vue syntaxique. Pour avoir une phrase simple, l’adjectif coréen n’a pas besoin de
« 이다 ida », l’équivalent du verbe copule « être ». Le verbe copule « ida » s’ajoute donc
1
Voici les particules grammaticales : « Nc-i/Nv-ga » pour le sujet et l’attribut, « Nc-eul/Nv-leul » pour l’objet
direct, « N-e/eso/(eu)lo » pour le locatif, « N-ege » pour le datif, « Nv-wa/Nc-kwa » pour le complément
d’accompagnement, « N-eui » pour le possessif. Pour les particules sémantiquement spécifiques, il y a « Nceun/Nv-neun » pour le thématisation, « N-do » pour le sens « aussi, même », « N-man » pour le sens
« seulement », etc. (Nc = : nom qui se termine par une consonne finale, Nv = : nom qui se termine par une
voyelle)
156
juste après le nom en position d’attribut, par contre l’adjectif coréen apparaît tout seul comme
le verbe. Leurs structures se formalisent comme suit :
(E) Np W Adj
(4) 날씨가 좋다 Le temps est bon.
(F) Np N-ida
(5) 오늘은 좋은 날씨이다. Aujourd’hui, c’est un bon temps.
La phrase ci-dessus à « ida » a pour la négation la même structure que le verbe « doeda », en
mettant le verbe négatif « 아니다 anida » du « ida ». Car celui-ci doit ajouter une particule
attributive « 이 i / 가 ga » après le deuxième nom en position d’attribut.
(G) Np Np V
(6) 오늘은 좋은 날씨가 아니다. Aujourd’hui, ce n’est pas un bon temps.
Ces deux verbes seuls « doeda » et « anida », sont des verbes attributifs dans un sens étroit et
rigoureux, qu’on peut trouver en coréen. Mais c’est une construction importante dans la
mesure où le verbe « doeda » s’emploie avec un grand nombre de noms concrets ou abstraits,
prédicatifs, qui dérivent souvent les verbes composés d’une façon très productive.
2.2. Verbe distributionnel
En théorie, à partir de la structure (C), on peut prévoir différentes structures variées d’après le
nombre des compléments et des particules, en coréen aussi bien qu’en français.
(C) Np Np Np W V
On observe d’abord les phrases sans complément.
Np W V =: (7) N-은 W V
(7) 꽃이 활짝 피었다. Les fleurs se sont complètement épanouies.
Ensuite, si un complément s’ajoute, la structure varie d’après les formes des particules.
Np Np W V =: (8) N-은 N-이 W V / (9) N-은 N-을 W V / (10) N-은 N-(에+에게) W V / (11) N-은 N-과
W V / (12) N-은 N-으로 W V
(8) 얼음이 물이 되었다. La glace s’est transformée en eau.
(9) 레아는 한국 음식을 먹습니다. Léa mange de la cuisine coréenne.
(10) 막스는 (한국에 + 레아에게) 가요. Max va (en Corée + vers Léa).
(11) 막스는 레아와 (만났어 + 헤어졌어). Max (a rencontré + s’est séparé) avec Léa.
157
(12) 레아는 회장으로 뽑혔다. Léa a été élue présidente.
Enfin, on pourra ajouter un complément d’objet direct suivi d’une particule « 을/를
eul/leul » aux phrases intransitives comme (10), (11), (12) :
Np Np Np W V =: (13) N-은 N-(에+에게) N-을 W V / (14) N-은 N-에게 N-을 W V / (15) N-은 N-과
N-을 W V / (16) N-은 N-을 N-으로 W V
(13) 막스는 (한국에 + 레아에게) 편지를 보냈습니다. Max a envoyé une lettre (en Corée + à Léa).
(14) 막스는 레아에게 사과를 주었어요. Max a donné une pomme à Léa.
(15) 막스는 찹쌀가루와 물을 잘 섞었다. Max a bien mélangé la farine de riz gluant avec de l’eau.
(16) 막스는 유로를 원으로 바꿨어. Max a échangé des euros en wons.
Ainsi, les structures des exemples (7), (8), (10), (12) s’observent dans les constructions du
verbe distributionnel « doeda ».
(7a) 비빔밥 돼요 ? Le bibimbap est-il disponible (au menu) ?
(8) 얼음이 물이 되었습니다. La glace s’est transformée en eau.
(10a) 회장에 레아가 되었어. Pour la place de présidente, Léa a été choisie.
(12a) 레아가 회장으로 되었다. Léa est devenue (nommée) comme présidente.
2.3. Verbe support
Dans le lexique-grammaire, la notion « verbe support » est étroitement liée à la notion
« prédicat ». Celle-ci joue un rôle important à constituer les phrases simples, car ce prédicat
est un « noyau » qui détermine ses arguments. Le prédicat peut être un verbe ou un adjectif,
mais aussi un nom. Si on a un nom prédicatif dans la phrase simple, celui-ci est supporté par
un verbe qui est lexicalement presque vide. C’est pourquoi on l’appelle justement le verbe
support « Vsup ».
2.3.1. Verbe support actif « hada »
En coréen, le verbe support typique est le verbe « hada » ayant un prédicat en position de
complément d’objet direct comme en français « faire ». Prenons un exemple :
(17) L’Otan a fait des attaques contre la Libye de Kadhafi.
Cette phrase française (17) se traduit en coréen, comme (17a) et (17b) :
(17a) 나토는 카다피의 리비아에 대한 공격을 했다.
(17b) 나토는 카타피의 리비아에 대해 공격을 했다.
158
Le complément « contre la Libye » dans la phrase (17) prend la forme déterminante de la
particule complexe « 에 대한 e daehan (à propos de) » dans (17a) qui fait constituer un
groupe nominal « des attaques contre la Libye », alors qu’il a une forme adverbiale « 에 대해
e daehe (à propos de) » dans la phrase (17b) qui concerne plutôt le verbe « hada ». D’ailleurs,
le nom « 공격 gongyok (attaque) » et le verbe « hada » ne peuvent pas avoir deux sujets
différents. Ces deux propriétés, possibilité de double analyse et sujet identique, elles sont les
mêmes qu’on observe dans les phrases à Vsup en français (17). De plus, en coréen la phrase
(17a) peut avoir un autre complément d’objet direct à la place du complément adverbial
« contre la Libye » comme (17c) et enfin peut fusionner le nom prédicatif et le verbe support,
en omettant la particule du cod « eul » comme (17d) :
(17c) 나토는 카다피의 리비아를 공격을 했다.
(17d) 나토는 카다피의 리비아를 공격했다.
2.3.2. GN et structure argumentale
On peut se demander ici, d’où viennent ces constructions à Npred et Vsup. Si un Vsup assume
simplement un rôle auxiliaire sans aucun sens lexical, il est évident que le prédicat nominal
les détermine. Donc logiquement, le prédicat nominal « gongyok (attaque) » peut avoir ses
arguments comme « Otan », « Libye ». A nos yeux, c’est tout d’abord dans le groupe nominal
du nom prédicatif « gongyok (attaque) » que cette « structure argumentale » se réalise au
niveau linguistique :
Prédicat = : « 공격 attaque »
Arguments du prédicat « attaque » = : {sujet d’attaque « 나토 Otan », objet d’attaque « 리비아 Libye »}
(18) GN actif = : 나토의 리비아-(E+에 대한) 공격 attaque de l’Otan contre la Libye
(19) GN passif = : 나토에 의한 리비아-(E+에 대한) 공격 attaque contre la Libye par l’Otan
Parmi ces deux groupes nominaux, c’est plutôt le premier GN actif (18) qui prend un verbe
support actif, comme « hada » en coréen et « faire » en français. C’est ainsi que le sujet du
nom prédicatif « gongyok (attaque) » est le même que le sujet du verbe support « hada » et
« faire » et que la combinaison entre le nom prédicatif et le verbe support permet de faire une
double analyse que nous avons observée dans la phrase en français (17) et les phrases (17a) et
(17b) en coréen.
2.3.3. Verbe support passif
Si un verbe support veut avoir une construction passive lexico-syntaxiquement en coréen, il y
a deux types de Vsup passifs que l’on puisse choisir : « 되다 doeda (devenir ou se faire) » et
« 받다 patta (recevoir) », « 당하다 danghada (essuyer) », « 입다 iptta (subir) », etc. Le
premier type de Vsup « doeda » a son nom prédicatif en position sujet (ou attribut), tandis que
159
le deuxième en position « objet ». Les deux types de Vsup se combinent avec le GN passif.
Prenons des exemples en coréen :
GN passif-p doeda = : [나토에 의한 카다피 리비아(E+의+에 대한) 공격]-이 되다
(19a) 나토에 의해 카다피 리비아는 공격이 되었다.
TN : La Libye de Kadhafi a été attaquée par l’Otan.
(19b) 카다피 리비아는 나토-(에 의해 +로부터) 공격을 (받았다 + 당했다 +*입었다).
La Libye de Kadhafi a (reçu +essuyé + subi) des attaques (par + de la part de) l’Otan.
Comme vous le voyez bien, le nom prédicatif « gongyok (attaque) » de la phrase (19a) se
trouve en position sujet, par contre celui de la phrase (19b) en position « objet direct ». A la
différence du nom prédicatif « gongyok (attaque) », d’autres noms prédicatifs comme « 파괴
p’agoe (destruction) » et « 피해 p’ihae (dommage, dégât) » montrent une autre compatibilité
des Vsup :
(20) GN passif de « 파괴 destruction » = : [나토 공격에 의한 카다피 리비아 군사 기지들의 파괴]
(20a) 나토의 공격-(에 의해+으로) 카다피 리비아의 군사 기지들은 파괴가 되었다.
TN : Des bases militaires en Libye de Kadhafi ont été détruits par les attaques de l’Otan
(20b) 나토의 공격에 의해 카다피 리비아의 군사 기지들은 파괴를 (*받았다 + *당했다 + *입었다).
Les bases militaires en Libye de Kadhafi ont (*reçu + ?subi) la destruction par les attaques de l’Otan
(21) GN passif de « 피해 dommage, dégât » = : [나토 공격에 의한 카다피 리비아 군사 기지들의 피해]
(21a) 나토의 공격에 의해 카다피 리비아의 군사 기지에 피해가 (*되었다 + 있었다 + 났다 + 발생
했다 + 생겼다 + 갔다...).
Par les attaques de l’Otan, (il y a eu + se sont produits + sont arrivés) des dégâts sur des bases militaires en
Libye de Kadhafi.
(21b) 나토의 공격에 의해 카다피 리비아의 군사 기지는 큰 피해를 (*받았다 + * ?당했다 + 입었다
+ 보았다...).
Des bases militaires en Libye de Kadhafi ont (*reçu + subi +* ? vu + connu) des dégâts (par + à travers) les
attaques de l’Otan.
A l’heure actuelle, il paraît difficile de prévoir avec quels verbes supports est bien compatible
un nom prédicatif. Il faudra une étude détaillée et approfondie sur la sémantique des noms
prédicatifs et des Vsup.
2.3.4. Restructuration (obligatoire) du verbe support passif « doeda »
Revenons au verbe support passif « doeda », pour se limiter à notre objet d’étude et pour se
poser quelques questions problématiques. Reprenons les exemples ci-dessus ayant « doeda » :
160
(19a) 나토에 의해 카다피 리비아는 공격이 되었다.
TN : La Libye de Kadhafi a été attaquée par l’Otan.
(20a) 나토의 공격-(에 의해+으로) 카다피 리비아의 군사 기지들은 파괴가 되었다.
TN : Des bases militaires en Libye de Kadhafi ont été détruits par les attaques de l’Otan
Elles sont des phrases restructurées à partir de la structure du GN préd « gongyok (attaque) »
et « p’agoe (destruction) » dans les constructions à Vsup « doeda ». Par conséquent, on
observe un complément d’agent « par l’Otan » (ou « par les attaques de l’Otan ») et un sujet
« Libye » (ou « des bases militaires ») qui sont éclatés en dehors du GN préd « gongyok
(attaque) » (ou « p’agoe (destruction) »). On voit ici la structure de « double sujet » qui
apparaît souvent en coréen.
On peut penser que cette structure de « double sujet » vient de celle où le nom « Libye » n’est
pas encore séparé du GN préd comme :
(19a.1) (E + ?나토에 의해) 카다피 리비아 공격은 되었다.
Les attaques contre La Libye de Kadhafi ont été faites par l’Otan.
(20a.1) ?*나토의 공격-(에 의해+으로) 카다피 리비아의 군사 기지들에 대한 파괴가 되었다.
La destruction des bases militaires en Libye de Kadhafi a été faite par les attaques de l’Otan.
Cependant, le statut en tant que sujet que possède le nom prédicatif dans la construction à
« doeda » (19a) et (20a) semble très instable, car le verbe « doeda » est un des deux verbes
attributifs en coréen, pouvant avoir un complément d’attribut suivi d’une particule « i/ga »,
formellement la même que la particule du sujet.
2.3.5. Fusion entre Npred et Vsup
Que ce soit sujet ou attribut, la plupart des noms prédicatifs se fusionnent très facilement avec
le verbe support « doeda ».
(19a.2) 나토에 의해 카다피 리비아는 공격되었다.
TN : La Libye de Kadhafi a été attaquée par l’Otan.
(20a.2) 나토의 공격-(에 의해+으로) 카다피 리비아의 군사 기지들은 파괴되었다.
TN : Des bases militaires en Libye de Kadhafi ont été détruits par les attaques de l’Otan
Cette fusion entre le nom prédicatif et le verbe support ne se produit pas automatiquement.
Elle n’est pas possible, (ni même l’omission de la particule), en particulier, pour certains
noms prédicatifs comme « objet », « cause ».
(22) 카다피 리비아의 군사 시설이, 나토의 공격의 대상이 되었다.
161
Des bases militaires en Libye de Kadhafi ont (été +
fait) l’objet (des attaques de l’Otan).
(23) 카다피에 의한 시위 진압이, 나토의 공격의 (원인 + 빌미 + 발단 + 단초 + 계기...)2-가 되었다.
La répression militaire contre des manifestations par Kadhafi a fait une cause des attaques de l’Otan.
3. Conclusion
Nous souhaitons qu’une telle description du verbe « doeda » et la réflexion sur les notions
fondamentales comme « prédicat », « verbe support », « structure argumentale »,
« restructuration » et « fusion » contribuent à améliorer la description linguistique dans le
lexique-grammaire pour une langue « coréen » aussi bien que pour deux langues « coréenfrançais ». On aimerait aussi pouvoir appliquer une telle description lexico-syntaxique pour le
traitement automatique, surtout dans le système de l’Unitex monolingue (coréen) ou de
l’Unitex bilingue (coréen-français).
<Table1> Structures du verbe « doeda »
되다 doeda
Structure
Exemples
V distributionnel N0 V
V support
봄이 되었다. Le printemps est arrivé.
(7a)
N0 N1-i/ga V
(1), (2), (3), (8) 막스는 레아의 친구가 되었다. Max est devenu l’ami de Lea.
N1-e N0-i/ga V
(10a)
회장에 레아가 되었어. Pour la place de présidente, Léa a été choisie.
N0 N1-(eu)ro V
(12a)
레아가 회장으로 되었다. Léa est devenue (nommée) comme présidente.
N0 W Npr-i/ga Vsup
(19a), (20a)
군사기지가 파괴가 되었다. Des bases militaires ont été détruits.
N0 W Npr-Vsup
(19a2), (20a2)
군사기지가 파괴되었다. Des bases militaires ont été détruits.
<Table2> Npred et Vsup en coréen
Npred
Vsup passif
Vsup actif
Vsup passif
V copule
N0 W Npr-i/ga Vsup
N0 W Npr-eul/leul Vsup
N0 W Npr-eul/leul Vsup
N0 Npr-ida
doeda
hada
shik'ida
devenir, se faire
faire
faire faire
juda
patta
donner recevoir
tanghada iptta poda
Ida
essuyer subir voir
être
Npr-i/ga doeda Npr-doeda
공격 gongyok
attaque
+
+
+
+
-
+
+
-
-
-
파괴 p'agoe
destruction
+
+
+
+
-
-
+
-
-
-
피해 p'ihae
dégât
+
-
-
-
+
-
-
+
+
-
원인 wonin
cause
+
-
-
-
-
-
-
-
-
+
대상 daesang
objet
+
-
-
-
-
-
-
-
-
+
Références
Gross G. et al. (1986) « Syntaxe des noms », Langue française 86, Paris : Larousse.
Gross M. (1981) « Formes syntaxiques et prédicats sémantiques », Langages 63, Paris : Larousse.
Hong Chai Song (2010) « Etude de contraste typologique sur les constructions à copule en coréen et en
français », Revue d’Académie N° 49-1, Académie nationale des sciences en Corée.
Lim Joon Seo (2007) « Quelques remarques sur le verbe support et le nom prédicatif en position sujet », Lux
Coreana, revue consacrée aux langues et cultures franco-coréennes n°3, CEFCO & Han-Seine, Paris.
2
Les noms comme « 원인 wonin (cause) », « 빌미 bilmi (cause d’un mal) », « 발단 baldan / 단초 dancho (point de
départ, origine) », « 계기 kégi (occasion d’une chance) » appartiennent à la classe sémantique « objet relationnel
abstrait ». Cf. Projet du dictionnaire électronique Sejong (2002, 2007), Lee (2007).
162
Marque-Pucheu Christiane
Université de Paris-Sorbonne
[email protected]
POUR UNE GRAMMAIRE LOCALE DES VERBES INTRODUCTEURS
D’EXCLAMATIVE INDIRECTE
Résumé
L’exclamative indirecte et les verbes susceptibles de l’introduire ont été peu étudiés en français.
Souvent définis par la propriété N1 = : Que P + si P ou P, qui en ferait une sous-classe des verbes
introducteurs de complétive ou d’interrogative indirecte, les verbes introducteurs d’exclamative ne la
possèdent pas systématiquement. De plus, ils se distinguent souvent par un comportement particulier
lorsque l’exclamative est réduite et révèlent des contraintes multiples. Cette dernière particularité
justifie une représentation par automate.
Mots clefs: automate, exclamative indirecte, grammaire locale, réduction.
Abstract
The indirect exclamative sentence and the verbs introducing it in French have received little attention.
Often defined by the feature N1 = : Que P + si P ou P, which would make this class a sub-class of the
verbs introducing completive sentences or indirect interrogative sentences, the verbs introducing
exclamative sentences do not always satisfy this criteria. Moreover, they often have a specific
behaviour when the exclamative sentence is lacking and multiple constraints appear. This justifies the
use of automata for representing them.
Keywords: automata, indirect exclamative sentence, local grammar, reduction.
Introduction
Contrairement à l’exclamative directe, largement décrite, les grammaires françaises passent souvent
sous silence l’exclamative indirecte (Martinon, 1927 ; Wagner et Pinchon, 1962 ; Le Bidois, 1968;
Bonnard, 1997, 2001, etc.) ou lui consacrent peu de lignes (Arrivé, Gadet, Galmiche, 1986), Grevisse,
1986 et Le Goffic, 1993 constituant l’exception au sein des descriptions grammaticales, tout comme
Milner, 1978 parmi les études linguistiques.
Quand elle a droit de cité, l’exclamative indirecte est souvent traitée de pair avec l’interrogative
indirecte. Il est vrai que les différences formelles observables entre les deux types de construction
directe s’estompent dans la forme indirecte, notamment du fait que l’intonation distinguant
l’interrogation directe et l’exclamation directe est souvent neutralisée dans les constructions indirectes.
Les auteurs se plaisent également à souligner que les deux subordonnées partagent les mêmes termes
exclamatifs : déterminants (quel, combien de) ou adverbes (combien, si). Seul comme, qui ne s’observe
que dans les exclamatives, « prouverait à lui seul qu’il y a des exclamatives indirectes » (Milner,
1978 : 261), et l’on pourrait relever, encore dans le français actuel, des énoncés tels que Qui sait
comme il est parvenu à faire fortune ? où comme ne choque pas du tout l'oreille contemporaine.
De fait, dans les rares1 remarques concernant les verbes introducteurs, l’exclamative indirecte fait
l’objet d’un traitement commun avec l’interrogative indirecte (Le Goffic, 1993 : 264-265)2. Bien plus,
la caractérisation même des verbes introducteurs d’exclamative indirecte leur nie en quelque sorte
toute spécificité par rapport à ceux qui introduisent une interrogative indirecte, puisque « Les verbes
acceptant une subordonnée exclamative sont ceux qui peuvent être suivis d’une complétive en que ou
d’une interrogative indirecte » (Riegel, Pellat, Rioul, 1997 : 501). On suppose donc que les verbes
ayant la propriété N1 = : (Que P + si P ou P) dans les tables du lexique-grammaire3 sont susceptibles
d'introduire une exclamative, même si cette possibilité n’apparaît pas dans les tables, alors qu’elle
1
Cette lacune a été signalée en son temps par Leeman, 1996.
Sans que cela constitue le point central de son étude, Bodelot, 2005 évoque également le rôle des verbes
introducteurs, et notamment celui des verbes de perception, mais à propos du latin.
3
http://infolingu.univ-mlv.fr (M. Gross, 1975 ; Boons, Guillet, Leclère, 1976).
2
163
apparaît dans le classement syntactico-sémantique de Dubois et Dubois-Charlier, 1997. Dans les
étiquetages sémantiques, certaines familles comme les « verbes de connaissance » (Le Goffic, 1993)
comportent quelques unités censées introduire interrogative et exclamative, ce qu’illustrent
respectivement (1), (2) et (3), (4)4 :
(1) Paul sait comment il faut faire
(2) Si vous saviez comme c’est intéressant !
(3) Devine qui vient diner ce soir
(4) Devine quel bon repas j’ai préparé
Et même si le contenu de P permet souvent de décider si la subordonnée est exclamative ou
interrogative (Noailly, 2005), une phrase peut être ambiguë (Leeman, 2002), par exemple :
(5) Regarde si c’est soyeux
Dans une lecture interrogative, (5) se paraphrase par Regarde si c’est soyeux ou non, conformément à
la propriété si P ou P de l’interrogative ; une lecture exclamative donne Regarde à quel point c’est
soyeux, si étant sémantiquement voisin d’un adverbe de degré. Enfin, comme les complétives en que
(a), les deux subordonnées indirectes, interrogative (b) et exclamative (c), présentent des propriétés
communes, telle la pronominalisation en cela :
(a) Je déteste qu’il vienne. Je déteste cela
(b) Je me demande pourquoi il vient. Je me demande cela.
(c) Voyez comme c’est beau. Voyez cela.
Les marques de délimitation entre les deux types d‘indirectes semblent donc réduites.
Nous défendrons cependant l'idée que si elle partage avec l’interrogative les caractéristiques des
verbes introducteurs, l’exclamative indirecte mérite un traitement à part. D’une part, un verbe
introduisant une exclamative indirecte n’introduit pas nécessairement une interrogative indirecte5 :
(6) Tu penses (si +* pourquoi) j’ai accepté
D’autre part, lorsque le verbe introducteur est commun aux deux types de subordonnée indirecte, des
contraintes sur les modes ou les personnes affectent les verbes introducteurs d’exclamation indirecte.
Enfin, certains verbes introducteurs d’exclamative acceptent difficilement comme (Leeman, 1996 : 16)
dans certains types de phrase (déclaratif/impératif), à certaines personnes :
?? (Sache + Pense + Tu regardes + Tu ne regardes pas) comme il est joli
Notre hypothèse est que les verbes introducteurs d’exclamative ont un comportement propre. Seule
une recherche systématique sur les verbes ou les constructions correspondantes fera foi. Toutefois,
l’étude se limitera ici aux verbes et exclura les constructions être Adj comme C’est effrayant ce que P.
Les tables du lexique-grammaire, notamment les tables de verbes distributionnels et les tables de
phrases figées, serviront de référence. Nous recensons d’abord (§ 1) les différents types de verbes
introduisant une exclamative indirecte : ceux qui sont caractérisés par la propriété N0 V N1 où N1 =
Que P si P ou si P, et/ou par la propriété Que P, et ceux qui ne présentent aucune des deux propriétés.
Ensuite (§ 2), nous mentionnons des propriétés originales de certains verbes après réduction de
l’exclamative. Enfin (§ 3), nous faisons apparaître des contraintes particulières qui conduisent à opter
dans de nombreux cas pour une représentation par automate.
Les observations et le raisonnement s'appuient d'abord sur des énoncés forgés selon notre
intuition, ou repris des travaux existants (articles, ouvrages de linguistes, grammaires de référence,
dictionnaires), lesquels utilisent souvent des exemples attestés. Mais il reste évidemment à procéder à
des relevés systématiques dans des (grands) corpus diversifiés pour valider la consistance des
hypothèses et propositions ici avancées ici.
1. Les différents types de verbes introducteurs d’une exclamative indirecte
La propriété pour un verbe d’introduire une complétive ou une subordonnée interrogative
indirecte est marquée dans les tables du lexique-grammaire par la formule N0 V N1, N1 =: Que
P + si P ou si P qui concerne les structures transitives simples avec complément direct
phrastique dans les tables 6, 9, 12, 15 et 16 :
Max regarde si le lait chauffe ou non (table 6)
4
De même, imaginer peut introduire une complétive en que ou une exclamative.
De même, tel verbe introduisant une exclamative indirecte n’introduit pas de complétive en que : Regarde (comme + *
que) c’est beau.
5
164
Le témoin a ajouté qu’il était surpris (table 9)
L’enquêteur comprend qu’il s’est trompé (table 12)
Max répondra si tu peux venir ou non (table 15)
Max s’est rendu compte que c’était compliqué (table 16)
Dans ces tables, certains verbes peuvent introduire une exclamative. Mais les exclamatives
peuvent concerner des items de classes ne possédant pas ces propriétés.
Considérons d'abord les cas où les trois types de subordonnée existent.
1.1. Exclamative ou complétive ou interrogative
Parallèlement aux phrases complétive (7) et interrogative (8) :
(7) Tu ne peux pas savoir qu'il l'a aimée
(8) Tu ne peux pas savoir s’il est doué
le verbe savoir (table 6) peut introduire des phrases exclamatives :
(7a) Tu ne peux pas savoir comme il l’a aimée
(8a) Tu ne peux pas savoir comme il est doué
Tu ne peux pas savoir peut alors commuter dans (7a) et (8a) avec C’est incroyable. D’autres
verbes partagent ces propriétés, par exemple se rendre compte.
Des constructions verbales figées sont également concernées. Ces constructions complexes
mettent en jeu des verbes qui figurent seuls dans les tables de verbes simples : les expressions
s’accorder à dire, amener à croire, avoir le plaisir d’apprendre, conduire à croire ou encore
donner à penser de la table C_cppq.lgt, introduisent des exclamatives, des complétives en
que ou des interrogatives, tout comme les verbes simples correspondants dire, croire,
apprendre et penser. De même, la table C_cpq.lgt comporte des constructions complexes
mettant en jeu des verbes précédés de semi-auxiliaires, comme aller croire/imaginer, aller
voir/savoir, laisser présager/prévoir, finir par savoir, en venir à et se demander, dont les
compléments ne diffèrent pas des compléments observés avec les mêmes verbes simples.
D’autres constructions verbales figées de la table C_c6.lgt se caractérisent par une structure V
Adv, comme voir bien. Possédant la propriété si P, elles peuvent également introduire une
exclamative. L’analyse ne diffère alors pas de celle des verbes simples.
1.2. Exclamative ou complétive en que
Dans les classes 12 et 16, certains verbes acceptent parallèlement une complétive en que et
une exclamative. Ainsi, Tu penses peut introduire une complétive en que (9) ou une
exclamative en si (10) :
(9) Comme tu penses qu’il viendra, tu dois l’attendre
(10)
Tu penses s’il viendra ! Il n’oubliera pas.
L’exemple (10) est bien une exclamative et non une interrogative indirecte car la disjonction
si P ou P est impossible (10a) :
(10a) *Tu penses s’il viendra ou non. Il n’oubliera pas.
On remarquera que les contextes diffèrent (Tu dois l’attendre vs Il n’oubliera pas). Mais s’ils
ne sont pas interchangeables dans (9) :
*Comme tu penses qu’il viendra, il n’oubliera pas
ils le sont dans (10) :
Tu penses s’il viendra ! Tu dois l’attendre.
Même si que commute avec si dans (10) :
(10b) Tu penses qu’il viendra ! Il n’oubliera pas
il ne s’agit pas d’une complétive. En effet, que P ou P est incompatible avec la suite de la
phrase (10c), voire avec le verbe introducteur :
(10c) *Tu penses qu’il viendra ou non. Il n’oublie pas
Terme introduisant habituellement les exclamatives directes, que peut donc introduire une
exclamative indirecte6.
6
Cette caractéristique de que n’est jamais mentionnée à notre connaissance.
165
Sur le plan interprétatif, Tu penses peut être synonyme de Tu penses bien comme dans
(10b), qui est explicitable alors par Bien sûr que oui (il viendra), ou correspondre à une
antiphrase, ce qui donne :
Tu penses (s’ + qu’) il viendra! Bien sûr que non
Tu penses (si + que) P est donc ambigu sémantiquement, mais non syntaxiquement. Mais il
est plus facile de justifier cette ambiguïté dans le cas de Tu penses que P que dans celui de Tu
penses si P. En effet, aux deux interprétations peuvent correspondre respectivement Tu penses
que oui / Tu penses bien que P et Tu penses que non, alors que cette équivalence ne peut être
testée avec si P puisque ni *Tu penses si oui ni *Tu penses si non ne sont attestés.
Il n’existe pas de configuration où un verbe introduisant une exclamative n’introduirait
qu’une interrogative sans introduire une complétive (voir figures 1 et 2).
1.3. Verbes introduisant une exclamative seule
1.3.1. Verbes distributionnels
Certains verbes introduisent une exclamative sans posséder l’une des deux propriétés
mentionnées N1 = : Que P ou N1 = : si P ou si P (voir figures 1 et 2). Sont concernées :
la table 32R3 (11-14) définie par N0 V N1, avec N1 = Ncontraint :
(11)
Sens comme c’est parfumé
(12)
Regarde comme c’est beau
(13)
Écoute comme c’est beau
(14)
Entends comme il joue bien
la table 38L0 (15-16) définie par N0 V N1 (Loc N2), avec N0 = Nlieu et N1= corrélat de ce lieu :
(15)
Respire comme ça sent bon
(16)
Goûte comme c’est bon
et la table 38L1 (17-19) définie par N0 V N1, avec N1 = Nlieu et N0 = corrélat (ou argument) de
ce lieu :
(17)
Touche (ce tissu) comme il est soyeux
(18)
?Caresse ce chat comme il est doux
(19)
??Sonde (la galerie) si c’est profond
On objectera qu’un exemple comme (Regarde + Sens) si ça te plaît ou non est attesté et
semble posséder la propriété N1 = : si P ou si P. Mais la source complète étant pour voir si, la
subordonnée dépend donc de voir et non de regarde ou sens (voir en 1.2). On a donc des
exemples ambigus comme Goûte si c’est bon, où si = : comme P (exclamative) ou si P ou P
(interrogative). Mais des contraintes particulières séparent interrogative et exclamative (voir
3.).
1.3.2. Expressions figées
D’autres exemples sont fournis par la table C_cff.lgt. Le complément en comme fait partie
de la structure figée, contrairement aux autres classes d’expressions figées où l’exclamative
peut constituer une propriété supplémentaire. Ainsi, dans Il n’y a qu’à voir comme ou Il
faut/fallait voir comme, l’exclamative est spécifique de la construction.
Dans Tu parles (qu’ + s’) il était content, Tu parles n’introduit ni une complétive (20) ni
une interrogative indirecte (21) :
(20)
*Tu parles cela / * Tu le parles
(21)
*Tu parles si P ou si P
Que et si peuvent par d’ailleurs commuter avec comme dans la même interprétation. Tu parles
introduit donc une exclamative.
Mais les verbes introduisant exclusivement une exclamative restent relativement rares.
Table
6
9
12
Que P
+
+
+
Si P ou P
+
+
-
Exemple d’exclamative
Max constate combien ces mesures sont efficaces
Max a dit à Léa comme il était surpris
Max admire comme Léa travaille
166
15
16
32R3
38L0
38L1
+
+
-
+
+
-
Max se souvient comme Léa était jolie
Max s’est rendu compte comme elle avait menti
Écoute cette musique si c’est beau
Respire comme ça sent bon
Touche ce tissu si c’est doux
Figure 1 – Tables du LG. Verbes distributionnels admettant une exclamative
Table
Caractérisation sémantique
Que P
C2a
F3
H1d
« dire ou demander »
« frapper ou toucher qc »
« être dans tel état physique, humain »
+
-
Si P ou
P
+
-
P1g
« prendre qc ou qc comme objet d’activité
mentale »
« avoir tel sentiment à l’égard de qc »
« avoir ou ne pas avoir la connaissance de
qc, de qn »
+
+
+
+
+
P1i7
P3c
Exemple d’exclamative
Il a dit comme il était content
Touche si c’est doux
Écoute/sens/respire comme c’est
agréable
Contemple combien le désastre est
grand
Admire comme c’est bien dessiné
Il ignore comme c’est difficile
Figure 2 – Tables de LVF (les Verbes français).
À défaut de pouvoir caractériser les verbes étudiés autrement que par le mot introducteur
comme, dans l’ensemble des verbes possédant la propriété N0 V N1, N1 =: Que P + si P ou si
P nous mettons l’accent sur un comportement particulier associé à la réduction d'une
subordonnée (§ 2) et sur des contraintes multiples qui n’apparaissent pas lorsque le verbe
introduit une complétive ou une interrogative (§ 3).
2. Réduction de l’exclamative et changement de statut
Si dans Que penses-tu ? Tu penses qu’il faut geler le programme?, le complément doit être
obligatoirement exprimé ou pronominalisé, il en va différemment dans le contexte Il était
surpris. Tu penses ! où Tu penses a pour source Tu penses (qu’ + s’ + comme) il était surpris,
synonyme de Tu penses bien qui introduit une exclamative. L’exclamative présente donc des
propriétés différentes de la complétive vis-à-vis de la réduction. De plus, la phrase réduite
devenue autonome constitue à elle seule une exclamative (directe). Dans Marque-Pucheu,
2010, nous avons analysé des énoncés exclamatifs et défendu l’hypothèse que les énoncés Tu
peux pas savoir ! et Je te dis pas ! résultaient d’une réduction d’une indirecte exclamative et
devenaient exclamatifs à la faveur de cette ellipse. Nous avons également insisté (MarquePucheu, 2009) sur le changement de statut (de portée) associé à ces réductions.
L’exemple de C’est dire, auquel correspondent deux emplois, illustre le même phénomène.
Dans l’un, C’est dire introduit une complétive (22), non réductible (22a) :
(22)
Parler de qualité de service (c’est dire = cela revient à dire) que le service n’est
plus de qualité8
(22a) Parler de qualité de service c’est dire (que P + *E)
Dans l’autre, la forme elliptique C’est dire, paraphrasable par C’est dire à quel point cela se
passe de commentaires (Bidaud, 2002 : 89-90), est courante. Ainsi, dans l’exemple suivant
mettant en jeu c’est dire si P :
(23) Les plombiers polonais seraient officiellement 140 dans l'Hexagone. C'est dire si
l'ampleur de la perte qu'ils font subir... est importante" (http://forum.wordreference.com,
consulté le 6/03/2011)
où si peut commuter avec comme, la subordonnée peut être effacée :
(23a) Les plombiers polonais seraient officiellement 140 dans l'Hexagone. C'est dire.
7
8
Dubois et Dubois-Charlier, 1997 ne mentionnent pas la possibilité d’une exclamative pour cette classe.
http://blog.dicocitations.com
167
C’est dire renvoie à un contexte propositionnel (P2) différent du contenu de P1 et s’interprète
comme un intensif. C’est dire renvoie donc à une subordonnée exclamative indirecte.
Contrairement aux cas précédents, Tu parles ne peut pas introduire de complétive ni
d’interrogative indirecte. Dans les exemples (24-25) :
(24)
On sent l'odeur ! - Tu parles. On la renifle, elle nous entre dans la pensée, nous
chavire l'âme. (Barbusse, 1896)
(25) […] la science et la philosophie modernes se donnent des airs de marcher vers
l'Inconnu et de l'accueillir à bras ouverts. Tu parles ! Elles l'accueillent à coups de
bambou. (Romains, 1929)
Tu parles a bien pour source une exclamative. En effet, l’expression s’analyse comme
réduction de Tu parles que P ou si P :
(24a) On sent l'odeur ! – Tu parles (qu’ + si) on sent l’odeur
(25a) […] Tu parles (qu’ + si) elles l'accueillent à coups de bambou.
où que commute avec comme dans la même interprétation intensive et ne peut introduire une
complétive, ce qu’indiquent les exemples non attestés *Tu parles cela/*Tu le parles9. De
même, si ne peut introduire une interrogative (*Tu parles si P ou P), et ce, que l’interprétation
soit positive (Tu parles que oui) ou oriente vers la négation (Tu parles que non) :
(24b) Tu parles (qu’ + si) on sent l’odeur = (Bien sûr qu’) on sent l’odeur
(25b) Tu parles (qu’ + si) elles l’accueillent à bras ouverts = (Bien sûr qu’) elles ne
l’accueillent pas à bras ouverts.
Devenue « autonome », l’expression constitue à elle seule une exclamation.
Même si l'on peut corréler les contraintes atteignant Tu parles! au figement de
l’expression, il n'en reste pas moins que les verbes (non figés) introducteurs d’exclamative se
caractérisent eux-mêmes par le fait qu’ils présentent de multiples contraintes.
3. Contraintes et représentation
D'une manière générale, les contraintes associées aux verbes introducteurs d'exclamative sont
plus importantes que dans le cas de subordonnées interrogatives ou complétives.
3.1. Contraintes simples et contraintes multiples
Les contraintes simples peuvent porter sur différents points :
 la personne, un cas extrême étant constitué par Tu penses ! qui n'accepte qu’une variation
de nombre (Vous pensez !). On contrastera la complétive (26) et l’exclamative (27-28) :
(26)
(Tu penses + Il pense + Nous pensons + Vous pensez) que l’heure est venue
(27)
(Tu penses + Vous pensez) si elle est contente
(28)
(*Il pense + *Nous pensons) si elle est contente
 le type de phrase. Savoir autorise le type déclaratif (Tu sais comme il est gentil) mais non
le type impératif (*Sache comme il est gentil).
 le sous-type de phrase (négative)10. On opposera (29-30) à (31-32) :
(29)
(Regarde + Il regarde) comme il fait beau
(30)
(Écoute + Elle écoute) comme il crie
(31)
?*(Ne regarde pas + Il ne regarde pas) comme il fait beau
(32)
?*(N’écoute pas + ?*Elle n’écoute pas) comme il crie
 le mot introducteur. On opposera comme (33) à ce que (34) :
(33)
J'écoute comme c'est beau
(34)
?*J'écoute ce que c'est beau
Mais Écoute ce que c'est beau! est plus attesté.
9
On peut penser que ces manipulations sont interdites parce que Tu parles est une locution et non parce que c’est une
exclamative. Voir note 10.
10
Leeman, 1996 oppose l’exemple de ??Tu ne penses pas comme il est gentil à Tu penses comme il est gentil.
168
De fait, certaines de ces contraintes se croisent.
 type de phrase et terme introducteur. Sentir autorise une exclamative avec comme aux
types impératif et indicatif (Sens comme c’est soyeux / Il sent comme c’est soyeux). Mais
le type déclaratif est incompatible avec si : si c’est soyeux ne peut être considéré comme
une exclamative indirecte que dans Sens si c’est soyeux, et non dans Il sent si c’est soyeux.
Cette remarque s’applique également à toucher et regarder.
 mode et type. Le blocage avec la négation n’existe avec imaginer qu’à l’impératif alors
que Tu imagines est préférable avec le sous-type négatif :
(35)
(??Tu imagines + Imagine) comme il était content
(36)
(Tu n’imagines pas + ?*N’imagine pas) comme il était content
 personne et sous-type de phrase. La négation est bloquée par les personnes 1 et 4 (38) :
(37)
(Je sais + Elle sait + Nous savons) comme il est gentil
(38)
(??Je ne sais pas + Elle ne sait pas + ??Nous ne savons pas) comme il est gentil
 (absence de) modal et sous-type de phrase. Le verbe croire à la 3e personne ne peut
introduire une exclamative, qu’il figure dans une phrase positive ou négative (39) :
(39)
*Il croit ce que j’étais contente / *Il ne croit pas ce que j’étais contente vs
Crois-tu si j'étais contente !
Mais l’insertion d’un modal rend possible la négation (40), tout en restant incompatible avec
une phrase positive (41) :
(40) Il ne peut pas croire ce que j’étais contente
(41) *Il peut croire ce que j’étais contente
Devant la multiplicité des contraintes associées elles-mêmes au verbe en jeu, une solution
consiste à recourir à des automates. Cette idée, chère à M. Gross, selon laquelle il faut
procéder au cas par cas se trouve confirmée ici : rien ne garantit a priori que ce que l'on
observe avec tel verbe s’appliquera avec tel autre, et donc toute généralisation qui serait
préalable à une observation systématique est vouée à l'échec. C'est en fonction de ce principe
que doit être justifié le recours aux grammaires locales. En effet, les structures linguistiques
difficilement représentables dans les tables du LG peuvent être représentées par des
automates, c’est-à-dire des outils qui définissent un ensemble de séquences attestées par
concaténation/disjonction/négation.
3.2. Représentation par automate : l’exemple de savoir
Faute de place, nous ne donnons pas l’ensemble des phrases générées par l’automate qui
montrerait par exemple que Dieu ne s’accommode guère que de savoir.
169
Conclusion
Bien qu’elles ne mentionnent pas la possibilité d’observer une exclamative, les tables du
lexique-grammaire comportent des verbes introducteurs d'exclamative dans les classes 6, 9,
12, 15 et 16 qui présentent la propriété N0 V N1, N1 =: Que P + si P ou si P. Mais certains
verbes concernés figurent aussi dans les tables 32R3, 38L0 et 38L1 et peuvent être régularisés
par introduction de voir si. L’ensemble donne un total de 7 tables, 2 étant apparentées (38L0
et 38L1). Le classement de LVF (Dubois et Dubois-Charlier 1997) fait apparaître un
morcellement légèrement moindre, puisque les exclamatives se répartissent dans 4 classes, C
(« communication »), F (« frapper, toucher »), H (« états physiques et comportements ») et P
(« verbes psychologiques »), P donnant à lieu à trois sous-classes (P1g, P1i et P3c). La
présence d’une exclamative y est toujours corrélée à la possibilité d'observer une interrogative
ou une complétive dans les classes C et P, mais n’est pas mentionnée dans les classe F et H.
D’une manière générale, au sein des tables présentant la propriété N0 V N1, N1 =: Que P +
si P ou si P, tous les verbes n’introduisent pas d’exclamative. Plus discriminante, la propriété
N0 V N1, N1 =: comme mériterait d’être rajoutée. Mais elle ne constituerait qu’une indication
générale. En effet, les incompatibilités multiples entre tel verbe et tel mot introducteur, tel
verbe et tel type de phrase ou encore tel verbe et telle personne, révèlent un fonctionnement
extrêmement complexe. Devant cette explosion combinatoire, une grammaire locale de ces
verbes, avec représentation par automate, serait donc nécessaire. Cependant, une grammaire
locale déterministe risque à son tour d’être ingérable de par sa complexité. Peut-être alors
faudrait- il envisager des traitements à base de corpus pour garantir une bonne couverture de
la grammaire.
Références
Arrivé M., Gadet F., Galmiche M., 1986, La grammaire d’aujourd’hui. Guide alphabétique de linguistique
française, Paris, Flammarion.
Bidaud F., 2002, Structures figées de la conversation. Analyse contrastive français-italien, Berne, Lang.
Bodelot C. 2005, « L’exclamation indirecte introduite par un thème en *kw- du latin préclassique au latin
tardif », Revue de philologie, de littérature et d’histoire anciennes, tome LXXIX, 35-57
Bonnard H., 1997, Code du français courant, Paris, Magnard.
Bonnard H., 2001, Les trois logiques de la grammaire française, Paris, Duculot.
Boons J.-P., Guillet A., Leclère, C., 1976, La structure des phrases simples en français. Constructions
intransitives, Genève, Droz.
Dubois, J. & Dubois-Charlier, F., 1997, Les Verbes français, Paris, Larousse-Bordas.
Grevisse M., 1986, Le bon usage. Grammaire française, Paris, Duculot.
Gross M., 1975, Méthodes en syntaxe, Paris, Hermann.
Le Bidois G., Le Bidois R., 1968, Syntaxe du français moderne, Paris, A. Picard.
Le Goffic, P., 1993, Grammaire de la phrase française, Paris, Hachette.
Leeman D., 1996, « Recherches grammaticales au collège : la phrase exclamative », journée d’étude
L’enseignement de la grammaire co-organisée à Arras par l’IUFM Nord-Pas-de-Calais et l’Université
d’Artois, Actes 1998 CNDP Nord-Pas-de-Calais.
Leeman D., 1996, La phrase complexe – les subordinations, Bruxelles, De Boeck-Duculot.
Marque-Pucheu C., 2009, « Mots-phrases, expressions situationnelles : figement énonciatif et changement de
portée », Arena romanistica 4, 224-233.
2010, « Exclamation et changement linguistique dans les énoncés situationnels Je te dis pas ! et Tu peux pas
savoir ! », « Слово, высказывание, текст в когнитивном, прагматическом и культурологическом
аспектах », tome 2, Actes du 5e colloque international, Tchéliabinsk, Russie (27-29 avril 2010), 298-303.
Martinon Ph., 1927, Comment on parle en français, Paris, Larousse.
Milner J.-C., 1978, De la syntaxe à l’interprétation, Paris, Seuil.
Noailly M., 2005, « Si dans l’exclamation indirecte, ou l’alternative disparue », in Lambert, Frédéric & Nølke,
Henning (éds), 2005, La syntaxe au cœur de la grammaire. Recueil offert en hommage pour le 60e
anniversaire de Claude Muller, Rennes, Presses Universitaires de Rennes, 217-224.
Riegel M., Pellat J.-C., Rioul R., 1997, Grammaire méthodique du français, Paris, PUF.
Wagner R. L., Pinchon J., 1962, Grammaire du français classique et moderne, Paris, Hachette.
170
Martineau Claude
Université Paris-Est
[email protected]
Voyatzi Stavroula
Université Paris-Est
[email protected]
CONSTRUCTION DES RESSOURCES POUR LA DETECTION D’OPINIONS ET
L’ANALYSE DE SENTIMENTS : ATTRIBUTION DE POLARITE ET CALCUL
INCREMENTAL DE L’INTENSITE
Résumé
Cet article décrit notre contribution sur la détection d’opinions et de la polarité dans les blogs et les
enquêtes de satisfaction client, et porte plus spécifiquement sur l’étude et la construction du
vocabulaire permettant de caractériser une opinion positive ou négative dans les documents.
L’approche adoptée ici pour l’analyse et détection d’opinions s’appuie sur la fusion d’un modèle
sémantique et d’un modèle numérico-symbolique. Une méthode incrémentale est mise en œuvre
permettant de calculer l’intensité des segments évaluatifs en tenant compte de phénomènes
linguistiques complexes tels que la négation, la comparaison, la coordination ou l’opposition.
Mots-clés: détection d’opinions et sentiments, segment évaluatif, polarité, intensité.
1. Introduction
Avec l’émergence du Web, et surtout du Web 2.0, le nombre de documents contenant des informations
exprimant des opinions, des sentiments ou des jugements d’évaluation devient de plus en plus
important. Récemment, les chercheurs de différentes communautés, i.e. Fouille de données,
Linguistique, Traitement Automatique des Langues, se sont intéressés à l’extraction automatique de
ces données d’opinions sur le Web. La détection ou l’extraction automatique d’opinions ou encore
d’assertions objectives ou subjectives dans un texte est alors un domaine de recherche en pleine
expansion (Wiebe et al., 2005 ; Yang et al., 2007).
Du point de vue des utilisateurs, les deux principales applications de ce type de détection
concernent, d’une part, l’analyse automatique d’opinions dans des messages contenant par exemple
l’avis de consommateurs sur un produit ou un phénomène particulier (Popescu & Etzioni, 2005), et
visent plus particulièrement le développement de tâches de veille (technologique, concurrentielle,
sociétale), l’évaluation d’un produit par la communauté avant un achat, la détection de rumeurs (buzz)
sur le web ou encore la détection d’opinions émergents et/ou significatives dans les forums. D’autre
part, l’analyse de la subjectivité d’une phrase est essentielle notamment pour les systèmes de résumé
automatique ou de question/réponse (Riloff & Wiebe, 2003). D’un point de vue scientifique, la
problématique posée par la détection d’opinions se situe dans le cadre de la compréhension
automatique de messages. Ce problème constitue une possibilité d’aborder un niveau intermédiaire
entre la simple détection des entités présentes et l’analyse sémantique complète du message.
Nombreuses sont les questions1 qui sont liées à la tâche de détection d’opinions et qui sont au cœur
des principaux axes de recherche. Dans cet article, nous nous intéressons plus particulièrement à
l’étape de construction et structuration du vocabulaire permettant de caractériser une opinion positive
ou négative d’un document. L’article est organisé de la manière suivante : la section 2 présente
brièvement un état de l’art des principales approches pour la détection d’opinion et de la polarité. La
section 3 décrit les expériences réalisées à partir de données réelles issues de blogs et d’enquêtes de
satisfaction client. Le calcul incrémental de l’intensité et son implémentation sont décrits
respectivement dans les sections 4 et 5. La section 6 donne un aperçu global des ressources lexicales
développées.
1
A savoir : (i) la modélisation linguistique et informatique ainsi que la gestion des données d’opinion (qu’est-ce
qu’une « opinion », comment la représenter informatiquement ?) ; (ii) l’expression en langue et en discours
(comment les opinions, sous leurs différentes facettes, sont-elles formulées ?) ; (iii) la construction, l’acquisition
et la validation des ressources linguistiques ; (iv) les méthodes pour identifier, annoter et extraire
automatiquement opinions et sentiments dans des documents textuels ou audiovisuels ; etc.
171
2. La détection d’opinions et l’analyse de sentiments
Plusieurs travaux se sont intéressés à la détection d’opinions et à la détection de la polarité. La
détection d’opinions est une tâche qui permet d’extraire les opinions d’un ensemble de documents
pertinents pour un sujet donné. Elle est confrontée à des problèmes qui la distinguent de la recherche
traditionnelle thématique dont les sujets sont souvent identifiés par des mots-clés seulement. L’opinion
peut être exprimée de manières très variées et subtiles, et donc il est souvent difficile de la déterminer
exactement. La classification du sentiment (polarité) est une sous-tâche de la détection d’opinions. Elle
consiste de façon générale à déterminer si l’opinion du document sur le sujet est positive ou négative.
De ce fait, plusieurs travaux de recherche se sont intéressées à ce problème, par exemple, (Pang &
Lee, 2008) essaient de quantifier le sentiment, (Mishne & de Rijke, 2006a) capturent les niveaux
d’humeur dans des notes de blogs, ou encore (Mishne & Glance, 2006) président les ventes de film en
fonction des notes des Bloggers.
Afin d’évaluer les résultats des chercheurs dans le domaine, plusieurs campagnes d’évaluations ont
vu le jour. Sur le plan international, citons tout d’abord TREC qui signifie « Text Retrieval
Conference » et désigne l’ensemble des conférences organisées par le NIST (National Institute of
Standard and Technology)2 sur la recherche d’information. Plusieurs tâches ont fait l’objet de
recherches dans ces conférences, dont le Blog Track qui a été introduit en 2006. Chaque année, de
nouvelles tâches sont définies dans la détection d’opinions et la détection de la polarité3. Signalons
encore la campagne d’évaluation internationale SemEval 2007 qui intègre en complément de la tâche
d’annotation des textes en fonction de la polarité, une tâche d’annotation des textes à partir d’une liste
d’émotions prédéfinies (e.g. peur, colère, joie, surprise, etc.).
Sur le plan francophone, plusieurs sont les ateliers et les campagnes d’évaluation en fouille de
données d’opinion qui témoignent d’un intérêt croissant pour leur traitement informatisé. En 2007, le
défi DEFT (Défi Fouille de Textes) organisé par le LIMSI a porté sur la classification de textes en
français selon le jugement favorable ou défavorable qu’ils expriment. En mai 2008, l’atelier
FODOP’08 (Fouille de Données d’Opinions) organisé conjointement à la Conférence INFORSID
avait pour objectif de promouvoir des échanges entre chercheurs issus de différentes communautés.
Dans la littérature, il existe généralement deux types d’approches pour la détection d’opinion et de
la polarité. Certaines sont basées sur le lexique, d’autres sur l’apprentissage. Le premier type
d’approche utilise un lexique de mots qui désignent un sentiment. Ce lexique est soit externe c’est-àdire construit indépendamment de tout corpus, et dans ce cas, il peut être général (SentiWordNet4,
lexique SUBJ, General Inquiry, Wilson lexicon) ou construit manuellement, soit généré
automatiquement à partir du corpus (les mots qui contiennent une opinion sont extraits directement du
corpus). À chaque mot du lexique est associé un ensemble de scores d’opinions et du score de la
polarité. Ce score est traité différemment par les différentes approches pour le calcul du score
d’opinion d’un document. La méthode la plus simple est de donner à un document un score égal au
nombre total de mots qui contiennent une opinion présents dans le document (e.g. Zhou et al., 2007 ;
Fautsch & Savoy, 2008).
Le deuxième type d’approche basée sur l’apprentissage automatique consiste à attribuer des
données à un classifieur pour l’apprentissage. Ce dernier génère un modèle qui est utilisé pour la
partie test de l’apprentissage. Ce type d’approche comprend deux aspects : extraction de features et
apprentissage du classifieur. Les principales features utilisées sont les suivants : mots seuls,
bigrammes, tri-grammes, parties du discours (POS, analyse de l’arbre syntaxique) et polarité. Les
principaux classifieurs sont les SVM, Naive Bayes, Maximum Entropy et la régression logistique
(Song et al., 2007 ; Mishne & de Rijke, 2006b ; Lee et al., 2008).
Notre expérimentation utilise un modèle de représentation et d’analyse des opinions et sentiments
qui s’appuie sur la fusion d’un modèle sémantique et d’un modèle numérico-symbolique combinant
une expertise linguistique avec des outils d’intelligence artificielle. Nous présentons notre approche
plus en détail en section 3.2.
2
http://www.nist.gov/index.html.
http://trec.nist.gov/.
4
http://sentiwordnet.isti.cnr.it/.
3
172
3. Étude expérimentale
Notre étude s’inscrit dans le cadre du projet de Recherche et Développement DoXa, labellisé par le
pôle de compétitivité francilien CAP DIGITAL, et qui concerne le domaine de l’Ingénierie des
Connaissances. Le projet vise à mettre en place une plateforme de technologies et méthodologies
d’analyse automatique des opinions et sentiments (abrégés en O&S) au sein de grands volumes de
textes rédigés en langue française. Le présent travail porte sur la construction et structuration du
vocabulaire permettant l’extraction des données d’opinion positives ou négatives.
Dans le cadre de nos recherches, nous prenons l’opinion au sens de jugement de valeur (par
opposition au jugement de réalité) sur une entité concrète ou abstraite laquelle peut être un objet, une
idée, un projet, un fait, un événement, une situation, ou une personne. Cette entité est le thème sur
lequel porte l’opinion. Comme l’indique (Kerbrat-Orecchioni, 1980), « le jugement de valeur peut-être
exprimé de manière affective –engagement affectif de l’énonciateur vis-à-vis de l’objet qualifié– ou de
manière évaluative ou appréciative –engagement intellectuel de l’énonciateur vis-à-vis de l’objet
qualifié. Le jugement peut être exprimé à la fois de manière affective et de manière évaluative ».
3.1. Corpus d’étude et environnements logiciels
Le langage des opinions et sentiments dépend fortement du domaine concerné, ce qui implique que,
malgré notre ambition de pouvoir couvrir à l’aide de nos ressources de grands corpus avec des
domaines et sous domaines variés, plus nous diversifions le domaine moins les résultats d’extractions
seront précis. Pour les besoins du projet, nous avons utilisé deux corpus. D’une part, un corpus portant
sur les jeux vidéo, et composé de critiques, de blogs, de reportages sur des salons ou événements ayant
traits au domaine des jeux vidéo et touchant parfois celui du cinéma. Ce corpus se présente sous la
forme de 7.665 articles et contient 13.601.826 mots. D’autre part, un corpus rassemblant des
conversations téléphoniques issues d’une enquête de satisfaction client qui contient 7.256.055 mots.
Les textes analysés dans le cadre de nos travaux sont principalement des textes de types posts dont la
longueur est comprise en moyenne entre 200 et 2000 mots.
Nous utilisons conjointement deux environnements logiciels. D’une part, Unitex 3.0. beta
(Paumier, 2003), développé à l’Université Paris-Est, est un environnement logiciel open source multiplateforme et multilingue. Il permet d’analyser des textes en langue naturelle en utilisant des
ressources linguistiques telles que des dictionnaires électroniques, des grammaires locales ou des
tables de lexique-grammaire qui sont représentées sous forme d’automates, de transducteurs ou (pour
les grammaires locales) de réseaux de transitions récursifs RTN. D’autre part, le moteur d’analyse
HST (High Speed Transducer) développé par la compagnie Arisem, utilise des formats semblables à
ceux d’Unitex, et gère également des ressources de type ontologique.
3.2. Méthode d’analyse et de détection des opinions et sentiments
La méthode d’analyse et de détection des opinions et sentiments proposé ici s’appuie sur la fusion
d’un modèle sémantique et d’un modèle numérico-symbolique. Elle vise à aller au-delà d’une
classification binaire permettant de catégoriser les textes selon l’axe de la polarité ou d’une
classification quaternaire croisant l’axe de la polarité et l’axe de l’intensité. Elle vise également à
mettre en œuvre pour un texte donné, une analyse locale des opinions ou sentiments exprimés au
niveau phrastique, et une analyse globale des opinions ou sentiments exprimés au niveau des portions
de texte et du texte entier. L’objectif est de permettre la mise en œuvre de parcours d’analyse allant
d’une vision macro et quantitative à une vision micro et qualitative.
En schématisant, le modèle DoXa intègre une représentation des O&S qui s’articule sur trois
niveaux :
i.
MICRO : l’analyse est faite au niveau de la phrase ou portion de phrase.
ii.
MESO : l’analyse concerne le paragraphe ou la portion de texte.
iii.
MACRO : l’analyse porte sur l’ensemble du texte.
Au niveau MICRO, l’analyse est effectuée grâce à une approche symbolique qui, malgré un coût
parfois élevé, permet d’annoter le plus finement possible des segments de texte sensiblement longs (≤7
mots), appelés segments évaluatifs, et de leur attribuer des traits tels que la polarité et l’intensité.
Cette annotation s’appuie sur un ensemble de catégories sémantiques d’O&S que nous décrivons en
détail en section 3.3.
173
L’application du modèle numérico-symbolique permet de synthétiser l’ensemble des annotations
posées au niveau MICRO afin de caractériser premièrement le contenu évaluatif de chaque paragraphe
(niveau MESO) et, ensuite, dans un second temps, celui du texte dans son intégralité (niveau
MACRO). Elle permet également, notamment lorsque les informations sont ambigües, imprécises,
contrastées voire contradictoires, de prendre des décisions sur des annotations isolées, par exemple
« je suis ni content ni mécontent » ou « je suis à la fois en colère et déçu ». La composante numéricosymbolique est fondée sur des opérateurs et des heuristiques d’agrégation issus de l’apprentissage
automatique et la théorie des ensembles flous. Nos travaux de recherche sont consacrés à l’analyse et
annotation fine des O&S au niveau MICRO5.
3.3. Modèle de représentation sémantique des opinions et sentiments
Les annotations produites reposent sur le modèle O&S du projet DoXa, qui est inspiré des travaux de
(Mathieu, 2006) sur la classification des verbes de sentiment, et la théorie de l’évaluation (Martin et
al., 2005). Un premier jeu de catégories sémantiques a été soumis à des annotateurs humains pour
évaluation sur un corpus de posts issus de blogs portant sur les jeux vidéos. Les retours des
annotateurs ont permis de simplifier le modèle, en réduisant le nombre de catégories initialement
définies sur la base de regroupements des catégories. Le tableau 1 présente les vingt catégories
sémantiques retenues, munies de leur polarité intrinsèque, de leur étiquette en anglais (utilisée dans les
ressources avec le préfixe cat_), de celle de la catégorie antonyme si elle existe et, enfin, illustrées
d’un exemple.
Ces catégories sémantiques s’appliquent à tout type de catégorie grammaticale appelées ici
constituants de base : adjectif, nom, verbe, adverbe et expression (semi-)figée. La présence d’une
négation dans la phrase peut donner lieu à une inversion de polarité qui se traduit dans l’annotation du
segment évaluatif traité, soit par un passage à la catégorie antonyme (cf. Etiquette Cat. Antonyme)
soit par l’ajout de l’attribut neg. En voici quelques exemples :
intéressant, cat_Satisfaction|int3
pas intéressant, cat_Dissatisfaction|int3
inquiet, cat_Fear|int3
pas inquiet, cat_Fear|int3|neg
Catégorie Sémantique
Accord
Colère
Apaisement
Valorisation
Ennui
Mépris
Dévalorisation
Mésentente
Gêne
Déplaisir
Insatisfaction
Crainte
Surprise Négative
Plaisir
Surprise Positive
Tristesse
Satisfaction
Connotation méliorative
Connotation péjorative
Attente
Polarité Intrinsèque
positive
négative
positive
positive
négative
négative
négative
négative
négative
négative
négative
négative
négative
positive
positive
négative
positive
positive
négative
neutre
Etiquette
Agreement
Anger
Appeasement
Appraisal
Boredom
Contempt
Depreciation
Disagreement
Discomfort
Displeasure
Dissatisfaction
Fear
NegSurprise
Pleasure
PosSurprise
Sadness
Satisfaction
MelConnot
PejConnot
Expectation
Etiquette Cat. Antonyme
Disagreement
Depreciation
Appraisal
Agreement
Satisfaction
PosSurprise
NegSurprise
Dissatisfaction
Exemple
approbation
exaspération
rassurée
bienveillant
rébarbatif
<prendre> en grippe
dénigrer
<mettre> en doute
perturber
répugnant
incompétent
effroi
sidéré
divertir
<couper> le souffle
découragement
adorable
bravo
problématique
souhaiterais
Tableau 1. Catégories sémantiques des opinions et sentiments
5 Au sein du projet DoXa, la tâche d’agrégation d’annotation est confiée au Laboratoire d’Informatique de
Paris 6 (LIP6), quant à celle d’annotation MICRO, elle est le fruit de la collaboration du LIGM et de la société
ARISEM.
174
4. Annotation des segments évaluatifs et calcul de l’intensité
L’annotation d’un segment évaluatif indique son appartenance à une ou plusieurs catégories
sémantiques (cf. tableau 1 ci-dessus), chacune munie d’une valeur d’intensité prise sur une échelle en
comportant dix (1-10). Cette intensité résulte de la prise en compte de l’intensité intrinsèque6 associée
à tout constituant de base prenant ses valeurs entre 3 et 7, et éventuellement d’un ou plusieurs
modifieurs spécifiques qui possèdent trois niveaux en intensification comme en atténuation. Les
valeurs inférieures (<3) et supérieures (>7) sont respectivement atteintes par l’application de ces
modifieurs. L’exemple suivant présente un adjectif isolé, puis combiné avec deux modifieurs
différents :
intéressant, cat_Satisfaction|int3
très, AdvInt2
très intéressant, cat_Satisfaction|int5
peu, AdvAtt1
peu intéressant, cat_Satisfaction|int2
La modification d’intensité peut également être produite par la présence de préfixes (e.g. ultra
intéressant, mega jeu), de superlatifs (e.g. le jeu le plus marrant du monde), ou encore de modifieurs
adverbiaux divers (e.g. très, extrêmement, à peu près satisfait). Nous avons divisé ces derniers en huit
classes7. Pour expliquer le processus du calcul de l’intensité, nous avons construit une phrase
d’exemple qui intègre l’ensemble des niveaux de modification d’intensité traités par les ressources
développés :
Ce jeu est unanimement vraiment le plus hyper intéressant qu’on connaisse
L’adjectif intéressant est précédé de plusieurs mots qui contribuent chacun à leur tour à la
modification de son intensité de base (intensité intrinsèque = 3). L’intensité de base pouvant prendre
dix valeurs, celle des modifieurs pouvant en prendre trois en intensification comme en atténuation, les
combinaisons s’avèrent fort nombreuses. Cette explosion combinatoire rend quasiment impossible le
calcul de l’intensité résultante par un simple transducteur. C’est pourquoi nous avons dû opter pour
une approche incrémentale qui calcule l’intensité résultante8 de proche en proche. Cette méthode est
explicitée par la ligne ci-dessous dans laquelle les crochets symbolisent l’intensité intrinsèque ou la
modification d’intensité apportée par un constituant de base ; et les parenthèses, la manière dont ces
intensités sont deux à deux combinées :
Intensité résultante = ( ( [unanimement] [vraiment] ) ( [le plus] ( [hyper] [intéressant] ) ) )
10
=
+1
+2
+2
+3
3
4.1. Annotation des segments évaluatifs consécutifs
Les ressources de chaque catégorie sémantique représentées sous forme de graphe dictionnaire et les
données indiquant l’ordre dans lequel les appliquer constituent un module. L’analyse des segments
évaluatifs consiste d’abord à traiter le texte par un module appelé transverse qui reconnaît les
modifieurs de toutes sortes ainsi que les négations. Ensuite, les modules des catégories sémantiques
(cf. tableau 1, section 3.3) sont successivement appliqués au texte afin de reconnaître chacun les
données lexicales qui leur sont propres. En les combinant avec les négations et modifieurs
précédemment identifiés, on produit les annotations des segments complexes. Un ultime traitement,
s’appuyant sur la présence des connecteurs, permet de repérer parmi les segments reconnus ceux qui
seraient diversement reliés entre eux : comparatifs (supériorité, égalité, infériorité), conjonctifs
(coordination, disjonction, énumération, opposition). En voici quelques exemples extraits de nos
corpus d’étude :
6
Nous situant dans une perspective de TAL et de linguistique de corpus, nous avons adopté une démarche
empirique et itérative pour l’attribution des valeurs d’intensité intrinsèque aux constituants de base. Faute de
données appropriées pour le français, nous avons fait appel à des linguistes de l’équipe du LIGM qui ont attribué
des intensités sur un certain nombre représentatif des unités lexicales (constituants de base). Puis, les retours des
annotateurs ont permis, d’une part, de résoudre les conflits de valeurs attribuées et, d’autre part, de définir une
échelle opérationnelle pour le calcul de l’intensité.
7
Bien qu’ils ne soient pas tous des quantifieurs stricto sensu, nous avons tenté de traduire au niveau de
l’intensité (seule variable de notre modèle) les variations aspectuelles ou modales qu’ils peuvent apporter, et qui
incluent des notions comme par exemple, la source de l’information émise ou le positionnement du locuteur
vis-à-vis de son énoncé.
8
Toute valeur de l’intensité résultante qui dépasse l’intensité maximale de 10 est remplacée par 10.
175
plus de frustration que de plaisir,.ComparSup+Annotation1=cat_Dissatisfaction|int5+
DissatisfactionNoun;Annotation2=cat_Pleasure|int3}+PleasureNoun
charmante mais pas forcément compétente,.Opposition+Annotation1=cat_Satisfaction|int4+
SatisfactionAdj;Annotation2=cat_Depreciation|int3+DepreciationMais+MaisComp
5. Implémentation et importation sous Unitex
En termes d’implémentation, sous HST, cette approche s’exprime à l’aide d’un format de ressources
intermédiaire entre dictionnaire et grammaire que nous appellerons dictionnaires de motifs. Ils sont
composés de lignes dont la partie gauche est semblable à une expression régulière simplifiée et la
partie droite à une entrée de dictionnaire Dela. Chaque ligne est comparable à une grammaire à plat
représentable par un graphe ne comportant qu’un seul chemin comme par exemple : <faire> d’une pierre
deux coups −> Expression+Verbe.
Les dictionnaires de motifs sont utilisés pour représenter, d’une part, des constituants de base avec
leur intensité intrinsèque ou la modification d’intensité qu’ils opèrent :
<avoir> le bourdon −> cat_Sadness|int4+SadnessSemiFrozen.
D’autre part, ils représentent des règles de modification de l’intensité comme :
{AdvInt2} {cat_Displeasure|int1} −> cat_Displeasure|int3+DispleasureComp.
En appliquant, dans l’ordre adéquat, de tels dictionnaires, on peut reconnaître chaque composant d’un
segment évaluatif (simple ou complexe), et calculer de manière incrémentale son intensité. Lors de
l’analyse d’une phrase, HST utilise, d’une part, des ressources de type ontologique pour capter les
thèmes sur lesquels portent les opinions exprimées dans les segments évaluatifs ; et, d’autre part, des
ressources représentées par des grammaires locales ou des dictionnaires pour traiter les segments
évaluatifs.
Afin de profiter des possibilités des deux environnements HST et Unitex, et d’améliorer ainsi
potentiellement les ressources produites, nous avons développé un programme qui permet d’importer
dans l’environnement Unitex des données issues de HST. Chaque dictionnaire de motif est importé
sous la forme d’un graphe dictionnaire qui s’applique comme un dictionnaire Dela et construit
dynamiquement des entrées dans le dictionnaire du texte. À titre d’exemple, considérons le mini
dictionnaire ci-dessous qui comprend divers types d’entrées9 impliquées dans le traitement de notre
exemple :
hyper −> PrefInt3+ModInt3+PrefModifier
<intéressant> −> cat_Satisfaction|int3+SatisfactionAdj+SatisfactionAdjInt3
{PrefInt3}={SatisfactionAdjInt3} −> cat_Satisfaction|int6+SatisfactionAdjInt6+SatisfactionPref
Voici (cf. figure 1) le graphe dictionnaire équivalent généré par le programme d’importation :
Figure 1. Graphe dictionnaire issu d’un dictionnaire de motif
L’application d’un ensemble de graphes dictionnaires à notre exemple de référence permet de
visualiser sous Unitex (cf. figure 2 ci-dessous), dans le dictionnaire du texte, les analyses et intensités
partielles consécutivement produites, i.e. hyper intéressant, le plus hyper intéressant, ainsi que le
segment évaluatif intégralement reconnu avec l’intensité correcte :
9
Hyper est un préfixe intensifieur entrainant une incrémentation d’intensité +3, <intéressant > permet de
reconnaitre les formes fléchies de cet adjectif auxquelles une intensité intrinsèque de 3 est attribuée. La dernière
ligne est une règle qui calcule l’intensité résultante d’un préfixe intensifieur d’intensité +3 appliqué à un adjectif
de catégorie Satisfaction d’intensité 3. Le signe « = » permet d’accepter les formes avec ou sans trait d’union.
176
Figure 2. Dictionnaire du texte : segments évaluatifs reconnus
6. Dictionnaires d’opinions et sentiments
Les dictionnaires contiennent, à ce jour, 6.703 entrées de type lexical et 23.188 entrées de type
grammatical (règles de calcul d’intensité résultante et de négation). Les tableaux 2 et 3 donnent, pour
les vingt catégories sémantiques O&S (cf. tableau 1, section 3.3), le nombre d’entrées lexicales
respectivement par catégorie sémantique et par catégorie syntaxique :
Catégorie sémantique
Agreement
Anger
Appeasement
Appraisal
Boredom
Contempt
Depreciation
Disagreement
Discomfort
Displeasure
Entrées
189
283
107
485
61
245
653
223
92
126
Catégorie sémantique
Dissatisfaction
Expectation
Fear
MelConnot
NegSurprise
PejConnot
Pleasure
PosSurprise
Sadness
Satisfaction
Entrées
169
565
195
83
141
264
339
96
288
202
Catégorie syntaxique
Adjectifs
Adverbes
Noms
Verbes
Expressions Figées
Expressions Semi-Figées
Adjectifs Modifieurs
Adverbes Modifieurs
Entrées
2279
169
826
832
261
558
51
535
Tableaux 2 et 3. Catégories sémantiques et syntaxiques : nombre d’entrées
7. Conclusion et perspectives
Dans cet article, nous avons décrit notre contribution sur la détection d’opinions et de la polarité dans
les blogs et les enquêtes de satisfaction client, qui porte plus spécifiquement sur le développement des
ressources linguistiques permettant de caractériser une opinion positive ou négative dans les
documents. Ces ressources ont été développées selon le modèle des opinions et sentiments (O&S) du
projet DoXa. Nous avons proposé une méthode incrémentale permettant de calculer l’intensité des
segments de texte en tenant compte de phénomènes linguistiques complexes tels que la négation, la
comparaison, la coordination ou l’opposition. Dans la phase suivante du projet, nous envisageons une
évaluation des ressources produites afin de pouvoir, d’une part, procéder à des levées d’ambigüité et,
d’autre part, compléter et raffiner les dictionnaires et grammaires existants. Une évaluation globale de
la tâche de détection d’opinions et sentiments est également envisageable à la fin du projet10.
10
A cette période, une version publique des ressources développées sera mise à la disposition de la communauté.
177
Bibliographie
Fautsch, C. & Savoy, J. 2008. “UniNE at TREC 2008: Fact and Opinion Retrieval in the Blogsphere”, In
Proceedings of the 17th Text REtrieval Conference (TREC 2008).
Kerbrat-Orecchioni, C. 1980. L’énonciation. De la subjectivité dans le langage. Paris : Armand Colin.
Lee, Y., Na, S.-H., Kim, J., Nam, S.-H., Jung, H.-Y. & Lee, J.-H. 2008. “KLE at TREC 2008 Blog Track: Blog
Post and Feed Retrieval”, In Proceedings of the 17th Text REtrieval Conference (TREC 2008).
Martin, J. R. & White, P. R. R. 2005. The Language of Evaluation: Appraisal in English, London & New York :
Palgrave MacMillan.
Mathieu, Y. Y. 2006. “A Computational Lexicon of French Verbs of Emotion”, Computing Attitude and Affect in
Text: Theory and Applications, Springer Dordrecht, The Netherlands, pp. 109–123.
Mishne, G. & de Rijke, M. 2006a. “Capturing global mood levels using blog posts”, In Proceedings of the AAAI
2006 Spring Symposium on Computational Approaches to Analysing Weblogs (AAAI-CAAW 2006), Stanford,
California, USA, pp. 145–152.
Mishne, G. & de Rijke, M. 2006b. “A study of blog search”, In Proceedings of the 28th European Conference on
Information Retrieval (ECIR 2006), vol. 3936, London, UK, pp. 289–301.
Mishne, G. & Glance, N. 2006. “Predicting movie sales from blogger sentiment”, In Proceedings of the AAAI
2006 Spring Symposium on Computational Approaches to Analysing Weblogs (AAAI-CAAW 2006), Stanford,
California, USA, pp. 155–158.
Pang, B. & Lee L. 2008. “Opinion Mining and Sentiment Analysis”, Foundations and Trends in Information
Retrieval, vol. 2 (1-2), pp. 1–135.
Paumier, S. 2003. De la reconnaissance de formes linguistiques à l’analyse syntaxique, Thèse de doctorat,
Université de Marne-la-Vallée.
Popescu, A.-M. & Etzioni, O. 2005. “Extracting product features and opinions from reviews”, In Proceedings of
the Conference on Human Language Technology and Empirical Methods in Natural Language Processing
(HLT/EMNLP’05), Vancouver, B.C., Canada, pp. 339–346.
Riloff, E. & Wiebe, J. 2003. “Learning extraction patterns for subjective expressions”, In Proceedings of the
Conference on Empirical Methods in Natural Language Processing (EMNLP’03), Sapporo, Japan, pp. 105–
112.
Song, R., Tang, Q., Shi, D., Lin, H. & Yang, Z. 2007. “DUTIR at TREC 2007 Blog Track”, In Proceedings of
the 16th Text REtrieval Conference (TREC 2007).
Wiebe, J., Wilson, T, & Cardie, C. 2005. “Annotating expressions of opinions and emotions in language”,
Language Resources and Evaluation, vol. 39 (2-3), pp. 165–210.
Yang, K., Yu, N. & Zhang, H. 2007. “WIDIT in TREC 2007 Blog Track: Combining Lexicon-Based Methods to
Detect Opinionated Blogs”, In Proceedings of the 16th Text REtrieval Conference (TREC 2007).
Zhou, G., Joshi, H. & Bayrak, C. 2007. “Topic categorization for relevancy and opinion detection”, In
Proceedings of the 16th Text REtrieval Conference (TREC 2007).
178
Márton Náray-Szabó
Université Péter Pázmány, Piliscsaba, Hongrie
[email protected]
LES CONSTRUCTIONS A VERBE SUPPORT ET L’AFFIXATION EN HONGROIS
Résumé
Les constructions à verbe support (CVS) possèdent un statut particulier en hongrois. Certaines
d’entre elles sont considérées par bien des linguistes, même de nos jours, comme redondantes,
voire même incorrectes dans cette langue. Une des possibles causes pour lesquelles le
hongrois résisterait à une certaine mesure aux verbes supports (Vsup), pourrait être la
présence massive d’affixes (préverbes et suffixes) aspectuels, intensifs et autres, ce qui
rendrait redondantes ces constructions. Or, ces verbes affixés ont bien souvent une variante
nominale qui peut entrer dans une CVS, voire même dans la nominalisation de celle-ci. Sur un
corpus de prédicats de parole, nous examinons les différences syntaxiques et sémantiques
systématiques entre les noms et leurs dérivés préfixaux et suffixaux.
Mots-clés: constructions à verbe support, préfixation, suffixation, hongrois, nominalisation
du verbe support.
1 Approches des constructions à verbe support et leur application pour le hongrois
Au point de vue des constructions à verbes supports (CVS), le hongrois est en situation
particulière (Dobos 2001 : 9-12). De plus, pendant longtemps, ces expressions étaient
considérées par certains linguistes hongrois comme étrangères (Gósy & Heltai 2005), voire
inadaptées (Grétsy & Kemény 2005) à la structure de cette langue. Nous nous sommes donc
penché sur un des problèmes susceptibles de mieux saisir cette spécificité, à savoir l’impact
de l’affixation sur les CVS.
Au lieu d’entrer en discussion sur les avantages et les désavantages des différentes
approches, il suffit ici de mentionner les plus importantes écoles ayant traité du sujet jusqu’à
l’heure actuelle, ainsi que quelques linguistes hongrois appartenant à ces approches.
Les structuralistes allemands ont reconnu dans les années 60 (von Polenz 1963, Daniels
1963) qu’en allemand, et surtout dans le registre formel, il s’observe un type d’unité
phraséologique non encore décrit suffisamment, qui contient des verbes qu’ils appellent
verbes fonctionnels (« Funktionsverben », von Polenz 1987 : 70). Dans ces constructions, ils
supposent l’existence d’un nom d’action ou d’état qui est actualisé dans la phrase grâce à un
verbe sémantiquement affaibli, mais dans une bonne partie des cas, il est préférable en langue
standard de remplacer ces expressions par un verbe simple synonyme. Cependant, ils
reconnaissent certaines valeurs aspectuelles à ces verbes (Hentschel & Weydt 2003 : 86). En
Hongrie, après quelques descriptions sommaires et simplistes (du genre « Ne dites pas ceci,
mais dites cela », Grétsy & Kemény 1978), les linguistes se sont penchés sur la question au
cours des années 90 pour la première fois (Kálmán et al. 1989, Keszler 1995, Lengyel 1999,
Dobos 2001, 2009), principalement dans un cadre structuraliste. Sous l’influence des
linguistes allemands, certains adoptent une attitude restrictive plutôt que descriptive (Gósy &
Heltai 2005).
Les générativistes entament une analyse en profondeur sur les CVS presqu’en même temps
que les structuralistes (Grimshaw & Mester 1988), mais s’y intéressent surtout du point de
vue de l’attribution des cas et des théta-rôles (rôles sémantiques) par le verbe (qu’ils appellent
light verb), et non à ses valeurs supplémentaires (aspect, etc.) dans la construction. Dans un
cadre complètement différent, mais suivant le même type de raisonnement, la grammaire
179
lexico-fonctionnelle se tourne vers la problématique de l’aspect aussi (Butt & Geuder 2001).
Parmi les chercheurs hongrois générativistes, on doit citer É. Kiss (É. Kiss 1999), qui définit
les « verbes légers » (light verbs) pour le hongrois de la même façon que les autres de ce
courant. Mel’čuk et ses disciples partent de relations lexicales concrètes, qu’ils appellent
fonctions, dont deux (Oper et Func) sont à assimiler à la notion de verbe support (Polguère
2003 : 139-141).
Notre approche est celle du lexique-grammaire (Daladier 1978, Giry-Schneider 1987,
Gross, M. 1981, 1998, Gross, G. 1996a, 1996b, Gross, G. & Pontonx 2004), dont les
avantages sont les fondements de sa définition, le nombre des critères, et son applicabilité
pour rendre compte systématiquement des phénomènes sémantiques aussi bien que
syntaxiques. Mentionnons quelques rares tentatives jusqu’ici faites par des linguistes hongrois
de décrire les CVS hongrois dans cet esprit (Balogh 2000, Varga 2007). Pour la comparaison
des théories énumérées ci-dessus, nous nous référons ici à une de nos études (Náray-Szabó
2010 : 351-353).
2 Les expressions examinées
Afin d’obtenir un ensemble suffisamment homogène, mais en même temps représentatif de
CVS, nous avons opté pour la constitution d’une liste aléatoire d’une centaine de noms
illocutoires (d’après une liste de Leech 1983 : 203-207, traduite en hongrois). D’un point de
vue distributionnel, nous avons délimité cette classe dans une étude antérieure grâce aux trois
constructions revenir sur N, dire son N et entendre N, par rapport à trois classes connexes :
les prédicats constatifs, psychologiques et perlocutoires (Náray-Szabó, sous publication).
Nous avons comparé notre définition (‘prédicats dont le signifié consiste à réaliser un acte
qui change le monde extérieur par sa prononciation même’) avec d’autres, déjà existantes.
Remarquons toutefois que cet acte peut être visé par le nom comme événementou comme
résultat, voire même en tant qu’objet physique résultant de l’acte, suivant le contexte
(Grimshaw 1990, Sleeman & Brito 2010). Ce dernier aspect sera analysé plus en détail dans la
section 6 ci-dessous.
3 Sujet de la présente étude
Nous nous intéressons ici aux noms prédicatifs illocutoires du hongrois contemporain à tous
ses niveaux (langues spécialisées ou non)1. La majorité d’entre eux sont susceptibles de
former une CVS, et il existe un verbe ordinaire morphologiquement apparenté à celle-ci. Bien
que les grammaires hongroises traditionnelles condamnent souvent l’emploi de certaines CVS
si le verbe simple correspondant existe, Dobos (2001) et (2009) montrent bien qu’à quelques
exceptions près, elles ont des fonctions parfois bien distinctes, et sont donc loin d’être
redondantes.
La majorité des verbes illocutoires morphologiquement apparentés (Vi) à ces noms (Ni)
connaissent une, voire plusieurs formes précédées d’un préverbe (p-Vi : ajánl ‘recommander,
proposer’, felajánl ‘offrir, accepter’, megajánl ‘mettre une note sans examen’, beajánl
‘recommander pour un poste’, kiajánl ‘faire une offre de service’). Une bonne partie de ces
formes peuvent être transformées en noms prédicatifs (avec ou sans préverbe) par suffixation
(ajánlat (Ni = Vi-s), felajánlás (p-Vi-s)) ou dérivation régressive (átok (Ni) ‘malédiction’).
Parfois il existe plusieurs nominalisations provenant d’un verbe donné, ayant chacun des sens
différents (ajánlat ‘objet d’une offre, d’une proposition’, ajánlás ‘recommandation écrite’ ou
‘action de proposer’), mais toutes les combinaisons p-V-s n’existent pas.
L’existence d’une CVS sans ou avec préverbe (CVS, p-CVS) n’est pas toujours attestée,
mais est assez fréquente : ajánlatot (meg)tesz, felajánlást (meg)tesz. Enfin, les CVS, à leur
1
Nous avons interrogé le moteur de recherche Magyar Nemzeti Szövegtár (MNSz ; Corpus National Hongrois)
pour les recherches.
180
tour, peuvent être nominalisées, soit par la suffixation sur le verbe support (Vsup-s) précédé
du Ni au génitif (ajánlat (meg)tétele), soit par la formation d’un composé suffixé
(ajánlattétel ; Vi-s-Vsup-s). Ce dernier n’est jamais possible avec un préverbe sur le Vsup
(*ajánlatmegtétel ; Vi-s-p-Vsup-s). Il s’agit donc d’examiner la relation entre la dérivation
préverbale des Ni, la nominalisation suffixale des Vsup2 d’un côté, et les propriétés
sémantiques des dérivés de l’autre.
4 Propriétés syntaxiques générales des CVS du hongrois
En lexique-grammaire (ouvrages mentionnés dans la section 1), les Vsup servent à
l’actualisation des noms prédicatifs dans la phrase, en portant les marques morphologiques du
temps, du mode, de la personne, du nombre, de l’aspect et de l’intensité, tandis que c’est le
nom qui opère la sélection des arguments. A côté des verbes supports basiques (neutres)
comme pour le nom ajánlat, on a tesz ‘faire’, ad ‘donner’, mond ‘dire’, intéz ‘adresser’, on
distingue des variantes aspectuelles (megismétel ‘répéter’), converses3 (kap ‘recevoir’),
stylistiques (él ‘faire usage de’), modales (előhozakodik littéralement ‘se précipiter en avant’)
et d’intensité (bombáz ‘bombarder de’), qui constituent des CVS paraphrasant les structures
de base4.
Rappelons les critères appliqués par Gross, G. 1996b (72-78) pour faire la délimitation
entre CVS, expressions figées et constructions libres. Ceux-là s’appliquent presque tous au
hongrois :
(1) Péter (ezt az ígéretet tette + tette az ígéretet + (egy) ígéretet tett + megtette (ígéretét +
*ígéretemet)). ‘Pierre a fait (cette+la+une+E+sa+*ma) promesse).’ (détermination libre,
coréférence obligatoire avec le sujet)
(2) Péter ünnepélyes ígéretet tett. ‘Pierre a fait une promesse solennelle.’ (adjonction d’un
adjectif)
(3) Péter több ígéretet tett, mint Mária. ‘Pierre a fait plus de promesses que Marie.’
(comparatif en que)
(4) Az ígéret, amelyet Péter tett … ‘La promesse que Pierre a faite …’ (relativation)
(5) Péter ígérete + az ő ígérete ‘la promesse de Pierre + sa promesse’ équivalant à la CVS
(effacement du Vsup)
(6) *Ígéretet tett Péter, nem mást. ‘C’est une promesse que Pierre a fait, pas autre chose’
(interdiction de l’extraction)
(7) *Mit tett Péter? – Ígéretet. ‘Qu’a fait Pierre ? – Une promesse.’ (interdiction de
l’interrogation en que)
Le hongrois est seulement différent par rapport à la passivation (structure aujourd’hui
désuète) et à la nominalisation du Vsup. Cela est possible de deux manières : köszönet
nyilvánítása (Ni(génitif) Vi+suff ; ‘action de remercier’), köszönetnyilvánítás (Ni+Vi+suff ;
2
Cette étude s’intéresse avant tout à l’existence de ces dérivés. Dans les cas douteux, un minimum de 5
occurrences sur MNSz ont été considérés suffisants, au-dessous de cela, un point d’interrogation a été mis si
Google fournit un minimum de 100 occurrences valides.
3
Il faut bien faire la différence entre causative et converse : Péter ajánlatott csikart ki Máriától. (‘Pierre a
arraché une offre à Marie.’) ≠ Péter ajánlatot kapott Máriától. (’Pierre a reçu une offre à Marie.’)
4
Pour chaque variante, il faut aussi déterminer le cas du nom, ce qui est très variable en hongrois. Le nominatif
aussi peut apparaître : il s’agit de CVS du type N0 Vsup (egy vélekedés kering, terjed, megjelenik ‘une opinion
circule, se propage, apparaît’). Notons en outre que les CVS du type Vsup Ni (acc) hogy P (megállapítást nyer,
hogy P ‘il a été constaté que P’) sont nombreuses, surtout en langue journalistique et juridique. Enfin, les verbes
felvet, kivált, kér sont des opérateurs causatifs appliqués à un verbe support : kérdést felvet ‘soulever une
question’, reakciót kivált ’provoquer une réaction’, választ kér ’demander une réponse’.
181
‘remerciement formelle, officielle’). On trouve encore un test chez Langer 2004 (qui complète
celui de Gross 1996b) :
(8) Péter (ígéretet és ajánlatot tett + *ígéretet és virágot tett az asztalra) ‘Pierre a mis
promesse et offre’ ‘Pierre a mis promesse et fleur sur la table’ (coordination seulement
avec un autre nom prédicatif)
Enfin, on pourrait mentionner la montée de l’adverbe, décrite par Giry-Schneider (1987 : 31),
qui a l’inconvénient de se prêter à plusieurs interprétations :
(9) Péter komoly ígéretet tett. ‘Pierre a fait une promesse sérieuse.’
(10) Péter komolyan tette ígéretét. ‘Pierre a fait sa promesse sérieusement.’ ou ‘Pierre était
sérieux en faisant sa promesse.’
5 Préverbes et noms prédicatifs en hongrois
Les préverbes en hongrois sont des morphèmes lexicalement liés à un verbe ou à un de ses
dérivés, mais syntaxiquement indépendants (É. Kiss 2004 : 41), qui constituent des prédicats
de second ordre (É. Kiss 2004 : 15). Leurs fonctions spatiales, temporelles, aspectuelles et
d’intensité sont simultanément reflétées par la classification d’É. Kiss 2004. En suivant et en
subdivisant les catégories vendlériennes, elle constate que la présence des préverbes sur le
verbe n’est possible qu’en cas d’événements complexes ou inhomogènes (É. Kiss 2004 : 15),
comportant deux prédicats élémentaires, dont l’un est pris en charge par le préverbe. Ainsi,
elle distingue : a) des changements d’états (accomplissements sur le plan temporel, spatial ou
psychologique ; eljátszik valamit ‘jouer jusqu’à la fin’) ; b) des déplacements ayant un but
(achèvements ou accomplissements ; begurul ‘glisser à l’intérieur en roulant’) ; c) des
activités ayant un pseudo-objet réfléchi (kitáncolja magát ‘danser jusqu’à en être fatigué’) ; d)
des activités exprimant un mouvement élémentaire (megrezdül ‘faire une vibration très
courte’) ; e) et des états (prédicats d’état combinés avec des localisations ; ottmarad ‘rester làbas’).
Parmi les noms prédicatifs illocutoires issus d’un verbe au préverbe (p-Ni), on trouve des
exemples des groupes a) (felajánlás ‘don d’une somme d’argent ou l’argent donné’), b)
(beajánlás ‘action de recommander qn pour un poste’ ; dont be ‘vers l’intérieur’) et d)
(felkiáltás ‘cri très court et aigu’). Une minorité des noms sont dotés d’un sens non illocutoire
(physique ou psychologique) sans préverbe, celui de l’illocution étant lié au nom avec
préverbe : (fel)fedés Ni : ‘couvrir’ p-Ni : ‘révéler’, (meg)bocsátás Ni : ‘lâcher’ p-Ni :
‘pardonner’, (fel)mentés ‘sauver’ et ‘destituer’ ou ‘dispenser’, (meg)rovás ‘graver’ et ‘blâme’,
(meg)jegyzés ‘noter’ et ‘faire une remarque’, (ki)rohanás ‘courir’ et ‘fulminer’, (elő)írás
‘écrire’ et ‘prescrire’, (bele)egyezés ‘correspondre’ et ‘consentir’, (el)várás ‘attendre’ et
‘exiger’, (meg)erősítés ‘renforcer’ et ‘confirmer’, (be)ismerés ‘connaître’ et ‘reconnaître’,
(fel)tevés ‘mettre’ et ‘supposer’. Cette différence est encore plus prononcée dans le cas de
composés dont le premier élément, un nom, est en voie de se grammaticaliser comme
préverbe : (jóvá)hagyás ‘laisser’ et ‘approuver’, (egyet)értés ‘comprendre’ et ‘être d’accord’.
Comme dans chaque langue, il en existe des noms prédicatifs sans verbe morphologiquement
correspondant : részvét(et nyilvánít) ‘faire ses condoléances’ ≠ részt vesz ‘participer’,
szemrehányás(t tesz) ‘faire une reproche’ ≠ *szemrehány. Il importe en outre de mentionner à
propos des CVS avec préverbe et celles sans préverbe que la différence entre elles n’est
jamais aspectuelle (hívást intéz ‘faire un appel téléphonique’ felhívást intéz ‘lancer un appel à
des personnes’), comme c’est le cas souvent entre un Vi et le p-Vi correspondant (át + be + el
+ fel +ide + ki + le + oda + rá + tele)kiált ‘crier (avec indication de différentes directions)’).
182
6 Nominalisation des CVS
Dans ce qui suit, regardons la relation entre degré de cohésion morphologique lexicale et
propriétés sémantiques dans les CVS et leurs composés en général. Comme on l’a déjà vu
dans la section 3, il s’agit ici des constructions Ni, CVS, Ni (génitif) Vsup-s (nominalisation
du Vsup), Ni-Vsup-s (composé).
Si nous prenons le départ des Ni, il convient d’abord de se fixer les paramètres pour
caractériser la nature sémantique des noms d’action en général. Contrairement à Grimshaw
(1990), qui distingue noms d’événements, noms de résultats et noms d’objets issus de l’action
Sleeman & Brito (2010 : 15) établit deux paramètres : l’agentivité, qui se vérifie par la
présence d’un complément en par, obligatoire ou facultatif, et le résultativité, qui se manifeste
par le caractère facultatif de ces agents. La non-agentivité est liée à la possibilité d’un
complément « pseudo-agent » au génitif. Concernant les Ni, nous pouvons établir 4 groupes,
en allant des noms les plus « résistants » aux Vsup vers ceux qui connaissent la variabilité la
plus complète des constructions issues de CVS.
a) La CVS n’existe pas pour le Ni : felfedés ‘révélation’ ; helytelenítés ‘désapprobation’ ;
fejmosás ‘action de laver la tête à qn’ … (54 verbes)
Ce groupe contient des noms qui possèdent un seul emploi, notamment événementiel, au sens
de Grimshaw (1990), agentif non résultatif, selon Sleeman & Brito (2010). Même si la CVS
existait, elle ne contenait pas de nuance résultative, seulement événementielle. Le résultat ne
peut pas être exprimé par ces noms.
(11) Az eljárás [génitif] (Péter általi) helytelenítése (‘la désapprobation de la procédure (par
Péter)’) (agentif non résultatif) ≠ Péter helytelenítése (‘la désapprobation de P.’)
(12) *Péter az eljárás helytelenítését végezte. (‘P. a fait la désapprobation de la procédure’)
(agentif non résultatif)
(13) *Az eljárás helytelenítése (‘Le caractère désapprouvé de la procédure’) (résultatif)
b) La CVS existe : panasz ‘plainte’ ; felmentés ‘acquittement’ ; kérés ‘demande’ … (56
verbes)
Les noms de ce groupe ont au moins une interprétation résultative. C’est une de ces dernières
qui est observable dans les CVS : le procès (CVS) et son résultat (Ni) sont à la fois exprimés
(agentif (non) résultatif chez Sleeman & Brito (2010)).
(14) Mária [gén.] (Péter általi) felmentése (‘L’acquittement de M. par P.’) (agentif résultatif)
(15) Péter felmentést adott Máriának. (‘P. a donné un acquittement à M.’) (agentif non
résultatif) ≠ Péter felmentése (‘L’acquittement (écrite) de P.’) (résultat ou objet)
c) La CVS et la nominalisation du Vsup (type Ni(génitif) Vsup-s) existent, le composé
n’existe pas : hívás ‘appel téléphonique’ ; kérelem ‘demande’ ; igazolás ‘attestation’
… (11 verbes)
Ici, les noms sont des résultats de l’action, mais ils ne possèdent pas toujours d’emploi
événementiel. Ce dernier rôle est pris en charge par la nominalisation du Vsup. Les arguments
internes de l’action sont manifestés sous forme d’adjoints ou d’adjectifs. L’agentivité est
seulement exprimable grâce à une CVS.
(16) Péternek [gén.] (az újsághoz intézett) (helyreigazítási) kérelme (‘demande (de
rectification) (par P.) (auprès du journal)’) (non agentif résultatif)
(17) Péter (módosítási) [adj.] kérelmet adott be (a hivatalhoz). (‘P. a déposé une demande de
modification auprès de l’office’) (agentif résultatif)
183
(18) A (módosítási) [adj.] kérelem (Péter általi) beadása (‘Le dépôt de la demande (de
modification) (par P.)’) (Ni : agentif résultatif, Vsup-s : agentif non résultatif)
d) La CVS existe, le Vsup peut être nominalisé et le composé nominal (type Ni-Vsup-s)
peut être formé : ajánlat ‘recommandation’ ; javaslat ‘proposition’ ; köszönet
‘salutation’ … (17 verbes)
Ces derniers n’ont jamais de sens événementiel, seul l’emploi résultatif. Ils sont également
dotés d’un sens distinct de celui du Ni seul. Les exemples (16) à (18) sont également valides
pour ce groupe. En plus de cela, on a
(19) Péter [gén] (Máriának szóló) (módosításra vontakozó) javaslattétele (‘l’action de
proposer (une modification) (à M.) par P.’) (non agentif non résultatif) ≠ Péter
(módosításra vonatkozó) javaslata (‘proposition de modification de Pierre’) (non agentif
résultatif)
Concernant les données de la mini-statistique, les nominalisations de Vsup ne seraient pas
nombreux, mais les configurations c) et d) requièrent des contextes spécifiques, ce qui peut
expliquer en partie leur présence basse dans MNSz5. Concernant le reste, les noms ayant au
moins une CVS correspondante seraient plus nombreux que ceux qui n’affichent pas cette
propriété (84 et 54 noms respectivement), bien que pour certains noms du groupe b), il n’y ait
que peu d’occurrences de CVS dans MNSz. Il est à noter que parmi les noms n’acceptant pas
la CVS, c’est le suffixe -ás/-és qui prévaut largement (suffixe typiquement événementiel),
tandis que dans les composés, le suffixe -at/-et (qui exprime le résultat de l’action).
Evidemment, toutes ces données devraient être vérifiées sur un corpus bien plus étendu.
En examinant les Ni qui entrent dans une CVS et ceux pour lesquels cette possibilité
n’existe pas (ou n’est pas attestée), on est donc arrivé ci-dessus à la règle suivante : si la CVS
existe, c’est que le Ni possède au moins un sens de résultat ou d’objet. En effet, les Ni, des
groupes b), c) et d), outre de signifier un événement (l’acte de langage accompli), peuvent
signifier l’idée évoquée dans l’acte (jóslat ‘prophétie’), l’état résultant de la réalisation de
l’acte (áldás ‘bénédiction’), la matérialisation concrète de l’acte (követelés ‘prétention à une
somme’), une attitude (gúny ‘ironie’), la manifestation écrite de l’acte (ajánlat ‘offre’), un
acte juridique, qui va au-delà d’un simple acte de langage (rágalmazás ‘diffamation’).
Précisons aussi que les différences systématiques qui existent entre les Vi et les CVS ne
font pas l’objet de notre étude. Nous nous référons ici plutôt à certains linguistes hongrois, qui
ont déjà suffisamment décrit le phénomène (Dobos 2001, 2009). Rappelons à titre indicatif les
types d’écart principaux : a) différences distributionnelles ; b) différences sémantiques
substantielles (différences sémiques) ; c) différences aspectuelles (les CVS sont plus variables
à ce niveau que les verbes correspondants) ; d) restriction, dans le cas de certaines CVS
directives ou commissives, à un domaine comme le droit, la religion ou le domaine militaire ;
e) différences stylistiques (le plus souvent, les CVS représentent un style plus formel, plus
officiel, souvent renforcé par une valeur métaphorique du Vsup).
Même s’il s’agit d’une nominalisation toute autre, la restriction à un seul domaine
s’observe aussi entre les CVS et les nominalisations du Vsup et les composés aussi. Le
domaine est plus restreint que pour la CVS, notamment à la vie professionnelle, religieuse ou
à l’administration, comme dans felhívás közzététele ‘publication d’un avis’ ; kérelem
benyújtása ‘dépôt d’une demande officielle’ ; igazolás kiállítása ‘délivrance d’une attestation’
mais aussi dans ajánlattétel ‘action de faire une offre commerciale’ ; javaslattétel ‘action de
5
Les noms du groupe b) ont tous une possibilité hypothétique de nominalisation sur le Vsup, mais nous n’en
avons pas relevé d’occurrences dans le corpus.
184
faire une proposition dans un corps administratif’ ; tanácsadás ‘activité d’un conseiller
professionnel’ ; tanúságtétel ‘acte de faire un témoignage dans un contexte religieux’.
7 Conclusions
Ayant présenté, à l’exemple d’un groupe de prédicats nominaux, quelques propriétés des CVS
en hongrois, il semble y avoir dans les CVS un lien entre le degré de cohésion au niveau
morphologique (capacité du Vsup de se combiner avec des affixes) et la diversité des
contenus sémantiques exprimables grâce à tel ou tel dérivé. Remarquons toutefois que cette
dernière affirmation devra faire l’objet d’une recherche plus vaste, ce qui dépasserait
évidemment les cadres de cette étude.
D’un autre côté, nous avons montré, contrairement à ce qui pourrait être supposé, que
l’affixation n’est pas un « concurrent » de la formation des CVS en hongrois : tandis que la
première sert à préciser des contenus sémiques ou aspectuels du prédicat ou la direction de
l’action, les CVS représentent l’événementialité ou un niveau stylistique ou un domaine
différent par rapport au verbe simple correspondant.
185
Références
Balogh, P. 2000. Les adjectifs temporels du français et du hongrois. Thèse de doctorat. Université Paris 13.
Butt, M., Geuder, W. 2001. On the (semi)lexical status of light verbs. In : Corver, N., Riemsdijk, H. (éds.), Semilexical categories : the function of content words and the content of function words. Berlin/New York :
Mouton de Gruyter.
Daladier, A. 1978. Problèmes d’analyses de nominalisations et de groupes nominaux complexes en français.
Thèse de 3e cycle, Université Paris 7.
Daniels, K. 1963. Substantivierungstendenzen in der deutschen Gegenwartssprache. Nominaler Ausbau der
verbalen Denkkreises. Sprache und Gemeinschaft (4) 40-75.
Dobos, Cs. 2001. A funkcióigés szerkezetek vizsgálata (különös tekintettel az orosz jogi szaknyelvre). Thèse de
doctorat. Université de Debrecen, Hongrie.
Dobos, Cs. 2009. Funkcióigés szerkezetek. Miskolc : Passzer 2000.
É. Kiss, K., Kiefer, F., Siptár, P. 1999. Új magyar nyelvtan. Budapest : Osiris.
É. Kiss, K. 2004. Egy igekötőelmélet vázlata. Magyar Nyelv (100)1. 15-42.
Giry-Schneider, J. 1987. Les prédicats nominaux en français : les phrases simples à verbes supports. Genève :
Droz.
Gósy, M., Heltai, P. 2005. A terpeszkedő szerkezetek hatása a feldolgozásra. Magyar Nyelvőr (129) 473-487.
Grétsy, L., Kemény, G. 2005. Nyelvművelő kéziszótár. Budapest : Tinta.
Grimshaw, J., Mester, A. 1988. Light Verbs and Theta-Marking. Linguistic Inquiry (19)2 205-232.
Grimshaw, J., 1990. Argument Structure. Cambridge : MIT Press.
Gross, G. 1996a. Prédicats nominaux et compatibilité aspectuelle. Langages (121) 54-72.
Gross, G. 1996b. Les expressions figées. Noms composés et autres locutions. Paris : Ophrys.
Gross, G., Pontonx, S. de. (éds) 2004. Les verbes supports : nouvel état des lieux. Lingvisticae Investigationes,
Fascicule spécial, (27)2. Amsterdam/Philadelphia : Benjamins.
Gross, M. 1981. Les bases empiriques de la notion de prédicat sémantique. Langages (63) 7-52.
Gross, M. 1998. La fonction sémantique des verbes supports. Travaux de linguistique (37) 25-46.
Hentschel, E., Weydt, H. 2003. Handbuch der deutschen Grammatik. Berlin : Walter de Gruyter.
Kálmán, Gy., Kálmán, L., Nádasdy, Á., Prószéky, G. 1989. A magyar segédigék rendszere. Általános
Nyelvészeti Tanulmányok (17) Budapest : Akadémiai. 49-103.
Keszler, B. 1995. A mai magyar nyelv szófaji rendszerezésének problémái. Magyar Nyelvőr (119) 293–308.
Langer, S. 2004. A linguistic test battery for delimiting support verb constructions. Lingvisticae Investigationes
(27)2 171-184.
Leech, G. 1983. Principles of Pragmatics. London : Longman.
Lengyel, K. 1999. A segédigék kérdéséhez. Válasz Uzonyi Kiss Judit és Tuba Márta cikkére. Magyar Nyelvőr
(123) 116–29.
Magyar Nemzeti Szövegtár : Váradi, T. 2002. The Hungarian National Corpus. Proceedings of the 3rd LREC
Conference, 385-389, Las Palmas, Espagne : s. n., http://corpus.nytud.hu/mnsz
Náray-Szabó, M. 2010. Verbes supports et contrastivité : théorie et usage. Des mots et du texte aux conceptions
de la description linguistique (éds. A. Dutka-Mankowska, T. Giermak-Zielinska). Warszawa : Wydawnictwa
Uniwersytetu Warszawskiego. 351-358.
Náray-Szabó, M. sous publ. Verbes supports et prédicats illocutoires. Actes de l’EUROPHRAS 2010. Granada,
Espagne.
Polguère, A. 2003. Lexicologie et sémantique lexicale. Montréal : Presses Universitaires de Montréal.
Sleeman, P., Brito, A. M. 2010. Nominalization, Event, Aspect, and Argument Structure: a Syntactic approach.
Argument Structure from a Crosslinguistic Perspective. (éds. M. Duguine, S. Huidobro, N. Madariaga).
Amsterdam, Philadelphia : John Benjamins. 113-129.
Varga, L. 2007. Classification sémantique des prédicats de mouvement du hongrois dans l’optique du traitement
automatique. Thèse de doctorat. Université Paris 13.
von Polenz, P. 1963. Funktionsverben im heutigen Deutsch. Sprache der rationalisierten Welt. Wirkendes Wort
(5) 4-46.
von Polenz, P. 1987. Funktionsverben, Funktionsverbgefüge und Verwandtes : Vorschläge zur satzsemantischen
Lexikographie. Zeitschrift für germanistische Linguistik (15)2 169-189.
186
Mirto Mauro Ignazio
Università di Palermo
[email protected]
METAPHORICAL VS. LITERAL: NOTES ON THE ITALIAN VERB STRAPPARE*
Abstract
Superficially, the sentences (a) Ada strappò la confessione a Piero, and (b) Ada strappò la
camicia a Piero diverge solely in the post-verbal noun. Yet their semantic differences go far
beyond this noun: (a) means „Ada made Piero confess against his will‟, whilst (b) means „Ada
tore Piero‟s shirt‟. We contend that in (a) strappare is a Vsup causatif (Gross 1998) licensing
Ada as subject and >Cause<, whilst confessione licenses Piero as its notional subject and
>Agent<. In (b), strappare is a transitive licensing Ada as >Agent<, and la camicia „the shirt‟
as >Affectee<. The metaphorical vs. literal senses of strappare are set against the background
of a number of stances taken by Saussure, and seen as a diversity amenable to syntax only.
Keywords: saussure, support verb, opérateur causatif, noun predicate, metaphor.
1. Introduction
In the celebrated manuscript found in 1996, published by Gallimard in 2002 with the title
Ecrits de linguistique générale, Saussure makes the following statement:
« (Proposition no 5.) Considérée à n‟importe quel point de vue, la langue ne consiste pas
en un ensemble de valeurs positives et absolues mais dans un ensemble de valeurs
négatives ou de valeurs relatives n‟ayant d‟existence que par le fait de leur opposition. »
(Saussure, 2002 : 77)
It is common knowledge that this Saussurean stance has countless consequences on
linguistic analysis (see e.g. Culler 1986, Derossi 1965). One of such consequences is the
difference between literal and metaphorical meaning. In Saussure‟s view, there are no
grounds for drawing such a difference. The reasons stem directly from the tenets quoted
above:
« Corollaire. Il n‟y a pas de différence entre le sens propre et le sens figuré des mots (ou :
les mots n‟ont pas plus de sens figuré que de sens propre), parce que leur sens est
éminemment négatif. » (Saussure, 2002 : 72)
This work aims at exploring the syntax and semantics of the verb strappare „literally: tear,
take away‟ in Italian, more precisely in uses such as that in sentence (1), which gives rise to a
metaphor, to be opposed to the literal use in (2):1
*
We would like to express our thanks to the two anonymous reviewers for their comments. Needless to say,
errors and shortcomings remain our own.
1
Sentence (2) yields a default interpretation in which Piero is wearing the shirt, which is to be opposed to Luca
strappò la camicia di (of) Piero „Luca tore Piero‟s shirt‟, which does not necessarily yield such an interpretation.
As a transitive verb, strappare carries at least another literal meaning, as in Mi strappò la penna „He wrested the
pen from me‟. In (2), strappare is ambiguous between the meanings „tear to pieces‟ and „wrest‟. Besides, one of
the anonymous reviewers has noticed that under the „tear‟ meaning the subject of strappare can be a noun such
as chiodo, as in Il chiodo strappò la camicia a/di Piero „The nail tore Piero‟s shirt‟, which thus bears the
semantic role >Instrument<. Worth of note is the fact that in (1) the same subject (pragmatically or elliptically
interpreted as e.g. la paura del chiodo „the fear of the nail‟) cannot be interpreted as >Instrument<. Other verbs
187
(1)
Ada strappò la confessione a Piero.
Ada wrung the confession to Piero
„Ada wrung the confession from Piero.‟
(2)
Ada strappò la camicia
Ada tore
the shirt
„Ada tore Piero‟s shirt.‟
a Piero.
to Piero
The sentences in (1) and (2) share the same surface structure and linear order shown in (3)
below:
(3)
≡ N0 strappare N1 a N2 ≡
Besides, they appear structurally identical, insofar as in both N0 is a subject, N1 is a direct
object, and N2 is an indirect object (pro-drop properties for N0 and clitic pronouns for N1 and
N2 provide conclusive evidence that this is the case in both (1) and (2)).
Nevertheless, the meanings the two occurrences of strappare yield are different, as the
translations indicate. On the surface, the „metaphor vs. literal‟ difference seems to relate to the
nature of the head noun within the direct object NPs of the clauses, given that in (1)
confessione „confession‟ is Abstract, whilst in (2) camicia „shirt‟ is Concrete. Below, we will
show that such a view is too simplistic, and that the meaning difference in (1) and (2) cannot
depend in any straightforward way on the [± Concrete] nature of the post-verbal noun.
From a semantic point of view, sentences such as (1) and (2) raise our interest because they
bring about the following entailment patterns: (1) entails Piero confessò „Piero confessed‟,
whereas one of the meanings of (2) (see fn. 1) entails Piero ha/indossa una camicia „Piero
has/is wearing a shirt‟. We take the view that the former entailment pattern hinges on syntax
only. For space reasons, marginal attention will be paid to the latter entailment pattern, which
might be due either to syntax or be based on pragmatic grounds.
Our interest is threefold. It lies: (a) in the syntactic function that confessione „confession‟
fulfils in (1); (b) in the valence and selectional restrictions of strappare „wring‟ when it
combines with an N1 such as confessione; and (c) in the semantic outcome such combinations
yield.
On the one hand, the observed entailment pattern concerning (1) can also be expressed in
the form of a phrase such as la confessione di Piero „Piero‟s confession‟, or of a sentence,
shown in (4), that most analysts would consider as an instance of the support verb
construction:
(4)
Piero fece una/la confessione.
Piero made a/the confession
„Piero made a/the confession.‟
On the other hand, in (1) the verb strappare „wring‟ appears to work as does causative fare
in Italian (see La Fauci and Mirto 2003), for reasons that will be provided shortly, but also on
account of another entailment pattern that (1) brings into being, inasmuch as if (1) is true, then
(5), a fare causative, must also be true:
that in Italian carry the meaning of strappare in (1), though without giving rise to a metaphor, are carpire „to
extort, to snatch, to worm out‟ and estorcere „to extort‟.
188
(5)
Ada fece confessare
Ada made confess
„Ada made Piero confess.‟
Piero.
Piero
Put differently, (1) concurrently entails both (4) and (5). The following questions raise
problems that will serve as pivot points of sections 2, 3, 4 and 5, whilst the answers to such
problems provided in section 6 will wind up the paper:
a) Is strappare in (1) the same strappare that occurs in (2)? Or are these
simply homophonic verbs endowed with distinct predicate-argument
structures?
b) Do the entailments between (1), on the one hand, and (4)-(5), on the other
hand, obtain syntactically?
c) In the light of Saussure‟s viewpoints, can the metaphorical vs. literal use
in (1) and (2), respectively be turned into a difference (an opposition)
between linguistic signs?
2. Causative vs. non-causative strappare
A sharp difference between the uses of strappare in (1) and (2) emerges when as in (6) and
(7) below the subject‟s head noun is [– Animate]:2
(6)
(7)*
Lo sguardo della vittima strappò la confessione
the look
of.the victim wrung
the confession
„The victim‟s look wrung the confession from Piero.‟
Lo sguardo della vittima strappò
la camicia
the look
of.the victim wrung
the shirt
„The victim‟s look tore Piero‟s shirt.‟
a Piero.
to Piero
a Piero.
to Piero
Whilst in (7) the [– Animate] head noun sguardo „look‟ brings about an ungrammatical
sentence, the subject of the clause in (6) can bear either one of the values [± Animate], as a
comparison between (1) and (6) demonstrates.3 The difference between the well-formed (6)
and the ill-formed (7) thus provides evidence that the occurrence of the verb strappare in the
former clause cannot be fully identical to the occurrrence of strappare in the latter.
In Italian, the phenomenon displayed in (1) and (6) is also found in fare causatives. Let us
compare the causative in (5) to that in (8) below:
(8)
Lo sguardo della vittima fece
confessare
the look of.the victim made confess
„The victim‟s look made Piero confess.‟
2
Piero.
Piero
Sentence (1) triggers a default interpretation which assigns the subject Ada an active role (>Agent<) in the
event bringing about Piero‟s confession. Under this interpretation, the subject of (1) is “manipulative” (Song
2006: 265-268), i.e. he purposefully causes the event (see Wechsler 2006). Nevertheless, such a reading is not
necessarily true, as (6) suggests. Different scenarios can be thought of, in which the referent of the subject is
somehow involved but plays no active role. See e.g. fn. 1 and sentence (10) below, in which Ada might be
unaware of Piero‟s presence, or could even elliptically mean il pensiero di Ada „the thought of Ada‟.
3
In the literature, such a relationship between the verb and its subject, as in e.g. *The stone thinks (Bussmann
1996: 419), is often treated under the rubric of „subcategorization‟ or „selectional restrictions‟.
189
The comparison raises a question: is it the case that strappare in (1) and (6) is syntactically
characterized as fare is in (5) and (8)? A similar hypothesis is taken into consideration by
Maurice Gross in relation to predicates such as mettre „lit. put‟ – labelled as Vsup causatif
(1998: 6) – when they occur in such sentences as (9a):4
(9)
a. La nouvelle a mis Luc en rage.
„The news made Luc angry.‟
b. Luc est en rage.
„Luc is angry.‟
The pair in (9) calls to mind the pair (1)-(4). (1) entails (4) and, compared to it, contains an
extra argument, i.e. Ada, working as subject and >Cause<. Sentence (9a) – which contains an
extra argument also working as subject and >Cause<, i.e. la nouvelle „the news‟ – entails (9b).
In (1) and (9a), the extra argument is licensed by strappare and mettre, respectively. Yet, the
semantic nuances these verbs convey are distinct: in (9a) mettre is also inchoative with regard
to the state expressed in the entailed (9b), whereas in (1) strappare carries „negative
connotations‟, inasmuch as it implies that the entailed event „Piero confessed‟, or „Piero‟s
confession‟, took place against Piero‟s will. As Gross (1998: 10) points out, the extra
argument that mettre introduces in (9a) has a non-restreint character (unmarked with regard to
Animacy, thus non-manipulative, see fn. 2), as happens in fare causatives, e.g. in (5) and (8).
As (6) shows, from this viewpoint strappare is also unconstrained.
3. A predicative role for N1
Whilst in sentence (2) N1 can virtually be any Concrete noun (with the meaning differences,
i.e. „tear‟ vs. „take away‟, signalled in fn. 1), there is only a handful of nouns – most of which
appear Abstract – that can work as the head noun of the direct object of strappare in (1), e.g.
accordo „agreement‟, applauso „applause‟, concessione „concession‟, invito „invitation‟,
promessa „promise‟, risarcimento „indemnity, damages‟, sì „yes‟, and sorriso „smile‟.5 As N1s
of this clause type, such nouns can be modified by e.g. an adjective, as in (10), a sentence that
entails (11), which in turn is a paraphrase of (12): 6
(10)
Ada strappò un enigmatico sorriso a Piero.
Ada wrung an enigmatic smile
to Piero
„Ada wrung an enigmatic smile from Piero.‟
(11)
Piero fece un enigmatico sorriso.
Piero made an enigmatic smile
„Piero gave an enigmatic smile.‟
4
Another pair provided by Gross (1998: 8) is: Luc est triste „Luc is sad‟ and La nouvelle rend Luc triste „The
news saddened Luc‟. In Italian, mettere „lit. put‟ appears syntactically akin to mettre in (9a) in the sentence La
notizia mette paura a Max „The news scares Max‟, which entails Max ha paura (della notizia) „Max is afraid (of
the news)‟.
5
A concordance search on the ItWac corpus for Italian (Web-derived, with about two billion words,
http://www.sketchengine.co.uk/) generates about 100 nouns occurring after strappare (12,486 occurrences
overall). About 20 of such nouns are Abstract and yield meanings comparable to that carried by strappare in (1).
6
The term paraphrase is here used in the way pointed out by Harris 1981. Certain predictable semantic
differences between a support verb construction such as (11) and one with a „heavy‟ verb as in (12), concerning
e.g. the iteration of the event, are here disregarded (see Gross 1998).
190
(12)
Piero sorrise enigmaticamente.
Piero smiled enigmatically
„Piero smiled enigmatically.‟
That is, (10) simultaneously entails both (11) and (12). It is common knowledge that the
post-verbal noun of support verb sentences such as (4) and (11) functions as a predicate noun.
It is such a predicative role that makes (11) the paraphrase of (12), and vice versa, and that
accounts for the semantic equivalence between the adjectival modification in (11) and the
adverbial one in (12) (see Gross 1981, Nakamura 2009). The nature of N1 in the clause type
instantiated by (1) and (10), as well as the entailment patterns shown above, suggest that in
such a clause type N1 fulfils a predicative role.
However, a translation equivalence such as the following: “if strappare combines with a
Concrete post-verbal noun, then it carries either the meaning „tear (to pieces)‟ or „take
violently away‟, otherwise strappare means „wring‟”, in which the semantic opposition
Concrete vs. Abstract is conceived in absolute terms, would not always yield the correct
semantic outcome, as the sentences below demonstrate:
(13)
Lei mi stava strappando il cuore.
„She was wringing my heart.‟
(14)
Lei mi stava strappando l‟anima.
„She was tearing my soul.‟
Besides, sentences such as (1) or (10) suggest that the notional subject of the predicative
N1 is regularly encoded as the indirect object of the clause. Nevertheless, sentence (15) below
provides evidence that the syntax of strappare is more intriguing, and to a certain extent
idiosyncratic, inasmuch as in (15) the notional subject of vittoria „victory‟, i.e. gli ungheresi
„the Hungarians‟, coincides with the syntactic subject of strappare:
(15)
Gli ungheresi strapparono una sorprendente vittoria agli italiani.
„The Hungarians pulled off a surprise victory over the Italians.‟
4. Strappare, ‘give’, and fare
Remarks similar to those made above about strappare in (1) can be made for the English verb
„give‟ when employed as in (16a), to be compared to its use in (16b):7
(16)
a.
(That episode + He) gave us another laugh.
b.
(*That episode + He) gave a laugh.
The subject of „give‟ can be [± Animate] in (16a), unlike the subject of „give‟ in (16b),
which turns out to be compatible only with the [+ Animate] value of the feature. Importantly,
in (16a) the micro-semantic role >Laugher< maps onto the referent of the (final) direct object
„us‟, whilst in (16b) maps onto the referent of the subject „he‟.
7
Consider also The thought of such treasures disappearing into private collections brings a sigh to Serena Kelly,
in which the syntax of „bring‟ combining with the predicate noun „sigh‟ – whose notional subject is Serena Kelly
– appears to have something in common with that of „give‟ in (16a).
191
From a functional point of view, are these occurrences of „give‟ alike? The differences just
mentioned suggest that in (16a) „give‟ works as strappare does in (1), i.e. as a causative
(unergative) that assigns its subject the semantic role >Cause< (notice that (16a) is a good
paraphrase of That episode + He made us laugh), whilst in (16b) „give‟ works as a support
verb. In other words, in (16a) „give‟ licences an argument surfacing as its subject, as also does
the noun predicate „laugh‟, though its notional subject is encoded as the (final) direct object of
the clause. On the other hand, in (16b) the sole predicate endowed with an argument frame is
the noun predicate „laugh‟, which imposes a [+ Animate] referent to its subject. In (16b),
„give‟ has a blank valence, since it simply „inherits‟ the argument of „laugh‟.
Turning to the Italian fare, a comparison between (17a) and (17b) shows that this verb can
introduce a new subject not only if employed as a causative (La Fauci and Mirto 2003), but
also when it combines with a predicative post-verbal noun:8
(17)
a.
Marco ha fatto la doccia al bambino.
„Marco washed the child (under a shower).‟
b.
Marco ha fatto la doccia.
„Marco took a shower.‟
Most analysts would share the view that in (17b) fare works as a support verb. It follows
that in (17b) Marco, licensed by the noun predicate doccia „shower‟ as a (notional) subject, is
as well the subject of fare. Also in (17a) doccia appears to work as a noun predicate, but this
time its notional subject is al bambino „to the child‟, which is encoded as an indirect object.
Thus in (17a) fare seems to license an argument, that, as in (1), (9a), and (16a), enters the
structure as the clause syntactic subject. However, unlike in (1), (9a), and (16a), such a
subject must be [+ Animate] (perhaps [+ Human]), which suggests that its semantic role is
>Agent< rather than >Cause<. Moreover, like (16a) and unlike (1) and (9a), the verb
contributes no shades of meaning such as „negative connotation‟ or inchoativity.
5. Constructions converses
In (1), the noun predicate confessione surfaces as a direct object, exactly as happens in the
support verb construction exemplified by means of (4) and (11). Still in (1), Piero, the only
argument licensed by confessione, is an indirect object. An enconding that might appear
parallel to (1) takes place in (18):
(18)
Il Presidente rilasciò un‟intervista al giornalista.
„The President gave an interview to the journalist.‟
This sentence can be assimilated to the so-called constructions converses (as in e.g. Il
tassista prese una multa dal vigile „The taxi driver was fined by the agent‟, see G. Gross
1989). Worth of note is the fact that (18) entails the clause il giornalista intervistò il
Presidente „the journalist interviewed il Presidente‟. In (18), intervista „interview‟ could be
analyzed as is the post-verbal noun of (1), namely as a noun predicate, insofar as il giornalista
„the journalist‟, the indirect object of (18), functions as its notional subject. 9
8
Most interestingly, the sequence Marco ha fatto la doccia, common in (17a) and (17b), does not yield the same
meaning, given that (17a) does not entail (17b).
9
A noun phrase such as l’intervista del giornalista al Presidente „the journalist‟s interview to the President‟ also
suggests that in (18) intervista „interview‟ works as a noun predicate, and that both Presidente „President‟ and
giornalista „journalist‟ are its arguments. However, it is unclear whether a formal account of such relations
192
6. Answers
Answer to question (a): the above discussion suggests that there exist (at least) two verbs
strappare, homophonous, that have distinct argument-frames and yield distinct meanings.
Their differences are itemized below:10
strappare in (1):
o the verb licenses N0 with the semantic role >Cause<;
o the verb does not license N1, which is predicative. As a result, N1 does not play any
semantic role, and, as happens to the noun predicate of support verb sentences such as
(4), it surfaces as a direct object;
o the verb does not license N2, which is instead licensed by N1 with the semantic role
>Agent<.
strappare in (2) (under the „tear‟ meaning):
o the verb licenses N0 with the semantic role >Agent<;
o the verb licenses N1 with the semantic role >Affectee< (or >Theme<);
o either the verb licenses N2 as its third argument (this way the relationship between N1
and N2 is established pragmatically rather than syntactically), or N2 is an argument of
N1 (the relationship between N1 and N2 is thus established syntactically rather than
pragmatically).
Answer to question (b): The predicative role of confessione, together with its notional
subject Piero, accounts for why (1) entails the support verb sentence (4). On the other hand, a
causative role for strappare, which thus licenses N0 as >Cause<, corroborates the entailment
of the fare causative in (5) by sentence (1).
Answer to question (c): according to Saussure, « what is commonly referred to as a
„grammatical fact‟ fits our definition of a linguistic unit » (both translation and quote are from
Culler, 1986: 58). That is, as Culler puts it, according to Saussure « there is no fundamental
difference between a linguistic unit and a grammatical fact » (1986: 58). In the analysis we
put forward above, in (1) strappare is a one-place causative predicate. The same analysis
cannot hold true for (2) if both N0 and N1 (at least) are licensed by a transitive strappare.
Moreover, in (1) the subject of strappare can take both values [± Animate] and keep the same
semantic role >Cause<, whilst this is not the case for the subject of strappare in (2), given
that the same alternation yields a change in the semantic role from >Agent< to >Instrument<
(see fn. 1).
Still according to Saussure, « signs are entirely differential objects » (quote from Culler
1986: 58). Under our hypothesis, the metaphorical and literal uses in (1) and (2), respectively,
are to be ascribed to two different predicate-argument frames for strappare. In (1), strappare
combines with a predicative N1 and is not a change of state verb (the direct object undergoes
no change of state), whilst in (2) strappare combines with an argumental N1 and is a change
of state verb.
In the Relational Grammar framework (for an introduction see e.g. Marlett 1991), a clause
can be multistratal and « distinct predicates occur seriatim » (Rosen 1991: 127). Within the
revised version in La Fauci and Mirto 2003, each predicate is formalized by means of two
should hinge on the lexical properties of the verb rilasciare or on the predicative role of the post-verbal noun
intervista „interview‟.
10
As pointed out above, (2) is ambiguous: within the interpretation that sees Piero as wearing the shirt, the
licensing of the indirect object a Piero „from Piero‟, whose semantic role appears to be >Possessor< but, to a
certain extent, also >Affectee<, (see Mirto 1998: 41-42 for a similar case in Korean) appears to be problematic.
193
binary features: [± Initiator] and [± Licenser]. The positive value of the former indicates that a
predicate originates the clause, i.e. occurs in its first stratum, whereas the positive value of the
latter means that a predicate licenses one or more arguments. Causative fare is conceived as
[– Initiator], insofar as the [+ Initiator] predicate invariably is the infinitive following fare
(e.g. confessare in (5) and (8)), and [+ Licenser] because it licenses a (new) subject. In both
(1) and (2) strappare is clearly [+ Licenser], though in different ways, since in (2) it is a
transitive predicate, whilst in (1) it is an unergative whose subject plays the semantic role
>Cause<. The feature [± Initiator] gives another means to distinguish the two uses of
strappare, because in (1) the [+ Initiator] predicate is confessione, and strappare is therefore
[– Initiator], whereas in (2) strappare is [+ Initiator]. These features formally distinguish the
two uses, yield distinct meanings, and allow us to treat the two occurrences as distinct
linguistic signs, instead of accounting for the difference on the sole basis of metaphor vs.
literal uses.
To conclude, let us consider – all together – the verbs mettre in (9a), give in (16a), and fare
in (17a). If it is true that in such sentences these predicates bear the same syntactic features
that strappare has in (1), this provides us with a way to formally characterize, and expand
cross-linguistically, Gross‟s (1998) intuition concerning the Vsup causatif.
References
BUSSMANN, Hadumod, 1996, Dictionary of Language and Linguistics [translated and edited
by G. Trauth and K. Kazzazi], Routledge, New York-London.
CULLER, Jonathan, 1986, Ferdinand de Saussure (revised edition), Cornell University Press,
Ithaca, New York.
DEROSSI, Giorgio, 1965, Segno e struttura linguistici nel pensiero di Ferdinand de Saussure,
Del Bianco editore, Udine.
GROSS, Gaston, 1989, Les constructions converses du français. Librairie Droz, Genève-Paris.
GROSS, Maurice, 1981, Les bases empiriques de la notion de prédicat sémantique,
«Langages» 63, 7-52.
GROSS, Maurice, 1998, La fonction sémantique des verbes supports, «Travaux de
linguistique» 37, 25-46.
HARRIS, Zellig S., 1981, Papers on Syntax, Reidel, Dordrecht-Boston.
LA FAUCI, Nunzio and Ignazio M. MIRTO, 2003, Fare. Elementi di sintassi. ETS, Pisa.
MARLETT, Stephen, 1991, A Course in Relational Grammar, University of North Dakota.
MIRTO, Ignazio M., 1998, The Syntax of the Meronymic Construction, ETS, Pisa.
NAKAMURA, Takuya, 2009, Sur la correspondance entre adverbe dans una phrase verbale et
adjectif dans une phrase à verbe support, in «Arena Romanistica» 4, 266-273.
ROSEN, Carol, 1991, Relational Grammar: L2 learning and the components of L1 knowledge,
in Crosscurrents in Second Language Acquisition and Linguistic Theories, T. Huebner and
Charles A. Ferguson (eds.), Amsterdam/Philadelphia, John Benjamins, 123-142.
SAUSSURE, Ferdinand de, 2002, Ecrits de linguistique générale, Gallimard, Paris.
SONG, Jae Jung, 2006, Causatives: Semantics, in Encyclopaedia of Language and Linguistics,
Vol. 2, Second edition, Keith Brown (editor in chief), Elsevier, Oxford, 265-268.
WECHSLER, Stephen, 2006, Thematic structure, in Encyclopaedia of Language and
Linguistics, Vol. 12, Second edition, Keith Brown (editor in chief), Elsevier, Oxford, 645653.
194
Monville-Burston Monique
Université de Chypre
[email protected]
Kakoyianni-Doa Fryni
Université de Chypre
[email protected]
PREPOSITIONS/CONJONCTIONS TEMPORELLES AVEC ORIENTATION
PROSPECTIVE : JUSQUE/UNTIL/MECHRI
Résumé
Sur la base d’un corpus de textes écrits et dans une approche contrastive, les sens et emplois
des trois prépositions/conjonctions (PC) jusque (français), until (anglais), mechri (grec
moderne) sont examinés. On montre que du point de vue des syntagmes qu’elles introduisent,
ces PC diffèrent peu : toutes trois peuvent être suivies d’un Adv-temps, d’un SN, d’un SPrep
et d’une P. Toutefois, elles diffèrent au niveau sémantique. Jusque est marqué pour la
durativité, et s’il y a focalisation sur le terminus elle laisse la place à avant. Until est
compatible avec tous les types de polarité négative mais exclut l’expression de la date-limite.
Seule la polarité négative avec valeur ponctuelle limite les emplois de mechri.
Mots-clés : préposition/conjonction, temporalité, aspect, polarité négative, termination.
1. Introduction
Bien que cet article ne se réclame pas explicitement de la théorie de Maurice Gross, il ne se
situe pas moins dans la lignée de la théorie lexique-grammaire. En effet il reconnaît et
applique certains grands principes qui la définissent : importance donnée au lexique, nécessité
d’associer étroitement grammaire et lexique dans la description linguistique, utilisation de
critères distributionnels. Pour respecter la réalité des usages linguistiques, la collecte des
données s’est faite sur des corpus, sans que soit écarté le bénéfice des jugements introspectifs
de grammaticalité.1 L’étude présentée ici est contrastive. Elle compare trois prépositions /
conjonctions (PC) : jusque (français), until (anglais), mechri (grec moderne)2. A la différence
de until qui ne peut se référer qu’au temps, jusque et mechri sont des outils de structuration de
l’espace (j’irai jusqu’à Paris) qui s’appliquent métonymiquement à d’autres domaines,
comme ceux du temps (1) et du degré (2).3
(1) Il va pleuvoir jusqu’à demain.
(2) On pourra loger jusqu’à cinq personnes dans cette chambre.
Mais un noyau sémantique invariant, l’expression d’une « polarité extrême » (Adler & Asnes
2007), fait l’unité des emplois de jusqu’à et de mechri (spatiaux, temporels et scalaires).
Fr.
Ang.
Gr.
Valeur spatiale
+ J’irai jusqu’à Paris
+ Tha pao mechri to Parisi
Valeur temporelle
+ Je resterai jusqu’à 5h
+ I’ll stay until 5.00
+ Tha mino mechri tis 5.00
Valeur scalaire
+ Il a bu jusqu’à 10 verres
+ Ipie mechri kai4 10 potiria
Tableau 1 – Valeurs générales comparées de jusque, until et mechri
Nous nous concentrerons ici sur les valeurs temporelles des trois PC.5 Nous présenterons
d’abord leur sens lexical général (Section 2), et les constructions où on les rencontre (Section
1
Les données ont été recueillies dans la base Frantext pour jusque et ses variantes, dans le corpus du portail
électronique grec Komvos pour mechri, et sur Internet et dans la base COCA pour until.
2
Pour plus de commodité, toutes les variantes morphosyntaxiques de la PC –à moins qu’il soit nécessaire de les
distinguer– seront représentées par jusque pour le français (jusque, jusqu’à, jusqu’en, jusqu’à ce que, jusqu’au
moment où, etc.), par until pour l’anglais (until, till), et par mechri pour le grec (mechri, mechris, mechri na,
mechri pou).
3
Voir par exemple Borillo 1998 ; Leeman 2005.
4
Dans ce cas, mechri est renforcé par l’adverbe-conjonction ke (‘et, aussi’). Voir aussi note 7.
195
3). Puis nous examinerons les contraintes qui limitent leur emploi, ce qui permettra de
dégager similarités et différences entre les trois langues dans l’expression de la temporalité
avec orientation prospective. Les contraintes considérées seront de trois ordres : a) aspect
lexical de la PC et du verbe qui la gouverne (Section 4) ; b) aspect grammatical de ce même
verbe (Section 5) ; c) effet de la négation appliquée à ce verbe (Section 6), et effet d’une
focalisation sur le terminus dénoté par la PC (Section 7).
2. Sens lexical général de la PC
Nous avons dit que les PC considérées exprimaient de façon invariante une polarité extrême.
Pour leurs valeurs temporelles, cette polarité se manifeste dans l’expression d’un moment
atteint (jusqu’à maintenant, until now, mechri tora) ou à atteindre dans la postériorité (jusqu’à
ce soir, until tonight, mechri apopse). Cette orientation prospective se double d’une idée
d’espace/étendue qui apparaît bien si le point initial du procès verbal est spécifié (depuis ce
matin jusqu’à ce soir ; from this morning until tonight ; apo to proi mechri to vradhi).
Considérons de plus près la situation typique où apparaît la PC (3).
(3a) Le concert a duré jusqu’à minuit.
(3b) The concert lasted until midnight.
(3c) H sinavlia diirkese mechri ta mesanikta.
La PC indique un espace de temps orienté prospectivement et combiné à un terme (Schéma
1). t est un point de référence déterminé par le locuteur, mais dont la spécification n’est pas
essentielle. t’ est le moment qui fixe le terme de l’espace de temps dénoté par la PC (minuit,
midnight, ta mesanikta). A la différence de t, il est spécifié. Sémantiquement la PC a donc
deux composantes : un terme (t’) et un parcours (t-t’).6 Nous empruntons à Leeman (2005) le
terme ‘parcours’, car il décrit bien le dynamisme de la PC (voir la flèche dans le schéma 1).
- - - -|-------------------------------- > |- - - - - t
t’
point de référence
choisi par le locuteur
terme de l’espace de temps
indiqué par la PC
Schéma 1
Normalement le parcours par t-t’ est couvert par le procès du verbe introducteur (Exemples
(3)), mais sans que ce soit une nécessité comme nous le verrons dans la suite. Le Schéma 2
représente des situations prototypiques, comme en (3).7
- - - -|--------------------------------- >|- - - - - - (PC)
- - - -|====================>|- - - - - - (procès verbal)
t
t’
terme de l’espace de temps
indiqué par la PC
point de référence
choisi par le locuteur
Schéma 2
5
Dans le traitement de nos corpus, nous avons appliqué les critères discriminatoires établis par Adler et Asnes
2007 pour écarter les emplois scalaires.
6
Comme le disent bien Le Bidois & Le Bidois (1971 : 426), jusque « marque le point d’arrivée dans le temps et
suppose en outre une continuité qui a là son terminus. » Quirk & al. (1985 : 533) indiquent que until se réfère au
temps dans sa dimension linéaire et non ponctuelle et dénote un « forward span », un espace de temps orienté
vers l’avant.
7
Damourette & Pichon (1911-1940 : § 2904) remarquent judicieusement que le terme temporel (t’) dénoté par
jusque peut être « le dernier englobé ou le premier laissé dehors » (Cf. la notion de localisation interne/externe
dans Leeman 2005). Ainsi doit-on suppléer inclus, exclus, etc., si nécessaire, comme dans la phrase suivante :
Jusqu'au 7 août inclusivement, les autorités britanniques ont déclaré ignorer l'accord Lyttelton-De Gaulle. En
grec, on fait suivre ou précéder mechri de la conjonction ke (‘et’) pour signifier l’inclusion: Mechri ke tis 7
avgoustou, oi Vretanikes arches dilonan agnia tis simfonias Lyttelton-De Gaulle (Voir Babiniotis 2010 : 954).
196
Normalement donc, le procès verbal est en relation de coïncidence avec le décalage temporel
t-t’. Nous verrons cependant (Section 6) que dans certaines constructions négatives, cette
relation de coïncidence n’est pas totale.
3. Constructions temporelles dans lesquelles entre la PC
Les corpus utilisés montrent (cela ne s’applique évidemment pas à until) que, comparé aux
emplois spatiaux et scalaires, l’usage temporel de la PC est bien représenté. Pour le français
on a relevé 539 emplois temporels de jusque sur 1090, soit près de la moitié (49,5%). Pour le
grec le corpus a donné 236 mechri à valeur temporelle contre 110 mechri à valeur spatiale ou
de degré, soit 68%.
Le constituant qui gouverne la PC est normalement un verbe. En général ce verbe la précède
mais l’ordre peut être renversé, avec évidemment des implications du point de vue du
discours que nous ne pouvons pas développer ici.
La PC introduit dans les trois langues un certain nombre de constituants syntaxiques (adverbe,
SN, SPrep, et P), et beaucoup de similarités sont à noter. Nous en présentons un résumé cidessous, en illustrant d’exemples.
3.1 Adverbe de temps
Français : jusque tard dans la nuit, jusqu’ici
Anglais : until late in the night, until tomorrow
Grec: mechri arga to vradhi, mechri avrio
3.2 Syntagme nominal [avec article (a), ou sans article (b)]
Français : (a) jusque six mois plus tard ; (b) jusque les derniers jours
Cette construction est rare en français (trois exemples seulement dans le corpus), alors qu’elle
est très courante dans les deux autres langues.
Anglais : (a) until last week ; (b) until the 1st of April
Grec: (a) mechri thanatou (génitif), ‘jusqu’à la mort’; (b) mechri ta mesanikta (accusatif)
‘jusqu’à minuit’8
3.3 Syntagme prépositionnel (avec en conséquence la constitution d’une locution prépositive
complexe) :
Français : jusqu’à demain ; jusque dans trois mois, jusqu’en (mars) 2000
En français, cette construction est la construction de base, à la différence des deux autres
langues. La seconde préposition (le plus souvent à, en), est elle-même suivie d’un adverbe ou
d’un SN.
Anglais : until after Christmas
Grec : mechri (ke+ E) prin (E+ apo) liga chronia, ‘jusqu’à il y a quelques années ; (ke+E)
mechri meta (E+ apo) tis giortes, ‘jusqu’à après les fêtes’.
En grec, cette construction ne se rencontre guère qu’à avec prin apo et meta et généralement
avec le renforcement par la conjonction ke (cf. note 7).
Il est à noter que le N qui participe aux constructions 3.2 et 3.3 se réfère le plus souvent à des
entités temporelles (heure, date, mois, etc.), comme le montrent les exemples cités plus haut.9
3.4 Phrase enchâssée (P)
Français : (a) Elle a pris le médicament recommandé jusqu’à ce que sa tension baisse ; (b)
Elle a pris le médicament recommandé jusqu’au jour où il a été retiré du commerce.
Dans ce cas jusque est la tête d’une conjonction complexe, jusqu’à ce que, qui est
normalement suivi du subjonctif en français contemporain.10 Avec l’indicatif, on préfère
8
Le nom qui suit mechri est à l’accusatif et plus rarement au génitif, ce dernier cas se rencontrant dans des
expressions figées : mechri thanatou; mechri skasmou, ‘jusqu’à la mort, jusqu’à l’étouffement’.
9
La préposition peut aussi, dans les trois langues, être suivie d’un N déverbal :
Français : jusqu’à mon retour, jusqu’à la chute de Constantinople ; Anglais : until my return, until the fall of
Constantinople ; Grec : mechri tin anaxorisi mou, mexri tin ptosi tou Bizantiou.
197
jusqu’au moment/jour où.11. Il est à noter que les P au subjonctif tendent à avoir une
interprétation résultative, en plus de temporelle. On comparera (a) et (b) ci-dessus.
Anglais: (a) I had to stay in Fresno until the school year ended; (b) the corn was soaked until
it sprouted.
Until conjunction et until préposition sont identiques dans la forme. P peut recevoir ou non
une interprétation résultative selon le contexte, sans que la différence soit formellement
marquée par une variation modale. (b) est temporel-résultatif (‘on a fait tremper le maïs
jusqu’à ce qu’il germe’), tandis que (a) est purement temporel (‘j’ai dû rester à Fresno jusqu’à
ce que les cours finissent’). Until peut s’employer avec la forme verbale non-finie en –ed: I’ll
stay here until ordered to move (‘*Je resterai ici jusqu’à ordonné de me déplacer), mais il
s’accommode mal de la forme progressive en –ing : (?)I’ll stay here until getting further
instructions (‘je resterai ici jusqu’à nouvel ordre’), l’aspect progressif étant peu compatible
avec la valeur télique de la subordonnée en until (voir Quirk & al. 1997 : 1004-7).
Grec : (a) Se perimena mechri pou niktose (‘je t’ai attendu jusqu’au moment où il a fait nuit’);
(b) Tha mino edo mechri na viktosi (‘je resterai ici jusqu’à ce qu’il fasse nuit’).
Mechri suivi de P est accompagné ou bien de na, la marque du ‘subjonctif, de pou na, ou tout
simplement de pou, un complémentiseur largement employé dans la subordination en grec;
dans ce dernier cas le verbe est à l’indicatif. Mechri pou se rencontre plutôt pour présenter des
situations passées déjà réalisées comme dans (a), alors que mechri na est plutôt employé avec
des situations où l’on anticipe la réalisation du procès, comme dans (b).12
4. Aspect lexical
Dans les constructions où entre la PC, l’aspect lexical est à prendre en compte, dans une
double perspective : d’une part du point de vue de la PC elle-même, qui comme nous l’avons
vu, est aspectuelle puisqu’elle dénote une étendue de temps (durativité) bornée à droite par un
terme (télicité) ; d’autre part du point de vue du verbe qui gouverne le SPrep ou la P introduits
par la PC.13 L’aspect de la PC peut entrer en concurrence avec l’Aksionsart. Comme la PC
impose la représentation mentale d’une extension temporelle (avec terme atteint ou à
atteindre), l’‘éventualité’ est forcément vue du point de vue du temps nécessaire à sa
réalisation. La composante sémantique ‘parcours’ de la PC, entraîne donc des conséquences
importantes pour l’association PC-Aksionsart : les ‘éventualités’ de type état et processus (à
savoir non-téliques) sont celles qui s’associent de préférence avec la PC, et cela est vrai dans
les trois langues, comme on le voit en (4) et (5), par opposition à (6) et (7).
État
(4a) Elle a cru (p.c.) au Père Noël jusqu’à l’an dernier.14
(4b) She believed (pret.) in Santa Claus until last year.
(4c) Pisteve (imp.) sto Agio Vasili mechri (kai) persi.
10
Voir Glätti 1974. Les grammaires de référence, mais non pas notre corpus, donnent un certain nombre de
contre-exemples.
11
Les exemples de P à un mode non-fini (infinitif) sont tous scalaires dans notre corpus: chanter jusqu’à perdre
la voix.
12
Il n’est cependant pas exclu d’avoir mechri na dans des phrases passées (Holton et al, 1999 : 379). Babiniotis
(2002 : 1094) remarque qu’alors mechri pou indique le moment où l’action passée de la principale s’est trouvée
réalisée : Imoun distichismenos mechri pou se ksanavrika / j’étais malheureux jusqu’au moment où je t’ai
retrouvé, alors que mexri na indique que l’action de la principale est envisagée comme en cours de réalisation :
perimename mechri na perasi I bora (‘Nous avons attendu que l’averse passe’).
13
Nous utilisons ici les catégories aspectuelles (Aksionsarten) établies par Vendler (1967) pour les verbes, et la
terminologie de Caudal (2006) pour les désigner en français. Une ‘éventualité’ (un procès verbal) peut exprimer
un état (rester, attendre), ou un événement. Dans ce second cas, elle est dynamique. Les événements sont euxmêmes de deux sortes : processus (- téliques : marcher, chanter) et terminations (+ téliques). Les terminations se
subdivisent elles-mêmes en atomiques (s’éveiller, partir) et non-atomiques (tracer un cercle, faire une tarte).
14
Les abréviations suivantes sont utilisées : imp. = imparfait et p.c. = passé composé, pour le français ; pret. =
prétérite et p.perf. = present perfect pour l’anglais ; imp. = imparfait et aor.= aoriste pour le grec.
198
(5a) Il a régné (p.c.) jusqu’en 1715.
(5b) He reigned (pret.) until 1715.
(5c) Vasilevse (aor.) / Vasileve (imp.) mechri to 1715.15
Termination non-atomique
(6a) *Elle a mangé (p.c.) une pomme jusqu’à 5 heures.
(6b) *She ate (pret.) an apple until 5.00.
(6c) *Efage (aor.) ena milo mechri tis 5.00.
Termination atomique
(7a) *Il est arrivé (p.c.) jusqu’à 5 heures.
(7b) *He arrived (pret.) until 5.00.
(7c) *Eftase (aor.) mexri tis 5.00 16
Processus
5. Aspect grammatical
L’aspect grammatical, information aspectuelle exprimée par la morphologie flexionnelle
verbale, est aussi intéressant à considérer. En français, selon notre corpus, tous les temps
verbaux s’accommodent bien de jusque, à l’exception de l’imparfait. En effet la composante
télique de jusque interfère avec la valeur non-achevée de ce temps : *aujourd’hui il dormait
jusqu’à midi, à moins qu’il y ait itérativité: il dormait tous les dimanches jusqu’à midi.17 En
anglais, until s’associe librement avec les divers temps verbaux sous leur forme progressive
(a) ou non (b), selon les contextes : (a) He was sleeping until the bomb exploded, ‘il a dormi
jusqu’à ce que la bombe éclate’); (b) He slept until noon, ‘il a dormi jusqu’à midi’), avec
présence ou non d’itérativité. Cependant le ‘present perfect’ qui exprime que l’action verbale
est achevée avec des résultats observables dans le présent, est d’un emploi difficile avec until.
La PC, fixant une borne, implique souvent que l’action verbale n’est plus valide à t’ (et ne
peut alors pas se continuer dans un état résultatif) : *I have waited (p. perf.) for him until 5.00,
‘je l’ai attendu jusqu’à 5 heures’.18
En grec, tous les temps verbaux sont utilisables dans la proposition dont dépend mechri. En
particulier au passé, à la différence du français et comme on le voit dans les phrases (4c) et
(5c), l’imparfait ne fait pas difficulté. Si l’on suit Moser (2008 : 7-8), l’opposition aspectuelle
binaire ‘perfectif-imperfectif’ (et donc aoriste-imparfait) est ‘subjective’. Les situations
peuvent être vues par le locuteur perfectivement (de l’extérieur, comme un tout) ou
imperfectivement (de l’intérieur, dans leur développement). En grec, l’aspect grammatical
n’entre donc pas en conflit de façon cruciale avec l’aspect lexical de la PC.19
6. Phrases négatives
Comme l’ont remarqué un certain nombre de travaux (Karttunen 1974 ; Declerck 1995 ;
Hitzeman 1991), until est sensible à la forme négative de la phrase où il se trouve. Cette
polarité négative influence aussi jusque et mechri. Considérons d’abord les phrases à
‘éventualité’ de type état (8) et processus (9).
État
(8a) Il n’est pas resté jusqu’à ce que je revienne.
(8b) He didn’t stay until I returned.
15
Pour les contraintes sur le choix des temps avec la PC, voir la section 5.
Des interprétations itératives peuvent cependant rendre acceptables l’association termination-PC : J’ai acheté
(p.c.) le New York Times tous les jours jusqu’en 2005/ I bought (pret.) The New York Times every day until
2005/Agoraza (imp.) to New York Times kathe mera mechri to 2005.
17
Voir aussi l’exemple de P. Vialar cité par Grevisse (1980 : 1341): Le train s’arrêtait à chaque station de
Sologne, jusqu’à ce qu’apparut la Loire. Malgré l’unicité du voyage en train, on a l’imparfait à cause de la
répétitivité des arrêts.
18
(?) He has lived in Paris until now est cependant plus acceptable, l’adverbe now (‘maintenant’) liant la
situation au présent.
19
Au sujet de l’emploi du passé composé en grec et de ses conditions d’emploi avec mechri, voir la discussion
de Giannakidou 2002.
16
199
Processus
(8c) Dhen emine mechri na epistrepso.
(9a) Il n’a pas dormi jusqu’à 5 heures du soir.
(9b) He didn’t sleep until 5.00 p.m.
(9c) Dhen kimithike mechri tis 5.00 mm
Dans ces phrases, comme le montre le schéma 3, l’espace de temps défini par la PC n’est pas
entièrement couvert par l’‘éventualité’ et s’arrête à un point t˝ : ‘Il’ (la personne en question)
n’a pas attendu mon retour, il est parti avant ; il s’est réveillé à 3 heures, non pas à 5 heures).
Il y a une coïncidence, mais partielle seulement, entre la durée du procès t-t˝ et le parcours
défini par la PC t-t’.
- - - -|--------------------------------- >|- - - - - - (PC)
- - - -|==========>- - - - - - - - - -|- - - - - - (procès verbal)
t
t˝
t’
terme de l’espace de temps
indiqué par la PC
point de référence
choisi par le locuteur
Schéma 3
En anglais cependant ce type de phrase est ambigu. Il peut en effet recevoir une interprétation
‘ponctuelle’ (Karttunen 1974). Le parcours t-t’ indique dans ce cas la durée de la nonoccurrence du procès verbal. (9b) peut alors aussi signifier qu’il a fallu attendre 5 heures du
soir pour que la personne en question commence à dormir. Ce n’est qu’en t’ que le procès
verbal se réalise. Cette interprétation s’applique aussi aux terminations : ainsi pour (10a) et
(10b), où respectivement l’arrivée de la personne en question coïncide avec mon retour et la
consommation de la pomme ne commence pas avant 5 heures. C’est ce que montre le schéma
4 où t˝, le début de la réalisation du procès verbal, se superpose à t’.
(10a) He didn’t arrive until I returned.
(10b) He didn’t eat his apple until 5.00.
- - - -|--------------------------------- >|- - - - - - (PC)
- - - -| - - - - - - - - - - - - - - - - - - - -І| - - -> -- (procès verbal)
t
t˝, t’
terme de l’espace de temps
indiqué par la PC
point de référence
choisi par le locuteur
Schéma 4
Ces types d’emplois ne s’observent pas en français. La phrase (9a) ne peut pas signifier que la
personne s’est endormie seulement à 5 heures. Et dans le cas des terminations, on devra
substituer avant (où l’idée de parcours est absente) à jusque pour sauvegarder la
grammaticalité de la phrase.
(11a) Il n’est pas arrivé *jusqu’à ce que / avant que je revienne.
(11b) Il n’a pas mangé sa pomme *jusqu’à / avant 5 heures.
En grec, de la même façon, on devra substituer prin (‘avant’) à mechri dans les phrases
équivalentes.
(12a) Dhen eftase *mechri na / prin epistrepso.
(12b) Dhen efage to milo tou *mechri / prin tis 5.00.
Certaines phrases négatives cependant sont acceptables, par exemple : Min figis mechri na
epistrepso (‘Ne pars pas avant que je revienne’). C’est ce type de phrases et plus
généralement les phrases à terminations (négatives ou positives), associées
−grammaticalement− à mechri qui vont nous intéresser dans la Section 7.
200
7. La PC et les terminations non encore réalisées
Nous avons montré dans la Section 4 que les verbes de type termination (téliques, nondynamiques) n’étaient pas compatibles avec la PC. En grec cependant on observe que
l’emploi de mechri est possible avec ce type de verbe pour exprimer le moment précis avant
lequel une ‘éventualité’ doit/va se produire. Les contextes les plus favorables à ces emplois
sont les contextes ‘potentiels’, où l’action verbale est encore non réalisée, et où la phrase
principale est au futur, à l’impératif ou est plus généralement injonctive (Voir aussi
Giannakidou 2002).
(16a) Paradoste/ na paradosete / tha paradosete / prepi na paradosete tis ergasies sas mexri tis 2
dekemvriou. (‘Remettez/ Veuillez remettre/ Vous remettrez/ Vous devez remettre vos devoirs avant le
2 décembre’)
Le schéma 5 illustre cette situation : le procès verbal (non-duratif) se réalise dans la période
de temps définie par t-t’, à un point t˝.
- - - -|--------------------------------- >|- - - - - - (PC)
- - - -| - - - - - - - - - - - - І - - - - - - -| - - - - - (procès verbal)
t
t˝
t’
terme de l’espace de temps
indiqué par la PC
point de référence
choisi par le locuteur
Schéma 5
Babiniotis (2010 : 953) dit que dans ce cas mechri exprime une « limite ultime de l'espace de
temps ». En effet, l’attention est concentrée nettement sur la borne finale dénotée par la PC, et
non sur le parcours à balayer pour l’atteindre. Ni l’anglais ni le français ne permettent cet
usage, où l’idée de parcours étant quasiment occultée, celle de date limite devient dominante.
Dans ce cas, le français n’accepte qu’avant, et l’anglais utilise la préposition by −qui
d’ailleurs, dans son sens temporel, est incompatible avec des éventualités dynamiques (She
swam *by/until 5.00, ‘Elle a nagé jusqu’à 5 heures’) :
(16b) Remettez/ Veuillez remettre/ Vous remettrez / Vous devez remettre vos exercices
*jusqu’au/avant le 2 décembre.
(16c) Hand in / Please hand in / You’ll hand in / You have to your exercises *until/by December 2.
8. Conclusion
Notre étude comparative a laissé apparaître que jusque, until et mechri, du point de vue de la
constitution des syntagmes qu’ils introduisent, ne diffèrent pas de façon fondamentale : on les
trouve tous trois suivis d’un adverbe de temps, d’un SN, d’un SPrep et d’une P. Le français se
singularise cependant par l’adjonction presque constante d’une préposition à jusque. D’autres
différences sont dues au système linguistique de chaque langue (existence de cas en grec,
d’oppositions modales indicatif/subjonctif, en grec et en français, par exemple). Mais ce qui a
permis de dégager les résultats les plus intéressants a été l’étude des compatibilités /
incompatibilités du sens lexical (aspectuel) de la PC (parcours + terminus) avec l’Aktionsart
et l’aspect grammatical du verbe dont dépend la PC. Le Tableau 2 résume ces résultats, en
mettant en valeur les contraintes qui restreignent l’utilisation de jusque, until et mechri.
Jusque est sémantiquement le plus rigide, car il est ‘marqué’, au sens jakobsonien, pour
l’aspect duratif : la notion d’un parcours à accomplir pour le procès verbal est exigée. S’il y a
focalisation sur le terminus avant se substitue jusque.
201
PC
éventualités
dynamiques
(parcours
complet)
avec
nont-t’
Fr.
+ Il est resté jusqu’à
5 heures
Ang.
+ He stayed until
5.00
Gr.
+ Perimene mechri
tis 5.00
PC
en
polarité
négative
avec
éventualités
dynamiques
(parcours
t-t’
partiel)
+ Il n’a pas dormi
jusqu’à 5 heures
(= jusqu’à 3h)
+ He didn’t sleep
until 5.00 (= until
3.00)
+ Dhen kimithike
mechri tis 5.00 (=
mechri tis 3.00)
PC
en
polarité
négative
[toutes
éventualités]
(valeur ponctuelle :
t˝= t’)
- (ne…pas avant)
+ He didn’t arrive
until 5.00 (= he
arrived only at 5.00)
- (dhen…prin)
PC visée potentielle
+ centration sur le
terminus
[toutes
éventualités]
(valeur ponctuelle :
t˝ entre t et t’)
- (avant)
- (by)
+ Paradoste tis
ergasias sas
mechri tis 5.00
Tableau 2 –Emplois temporels comparés de jusque, until et mechri
C’est until qui s’accommode le mieux des énoncés négatifs, mais il est incompatible avec
l’idée de date-limite. Quant à mechri, sa gamme d’utilisation est large. Son emploi est peu
restreint par l’aspect grammatical du verbe (Section 4) et il n’est exclu que des emplois
ponctuels avec polarité négative.
Références
ADLER, S. & M. ASNES. 2007. Audacieuses jusqu’à la témérité/braves jusqu’à la folie. In P.
C. Lopez (dir.), Actas del VI Congreso de Linguistica General (3-7/05/2004, Santiago de
Compostela), Vol. 2(1) : 1413-1428.
BORILLO, A.1998. L’espace et son expression en français. Paris : Ophrys.
CAUDAL, P. 2006. Aspect. In D. Godard, L. Roussarie & F. Corblin (dir.) Sémanticlopédie:
dictionnaire de sémantique, http://www.semantique-gdr.net/dico/.
DAMOURETTE, J. & E. PICHON. 1911-1940. Des Mots à la pensée. Paris : D’Artrey.
DECLERCK, R. 1995. The problem of not…until, Linguistics 33, 51-98.
GIANNAKIDOU, A. 2002. Until, aspect and negation: a novel argument for two untils. In B.
Jackson (ed.), SALT 12, Cornell University, Ithaca, NY. 84-103.
GLÄTTI, H. 1974. Sur le mode régi par jusqu’à ce que, Revue de linguistique romane 38 :
210-222.
GREVISSE, M. 1980. Le Bon usage. Gembloux : Duculot.
HITZEMAN, J. 1991. Aspect and adverbials, SALT 1, 107-126.
HOLTON, D., P. MACKRIDGE, I. WARBURTON-ΦΙΛΙΠΠΑΚΗ, Ειπήνη. 2000. Γραμματική της
Ελληνικής Γλώσσας. Αθήνα: Εκδόζειρ Παηαηάκη.
KARTTUNEN, L. 1974. Until. CSL 10. 284-297.
LE BIDOIS, G. & R. LE BIDOIS. 1971. Syntaxe du français moderne. Paris : Picard.
LEEMAN, D. 2005. La préposition jusque. In P. Dendale (éd) Le mouvement dans la langue et
la métalangue, Recherches linguistiques, 27 : 103-119.
MOSER, A. 2008. The changing relationship of tense and aspect in Greek. Sprachtypologie
und Universalienforschung /Typology and Universals (STUF) 61: 5-18.
QUIRK, R., S. GREENBAUM, G. LEECH & J. SVARTVIK. 1997. A comprehensive grammar of
the English language. Harlow : Longman.
VENDLER, Zeno. 1967. Linguistics in philosophy. New York: Cornell University Press.
ΜΠΑΜΠΙΝΙΩΤΗΣ, Γ. [Babiniotis, G]. 2002. Λεξικό της Νέας Ελληνικής Γλώσσας. Αθήνα:
Κένηπο Λεξικολογίαρ Ε.Π.Ε.
ΜΠΑΜΠΙΝΙΩΤΗΣ, Γ. [Babiniotis, G]. 2010. Γραμματική της Νέας Ελληνικής. Αθήνα : Ελληνικά
γπάμμαηα.
202
Nguyen Tien Van
Université Cedex
[email protected]
Gaio Mauro
Université Cedex
[email protected]
UTILISATION DE LA RELATION « VERBE – PREPOSITION – TOPONYME »
POUR UN INVENTAIRE LEXICAL AUTOMATIQUE
Résumé
Nous proposons une approche, permettant à partir d’un modèle, d’extraire et d’interpréter des
informations à connotation géographique à partir d’une analyse automatique d’un corpus de
textes littéraires (récits de voyages dans les Pyrénées au XIXe siècle). Il s’agit de la
combinaison d’une approche lexico-syntaxique permettant le marquage et l’interprétation
d’expressions contenant au moins une entité nommée géographique avec une analyse
grammaticale ciblée impliquant des verbes de déplacement (ou de perception) permettant le
marquage d’expressions de mouvement et d’expressions spatiales. L’inventaire lexical obtenu
à l’aide de cette démarche est ensuite exploité à des fins d’enrichissement d’une ontologie
géographique construite par l’IGN.
Mots-clés: extraction de concepts, modélisation spatiale, lexique géographique, grammaire
hors contexte, enrichissement d’ontologie.
1
Introduction
L’un des buts du projet GEONTO1 est de créer une ontologie initiale spécifique au domaine
géographique tel que mise en avant par Uitermark(2001) ou Brodeur(2004) (et plus
particulièrement à la topographie) puis de l’enrichir de manière automatique. L’ontologie
initiale a donc été créée en collaboration avec l’équipe de recherche du COGIT de l’IGN
impliquée dans le projet. Dans le cadre de cet article, nous présentons une méthode afin de
réaliser automatiquement, à partir d’un ensemble de textes, un inventaire lexical
potentiellement à connotation géographique. Cet inventaire devant par la suite servir à
enrichir les concepts de l’ontologie ci-dessus énoncée. Nous nous sommes exclusivement
intéressés à des situations dans lesquelles le mot ou le groupe de mots se retrouvent à
proximité d’une entité nommée géographique et sont impliqués dans une relation de
dépendance grammaticale avec un verbe de déplacement (ou verbe de perception) et
éventuellement avec une préposition.
La problématique est détaillée en -2-. En -3- nous discutons des travaux existants relatifs
au traitement automatique de langue (TAL) et les ressources lexicales. Notre méthode et le
résultat d’expérimentation sont présentés en -4- et -5-.
2
La problématique
Le lexique à constituer doit être obtenu à partir de l’extraction des syntagmes nominaux
employés pour leur connotation géographique (territoire aride, au sud de l’étroite vallée,…)
dans le fonds documentaires constitués de plusieurs centaines de récits de voyage. Afin
d’opérer automatiquement cette extraction de manière ciblée, il faudrait disposer des modèles
permettant de différencier les syntagmes à connotation géographique parmi tous ceux
contenus dans des textes. Ci-après quelques extraits de notre corpus, afin d’illustrer nos
propos :
1
GEONTO http ://geonto.lri.fr/, est un projet ANR (ANR-07-MDCO-005-04).
203
« […] Depuis quelques temps une vive curiosité avait porté mes regards vers la Maladetta[. . . ] Je parlai de
mes intentions à plusieurs guides de Luchon […]
[…]Après avoir contemplé, avec une admiration mêlée d’effroi, la charpente altière des MontsMaudits, nous
songeâmes bientôt à descendre sur le territoire aride au sud de la région d’Aragon. Le temps était menaçant :
de légers brouillards parcouraient les hauteurs, et précédaient des nuages d’une teinte grisâtre, qui roulaient
vers nous, venant de l’ouest des Pyrénées, un orage s’amoncelait : il ne tarda pas à éclater. Ayant renvoyé nos
chevaux et payé le tribut accoutumé à la complaisance des carabineros (douaniers) espagnols, nos guides
chargèrent nos provisions sur leurs épaules, et nous descendîmes, assez lestement, vers le pied de la Maladetta,
laissant à notre droite les roches calcaires de la Pèna-Blanca. Arrivés au fond de la vallée du Plan-des-Etangs,
qui est plus élevée que sa voisine, la vallée latérale de l’hospice de Bagnères, de 446 mètres, nous laissâmes
derrière nous une cabane habitée pendant l’été par des bergers espagnols, pour remonter, par un plan
rocailleux, jusqu’au gouffre de Tourmon, qui absorbe les eaux d’un torrent rapide, descendant de la partie
orientale du glacier de la Maladetta[…] »
Comme nous pouvons le constater dans ces exemples, les termes à extraire sont très
souvent associés à des entités nommées géographiques. Cette observation est corroborée par
les travaux de Vandeloise (1986) sur le couple (cible, site) et de Borillo (1998) sur le couple
(entité concrète, repère spatial). Toutefois, si cette observation est intéressante, elle reste
incomplète car des expressions considérées comme non géographiques peuvent également
être associées à une entité nommée de lieu (ex : guides de Luchon, mes regards vers la
Maladetta), des expressions géographiques peuvent exister sans être associées à un nom de
lieu comme « cabane » et d’autre part. L’étude de notre corpus a permis d’observer que très
fréquemment ce couple se trouve en relation, au sein d’une même phrase, avec des verbes de
déplacement (« remonter jusqu’au gouffre de Tourmon ») ou des verbes de perception
(« contempler la charpente altière des Monts-Maudits »). Enfin, dans plusieurs cas la
construction de ce couple fait appel à des relations spatiales afin de faire référence à un lieu
complexe (« descendre sur le territoire aride au sud de la région d’Aragon »).
Nous proposons donc un modèle et son opérationnalisation afin de permettre, par la prise
en compte de ces observations, un traitement automatique. Cela nous mène à proposer le
modèle VPT, des détails de ce modèle et son opérationnalisation sont ensuite proposés.
3
Etat de l’art et travaux connexes
Le gazetteer et le problème de détection des entités nommées : la détection des entités
nommées géographiques, et de manière plus générale des entités nommées (personnes,
entreprises,…) est une problématique reconnue comme jouant un rôle important dans
nombreux traitements automatiques de la langue Sagot et al.(2008) et notamment dans le cas
de l’extraction automatique d’information Poibeau(2003). Nous nous intéressons
exclusivement aux entités nommées géographiques que nous considérons comme étant un
groupe nominal dont le noyau est un nom de lieu ou nom toponymique. Dans de nombreux
travaux comme par exemple Rocío et al.(2010), ou au sein de notre équipe Loustau et
al.(2008), Palacio(2010), la détection entités nommées géographiques est élaborée à l’aide des
gazetteers2. Il existe plusieurs gazetteers accessibles par Internet tels que : Geonames,
BDNyme, Word Gazetteer, GEOnet Names Serve (GNS) 3,…
Dans notre travail, les noms toponymiques une fois repérés permettent de déclencher le
processus de marquage/interprétation des expressions évoquant la ou les relations spatiales
ainsi que le syntagme verbal de déplacement ou de perception afin de construire une structure
en traits sémantiques permettant d’isoler les informations à extraire.
2
Un gazetteer est un dictionnaire ou répertoire géographique dont les entrées sont des noms toponymiques. A
chaque entrée du dictionnaire peuvent être associées des informations comme l’appartenance à une ou plusieurs
structures administratives (commune, région, pays,…), la caractéristique physique (montagne, rivière, route,…),
des données statistiques, une géométrie exprimée dans un référentiel géographique.
3
http://geonames.org, http://www.ign.fr, http://www.world-gazetteer.com/, http://earth-info.nga.mil/gns/html/
204
Expression spatiale dans le texte et la modélisation spatiale : selon Borillo(1998), un lieu
est une portion de l’espace matériel dans lequel nous nous situons et nous évoluons. Nous
considérons donc que dans l’expression « la partie orientale du glacier de la Maladetta », le
repère spatial peut être déduit de la même manière que dans l’exemple précédent via le nom
toponymique « Maladetta » et l’entité concrète est incarnée ici par l’expression « partie
oriental du glacier ». Cette expression contient une précision de localisation (que appelons
indirection) au sein de l’entité concrète. Cette précision est exprimée via une relation spatiale
nécessitant une interprétation.
Il existe deux types d’approches permettant de raisonner et donc d’interpréter au travers de
relations spatiales : des approches quantitatives comme celle proposée par
Balbiani et al.(2000) ou par Vieu(1997), et des approches qualitatives telles que celle
proposée par Allen(1991), ou par Freksa(1992) ou encore par Frank(1996). Les approches
quantitatives prennent en compte les aspects mesurables relatifs aux lieux tels que la
longitude et la latitude, tandis que les approches qualitatives opèrent sur des représentations
symboliques. Selon ces approches, les relations spatiales peuvent être catégorisées en trois
classes principales : topologiques comme décrite par Egenhofer et al.(1991) (ex : dans, à
l’intersection, etc.), directionnelles formalisées par Ligozat(1998)) (ex : au sud de, etc.), et
métriques (ex : à 10km de, etc.). Afin d’obtenir une représentation automatique proche du lieu
nous prenons en compte l’évocation des relations spatiales grâce à une approche hybride Gaio
et al.(2008).
Expression de déplacement : selon Talmy(2000), dans les langues latines comme le français,
le mouvement est caractérisé par le verbe. Dans notre corpus, d’après une étude réalisée dans
notre équipe par Loustau et al.(2008), l’expression du déplacement est essentielle dans un
récit de voyage. Plusieurs travaux linguistiques comme ceux de Boons(1987), de Laur(1991)
et de Sarda(2000) ont été réalisés afin d’étudier le rôle des verbes de déplacement dans la
langue. Ces auteurs ont proposé une catégorisation des verbes de déplacement via leur
polarité. En synthèse nous dirons que les polarités sont : initiale (ex : quitter), médiane (ex :
visiter), ou finale (ex : arriver). D’autre part, dans un écrit, en particulier dans un récit de
voyage, lorsque le narrateur souhaite rendre compte de certaines actions ou sensations, les
verbes de perception (ex : voir) acquièrent une importance particulière.
TAL et la grammaire hors contexte : à des fins d’extraction d’information, il est
indispensable d’utiliser les outils de TAL. Ces outils permettent de traiter les textes sur
différents niveaux. Pour le prétraitement du corpus, nous avons besoin d’une analyse
morphosyntaxique de texte. Pour cette étape des outils tels que TreeTagger Schmidt(1994) et
Melt Denis et al.(2009)) peuvent être utilisés4.
Les grammaires hors contexte5 sont souvent utilisées en TAL. Ces grammaires se
composent d’un ensemble de règles qui permettent de remplacer une séquence d’expression
(nom, adjectif, verbe, etc.) par un nouvel identifiant unique d’un niveau d’abstraction plus
élevé (syntagme nominal, syntagme verbal, etc.). Dans le cas de ce travail, la grammaire hors
contexte est utilisée pour marquer non seulement des informations à un niveau d’abstraction
syntaxique plus élevé (groupes de noms propres, groupes de nom communs) mais également à
un niveau sémantique (ex : verbe de déplacement, nom toponymique, etc.) grâce à l’utilisation
combinée de ressources lexicales hétérogènes.
4
Pour la version actuelle de notre chaîne de traitement (section 4), nous utilisons TreeTagger. Toutefois, cet
analyseur produit des erreurs dans certains cas (section 5). Nous envisageons donc de tester Melt dans une
version ultérieure en espérant qu’il soit plus robuste et permette de réduire certaines erreurs.
5
Formellement, un langage est hors-contexte si et seulement si il existe un automate à pile qui le reconnaît.
205
4 Opérationnalisation
Le modèle VERBE–PRÉPOSITION–TOPONYME (VPT) : tel que schématisé dans la fig.1
combine de manière parcimonieuse les travaux précédemment évoqués relatifs à l’expression
spatiale dans la langue, aux relations spatiales et au lexique verbal. Ce modèle décrit un triplet
(VPT) qui se compose d’un verbe en général de déplacement mais également de perception
(V), d’une préposition (P), et d’un Toponyme (T). Le Toponyme est défini de façon récursive
à partir des noms toponymiques, des relations spatiales (ou indirections), et des termes
associés.
FIG. 1 – Schématisation du modèle proposé
Le caractère étoile (*) dans la fig.1 signifie que le composant correspondant pourra être
présent zéro ou plusieurs fois. Les autres composants doivent y apparaître au moins une fois.
Voici quelques exemples extraits du corpus :
– remonter à Gavarnie – contempler la charpente altière des Monts-Maudits – remonter
jusqu’au gouffre de Tourmon – arriver au fond de la vallée du Plan-des-Etangs – franchir
l’arête occidentale de la Frondella au petit col Wallon – passer sur le versant de Cauterets
par la brèche de Courouaou de Bouc – etc.
Comment construire automatiquement ce modèle VPT ? Et comment sert-t-il à extraire un
lexique à connotation géographique ? Cela est réalisé par une chaîne de traitement complète
au sein de laquelle nous avons défini une grammaire et utilisé ou construit diverses ressources
lexicales : liste de verbes de déplacement et de perception avec leur polarité, des gazetteers,
liste d’expressions évoquant des relations spatiales et leur correspondance dans le modèle
hybride proposé par Gaio et al.(2008), ontologie de concepts topographiques, thésaurus de
termes pour l’indexation documentaire.
La chaîne de marquage des triplets VPT : l’objectif (fig.2) est de marquer les triplets VPT,
puis d’en extraire des expressions selon un certain filtre.
FIG. 2 – Illustration de la chaîne de marquage des triplets VPT
L’entrée de notre chaîne correspond à un texte dont les mots ont été soumis au préalable à
un étiquetage morphosyntaxique. Seuls les groupes de mots reconnus selon un ensemble de
patrons obtiennent un sur-étiquetage soit par extension du nom (propre ou commun), soit par
détection de la sémantique (relation spatiale, verbe de déplacement ou de perception, nom de
lieu), puis selon des règles de composition le toponymique est isolé et par le suite le triplet
206
VPT. Les patrons sont construits grâce à des règles de la grammaire hors-contexte et aux
ressources lexicales que nous allons successivement étudier en détail.
La grammaire : dans notre chaîne de traitement, les étiquettes sont assignées au fur et à
mesure. En effet, un groupe de noms communs, ou terme candidat : « territoire aride », est
marqué à partir des noms communs « territoire » et des adjectifs « aride » préalablement
étiquetés par l’analyseur morphosyntaxique. La fig.3 présente notre grammaire de marquage
de 4 cas distincts de la catégorie « groupe de nom commun » :
FIG. 3 – La grammaire de marquage des groupes de noms communs
De même, « un groupe de nom propres » est repéré par des noms propres précédemment
étiquetés par l’analyseur morphosyntaxique, par exemple Mont de Marsan :
groupePropre(GP) > nomPropre(NP1), de, nomPropre(NP2).
Ensuite, les groupes de noms propres sont cherchés dans des gazetteers afin d’être validés
comme nom toponymiques. Dans l’étape suivante, les Toponymes sont étiquetés, voici une
des règles :
Toponyme(T) > groupeNomCommun(G1), indirection(I), groupeNomCommun(G2), de, nomToponymique(NT)
À droite de la règle, les groupes de nom commun G1 « territoire », G2 « région », le nom
toponymique NT « Aragon », les indirections « au sud de » sont précédemment étiquetés.
Dans ce cas, il s’agit d’un Toponyme dit complet « territoire aride au sud de la région
d’Aragon ». Nous définissons ainsi des règles pour des Toponymes partiels :
Nom toponymique — le Gave de Pau ; syntagme nominal associé au nom
toponymique — dans les plaines d’Espagne; groupe de nom commun + indirection +
nom toponymique —nos logements respectifs à Bagnères-de-Luchon; Indirection +
syntagme nominal + nom toponymique — au sud de la vallée du Plan-des-Etang.
Enfin les triplets VPT (descendre sur le territoire aride au sud de la région d’Aragon) sont
étiquetés à partir des verbes « descendre », des prépositions « sur) »et des Toponymes
« territoire aride au sud de la région d’Aragon », voici un des règles :
VPT(verbe :V...pre :P...toponyme :T) >Verbe(V),Preposition(P),Toponyme(T).
Dans celle-ci, les verbes sont préalablement marqués à l’aide d’une base lexicale. Le
marquage des triplets VPT dépend de la nature du verbe (transitif direct, transitif indirect ou
intransitif). Dans ce cas, il s’agit d’un triplet VPT dont le verbe est associé aux prépositions.
A l’heure actuelle les règles de notre grammaire couvrent 4 cas de groupes de noms
communs, 14 cas de groupes de noms propres, 10 cas de toponymes, et 15 cas de triplets
VPT.
Les ressources utilisées : nous avons construit une base lexicale des verbes de 75 verbes de
déplacement, construite en nous appuyant sur les travaux précédemment cités. Afin d’étendre
la capacité de repérage d’un lexique à connotation géographique nous y avons ajoutons 29
verbes de perception et nous étudions actuellement l’intérêt de traiter également 59 verbes
qui, compte tenu de leur contexte d’utilisation nous nommons par convenance :
topographiques « nous nous abattions péniblement sur les versants qui dominent l’hospice de
Bénasque et la vallée de l’Essera ». Le tab.1 présente la distribution des verbes plus fréquents
dans les corpus en fonction de leur catégorie. La deuxième colonne des tableaux indique le
nombre de fois où le verbe est associé au triplet VPT. La dernière colonne est le pourcentage
de cette association par rapport au nombre d’occurrences du verbe dans tout le corpus étudié.
207
TAB.1 – Classification et distribution des verbes plus fréquents dans les corpus
Chaque verbe dans la base est décrit par deux informations importantes : la catégorie du
verbe (verbe de déplacement, verbe de perception, etc), et une forme de « polarité ».
Concernant les verbes de déplacement celle-ci est de trois type « initiale », « médiane » et «
finale ». Pour les verbes dits de perception nous avons considérés qu’ils se comportaient de
manière équivalente aux verbes de déplacements médians. Enfin, pour la dernière famille de
verbes une étude empirique est en train d’être menée. Dans la construction des triplets VPT,
nous distinguons deux types de verbes : verbes associés aux prépositions (e.g. verbes transitifs
indirects), et verbes non associés à une préposition (e.g. verbes transitifs directs). Concernant
les verbes de déplacement, ils peuvent être transitifs directs (visiter, traverser,…), ou transitifs
indirects (aller, arriver, venir,…), alors que tous les verbes de perception ont été considérés
comme étant transitifs directs (voir, contempler,…).
Enfin, les indirections du modèle VPT sont repérées à l’aide d’une base lexicale construite
à partir des relations spatiales modélisées selon l’approche hybride Gaio et al. (2008) on
distinguera : les relations topologiques, les relations directionnelles et les relations métriques
discrétisées pour être traitées comme une combinaison des deux précédentes. Afin de valider
les groupes de noms propres comme les noms toponymiques, nous utilisons deux
gazetteers : BDNyme de l’IGN qui comporte 44315 noms de lieu français, et Geonames qui
en contient 118301.
Quelques éléments sur l’enrichissement : Comme déjà mentionné l’objectif premier de ce
travail consiste à utiliser des textes grand public pour l’enrichissement d’une ontologie de
domaine spécifique. Après avoir extrait à partir des triplets VPT marqués, les termes trouvés
sont comparés avec les termes utilisés comme label de concept dans l’ontologie de référence.
Comme montré dans la fig.2, cette tâche est réalisée par le module parcours d’ontologie qui
vérifie si un terme existe dans une ontologie. Sinon, il est retenu comme candidat à
l’enrichissement. À cette étape, soit l’enrichissement est semi-automatique le terme est alors
proposé à l’expert afin qu’il choisisse le meilleur emplacement dans l’ontologie pour son
insertion. Soit l’enrichissement est automatique dans ce cas nous nous appuyons sur une
ressource tierce générique (tel que wordnet ou un thésaurus générique tel que RAMEAU de la
BnF) afin de déduire via les relations de subsomption l’emplacement le plus adéquat pour son
insertion dans l’ontologie. Dans notre exemple les trois concepts « région », « territoire », et «
territoire aride » sont candidats à enrichir l’ontologie initiale de l’IGN proposée par
Abadie et al.(2010).
5 Expérimentation et évaluation
Evaluation quantitative : nous avons expérimenté notre méthode sur 12 livres ce qui fait un
total de 2400 pages environ, fournis par la médiathèque de Pau (MIDR). Le tab. 2 présente
quelques exemples. Le tab.3 indique l’apport de l’utilisation des verbes de perception et des
verbes dits topographiques tandis que la précision sur chaque type de verbe reste stable. Parmi
208
323 termes extraits et validés par des experts (soit 1137 occurrences dans le corpus), 260
termes n’existent pas dans l’ontologie de l’IGN, 119 étant des termes composés comme :
« débouché des ports », « panorama des cimes », « embranchement des routes »,…
TAB.2 – Nombre total d’apparitions pour quelques termes extraits : (a) > 10 fois ; (b) une fois
TAB.3 – La précision sur les corpus expérimentés
L’extraction manuelle de termes à partir de corpus exige un important travail. L’intérêt
principal de notre méthode est donc l’automatisation de ce travail d’extraction et sa capacité à
être utilisée sur des corpus de taille très importante.
Quelques exemples de bruit et de silence : ci-après quelques cas, illustrés par un exemple,
dans lesquels les termes extraits n’ont pas une connotation géographique.
1) Depuis que j’ai quitté le confort de la vie de Bordeaux, je trouve […]
Cas de polysémie des verbes, ici le verbe « quitter ».
2) Il serait devenu un peu fier vis-à-vis de ses camarades d’Arrens[…]
Cas d’erreurs générées par les pré-traitements. Ici un faux étiquetage de l’analyseur
morphosyntaxique, l’étiquette « verbe voir » a été donnée à « vis » dans « vis-à-vis ».
En analysant les résultats de l’expérimentation, nous avons également détecté des cas dans
lesquels les termes à connotation géographique n’ont pas été extraits, ci-après quelques
exemples :
1) Pour ce qui est des variations du niveau du gouffre, il y a, en effet, une crue et une
baisse[…]
Cas où le contexte phrastique est tel qu’il n’existe aucune indication qui permette
d’identifier le terme.
2) […]le pic de Néthou , n’a été encore gravi par personne[…]
Cas où un pré-traitement supplémentaire est nécessaire. Ici transformation de la
structure passive.
3) Avant d’arriver à la fin de la vallée, nous traversons le bras de la Garonne et nous
grimpons sur le plateau d’Esquierry[…]
Cas d’incomplétude des ressources. Ici « Esquierry » est un nom toponymique valide
toutefois il n’est pas répertorié dans les gazetteers utilisées.
6 Conclusion et perspectives
Dans cet article, nous avons proposé une méthode de modélisation et son opérationnalisation
pour permettre de réaliser automatiquement un inventaire lexical à connotation géographique
à partir d’un fonds documentaire. Pour cela, nous nous appuyons, d’une part, sur des lexiques
et une structure locale permettant de modéliser l’information géographique contenue dans des
textes, et d’autre part sur un ensemble de règles construites grâce à une grammaire hors
209
contexte, ces trois aspects sont opérationnalisés au sein d’une chaîne automatique permettant
de traiter en entrée un corpus de taille quelconque.
Notre méthode offre deux avantages majeurs (1) chaque élément du modèle est marqué par un
module. Cela permet de traiter les cas complexes pour chaque élément du modèle avant de les
rassembler. (2) les règles peuvent traiter des configurations complexes pouvant par exemple
comporter plusieurs verbes, plusieurs noms toponymiques ou plusieurs triplets VPT.
Le patron VPT que nous avons proposé peut également être utilisé dans un but de détection
de noms toponymiques non encore répertoriés dans les ressources. Par exemple, pour la
phrase « nous grimpons sur le plateau d’Esquierry », le triplet VPT (grimper , sur, le plateau
d’Esquierry) sera marqué, et on supposera dans un premier temps que « Esquierry » est un
nom toponymique. Dans un second temps, on vérifiera si le terme « plateau » existe dans
l’ontologie géographique enrichie, si tel est le cas « Esquierry » sera considéré comme un
nom toponymique validé.
Dans un futur proche, nous avons l’ambition d’étendre notre méthode pour pouvoir
extraire également des termes non directement attachés aux triplets VPT, par exemple, le
terme « ville » dans la phrase « Jusqu’à cette ville, nous avons longé la Garonne ». Pour le
traitement de tel cas, nous proposons un modèle basé sur les relations n-aires dont VPT fait
partie.
Références
ABADIE N. & MUSTIÈRE S. (2010). Constitution et exploitation d’une taxonomie géographique à partir des
spécifications de bases de données. RIG, 20(2), 145–174.
ALLEN J. F. (1991). Planning as temporal reasoning. KR, 3–14.
BALBIANI P. & MULLER P. (2000). Le raisonnement spatial. Le temps, l’espace et l’évolutif en sciences du
traitement de l’information. Cepadues Editions.
BOONS J.-P. (1987). La notion sémantique de déplacement dans une classification syntaxique des verbes
locatifs. LANGUE FRANÇAISE, 76(76), 5–40.
BORILLO A. (1998). L’espace et son expression en français, L’essentiel. Orphrys.
BRODEUR J. (2004). Interopérabilité des données géospatiales : Élaboration du concept de proximité
géosémantique. PhD thesis, U. Laval, Québec, CA.
DENIS P. & SAGOT B. (2009). Coupling an annotated corpus and a morphosyntactic lexicon for state-of-the-art
pos tagging with less human effort. In Proceedings of PACLIC 2009, Hong Kong, China.
EGENHOFER M. & R.D. F. (1991). Point-set topological spatial relations. IJGIS, 5(2), 161–174.
FRANK A. U. (1996). Qualitative spatial reasoning : Cardinal directions as an example. IJGIS, 10(3), 269–290.
FREKSA C. (1992). Using orientation information for qualitative spatial reasoning.
GAIO M., SALLABERRY C., ETCHEVERRY P., MARQUESUZAÀ C. & LESBEGUERIES J. (2008). A
global Process to Access Documents’ Contents from a Geographical Point of View. JVLC, 19(1), 03–23.
LAUR D. (1991). Sémantique du déplacement et de la localisation en français : une étude des verbes, des
prépositions et de leur relation dans la phrase simple. PhD thesis, U. Toulouse II, FR.
LIGOZAT G. (1998). Reasoning about cardinal directions. Visual Languages and Computing, 9(1).
LOUSTAU P., NODENOT T. & GAIO M. (2008). Spatial decision support in the pedagogical area: Processing
travel stories to discover itineraries hidden beneath the surface. In 11th AGILE. 340–359, Girona, ESP.
PALACIO D. (2010). Combinaison de critères par contraintes pour la Recherche d’Information Géographique.
PhD thesis, U. de Pau et des Pays de l’Adour, FR.
POIBEAU T. (2003). Extraction automatique d’information. Hermès Lavoisier.
ROCÍO A.-M. & ERICK L.-O. (2010). Geo information extraction and processing from travel narratives. In
Transforming the Nature of Communication, 14th ICE, 363–373, Helsinki, FIN.
SAGOT B. & BOULLIER P. (2008). Sxpipe2 : architecture pour le traitement présyntaxique de corpus bruts.
TAL, 49(2), 155–188.
SARDA L. (2000). L’expression du déplacement dans la construction transitive directe. Syntaxe et Sémantique,
121–137.
SCHMIDT H. (1994). Probabilistic part-of-speech tagging using decision trees. In ICNMLP, Manchester, UK.
TALMY L. (2000). Toward a Cognitive Semantics, chapter How language structures space. The MIT Press.
UITERMARK H. (2001). Ontology-Based Geographic Data Set Integration. PhD thesis, U. Twente, NL
VANDELOISE C. (1986). L’espace en français. Paris, France, Seuil.
VIEU L. (1997). Spatial representation and reasoning in artificial intelligence. In STR, 3–41.
210
Paumier Sébastien
Université Paris-Est Marne-la-Vallée
[email protected]
Nam Jeesun
HUFS
[email protected]
UN SYSTÈME DE DICTIONNAIRE DE MOTS SIMPLES DU CORÉEN
Résumé
Les lexiques des langues agglutinantes ne se prêtent pas à une représentation par liste
d'entrées, car la combinatoire des morphèmes est si grande qu'elle produirait un dictionnaire
gigantesque. Une façon de contourner ce problème est de représenter de tels lexiques
directement sous une forme factorisée, en particulier à l'aide d'automates. Dans cet article,
nous présentons une description d'un tel système pour le coréen. Ce système est pleinement
opérationnel, et a déjà fait l'objet d'adaptation pour d'autres langues agglutinantes.
Mots-clés: coréen, dictionnaire électronique, langue agglutinante, tal, automates.
1. Introduction
Les analyseurs morphologiques se divisent schématiquement en deux grandes catégories: les
systèmes à base de règles de calcul, utilisant ou non de l'apprentissage automatique
(Koskenniemi 1984, Beesley & Karttunen 2003, Han & Palmer 2005) et ceux reposant sur des
lexiques construits manuellement par des linguistes (Gross 1989, Courtois 1990, Silberztein
1993). Les premiers offrent une économie de main d'œuvre lors de l'adaptation à une nouvelle
langue et une certaine tolérance à l'erreur. Les seconds garantissent une meilleure précision.
Le système que nous proposons s'inscrit dans cette deuxième catégorie. L'approche classique
consiste à produire un lexique sous forme de liste d'entrées et à le transformer ensuite en un
format plus propice à une exploitation logicielle, le plus souvent sous forme d'automate, ce
formalisme étant particulièrement adapté à cette tâche (Revuz 1991, Roche & Schabès 1997).
Toutefois, il n'est pas possible d'utiliser cette méthode pour des langues agglutinantes
comme le coréen, car la combinatoire des morphèmes est telle qu'un dictionnaire sous forme
de liste occuperait une taille gigantesque. Il est donc nécessaire de construire directement le
lexique sous la forme d'un automate qui factorise les morphèmes et évite l'explosion
combinatoire. De premiers prototypes d'un tel système ont été proposés pour le coréen par
(Lee 1997) et (Huh 2005), mais des problèmes d'architecture, de formats de fichiers et de
maintenance les rendaient difficiles à manipuler, non seulement par les utilisateurs finaux de
ces analyseurs, mais, ce qui est plus problématique, également par les linguistes chargés de
produire les données. En effet, si la description d'un lexique sous forme d'une liste d'entrées
est aisément manipulable par un linguiste, la nécessité de gérer l'agglutination introduit une
complexification du formalisme de description pouvant considérablement dégrader son
utilisabilité réelle si la tâche du créateur de ressources en devient trop compliquée.
Nous décrivons dans cet article une nouvelle version de ce système de dictionnaire,
beaucoup plus simple d'utilisation, et généralisable aux autres langues agglutinantes. Nous
avons conservé le principe d'une description du dictionnaire directement sous forme
d'automates, mais en déplaçant au maximum la complexité qui se trouvait jusque-là dans les
données elles-mêmes vers les programmes chargés de les manipuler, réduisant ainsi au
211
minimum les efforts d'adaptation demandés aux linguistes produisant les dictionnaires,
notamment en terme de lisibilité et de maintenabilité des données, critères toujours cruciaux
dès lors qu'il y a intervention humaine. Ce système a été intégré au logiciel libre de traitement
de corpus Unitex (Paumier 2010).
2. Architecture générale du système
La majeure partie des mots simples en coréen est constituée d'une racine à laquelle vient se
combiner une série de postpositions. Ainsi dans le DECO (Dictionnaire Electronique du
COréen), les quatre catégories Nom (NS), Verbe (VS), Adjectif (AS) et aDverbe (DS) sont
enregistrées avec les codes flexionnels indiquant les classes des postpositions attachables,
alors que la catégorie Determinant (TS) ne demandant aucune série de postpositions est
intégrée sans le code flexionnel (Nam 2002, 2003, 2007). Les tokens en coréen dits Eojeol
sont une unité plus grande qu’un mot en français, ce qui cause une complexité sérieuse de
l’analyse morphologique et une ambiguїté plus grave qu’en français. De plus, dans les cas des
verbes et des adjectifs, la racine peut subir des variations morphologiques qui conduisent à
l'obtention d'une ou plusieurs variantes, chacune pouvant se combiner avec une certaine classe
de postpositions. Dans la discussion suivante, nous allons détailler les différentes
composantes du système avec le cas des verbes.
2.1 Génération des variantes des racines
La génération des variantes des racines suit exactement la même logique que la procédure de
flexion automatique utilisée pour les langues non-agglutinantes (Silberztein 1999). Le
principe est de recenser les formes canoniques en leur associant des codes qui décrivent leur
paradigme flexionnel. Ces paradigmes sont décrits sous la forme d'automates décrivant des
opérateurs à appliquer sur la forme canonique pour obtenir les formes fléchies, à l'aide d'un
mécanisme de pile.
Figure 1: graphe générant les variantes des racines de la classe VS03
Par exemple, le graphe de la figure 1 permet d'obtenir deux variantes à partir d'une racine
donnée. Le L commun aux deux chemins indique qu'on doit retirer un caractère syllabique
Hangul. Le chemin du haut indique qu'on obtient, sans autre modification, une nouvelle racine
dotée du code EV#EV03_1. Dans le chemin du bas, la séquence Jㄹ indique qu'on doit retirer
une lettre Jamo et ensuite ajouter la lettre ㄹ. La racine ainsi obtenue portera le code
EV#EV03_2. Ce type de code servira par la suite à établir la correspondance entre une racine et
sa classe de postpositions.
Notons ici que le coréen se distingue des autres langues par l'emploi d'un double système
d'écriture. Les mots sont constitués de caractères syllabiques Hangul qui sont des
212
représentations de suites de lettres Jamo. Ainsi, le caractère Hangul 가 correspond aux deux
lettres Jamo ᄀ et ᅡ. Le problème est que les variations subies par les racines ne
correspondent pas toujours à des caractères Hangul, comme c'est le cas dans l'exemple de la
figure 1. Il a donc été nécessaire de gérer le passage d'un système d'écriture à l'autre. Par
ailleurs, le coréen autorise l'emploi de certains caractères chinois en remplacement de
caractères Hangul. Ce phénomène a été géré par l'établissement d'une liste des
correspondances autorisées dont voici un court extrait:
諫간
間간
乫갈
喝갈
Grâce à cette liste, le linguiste n'a pas à se préoccuper de ce type de variantes et peut se
contenter de tenir à jour un dictionnaire des formes écrites en coréen, le système de
consultation de dictionnaire se chargeant d'établir automatiquement les correspondances avec
les caractères chinois.
Au total, dans le cas des verbes, les classes de variantes de racines sont au nombre de 64. À
l'issue de la phase de génération des variantes des racines, on obtient un dictionnaire de
racines au format DELAF que l'on transforme en automate, aussi bien pour le compresser que
pour en accélérer la consultation. Pour des raisons d'efficacité, les entrées sont converties sous
forme de suites de lettres Jamo avant d'être compressées sous forme d'automate. En effet, la
complexité de la recherche d'un mot dans un automate est en taille alphabet ⨯ longueur du
mot. Or, la taille de l'alphabet Jamo est inférieure à 30 lettres alors que le nombre de
caractères Hangul est supérieur à 11000.
2.2 Description des classes de postpositions
La combinatoire des postpositions est complexe, mais comporte néanmoins de nombreuses
régularités. Pour cette raison, les classes de postpositions sont décrites au moyen de
grammaires modulaires pouvant s'appeler les unes les autres, afin de factoriser les
descriptions redondantes. Chaque classe est caractérisée par sa grammaire principale dont le
nom correspond à l'un des codes produits à l'étape de génération des variantes de racines. Les
grammaires de postpositions associent des étiquettes morpho-syntaxiques à des séquences
constituées de caractères Hangul et/ou Jamo.
La figure 2 montre la grammaire des postpositions EV/EV03_2. Elle sera mise en
correspondance avec les racines portant le code EV#EV03_21. La figure 3 montre le sousgraphe SUG3_2 appelé depuis cette grammaire. On peut y voir que chaque morphème est
associé à un étiquetage morpho-syntaxique.
1 Le dièse remplace dans les graphes le caractère / qui a déjà une utilisation particulière.
213
Figure 2: extrait du graphe de postpositions EV/EV03_2
Figure 3: graphe de postpositions SUG3_2
L'ensemble des grammaires de postpositions est constitué de 2728 graphes.
2.3 Graphe dictionnaire
La mise en correspondance des racines avec leurs classes de postpositions se fait au moyen
d'un graphe comme celui de la figure 4. Les symboles < et > qui entourent le contenu du
graphe indiquent qu'il s'agit d'un graphe destiné à être appliqué caractère par caractère au texte
que l'on souhaite analyser. Le symbole <AS> indique que l'on veut reconnaître une racine en
consultant le dictionnaire de racines que l'on a construit précédemment. Lorsqu'on a reconnu
une racine, les lignes comme $AS.EQ=EA#EA23_2$ jouent le rôle de tests pour savoir quelle
branche va ensuite être explorée. Ainsi, si la racine contient le code EA#EA23_2, on explorera
ensuite la grammaire de postpositions EA/EA23_22 pour finir d'analyser la séquence de
caractères trouvée dans le texte. Pour chaque chemin de la grammaire de postpositions qui
permet d'atteindre la fin du mot du texte que l'on est en train d'analyser, on produira une
analyse qui sera constituée de la racine reconnue ainsi que de la suite de postpositions
construite par concaténation lors de l'exploration du chemin de la grammaire de postpositions.
2 Dans un nom de sous-graphe, le caractère : remplace le caractère slash, pour la même raison que dans la note
précédente.
214
Figure 4: extrait du graphe dictionnaire des mots simples du coréen
Ce graphe est destiné à être appliqué au texte que l'on souhaite analyser par le programme
de consultation de dictionnaire intégré à Unitex. L'analyse morphologique du coréen est ainsi
ramenée à un classique problème de pattern matching. Le résultat de cette opération est un
fichier listant pour chaque séquence reconnue, ses coordonnées dans le texte ainsi que la
séquence de morphèmes étiquetés qui la compose. Ce fichier est ensuite utilisé pour
construire pour chaque phrase du texte un automate décrivant toute la combinatoire des
étiquettes morpho-syntaxiques reconnues, comme celui présenté sur la figure 5, dans lequel
les transitions en pointillés entre deux boîtes signalent que les deux morphèmes représentés
par ces boîtes appartiennent à un même mot typographique (Eojol).
Figure 5: extrait d'un automate de phrase
Contrairement aux analyseurs du coréen existant comme Geuljabi (www.sejong.or.kr), ce
système offre toutes les analyses possibles sous forme de parcours possibles dans les
automates de phrase. Cette approche qui privilégie le rappel permet de ne pas bloquer des
analyses ultérieures en commettant des erreurs d'étiquetage tôt dans la chaîne de traitement
d'un texte.
215
3. Performances
L'application du dictionnaire complet sur un texte codé en UTF-16LE de 275 Ko, contenant
3298 phrases, prend 4,5 secondes sur un PC Core 2 Duo sous Ubuntu à 2,4 Ghz et produit
48687 analyses pour 15881 séquences reconnues. Une fois cette étape terminée, la
construction des automates de phrase prend 3 secondes. Sur un texte de 10 Mo contenant
365000 phrases, l'application prend 1m37s pour 1780546 analyses correspondant à 736308
séquences reconnues. La construction des automates de phrases prend 4m8s. Malgré
l'augmentation de complexité par rapport aux mécanismes utilisés pour les langues non
agglutinantes, ces temps de traitement sont tout à faits acceptables pour des besoins
applicatifs. Il nous manque encore une évaluation humaine complète du dictionnaire produit
pour le coréen pour vérifier qu'il ne contient pas d'erreurs, mais la mise en œuvre complète du
système sur des données à grande échelle a d'ores et déjà permis de faire la preuve de sa
viabilité.
4. Conclusion
Le modèle de système de dictionnaire que nous avons construit pour le coréen offre plusieurs
avantages. Il est simple à utiliser, car les différentes données sont toutes éditables aisément
sous une forme graphique, ce qui est particulièrement utile pour décrire la combinatoire des
postpositions. Ainsi, toute la complexité a été transféré des données vers les programmes
chargés de les manipuler, ce qui fait que les utilisateurs linguistes n'ont besoin d'aucune
compétence particulière pour maîtriser un formalisme de description complexe. De plus, la
technique mise en oeuvre peut être directement réutilisée pour les autres langues
agglutinantes. Cela a notamment déjà été le cas pour gérer des cas d'agglutination en arabe
(Neme 2011). Cette technique a également été étendue avec succès au traitement des mots
composés du coréen, pour lequel la procédure de flexion reprend une partie de la flexion des
mots simples. Enfin, tous les mécanismes utilisés sont pleinement opérationnels et diffusés
dans le logiciel libre Unitex.
216
Références
Beesley, K., Karttunen, L. 2003. Finite State Morphology. CSLI Publications.
Courtois, B. 1990. Un système de dictionnaires électroniques pour les mots simples du
français, Langue Française 87, Paris: Larousse, pp. 11-22
Gross, M. 1989. La construction de dictionnaires électroniques. Annales des
Télécommunications, tome 44, nø 1-2, pp. 4-19, Issy-les-Moulineaux/ Lannion: CNET.
Han Ch. H., Palmer, M. 2005. A Morphological Tagger for Korean: Statistical Tagging
Combined with Corpus-based Morphological Rule Application. MT journal.
Huh, H.-G. 2005. Délimitation et étiquetage des morphèmes en coréen par ressources
linguistiques. Thèse de doctorat. Université de Marne-la-Vallée.
Koskenniemi, K. 1984. A general computational model for word-form recognition and
production. In Proceedings of the 10th international Conference on Computational
Linguistics and 22nd Annual Meeting on Association For Computational Linguistics
(Stanford, California, July 02 - 06, 1984). Annual Meeting of the ACL. Association for
Computational Linguistics, Morristown, NJ, 178-181.
Lee, C.-Y. 1997. La construction de lexiques de formes fléchies et l'analyse morphologique
du coréen. Thèse de doctorat. Université Paris 7.
Nam, J.-S. 2002. Construction of the Sub-modules of Korean Electronic Dictionary of Nouns
DECO-N. HUFS Dissertations N-34. Hankuk University of Foreign Studies. Korea. 105125.
Nam, J.-S. 2003. Some issues on the construction of the electronic lexicon of Korean
adjectives. Language Research 39-1. Seoul National University. Korea. 205-241.
Nam, J.-S. 2007. Inflection of Korean Verbs and Adjectives DECOP. Parkleejung Publishing
Company. Korea.
Neme, A. 2011. A lexicon of Arabic verbs constructed on the basis of
Semitic taxonomy and using finite-state transducers. (accepted for WoLeR 2011)
Paumier, S. 2010. Unitex 2.1 User Manual. http://igm.univ-mlv.fr/~unitex
Revuz, D. 1991. Dictionnaires et lexiques: méthodes et algorithmes. Thèse de doctorat.
Université Paris 7.
Roche, E., Schabès, Y. (eds.). 1997. Finite-State Language Processing. Cambridge, Mass./
London, MIT Press.
Silberztein, M. 1993. Dictionnaires électroniques et analyse automatique de textes – le
système INTEX. Masson. Paris.
Silberztein, M. 1999. INTEX: a Finite State Transducer Toolbox. Theoretical computer
science. Vol 231:1, pp. 33-46.
217
218
Piot Mireille
Université de Grenoble
[email protected]
SYNTAXE VS PHONOLOGIE DANS LA FORMATION DU SYSTEME ROMAN DES
CONJONCTIONS DE SUBORDINATION :
LA QUESTION DES ORIGINES DES COMME
ET DE LEURS EQUIVALENTS ROMANS
Résumé
La conjonction quomodo latine est considérée depuis les débuts de la linguistique romane
comme à l‟origine non seulement de la conjonction „comparative comme et de ses équivalents
romans mais aussi des conjonctions homonymes „temporelles‟ et „causales‟ (et leurs
équivalents romans) sur la base d‟explications de type (morpho-)phonologiques (assorties d‟a
priori sémantiques). Nous remettons ici en cause cette origine commune pour les homonymes
„temporelles‟ et „causales‟ (pour lesquelles nous envisageons l‟hypothèse cum) en nous
appuyant sur l‟existence de phénomènes tant anciens que contemporains caractérisant leur
comportement syntaxique et les différenciant de la „comparative‟.
Mots-clés: romanistique, phonologie, syntaxe, sémantique, étymologie.
Nous abordons ici une question qui a soulevé différents avis et débats parmi les romanistes
de la grande époque (dont nous rendons compte dans notre première partie) mais qui ne
souffre plus aucune discussion aujourd‟hui : la quasi-totalité des linguistes notamment
français se ralliant à une vision unique et unitaire de l‟origine et de l‟analyse de comme et de
ses équivalents romans dans leurs différents emplois, solution qui offre le choix de la facilité
en s‟abstrayant de la réalité des phénomènes syntaxiques trop souvent ramenés à des
considérations par analogie calquant le latin.
Nous avions exposé au cours d‟un récent Hommage (cf. notre article 2009) certains
comportements très différents de comme comparatif vs modalisateur et de leurs équivalents
romans (avec une totale analogie entre le français, l‟espagnol et l‟italien) qui ont amené de la
part de notre collègue G. Kleiber la réflexion que comme était une question d‟une
complication extrême et que les sémanticiens qui parlaient de la polysémie de comme étaient
dans une erreur profonde.
Les travaux plus récents (2010a et 2010b) que nous avons mené sur les mêmes items
romans mais sur leurs différents emplois conjonctifs, avec les valeurs de „comparaison‟,
„temps‟, „cause‟, viennent à l‟appui des mêmes conclusions. Et, en particulier, il ressort du
dernier (Piot, 2010b) qu‟une propriété syntaxique particulière du français1 individualise (en
les regroupant) le comportement de comme „temporel‟ et celui de comme „causal‟ d‟une part,
du comportement de comme „comparatif‟ d‟autre part : ce qui remet évidemment en cause la
doxa actuelle polysémique attribuant à un item unique (quomodo) l‟origine de toutes ces
valeurs. D‟autres propriétés syntaxiques communes à toutes ces langues romanes, le plus
souvent dans des états anciens mais parfois encore actuels, concourent à fonder cette remise
en cause. Nous reprenons, dans la seconde partie de la présente étude, pour les expliciter,
l‟ensemble de ces phénomènes syntaxiques.
1
Reprise de nos travaux antérieurs (1978, 1988 et 1995)
219
1. Les travaux anciens sur comme et ses équivalents romans
Nous reprenons ici les termes de la problématique très ancienne qui a agité au siècle
précédent les comparatistes des langues romanes essentiellement sur la base de considérations
morpho-phonologiques. Or, si celles-ci ont été alors assurément très bien menées, elles l‟ont
été sur des matériaux par essence soumis à variations et lacunaires : les textes de toutes
origines parvenus jusqu‟à nous des premiers siècles du latin tardif et de la période d‟essor des
langues qui en sont issues. Ce qui permet des décisions arbitraires sur la persistance ou la
disparition de certaines formes et items. Nous faisons aussi le point de ces travaux sur la
question qui nous préoccupe dans la mesure où certains d‟entre eux nous apparaissent peu mis
en valeur ou totalement oubliés de nos contemporains, au moins dans la vulgate francofrançaise2 où les vues exprimées par le FEW et en particulier par l‟œuvre de P. Imbs (1956)
semblent primer totalement sur le sujet3.
Diez (1870) donne pour origine du como (etc.) comparatif du roman le latin quomodo, le
passage de l‟une à l‟autre forme s‟expliquant phonologiquement de manière très simple par
perte de la syllabe finale. Et il signale, de plus, sans s‟y attarder, qu‟ « un synonyme de
quando est la particule comparative come, como, comme, cum »4. L‟erreur originelle est sans
doute là. Le choix de quomodo, plutôt que cum (prétendument disparu à la fin de l‟époque
latine), s‟explique à peu près uniquement pour lui comme pour ses immédiats successeurs par
l‟impossibilité d‟expliquer autrement que par cette perte de syllabe la présence du [o] final de
la forme como (la plus répandue dans l‟aire romane) ; l‟éventail des valeurs sémantiques de
quomodo et de cum étant les mêmes à la fin du latin tardif. Cependant les variantes formelles
come et coma vont également donner lieu à discussion, et l‟on s‟étonne que les solutions
envisagées pour ces dernières ne l‟aient pas également été pour résoudre la première.
Les débats et l‟enrichissement sur l‟analyse des formes reviennent, en effet, à ses
successeurs romanistes européens et français. Nous citerons parmi ceux-ci les travaux de J.
Vising (1895), J. Jeanjaquet (1894), J. Pirson (1908) et le Dictionnaire Général (Hatzfeld,
Darmesteter et Thomas, 1890). Vising et Pirson en particulier apparaissent comme
particulièrement intéressants dans la mesure où, travaillant sur l‟ensemble des langues
romanes, ils mettent de plus en correspondance des alternances de formes morphophonologiques avec des variations dans les contextes syntaxiques.
J. Vising (1895)5, à la suite des relevés et analyses effectués par lui-même et ses
contemporains sur les textes les plus anciens des différentes langues de la romanité, met en
valeur des variations de formes de l‟item „comparatif‟ selon que celui-ci introduit une phrase
(à verbe tensé) : com/cum, con, como, cuemo, cum (fr., prov, it., esp., port., roum.) ou bien un
syntagme nominal (ou équivalent pronominal) : com(m)e, coma (Cf. les exemples de notre
exemplier). Il propose pour origine de la variante com(m)e l‟existence d‟une séquence (déjà
supposée par d‟autres à partir de dérivations phonologiques) quomodo et (avec fusion des
deux particules) tandis qu‟il suppose comme origine pour coma la séquence quomodo ad
(selon le même procédé). Pirson, reprenant les analyses de Vising, indique que l‟hypothèse de
la présence de ad pour la variante coma est refusée par A.Tobler (1895) arguant du fait que le
provençal aurait dérivé aussi en ce cas comaz (devant voyelle) à côté de coma (devant
consonne). Finalement Schuchardt (1899) révisant sa propre première hypothèse (et celle de
2
Tel n‟est pas le cas, en revanche, d‟autres traditions linguistiques comme celles du Dicionario de dicionarios
do Galego Medieval
3
Alors que les extrapolations de Imbs à partir du français à l‟ensemble des langues romanes peuvent être
justement soumises à critiques si l‟on considère les évolutions et phénomènes précis de ces langues (cf. par
exemple Herman, 1963, à propos de l‟espagnol).
4
Pour exprimer le temps, p. 318, T. III de la traduction française.
5
Cité par le Dicionario de dicionarios do galego medieval.
220
Vising) pour tenir compte de l‟argument de Tobler est amené à proposer quomodo ac qui ne
contrevient pas aux règles de dérivation phonologiques du provençal, du portugais ou de
l‟ensemble des langues romanes ; l‟emploi de ac se retrouvant par ailleurs déjà à l‟origine du
a de la locution dialectale de l‟italien ancien va a ddormi.
En latin tardif, comme rappelé ci-dessus, quomodo prend aussi une valeur temporelle, puis
une valeur de cause que quando avait également (malgré sa valeur d‟origine exclusivement
temporelle). Et Pirson (1908) d‟ajouter que « la conjonction quomodo devenue quomo et
como dans la langue parlée, risquait fort de se confondre avec cum, quand elle eut adopté la
valeur temporelle et causale. Et il semble bien que la confusion ait eu lieu à en juger par [des
exemples de textes où l‟une ou l‟autre des deux conjonctions est utilisée selon la variante de
copie du même texte] ».
La même vision s‟exprime chez Jeanjaquet (1894) : « Mais l‟idée [temporelle]
de quomodo pouvant s‟exprimer simplement par quo (co), la fusion avec cum (co) était très
facile. C‟est du mélange de ces divers éléments qu‟est sorti l‟usage temporel de come, como,
cum. Il est donc exagéré de rapporter uniquement à cum le comme temporel français, comme
le fait le Dictionnaire Général de Darmesteter, Hatzfeld et Thomas (s.v. comme 2) ». Et
d‟ajouter sans le moindre argument (ni phonologique, ni morphologique, ni syntaxique): « La
plus grande part revient bien plutôt à quomodo ».
Nous n‟avons pu retrouver jusqu‟ici dans leurs œuvres les raisons du choix
opéré par Darmesteter et Thomas, fins romanistes, mais les propriétés syntaxiques que nous
examinerons en seconde partie font que nous inclinons à penser que leur option (privilégiant
cum comme origine pour les valeurs „temporelle‟ et „causale‟) se révèle tout à fait fondée si
l‟on considère la syntaxe.
Mais dans la tradition, à la suite de leurs contradicteurs, toutes les discussions sont
totalement axées sur l‟évolution à partir de quomodo pour rendre compte des différentes
formes observées dans les différentes langues romanes, alors même que la dérivation à partir
de cum, morpho-phonologiquement moins problématique (sauf pour la variante como nonepliquée), est totalement refusée.
Malheureusement, la postérité contemporaine voit le renforcement de l‟hypothèse
quomodo, jusqu‟aux positions non étayées mais sans appel de J. Herman (1963) :
« Contrairement aux particules che, que, ca, co, etc., aucune difficulté étymologique ne se
présente dans le cas des formes romanes cuemo, come, cum, com, etc. : il est hors de doute
que toutes ces formes remontent à quomodo » (toujours sans preuve factuelle, contrairement
aux habitudes de ce grand linguiste).
Et la tradition actuelle française sur l‟ancien et le moyen français depuis Imbs (1956)
jusqu‟à Kuyumcuyan (2006) répète à l‟envi cette affirmation, allant jusqu‟à expliquer certains
phénomènes syntaxiques des états anciens (l‟emploi du subjonctif pour comme „temporel‟ ou
„causal‟) par une aberration des copistes médiévaux faisant un calque sur le cum du latin,
alors même que cet emploi perdure contemporainement dans le cas de l‟une des langues
romanes (l‟espagnol, pour le como „causal‟ actuellement seulement dans le registre narratif
ou littéraire6). Cette manière de négliger ou de tordre totalement tout phénomène syntaxique
(y compris contemporain) allant contre cette thèse, sans argumentation étayée, nous paraît
relever du domaine de la foi.
Cette cécité nous paraît provenir d‟a priori mettant l‟accent au départ sur les
explications de type phonologique, puis surtout par la suite sur une vision sémanticienne par
essence (la polysémie) associée au défaut de ne plus considérer les phénomènes romans sur
l‟ensemble de ces langues mais uniquement dans une perspective intralinguistique dont
témoignent les travaux français actuels.
6
Cf Bosque/Demonte (2000), pp. 2392-2395.
221
2. Les propriétés syntaxiques de comme ‘temporel’ / comme ‘causal’ Vs comme
‘comparatif’, et leurs équivalents romans
Les propriétés auxquelles nous nous attachons exclusivement ici (nous avons examiné ailleurs
de près l‟ensemble des propriétés caractérisant les différents emplois de ces items en les
comparant, Piot 2010a et Piot 2010b) sont uniquement les suivantes :
- (2.1) une propriété non abordée ni analysée dans nos travaux précédents : l‟emploi du
subjonctif dans les subordonnées en comme „temporel‟ et surtout comme „causal‟ (et
équivalents romans) dans les états anciens des principales langues romanes que nous
considérerons : français, espagnol et italien. Nous aborderons également la survivance de
cette propriété en espagnol contemporain pour l‟item „causal‟.
- puis (2.2) la propriété spécifique du français d‟une pro-forme conjonctive dans le cas de
comme „temporel‟ et de comme „causal‟ vs son impossibilité dans le cas de comme
„comparatif‟.
2.1. Le subjonctif dans les subordonnées „temporelles‟ et „causales‟ en comme/ como/come
La présence et l‟évolution des valeurs sémantiques de „cause‟ et de „temps‟ associées aux
items romans comme/ como/come ne semblent pas se dérouler selon le même schéma si l‟on
considère les trois langues envisagées : l‟expression de la „cause‟ apparaît comme beaucoup
plus ancienne que celle du „temps‟ en espagnol ancien (Vising 1895 et Herman, 1967), alors
que l‟inverse est vrai pour le français (la „cause‟ n‟apparaissant vraiment qu‟en moyen
français vers le XIV-XVèmes siècles) ; enfin les deux valeurs semblent coexister en italien
ancien (come de „temps‟ très présent chez Dante ; avec déjà des formes marquées
différemment (come et (co)sí come) et des propriétés identiques à celles des emplois
modernes, hormis la question du subjonctif.
Les propriétés syntaxiques de position des phrases conjointes sont les mêmes entre l‟état
ancien et l‟état contemporain pour les trois langues : antéposition souvent préférée mais non
exclusive pour les subordonnées de „temps‟ :
(1)
a Commo asmaba Oria a su entendimiento, / oió fablar a Christo" (Oria, 88a).
b Comme ils eüssent soupé et qu’il y avoit largement gens. (Commynes, I, 5.)
c Come voi scontrate Benvenuto, ditegli…(Vita, 1, LXI, p.118, r.1)
. Com' io al piè de la sua tomba fui, / guardommi un poco, e poi, quasi sdegnoso, /
mi dimandò: «Chi fuor li maggior tui?». (Dante, Commedia, Inf. 10, p. a163, vv. 40-42)
alors que cette antéposition est absolument obligatoire pour les subordonnées de „cause‟
(Mazzoleni 2006 allant jusqu‟à définir ce caractère obligatoire comme celui d‟une „rigidité
cataphorique‟) :
(2) a En tod esto, como el rey don Alfonso de Castiella ouiesse pusto de guerrear a
don Alffonso rey de Leon con mayor crueleza que fasta alli, vde los grandes omnes
de los regnos ...metieronse en medio (Primera Crónica General de Espaňa)
222
b Et comme li dis Jehans eust bien la basse justice et la demande fust reele, a li
apartenoit bien ceste connoissance de connoistre qui avoit droit en l‟eritage.
(Coutume du Bauvaisis, VI-233)7
c Sì [così] come [=> poiché] il folle e ‟l pigro non puote avere neuno bene, così il
savio uomo non puote avere alcuno male. (Fiori e vita di filosafi, cap. 20, rr. 140141)
Mais ces propriétés n‟interviennent pas a priori pour la définition de l‟origine de ces items
(cum ou quomodo pour les valeurs de „temps‟ et de „cause‟), dans la mesure où les questions
d‟ordre et de position des subordonnées en latin dans le cas de l‟un et l‟autre item nous sont
peu connues ou difficiles à cerner au travers de corpus soumis à variation.
En revanche, la question de l‟emploi du subjonctif dans ces subordonnées est un
phénomène dûment connu et relevé comme caractéristique du cum latin et non de quomodo.
Or, dans les subordonnées de „temps‟ et surtout de „cause‟ les exemples romans abondent
d‟exemples d‟emploi de ce mode dans l‟un et l‟autre cas. Mais les tenants de la solution
quomodo les récusent en les prétendant œuvres de copistes ou de traducteurs du latin calquant
sur cum (historicum) latin les exemples romans, en bref œuvres et lubies de littérateurs et non
tendance profonde de la langue. Voir notamment les exemples de Imbs (1956), Herman
(1963) pour la tradition française, et la récapitulation fournie par Ridruejo (1981) pour
l‟espagnol, alors que les spécialistes de l‟italien ancien : soit campent sur les mêmes positions
(Blücher 1967 par exemple), soit négligent totalement d‟évoquer le problème (entre autres,
Mazzoleni 2006).
Seule exception notable : l‟hispaniste américain Keniston (1937) qui s‟insurge contre le
procès en création littéraire et „culte‟ et affirme que l‟emploi du subjonctif dans les
subordonnées de „cause‟ en espagnol concerne aussi bien des textes littéraires que des textes
d‟origine „populaire‟. La permanence contemporaine de cet usage en espagnol dans des textes
littéraires et/ou narratifs est attestée jusque par Bosque/Demonte (2000) avec des exemples y
compris forgés tels que :
(3) Como nadie (propuso/propusiera) ninguna enmienda, se efectuó directamente la
votación
Pour l‟italien, une indication intéressante en faveur de l‟hypothèse cum pour le „temps‟
est fournie par une observation de Blücher (1967) faisant le parallèle entre les subordonnées
de l‟italien introduites par come prima (ou come pria) et le correspondant latin cum primum
alors que quomodo prima (ou primum) apparaît non attesté. Même s‟il fait ensuite la
supposition que cette dernière séquence s‟est directement substituée à cum primum sans en
avoir la moindre attestation, pour conserver l‟hypothèse ou plutôt la solution quomodo.
Pour résumer la situation de l‟emploi du subjonctif dans les subordonnées de nos trois
langues :
- en ce qui concernent les subordonnées de „temps‟ romanes les plus anciennement attestées
(ce que montrera notre exemplier), à savoir pour le français et pour l‟italien, la situation est la
même : à côté de l‟emploi de l‟indicatif pour tous les autres temps, le subjonctif est
observable (et même pour d‟autres temps que ceux observés, imparfait et plus que parfait, en
présence du cum latin). Cet emploi étant très tardif pour l‟espagnol ne semble pas avoir
7
Les exemples de comme ‘causal’ en ancien français sont rarissimes : Hermann (1963) en signale une dizaine
douteux (confondus avec l’emploi comparatif), Bertin (1997) ne les rencontre que dans des textes didactiques
d’origine savante (dont l’exemple ci-dessus) ou des traductions, et cette rareté perdure jusqu’encore en moyen
français.
223
suscité de relevé d‟attestations, mais l‟usage du subjonctif étant très présent y compris
actuellement dans les autres subordonnées temporelles dans cette langue, il ne s‟agirait pas là
d‟un cas anormal.
-en ce qui concerne les subordonnées de „cause‟ romanes les plus anciennement attestées :
pour l‟espagnol, l‟on observe la possibilité d‟emploi de l‟indicatif comme du subjonctif (y
compris contemporainement dans des textes narratifs ou littéraires) avec un plus grand
éventail de temps verbaux (comme dans le cas du cum latin) ; pour l‟italien, tous les exemples
recueillis indiquent l‟emploi de l‟indicatif, mais peut-être est-ce faute d‟un intérêt particulier
ou d‟une recherche approfondie dans les corpus sur le problème du mode dans ces
subordonnées par les spécialistes de la période ? Quant au français, où cette valeur apparaît
tardivement pour comme, l‟emploi du subjonctif est plutôt la règle, l‟indicatif y apparaissant
exceptionnellement, ce que montreront les exemples recensés (notamment Bertin 1997).
Malgré certaines analogies de comportement, il semble bien qu‟il faille voir des stratégies
linguistiques particulières à chacune de ces langues.
2.2. La pro-forme conjonctive spécifique du français
Nous avons mis en évidence (Piot 1988) que l‟emploi de la pro-forme conjonctive que pour
éviter la répétition de la même conjonction de subordination en tête de deux subordonnées
coordonnées vaut pour toutes les conjonctions de subordination du français, dont quand,
comme et si, et les différencie des items homonymes (relatifs) présents par exemple dans les
constructions interrogatives indirectes et apparentées.
Or, ce trait caractérise comme „temporel‟ :
(4) Comme il arrivait et comme il trébuchait, le coup est parti
=Comme il arrivait et qu‟il trébuchait, le coup est parti
aussi bien que comme „causal‟ :
(5) Comme il se fait tard et comme vous êtes seule, je vous raccompagne chez vous
= Comme il se fait tard et que vous êtes seule, je vous raccompagne chez vous
Au contraire, en cas de répétition de comme “comparatif” en français (contrairement donc à
tous les items conjonctifs d‟autres classes de conjonctions du français), s‟observe l‟absence
d‟une telle possibilité de substitution :
(6) Tu feras comme lui l‟a fait et comme nous te le dirons
Tu feras comme lui l‟a fait et *que nous te le dirons
Ce dernier trait nous paraît remettre particulièrement en cause la nature du comme
„comparatif‟ comme identique à celle des autres comme subordonnants et son caractère
originel par rapport à ces derniers. Visiblement, le comme „comparatif‟ possède une
individualité qui ne permet pas sa reprise par que, au contraire des deux autres dont l‟origine
pourrait être rapprochée par un même étymon.
224
Conclusions
Un problème important résulte de la confrontation que nous avons menée entre les items
come/comme/como correspondant aux trois valeurs étudiées ici : quelle est l‟origine de la
différence de comportement syntaxique manifeste et très importante entre la valeur
"comparative" d‟une part et les valeurs "temporelle" et "causale" d‟autre part, notamment visà-vis de la possibilité de substitution par une pro-forme de ces items ? Sans compter les autres
propriétés observées qui les différencient.
Il nous semble fondamental, à la lumière des phénomènes syntaxiques observés, que
l‟hypothèse d‟un étymon unique quomodo soit très sérieusement révisée, de même que soit
remis en cause le refus total de l‟hypothèse cum, exclue pour de simples raisons
phonologiques. De même nature nous semble être l‟hypothèse courant dans la doxa,
notamment française, d‟un calque de l‟emploi de cum et du subjonctif du latin classique par
les lettrés du Moyen-Age pour expliquer les formes du subjonctif existant dans les états
anciens et parfois encore contemporain des langues romanes de ce mode associé aux valeurs
"temporelles" et "causales" de come/comme/como au lieu de les admettre comme une possible
hérédité de cum (d‟ailleurs diversement reprise par les différentes langues romanes) transmise
par le latin tardif.
Références
Bertin, Annie (1997) L‟expression de la cause en ancien français. Genève : Droz.
Blücher, Kolbjorn (1967) Come nel toscano antico. In Revue Romane, Vol.2., p. 1-27.
Bogard, Sergio (1994) Las oraciones causales en el espaňol medieval.In: Nueva revista de Filología Hispánica,
XLII, 1. p. 1-28.
Bosque, Ignacio / Demonte, Violeta (2000) Gramática descriptiva de la lengua española. (3 vol.) Real
Academia Española, Colección Nebrija y Bello. Madrid : Espasa Calpe.
Corpus del español (Mark Davies),http:// www.corpusdelespanol.org
Corpus OVI dell‟Italiano Antico : http://gattoweb.ovi.cnr.it/
Dicionario de dicionarios do galego medieval : sli.uvigo.es/DDGM/
Dictionnaire de l‟occitan médiéval : www.dom.badw-muenchen.de/
DMF : www.atilf.fr/dmf/
Hatzfeld, Adolphe- Darmesteter, Arsène- Thomas, Antoine (1890-1900) Dictionnaire général de la langue
française du commencement du XVIIe siècle jusqu'à nos jours. Paris : Delagrave. 2 vol.
Herman, Josef (1963) La formation du système roman des conjonctions de subordination, Berlin, Akademie Verlag.
Huguet, Edmond (1932) Dictionnaire de la langue française du XVIème siècle. Paris : Librairie Champion.
Imbs, Paul (1956) Les propositions temporelles en ancien français. Paris : Publications de la Faculté des Lettres
de l'Université de Strasbourg.
Jeanjaquet, Jules (1894) Recherches sur l’origine de la conjonction que et des formes romanes équivalentes.
Diss. Paris-Leipzig-Neuchâtel : Welter- Fock- Attinger frères. 103 p.
Keniston, Hayward (1937) The Syntax of Castilian Prose.The Sixteenth Century. Chicago :
Kuyumcuyan, Annie (2006) Comme et ses valeurs•: le point de vue historique (XIVe - XVIe•siècles). In:
Langue française, 149, 113-126.
Mazzoleni, Marco (2006) Le congiunzioni subordinanti (sì) come e secondo che in italiano antico. In:
Cuadernos de Filología Italiana, vol. 13, 9-29.
MENARD Philippe (1997), « Remarques sur certains emplois de com(me) en ancien français », in M. Riegel &
G. Kleiber (eds), Les formes du sens. Études de linguistique française, médiévale et générale offertes à Robert
Martin à l’occasion de ses soixante ans, Paris, Duculot : 257-267.
Moellering, William (1943) “The function of the subjunctive mood in como clauses of fact”. In Hispania, Vol.
26, No. 3, Oct., 1943.
Moignet, Gérard (1959) Essai sur le mode subjonctif en latin post-classique et en ancien français. Paris : PUF. 2
vol.
Mosteiro Louzao (1999) Las conjunciones de causa en castellano medieval. Origen, evolución y otros usos.
Santiago de Compostela : Verba, Anuario Galego de Filoloxia, Anexo 45.
Piot, Mireille (1978) Etudes transformationnelles de quelques classes de conjonctions de subordination du
français. Thèse de 3ème cycle, Université Paris 7 et LADL ; 475 p.
Piot, Mireille (1988) : Coordination-subordination : une définition générale. Langue
225
Française, 77, 'Syntaxe des connecteurs' (éds. Gaston Gross- Mireille Piot); février 1988;
pp.3-18
Piot, Mireille (1995) Composition transformationnelle de phrases par subordination et
coordination. Thèse d'Etat ès Lettres et Sciences Humaines, Université Paris 7 et LADL,
426 p. / (1998) Editions du Septentrion, Coll. « Thèse à la carte ».
Piot, Mireille (2009) Come, Comme, Como : de la modalité de phrase à la modalité discursive. In: Recueil de
contributions scientifiques: "Panorama des études en linguistique diachronique et synchronique. Mélanges
offerts a Józef Sypnicki", Łask: Oficyna Wydawnicza LEKSEM.
Piot, Mireille (2010 a) Les tables. La grammaire du français par le menu. Hommage à
Christian Leclère. T.Nakamura, C. Fairon, A. Dister et E. Laporte (eds). Cahiers du Cental, 6, 315-323.
Piot, Mireille (2010 b): “Diversité de comme et de ses équivalents espagnols et italiens”. (à
paraître, in Actes du XXVIe Congrès International de Linguistique et de Philologie Romanes (València,
Espagne) .
Pirson, J. (1908) “Quomodo en latin vulgaire”, In Philologische und volkskundliche arbeiten
Karl Vollmüller zum 16. oktober 1908/ hrsg von Karl Reuschel und Karl Grüber. P.61-74.
RAE, CORDE, Corpus diacrónico del Español, 2009-2010 ; http://www.rae.es/rae.html
Renzi, Lorenzo / Salvi, Giampaolo (2007) Grammatica del italiano antico . (3 voll.) Bologna : Il Mulino.
Ridruejo, Emilio (1981) Como + subjuntivo con sentido causal. Logos Semantikos, Vol. IV : Gramatica, p. 315326. Madrid/ Berlin : Gredos/ de Gruyter.
Schuchardt, Hugo (1899) In ZRPh (Zeitschrift fur romanische Philologie), 23, p. 334.
Sornicola, Rosanna (2003) “Aspetti sincronici e diacronici delle funzioni coordinative e avverbiali di come, con
particolare riguardo all‟area italiana meridionale” In Bollettino Linguistico Campano, N° ¾, pp. 177-209.
Tobler, Adolf (1895) In : ASNS (Archiv für das Studium der neueren Sprachen), 95, p. 200.
Velando Casanova, Mónica (2005) Las estructuras comparativas con como en la crónica medieval: de Alfonso
X a López de Ayala, Col.lecció “Estudis Filològics”, N° 21, Castelló de la Plana : Publicacions de la
Universitat Jaume I.
Vising, Johan (1895) “Quomodo in den romanischen Sprachen” ;In Abhandlungen Herrn Pro. Dr.Adolf Tobler.
Halle. Réédition 1974 , Genève : Slatkine reprints. P. 113-123.
226
Ranaivoson Jeannot Fils
Université d’Antananarivo, Madagascar
[email protected]
Andriamise Lakoarisoa
Université d’Antananarivo, Madagascar
[email protected]
LES VALEURS SEMANTIQUES DES SUPPORTS EN MALGACHE
Résumé
Les valeurs sémantiques des supports n'ont pas encore été bien approfondies par les
grammairiens du malgache. Cette communication a pour objectif d'ouvrir le champ
d'investigation pour combler cette lacune. Dans la première partie, nous dressons un rapide
bilan des travaux faits en matière d'étude des supports dans la langue malgache. La seconde
partie présente la méthodologie adoptée. La troisième partie est consacrée à l'étude
d’exemples de valeurs sémantiques des supports. Cette étude a permis d'une part, de mettre au
jour des valeurs sémantiques insoupçonnées des supports et d'autre part, de constater que
malgré une régularité avérée de leur fonctionnement sémantique, les supports ne se laissent
pas appréhender de façon globale.
Mots-clés: malgache, valeurs sémantiques, aspect intensif, aspect intrinsèque, aspect
volontaire.
Introduction.
Les supports n’ont pas, jusqu’à présent, reçu l’attention qu’ils méritent en malgache 1, malgré
les quelques études dont ils on fait l’objet2. La présente étude, menée dans la perspective
d’enrichissement de la langue malgache en structures exploitables en néonymie, sera
consacrée à l’éclaircissement leur fonctionnement sémantique.
1. La grammaire malgache et la notion de support : les acquis et les lacunes
Les aspects formels du problème des supports ont été largement décrits par les lexicogrammairiens du malgache. Les supports élémentaires ont été inventoriés. Les opérations qui
entrent en jeu dans les nominalisations sont connues. Les contraintes structurales et
distributionnelles dans la mise en relation des phrases à verbe ou adjectif ordinaire avec celles
à support ont été étudiées3. Cependant, les aspects sémantiques du sujet n’ont pas été
approfondis. Les valeurs sémantiques des supports élémentaires ont été ignorées et celles de
leurs extensions n’ont été abordées qu’incidemment. Il en est ainsi du passage suivant « Ces
extensions ont, pour la plupart, une valeur d'hyperbole comme mamely dans mamely
hazakazaka i Be » (RANAIVOSON J. F., 1996 (b)). Or, l’observation des habitudes
discursives des sujets parlants révèle que le recours à des structures à support n’est pas aussi
automatique qu’on le croyait, même si aucune règle grammaticale ne s’y oppose ; que même
les supports dits élémentaires apportent la plupart du temps une valeur sémantique
supplémentaire aux prédicats qu’ils affectent. Les exemples suivants illustrent ce constat.
Grammaticalement, la relation :
(1a) Manoratra taratasy ho
ahy i Soa
(Ecrire
lettre
pour moi Soa) (Soa m’écrit une lettre)
1
Langue de la famille malayo-polynésienne parlée à Madagascar.
Ces études ont été faites dans le cadre d’un mémoire de maîtrise (RAZANAJATO L. de G., 1982, d’un doctorat
de troisième cycle (RANAIVOSON J. F. 1996(a)) et d’un doctorat nouveau régime (RANAIVOSON J. F.
1996(b)).
3
Voir pour cela les ouvrages consacrés à la lexique-grammaire du malgache donnés dans la bibliographie.
2
227
=
(1b) Manao fanoratana taratasy ho
ahy i Soa
(Faire écriture
lettre
pour moi Soa)
est envisageable, mais personne n’emploierait la phrase (1b).
Cette phrase, tout à fait grammaticale, peut servir dans l’explication de la nominalisation
de manoratra (écrire) en fanoratana (action d’écrire) mais n’est pas et ne sera probablement
jamais attestée dans un texte ou dans une conversation. Et pourtant, la relation :
V N1 Prép N2 N0 = Vsup V-n N1 Prép N2 N0 dans laquelle entrent (1a) et (1b) est usuelle.
Dans les phrases reliées
(2a) Mamboly
hazo
Rakoto
(Planter
arbre
Rakoto) (Rakoto plante (un + des) arbre(s))
=
(2b) Manao fambolena hazo Rakoto
(Faire plantation arbre Rakoto) (Rakoto fait un reboisement)
La phrase verbale (2a) exprime, à l’intuition, une action ; la phrase nominale (2b) une
activité, c’est-à-dire « (un) ensemble des actes coordonnés et des travaux de l’être humain,
fraction spéciale de cet ensemble » (Le ROBERT, 1977). Il semble que la relation V = manao
V-n a lieu si et seulement si V-n (E + N1) est l’expression d’une activité. C’est justement
l’absence de ce sens spécifique qui rend la phrase (1b) ci-dessus discursivement bizarre. La
langue ne conçoit pas que le fait d’écrire une lettre à une personne soit une activité. Par
contre fambolen-kazo (plantation d’arbres, reboisement) en est indubitablement une.
La non automaticité de la relation Adj = VsupAdj-n est illustrée par l’exemple suivant :
(3a) Adala
iny zaza
iny
((Fou + Sot) cet enfant là)
=
(3b) Misy hadalana iny zaza
iny
(Il y a folie
cet enfant là)
La phrase (3a) présente deux interprétations : soit « cet enfant est fou, aliéné », soit « cet
enfant est sot, turbulent». Dans sa première interprétation, elle n’est pas reliée à (3b)4. Dans sa
deuxième interprétation, elle l’est et la phrase nominale comporte l’aspect intensif. (3b) se
traduit exactement par « cet enfant (est très turbulent + est extrêmement sot)».
Manao (faire) et misy (il y a) sont des verbes supports élémentaires, donc théoriquement
vide de sens. Les contenus sémantiques des prédicats nominaux qu’ils affectent prouvent
pourtant qu’ils apportent des nuances aspectuelles absentes dans les formes verbales ou
adjectivales correspondantes.
L’emploi des supports est aussi motivé sur le plan discursif. Prenons pour illustration le
verbe mangataka (demander) et le nom prédicatif supporté manao fangatahana ((faire +
adresser) une demande). En variant les caractéristiques des arguments, on bloque parfois
relation la relation V = Vsup V-n :
(4) Raha tsy manam-bola ianao (mangataha + ??manaova fangatahana ) any amin-drainao
(Si tu n’as pas d’argent (demande + adresse une demande) à ton père)
4
Malgré leur identité formelle les adjectifs adala (fou, aliéné) et adala (turbulent, sot), divergent dans leurs
comportements syntaxiques. Si la forme a le sens de « fou, aliéné » l’expression de l’aspect intensif est assumée
par l’auxiliaire tena (en vérité, complètement) : tena adala (complètement fou) ou l’adverbe tanteraka
(complètement) : adala tanteraka (complètement fou) à l’exclusion de l’adverbe be (beaucoup, très). Adala be est
attesté mais signifie « très turbulent, insensé » et non pas « *très fou ». Si elle a le sens de « turbulent, sot » le
même aspect intensif est exprimé soit par l’adverbe be (beaucoup, très) : adala be (très turbulent , très sot), soit
par le couple VsupAdj-n : misy hadalana ((très + extrêmement) (turbulent + sot)), à l’exclusion de l’auxiliaire
tena (complètement) et de l’adverbe tanteraka (complètement). Tena adala et adala tanteraka n’ont qu’une seule
interprétation : « complètement fou » mais pas « complètement (*turbulent, sot) ».
228
(5) Raha tsy manam-bola ianao (??mangataha + manaova fangatahana) any amin’ny banky
(Si tu n’as pas d’argent (demande + adresse une demande) à la banque)
(6) Raha tsy manam-bola ianao (mangataha + *manaova fangatahana) any amin’ny arabe
(Si tu n’as pas d’argent (demande + *fait une demande) dans la rue)
On constate que le prédicat verbal est employé pour l’expression des actes banaux, le
prédicat nominal pour celle des actes institutionnels ou institutionnalisés qui requièrent une
certaine solennité.
Les valeurs discursives des supports ne sont pas l’objet de la présente étude. Nous
tenions seulement à signaler leur existence dans la langue malgache. Leurs valeurs
aspectuelles seront discutées dans les pages qui suivent.
2. Position du problème et méthodologie adoptée pour le résoudre
Les prédicats nominaux à support5 sont toujours plus longs que les prédicats verbaux ou
adjectivaux correspondants. Y recourir va donc à l’encontre du principe même d’économie.
Résultant d’un choix et grammaticalement non contraint, l’emploi des supports est
nécessairement significatif sur un plan ou sur un autre. Le problème est de connaitre la
motivation du choix, autrement dit les valeurs sémantiques des supports eux-mêmes.
L’appréciation de ces valeurs se fera, toutes les fois qu’il est possible, par comparaison des
phrases nominales à support avec les phrases verbales ou adjectivales correspondantes. Pour
cela, des constituants lexicaux non essentiels de syntagme comme les auxiliaires aspectuels,
les adverbes ou locutions adverbiales seront mis à contribution.
Dans les cas des noms prédicatifs autonomes, c’est-à-dire non associées ni à des formes
verbales ni à des formes adjectivales, la méthode est évidemment inopérante. Dans tous les
cas, étant obligatoires, les supports élémentaires de ce type de nom sont sémantiquement
neutres et équivalent exactement à des affixes. Il en est ainsi de manao (faire) dans manao
baolina (jouer au ballon). Baolina (ballon, jeu de balle, match de football) n’a pas de verbe qui
lui soit morphologiquement associé. *Mibaolina ou *Mambaolina6 sont absents du lexique.
Manao ne fait qu’actualiser baolina et apporte les valeurs temporelles, diathétiques et
aspectuelles (duratif, non résultatif) normalement exprimées par les affixes.
3. Quelques valeurs sémantiques des supports en malgache
Les valeurs sémantiques des supports qui seront l’objet de la présente étude ne sont pas les
seules qui existent dans la langue malgache. Tout au plus, ce sont des échantillons permettant
de prendre conscience de l’existence des variations aspectuelles consécutives à la
nominalisation par support. Les valeurs sémantiques ci-dessous énumérées sont
habituellement exprimées lexicalement dans les phrases verbales ou adjectivales, à
l’exception de l’aspect intrinsèque/extrinsèque qui est inhérent à la relation entre le sujet et
sont état. Dans ce cas précis, les supports font office d’éléments révélateurs.
3.1. L’aspect intrinsèque vs extrinsèque
Misy (il y a) est le verbe support élémentaire de la plupart des noms prédicatifs issus
d’adjectifs en malgache. Il a contextuellement le verbe manana (avoir) et l’adjectif feno
(plein) pour extensions. Tous les trois apportent au nom qu’ils supportent une nuance
d’intensité, comme on le verra ci-dessous (3.3.)
5
En malgache, un nom prédicatif peut être actualisé soit par un verbe soit par un adjectif, comme dans manampitiavana ny olombelona izy (avoir amour le genre humain il) (il a de l’amour pour le genre humain) où le
support manana (avoir) est un verbe et be fandeferana izy (beaucoup tolérence il) (il a une grande tolérance) où
le support be « grand » est un adjectif.
6
Mi- et man- sont les sont les préfixes qui peuvent théoriquement affecter le radical baolina
229
Quand l’adjectif prédicat exprime le caractère intrinsèque du sujet, la correspondance
entre lui et le couple misyAdj-n ou fenoAdj-n est bloquée, comme dans l’exemple suivant :
(7) Mangidy ny kininina
(Amère
la quinine) (La quinine est amère)
=
*(Misy + Feno)
ngidi(ny)7 ny kininina
((Il y a + pleine de) amertume la quinine)
Avec le même adjectif, ladite correspondance a lieu si le caractère qu’il exprime est
extrinsèque au sujet :
(8a) Mangidy ny fiainana
(Amère la vie) (La vie est amère)
=
(8b) ( ?Misy + Feno)
ngidi(ny) ny fiainana
((Il y a + pleine de) amertume la vie) (La vie est (E + très) amère)
La quinine est, en effet, intrinsèquement amère. La vie ne l’est qu’accidentellement.
On peut supposer raisonnablement que ce comportement divergent est du à l’emploi au
sens propre ou figuré de l’adjectif. Mais les faits infirment cette hypothèse. Dans la phrase :
(9) Mangidy ny fahafatesana
(Amère la mort) (La mort est amère)
mangidy est employé métaphoriquement. Or, les suites :
*(Misy + Feno)
ngidi(ny) ny fahafatesana
((Il y a + Pleine de)
amertume la mort)
ne forment pas des phrases acceptables. La mort, dans la conception des sujets parlants qui
transparait dans la langue, est fondamentalement amère. C’est donc le caractère intrinsèque
ou extrinsèque de l’état qui est déterminant.
Si le caractère intrinsèque de l’état d’un sujet venait à lui manquer, naturellement ou
dans des circonstances exceptionnelles mais formellement indiqué par la négation tsy (pas), le
verbe support misy peut opérer mais pas l’adjectif feno.
(10) Tsy mangidy ity angivy8 ity
(Pas amer cet angivy ) (Cet angivy n’est pas amer)
(11) Tsy (misy +* feno) ngidi(ny) ity angivy ity
(Pas (E + *plein) d’amertume cette angivy) (Cette angivy n’a pas d’amertume)
(12) Tsy mangidy ny angivy aminy
(Pas amer l’angivy pour lui) (L’angivy n’est pas amer pour lui)
(13) Tsy (misy +* feno) ngidi(ny) ny angivy aminy
(Pas (E+*plein) d’amertume l’angivy pour lui) (L’angivy n’a pas d’amertume
pour lui)
Le verbe support misy et l’adjectif support feno, sans véhiculer eux-mêmes l’aspect
extrinsèque, en sont l’indice.
3.2. L’aspect volontaire vs involontaire
En malgache, l’aspect volontaire/involontaire n’est pas exprimé par les verbes mais par des
adverbes, des locutions adverbiales ou des auxiliaires aspectuels :
(14) Mihomehy tsy nahy
ny mpianatra
(Rire
pas volontaire les élèves) (Les élèves rient involontairement)
7
La morphologie de ngidiny est un malgachisme. La forme attendue et généralement attestée du reste, est un
radical (ici ngidy (amertume)), à laquelle est adjoint le pronom personnel conjoint ny (de lui, d’elle, sa, son…)
co-référent du sujet. Autres exemples : tsy misy tsiro (E + ny) io hena io (cette viande n’a pas (de + son) goût)
tsy misy dika ( ?*E + ny) ny teninao (ta parole n’a pas (de + son) poids).
8
Espèce de solanacées dont le fruit est comestible mais très amer.
230
(15) Minia
mitsiky ny mpampianatra
(Agir à son gré sourire le enseignant) (L’enseignant (sourie
intentionnellement + s’efforce de sourire))
Tsy nahy (involontairement) est une locution adverbiale, minia (agir (de son propre gré +
intentionnellement)) est un auxiliaire aspectuel.
Par contre, dans les phrases nominales, l’aspect volontaire ou involontaire est contenu dans
le support lui-même. Vaky (cassé, éclaté) contient l’aspect involontaire, velona (né, sonné,
éclaté, …) l’aspect volontaire. C’est ainsi qu’on a,
(16) (Vaky + *Velona)
hehy
ny mpianatra
((Cassé + Eclaté + Né + Eclaté)
rire
les élèves)
(Les élèves éclatent de rire)
(17) (*Vaky + Velona)
tsiky
ny mpampianatra
((Cassé + Eclaté + Né + Eclaté)
sourire le enseignant)
(L’enseignant laisse (naître + s’épanouir) un sourire (sur ses lèvres))
(18) (Vaky + Velona)
taraina ny mponina
((Cassé + Eclaté + Né + Eclaté)
plainte la population)
(La population (émet des plaintes + porte plainte))
Pour la langue malgache, le rire est donc nécessairement involontaire, le sourire
volontaire et la plainte peut avoir les deux caractères.
La phrase verbale:
(19) Mitaraina
ny mponina
(Se plaindre la population) (La population se plaint)
à laquelle peuvent être reliées (18) a, par conséquent, une double interprétation : l’une
volontaire, l’autre involontaire.
L’adjectif support vaky porte en lui l’aspect involontaire, velona l’aspect volontaire. C’est
ainsi qu’on a : velom-pisaorana (se fendre en remerciement, remercier), velom-panahiana
(avoir des soupçons + soupçonner), mais pas : *vaky fisaorana ni *vaky fanahiana, le
remerciement et le soupçon étant considérés par la langue comme des actes éminemment
volontaires.
Par contre, l’aveu et les pleurs étant considérés comme des actes involontaires ou
contraints, le support qui leur est approprié est vaky : vaky barara (faire des aveux, avouer),
vaky ranomaso9 (fondre en larmes, pleurer), à l’exclusion de velona : *velom-barara, *velondranomaso.
3.3 L’aspect intensif
L’aspect intensif est une des valeurs sémantiques que les verbes et les adjectifs supports
apportent régulièrement aux noms prédicatifs qu’ils affectent. Les noms prédicatifs concernés
sont issus soit d’adjectifs tels que hatavezana (embonpoint), soit de verbes intransitifs tels que
fitsaharana (arrêt), soit de verbes transitifs exprimant non une action mais un sentiment
comme fitiavana (amour) ou un comportement comme fitandremana (soin, attention). Sont
donc exclus les noms prédicatifs issus de verbes transitifs exprimant clairement une action,
tels que manoratra (écrire)10.
Soient les phrases suivantes :
9
Ranomaso (pleurs, larmes) est un nom prédicatif autonome. Le verbe qui lui est associé sémantiquement est
mitomany (pleurer). D’ailleurs, le nom tomany (pleurs) qui est morphologiquement lié à ce verbe peut aussi
être supporté par vaky. Vaky tomany (se fondre en larmes, pleurer) est le synonyme de vaky ranomaso, mais
d’emploi moins fréquent.
10
Les suites suivantes ne sont pas des phrases acceptables : *(E + tsy) (misy + feno + manana) fanoratana
taratasy ho anao izy ((E + pas) (il y a + plein + avoir) écriture lettre pour toi il).
231
(20a) Tsy mitsahatra
ny orana
(Pas (cesser + s’arrêter) la pluie) (La pluie ne cesse pas)
=
(20b) Tsy (misy + manana) fitsaharana ny orana
(Pas (il y a + avoir)
arrêt
la pluie) (La pluie ne (cesse jamais +
marque aucun arrêt))
La phrase (20a) est neutre sur le plan de l’intensité. Les phrases (20b) contiennent, outre
les sens déjà exprimés dans la phrase verbale, une idée d’intensité. En fait, elles sont les
synonymes de la phrase verbale comportant un adverbe qui exprime précisément l’aspect
intensif.
(20c) Tsy mitsahatra
mihitsy ny orana
(Pas (cesser + s’arrêter) jamais la pluie) (La pluie ne cesse jamais)
La variation de supports sert parfois à exprimer des degrés différents d’intensité. Il en
est ainsi dans les exemples suivants :
(21a) Tsy
menatra
iny rangahy iny
(Pas honteux
cet homme là) (Cet homme n’a pas honte)
(21b) Tsy misy
henatra
iny rangahy iny
(Il n’y a pas honte
cet homme là) (Cet homme n’a aucune honte)
(21c) Lany
henatra
iny rangahy iny
((Epuisé + Consumé) honte
cet homme là) (Cet homme est sans
vergogne)
La phrase verbale est neutre sur le plan de l’intensité. La phrase à Vsup tsy misy (ne pas
avoir, il n’y a pas) contient l’idée d’intensité supérieure et celle à Adjsup lany (épuisé +
consumé) celle d’intensité suprême ou au dernier degré.
Parfois, les phrases nominales comportant les deux degrés d’intensité, à savoir le degré
supérieur et le degré suprême, existent mais la phrase verbale qui leur est théoriquement
associée n’est pas attestée:
(22a) Tsy misy
jery
io zaza io
(Il n’y a pas (intelligence + esprit) cet enfant là)
(Cet enfant est très (inintelligent + idiot))
(22b) Very
jery
io zaza io
(Perdu
(intelligence + esprit) cet enfant là)
(Cet enfant est (dénué de raison + fou))
*Tsy
mijery io zaza io11
(Pas
regarder cet enfant là)
A la place de tsy mijery, où le verbe mijery est morphologiquement associé à jery, on peut
avoir les adjectifs adalaladala ou fokafoka « un peu fou, étourdi ». Les phrases non nominales
sémantiquement associées à (22a) et (22b) sont donc :
(23) (Adaladala + Fokafoka) io zaza io
(Un peu fou + Etourdi) cet enfant là) (Cet enfant est (un peu fou + étourdi))
dans lesquelles les prédicats sont des adjectifs.
Parfois, la langue recourt à un adjectif support –maty (mort) dans nos exemples- pour
exprimer le degré suprême d’intensité :
(24a) Tsy mieritreritra ianao
(Pas refléchir
tu) (Tu ne réfléchis pas)
11
Cette suite signifie normalement « cet enfant ne regarde pas » et ne peut être reliée ni à (22a) ni à (22b). En
fait, le radical jery est polysémique : regard-réflexion, regard-vision, regard-sollicitude, regard-attention. Il prend
le préfixe verbal mi- dans ses trois dernières acceptions. Dans le sens de regard-vision, il peut prendre les formes
nominales fijery (manière de regarder) et fijerena (action de regarder). Dans le sens de regard-sollicitude et de
regard-attention, seule la forme nominale fijerena (sollicitude, attention) est attestée.
232
(24b) Tsy misy
eritreritra ianao
(Il n’y a pas réflexion tu) (Tu es sans conscience)
(24c) Maty eritreritra ianao
(Mort réflexion tu) (Tu es sans moralité)
Dans les phrases positives, les faits ne sont pas aussi tranchés. Trois cas peuvent se
présenter :
- Le verbe support misy véhicule l’aspect intensif comme dans les phrases négatives:
(25a) Matavy ilay omby
(Gras le bœuf) (Le bœuf est gras)
(25b) (Misy hatavezana ilay omby
(Il y a embonpoint le bœuf) (Le bœuf est très gras)
- Il est en alternance avec feno et exprime une intensité inférieure tandis que feno
assume l’expression de l’intensité supérieure :
(26a) Marina ny teniny
(Vraie
sa parole) (Sa parole est vraie)
(26b) (Misy + Feno) fahamarinana ny teniny
((Il y a + Pleine) vérité
sa parole) (Il y a du vrai dans sa parole + Sa
parole est pleine de vérité)
- Il est en alternance avec manana (avoir) et tous les deux expriment une intensité
inférieure :
(27a) Marary
izy
(Malade
il) (Il est malade)
(27b) (Misy + Manana)
aretina
izy12
((Il y a + avoir)
maladie il) (Il est affecté d’une (certaine) maladie)
Les adverbes à valeur d’intensif appropriés à ces trois types de prédicats adjectivaux
sont différents ; preuve, s’il en est, de la relation étroite entre les aspects formels et
sémantiques du phénomène. On a :
fatratra (au plus haut degré) pour matavy (gras) à l’exlusion de mafy et tanteraka,
tanteraka (complètement) pour marina (vrai) à l’exclusion de fatratra et mafy,
mafy (intensément, gravement) pour marary (malade) à l’exclusion de tanteraka.
D’où les syntagmes :
Matavy (fatratra + *tanteraka + *mafy) (Gras au plus haut degré)
Marina (*fatratra + tanteraka + *mafy) (Complètement, absolument vrai)
Marary ( fatratra + *tanteraka + mafy) (Gravement, intensément malade)
Les valeurs aspectuelles des verbes et adjectifs supports ne sont donc pas les mêmes selon
que la phrase dans laquelle ils opèrent est négative ou positive. Dans le premier cas, ils
véhiculent l’aspect intensif comportant divers degrés dont le dernier peut être assimilé au
terminatif, comme dans very jery, lany henatra et maty eritreritra des phrases (21c), (22b) et
(24c) ci-dessus. Dans le deuxième cas, elles sont dépendantes du type de noms qu’ils
affectent, comme on vient de le voir.
Conclusion
12
Dans ces phrases, les degrés d’intensité existent mais ils vont du minimum au neutre ou, du moins, de ce qui
est un signe ou un début à un état avéré ou terminal. La « maladie » dont il est question est éventuellement une
petite manie, quelque chose de bénin, en tout cas moins grave que l’état exprimé par l’adjectif marary
« malade ». Dans le langage quotidien, on peut être taxé de (misy + manana) aretina « affecté d’une (certaine)
maladie » sans qu’on soit cliniquement ou apparemment malade. Pour atténuer le sens d’un adjectif, la langue
use fréquemment de ces supports. (Misy + Manan-) kilema « avoir un handicap » est employé euphémiquement
pour kilemaina « handicapé », manam-pahasahiranana « avoir du souci » pour sahirana « soucieux ».
233
La présente étude a permis de constater qu’en malgache le couple support-nom supporté
comporte au moins une valeur sémantique supplémentaire par rapport au prédicat verbal ou
adjectival auquel il est relié. Seuls les supports élémentaires des noms prédicatifs autonomes
sont sémantiquement vides. Ce qui est logique, étant donné qu’ils ne sont pas facultatifs. Les
valeurs sémantiques en question sont multiples mais obéissent à des règles, donc prévisibles.
Le fait que la plupart des valeurs sémantiques supplémentaires du couple support-nom
supporté est exprimé lexicalement dans les phrases verbales ou adjectivales prouve que les
supports, dans leur majorité et/ou dans la plupart des cas sont des outils autant sémantiques
que grammaticaux.
Bibliographie
ABINAL et MALZAC, RR.PP, 1888, Dictionnaire Malgache-Français, Edition de 1993, Fianarantsoa, Librairie
Ambozontany.
GIRY-SCHNEIDER, J., 1978, Les constructions du verbe faire. (L’opérateur faire dans le lexique), Genève,
Droz.
GIRY-SCHNEIDER, J., 1987, Les prédicats nominaux en français. Les phrases simples à verbe support,
Genève-Paris, Droz.
GROSS, G., 2011, Manuel d’analyse linguistique, manuscrit.
GROSS, M., 1975, Méthode en syntaxe, Paris, Hermann.
RABENILAINA, R. B., 1985, Lexique-grammaire du malgache. Constructions transitives et intransitives, Thèse
de doctorat d’Etat, Université Paris VII, L.A.D.L.
RABENILAINA, R. B., 2001, Ny teny sy ny fiteny malagasy (La langue et les dialectes malgaches),
Antananarivo, Société Malgache d’Edition.
RAHARINIRINA-RABAOVOLOLONA, L., 1991, Lexique-grammaire des composés malgaches, Thèse de
doctorat, Université Paris VII, L.A.D.L.
RAJAONA, S., 1972, Structures du malgache. Etude des formes prédicatives, Fianarantsoa, Librairie
Ambozontany.
RALALAOHERIVONY, B. S., 1994, Lexique-grammaire du malgache. Constructions adjectivales, Thèse de
doctorat, Université Paris VII, L.A.D.L.
RANAIVOSON J. F. 1996(a), La nominalisation en malgache. Etude des formes manaoN, Thèse de doctorat de
troisième cycle, Université d’Antananarivo, Département de Langue et Lettres Malgaches.
RANAIVOSON J. F. 1996(b), Etude des constructions à prédicat mx-N en malgache. Classe d’objets et
traduction, Thèse de doctorat, Université Paris XIII, L.L.I.
RAZANAJATO, L. de G., 1982, Ny matoanteny mpanova manao (Le verbe opérateur manao (faire)), Mémoire
de maîtrise, Université d’Antananarivo, Département de Langue et Lettres Malgaches.
SAUSSURE, F. de, 1916, Cours de linguistique générale, Payot, Paris.
234
Ronan Patricia
Université de Lausanne
[email protected]
FUNCTIONS OF SUPPORT VERB CONSTRUCTIONS IN EARLY ENGLISH
Abstract
This qualitative and quantitative study investigates functions and frequency of support verb
constructions in a 100,000-word Old English sample corpus. The sample indicates that textual
frequencies are comparable to or even higher than in Modern English, in spite of the considerably
more synthetic typological structure of Old English. Two main functions of early English support
verb constructions are identified. First, specifying agentative or aspectual information structures
to compensate the increasing loss of earlier affixation. Secondly, the creation of verbal concepts
for which no simple verbal expression exists in the target language, such as the inclusion of new
cultural concepts.
Keywords: support verb constructions, support verb functions, Old English, language typology.
1. Introduction
The current study examines the use of support verb constructions in Old English and investigates
their frequency and their usage. The term support verb constructions is used for collocations of
semantically low-content inflected verbs with predicate nouns. These structures have been
observed and described in various languages, and the terminology that is used to describe them
includes expanded predicate (Algeo 1995), complex verb (Brinton 1996), multi-word verb
(Kaalep and Muischnek 2006), light verb constructions (various authors, going back to Jespersen
1909-49, IV: 117), Funktionsverbgefüge (Balles 2003), verbonominale Konstruktion (van
Pottelberge 2001), or support verb construction (Danlos 1992, Oyharçabal 2004, Langer 2009).
While many scholars confine their research to structures paralleled by simple verbs, others
include structures do not have parallel simplexes (e.g. Claridge 2000, Balles 2003, Family 2011).
This is done on the grounds that, on the one hand, the resulting group is seen as semantically
largely non-compositional and the meaning is overall verbal. On the other hand the inflectional
verbal system may be not comprehensive enough to express the lexemes in question in verbal
simplexes, even though simplexes typically exist for these concepts in other languages. This
approach is also used in the present study, and, in cases of doubt, resulting collocations have
typically been included where single-verb paraphrases can be found easily.
That early English contains examples of support verb structures is a well known fact.
Prominent descriptions of collocations of certain verbs with nouns are given in Visser (1963),
and Denison (1981) has investigated multi-word verbs with an emphasis on the early Middle
English Ormulum. A comprehensive, corpus-based investigation of support verb constructions in
Old English has been carried out by Akimoto & Brinton (1999). The authors restrict their study
to those verbs that correspond to the most frequently used verbs in Modern English, namely do,
give, have, make and take (1999: 23). As predicate nouns the authors only admit those which had
a corresponding simple verb in Old English (Akimoto & Brinton, ibid.). As a result, predicate
nouns without an equivalent simple verb are excluded. While type frequency, i.e. the number of
235
different collocational types, is indicated in their study, token frequency, i.e. the overall number
of examples, is not mentioned. A previous study on support verb constructions in Old English
and Old Irish (Ronan and Schneider 2009) has provided these parameters for verbs of ‘giving’ in
the two languages under investigation. The current study concentrates on Old English support
verb constructions and examines their distribution and their functions in greater detail.
This study is structured as follows: data and method will be introduced briefly, then the use of
two sample verbs from the Old English corpus, sellan ‘give’ and fremman ‘perform’ is discussed.
The results from Old English are then compared to studies on Modern English and Old Irish to
assess the influence of typological factors, and conclusions are drawn.
2. Data and method
The data has been extracted from a corpus of mainly 9th and 10th century Old English texts,
totalling about 107,000 words. This was done by a semi-automatic search of the online version of
the Toronto Dictionary of Old English corpus (diPaulo Healy et al., 2004). The texts investigated
were Bede’s The Old English Ecclesiastical History of the English People (80,000 words),
Beowulf and The Judith Fragment (12,000 words), The Voyage of Ohthere and Wulfstan from the
Old English Orosius (2000 words) and the Anglo-Saxon Chronicle A (15,000) words. In a first
step, potential support verbs were identified on the basis of previous studies (Visser 1963,
Akimoto and Brinton 1999), and by going through Old English texts and through dictionaries.
Once potential verbs were identified, all possible morphological and graphic variants of the stem
forms of the putative support verbs taken into account. The basis for identifying these potential
forms was provided by the attestation in the Anglo-Saxon dictionary (Bosworth and Toller 1898).
The forms were then entered in the search interface provided by the Dictionary of Old English
corpus. Even though almost complete recall can be assumed for the early English data due to the
broad search patterns, precision was very low and extensive manual filtering of false positives,
such as incorrect verbal forms and faulty predicates, took place. In most cases these false
positives were examples where the searched-for stem had non-verbal homographs, or in which
the verb was used not as a support verb, but as a full verb with a direct object.
3. Discussion of the data
3.1 Main Old English types
A pioneering study of support verb constructions in Old English has been carried out by Akimoto
& Brinton (1999). These authors have investigated the Old English equivalent of the most
prominent Modern English support verbs and thus provided a survey of the use of dōn ‘do’,
macian ‘make’, sellan ‘give, giefan ‘give’, niman ‘take’ and habban ‘have’. In the present
investigation, structures with gewyrcan ‘create’, fremman ‘perform’, and dælan ‘share’ were also
taken into account. Further, it has been observed that a number of Old English aspectual verbs are
used like auxiliaries, particularly onginnan & beginnan ‘begin’, onfon ‘receive’, wunian ‘be used
to’, swican & blinnan ‘cease’.
Akimoto and Brinton have restricted their investigation to collocations with predicate nouns
that have a parallel verbal simplex, which precludes the possibility to investigate in how far
support verb constructions may serve to fill gaps in the verbal paradigm. In contrast to Akimoto
and Brinton’s study, the present approach admits both predicate nouns that are either derived
from verbs, or have formed the basis for verbal derivatives, and those predicate nouns which are
not connected to a verbal simplex. That this may be useful is suggested by studies which stress
the function of multi-word verbs in creating new verbal concepts, as is done for example by
236
authors working from an early Indo-Iranian perspective (Jacobi 1903, Balles 2003). Due to space
constraints, this paper will illustrate the use of Old English support verb constructions on the
examples of sellan ‘give’ and fremman ‘perform’.
3.2 sellan ‘give’
The use of sellan has long been attested with semantically diverse nouns from both the more
abstract and the more concrete ends of the scale, such as e.g. andswar ‘answer’, ár ‘honour’, áð
‘oath’, gafol ‘tax, due’, geþeaht ‘thought’, gifu ‘gift’, grið ‘peace’, fulluht ‘baptism’, fultum
‘help’, leoht ‘light’, forgifnyss ‘forgiveness’, leaf ‘permission, leave’, mildheortness ‘mercy’,
sibb ‘peace’, ræst ‘rest’, sige ‘victory’, treow ‘truth’, and wær ‘convenant’ (Bosworth and Toller
1898 s.v. sellan, Akimoto and Brinton 1999). These attestations provide evidence both of
predicate nouns with and without parallel verbal simplexes. Where equivalent simplexes exist,
the collocation may offer semantic or pragmatic specification of the verbal concept as compared
to the verbal simplex:
(1) ... Bæt
þaet he
him geþeaht
sealde
asked that
he
him council
gave
... ‘he asked that he give him council’ (Bede 4 [0608 (26.350.16)])
The noun geþeaht ‘council’ has a corresponding derivative, geþeahtian ‘to take council’, but we
can observe differences in the agent structures of the phrases. The subject of geþeahtian
expresses an experiencer, the combination geþeaht sealde ‘give council’ changes the argument
structure of the verb, the subject expresses the agent of an action. Similar behaviour can be
observed with georness ‘zeal’, which is related to the non-agentive geornan ‘to desire’.
(2) & ealle geornesse
ic
sealed to
leornienne & to
All
zeal
I
applied to
lean &
to
smeagenne
halige gewritu.
investigate
Holy Scripture
‘I applied all zeal to learning and investigating the Holy Scripture’ (Bede 5
0587(22.480.28))
In contrast to its simple form, which is intransitive, geornesse sellan expresses the agentive ‘to
apply zeal to’. A further example of such adjustment of agent structure is provided by the verb
bysnian ‘to set an example’, derived from bysn ‘example’ and the agent-centred sealdon bysne
‘they gave examples’ (e.g. Bede 1[0139 (9.46.8)]). In addition to predicate nouns with a verbal
simplex, examples without equivalent simple verbs can be found. This especially holds for
ælmessan sellan ‘give alms’, and áð sellan ‘give an oath’, e.g.:
(3) … þæt
he
wolde þearfum
ælmessan
sellan
that
he
wanted the needy
alms
give
‘that he wanted to give alms to the needy’ (B5 [0070 (4.394.23)])
(4) & Scottas
him
aðas sealdan,
and the Irish
him oaths gave
‘and the Irish gave him oaths’ (Chron A [0585 (946.3)])
237
The collocation ælmessan sellan ‘give alms’ is tentatively included because it is paraphrasable as
donate. Nevertheless, it tends towards the concrete end of the collocational scale. It seems
justifiable to include these in the range of support verb constructions if we follow construction
grammar approaches that argue that all (related) grammatical items are on a cline from general to
idiosyncratic (Goldberg and Jackendorff 2004: 532-3). Constructions are those groups that have
properties that is not (entirely) derivable from their parts and, like idioms, they are taken to be
stored in the lexicon (ibid, 533-4).
Overall, in the early English material, a prominent group of examples for creating new verbal
concepts stems from the domain of Christianity, as illustrated by 3. above. Here support verb
constructions seem to act as a typologically appropriate way to add new semantic concepts into
the morpho-syntactic structure of the target language, Old English.
The textual distribution of sellan collocations is as follows:
Sellan
Frequency
Frequency
100,000
per
F (N, Bede)
40
50
F (N, Beowulf)
1
8.3
F (N, Chronicle A)
5
33
F (N, Othere
/
/
F (N, ∑)
46
43
Table 1: frequencies of sellan with predicate nouns in the sample corpus
With a frequency of 47 tokens per 100,000 words in the corpus, sellan proves to be one of the
more frequently used support verbs. It is used with 21 different predicate nouns, 13 of which
(62%) have verbal equivalents. There is notable variation between the textual genres in the
corpus, indicating that stylistic or dialectal variation plays a role.
In sum, we can observe two types of sellan collocations: where no equivalent verbs exist, a
new transitive or di-transitive verbal concept is created. The semantic core of the verb sellan
makes it appropriate for use in collocations expressing directedness of action. Where a
corresponding simplex exists, sellan typically offers a semantic specification of directed
transmission of the entity. Its core use appears to be in the context of transmission of goods,
rewards or knowledge, concepts which are likely to be metaphorical extensions from originally
more concrete expressions of physical transmission. The verbal semantics might appear more or
less concrete. Overall, the use of Old English sellan seems to be similar to the use of give in
support verb constructions in Modern English as described by Allerton (2002).
3.3 fremman ‘perform’
In contrast to sellan, fremman is used in the contexts of nouns expressing actions which have an
impact on other people. The predicate nouns can correspond to simplexes (5 & 6), and examples
without corresponding simplexes (7) are also found.
(5) swa deorlice
dæd gefremede
fagum
sweordum
so valuable
deed performed
shining
swords
‘thus performed a valuable deed with shining swords’ (Beo[0162 (583)])
(6) ne
not
ne
nor
meaht
may
geoce
safety
ðu
me
nu
you
me
now
gefremman
perform/provide
ofer
after
238
ðisne dæg
this
day
ænige helpe
any
help
‘you can offer me no help nor safety after this day.’(B5 [0329 (14.438.16)])
(7) ac ymb Hreosnabeorh eatolne
inwitscear
oft
gefremedon.
But at
Hreosnabeorh dreadful
evil slaughter often perform
‘and at Hreosnabeorg often committed dreadful malicious slaughter’(Beo [0681
(2472)])
The frequency distribution in the texts of the corpus investigated is as follows:
Fremman
Frequency
Frequency
100,000
per
F (N, Bede)
9
11.5
F (N, Beowulf)
21
175
F (N, Chronicle A)
/
/
F (N, Othere
/
/
F (N, ∑)
30
28
Table 2: frequencies of fremman with pedicate nouns in the sample corpus
Notably, Beowulf has disproportionally many fremman collocations. In Beowulf, fremman is
used complemented both by nouns with and without parallel verbal simplex. By contrast, only
examples with parallel simplexes are found in Bede. The covered semantic fields mainly express
actions which impact on others. In the other texts, the predicate nouns found with fremman can
typically be found with the verbs dōn ‘do’ and macian ‘make’, both of which may be described
as factitive markers. Especially in Beowulf fremman seems to fulfill similar factitive functions.
The support verbs under investigation in the present study, especially the ones with more
restricted distribution, tend to be used with predicate nouns from related semantic fields. It seems
likely that increased grammaticalisation of a particular support verb takes place by adding
predicate nouns of related semantic fields to the already existing collocations. Semantic
specialisation seems to be particularly prominent in the cases where a corresponding simple verb
exists. In other cases, the primary function of the support verb construction seems to be to fill the
gap in the verbal paradigm, and the support verb chosen is selected on the basis of the
appropriateness of its semantic contribution to the collocation.
4. Comparison with later English and with Old Irish
As the support verb construction allows the semantic content of a corresponding simple, inflected
verb to be spread among different parts, support verb structures can be considered analyticising.
Modern English is indeed a typologically rather analytic language with a morpheme count of
1.68 per word according to Greenberg (1960). Anglo-Saxon by contrast is considered
typologically more synthetic with an average morpheme count of 2.12 per word (Greenberg
1960: 193). This observation might have led us to believe that Old English should have fewer
(analyticising) support verb constructions than Modern English, an assumption that the
comparison of frequent structures in the two languages does not seem to bear out. In the 107,000word sample corpus investigated, 196 support verb constructions were found, plus 127 aspectual
constructions consisting of auxiliaries plus infinitive. This figure may be compared to the
findings by Algeo (1995), who posits the following frequencies of attestation for the most
prominent Modern English support verb constructions. His databases are the 1 million word
Brown Corpus, compiled in the 1960ies on the basis of American English data, and the 1 million
word LOB corpus, compiled of British English material at the same time period.
239
Modern English
counts
Brown types
LOB types
Brown tokens
LOB tokens
Do
Give
Have
Make
Take
Total 1 mio
word corpora
4
30
35
44
20
133
/
29
61
39
20
149
4
40
55
59
41
199
/
40
100
67
38
245
Total 2 mio
word corpora
types/tokens
4/4
59/80
96/155
83/126
40/79
282/444
Table 3: support verbs in the Brown and the LOB corpora (Algeo 1995: 214)
Comparing the Old English results to Algeo’s Modern English results is difficult for a number of
reasons. On the one hand, the Modern English data is based on material from a large number of
different domains and informants, whereas the Old English figures are based on considerably less
varied data from the written domain only, and over-represent the material from Bede’s
Ecclesiastical History. Therefore the two studies differ in the sampling procedures applied.
Further, the total word count of the Modern English material is ten times as high as that of the
Old English material, which skews comparability. Finally, the study by Algeo takes into account
the most prominent support verbs in the corpora investigated, but makes no mention of less
frequent constructions, which for the purpose of comparability with the total Old English counts
would need to be added to the Modern English data. As a solution to the latter, we can table the
Old English to likewise only include the five most frequent support verbs in the corpus. This is
done in the table 4.
Most frequent Old English verbs
in the corpus of 100,000 words
Habban ‘have’
Sellan ‘give’
Fremman ‘perform’
Dōn ‘do’
Niman ‘take’
Total/total per 1 mio words
Types
Tokens
35
21
19
10
4
95/950
48
46
30
16
22
162/1620
Table 4: five most frequent support verbs in the Old English sample corpus
This table suggests that, in spite of the sampling differences between the Old English data
investigated above, and the Modern English data investigated by Algeo (1995), examples of
support verb constructions in Old English are remarkably frequent in comparison with Modern
English, and this is in spite of the fact that Modern English is considered to be typologically more
analytic than Old English. The problems of data sampling aside, this high frequency in Old
English may be due to various factors. One factor seems to be that support verb structures are
used for semantic specification of verbal expressions, which may be particularly relevant in the
case of Old English as the very varied, Norman-French and Norse influenced vocabulary of later
English was not yet available – or, in the case of Norse – not yet established. On the other hand,
already during the Old English period, verbal prefixation that served for semantic and aspectual
specification got increasingly lost (Hiltunen 1983) and alternative modes of expressing these
categories needed to be found, and the development of periphrasis to specify aktionsart in
Germanic languages has already been mentioned in this context (Hiltunen 1983, van Pottelberge
240
1996). Further, the very productive conversion of nouns into verbs only started at the Early
Modern English period and was not available to create verbs from nouns at the period under
consideration.
That typological syntheticity does not seem to be an obstacle to the use of support verb
constructions is also illustrated by investigations of comparable structures in synthetic languages
such as the Indo-European proto-language (Balles 2004), Sanskrit (Jacobi 1903) or Old Irish. For
the latter, corpus material dating from the 9th and 10th centuries has been investigated (Ronan
2010). The Insular Celtic language Old Irish has complex morphological patterns, particularly in
the verbal paradigm, and Tristram (2009: 262) has identified Old Irish to have a mean morpheme
count of 3.57 per word. This might lead one to expect concentration on synthetic patterns of word
or phrase formation, with little prominence of periphrastic verbal structures. In fact, an
investigation of an Old Irish 100,000 word corpus, carried out following the same principles as
the investigation into the Old English material under investigation here, proves Old Irish to have
an even stronger attestation of support verbs than both Old and Modern English, averaging 403
structures per 100,000 words in the corpus material. Results from early Irish material have shown
that these structures were also well established in early Irish both to fill gaps in the verbal
paradigm and to specify agent and aspect structures (Ronan and Schneider 2009, Ronan 2010).
Thus for Old English, as well as for Old Irish, Indo-European, or Sanskrit, verbalization of
nominal concepts can be considered an important function of support verb constructions, as well
as the specification of categories like aktionsart (Ronan, MS).
5. Conclusion
It has been argued that the function of support verb constructions in the Old English material
under investigation appears to be two-fold. On the one hand, they play a role in specifying the
information structure of the collocations in question as compared to corresponding simple verbs.
Examples adduced here have centred on illustrating differences in agent structures, and aspectual
uses have also been mentioned. In this respect the support verb construction could be considered
a sign of typological changes towards increasing analyticity.
On the other hand, support verbs are also employed to incorporate new cultural concepts for
which no simple verbal expression exits in the target language, and they fill gaps in the verbal
paradigms due to missing integration of new nouns into the linguistic system. It is further argued
that the increasing loss of verbal prefixation, as well as the non-existence of semantic doublets
due to language contact, and the lack of the later very productive conversion from nouns to verbs
added to the usefulness of support verb constructions. Considerable numbers of attestation in Old
English suggest that support verb constructions must be quite well established at the period
already, and that it is likely that variation in the use of support verbs expresses meaning
differences.
These findings seem relevant for the study of English language history as they show that even
at its most synthetic linguistic stages, Old English made use of structures that are considered part
of an analytic linguistic paradigm, and it is not the only overall synthetic language to do so. The
data investigated suggests that the use of support verb constructions is in fact a means to enable
the language to specify the semantic content of verbal expressions on the one hand and to allow
for the absorption of new cultural concepts, factors which are independent of overall linguistic
syntheticity.
241
References
Akimoto, M. & Brinton, L. 1999.: ‘The Origin of the Composite Predicate in Old English’. In: Brinton, L. & M.
Akimoto (eds), 21-58.
Algeo, J. 1995: 'Having a look at the expanded predicate.' In: Bas Aarts and Charles F. Meyer (eds.) The Verb in
Contemporary English. Theory and Description. Cambridge: CUP. pp. 203-217.
Allerton, D. J. 2002. Stretched Verb Constructions in English. London: Routledge.
Balles, I. 2003. ‘Die lateinischen idus-Adjektive und das Calandsystem’. Indogermanisches Nomen. Derivation,
Flexion und Ablaut. Akten der Indogermanischen Gesellschaft, Bremen: Hempen Verlag, 9-29.
Balles, I. 2004. ‘Die Tendenz zum analytischen Sprachtyp aus der Sicht der Indogermanistik’. In: Hinrichs, U. (ed.).
Die europäischen Sprachen auf dem Weg zum analytischen Sprachtyp. Wiesbaden: Harrassowitz Verlag,
33-53.
Bosworth, J. and T. N. Toller. 1898. An Anglo-Saxon Dictionary. Oxford: Clarendon Press.
Brinton, L. 1996: 'Attitudes towards increasing segmentalization: Complex and phrasal verbs in English.' Journal of
English Linguistics 24:186-205.
Brinton, L. & M. Akimoto (eds). 1999: Collocational and Idiomatic Aspects of Composite Predicates in the History
of English. Amsterdam/Philadelphia: Benjamins.
Claridge, C. 2000. Multi-word Verbs in Early Modern English. Amsterdam: Rodopi.
Danlos, L. 1992. ‘Support verb constructions: linguistic properties, representation, translation. Journal of French
Language Studies (1992), 2, 1-32.
Denison, D. 1981. Aspects of the history of English group-verbs: With particular attention to the syntax of the
Ormulum. DPhil dissertation, University of Oxford.
diPaulo Healy, A., D. Haines, J. Holland, D. McDougall, I. McDougall, and X. Xiang. 2004. The Toronto Dictionary
Corpus in Electronic Form, TEI-P3 conformant and TEI-P4 conformant version. Toronto: DOE Project.
Family, N. 2011. ‘Verbal Islands in Persian’. Folia Linguistica 45:1, 1-30.
Goldberg, A. and R. Jackendorff. 2004. ‘The English resultative as a family of constructions. Language 80, 532-68.
Greenberg, J. 1960. ‘A Quantitative Approach to the Morphological Typology of Language’, International Journal
of American Linguistics. Vol. 26 No. 3, 178-94.
Hiltunen, R. 1983. The Decline of the Prefixes and the Beginnings of the English Phrasal Verb. (Annales
Universitatis Turkuensis Series B, Vol. 160). Turku: University of Turku Press.
Jacobi, E. 1903. ‘Über den nominalen Stil des wissenschaftlichen Sanskrits’, Indogermanische Forschungen 14, 23651
Jespersen, O. 1909-49. A Modern English Grammar on Historical Principles. 7 Vols. London/Copenhagen:
Allen/Unwin/Munksgaard.
Kaalep, H.-J. & Muischnek, K. 2006: ‘Multi-verb words in a flective language: the case of Estonian’, Proceedings of
ACL 2006 Workshop on Multi-word-expressions in a multilingual context. Syndey: ACL, 57-64.
Langer, S. 2009. Funktionsverbgefüge und automatische Sprachverarbeitung (Support Verb Constructions and
Natural Language Processing). München: LINCOM.
Oyharçabal, B. 2004. ‘Basque light verb constructions’, IKER-UMR 5478, Bilbao: Euskaltzaindia, 1-20. (also:
www.iker.cnrs.fr/pdf/oyhar_light_verbs.pdf)
Ronan, P. MS. Make Peace and Take Victory: Support Verb Constructions in Old English in Comparison with Old
Irish.
Ronan, P. 2010. ‘Support verb constructions in Early Irish’. In: Josephson, F. (ed.) Celtic Language Law and
Letters. Proceedings of the 10th Conference of Societas Celtologica Nordica, Gothenborg: Meijerbergs
Arkiv, 93-106.
Ronan, P. and G. Schneider. 2009. ‘Multi-verbal expressions of giving in Old English and Old Irish’. Online-proceedings
of Corpuslinguistics, Liverpool 2009. http://ucrel.lancs.ac.uk/publications/cl2009/
Traugott, E. 1999. ‘A Historical Overview of Complex Predicate Types’. In: Brinton, L. & M. Akimoto (eds), 239260.
Tristram, H.L.C. 2009. ‘Wie weit sind die inselkeltischen Sprachen (und das Englishe) analytisiert?’ In: Hinrichs, W.
(ed.) Eurolinguistik: Entwicklungen und Perspektiven. Wiesbaden: Harrassowitz. 255-280.
Van Pottelberge, J. 1996. Verbalnominale Konstruktionen als Vorläufer der Funktionsverbgefüge. Gent: Studia
Germanica Gandensia.
Van Pottelberge, J. 2001. Verbonominale Konstruktionen, Funktionsverbgefüge. Vom Sinn und Unsinn eines
Untersuchungsgegenstandes. Heidelberg: C. Winter Universitätsverlag.
Visser, F. Th. 1963-1973. An Historical Syntax of the English Language. Leiden: Brill.
242
Samvelian Pollet
Université Sorbonne Nouvelle
[email protected]
Danlos Laurence
Université Paris Diderot
[email protected]
Sagot Benoît
Université Paris Diderot
[email protected]
ON THE PREDICTABILITY OF LIGHT VERBS
Abstract
In the two main frameworks studying light verb constructions (LVCs) in French, namely LexiconGrammar and DEC (Dictionnaire Explicatif et Combinatoire), the idiosyncratic nature of the light
verb (LV) for a given predicative noun has been emphasized. In this paper, while acknowledging some
idiosyncratic cases, we want to highlight the existence of a continuum between LVCs and ordinary
constructions involving heavy verbs and, as a consequence, the partial predictability of the
combination of a given LV with a predicative noun. We debate these issues with examples both in
French and Persian.
Keywords: light verb constructions, french, persian, predictability.
1. Introduction
Light verb constructions (LVCs) have been a focus of interest in several studies since mid
70‘s and early 80‘s for various reasons:
 Contrary to ―prototypical‖ verbal constructions where the verb is the syntactic and
semantic head of the sentence and its syntactic dependents are also its semantic arguments, in
LVCs, one of the syntactic dependents of the verb, generally its direct object, functions as the
semantic head, projecting its own argument structure, while the verb, which is semantically
―light‖, bears only inflection and projects no argument structure.
 Given the fact that the verb has no semantic contribution or rather its semantic
contribution is quite weak, it cannot be selected lexically, that is on the basis of its semantic
contribution. The combination of a particular predicative noun (PN) with a particular light
verb (LV) is thus a matter of idiosyncrasy: The noun and the verb form a collocation that
must be stored in the lexicon.
These issues have been addressed for French in at least two large-scale lexicographic
enterprises, namely Lexicon-Grammar and DEC (Dictionnaire Explicatif et Combinatoire),
which are briefly introduced in Section 2. Both approaches underline the non-predictability of
the light verb for a given predicative noun. The aim of our paper is to debate this nonpredictability.
For achieving this goal, we shall study a set of LVCs in two languages, French and
Persian, the latter interestingly displaying only roughly two hundred verbs. Any of these verbs
is comparable to a light verb, at least to some extent (Section 3). More specifically, we shall
investigate the continuum that can be drawn from light verbs to heavy (prototypical) verbs
(Section 4), as well as the predictability of light verbs associated with neologisms (Section 5).
243
2 French light verbs in Lexicon-Grammar and DEC
The notion of light verb was first introduced in (Gross, 1976) to deal with nominalizations:
the forms of the dependents of agression in (1a), in particular the preposition contre ‗against‘
to introduce the second argument, cannot be derived from the verbal construction in (1b). On
the other hand, the preposition contre ‗against‘ is found in the LVC in (1c), which is, for
M. Gross, the transformational source of the NP in (1b) through (1d).
(1) a.
b.
c.
d.
l‘agression de Luc contre Marie (the attack of Luc against Mary)
Luc a agressé Marie (Luc attacked Mary)
Luc a commis une agression contre Marie (Luc committed an attack against Mary)
l‘agression que Luc a commise contre Marie (the attack Luc committed against Mary)
This first notion was furthermore extended in several directions, among which:
 The notion of ―reverse verb‖: parallel to the paradigm in (1) with an active diathesis, there
exists the paradigm in (2) with a passive diathesis in which subir ‗suffer‘ is referred to as
―reverse light verb‖. Note that the preposition par ‗by‘ within the NP in (2c) is not found in
the reverse LVC but in the passive verbal construction in (2a).
(2) a. Marie a été agressée par Luc (Mary was attacked by Luc)
b. Marie a subi une agression de/de la part de Luc (Mary suffered an attack from Luc)
c. l‘agression de Marie par Luc (the attack of Mary by Luc)
 the notion of aspectual variant: parallel to the paradigm in (3), there exists the paradigm
in (4) in which prendre ‗take‘, perdre ‗loose‘ and garder ‗keep‘ are respectively referred to as
inchoative, terminative and durative aspectual variants of the (aspectually neutral) light verb
avoir ‗have‘.
(3) a. Luc a de l‘influence sur Marie (Luc has some influence on Mary)
b. l‘influence de Luc sur Marie (the influence of Luc on Mary)
c. Luc influence Marie (Luc influences Mary)
(4) a. Luc prend de l‘influence sur Marie (Luc takes some influence on Mary)
b. Luc perd son influence sur Marie (Luc loses his influence on Mary)
c. Luc garde son/de l‘influence sur Marie (Luc keeps some/his influence on Mary)
 the extension of these notions to predicative nouns which are not verbal nominalizations.
The paradigms in (1)/(2) and (3)/(4) remain identical when replacing respectively agression
‗attack‘ with meurtre ‗murder‘ or influence ‗influence‘ with ascendant ‗ascendancy‘, except
that the morphologically related verb doesn‘t exist.
Parallel to the work made by Maurice Gross and his colleagues, Igor Meľčuk and his
colleagues introduced, in the framework of the Dictionnaire Explicatoire et Combinatif
(DEC) (Meľčuk et al., 1995), the lexical functions Oper1 and Oper2 which are respectively
equivalent to the notions of light verb and reverse light verb. Aspectual variants of light verbs
are represented by composition of lexical functions, for example IncepOper1 for an
inchoative variant. Moreover, DEC introduced lexical functions Func1 and Func2 for cases in
which the nominalization or predicative noun occurs in the subject position (Un cri a échappé
à Luc ‗A cry escaped Luc‘, Un tsunami a frappé le Japon ‗A tsunami hit Japan‘). Such
examples are discussed in (Danlos, 2010).
244
These two lexicographic enterprises, lexicon-grammar and DEC, are comparable1 in that
they agree on the fact that the semantic contribution of a light verb is quite weak: its
contribution is limited to time and aspectual information (Gross, 1981)2. This (supposedly)
weak semantic contribution (apparently) gives to light verbs a non-predictable (idiosyncratic)
nature: lexicon-grammar and DEC defend the idea that, for each predicative noun, its light
verbs (including its aspectual and diathetic variants) must be registered. This idiosyncratic
nature is indeed visible when translating a LVC into another language (Danlos, 1992). For
example, prendre une décision translates as make a decision and faire une sieste as take a
nap. Nevertheless, it is clear that a large majority of French LVC whose light verb is faire
translates as French LVC whose light verb is make (Danlos, 1993). So our position is more
nuanced: we argue that it is necessary to make an inventory of lexicalized constructions
(prendre une décision, faire une sieste) but that, on the other hand, there exist productive rules
which allow us to predict the light verb (and its aspectual and diathetic variants) for a given
predicative noun in a number of cases. This position will be defended in Section 4 for ―speech
nouns‖ and in Section 5 for neologisms. Beforehand, let us present the notion of complex
predicate in Persian.
3. Light verbs and complex predicates in Persian
The number of simplex verbs in Persian can be estimated around 250.3 Only a subset of these
verbs, around 120, is currently used in today‘s Persian. The morphological formation process
outputting verbs from nouns or adjectives, though available, is not productive. When they
need to refer to a new event type, speakers resort to complex predicates (CPs), formed by a
verb (in bold face) and a preverbal element (in italics), which can be a noun (5a), an adjective
(5b), a preposition (or particle) (5c) or a prepositional phrase (5d) (Vahedi-Langrudi, 1996;
Karimi, 1997; Karimi-Doostan, 1997; Megerdoomian, 2002; Goldberg, 2003; Folli et al.,
2005; Samvelian, forthcoming):4
(5) a. Maryam bâ Omid
Maryam with Omid=DDO
‗Maryam talked to Omid.‘
b. Maryam dar=râ
bâz
Maryam door=DDO open
‗Maryam opened the door.‘
c. Maryam ketâb=râ
bar
Maryam book=DDO PART
‗Maryam took the book.‘
d. Maryam be xande oftâd
Maryam to laugh fell
harf
talk
zad
hit
kard
did
dâšt
had
1
However, they diverge in methodology. Lexicon-grammar progresses by light verbs, for example faire in
(Giry-Schneider, 1978) and (Giry-Schneider, 1987), the pair donner/recevoir in (Gross, 1982), the triplet
avoir/prendre/perdre in (Vivès, 1984). On the other hand, DEC progresses by predicative nouns. For a given
predicative noun, the set of its lexical functions and so its light verbs are registered in its entry (Mel‘cuk, 2004).
2
Diathesis information should at least be added to the semantic contribution of light verbs.
3
(Khanlari, 1986)‘s estimation is 279. (Sadeghi, 1993) claims there are 252 verbs in Persian.
4
In reality, there are verbs formed from nouns or adjectives, but they are mainly created by the Academy of
Persian Language and Literature, which suggests and approves equivalents for the foreign general or technical
terms. The verb râyidan ‗compute‘, for instance, is a recent creation by the Academy. However, it should be
noted that these creations, which are far less numerous than spontaneous creations, are not easily adopted by the
native speakers, who almost systematically prefer using the complex predicate counterpart, which, for râyidan
for instance, is kampyut kardan (lit. ‗computation do‘).
245
‗Maryam started laughing.‘
About 30 of these verbs are used to form CPs. Two of them, kardan ‗do‘ and šodan
‗become‘ are always light verbs, the others have both light and lexical uses. Nouns used in
CPs can either be concrete nouns (6a), abstract predicative nouns (6b) or so-called verbal
nouns (6c):
(6) a. dast zadan ‗touch‘ or ‗applaud‘ (lit. ‗hand hit‘)
b. dust dâštan ‗like, love‘ (lit. ‗friend have‘)
c. fekr kardan ‗think‘ (lit.‗thought do‘)
One of the main consequences of the reduced number of verbs is the fact that many verbs
are somehow light verbs, in that they are so polysemous that their meaning cannot be
determined without their complements. Furthermore, in many cases, the light uses of a verb
derive from its predicative uses by semantic drift or by analogy. In order to illustrate these
points, let us consider one of the productive light verbs, which has also heavy uses, zadan
‗hit‘. The following examples illustrate two of its uses as a heavy verb:
(7) a. Maryam Omid=râ
bâ
čâqu zad
Maryam Omid=DDO with knife hit
‗Maryam hit Omid with a knife.‘
b. Maryam rang=râ
be
divrâr zad
Maryam this painting=DDO to
wall
hit
‗Maryam applied this painting to the wall.‘
In these examples, zadan means respectively ‗hit‘ (or ‗hit with‘) and ‗apply‘. The =râmarked noun is then an ordinary complement and argument of the verb. Now consider (8):
(8) a. Maryam Omid=râ
čâqu
Maryam Omid=DDO knife
‗Maryam stabbed Omid.‘
b. Maryam divrâr=ra
rang
Maryam wall=DDO paint
‗Maryam painted the wall.‘
zad
hit
zad
hit
In this second set of examples, the noun acting as a direct objet in (7), appears in a bare
form and forms a CP with the verb. The noun-verb sequence behaves thus like a unique
predicate and projects an arguments structure. Each sequence corresponds to a single verb
(‗stab‘ and ‗hit‘).
To some extent, the verb zadan in (8) is comparable to a light verb: it does not project an
argument structure alone, but it does so in conjunction with the preverbal nominal element.
Though, on the other hand, these uses are also comparable to the lexical (or predicative) uses
of zadan in (7), to the extent that zadan conserves its meaning. These examples illustrate the
fact that there is no clearcut distinction between a light verb and a lexical verb in Persian. The
fact the the verb conveys a meaning makes the new noun-verb combinations predictable.
Thus, all predicates which means applying something on a surface or injury or harm are
realized with zadan.
There are indeed examples of CPs where zadan seems to be semantically empty or light,
but even in these cases it is generally possible to establish semantic groupings so that new
combinations are formed according to the same pattern, as in the following examples:
(9) a. Maryam
be
Omid telefon zad
246
Maryam to Omid telefon hit
‗Maryam phoned Omid.‘
b. Maryam be Omid imeyl zad
Maryam to Omid e-mail hit
‗Maryam emailed Omid‘/‗Maryam sent an e-mail to Omid.‘
On the basis of such examples, a parallel can be established between the formation of CPs
in Persian and the convesion of nouns in verbs in languages such as French or English, the
unique difference being the fact that in Persian there are more verbs used to form CPs than
verb formation affixes in French, for instance.
4 From light verbs to heavy verbs
A fact that has been observed in different studies on LVCs is the semantic coherence of some
classes of nouns combining with a specific or a set of LVs. For instance (Giry-Schneider,
1981) notes that nouns denoting a semiotic content (i.e., noms de parole) generally combine
with the verb dire ‗say‘. One may assume that such regularities depend on the degree to
which the LV has a specific semantic content. Indeed, dire is not a semantically vacuous verb
and selects a conceptual class of objects. So the fact that the predicative nouns combining
with dire display semantic coherence is not that surprising.
What‘s more intriguing is the fact that the semantic coherence is observed even with what
could be considered as typical LVs, such as lancer ‗throw‘ and glisser ‗slide‘ in the following
attested examples:
(10) a. Il lance une remarque sur la température dans les bureaux puis me tend une brochure.
b. Dans le silence, sa voix — si particulière, grave et rocailleuse — lance un
commentaire acerbe
(11) a. Même le très sérieux FAZ qui avait analysé le phénomène « Astérix » lors de sa sortie
en France dans un article intitulé Hollywood à la gauloise, glisse un compliment sur
Gérard Depardieu : « Gérard Depardieu montre à nouveau son ventre rond et son
talent pour la comédie dans le rôle d‘Obélix ».
b. Un élégant gentleman glisse un commentaire : « Je sors de la messe, je suis venu
directement voter. »
The LVs lancer and glisser are generally considered to be semantically vacuous, though
they can combine with a semantically coherent class of nouns, roughly the same as those
combining with dire. Moreover, once such LVs form lexicalized LVCs with semantically
coherent classes of nouns, the speakers tend to assign them a semantic content. This can be
shown by the attested examples in (12), in which the complement of lancer and glisser is not
a predicative noun but a clause. Such examples shouldn‘t exist if these verbs were really
semantically vacuous. Indeed, the fact that the clausal complement is interpreted here as the
content of an utterance can only stem from the verbal interpretation. In other words, lancer
and glisser behave in these examples as verbs of utterance in the same way as dire.
(12) a. Elle a dit ensuite qu‘elle était très contente pour Marseille, puis, en chambrant un peu,
elle a lancé que ça ne serait pas aussi bien qu‘à Lille !
b. Au PS, qui a envoyé une délégation aux Antilles le week-end dernier, Dominique
Paillé a lancé que cette démarche était « malvenue ».
(13) a. « Pauvre con va », glisse un Sarkozy vexé à un homme qui l‘offense.
b. Un ami dessinateur lui glisse que les mangakas gagnent bien leur vie.
247
The same situation holds in Persian. First, there are coherent semantic classes of
predicative nouns that combine with the same LV. The nouns denoting verbal communication
and/or different types of shouts, for instance, generally combine with zadan ‗hit‘, see harf
zadan (talk hit ‗talk‘) or faryâd zadan (shout hit ‗shout‘). There are of course some
exceptions, for example the noun sohbat ‗talk‘, synonymous to harf, does not combine with
zadan but with kardan ‗do‘. The significant fact, however, is that we encounter attested
examples of sohbat zadan (e.g., Bijankhan corpus, http://ece.ut.ac.ir/dbrg/Bijankhan/). We
can decide to discard these neologisms, considering that they are performance mistakes. There
is however another significant fact to mention here: we have not found any occurrences of
harf kardan, although kardan is far more frequent as a light verb than zadan. So our
conclusion is that although the speakers store all lexicalized combinations of LVCs, they also
store more abstract knowledge about the most frequent combinations with a given semantic
pattern or content. This is the reason why they extend the paradigm of harf zadan to sohbat
zadan, but not the reverse. This explains also their capacity to creat new LVCs or to interpret
LVCs that they have never encountered before.
Furthermore, as in French, LVs tend to be assigned a semantic content and begin
functionning like heavy verbs, if they occur in a set of combinations with a regular semantic
pattern. This point can be illustrated by combinations such as pol zadan ‗build a bridge‘ (lit.
bridge hit) and tâq zadan ‗build a ceiling‘ (lit. ceiling hit), which are lexicalized CPs. The
existence of a set of combinations in which the verb zadan can be interpreted as ‗build‘
enables the speakers to assign a semantic content to zadan in these contexts and then to
extend the set to other neologisms such as sâxtemân zadan ‗build a building‘. Although there
are very few attested examples of this latter construction, its very existence confirms the fact
that speakers interpret zadan as ‗build‘ in all those combinations where the direct object
denotes an object that can be built.
5 Light verb constructions involving neologisms
Another way to point out the continuum that ranges from heavy verbs to semantically empty
verbs is to study light verb constructions involving neologisms as predicative nouns. This is
because the very existence of such constructions would contradict purely lexical accounts of
light verb selection, i.e., theories that would deny any generalizations on how a predicative
noun may somehow select its light verb(s). Indeed, by definition, neologisms are not yet in
any lexicon, and in particular they cannot lexically select any associated light verbs. This
shows that nominal neologisms involved in light verb constructions use productive
mechanisms for this purpose.
For unvailing these mechanisms, we carried out a corpus-based study for identifying light
verb constructions in French whose predicative nouns are recent loan words. The reason why
we restrict ourselves to loan words is that other types of neologisms (typically, resulting from
derivational processes) might tend to mimic the behaviour of existing predicative nouns: it is
not suprising that bioagression uses the same light verbs (e.g., commettre and subir) than
agression. Since most recent loan words in French have English as a source language, we
restricted our study to English.
In our experiments, we used the following practical definition of what a neologism is.
First, we extracted from the GoogleBooks 1-grams5 all tokens, considered here as inflected
forms, that can be found at least once in books scanned by Google and published in the ‘90s.
Second, we extracted all inflected forms from the Lefff lexicon (Sagot, 2010). We consider as
a candidate neologism any fully lowercase token that is unknown to one of these two inflected
forms lists.
5
See http://ngrams.googlelabs.com/datasets
248
Building a high-quality large-scale corpus that contains enough occurrences of new loan
words for finding them involved in light verb constructions is not as straightforward as it
seems. We used the whole French Wikipedia, including discussion pages,6 as well as the
frWaC web-based corpus (Ferraresi et al., 2010). The French Wikipedia being in Wikipedia
raw format, we first turned it into a 441-million-token full-text corpus. Concerning the frWaC
corpus, after processing it for dealing with various technical issues (such as encoding) we
tokenized it into approximately 1.6 billion tokens. In the resulting 2 billion-token corpus, we
looked for occurrences of the pattern Vsup Det Npred, where Vsup is any inflected form of
one of 38 possible light verbs,7 Det is a token that might be a determiner8 and Npred is any
candidate neologism as defined above.
Using this pattern, we extracted 27,666 unique sequences occurring at least twice, among
which relevant sequences covering light verb constructions with a neologism as a predicative
noun, non-relevant Verb Det Noun sequences for non-light verb constructions (e.g., the verb
is a heavy verb) as well as many invalid sequences (e.g., sequences in which the noun is
misspelled or sequences found in sentences written in other languages than French).
Identifying relevant candidate sequences, and, among them, identifying those whose
predicative noun is a loan word with English origin was achieved manually. This resulted in a
list of 391 candidate light verb constructions involving 303 unique English loan words as
candidate predicative nouns. Examples thereof include faire un remix ‗remix‘, effectuer un
heal ‗heal (a video game character)‘, porter un chokeslam ‗execute/deliver a chokeslam‘,9
donner une masterclass ‗give a masterclass‘, effectuer un striptease ‗(perform a) striptease‘,
avoir des flashbacks ‗experience flashbacks‘, avoir un spin ‗(have a) spin‘, faire du trading
‗trade (as a financial instrument)‘.
In order to understand whether and how the light verb selection process is driven by the
predicative noun, we manually examined all 391 extracted LVCs in terms of semantic
similarity with existing LVCs. It appears that each of the 391 LVCs can be considered
analogous to at least one LVC that involves the same light verb and a semantically similar
predicative noun (this latter notion being used here in an informal way). For example, faire un
remix can be considered similar as faire un arrangement, donner une masterclass to donner
un cours, or faire du trading to faire du commerce. In other words, neologisms appear in
LVCs, but all such LVCs are analogous to previously existing ones. No idiosyncrasy is added
to the language by LVCs whose predicative noun is a neologism. This is a strong argument in
favor of the (partial) predictability of the light verb selection process.
6 Conclusions and perspectives
We have shown, using both examples from French and Persian, that a simple account of light
verbs as semantically empty units overlooks the predictability of light verbs for several
predicative nouns and does not account for at least two phenomena, namely the continuum
that exists between light and heavy verbs and the productivity of light verb-predicative noun
constructions. An example thereof is the verb lancer, which behaves as a traditional light verb
in constructions such as lancer une plaisanterie ‗crack a joke‘, but that can also be used with
a clausal complement (lancer que P) or be selected by neologisms as in lancer un buzz.
6
See http://dumps.wikimedia.org/frwiki/latest/frwiki-latest-pages-meta-current.xml.bz2
The complete list is: accorder, allonger, allouer, apporter, asséner, attribuer, avoir, bourrer, commettre,
connaître, crépiter, distribuer, donner, décocher, déployer, effectuer, engager, faire, filer, flanquer, infliger,
jeter, lancer, livrer, mener, mettre, nourrir, partager, perpétrer, porter, posséder, pousser, prendre, recevoir,
ressentir, subir, émettre, éprouver.
8
Patterns of the form Vsup Npred have been tried as well (cf. avoir peur (de), English fear), but preliminary
experiments have shown that loan words do not appear in such patterns.
9
A chokeslam is a type of throw in professional wrestling.
7
249
An interesting follow-up to this work would be to systematically study the behavior of
nominal neologisms in Persian language, since the verbal lexicon in this language can only
grow by creating new complex predicates involving verbal lexemes selected non-arbitrarily.
Acknowledgments
This work has been partly funded by the ANR grant EDyLex (ANR-09-CORD-008) and the
ANR-DFG grand PerGram (ANR/DFG MU 2822/3-1).
References
Danlos L. 1992. Support verb constructions: linguistic properties, representation, translation. Journal of French
Linguistic Studies, 2(1), 1–32.
Danlos L. 1993. A propos de la traduction de faire en anglais. In Actes des Troisièmes Journées Scientifiques du
réseau LLT de l’AUPELF-UREF, Montréal, Canada.
Danlos L. 2010. Extension de la notion de verbe support. In T. Nakamura, Éric Laporte, A. Dister & C. Fairon,
Eds., Les Tables. La grammaire par le menu. Volume d’hommage à Christian Leclère, p. 81–90. Cahiers du
Cental, Presses Universitaires de Louvain.
Ferraresi, A., S. Bernardini, G. Picci and M. Baroni. 2010 Web Corpora for Bilingual Lexicography: A Pilot
Study of English/French Collocation Extraction and Translation. In Xiao, R. (ed.) Using Corpora in
Contrastive and Translation Studies. Newcastle: Cambridge Scholars Publishing.
Folli R., Harley H. & Karimi S. 2005. Determinants of event type in persian complex predicates. Lingua, 115,
1365–1401.
Giry-Schneider J. 1978. Les nominalisations en français. Genève: Droz.
Giry-Schneider J. 1981. Les compléments nominaux du verbe dire. Langages, 63, 75–97.
Giry-Schneider J. 1987. Les prédicats nominaux en français. Les phrases simples à verbe support. Genève:
Droz.
Goldberg A. E. 2003. Words by default: The persian complex predicate construction. In E. Francis & L.
Michaelis, Eds., Mismatch: Form-Function Incongruity and the Architecture of Grammar, p. 117–146.
Stanford: CSLI Publications.
Gross G. 1982. Un cas de constructions inverses : donner et recevoir. Lingvisticae Investigationes, 6(2), 1–44.
Gross M. 1976. Sur quelques groupes nominaux complexes. In J.-C. C. et M. Gross, Ed., Méthodes en
grammaire française, p. 97–119. Paris: Klincksieck.
Gross M. 1981. Les bases empiriques de la notion de prédicat sémantique. Langages, 63, 7–52.
Karimi S. 1997. Persian complex verbs: Idiomatic or compositional. Lexicology, 3, 273–318.
Karimi-Doostan G. 1997. Light Verb Constructions in Persian. PhD thesis, University of Essex.
Khanlari P. 1986. Tarix-e zabân-e farsi (A History of the Persian Language). Editions Nashr-e Now.
Megerdoomian K. 2002. Beyond Words and Phrases: A Unified Theory of Predicate Composition. PhD thesis,
University of Southern California.
Meľčuk I. 2004. Verbes supports sans peine. Lingvisticæ Investigationes, 2(27).
Meľčuk I., Clas A. & Polguère A. 1995. Introduction à la lexicologie explicative et combinatoire. Duculot.
Sadeghi A. 1993. On denominative verbs in persian. In Farsi Language and the Language of Science, p. 236–
246. Tehran: University Press.
Sagot B. 2010. The Lefff, a freely available, accurate and large-coverage lexicon for French. In Proceedings of
the 7th Language Resource and Evaluation Conference (LREC), Valetta, Malta.
Samvelian P. forthcoming. Les prédicats complexes Nom-Verbe en persan. Etude syntaxique et sémantique.
Paris: Hermès-Lavoisier.
Vahedi-Langrudi M.-M. 1996. The syntax, Semantics and Argument Structure of Complex Predicates in Modern
Farsi. PhD thesis, University of Ottawa.
Vivès R. 1984. L‘aspect dans les constructions nominales prédicatives. Lingvisticæ Investigationes, 8(1), 161–
185.
250
Schneider Gerold
University of Zurich
[email protected]
USING AUTOMATICALLY PARSED CORPORA TO DISCOVER LEXICOGRAMMATICAL FEATURES OF ENGLISH VARIETIES
Abstract
We employ syntactic parsing to describe and to discover lexico-grammatical features of English
regional varieties. In the absence of suitable Treebanks, automatically parsed corpora (tree
jungles) can be used. As an example we focus on Indian English, using the International Corpus
of English (ICE), and the British National Corpus (BNC). We use a largely corpus-driven
method. There are few differences in frequencies of syntactic relations between the corpora, but
considerable differences when taking the intricate relations between grammar and lexis into
account. We describe differences in the use of zero articles, verb-preposition constructions, and
ditransitive verbs. We show that relatively small corpora can be used to discover subtle lexicogrammatical differences.
Keywords: lexico-grammar, syntactic parsing, language variation, indian english, corpusdriven.
1 Introduction
Parsing technology has made considerable advances recently, opening new perspectives for
descriptive linguistics. van Noord and Bouma (2009, 37) state that “[k]nowledge-based parsers
are now accurate, fast and robust enough to be used to obtain syntactic annotations for very large
corpora fully automatically.” We apply parsed corpora as a new resource for linguists.
Automatically parsed treebanks, also called tree jungles, have been used for e.g. Danish (Bick,
2003) and French (Bick, 2010). The currently available English corpora which are manually
analysed for syntactic structure, for example ICE-GB and the Penn Treebank, are too small for
infrequent word-word interactions, and no treebanks for English regional varieties exist yet. In
this situation, automatically parsed corpora can be used as a stopgap to Treebanks.
The detection of regional differences between the various dialects of a language is a major
task in synchronic linguistics. We discuss the example of Indian English (IndE), compared to
British English (BrE). We use the International Corpus of English (ICE), comparing ICE-India to
ICE-GB and partly to the British National Corpus (BNC), when data sparseness problems arise.
We use a largely corpus-driven method (Tognini-Bonelli, 2001), paired with manual filtering and
linguistic inspection, to detect features of IndE.
The interaction of lexis and grammar has become a linguistic research focus. In computational linguistics, lexicalisation learnt from syntactically annotated corpora has made fast largescale parsing possible (e.g. Collins (1999)), and in descriptive linguistics, it has given rise to
lexicogrammatical and construction grammar theories, for example systemic functional grammar
(Halliday, 1994) and collostructions (Stefanowitsch and Gries, 2003). Distinctive phenomena
between English varieties typically concentrate at the interface between grammar and lexicon
(Schneider, 2004).
251
Table 1: Parser performance on GREVAL test corpus
1.1 Indian English (IndE)
We use IndE as an example variety in this investigation. English is one of the official languages
of India. Although there are few native IndE speakers, English is used as lingua franca to allow
communication between speakers of the many indigenous languages, such as Urdu, Hindhi,
Bengali, Marathi, Tamil, and many others. It is therefore an important second or third language
for many Indian people, there are over 90 million speakers of IndE. Features of IndE have been
described in linguistic research (Gupta and Kapoor, 1991). In the current paper, we are trying to
detect regional features in a corpus-driven approach. We do not take previous knowledge as a
starting point. The aim is to test a corpus-driven approach as a means of discovering
regionalisms.
1.2 Using a syntactic dependency parser
We have used a probabilistic dependency parser, Pro3Gres (Schneider, 2008), which is fast (the
BNC parses in one day), close to Tesnière (1959)‟s Dependency Grammar conception, and which
has been evaluated on several genres and varieties (Haverinen et al., 2008; Lehmann and
Schneider, 2009). It is suitable for parsing different varieties of English, as it is robust, so that its
output is quite reliable on a number of English varieties (Schneider and Hundt, 2009). For
example, it does not enforce subject-verb agreement, it uses statistical preferences instead of
strict subcategorisation frames (this entails that e.g. that non-ditransititive verbs can act as
ditransitive, a feature that we use in section 3.2, or that prepositional phrases with divergent
prepositions get attached, a feature that we need for section 3.3). An evaluation of the
performance on subject, object and PP-attachment relations, using the GREVAL gold standard
(Carroll, Minnen, and Briscoe, 2003) is given in table 1.
1.3 Corpus data
We used the following corpora for our investigation: in section 3.2, we used the written part of
ICE-India and compared it to the written part of ICE-GB. In sections 2 and 3.3 we used the entire
ICE-India corpus and compared it to BNC. In section 3.1 we used about two thirds of the written
part of ICE-India (the parts which fall into the genres that we investigated) and compared to the
same subset of other ICE corpora, namely ICE-GB, ICE-NewZealand and ICE-Fiji.
2 Corpus-Driven Diagnostics
As a first step to discovering variety differences, we measured the total number of occurrences of
each syntactic dependency relation. There are, for example, considerable differences between
different English genres, so differences between English varieties could be expected. It turns out,
however, that differences are typically small. Differences are too subtle to leave a visible impact
in frequency counts. In fact, the vast majority of sentences in ICE-India could just as well have
been produced by a British or American speaker, there is nothing „unusual‟ in them.
The differences are intricate. Schneider (2004) observes that, in regional varieties of English
252
Table 2: Trigrams that are at least 480 times more surprising in ICE-India than BNC
distinctive phenomena tend to concentrate at the interface between grammar and lexicon, concerning
structural preferences of certain words (like the complementa- tion patterns that verbs allow), co-occurrence
and collocational tendencies of words in phrases, and also patterns of word formation. (Schneider, 2004, 229)
It may thus be revealing to investigate the lexical material that is used in syntactic relations.
While there are no semantic class restrictions for most relations, some relations have strict
restrictions. A case in point is the relation obj2, which is only permitted to occur with ditransitive
verbs, and with elect verbs. The total number of obj2 relations in ICE-India is very similar to
ICE-GB, but the distribution of lexical verbal heads differs. For example, there are 12 instances
where provide is used as a ditransitive verb in ICE-India written, while the only one instance in
ICE-GB written is a parsing error. We discuss ditransitive verbs in more detail in section 3.2.
A second case in point are prepositions in prepositional phrases. We compared frequencyordered lists of prepositions in the prep relation, but found no obvious difference. The seven most
frequent prepositions appear in the same order in both corpora.
While such lists of heads are short in a strongly restricted class situation such as ditransitive
verbs or prepositions, open class lists are unwieldy and difficult to interpret without further
statistical processing and filtering. In order to detect lexico-grammatical differences in open class
relations, we thus try to approach the corpus from the opposite end, the lexical end, since
approaching from the global grammatical end, counting frequencies of grammatical relations,
showed very few differences.
Particularly frequent word-sequences, also known as surface collocations, can be detected by
using statistical distribution measures such as mutual information, Z-score or Observed Over
Expected (O/E). We used O/E as it copes relatively well with sparse data and is easy to interpret.
We calculated O/E for all ICE-India trigrams and compared them to British English. When using
ICE-GB, data sparseness problems are very serious: very many ICE-India trigrams are unseen in
ICE-GB. Due to Zipf‟s law, data sparseness is typically very serious for lexical items in a one
million word corpus. In order to alleviate the problem, we used the 100 million word BNC to
253
Table 3: ICE-India trigrams and ditransitive verbs
compare collocations. We calculated an O/E ratio, O/E(ICE-India) divided by O/E(BNC). We
then set a threshold T , for example 100, to report trigrams that are T times more surprising in
ICE-India than in the BNC. The lists thus obtained are dominated by proper nouns and
punctuation marks. After filtering trigrams containing proper nouns and punctuation, we obtain
the results shown in table 2 for a threshold T = 480.
The majority of the hits arise from text selection criteria, for example there are relatively
many legal texts in ICE-India (proviso to section, statement before the), many medical texts (the
blood group), and the spoken data percentage is much larger, showing hesitations etc. (a very
very, in the in). But we also see quite formal expressions (do not recollect) and, as it turns out
when checking the occurrences in the corpus, zero articles (for number of), i.e. expressions
involving an NP where BrE or American English speakers would expect an article, but IndE
speakers often do not use any. We focus on zero articles in section 3.1. An example of the trigram
for number of is:
(1) And for number of years following the Nehruvian outlook this society has built itself.
(ICE-India S1b-054)
We also investigated which frequent ICE-India trigrams are absent in the BNC. After filtering proper names and punctuation, the frequency-ranked top of the list is given in table 3 on
the left.1 Besides text selection, Indian features like archaic spellings (nowadays), formal
language (the honourable minister), unusual verb complementation with prepositional phrases (is
called as), and written numbers (sixty-six and half) appear in this list.
Examples that show the trigram is called as are:
(2) A substance which is helping in chemical reaction is called as a reagent. (ICE-India
S1b-004)
(3) Thus the intermediate state between crystalline & isotopic state is called as
themesophase or liquid crystals. (ICE-India W1a-020)
1
A few of these trigrams appear both in the BNC and ICE-India, but the tagger assigned them different tags
254
Figure 1: Zero-form article percentages per _NN-tagged chunk head noun (singular common
noun) across genre and variety
We investigate verb complementation by prepositional phrases in section 3.3.
Although lists like tables 2 and 3 contain true positives, they contain a high level of garbage,
hits that are rare or absent in the BNC due to data sparseness. Larger corpora, and more sophisticated methods are sought for. As for more sophisticated methods, we analyze the parsed
material in the following section. Before doing so, let us summarize: The corpus-driven approach
with additional manual filtering has uncovered the following potential features of IndE.
 IndE seems to leave out determiners in some situations (e.g. for number of). We discuss
this in section 3.1.
 Ditransitive verbs have a different distribution in IndE, which we discuss in section 3.2.
 Verb complementation may also involve unusual prepositional phrases (e.g. is called as).
We discuss this in section 3.3.
3
Analysis
3.1 Zero articles
While the number of articles per noun is only slightly higher in ICE-GB, the number of nouns
that have a zero article are considerably higher in ICE-India, as we discuss now.
We have tested a large subset, consisting of two thirds of the written part of the ICE corpora.
In ICE-GB, 10,034 of the 27,360 singular common nouns, or 36.7%, have no article. In ICEIndia, 12,633 of the 29,032 singular common nouns, or 43.5% have no article. The difference is
statistically highly significant (chi-square contingency test, p < 0.01%). In Figure 1 we have
broken down zero articles by genre. While the percentage is spread quite homogenously across
genres in ICE-GB, ICE-India shows a peak in the least edited genre, student essays, and a
tendency towards over-correction in the most edited genre, press.
The need to include zero articles in corpus studies is widely acknowledged in descriptive
linguistics: “... no study of article use is truly complete without the discussion of zero articles”
(Sand, 2004, 295). Unfortunately, in surface-based approaches it is very difficult to detect zeroforms (e.g. Sedlatschek (2009, 198)).
In a syntactic approach, a zero article form is simply a noun chunk without an article. There
are potential complications, however. Quirk et al. (1985, 246) point out that zero articles are only
present with nouns that can also be used with a definite article. In e.g. I like Richard there is no
zero article, but a zero form, as “the zero form is only a label denoting the absence of any article”
(Berezowski, 2009, 7). In order to increase the correspondence between zero form and zero
255
Table 4: Candidates for Indian verb-PP constructions, obtained with O/E ratio>35 and f(BNC)<3
article, we only measure zero forms of singular common nouns, because few singular nouns,
unlike proper names or plural nouns, occur exclusively without article.
3.2 Ditransitive verbs
We mentioned that a frequency-ordered list of ditransitive verb occurrences from the written
components of ICE-India and ICE-GB shows considerable differences. The list of all occurrences
except for hapax legomena is given in table 3 on the right. Marked differences are in boldprint.
An example of provide from ICE-India is:
(4) I am enclosing herewith a detailed resume of my professional career and feel that I can
provide you the best possible services in the areas required. (ICE-India W1b-024)
Grant occurs twice in ICE-GB written and six times in ICE-India written, all syntactic
analyses are correct. Hand occurs twice in ICE-GB written and four times in ICE-India, all
syntactic analyses are correct. These differences may thus arise from a text selection coincidence
just as well as represent an Indian feature. All instances of develop are parser errors.
Differences in ditransitive verbs, particularly provide, are confirmed in the corpus linguistics
literature, for example Mukherjee and Hoffmann (2006). They list 5 new ditransitive verbs that
occur in ICE-India, but only provide occurs more than 4 times in the one-million word corpus
(we only used the written component, i.e. 400,000 words). Mukherjee (2009, 125) writes that “as
most of the new ditransitives are relatively rare, only few of them can be detected in the 1million-word ICE-India corpus”.
Verb complementation is often described as particularly important for linguistic variation:
“Verb complementation is an all-pervading structural feature of language and thus likely to be
more significant in giving a variety its character than, for example, lexis.”(Olavarrìa de Ersson
and Shaw, 2003, p. 118).
3.3 Verb-preposition constructions
For this investigation, we leave the distinction between preposition and verbal particle underspecified. All verb-PP constructions are included, irrespective of whether they are complements
or adjuncts. To retrieve unusual verb-preposition combinations, we use the O/E measure. O/E is a
probabilistic measure of surprise, it tends to give particularly high scores to rare events, and it
works well on rare collocations. We used the BNC instead of ICE-GB because of sparse data
problems, which can partly be alleviated by using a large comparison base. The O/E ratio that we
256
use expresses how much more surprising a collocation is in ICE-India than in the BNC. It is
calculated as follows:
OIndia (R,w1,w 2 )  N India
O(India)
O / E(India) E(India) OIndia (R,w1)  OIndia (R,w 2 )
O / E ratio 


OBNC (R,w1,w 2 )  N BNC
O / E(BNC) O(BNC)
E(BNC) OBNC (R,w1)  OBNC (R,w 2 )
where N is corpus size, R is the relation (pobj), w1 the head (verb), w2 the preposition or verbal
particle. We then apply variable thresholds to generate candidates for specifically Indian verb-PP

constructions.
For O/E ratio > 35 and f(BNC) < 3 we get the candidates shown in table 4. In the
last column, we give a comment, assessing whether the candidate is a true positive, based on
manual inspection of all occurrences.
Using lower thresholds leads to lower precision, but more instances are recalled, e.g.:
(5) So he was using the stones and preparing instruments out of it (ICE-India S1b-008)
(6) And he has described all about that. (ICE-India S1a-092) (7) Then from government
aided school I switched over to government school. (ICE-India S1a-024)
(8) You had the guts of your blighted mother to complain against us to the Governor. (ICEIndia W2f-018)
(9) ... he tried to enlighten the people and be aware towards all these irregularities and if
possible try to remove them. (ICE-India S1a-007)
(10) Wings are absent to apterygotes. (ICE-India W1a-019)
Counts are very low, too low for reaching statistical significance. Although a one-million
word corpus is very small for lexical research, particularly for lexical interaction research, valid
insights can be obtained, the amount of manual filtering required is easily manageable.
Our findings are confirmed in the previous literature but also list new pairs. Differences in
verb-preposition and verbal particle use in IndE are described in Sedlatschek (2009), Mukherjee
(2009), Nesselhauf (2009). The former two authors hypothesize on the reasons for the
differences; for example analogy to existing, semantically related particle verbs (e.g. in 10) or
noun-verb conversion (e.g. in 8). Concerning articles, many Indian substrate languages do not
have articles, which makes it difficult for language learners to acquire the concept. However,
while such explanations sound reasonable, they are empirically almost impossible to prove.
4 Conclusions and Outlook
We have demonstrated the benefits of using NLP techniques to help descriptive linguistic studies. In particular, we have shown that automatically parsed corpora can be used to detect regional
English variety features and subtle lexico-grammatical differences using a largely corpus-driven
method. As the data inspection phase involves analyzing, commenting and sub-categorizing
instances, the overhead which manual filtering creates is a manageable disadvantage compared to
a fully automatic approach. We are not aware of any fully automatized approach to this task. The
features that we found are all confirmed in the descriptive linguistic literature. Concerning
research on zero articles, only a syntactic approach offers the appropriate tools to measure zero
article frequency.
We have shown that with small corpora (1 million words or even less) many regional features
can be discovered. We have conducted similar investigations on other corpora of the ICE family,
257
and we have investigated additional features, such as differences in tense, aspect and modality.
We will use our method to discover regional features from large web-collected corpora.
References
Berezowski, Leszek. 2009. The Myth of the Zero Article. Continuum, London.
Bick, Eckhard. 2003. A CG & PSG hybrid approach to automatic corpus annotation. In Kiril Simow and Petya
Osenova, editors, Proceedings of SProLaC2003, pages 1–12, Lancaster.
Bick, Eckhard. 2010. FrAG, a hybrid constraint grammar parser for French. In Proceedings of LREC 2010, Valletta,
Malta.
Carroll, John, Guido Minnen, and Edward Briscoe. 2003. Parser evaluation: using a grammatical relation annotation
scheme. In Anne Abeillé, editor, Treebanks: Building and Using Parsed Corpora. Kluwer, Dordrecht, pages
299–316.
Collins, Michael. 1999. Head-Driven Statistical Models for Natural Language Parsing. Ph.D. thesis, University of
Pennsylvania, Philadelphia, PA.
Gupta, R.S. and Kapil Kapoor. 1991. English in India: Issues and Problems. Academic Foundation, Delhi.
Halliday, M.A.K. 1994. An Introduction to Functional Grammar, 2nd ed. Arnold, London.
Haverinen, Katri, Filip Ginter, Sampo Pyysalo, and Tapio Salakoski. 2008. Accurate conversion of dependency
parses: targeting the Stanford scheme. In Proceedings of Third International Symposium on Semantic Mining in
Biomedicine (SMBM 2008), Turku, Finland.
Lehmann, Hans Martin and Gerold Schneider. 2009. Parser-based analysis of syntax-lexis interaction. In Andreas H.
Jucker, Daniel Schreier, and Marianne Hundt, editors, Corpora: Pragmatics and discourse: papers from the 29th
International conference on English language research on computerized corpora (ICAME 29), Language and
computers 68. Rodopi, Amsterdam/Atlanta, pages 477–502.
Mukherjee, Joybrato. 2009. The lexicogrammar of present-day Indian English. Corpus-based perspectives on
structural nativisation. In Ute Römer and Rainer Schulze, editors, Exploring the Lexis-Grammar Interface. John
Benjamins, Amsterdam, pages 117–135.
Mukherjee, Joybrato and Sebastian Hoffmann. 2006. Describing verb-complementational profiles of New Englishes:
A pilot study of Indian English. English World-Wide, 27(2):147–173.
Nesselhauf, Nadja. 2009. Co-selection phenomena across New Englishes. Parallels (and differences) to foreign
learner varieties. English World-Wide, 30(1):1–26.
Olavarrìa de Ersson, Eugenia and Philip Shaw. 2003. Verb complementation patterns in Indian Standard English.
English World-Wide, 24(2):137–161.
Quirk, Randolph, Sidney Greenbaum, Geoffrey Leech, and Jan Svartvik. 1985. A comprehensive grammar of the
English language. 11th edn. Longman, London.
Sand, Andrea. 2004. Shared morpho-syntactic features in contact varieties of English: Article use. World Englishes,
23:281–98.
Schneider, Edgar. 2004. How to trace structural nativization: Particle verbs in World Englishes. World Englishes,
23:2:227–249.
Schneider, Gerold. 2008. Hybrid Long-Distance Functional Dependency Parsing. Doctoral Thesis, Institute of
Computational Linguistics, University of Zurich.
Schneider, Gerold and Marianne Hundt. 2009. Using a parser as a heuristic tool for the description of New
Englishes. In Proceedings of Corpus Linguistics 2009, Liverpool.
Sedlatschek, Andreas. 2009. Contemporary Indian English: variation and change. Varieties of English around the
world. John Benjamins, Amsterdam / Philadelphia.
Stefanowitsch, Anatol and Stefan Th. Gries. 2003. Collostructions: investigating the interaction between words and
constructions. International Journal of Corpus Linguistics, pages 209–43.
Tesnière, Lucien. 1959. Eléments de Syntaxe Structurale. Librairie Klincksieck, Paris.
Tognini-Bonelli, Elena. 2001. Corpus Linguistics at Work. John Benjams, Amsterdam.
van Noord, Gertjan and Gosse Bouma. 2009. Parsed corpora for linguistics. In Proceedings of the EACL 2009
Workshop on the Interaction between Linguistics and Computational Linguistics: Virtuous, Vicious or Vacuous?,
pages 33–39, Athens, Greece. Association for Computational Linguistics.
258
Sigogne Anthony
Université Paris-Est
[email protected]
Constant Matthieu
Université Paris-Est
[email protected]
Laporte Éric
Université Paris-Est
[email protected]
INTÉGRATION DES DONNÉES D’UN LEXIQUE SYNTAXIQUE DANS UN
ANALYSEUR SYNTAXIQUE PROBABILISTE
Résumé
Cet article présente les résultats d’une évaluation sur l’intégration des données issues d’un
lexique syntaxique, le Lexique-Grammaire, dans un analyseur syntaxique. Nous montrons
qu’en modifiant le jeu d’étiquettes des verbes et des noms prédicatifs, un analyseur syntaxique
probabiliste non lexicalisé obtient des performances accrues sur le français.
Mots clés: analyse syntaxique probabiliste, lexique syntaxique, lexique-grammaire.
1 Introduction
Les lexiques syntaxiques sont des ressources très riches pour les langues qui en disposent. Ils
contiennent de nombreuses informations utiles comme les cadres de sous-catégorisation qui
nous renseignent sur le comportement syntaxique des entrées du lexique. La plupart du temps,
ces lexiques concernent uniquement les verbes mais on peut en trouver certains, comme le
Lexique-Grammaire (Gross, 1994), qui traitent d’autres catégories grammaticales comme les
noms, adjectifs ou encore les adverbes. De nombreux travaux basés sur l’analyse syntaxique
symbolique font état de l’utilisation d’un lexique syntaxique, par exemple (Sagot, 2006; Sagot
& Tolone, 2009; de La Clergerie, 2010) . En ce qui concerne l’analyse syntaxique statistique,
on trouve un certain nombre de travaux qui expérimentent l’intégration des données d’un
lexique syntaxique dans des analyseurs basés sur des grammaires probabilistes telles que les
Grammaires Syntagmatiques guidées par les Têtes [HPSG] (Carroll & Fang, 2004), les
Grammaires Lexicales-Fonctionnelles [LFG] (O’Donovan et al., 2005; Schluter & Genabith,
2008) ou encore les Grammaires Probabilistes non-contextuelles [PCFG] (Briscoe & Carroll,
1997; Deoskar, 2008) . Ces derniers ont incorporé des informations de valence au niveau du
lexique et de la grammaire et ont observé un léger gain de performance. Cependant, leurs
ressources lexicales ont été obtenues automatiquement à partir d’un corpus. De plus, les
informations de valence concernaient principalement les verbes. Dans cet article, nous allons
voir comment nous pouvons exploiter les données du Lexique-Grammaire afin d’améliorer un
analyseur syntaxique probabiliste basé sur une grammaire PCFG.
Nous décrivons, section 2, l’analyseur syntaxique probabiliste utilisé dans le cadre de nos
expériences. Dans la section 3, nous présentons succinctement le Lexique-Grammaire ainsi
que la version au format Lglex. Nous détaillons les informations présentes dans ce lexique qui
peuvent être utilisées dans le cadre de l’analyse syntaxique probabiliste. Ensuite, dans la
section 4, nous présentons une méthode d’intégration de ces informations dans le processus
d’analyse syntaxique, puis, à la section 5, nous décrivons les expériences et nous discutons des
résultats. Enfin, section 6, nous concluons.
2 Analyse syntaxique non lexicalisée
L’analyseur syntaxique probabiliste, utilisé pour nos expériences, est le Berkeley Parser
(appelé BKY par la suite) (Petrov et al., 2006) 1. Cet analyseur est basé sur un modèle PCFG
1 L’analyseur BKY est disponible librement à l’adresse http ://code.google.com/p/berkeleyparser/
259
non lexicalisé. Le principal problème des grammaires hors-contexte non lexicalisées est que
les symboles pré-terminaux (étiquettes morpho-syntaxiques) encodent des informations trop
générales qui discriminent peu les ambiguïtés syntaxiques. L’avantage de BKY est qu’il tente
de remédier au problème en générant une grammaire ayant des symboles pré-terminaux
complexes. Il suit le principe des annotations latentes introduites par (Matsuzaki et al., 2005) .
Cela consiste à créer itérativement plusieurs grammaires, qui possèdent un jeu de symboles
pré-terminaux de plus en plus complexes. A chaque itération, un symbole de la grammaire est
séparé en plusieurs symboles selon les différents comportements syntaxiques du symbole qui
apparaissent dans un corpus arboré. Les paramètres de la grammaire latente sont estimés à
l’aide d’un algorithme basé sur Espérance-Maximisation (EM).
Dans le cadre du français, (Seddah et al., 2009) ont montré que BKY donne des
performances au niveau de l’état de l’art. Ils ont également montré que certains analyseurs,
basés sur le paradigme lexicalisé (les noeuds syntagmatiques sont annotés avec le mot tête),
étaient moins performants que BKY.
3 Lexique-Grammaire
Les tables du Lexique-Grammaire constituent aujourd’hui une des principales sources
d’informations lexicales syntaxiques pour le français2. Leur développement a démarré dès les
années 1970 par Maurice Gross et son équipe (Gross, 1994). Ces informations se présentent
sous la forme de tables. Chaque table regroupe les éléments d’une catégorie donnée partageant
certaines propriétés définitoires, qui relèvent généralement de la sous-catégorisation. Ces
éléments forment une classe. Il existe des tables pour différentes catégories grammaticales
(noms, verbes, adverbes,...). Ces tables ont récemment été rendues cohérentes et explicites
dans le cadre du travail de (Tolone, 2011)3, notamment au moyen d’une table des classes.
Cette table particulière encode les propriétés définitoires qui sont communes à toutes les
entrées d’une classe. Ces propriétés n’étaient présentes initialement que dans la littérature. Par
exemple, cette table nous indique que les verbes de la table V_35LR acceptent une
construction syntaxique de type N0 V N1. Cependant, les tables du Lexique-Grammaire ne
sont pas directement exploitables par la machine. Nous utilisons donc le format Lglex
(Constant & Tolone, 2008), qui est une version structurée des tables au format XML. Chaque
entrée des tables du Lglex contient différentes informations telles que le numéro de la table,
les arguments possibles ainsi que leur nombre et les constructions syntaxiques acceptées.
FIG. 1: Extrait de la hiérarchie des tables des verbes
Nous disposons, pour les verbes uniquement, d’une hiérarchie des tables sur plusieurs
niveaux4. Chaque niveau contient plusieurs classes qui regroupent des tables du Lexique2 On pourra citer également les lexiques LVF (Dubois & Dubois-Charlier, 1997), Dicovalence (Eynde & Piet,
2003) et Lefff (Sagot, 2010).
3 Ces ressources sont librement disponibles à l’adresse
http ://infolingu.univ-mlv.fr>Données_Linguistiques>Lexique_Grammaire> Téléchargement
4 La hiérarchie des tables des verbes est disponible à l’adresse suivante : http ://igm.univ-mlv.fr/∼sigogne/arbretables.xlsx
260
Grammaire qui ne partagent pas forcément toutes leurs propriétés définitoires mais qui ont un
comportement syntaxique relativement similaire. La figure 1 montre un extrait de la
hiérarchie. Les tables 4, 6 et 12 sont regroupées dans une classe QTD2 (transitifs directs à
deux arguments avec un objet pouvant être sous la forme d’une complétive). Puis cette classe
est elle-même regroupée avec d’autres classes au niveau supérieur de la hiérarchie pour former
une classe TD2 (transitifs directs à deux arguments).
Les caractéristiques de chaque niveau sont indiquées dans le tableau 15 (le niveau 0
représente l’ensemble des tables présentes dans le Lexique-Grammaire). On peut noter que les
tables des verbes contiennent 5923 formes verbales distinctes pour 13862 entrées différentes.
La colonne #classes précise le nombre de classes distinctes. Quant aux colonnes AVG_1 et
AVG_2, elles indiquent le nombre moyen d’entrées par classe et le nombre moyen de classes
par forme verbale distincte.
Niveau
0
1
2
3
#classes
67
13
10
4
AVG_1
207
1066
1386
3465
AVG_2
2.15
1.82
1.75
1.44
TAB. 1: Caractéristiques de la hiérarchie des tables des verbes
Le principal avantage d’avoir une hiérarchie des tables est d’obtenir une réduction du
nombre de classes associées à chaque verbe présent dans les tables. Nous verrons que la
réduction des ambiguïtés est cruciale lors de nos expériences.
4 Exploitation des données du Lexique-Grammaire
De nombreuses expériences d’analyse syntaxique faites sur le français (Crabbé & Candito,
2008; Seddah et al., 2009) , ont montré qu’en raffinant les étiquettes morpho-syntaxiques du
corpus d’apprentissage, les performances étaient accrues. Nous allons nous inspirer de ces
travaux en intégrant aux étiquettes des informations issues du Lexique-Grammaire. Dans le
cadre de cet article, nous utiliserons uniquement les tables des verbes et des noms prédicatifs.
Les numéros de table des entrées du lexique sont des indices importants sur les
comportements syntaxiques. Dans une première expérience, appelée AnnotTable, nous avons
ajouté l’information du ou des numéros de table associés au nom ou au verbe. Par exemple, le
verbe chérir appartient à la table 12. L’étiquette est donc V_12. Pour un verbe ambigu comme
sanctionner, appartenant aux tables 6 et 12, l’étiquette induite est V_6_12.
Ensuite, dans le cadre des verbes, nous avons effectué des variantes de l’expérience
précédente en prenant en compte la hiérarchie des tables des verbes. Cette hiérarchie permet
d’obtenir un jeu d’étiquettes de taille moins conséquente selon le niveau de regroupement
utilisé. Les classes ajoutées aux étiquettes morpho-syntaxiques dépendent maintenant du verbe
ainsi que du niveau spécifique dans la hiérarchie. Par exemple, le verbe sanctionner, ayant
pour numéros de table 6 et 12, a pour étiquette V_QTD2 aux niveaux 1 et 2, puis V_TD2 au
dernier niveau. Dans le cas où le verbe est ambigu, le suffixe contient toutes les classes de la
hiérarchie dont les numéros de table du verbe font partie. Cette expérience sera appelée
AnnotVerbes par la suite.
5 On peut également préciser que 3121 verbes (3195 entrées) sont dit non ambigus. C’est à dire que toutes leurs
entrées sont présentes dans une seule et même table.
261
En ce qui concerne les noms prédicatifs, nous ne disposons pas encore de hiérarchie des
tables. Nous avons donc testé deux méthodes. Une première méthode très simple, appelée
AnnotIN, consiste à ajouter un suffixe IN à l’étiquette d’un nom si ce nom est dans le lexique
syntaxique, et donc s’il s’agit d’un nom prédicatif. La deuxième méthode, appelée
AnnotNoms, consiste à créer une hiérarchie des tables des noms à partir de la table des tables
des noms prédicatifs. Cette hiérarchie est faite en fonction du nombre d’arguments maximum
que peut prendre un nom d’une table d’après les propriétés définitoires spécifiées pour cette
table dans la table des tables. Nous disposons donc d’un seul niveau hiérarchique. Par
exemple, les noms de la table N_aa peuvent prendre 2 arguments au maximum alors que ceux
de la table N_an04 ne peuvent en prendre qu’un seul. Les caractéristiques de chaque niveau
sont indiquées dans le tableau 26 (le niveau 0 représente l’ensemble des tables présentes dans
le Lexique-Grammaire).
Niveau
0
1
#classes
76
3
#noms
8531
8531
#entrées
12351
12351
AVG_1
162
3413
AVG_2
1.43
1.2
TAB. 2: Caractéristiques de la hiérarchie des tables des noms
5 Expériences et évaluations
Pour nos expérimentations, nous avons utilisé le corpus arboré du français, le French Treebank
(appelé FTB par la suite) (Abeillé et al., 2003), contenant 20860 phrases et 540648 mots issus
du journal Le Monde (version de 2004). Ce corpus étant de petite taille, nous avons effectué
nos évaluations selon la méthode dite de validation croisée. Cette méthode consiste à découper
le corpus en p parties égales puis à effectuer l’apprentissage sur p-1 parties et les évaluations
sur la partie restante. On peut itérer p fois ce processus. Cela permet donc de calculer un score
moyen sur un échantillon aussi grand que le corpus initial. Dans notre cas, nous avons fixé le
paramètre p à 10. De plus, nous avons appliqué les mêmes prétraitements sur les étiquettes
morpho-syntaxiques que dans (Crabbé & Candito, 2008). C’est à dire que les étiquettes
morpho-syntaxiques tiennent compte de l’annotation morphologique riche du FTB (mode des
verbes, clitiques,...), ce qui conduit à obtenir un jeu de 28 étiquettes distinctes 7. Les mots
composés ont été fusionnés afin d’obtenir un unique token.
Dans les expériences qui suivent, nous allons tester l’impact de la modification du jeu
d’étiquettes du corpus d’apprentissage, à savoir l’ajout des informations issues du LexiqueGrammaire décrites dans la section . Les résultats des évaluations sur les corpus d’évaluation
sont reportés en utilisant le protocole standard PARSEVAL (Black et al., 1991) pour des
phrases de taille inférieure à 40 mots. Le score de F-mesure tient compte du parenthésage et
également des catégories des noeuds (en tenant compte des noeuds de ponctuation). Pour
chaque expérience, nous avons indiqué les résultats Baseline, à savoir les résultats de BKY
entraîné sur le corpus arboré original (sans annotations issues du Lexique-Grammaire). Nous
avons également indiqué le pourcentage de verbes ou de noms prédicatifs annotés distincts sur
la totalité du corpus pour chaque méthode d’annotation8. La taille du jeu d’étiquettes du
corpus selon les différentes méthodes d’annotation est précisée par la colonne Tagset des
tableaux.
6 Le nombre de noms non ambigus est de 6126 pour 6175 entrées.
7 Il y a 6 étiquettes différentes pour les verbes et 2 pour les noms.
8 Le corpus contient 3058 formes verbales distinctes et 17003 formes nominales distinctes.
262
5.1 Annotation des étiquettes verbales
Nous avons tout d’abord effectué les expériences sur les verbes décrites dans la section 4, à
savoir AnnotTable et AnnotVerbes. Les résultats des expériences sont montrés dans le
tableau 3. Dans le cadre de l’expérience AnnotVerbes, nous avons fait varier deux paramètres,
à savoir Niv. (Niveau) qui indique le niveau de la hiérarchie utilisé et Amb. (Ambiguïté) qui
indique qu’une étiquette d’un verbe est modifiée uniquement si ce verbe appartient à un
nombre de classes inférieur ou égal au nombre précisé par ce paramètre.
Méthode
Niv./
Amb.
Tagset
%verbes
annotés
F-mesure/
Etiquetage
Baseline
-/-
28
-
85.05/97.43
AnnotTable
-/1
228
18,6%
84.49/97.29
1/1
89
21,5%
85.06/97.46
2/1
76
22,5%
85.35/97.41
3/1
47
33,9%
85.39/97.49
2/2
246
44,7%
84.60/97.35
3/2
75
55,7%
85.20/97.48
AnnotVerbes
AnnotVerbes
AnnotVerbes
AnnotVerbes
AnnotVerbes
Gains absolus (F-mesure)
TAB. 3: Evaluation de l’impact de la modification des étiquettes verbales
Pour les verbes non ambigus, nous pouvons observer que l’expérience AnnotTable dégrade
fortement les performances. Cela provient très probablement de la grammaire qui est trop
éclatée en raison de la taille conséquente du jeu d’étiquettes. L’effet est inversé dès que l’on
utilise les niveaux de la hiérarchie des tables (niveaux 2 et 3 seulement). Les conséquences de
la hiérarchisation des tables sont l’augmentation du nombre de verbes annotés comme non
ambigus et la réduction de la taille du jeu d’étiquettes. Pour les niveaux 2 et 3, 6 des 10 corpus
d’évaluation obtiennent un gain absolu positif situé entre +0,2% et +1%. En revanche, la prise
en compte des verbes ambigus ne permet pas d’améliorer les performances (résultats montrés
uniquement pour les niveaux 2 et 3 avec ambiguïté maximale de 2). La raison pourrait être
identique à celle énoncée pour l’expérience AnnotTable, à savoir la taille conséquente du jeu
d’étiquettes.
263
5.2 Annotation des étiquettes des noms prédicatifs
Pour les noms prédicatifs, nous avons effectué successivement les expériences AnnotTable,
AnnotNoms et AnnotIN, décrites dans la section 4. Les résultats sont précisés dans le tableau 4.
De même que pour les verbes, nous avons fait varier le paramètre Ambiguïté pour l’expérience
AnnotNoms (le nombre de classes maximum associées à un nom étant de 3).
Méthode
Amb.
Tagset %noms
annotés
F-mesure/
Etiquetage
Baseline
-
28
-
85.05/97.43
AnnotTable
1
98
8,6%
85.10/97.42
1
33
11,2%
85.13/97.48
2
38
16,5%
85.16/97.47
3
39
16,9%
85.05/97.41
-
30
16,9%
85.20/97.54
AnnotNoms
AnnotNoms
AnnotNoms
AnnotIN
Gains absolus (F-mesure)
TAB. 4: Evaluation de l’impact de la modification des étiquettes nominales
Les différentes méthodes d’annotation des noms n’augmentent que très peu les
performances de l’analyseur. Contrairement aux verbes, la méthode AnnotTable ne dégrade pas
les performances car il y a beaucoup moins de noms annotés (moins de 9%), d’où l’impact
limité du nouveau jeu d’étiquettes. L’utilisation d’une hiérarchie simple des tables des noms, à
travers l’expérience AnnotNoms, permet d’obtenir des gains positifs mais, ici, peu significatifs.
On pourra cependant noter que 3 des 10 corpus d’évaluation ont été grandement améliorés (de
+0.4 à +0.8). De plus, nous obtenons une légère amélioration en annotant certains noms
ambigus. Étonnamment, la méthode qui donne les meilleurs résultats, malgré son principe très
simple, est AnnotIN.
5.3 Combinaison des annotations
Dans une dernière expérience, nous avons combiné les meilleures méthodes d’annotation des
verbes et des noms prédicatifs, à savoir AnnotIN pour les noms prédicatifs et AnnotVerbes pour
les verbes (niveau 3 sans ambiguïté). Les résultats sont indiqués dans le tableau 5.
Méthode
Baseline
Combinaison
F-mesure
85.05
85.32
TAB. 5: Evaluation de l’impact de la combinaison des méthodes d’annotation
La combinaison des annotations ne permet pas d’augmenter les gains obtenus avec la
méthode AnnotVerbes et on observe même une légère dégradation.
264
6 Conclusion et perspectives
Les travaux préliminaires décrits dans cet article montrent qu’en ajoutant certaines
informations issues d’un lexique syntaxique tel que le Lexique-Grammaire, nous sommes
capable d’améliorer les performances d’un analyseur syntaxique probabiliste. Ces
performances sont obtenues, principalement, grâce à la hiérarchie des tables des verbes qui
permet de limiter l’ambiguïté en terme de nombre de classes associées à un verbe. Ceci a pour
effet d’augmenter la couverture des verbes annotés selon le niveau de granularité utilisé. En
revanche, dès que l’on intègre de l’ambiguïté, les performances subissent une dégradation. Les
résultats obtenus sur les noms prédicatifs, notamment avec une hiérarchie simple des tables,
sont peu significatifs mais laissent présager une certaine marge de progression avec une
hiérarchie plus complexe comme celle disponible pour les verbes.
Dans un futur proche, nous tenterons de reproduire ces expériences en tenant compte des
méthodes de clustering de mots introduites par (Candito & Crabbé, 2009; Candito & Seddah,
2010) . Grâce à un algorithme semi-supervisé, leurs méthodes permettent de réduire la taille
du lexique de la grammaire en regroupant les mots selon leurs comportements syntaxiques
dans un corpus arboré. Ces méthodes pourraient donc être complémentaires à nos méthodes
d’annotations. Une piste similaire à explorer pourrait consister à conserver le tagset original et
à remplacer les tokens du corpus par les annotations syntaxiques générées par nos méthodes.
265
Références
ABEILLE A., CLEMENT L. & TOUSSENEL F. (2003). Building a treebank for French. In A. ABEILLÉ, Ed., Treebanks,
Kluwer, Dordrecht.
BLACK E., S.ABNEY, FLICKINGER D., GDANIEC C., GRISHMAN R., HARRISON P., HINDLE D., INGRIA R., JELINEK F.,
KLAVANS J., LIBERMAN M., MARCUS M., ROUKOS S., SANTORINI B. & STRZALKOWSKI T. (1991). A procedure
for quantitatively comparing the syntactic coverage of english grammars. In Proceedings of the DARPA
Speech and Naturale Language Workshop, p. 306–311.
BRISCOE T. & CARROLL J. (1997). Automatic extraction of subcategorization from corpora. In Fifth Conference
on Applied Natural Language Processing, p. 356–363, USA.
CANDITO M. & CRABBÉ B. (2009). Improving generative statistical parsing with semi-supervised word clustering.
In Proceedings of IWPT’09, p. 138–141.
CANDITO M. & SEDDAH D. (2010). Parsing word clusters. In Proceedings of the first NAACL HLT Workshop on
Morphologically-Rich Languages (SPRML2010), p. 76–84.
CARROLL J. & FANG A. C. (2004). The automatic acquisition of verb subcategorisations and their impact on the
performance of an HPSG parser. In Proceedings of the 1st International Conference on Natural Language
Processing, Sanya City, China.
CONSTANT M. & TOLONE E. (2008). A generic tool to generate a lexicon for NLP from Lexicon-Grammar tables.
In Actes du 27ème Colloque Lexique et Grammaire.
CRABBE B. & CANDITO M. (2008). Expériences d’analyse syntaxique statistique du français. In Actes de
TALN’08, p. 45–54, Avignon, France.
DE
LA CLERGERIE E. (2010). Building factorized TAGs with meta-grammars. In Proceedings of TAG+10, p. 111–
118.
DEOSKAR T. (2008). Re-estimation of lexical parameters for treebank PCFGs. In Proceedings of COLING’08, p.
193–200, Manchester, Great Britain.
DUBOIS J. & DUBOIS-CHARLIER F. (1997). Les verbes français. Larousse-Bordas.
EYNDE K. & PIET M. (2003). La valence : l’approche pronominale et son application au lexique verbal. Journal of
French Language studies, p. 63–104.
GROSS M. (1994). Constructing Lexicon-grammars. In ATKINS & ZAMPOLLI, Eds., Computational Approaches to
the Lexicon, p. 213–263.
MATSUZAKI T., MIYAO Y. & TSUJII J. (2005). Probabilistic cfg with latent annotations. In Proceedings of ACL’05,
p. 75–82, Ann Arbor, USA.
O’DONOVAN R., CAHILL A., WAY A., BURKE M. & VAN GENABITH J. (2005). Large-scale induction and evaluation
of lexical resources from the Penn-II and Penn-III treebanks. In Proceedings of IJCNLP’04.
PETROV S., BARRETT L., THIBAUX R. & KLEIN D. (2006). Learning accurate, compact, and interpretable tree
annotation. In Proceedings of COLING-ACL’06, Sydney, Australia.
SAGOT B. (2006). Analyse automatique du français : lexiques, formalismes, analyseurs. PhD thesis, Université
Paris VII.
SAGOT B. (2010). The lefff, a freely available, accurate and large-coverage lexicon for french. In Proceedings of
LREC 2010, La Valette, Malte.
SAGOT B. & TOLONE E. (2009). Intégrer les tables du Lexique-Grammaire à un analyseur syntaxique robuste à
grande échelle. In Actes de TALN’09, Senlis, France.
SCHLUTER N. & GENABITH J. V. (2008). Treebank-based Acquisition of LFG Parsing Resources for French. In
Proceedings of LREC08, Marrakech, Morocco.
SEDDAH D., CANDITO M. & CRABBÉ B. (2009). Adaptation de parsers statistiques lexicalisés pour le français :
Une évaluation complète sur corpus arborés. In Actes de TALN’09, Senlis, France.
TOLONE E. (2011). Analyse syntaxique à l’aide des tables du Lexique-Grammaire du français. PhD thesis,
Université Paris-Est Marne-la-Vallée.
266
Tolone Elsa
Universidad Nacional de
Córdoba, Argentine
La Clergerie Éric
Université Paris 7, France
Sagot Benoît
Université Paris 7, France
[email protected]
[email protected] [email protected]
ÉVALUATION DE LEXIQUES SYNTAXIQUES
PAR LEUR INTÉGRATION DANS L'ANALYSEUR SYNTAXIQUE FRMG
Résumé
Dans cet article, nous évaluons divers lexiques avec l'analyseur syntaxique FRMG : le Lefff, LGLex, le
lexique syntaxique construit à partir des tables du Lexique-Grammaire du français, le lexique
DICOVALENCE, ainsi qu'une nouvelle version des entrées verbales du Lefff, obtenues par fusion
avec DICOVALENCE et validation manuelle partielle. Pour cela, tous ces lexiques ont été convertis
au format du Lefff, le format Alexina. L'évaluation a été faite sur la partie du corpus EASy utilisé lors
de la première campagne d'évaluation Passage.
Mots clés: lexiques syntaxiques, analyseur syntaxique, campagne d'évaluation, fouille d'erreurs.
1. Introduction
De nombreux analyseurs du français ont été développés ces dernières années et il importe de
les évaluer afin d'améliorer leur précision et leur robustesse sur des corpus à grande échelle.
Ceci est en effet de nature à améliorer l'exploitation des annotations syntaxiques produites,
d'une part pour enrichir, améliorer voire créer des ressources linguistiques et d'autre part en
vue d'applications concrètes comme l'extraction d'informations ou la fouille de textes.
L'objectif de ce travail est d'évaluer divers lexiques syntaxiques par le biais de l'évaluation
de l'analyseur syntaxique FRMG (de La Clergerie, 2005a ; Thomasset & Éric de La Clergerie,
2005) lorsqu'il est couplé à chacun d'entre eux. Il s'agit donc d'une évaluation orientée-tâche
(task-based) de ces ressources. Nous avons évalué le Lefff dans sa version 3.0 (Sagot, 2010),
ainsi que trois ressources obtenues en remplaçant (presque) toutes les entrées verbales du
Lefff par d'autres ressources, à savoir successivement le lexique LGLex (Tolone, 2011)
construit à partir des tables du Lexique-Grammaire du français, le lexique DICOVALENCE
(van den Eynde & Mertens, 2006), ainsi qu'une nouvelle version des entrées verbales du Lefff
obtenues à partir de sa fusion avec DICOVALENCE et d'un travail de validation manuelle.
Pour cela, tous ces lexiques ont été convertis au format du Lefff, le format Alexina.
L'évaluation a été faite sur la partie du corpus EASy utilisé lors de la première campagne
d'évaluation Passage (Hamon et al., 2008).
Nous commençons par détailler ces quatre ressources lexicales, qu'il s'agisse de lexiques
déjà existants (le Lefff, LGLex ou DICOVALENCE) ou de la nouvelle version du Lefff
(section 2.2). Nous présenterons ensuite l'analyseur FRMG et la campagne d'évaluation
Passage à la section 3, avant de détailler les résultats obtenus par FRMG lorsqu'on lui fait
rejouer cette campagne en le couplant successivement avec les quatre lexiques décrits à la
section 4. Nous montrons en particulier que pour l'instant, c'est encore la version standard du
Lefff qui donne les meilleurs résultats. Enfin, nous discutons à la section 5 de la fouille
d'erreurs réalisée sur les sorties produites afin d'identifier les entrées lexicales verbales
susceptibles d'expliquer la baisse de précision obtenue par les autres ressources par rapport au
Lefff, puis nous concluons à la section 6.
2. Les ressources lexicales
2.1. Lefff, LGLex et DICOVALENCE
Nous avons utilisé les données lexicales issues de trois ressources électroniques librement
267
disponibles :
 Lefff (Lexique des formes fléchies du français)1 : Ce lexique est une ressource
morphologique et syntaxique à large couverture du français, qui couvre l'ensemble des
catégories (Sagot, 2010). Le Lefff, développé dans le formalisme lexical Alexina, est orienté
vers une utilisation dans des outils de traitement automatique, mais cherche à préserver une
pertinence linguistique. Il est ainsi utilisé par exemple dans des analyseurs à grande échelle
pour différents formalismes (LFG, LTAG, et d'autres). Des travaux récents en ont amélioré la
qualité et la couverture pour certaines classes d'entrées (constructions impersonnelles,
constructions pronominales, adverbes en -ment, verbes en -iser et -ifier), notamment par
comparaison et fusion avec d'autres ressources lexicales comme DICOVALENCE et les
tables du Lexique-Grammaire (Sagot & Danlos, 2007 ; Sagot & Fort, 2007 ; Danlos & Sagot,
2008 ; Sagot & Fort, 2009).
 LGLex2 : Ce lexique syntaxique a été construit à partir des tables du Lexique-Grammaire
du français en un format textuel et XML (Constant & Tolone, 2010), après un travail de mise
en cohérence et d'explicitation des propriétés syntaxiques dans les tables du LexiqueGrammaire (Tolone, 2011). Grâce à une définition formelle ou à une interprétation
dynamique de toutes les constructions, la version texte du lexique LGLex a ensuite été
convertie au format Alexina (Tolone & Sagot, 2011). Cela a pu être fait pour l'ensemble des
verbes (issus des 67 tables regroupant 13 867 entrées, dont 5 738 entrées distinctes) et des
noms prédicatifs (issus des 78 tables regroupant 12 696 entrées, dont 8 531 entrées distinctes).
 DICOVALENCE3 : Le dictionnaire de valence verbale DICOVALENCE (van den Eynde
& Mertens, 2006) est une ressource informatique qui répertorie les cadres de valence de plus
de 3 700 verbes simples du français, soit plus de 8 000 entrées. Le dictionnaire explicite en
outre certaines restrictions sélectionnelles, certaines formes de réalisation (pronominales,
phrastiques) des termes, la possibilité d'employer le cadre valenciel dans différents types de
passif, etc. La particularité essentielle du dictionnaire réside dans le fait que les informations
valencielles sont représentées selon les principes de « l'Approche Pronominale » en syntaxe
(Blanche-Benveniste et al., 1984). Pour chaque place de valence (appelée paradigme) le
dictionnaire précise le paradigme de pronoms qui y est associé et qui couvre en intention les
lexicalisations possibles. Il précise aussi les reformulations possibles, comme le passif.
2.2. Construction d'une nouvelle version des entrées verbales du Lefff par fusion avec
DICOVALENCE et validation manuelle
Bien que le principe général sous-tendant les entrées lexicales du Lefff soit que chaque sens
distinct d'un même lemme doive correspondre à une entrée distincte, ce principe n'est respecté
que très partiellement dans la version actuelle de la ressource. C'est pourtant une nécessité
pour améliorer la qualité du Lefff comme ressource descriptive, pour permettre la prise en
compte d'informations telles que les restrictions de sélection pendant ou après l'analyse
syntaxique, pour coupler à terme le Lefff avec des ressources lexicales sémantiques, et plus
généralement pour envisager l'utilisation du Lefff en analyse sémantique.
Nous avons effectué un premier travail dans cette direction, en cherchant à intégrer
DICOVALENCE au sein du Lefff. En effet, DICOVALENCE distingue quant à lui les
différents sens d'un même lemme verbal en plusieurs entrées. Pour cela, nous avons mis en
œuvre la méthodologie décrite dans (Sagot & Danlos, 2008). Ainsi, nous avons tout d'abord
1
Distribution
de
la
version
3.0
en
ligne
sous
licence
LGPL-LR
à
l'adresse
http://gforge.inria.fr/projects/alexina/
2
Distribution de la version 3.3 en ligne sous licence LGPL-LR à l'adresse http://infolingu.univ-mlv.fr,
Données Linguistiques > Lexique-Grammaire > Téléchargement
3
Distribution
de
la
version
2
en
ligne
sous
licence
LGPL-LR
à
l'adresse
http://bach.arts.kuleuven.be/dicovalence/
268
converti DICOVALENCE au format Alexina, améliorant pour ce faire l'outil de conversion
utilisé précédemment (Danlos & Sagot, 2008). La fusion du résultat de cette conversion avec
le Lefff a été réalisée de la même façon que dans (Danlos & Sagot, 2008), en préservant toutes
les informations issues des deux ressources (exemples, etc.). La difficulté est qu'il est fréquent
qu'un lemme verbal donné ait plusieurs entrées dans DICOVALENCE et plusieurs dans le
Lefff, ce qui rend délicate la mise en correspondance de chaque entrée de l'un avec zéro, une
ou plusieurs entrées de l'autre. Nous avons donc appliqué les heuristiques décrites dans
(Danlos & Sagot, 2008), qui permettent la mise en correspondance de deux entrées si les
inventaires de fonctions syntaxiques de base (sujet, objets direct et indirects) sont identiques,
et si l'inventaire de fonctions syntaxiques obliques (locatif, délocatif, etc.) dans l'entrée du
Lefff est inclus dans celui issu de DICOVALENCE. Pour chaque lemme, on obtient ainsi au
moins autant d'entrées que dans le lexique qui en contient le moins, et au plus la somme des
nombres d'entrées dans chaque lexique, lorsqu'aucune mise en correspondance n'a fonctionné.
Pour bénéficier au mieux de la bonne qualité générale des informations syntaxiques
présentes dans DICOVALENCE, nous avons décidé de réaliser une validation manuelle
partielle mais significative du résultat de la fusion. Ainsi, nous avons validé manuellement
toutes les entrées correspondant à des lemmes telles que le nombre d'entrées dans le lexique
fusionné était strictement supérieur au maximum du nombre d'entrées entre les deux
ressources. Une telle situation signifie en effet qu'au moins une entrée du Lefff n'a pu être
mise en correspondance avec une entrée de DICOVALENCE, et inversement, ce qui fait
soupçonner que la fusion s'est passée de façon incorrecte en raison d'erreurs dans l'un ou
l'autre des lexiques, ou en raison de différences d'analyse (un objet indirect en de pour une
ressource pouvant être un délocatif pour une autre, par exemple). Nous avons ainsi validé,
corrigé voire fusionné manuellement toutes les entrées pour 505 lemmes verbaux, produisant
ainsi 986 entrées. Par ailleurs, nous avons extrait du corpus de l'Est Républicain une table de
fréquence des formes fléchies, qui nous a permis de dresser une liste des 100 lemmes verbaux
les plus fréquents du français. Nous avons validé, corrigé, fusionné et complété manuellement
toutes les entrées correspondant à ces lemmes verbaux dans le lexique fusionné.
Le résultat de ce travail est un lexique morphologique, syntaxique et sémantique composé
de 12 613 entrées couvrant 7 933 lemmes verbaux distincts.
3. L'analyseur syntaxique FRMG et la campagne d'évaluation Passage
FRMG (FRench MetaGrammar) (de La Clergerie, 2005a ; Thomasset & Éric de La Clergerie,
2005) est un analyseur syntaxique profond à large couverture pour le français. Une
description grammaticale de haut niveau sous forme de méta-grammaire sert de point de
départ pour la génération d'une grammaire d'arbres adjoints (TAG, Tree Adjoining Grammar)
(Joshi et al., 1975). Cette grammaire est transformée par le système DyALog (de La
Clergerie, 2005b ; de La Clergerie, 2002) en un analyseur syntaxique.
L'analyseur syntaxique FRMG découlant des phases de compilation de la métagrammaire
FRMG ne peut bien sûr fonctionner seul. Il s'intègre dans une chaîne complète de traitement
comprenant, en amont, le lexique syntaxique Lefff et les nombreux modules de SXPipe (Sagot
& Boullier, 2008) en charge de la segmentation, de la correction orthographique et de la
détection des entités nommées.
Pour une phrase donnée, FRMG retourne l'ensemble des analyses complètes sous forme de
forêt. En cas d'échec pour une analyse complète, l'analyseur retourne un ensemble d'analyses
partielles couvrant au mieux la phrase. Enfin, sous la contrainte d'un temps limite (timeout), si
l'analyseur n'a pu conclure l'ensemble des analyses, il retourne celles déjà disponibles (mode
just-in-time). En pratique, très peu de phrases (moins de 1%) se retrouvent sans aucune
analyse (complète ou partielle).
Ensuite, la forêt d'analyse peut être convertie sous forme d'une forêt de dépendances et
269
également désambiguïsée, en utilisant un ensemble de règles heuristiques très peu
lexicalisées. On obtient ainsi une unique analyse par dépendance qui peut ensuite être
convertie dans le format Passage, utilisé dans le cadre des campagnes d'évaluation Passage.
On peut voir par exemple à la figure 1 la sortie au format Passage de la phrase Depuis
quelques semaines, les rapports entre les deux camps se dégradent.
Figure 1. Exemple de sortie au format Passage
Précisons que FRMG est un logiciel libre accessible sous la GForge de l'INRIA 4. Il est
également possible de jouer avec la chaîne de traitement et de visualiser la grammaire FRMG
sur http://alpage.inria.fr/frmgdemo.
La campagne d'évaluation Passage (2007-2009)5 (Hamon et al., 2008) soutenue par l'ANR
a pour objectif d'évaluer les analyseurs du français, d'améliorer l'exactitude et la robustesse
des analyseurs du français sur des corpus à grande échelle (100 millions de mots) ; et
d'exploiter les annotations syntaxiques résultantes pour créer une ressource linguistique plus
riche et plus étendue : un treebank pour le français.
Six types de constituants ont été choisis pour cette campagne : groupe nominal, (GN),
noyau verbal (NV), groupe adjectival (GA), groupe adverbial (GR), groupe prépositionnel
(GP) et groupe prépositionnel à noyau verbal (PV).
Les relations (dépendances entre mots pleins) à relever sont les suivantes : dépendance
sujet-verbe (SUJ-V), dépendance auxiliaire-verbe (AUX-V), objet direct (COD-V), autre
complément du verbe (CPL-V), modifieur du verbe (MOD-V), subordonnée (COMP), attribut
du sujet ou de l'objet (ATB-SO), modifieur du nom (MOD-N), modifieur de l'adjectif (MODA), modifieur de l'adverbe (MOD-R), modifieur de la préposition (MOD-P), coordination
(COORD), apposition (APPOS) et juxtaposition (JUXT).
Le guide d'annotation utilisé lors de la campagne Passage est le guide des annotations
syntaxiques de référence PEAS6. Les métriques d'évaluation utilisées sont celles définies à
l'occasion de la campagne EASy : la précision, le rappel et la f-mesure, avec différents modes
de relâchement de contrainte sur la mesure des frontières de constituants (Paroubek et al.,
2005).
Pour la première campagne de Passage de 2007, la référence utilisée est un extrait
d'environ un million de mots du corpus EASy (Paroubek et al., 2005), de styles variés
(journalistique, médical, oral, questions, littéraire, etc.), dont 4 306 phrases constituaient déjà
la référence de la campagne EASy en 2004 et 400 nouvelles phrases ont été annotées
manuellement depuis.
4
5
6
http://gforge.inria.fr/projects/mgkit/
http://atoll.inria.fr/passage/index.fr.html
Disponible sur le site
http://www.limsi.fr/Individu/anne/Guide/PEAS_reference_annotations_v2.2.html
270
Pour pouvoir tenir compte des noms prédicatifs du lexique LGLex, il a fallu modifier la
méta-grammaire en faisant l'approximation suivante : n'importe quel déterminant peut venir
de manière optionnelle devant un nom prédicatif.
4. Résultats
On peut voir les résultats des différents lexiques sur le corpus EASy dans le tableau 1.
Lexique
Couverture Couverture Constituants Relations Temps
(#phrases) (%)
(%)
(%)
(s)
Timeout
(%)
Lefff
3 555
76.08
89.21
66.36
0.30
0.00
Nouveau Lefff
3 495
74.81
88.65
65.41
0.43
0.03
LGLex
3 437
73.60
87.97
63.03
0.84
0.03
DICOVALENCE 2 773
59.78
86.98
61.91
0.42
0.00
Tableau 1.Résultats comparatifs sur le corpus EASy, exprimés en terme de f-mesure
Les meilleurs résultats et performances de FRMG sont obtenus avec la version standard du
Lefff (version 3). Ceci peut s'expliquer par le fait que les deux ressources ont été développées
ensemble depuis longtemps. En comparaison, les résultats sont finalement assez proches pour
les autres ressources.
Les temps d'analyse sont plus importants pour LGLex (avec en conséquence plus de
phrases échouant pour cause de timeout) : ceci provient du grand nombre d'entrées par verbe
dans LGLex. À titre de comparaison, les lemmes verbaux les plus ambigus dans le Lefff sont
tenir et (re)faire (6 entrées), alors que dans le lexique LGLex il s'agit des lemmes tenir (53
entrées), jouer (44 entrées) et prendre (35 entrées). De plus, LGLex contient un grand nombre
de noms prédicatifs liés à des verbes support.
DICOVALENCE a un faible taux de couverture (relativement aux autres lexiques) mais
des f-mesures qui sont finalement bonnes : ceci confirme la pertinence de l'approche suivie
par les développeurs de cette ressource, qui se sont concentrés sur les emplois fréquents des
lemmes les plus fréquents.
Nous présentons les résultats pour quelques relations verbales dans le tableau 2.
Lexique
SUJ-V (%) AUX-V (%) COD-V (%)
CPL-V (%)
ATB-SO (%)
Lefff
79.29
91.55
72.48
62.40
66.46
Nouveau Lefff
78.76
91.15
72.18
62.59
59.45
LGLex
77.78
89.28
66.46
59.47
45.79
DICOVALENCE 76.12
86.74
65.49
61.62
8.65
Tableau 2. Résultats comparatifs pour quelques relations verbales (f-mesures)
DICOVALENCE semble avoir des problèmes sur certains verbes très fréquents, en
particulier sur le verbe être, comme le montre la très faible f-mesure pour la relation ATB-SO
(8.65% contre 66.46% pour Lefff, cf. tableau 2) et comme également mis en évidence par la
fouille d'erreurs.
271
5. Fouille d'erreurs
La fouille d'erreurs sur les verbes reprend les principes de fouilles d'erreurs présentés dans
(Sagot & Villemonte de La Clergerie, 2006), tout en l'adaptant. En effet, dans ce travail,
l'objectif était en première approximation d'identifier les formes dont la présence dans une
phrase tend à rendre la phrase inanalysable7. Dans le présent article, cet objectif est adaptée
afin d'identifier les entrées d'un lexique hyp qui semblent dégrader les performances de
FRMG comparativement à un lexique de référence ref, ici le Lefff : l'idée est de trouver les
formes, et plus précisément les formes verbales, dont la présence dans une phrase analysable
avec le lexique de référence ref tend à rendre cette phrase inanalysable avec le lexique hyp.
Le corpus EASy est trop petit pour obtenir des statistiques suffisantes pour un diagnostic
complet des ressources. Mais l'algorithme ne nécessitant pas de disposer d'un corpus de
référence (seule l'analysabilité, c'est-à-dire la couverture, étant exploitée), nous avons pu
ajouter au corpus EASy environ 100K phrases avec AFP, Europar, Wikipedia et
Wikisources, ce qui constitue le CPJ (Corpus Passage Jouet).
Nous avons regardé en détail les 15 premiers suspects dans LGLex afin de déterminer d’où
proviennent les erreurs (entre parenthèses est indiqué le nombre de phrases contenant ce verbe
qui n’ont pas pu être analysées, sachant que seule une phrase est donnée par verbe à titre
d’exemple, mais qu'au total 212 phrases sont concernées pour cet échantillon) :
 Certaines entrées ne figurent pas dans les tables : c'est le cas de réaffirmer (28), de réélire
(10), de la forme pronominale se réimplanter (5), mais également de mixer (7) dans la phrase
Mixé par Jimi Hazel , assisté de Bruce Calder , enregistré chez Jimi à l’ « Electric Lady
Studios » à New York puisque cette entrée est codée dans la table 36S avec un sens différent
(Max mixe les carottes (et+avec) les navets dans un mixeur).
 Certaines entrées figurent dans les tables mais ne sont pas codées (codage ~) : c'est le cas
de susciter (41) qui n’est codée dans aucune des deux tables dans laquelle elle est présente
(36DT et 38R), recruter (14) qui figure dans la table 38R sans être codée (ce qui implique
qu’à part la construction de base N0 V N1 Prép N2, aucune autre construction n’est codée),
délocaliser (9) qui figure dans la table 38L sans être codée (sa construction de base est N0 V
N1 Loc N2 source Loc N3 destination, les effacements de certains compléments pouvant être
codés dans la table), et zapper (4) qui figure dans la table 35L sans être codée (sa construction
de base est N0 V Loc N1 source Loc N2 destination, elle ne peut donc pas être reconnue dans
la phrase Elle a également " déploré " la mémoire de " plus en plus sélective " de la jeune
femme , " qui zappe les détails qui font désordre ").
 D’autres sont codées dans les tables mais avec des compléments obligatoires qui ne sont
pas présents dans les phrases du corpus :
 kidnapper (12) et revendre (5) dans des phrases sans deuxième complément, telles que
Les deux Italiens ont été kidnappés le 18 décembre et dans Charles mangeait l’avoine
des chevaux , doublant les fournitures , revendant par une porte de derrière ce qui
entrait par la grande porte : ces deux entrées sont codées dans la table 36DT, elles
acceptent comme construction de base N0 V N1 Prép N2, sans effacement possible du
deuxième complément introduit par la préposition à (c'est le cas de toutes les entrées
de cette table) ;
 écrouer (5) dans la phrase Le lycéen de 18 ans soupçonné d’avoir poignardé vendredi
un camarade , Hakim , dans leur lycée du Kremlin-Bicêtre \( Val-de-Marne \) , a été
mis en examen et écroué hier , alors que lycées et collèges sont invités à observer une
7
Une forme suspecte doit aussi avoir tendance à apparaître seule dans de telles phrases ou en
cooccurrence avec des formes qui ne sont pas (trop) suspectes à l'échelle du corpus entier. On trouvera le détail
du modèle sous-jacent dans (Sagot & Villemonte de La Clergerie, 2006) ; il s'exprime sous forme d'une paire
d'équations mutuellement récursives reflétant le niveau local des phrases et le niveau global du corpus.
L'algorithme de résolution est un algorithme de point fixe.
272
minute de silence aujourd’hui à la mémoire de la victime : cette entrée est codée dans
la table 38LHD avec la construction N0 V N1 Loc N2 destination ;
 réprouver (11) dans la phrase Dieu ne réprouve donc personne : cette entrée est codée
dans la table 12 avec la construction N0 V N1 de N2.
 Enfin, certains cas spécifiques : rediriger (50) dans des phrases erronées, telles que deux
cent cinquante-troisredirige ici, consoler (6) dans des phrases avec pronominalisation de
l’objet, telles que Elle essayait de le consoler (l'entrée est codée dans les tables 13 et 32R1
avec la construction N0 V N1 acceptée, mais sans qu’aucune ne code la possibilité de
pronominaliser le premier complément), et camper (5) dans Les troupes campent entre
Harlem et Nimègue (l'entrée devrait être reconnue car elle accepte la construction N1 V).
Si l'on se penche à présent sur les 5 premiers verbes les plus suspects dans les 9 phrases
suivantes qui n'ont pas été analysées avec le nouveau Lefff, l'origine de l'erreur est plus
difficile à déterminer et ne semble pas toujours liée au nouveau Lefff. Il se peut, dans certains
cas, que le succès de l'analyse avec le Lefff standard soit plutôt le résultat d'une
surgénération :
 tomber employé dans une phrase complexe avec partie du corps : cette lourde pensée lui
tombe sur le coeur ;
 tomber et dominer employés dans une construction avec laisser, qui semble mal gérée :
Reprit M Levrault en se laissant tomber dans un fauteuil ; moi je dis qu' il faut pas laisser JS
tomber comme ça ; Pour quelles raisons, en temps de guerre, un très grand nombre de
personnes, habituellement paisibles et inoffensives, se laissent-elles dominer par la haine ;
 cuisiner, approcher et orner, employés dans des phrases pour laquelle l'échec n'est pas
imputable aux entrées verbales : il sait pas cuisiner ; Comme il approchait du château de ses
pères ; elle a voulu à tout prix, orner sa vieille ville ; elle l' a ornée, sans proportion avec ses
destinées et son avenir ;
 parer, à qui il manque la redistribution passive : Partout, sur la route, les fenêtres vous
regardent parées de fleurs et de verdure.
6. Conclusion
Convertir un lexique au format Lefff permet de l'utiliser à peu près immédiatement avec
FRMG. Pour un lexique de bonne qualité comme DICOVALENCE ou les tables du LexiqueGrammaire, les résultats obtenus sont bons. En effet, une f-mesures pour les relations au
dessus de 60% est meilleure que les résultats de FRMG avec le Lefff lors de la campagne de
2007 (59,65% de f-mesure pour 56% de couverture). Néanmoins, les derniers points de fmesure découle d'une adaptation plus fine entre la grammaire et le lexique, et de la recherche
des erreurs ou incomplétudes lexicales. Il est en effet normal que tout lexique possède des
entrées erronées qu'il est difficile de trouver.
Les techniques de fouille d'erreurs permettant de comparer (dans un sens ou l'autre) les
verbes de deux lexiques sont un moyen de repérer plus rapidement ces entrées.
À terme, ce travail doit aussi renforcer la fusion de diverses ressources lexicales en une
seule ressource de très grande qualité. Néanmoins, les choix linguistiques derrière chaque
ressource ont un impact : ainsi, le Lefff standard (version 3) fournit des entrées verbales plutôt
factorisées (peu de distinctions sémantiques, cadres de sous-catégorisation factorisés) alors
que LGLex liste de nombreuses entrées par verbes correspondant à divers sens et associées à
des cadres de sous-catégorisation plus simple mais se chevauchant.
273
Références
Blanche-Benveniste C., Delofeu J., Stefanini J. & Eynde K. v. d. 1984. Pronom et syntaxe. L’approche
pronominale et son application au français. Paris : SELAF.
Constant M. & Tolone E. 2010. A generic tool to generate a lexicon for NLP from Lexicon-Grammar tables. In
M. D. Gioia, Ed., Actes du 27e Colloque international sur le lexique et la grammaire (L’Aquila, 10-13
septembre 2008), Seconde partie, volume 1 of Lingue d’Europa e del Mediterraneo, Grammatica comparata,
p. 79–193. Rome, Italie : Aracne.
Danlos L. & Sagot B. 2008. Constructions pronominales dans DICOVALENCE et le Lexique-Grammaire :
Intégration dans le Lefff. In Actes du 27ème Colloque Lexique et Grammaire, L’Aquila, Italie.
de La Clergerie E. 2002. Construire des analyseurs avec DyALog. In Actes de la Conférence sur le Traitement
Automatique des Langues Naturelles (TALN’02), Nancy, France.
de La Clergerie E. 2005a. From metagrammars to factorized TAG/TIG parsers. In Proceedings of IWPT’05
(poster), p. 190–191, Vancouver, Canada.
de La Clergerie É. 2005b. DyALog : a tabular logic programming based environment for NLP. In Proceedings of
2nd International Workshop on Constraint Solving and Language Processing (CSLP’05), Barcelone,
Espagne.
Hamon O., Mostefa D., Ayache C., Paroubek P., Vilnat A. & de La Clergerie E. 2008. Passage : from French
parser evaluation to large sized treebank. In Proceedings of the 6th Language Resource and Evaluation
Conference (LREC’08), Marrakech, Maroc.
Joshi A. K., Levy L. & Takahashi M. 1975. Tree Adjunct Grammars. Journal of Computer and System Science
10, 10(1), 136–163.
Paroubek P., Pouillot L.-G., Robba I. & Vilnat A. 2005. EASy : campagne d’évaluation des analyseurs
syntaxiques. In Actes de l’atelier EASy de TALN’05, Dourdan, France.
Sagot B. 2010. The Lefff, a freely available and large-coverage morphological and syntactic lexicon for French.
In Proceedings of the 7th Language Resources and Evaluation Conference (LREC’10), La Valette, Malte.
Sagot B. & Boullier P. 2008. SXPipe 2 : architecture pour le traitement présyntaxique de corpus bruts.
Traitement Automatique des Langues (T.A.L.), 49(2), 155–188.
Sagot B. & Danlos L. 2007. Améliorer un lexique syntaxique à l’aide des tables du Lexique-Grammaire :
Constructions impersonnelles. Cahiers du Cental.
Sagot B. & Danlos L. 2008. Méthodologie lexicographique de constitution d’un lexique syntaxique de référence
pour le français. In Actes du colloque Lexicographie et informatique : bilan et perspectives, Nancy, France.
Sagot B. & Fort K. 2007. Améliorer un lexique syntaxique à l’aide des tables du Lexique-Grammaire : adverbes
en -ment. In Actes du 26ème Colloque Lexique et Grammaire (LGC’07), p. 145–152, Bonifacio, France.
Sagot B. & Fort K. 2009. Description et analyse des verbes désadjectivaux et dénominaux en -ifier et -iser.
Arena Romanistica, Journal of Romance Studies, 4, 102–110.
Sagot B. & Villemonte de La Clergerie E. 2006. Error mining in parsing results. In Proceedings of the 21st
International Conference on Computational Linguistics and 44th Annual Meeting of the Association for
Computational Linguistics, p. 329–336, Sydney, Australia : Association for Computational Linguistics.
Thomasset F. & Éric de La Clergerie 2005. Comment obtenir plus des méta-grammaires. In Proceedings of
TALN’05, Dourdan, France.
Tolone E. 2011. Analyse syntaxique à l’aide des tables du Lexique-Grammaire du français. Thèse de doctorat,
LIGM, Université Paris-Est, France. (340 pp.).
Tolone E. & Sagot B. 2011. Using Lexicon-Grammar tables for French verbs in a large-coverage parser. In Z.
Vetulani, Ed., Human Language Technology, Forth Language and Technology Conference, LTC 2009,
Poznań , Poland, November 2009, Revised Selected Papers, Lecture Notes in Artificial Intelligence (LNAI).
Springer Verlag. À paraître.
van den Eynde K. & Mertens P. 2006. Le dictionnaire de valence DICOVALENCE : manuel d’utilisation.
http://bach.arts.kuleuven.be/dicovalence/manuel_061117.pdf.
274
Tovena M. Lucia
Université Paris 7
[email protected]
Colinet Margot
Université Paris 7
[email protected]
ARGUMENTS OF DEADJECTIVAL VERBS AND FACETS OF ADJECTIVAL BASES
Abstract
We examine the argument structure of deadjectival verbs ending in -iser and -ifier in French, focussing our
attention on the relation between a quality and an entity that has a straightforward realisation within an NP, and a
more mediated realisation within a deadjectival VPf. We note that all deadjectival verbs contain a dynamic
component, whereas adjectives can form stative predicates. The dynamic step of acquisition of a property by the
Patient may emphasize the transient aspect of such a property, triggering the inference that it is
accidental/temporary. The ‘latent’ vs ‘in action’ opposition of properties also ensues, which is often expressed by
the pair adjective vs adjectival past particle. We also point out a tendency for derived adjectives to be understood as
expressing clusters of attributes.
Keywords: deadjectival verbs, adjective readings, semantics, morphology.
1 Introduction
In this paper, we examine the argument structure of deadjectival verbs in French, focussing our
attention on verbs formed with the two suffixes -iser and -ifier. Let us first recall the main
characteristics of the class. Verbs formed on adjectival bases typically behave according to
three syntactico-semantic schemata. First, they can be transitive associated to a causative
interpretation, where the subject NP discharges the thematic role of agent and its referent is
viewed as causing the referent of the direct object NP—which discharges the role of patient or
theme—to acquire a property named by the adjectival base of the verb. Second, they can be
intransitive/unaccusative associated to an inchoative interpretation, where the subject NP
discharges the thematic role of patient or theme, whose referent acquires the property named by
the adjectival base or a higher degree of it. Third, they can be pronominal verbs associated to an
inchoative interpretation, whereby the subject is also the patient or theme, and it is accompanied
by a reflexive clitic pronoun.
As for syntax, deadjectival verbs in Romance typically instantiate the first and third schemata,
e.g. Jean purifie l’eau (J. purifies the water) vs L’eau se purifie (water purifies); less frequently,
one can find the combination of first and second schemata, e.g. Le soleil sèche le linge (the sun
is drying the linen) vs Le linge sèche (the linen is getting dry), or verbs instantiating the three
schemata, e.g. Jean baisse le store (J. lowers the blinds) vs Sa température baisse (the
temperature drops) vs Jean se baisse (J. bends down).
As for morphology, prefixation may coincide with a change of schema, e.g. the prefixed
transitive form in Jean affaiblit les forces de Léa (J. saps L.’s strength) and prefixless
intransitive form Le rythme faiblit (the rhythm slows down), and we purposefully leave aside
the controversial issue of whether verb forms such as faiblir are obtained from adjectives by
conversion or by flexional suffixation. Derivation by suffixation is more clearly at stake when
the verb is combined with one of the two endings -iser, as in fragiliser (fragilize), and -ifier, as
in électrifier (electrify). This type of suffixation offers us a formal criterion for carving out a
subset of deadjectival verbs on which to work. The word formation process that covers this
subset is productive and is a source of neologisms in standard everyday French as well as in
jargon, although the two suffixes differ in frequency of use. 1 The formation of deadjectival
verbs ending in -iser is more productive2 than by using -ifier in absolute terms, and the ratio is
1
2
Some verbs could also be analysed as denominal, which complexifies the quantitative evaluation.
Lignon (2010) claims that the difference is due to phonological factors. Still, there may be interpretive effects
associated with the morphological differences, as in the case of électrifier vs électriser. We plan to come back
to this issue in future work.
275
over one to ten.3 Finally, deadjectival verbs ending in -iser and -ifier have the peculiarity of
being all transitive verbs with causative reading, i.e. being interpreted according to the pattern
make [sth] ADJ and exploiting the first schema.4 The subgroup of verbs ending in -aliser and
-ariser derived from denominal adjectives, e.g. territorialA (territorial) > territorialiserV (give
the legal status of local body to sth), universel A (universal) > universaliser V (make sth.
universal), has been recently studied by Namer (2010). According to Namer, morphologically
these verbs are built on denominal adjectives, but semantically the intermediary adjectival
formation step is skipped in the derivation of some verbs. The semantic content would come
from the meaning of the adjectival stem, as she says that the verb describes a process of
‘providing sth with arterial features’ in (1a), or from the nominal root, as the process in (1b) is
said to be ‘turn a blood vessel into an artery’. Note that Namer does not record the crucial role of
the direct object in effecting the polysemy of the verbs she examines. On the contrary, we
explore ways of making sense of the shades of meaning of these verbs by examining them
together with their arguments and in comparison with some properties of the adjectives they are
built upon.
(1) a. artérialiser: Artérialiser le sang veineux, c’est en modifier l’oxygénation
To arterialize venous blood means to modify its oxygenation
b. artérialiser: Il est préférable d’artérialiser la veine radiale
It is better to arterialise the radial vein
As for semantics, first we observe that adjectives are frequently used to form stative
predicates. However, deadjectival verbs are dynamic, and both causative and inchoative
readings contain an element of change. Second, several subclasses of adjectives can be used as
base, and the discriminating criterion is that a verb can be constructed only on adjectives that
can be used predicatively and specifically only on the readings available for such a use. For the
sake of clarity, recall that an adjective has an attributive function primarily when it is part of an
NP, or precedes the noun in French, and it has a predicative function when it combines with a
copula (Bolinger, 1967). In formal analyses, colour adjectives are considered to be intersective
and are represented as a function from entities to truth values, i.e. of semantic type <e,t>, and
are extensional (Siegel, 1976).5 Usually, this type of analysis is implemented as a conjunction
of unary predicates, so that a red box is something that is ‘red’ and is ‘box’. Evaluative
adjectives such as good do not denote a property on their own, but modify the noun by selecting
a subset of its denotation. Nonintersective adjectives are represented as a function from
common nouns to common nouns. Dimension adjectives, such as big, can also be considered as
subsective, but they presuppose the identification of a comparison class (Klein, 1980) that
allows one to set a standard and judge whether something is big for a member of that class.
Otherwise, the adjective can modify the intension of the noun, e.g. former. Thus, the
qualification expressed by the adjective is understood as a modification of the possible referent
or of the extension of the NP, i.e. intersectively, or the identification of a subset of it, i.e.
subsectively, or of its intension. Admittedly, part of the difficulty in characterising deadjectival
verbs comes from the difficulty in characterising adjectives. This short excursus into formal
3
This difference in frequency might have a morphological justification. Notice that only two types of
adjectives provide suitable stems for deadjectival verbs in -ifier. On the contrary, seven groups of adjectives
provide suitable stems for deadjectival verbs ending in -iser.
4
This behaviour is found with deadjectival verbs in Romance in general, in English deadjectival verbs ending
in -ize or -ise and -ify, and in other languages that inherited the suffixes -izein from Greek and -ificare from
facere in Latin. For instance, Grossmann and Rainer (2004) report similar behaviour and frequency for Italian
deadjectival verbs ending in -ificare and -izzare, but mention a few exceptions that instantiate first and second
schemata, e.g. acidificare (turn sour).
5
Technically, being a property means to have this semantic type.
276
semantics suffices to convince us that the syntactic category ‘adjective’ is not matched with a
unique semantic object. Issues such as how to represent an attribute in formal terms and how to
capture the combinatorial behaviour of adjectives are open to debate.
Going back to deadjectival verbs, intensional adjectives do not have predicative uses and
cannot be used as bases. If they have a double function, such as vieil, e.g. vieil ami (old
friend/longtime friend) in French, it is the predicative use, i.e. the meaning ‘old’, that is used in
forming the verb vieillir. Numbers are also ruled out, but not expressions of frequency, e.g.
triple (triple) admits a predicative use and can form the verb tripler (treble). As for the suffixes
-iser and -ifier, they combine with all the classes of adjectives that can provide suitable bases for
deadjectival verbs, be they simple such as pur (pure), humide (humid), e.g. purifier (purify) and
humidifier (humidify), or constructed such as imperméable (waterproof), e.g. imperméabiliser.
The causative pattern of interpretation describes the typical semantic behaviour of these verbs.
Thus, the adjective can qualify the noun, as in un exercice simple (a simple exercise) and be the
base of a verb, as in simplifier un exercice (simplify an exercise).
The description of the general properties provided in this introduction gives a fairly unitary
and homogeneous image of deadjectival verbs in general and of verbs ending in -iser and -ifier
in particular. A closer look, however, reveals a number of differences in the class, to be
discussed in the following sections. The claim that deadjectival verbs have a causative reading
is generally taken to mean that the adjective base contributes the property whose acquisition6 by
the patient is due to the action of the agent, and the variety of interpretations will be shown not
to jeopardize the unity of this characterisation. We start by considering differences between the
distribution of adjectives as modifiers in a noun phrase (NP) and as base of a verb that
introduces a property attributed to the referent of the same NP in object position, in section 2.
We then consider cases where the parallelism seems to break down, and we appeal to the well
known philosophical distinction between essential and accidental properties to begin to build an
answer, in section 3. The answer is multifaceted, because several aspects of the adjective, and of
the entity it qualifies, have to be taken into consideration, for instance the fact that the object NP
denotes collective entities, in section 4. Then, in section 5, we discuss the interaction of the
distinction between essential and accidental properties with the dynamic nature of deadjectival
verbs. Finally, section 6 recapitulates the main points of the paper.
2 VPs and NPs
In this section, we are going to look at semantic similarities and differences of the relations that
hold between adjective and noun when they are found in two different types of syntactic
configurations, namely the relation head /modifier within a noun phrase—where the head is the
noun and the modifier is the adjective—and the relation head/complement within a verb
phrase—where the head is a deadjectival verb and the complement the NP containing the
relevant noun. Examples (2)-(3) illustrate the case of an adjective that does not always exhibit
the same global meaning, but the constraints ruling the variation inside a modified NP also
apply with respect to the NP complement of the deadjectival verb. These examples confirm the
role of the linguistic context for potential polysemy.
(2) a. Quatre grandes ONG réclament l’arrêt de la pêche industrielle du thon rouge
Four big NGO demand to stop red tuna industrial fishing
b. Tokyo est la première région industrielle du Japon
Tokyo is the first industrial area in Japan
(3) a. Dans les années 60, l’état français décide d’industrialiser la pêche en Méditerranée
In the 60s, the French government decided to industrialize fishing in the Med Sea
6
The issue of whether the change is from ¬P to P, or between degrees of P, and the debate on the
characterization of degree achievement verbs, are beyong the scope of this paper, although we briefly come
back to it it in section 4.
277
b. Industrialiser une région permet d’y créer des emplois
Industrializing a region creates new jobs
When the adjective industriel modifies a noun denoting a production sector (fishing,
agriculture, breeding), it means ‘which uses certain processes of the industry, for example
mechanical strength, and which generally produces great quantities’, while when it modifies a
noun denoting a place (a country or a region) it means ‘where the industry is well developed’.
Similarly, when the deadjectival verb industrialiser takes a noun denoting a production sector
as its internal argument, it means to ‘apply industrial techniques to the production of a certain
sector in order to increase its productivity’, while when it takes a noun denoting a place as direct
object, it means to ‘provide a region with industries’.
The preceding examples have shown that the interpretation of the adjective may vary, but
that the interpretive possibilities open to the adjective when it qualifies a noun, remain available
when it contributes to build a verb. However, this is not always the case. For instance, the verb
scolariser can be used in expressions such as scolariser un enfant (to school a child), although
one cannot apply the adjective scolaire directly to the noun and say *un enfant scolaire (a
school child). Rather, in this type of situation, one usually has to use the past participle of the
verb, e.g. as in un enfant scolarisé (a schooled child). This is not to say that the adjective
scolaire cannot modify a noun in general, and the full acceptability of NPs of the form cantine
scolaire (school canteen) or vacances scolaires (school holidays) easily dispel any possible
doubts.7 Similarly, one can say alphabétiser une personne (alphabetize a person) but the result
of the eventuality described by the VP cannot be described by saying that this person became
*une personne alphabétique (an alphabetical person), but une personne alphabétisée (an
alphabetized person). As in the previous case, the adjective alphabétique (alphabetical) do
occur as a modifier within other NPs, for instance in en ordre alphabétique (in alphabetical
order).
This discussion leads us to the case represented by a VP such as électrifier un fil (electrify a
wire). On the one hand, the property that the patient acquires is not the one with which the
adjective qualifies the same type of noun in an NP, like for scolariser and alphabetiser. On the
other hand, the modified NP un fil électrique (an electric wire) is fully acceptable, as is the NP
with the adjectival use of the past participle un fil électrifié (an electrified wire), contrary to
what seen for scolariser and alphabétiser. The two NPs clearly differ in meaning in French like
in English, as shown in (4).
(4) a. L’enclos est entouré d’un # fil électrique / fil électrifié
The pinfold is surrounded by an # electric wire / electrified wire
b. Un fil électrique longe la paroi
An electric wire follows the wall
This revealing meaning difference rests on the fact that électrique denotes an essential or
necessary property of the wire, while électrifié denotes a more contingent property. The NP fil
électrique denotes a wire that has been built in order to convey electricity or specific types of
signal, while the NP fil électrifié denotes a wire made of a conductive material that, as a
consequence, can contingently convey electricity and this property is actualized. This difference
is foregrounded in the definitions of fil électrique provided in dictionaries (5), that can mention
its function or give a description of its inner constituency. Not surprisingly, there is no
definition of fil électrifié.
7
The English translations show that the use of scolaire to modify a noun in French in expressions such as un(e)
N scolaire has properties analogous to those of nouns in N-N compounds in English, e.g. a school N, a form
described by Wisniewski and Love (1998), see Mezhevich (2002).
278
(5) Fil électrique : fil composé d’un ou de plusieurs brins de cuivre, parfois d’aluminium et
généralement entouré d’une gaine isolante, destiné au transport de l’électricité.
(TLFi, Trésor de la Langue Française informatisé)
Electric wire: consisting of one or several brass threads, sometimes of aluminum and
generally covered with an insulating girdle, intended for carrying electricity.
In sum, we have seen that single adjective forms may be associated with different
interpretations, all available when forming deadjectival verbs. We have then shown that the
property the verb ascribes to its patient may not be expressed directly by the adjective as a
modifier for that type of noun. The discussion of electric wire vs electrified wire has offered us
the opportunity to highlight that the verb may ascribe a property to an entity as one of its
accidental attributes. The distinction in the nature of the attributes deserves more attention and
we turn to it next.
3 The essential vs contingent opposition
Aristotle drew a distinction between essential and accidental properties of an entity. An
accidental property is a property that may or may not belong to an entity. An ‘accident’ is a
property that has no necessary connection to the ‘essence’ of the thing being described. Modern
philosophy and linguistics have adopted the Aristotelian opposition between essential and
accidental properties as the opposition between necessary/definitional and
contingent/temporary properties. Carlson’s (1977) distinction between individual-level and
stage-level proceeds from a similar line of reasoning. Recall that a prototypical deadjectival
verb such as humidifier can be decomposed into humide plus the Latin suffix -ifier, which
means ‘make [sth] humide’ literally. The French deadjectival verb électrifier (electrify) is built
through the same derivational process from the adjectival stem électrique (electric) and means
‘make [sth] electric’, provided that the property denoted by the adjectival stem electric is
understood as a contingent property not as a necessary one. The result of the action of
electrifying a wire is not an electric wire but an electrified wire. An electrified wire must be
made of conductive material, and this can be conceived as an essential property of the material
however when looking at the wire, such property might remain latent property. By electrifying a
‘plain’ wire one contingently turns a latent property into an ‘in action’ one. In the case of
phenomena of physics like electricity there is a necessary dependency between ‘in action’ and
‘latent’. But this needs not be the case in other cases, for instance with verbs derived from
adjectives of nationality. Clearly, Y-ize does not mean ‘make x of nationality Y’, rather ‘make x
to look/behave etc. like a Y’, i.e. the patient does not acquire the nationality identified by the
base but some features typically associated with it, e.g. attitude, outlook, culture, etc. The
process that is identified by saying américaniser une personne results in a situation that can be
talked about as une personne américanisée (americanized) rather than une personne américaine
(American), see (3).
(6) L’année aux Etats-Unis l’a complètement américanisé
The year in the States completely americanized him
On the contrary, linguistic jargon terms offer an example of definitional property. For
example, the phoneme /k/ in French can be palatal or velar depending on its phonetic
environment. If the consonant /k/ is vélarisée (velarized) it becomes une consonne vélaire
(velar) and not une consonne vélarisée (velarized consonant). We come back to this point in
section 5.
279
4 The distinction between singular nouns denoting individual or collective entities
We have observed that the meaning of a deadjectival verb partially depends on the kind of entity
it takes as an argument. Next, note that the direct object can denote entities with different
structures. The referent can be an individual entity or a collective one, e.g. one can scolariser un
enfant (provide a child with schooling) or scolariser une région (provide a region with schools)
or one can électrifier un fil (electrify a wire) or électrifier une région (equip a region with
electric installations). The type of structure of the referent may also have an impact on the
meaning of the deadjectival VP. Let us consider the occurrence of the verb féminiser
(feminise/increase the nb. of women) in the headline of an article (7a), its paraphrase in the
quote from the body of the same article (7b) and its more detailed interpretation spelled out in
another quote (7c).
(7) a. L’Europe veut féminiser la direction de ses entreprises (La Croix, 03/02/2011)
Europe wants to increase the number of women the executive board of its companies
b. Les firmes européennes ont un an pour placer plus de femmes à leurs postes de
direction.
European companies have one year to increase the number of women in executive
positions
c. « Nous voulons 30 % de femmes au sein des conseils d’administration des entreprises
européennes cotées en bourse en 2015 et 40 % en 2020 », indique la commissaire
’We want 30 % women within the boards of directors of European companies on the
Market in 2015 and 40 % in 2020’, says the commissioner
Féminiser means to act so that there are more women than before or more women than men
in absolute terms as a result. The VP allows us to talk about situations where either condition is
met, or where both are met. On the contrary, only if both conditions are met one may be willing
to consider that a profession féminisée has become a féminine (women’s) profession.
Deadjectival verbs are dynamic verbs, they introduce a change. One can analyse the
expression of this change in different ways. The sentence can say that the patient has acquired a
property P, e.g. humidifier un pinceau (humidify a brush), it can also say that the property P at
some degree which corresponds to a salient point, be it a standard or a maximal value, e.g.
purifier de l’eau (purify water). The reading corresponding to the situation where the entity
attains a higher degree of P is available if a differential is overtly expressed, e.g. purifier un peu
l’eau (purify a little the water). This last reading is straightforwardly available for verbs taking a
noun denoting a collective entity as a direct objet (7a), which are associated with a part-whole
structure in an inherent way. It requires the presence of an adverb like ‘a little’ when the
deadjectival verb takes a noun denoting an individual entity as a direct object, because the
adverbial overtly expresses the differential and cancels the default telic interpretation of the
verb. ‘Acquisition of P’ is the default reading for verbs with an individual entity as direct object.
5 Adjectives as clusters of attributes
Given the dynamicity that characterises deadjectival verbs, the property ascribed via a verb is
presented as initially absent in the patient, or present to a lesser degree, thus it may be expected
that only accidental properties are concerned, because essential properties cannot be absent by
definition.
A property P acquired by the patient may be perceived as definitional if three conditions are
met. First, it is a change from ¬P to P, not from a lesser to a higher degree of P. In order to
vélariser une consonne (velarize a consonant), the consonant should not be velar. Second, P is
typically a classificational property and helps to identify a proper subset of the denotation of the
noun, i.e. it is in competition with other properties and there are no possible overlaps in their
280
denotations, e.g. vélariser is understood against the palatal/velar opposition and the acquisition
of P is a toggle in the classification of the referent of the NP. Third, although the members of the
denotation of the noun belong to only one subset at a time, switching class is conceivable. For
instance, the sound of a single consonant can be modified by changing its articulatory place.
Otherwise, the general case seems to be that the patient acquires the property as an accidental
one. A first subcase is identified by taking into consideration the nature of the noun in the NP
discharging the role of patient. The property may be viewed as a classificational one for that
noun, hence the difference in acceptability between cantine scolaire /*scolariser une cantine. If
the property is definitional, it is not possible to ascribe it to the patient via a deadjectival verb. If
it is not definitional, it can be acquired as accidental, hence a child can be scolarisé, but she does
not become *un enfant scolaire. Note the adjectival use of the past participle. Indeed, since the
property scolarisé is accidental, its presence is linked to the event that brought it about and this
is typically done by perfect tense forms. For instance, a region industrialisée is currently rich in
industries and this situation is presented as the result of an expansion of industries. Otherwise,
we can assess the situation at a given moment of time and talk of a region industrielle. A second
subcase is identified by taking into consideration the nature of the adjective. Morphologically
simple adjectives like pur or simple are often seen as expressing properties conceived as units,
unless the adjective is used in a figurative sense. But a property can also be seen as a complex
description. Morphologically constructed adjectives seem more easily perceived to express a
complex of attributes of which only one or some is invoked in the qualification. 8 This is
typically the case for denominal adjectives9, e.g. féminin, industriel, but not just for them, e.g.
électrique, and adjectives that can be paraphrased as ‘relative to the notion N’. As pointed out
several times above, the nature of the noun in the NP object can enhance the selection of a
specific attribute in the cluster expressed by the adjective. This seems to be the case in Namer’s
exemples (1a), where the patient is the blood and the attribute is its gas composition and (1b)
where the patient is a vein and the attribute is the tonus of its walls.
The observation that deadjectival verbs may specialise in the expression of a single attribute
offers an interesting perspective on the presence of a high number of jargon words among the
neologisms in -iser and -ifier. The adjective tropical can be used to talk about the regions of the
earth, their climate, etc. Tropicaliser, like the corresponding English tropicalize, means to
prepare electronic equipment for use in a tropical climate by applying a coating that resists
moisture. A Google search for the infinitive form, dated 04-04-2011, returned 15,700 hits. It is a
layman’s term always used with a technical meaning that refers to one stereotypically selected
attribute, and the patient is a mobile phone or a camera most of the time.
6 Concluding remarks
In this paper, we have tackled the issue of the semantic characterisation of deadjectival verbs by
submitting to a closer scrutiny the relation between an ‘adjective/property’ and a ‘noun/entity’
that has a straightforward realisation within an NP, and a more mediated realisation within a
deadjectival VP. This has allowed us to explain at least some of the differences without giving
up compositionality or trivialising the idea of derivation encoded in the term ‘deadjectival’.
First, it has emerged that deadjectival verbs name a change and contain a dynamic component in
their meaning that cannot be cancelled, whereas adjectives can be used in stative predicates. As
a consequence, in general the patient acquires a property new to it or to a new higher degree, e.g.
humidifier, but the dynamic step of acquisition may emphasize the transient aspect of the
8
9
The idea of selecting one attribute draws on the notion of ‘dimension’ (Bartsch, 1987; Bierwisch, 1989).
Recall that in formal semantics common nouns are properties, and the property of being a book is seen, for
instance, as the cluster formed by attributes such as having a cover and several pages, being bound, etc. The
term ‘relational adjective’ might have come to the reader’s mind. We do not use it, because there is no
consensus on its definition and coverage. In narrow terms, it applies only to adjectives like présidentiel
(presidential) interpreted as meaning ‘relative to N’ for an N denoting an entity, not just any kind of notion.
281
property, triggering the inference that it is accidental. Second, adjective and verb may specialise
for expressing this opposition between static and more definitional property vs dynamic and
more accidental one via pairs formed by adjectives and adjectival past participles, cf. féminine
vs féminisé and the ‘latent’ vs ‘in action’ attribute characterised by électrique vs électrifié. Third,
properties are not always unitary objects. We observe a tendency for derived adjectives to be
understood as expressing clusters of attributes. The methodological move of ‘unpacking’ the
meaning of an adjective opens the possibility of talking about the dependency between the
selection of one or several attributes and either the noun that is modified in an NP, e.g. industrial
fishing vs industrial country, or the object NP of a deadjectival verb, e.g. industrialise the
fishing vs industrialise a country. Notice, however, that the selection of an attribute may also be
frozen/stereotypical, cf. the case of tropicalise.
References
Bartsch, R. (1987). The construction of properties under perspectives. Journal of Semantics 5, 293–320.
Bierwisch, M. (1989). The semantics of graduation. In M. Bierwisch and E. Lang (Eds.), Grammatical and
conceptual aspects of dimensional adjectives, pp. 71–261. Berlin: Springer.
Bolinger, D. (1967). Adjectives in English: Attribution and predication. Lingua 18, 1–34.
Carlson, G. N. (1977). Reference to Kinds in English. Ph. D. thesis, University of Massachusetts at Amherst.
published by Garland Publishing Inc., 1980.
Grossmann, M. and F. Rainer (Eds.) (2004). La formazione delle parole in italiano. Tübingen: Niemeyer.
Klein, E. (1980). A semantics for positive and comparative adjectives. Linguistics and Philosophy 4, 1–45.
Lignon, S. (2010). Les suffixations en -iser et en -ifier : vérifier les données pour vériser les hypothèses ? In
Decembrettes7, Colloque International de Morphologie.
Mezhevich, I. (2002). English compounds and Russian relational adjectives. In Proceedings of the North Western
Linguistic Conference, pp. 95–114.
Namer, F. (2010). Adjectival bases of French -aliser and -ariser verbs: syncretism or under-specification? In
Decembrettes7, Colloque International de Morphologie.
Siegel, M. (1976). Capturing the adjective. Ph. D. thesis, University of Massachusetts at Amherst.
Wisniewski, E. and B. Love (1998). Relations versus properties in conceptual combination. Journal of memory
and Language 38, 177–202.
282
Ulland Harald
University of Bergen
[email protected]
LOOKING FOR SEMANTICALLY EMPTY SUPPORT VERBS:
THE CASE OF THE VERBS FORETA AND UTFØRE IN NORWEGIAN
Abstract
It has often been said that verbs that are exclusively support verbs do not exist. Support verbs will
always be "derived" from ordinary verbs having the same form. At least one of the two
norwegian verbs 'foreta' and 'utføre' seem to be a counterexample to this rule. Another statement
about support verbs that has been made, is that no support verb is entirely semantically empty.
They will always carry some sort of meaning. In this respect, it is important to distinguish two
kinds of meaning: lexical and grammatical.
Keywords: support verbs, semantic emptiness, predicate, argument structure, norwegian.
1. Terminological and definitional remarks
This article treats some theoretical issues involved in support verb constructions, illustrated by
the case of the two verbs foreta and utføre in Norwegian. In the literature, the most widely used
terms for the type of verbs concerned here, are light verbs (coined by Jespersen 1965) and
support verbs. Some authors make use of both terms. The term support verb has at least one
advantage: it takes into account the fact that the verb is the support of something, which is not
implied in the term light verb in itself. In French, the term verbe support is widely used (Gross
1981, etc.), whereas in German, the term Funktionsverb (Polenz 1987) seems to be the most
frequent1. The combination of the verb and the supported item (usually a noun, an adjective or a
prepositional phrase), is called Funktionsverbgefüge in German, construction à verbe support in
French and light verb construction or support verb construction in English.
There are various definitions of the phenomenon. One that could serve as a starting point for
our discussion, is the definition given by The Prague Dependency Treebank:
Support verb constructions or light verb constructions are multi-word predicates consisting of a semantically
empty verb which expresses the grammatical meanings in the sentence, and a noun (frequently denoting an event
or a state), which carries the main lexical meaning of the entire predicate. A support verb construction forms a
single multi-word lexical unit for which an appropriate synonymous expression can usually be found in the form
of a one-word predicate. Cf.: talk → have a talk, to claim → to make a claim, to limit → to impose a limitation,
to be interested → to show interest. The existence of an adequate synonymous one-word expression is not
however necessary for regarding a certain collocation of a semantically empty verb and a meaning-bearing noun
as a support verb construction. The following parts of complex predicates are distinguished: the verbal part of a
support verb construction (support verb), the nominal part of a support verb construction (predicate noun), i. e.
1
According to Pontonx (2004), the term ‟Funktionsverb‟ has a wider extension than the term ‟verbe support‟,
because it includes causative verbs as well, which is not the case for the French term.
283
the dependent noun, which carries the lexical meaning of the entire predicate. (The Prague Dependency Treebank,
homepage consulted 23 June 2011)
The salient features of our phenomenon according to this definition should be then:
- a support verb construction is a multi-word predicate and forms a single multi-word unit
- the semantically empty verb expresses the grammatical meanings in the sentence
- the noun carries the main lexical meaning
2. The predicate/argument structure of support verb constructions
One important issue that merits attention is the predicate/argument structure of support verb
constructions, as opposed to other types of sentences. This is important because many authors do
not sufficiently stress the distinction line between support verb constructions and verbal idioms.
But there is also another division line to be drawn: the one between support verb constructions
and free syntax. This could be illustrated by the following examples of verb+noun combinations
in French:
(1) Paul gifle Ida
(2) Paul donne une gifle à Ida
(3) Paul a cassé la gueule à Ida
The predicate of the first example is clearly the verb gifler, and there are two arguments: Paul
and Ida. The third example, with an idiomatic verbal expression meaning to smash somebody's
face or to beat the shit out of somebody has a complex predicate, casser la gueule, and the two
arguments Paul and Ida. In the second example, we have what is often referred to as a predicative
noun, so we could say that the noun gifle is the predicate, and the arguments are the same as in
(1) and (3). The second example illustrates the only controversial part of this, because some
linguists would say that the V+N combination constitutes the predicate, just like in (3). But I
would claim that it is a better solution to make a clearcut distinction between (1), (2) and (3) in
terms of predicate / argument-structure, and say that we have three different scenarios:
(1') verbal predicate
(2') nominal predicate
(3') verbo-nominal predicate
Alternatively, the possibility exists to interpret both (2) and (3) as having V+N "complex
predicates", but to make a distinction saying that in (2) the noun is the "principal predicative
element", whereas in (3) neither the verb nor the noun could be considered as the principal
predicative element. This terminological distinction is made by Lamiroy et al. 2009:62-63. An
argument in favour of a simple one word predicate in (2) would in my opinion be the fact that
donner and gifle can be separated (whereas casser and gueule cannot) and donner can even be
deleted in a nominalization (whereas casser cannot):
(2a) La gifle que Paul donne à Ida (est très forte)
(2b) La gifle de Paul (est très forte)
(3a) * La gueule que Paul a cassé à Ida
(3b) * La gueule de Paul
284
Whatever the terminological implications might be, there is no doubt that the distinction line
between support verb constructions and verbo-nominal idiomatic expressions is an important one.
This is perhaps particularly true for computational extraction experiments, like the one carried
out by Laporte et al. (2008), where the authors state in their conclusion that "thus, it appears
important to make the distinction between SVCs [= support verb constructions] and verbal
idioms".
3. Support verb semantics
In the Prague Dependency Treebank (PDT) definition given above we see that the verbal part of
an SVC is described as "semantically empty". This is also the view of Mel'čuk (2004:204), who
claims that “un Vsupp est sémantiquement vide”. The "emptyness" of support verbs is, however,
something that has been much discussed, and there seems now to be agreement about the fact that
not all support verbs are (completely) empty when it comes to semantic content. Barrett and
Davis (2003) talk about "a semantically impoverished verb". Storrer states that the verb
component is "semantically reduced, when compared to its main verb meaning". Several linguists
use expressions like "little or no meaning" to describe the semantic content of support verbs.
There are also linguists who claim that some support verbs convey meaning whereas others do
not. In many cases, it all depends on the answer to the question "What is meaning?". For instance,
the PDT definition above talks about "grammatical meanings" on the one hand, and "the main
lexical meaning" on the other hand. A similar distinction is made by Blanco and Buvet
(2004:329), in their discussion of "la notion de „signification grammaticale‟ ". As a matter of fact,
the meaning, if any, conveyed by the support verb, is in many cases something that could be
described in purely grammatical terms as, for instance, aspectual. Thus, it could be said that the
support verb faire is semantically empty, whereas the support verb multiplier is conveying an
iterative aspectual meaning in French in examples like
(4) Sarkozy fait une intervention
(5) Sarkozy multiplie les interventions
If we also take into account verbs like nourrir (as opposed to e.g. avoir) in examples like
(6) Lyon a l'espoir de se qualifier
(7) Lyon nourrit l'espoir de se qualifier
we could talk about three classes of support verbs: SVs without meaning, SVs with grammatical
meaning and SVs with metaphorical meaning. But we also know that the three verbs used to
illustrate this classification, are not always used as support verbs. The verbs faire, multiplier and
nourrir can also be used as ordinary verbs. We want to investigate now whether this is the case
for all support verbs, taking as example the case of two Norwegian verbs, foreta and utføre.
285
4. The verbs foreta and utføre in Norwegian
In bilingual dictionaries, the two verbs we want to discuss are described as follows:
foreta
utføre
E
undertake, make, carry out, do
do, carry out, perform, execute, discharge, accomplish
F
entreprendre, procéder à, faire, opérer
accomplir, exécuter, faire, réaliser
G
unternehmen, vornehmen
ausführen, verrichten
S
emprender, hacer
efectuar, realizar, ejecutar
Table 1: Equivalents of foreta and utføre in some other languages (English, French, German and
Spanish) according to bilingual dictionaries.
As we all know, the equivalents given by the dictionaries are not always what is used in real
translations, so we have made a research on a bilingual corpus (The Oslo Multilingual Corpus)
with translations from Norwegian into French in order to see how the two verbs are translated. In
order to interpret the overall results of this investigation, we must take into account that there are
principally three cases to consider: (a) The support verb construction (SVC), consisting of V+N,
is translated by V+N, (b) the SVC is translated by an ordinary verb, i. e. V+N is translated by V,
(c) there is no translational equivalent of the support verb (in this case there will often be a N to
N correspondence for the nominal part of the SVC). Here are the overall results for the French
translations of foreta and utføre:
foreta
V+N => V+N
utføre
29
60
V+N => V
8
0
V+N => N
6
19
43
79
Total
Table 2: Translational equivalents of Norwegian support verb constructions with „foreta‟ and
„utføre‟
An example for each of the three cases could serve as an illustration:
(8) V+N => V+N
De foretar en utvelgelse
They "foreta"(Present tense) a selection
Ils opèrent une sélection
(9) V+N => V
Tidlig på 800-tallet pleide vikingene å foreta mindre angrep langs kyster og elver.
Early on 800-the years used the vikings to "foreta" minor attacks along coasts and rivers.
Au début des années 800, les Vikings avaient l'habitude d'attaquer le long des côtes et des fleuves.
286
(10) V+N => N
Var det mulig å foreta en rekonstruksjon etter psykologiske eller etniske studier?
Was it possible to "foreta" a reconstruction after psychological or ethnical studies?
Une reconstitution était-elle possible à partir des études psychologiques ou ethnologiques?
To see what foreta and utføre correspond to as support verbs in French, we have counted the
equivalents in the V+N => V+N category (29 examples for foreta and 60 examples for utføre).
The most commonly used equivalents in French are:
foreta:
faire
opérer
prendre
amorcer
10
5
3
2
utføre:
exécuter
faire
accomplir
effectuer
commettre
se livrer à
peindre
remplir
11
11
10
5
2
2
2
2
We can see that both foreta and utføre are often translated into French faire, but, besides, it is
possible to talk about typical equivalents of foreta and typical equivalents of utføre when we
compare these Norwegian verbs with French support verbs.
5. Nouns used with foreta and utføre
Besides investigating whether the two verbs are always support verbs, it would be interesting to
see if they appear with the same nouns or with different nouns as their syntactic objects (or
subjects in passive sentences). We have examined this by means of a corpus of the web editions
of some Norwegian newspapers, using the online concordance service Glossanet. The most
striking outcome of this investigation is the fact that the two verbs both co-appear with a large
variety of nouns. But when we take a look at the frequence of the co-appearing nouns, we can see
that there are some interesting differences.
Nouns used with foreta, by frequence:
undersøkelse (“investigation”)
vurdering (“assessment”)
77
30
287
avhør (“examination”)
gjennomgang (“going over”)
valg (“choice”)
26
20
13
Nouns used with utføre, by frequence:
arbeid (“work”)
undersøkelse (“investigation”)
oppgave (“task”)
angrep (“attack”)
handling (“action”)
drap (“murder”)
oppdrag (“assignment”)
test (“test”)
jobb (“job”)
måling (“measurement”)
operasjon (“operation”)
87
85
39
38
36
32
31
29
28
19
18
Clearly, some nouns are typically used with foreta, and other nouns with utføre, but one noun
(undersøkelse) is very frequent with both verbs. Besides the typical use of either foreta or utføre,
it is important to see if one of the verbs could be described as agrammatical with any of the nouns
used with the other verb. A test on the nouns of the two lists yields the following results:
(11) *utføre vurdering, *utføre gjennomgang; but: utføre avhør, utføre valg is possible
(12) *foreta oppgave, *foreta jobb; elsewhere: possible (sometimes only with the plural form of
the noun)
The overwhelming majority of the nouns are abstract nouns, something which is a prerequisite
for being qualified as predicative nouns. A closer look at the corpus shows that the verb „foreta‟
is exclusively used with abstract nouns, and is always a support verb, whereas the verb „utføre‟
can in addition to its use as a support verb also be used with one particular type of concrete nouns,
denoting art objects, like paintings, statues and so on. This use of „utføre‟ may correspond to e.g.
„peindre‟ in French, here illustrated by an example from the translation corpus:
(13)
Visjon er et av de mer outrerte symbolistiske maleriene Munch utførte i 1892.
Vision est l‟une des toiles les plus résolument symbolistes peintes par Munch en 1982.
But the majority of the examples with „utføre‟ are with an abstract predicative noun. And
absolutely all the examples with „foreta‟ are, as we said, support verb constructions. So the verb
„foreta‟ is clearly a counterexample to the statement “a light verb is always form-identical with a
main verb” (Butt and Lahiri 2002).
288
6. Grammatical meaning of the support verbs foreta and utføre
The verb utføre has of course a lexical meaning when it is used as an ordinary verb. This is the
case when it co-appears with a noun denoting an art object. When utføre (most cases) and foreta
(all cases) are used as support verbs, we will describe their semantic content as grammatical
meaning. We will not deny that there are differences between them. A look at the translational
equivalents in French, could give a clue to the nature of these differences. The examples of foreta
being translated into prendre and amorcer, and the examples of utføre being translated into
accomplir and remplir are indications showing that foreta might be said to convey more of an
inchoative sense and the verb utføre more of a terminative aspectual sense, even though this is
not very clearcut in all cases. What is important to have in mind, however, is the important
distinction that should be made between lexical meaning and grammatical meaning. Whereas the
verbs we have studied could be said to convey grammatical meaning (in some cases, but
supposedly not all), they cannot be said to convey any lexical meaning.
7. Concluding remarks
We can conclude that the two Norwegian verbs are semantically empty if we define
"semantically empty" as "carrying no lexical meaning". At least one of the two verbs (foreta)
seems to be exclusively a support verb, i.e. not being the counterpart of an ordinary verb having
the same form. As for the other one (utføre), it seems to be used almost exclusively as a support
verb, but it can be used as an ordinary verb as well, with a concrete object. The investigation of a
translation corpus shows that there is no one-to-one correspondence between each of the two
Norwegian support verbs and French support verbs. The same translation corpus gives some
clues as to how to interpret differences in grammatical (aspectual) meaning between foreta and
utføre.
289
References
Barrett, Leslie and Anthony R. Davis. 2003. “Diagnostics for Determining Compatibility in English
Support-Verb-Nominalization Pairs”. Lecture Notes in Computer Science, 2003, Volume 2588/2003,
205-212
Blanco, Xavier and Pierre-André Buvet. 2004. ”Verbes supports et significations grammaticales”.
Lingvisticae Investigationes 27:23; 327-342
Butt, Miriam and Lahiri, Aditi. 2002. Historical Stability vs. Historical Change, unpublished Ms.,
http://ling.uni-konstanz.de/pages/home/butt/.
GlossaNet 2 (A Linguistic Search Engine for RSS-based Corpora): http://glossa.fltr.ucl.ac.be/
Gross, Maurice (1981). Les bases empiriques de la notion de prédicat sémantique, Langages 63, Paris:
Larousse.
Jespersen, Otto. 1965. A Modern English Grammar on Historical Principles, Part VI, Morphology.
London: George Allen and Unwin Ltd.
Lamiroy, Béatrice (coord.) 2009. Les Expressions verbales figées de la francophonie : Belgique, France,
Québec et Suisse
Laporte, Eric, Ranchhod, Elisabete and Yannacopoulou, Anastasia. 2008. ”Syntactic Variation of Support
Verb Constructions”. Lingvisticae Investigationes 31, 2; 173-185.
Mel'čuk, Igor. 2004. ”Verbes supports sans peine”. Lingvisticae Investigationes 27:2; 203-217
Oslo Multilingual Corpus: http://www.hf.uio.no/ilos/english/services/omc/
Polenz, P. 1987. “Funktionsverben, Funktionsverbgefüge und Verwandtes. Vorschläge zur
satzsemantischen Lexikographie”. Zeitschrift für germanistische Linguistik.
Pontonx, Sophie de. 2004. “Les verbes supports métaphoriques”. Lingvisticae Investigationes 27:2; 265282.
Prague Dependency Treebank 2.0: http://ufal.mff.cuni.cz/~toman/pedt_manual/ch05s01s02.html
Storrer, Angelika. ”Nominalizations in German Support Verb Constructions”: http://www.unistuttgart.de/linguistik/sfb732/files/abstract_storrer.pdf
290
Valetopoulos Freiderikos
Université de Poitiers
[email protected]
Lamprou Efi
Université de Chypre
[email protected]
LES VERBES SUPPORTS DES NOMS DE SENTIMENTS EN GREC MODERNE :
NOUVEL ETAT DES LIEUX
Resume
Dans le cadre de cette communication, nous souhaitons proposer un cadre méthodologique pour
l’étude des prédicats de sentiments, en partant des verbes supports. Les classifications et les
descriptions déjà proposées dans les différents travaux sont établies à partir de certaines
propriétés syntaxiques et sémantiques qui sont souvent hétérogènes. Notre objectif est donc de
proposer un cadre méthodologique plus homogène. Nous souhaitons plus précisément mettre les
bases d’une étude plus approfondie qui prendra en compte les difficultés que nous rencontrons
quand on étudie les verbes supports des sentiments. Pour illustrer notre démarche, nous
proposons l’étude des prédicats appartenant aux classes sémantiques <amour> et <haine>.
Mots clés: sentiments, verbes supports, classe sémantique, amour, haine.
1 Introduction
Ces dernières années, nombreux sont les chercheurs hellénophones qui se sont penchés sur
l’étude des propriétés syntaxiques et sémantiques des prédicats de sentiments en grec moderne,
dans le cadre de différentes approches théoriques. La plupart des travaux s’inscrivent dans les
cadres du lexique-grammaire et des classes d’objets. Nous pouvons mentionner, entre autres, les
travaux de Lamprou (1999, 2009), de Gavriilidou (2002), de Valetopoulos (2003, 2005, 2007,
2009), qui s’inscrivent dans le cadre des classes d’objets, et de l’équipe Fotopoulou,
Moustaki, Mini et Pantazara (2008a, 2008b), dans le cadre du lexique-grammaire.
Toutes ces études ont mis les bases d’une étude globale des prédicats d’états psychologiques
en se fondant plutôt sur une distinction en trois catégories, les sentiments, les émotions et les
humeurs. Selon le cadre théorique, la terminologie peut changer. Mais une étude plus
approfondie des propriétés syntaxiques et sémantiques montre que cette distinction n’est pas sans
problème et que plusieurs propriétés sont partagées de trois classes. Ainsi, les classifications
globales nous paraissent difficiles ou même sans fondements linguistiques.
Notre objectif est de proposer un nouvel état des lieux concernant les verbes supports des
sentiments en grec. Nous souhaitons plus précisément mettre les bases d’une étude plus
approfondie qui prendra en compte les difficultés que nous rencontrons quand on étudie les
verbes supports des sentiments. Si les verbes supports génériques sont έρω, ληώζω et αηζζάλνκαη,
avec les problèmes de traduction qu’on connait (Catena & Lamprou, 2009 ; Valetopoulos, 2007),
il nous semble indispensable de se poser certaines questions concernant les critères qu’on doit
prendre en considération pour une description plus détaillée.
C’est pour cette raison que nous souhaitons se concentrer sur les prédicats qui expriment la
haine et l’amour. A priori, ces prédicats appartiennent à la classe sémantique traditionnellement
appelée sentiments (voir Flaux & Van de Velde, 2000, Lamprou, 2004, Valetopoulos, 2007 ; ces
prédicats correspondent au 1er groupe décrit dans Pantazara et al. 2008). Or cette appartenance
qui répond à des critères syntaxiques comme la présence de deux arguments ou l’absence d’un
complément de cause est loin de constituer la source d’autres propriétés sémantiques ou lexicales
communes.
291
Notre approche prend sa source dans des besoins précis ; tout d’abord dans les difficultés de
l’enseignement que cette classe sémantique pose quand elle est enseignée à des apprenants
allophones, ou quand les apprenants hellénophones apprennent le français (entre autres Baider &
Valetopoulos, 2010), ainsi que dans les problèmes rencontrés en lexicographie bilingue
(Valetopoulos & Lamprou, 2011).
2 Méthodologie
Avant de passer à l’étude des verbes supports des classes sémantiques sélectionnées, nous
souhaitons tout d’abord définir notre terminologie. Pour tout ce qui relève de verbe support, nous
adoptons le principe qu’il sert d’actualiser les prédicats nominaux et adjectivaux et qu’il est
prédicativement vide. Pour autant, nous ne maintenons pas le principe du verbe sémantiquement
vide (Gross, 1981) ; les verbes ληώζω et αηζζάλνκαη ne semblent pas avoir perdu leur sens initial.
Il existe également les verbes supports appropriés qui sont des verbes supports mais résultant de
métonymies, de métaphores et de tropes, en général, et qui définissent une classe sémantique
(Gross, 1994). Par ailleurs, nous pouvons également proposer les verbes supports nuancés qui
sont des variantes aspectuelles ou d’intensité des verbes supports basiques. Enfin, l’étude des
verbes supports et de toutes les propriétés des prédicats nous permet de proposer des classes
sémantiques, des ensembles de prédicats qui ont les mêmes propriétés sémantico-syntaxiques.
Ces classes peuvent être des hyperclasses, comme les prédicats d’<état psychique> ou des
hypoclasses, comme celles que nous étudierons dans la cadre de cette communication et qui sont
définis par leurs différences avec les autres hypoclasses appartenant à la même hyperclasse.
3 Définir les verbes supports de la classe sémantique des sentiments
Dans cette section, nous étudierons les tests proposés dans les différents travaux afin de conclure
si un verbe est un verbe support. Nous nous concentrerons uniquement sur les verbes mentionnés
dans les différentes études linguistiques, ainsi que les dictionnaires consultés, έρω, ληώζω et
αηζζάλνκαη1. Nous pouvons organiser les propriétés qui sont pertinentes pour le grec en deux
sous-groupes : ceux qui portent sur le verbe (3.1) et ceux qui portent sur le nom prédicatif (3.2).
3.1 Verbe prédicativement vide
Le verbe support doit avoir à priori un sens réduit par rapport au sens de la forme verbale
sémantiquement pleine. Cela se traduit par le blocage de la nominalisation (2), par le blocage de
la coordination avec un nom non prédicatif (3), par la reprise par un verbe prédicatif
morphologiquement associé (4), par la possibilité d’omission du verbe support (5)2. Ainsi, si l’on
étudie le nom απέρζεηα ‘indignation, dégoût’, nous remarquons les transformations suivantes :
(1) Σηελ πξνθεηκέλε πεξίπησζε έρνπκε έλαλ όριν πνπ ηνλ έρνπλ εθπαηδεύζεη λα ληώζεη
κίζνο πξνο ηελ Δύζε.
Dans ce cas précis, nous avons un peuple qui a été formé à ressentir de la haine envers
l’Occident.
(2) *ε αίζζεζε ηνπ κίζνπο (ηνπ όρινπ + από ηνλ όριν) πξνο ηε Δύζε.
*Le sentiment de l’indignation du peuple envers l’Occident.
(3) *Ο θόζκνο έρεη κίζνο γηα ηνπο δεκνζίνπο ππαιιήινπο θαη ηα κεγάια ζπίηηα.
*Les gens ont de la haine envers les fonctionnaires et les grandes maisons.
1
L’étude a été fondée sur l’analyse d’un corpus de langue de 2 000 000 de mots.
Certains tests proposés dans les travaux pour le français, l’anglais ou l’allemand (voir entre autres Giry-Schneider,
1987 ; Langer 2004) ne sont pas pertinents pour le grec moderne.
2
292
(4) Σηα ρξόληα ηνπ ΔΝΤ: Τν Κεθάιαην κηζεί ηνλ θξαηηζκό θαη δεηά θξαηηθέο εγγπήζεηο γηα
πςειά θέξδε.
Dans les années du FMI : le capital hait l’étatisme et demande avoir de la part de l’Etat les
garanties de bénéfices élevés.
(5) ην κίζoο ηνπ όρινπ πξνο ηε Δύζε.
La haine du peuple envers l’Occident.
Il faut souligner que tous les prédicats nominaux ne sont pas susceptibles d’avoir un verbe
prédicatif ou un adjectif prédicatif morphologiquement associés. Par exemple,
(6) πάζνο ‘passion’ - παζηαζκέλνο ‘passionné’ - παζηάδσ ‘passionner’ - παζηάδνκαη ‘se
passionner’ mais ζηνξγή ‘tendresse’ - ζηνξγηθόο ‘tendre’
3.2 Référentialité de la phrase nominale prédicative
Les tests suivants portent sur la référentialité des noms prédicatifs : la pronominalisation (7), la
détermination (8), l’interrogation (9), et la coordination avec d’autres noms prédicatifs (10). Plus
précisément, la pronominalisation en grec se fait plutôt en externe par la reprise par une phrase
relative :
(7) Νηώζεη απνζηξνθή πξνο ην κίζνο πνπ είδε λα αλαπηύζζεηαη αλάκεζα ζηνπο γνλείο ηνπ.
Il éprouve de l’indignation envers la haine qu’il a vu se développer entre ses parents.
La contrainte sur les déterminants est une propriété qui dépend à la fois du nom prédicatif et du
verbe support. La présence du déterminant indéfini έλαο, κηα, έλα (on trouve une première
analyse de certaines données dans Gavriilidou, 2002 et Valetopoulos 2009) semble être soumise à
plusieurs restrictions qui n’ont pas encore été étudiées. Par exemple :
a. la présence du déterminant pour atténuer/amplifier la force sémantique du prédicat
psychologique :
(8) Αξρίδσ θαη ληώζσ έλα κίζνο γηα ζπγθεθξηκέλνπο "αλζξώπνπο".
Je commence à ressentir une certaine pour des quelques personnes précises.
b. la présence d’un modifieur adjectival permet la présence d’un déterminant :
(9) Νηώζσ έλα ζθνδξό κίζνο γηα ηε γελέζιηα πόιε κνπ.
Je ressens une haine féroce pour ma ville de naissance.
c. la lecture généralisante permet l’absence du déterminant :
(10) Κνηηάδσ πξνζερηηθά ηνλ θόζκν θαη γηα ό,ηη δελ κνπ αξέζεη, αξρίδσ λα ληώζσ κίζνο.
Je regarde attentivement le monde et je commence à sentir la haine pour tout ce qui ne me
plaît pas.
En ce qui concerne l’interrogation, le verbe support ne semble pas être à l’origine de la question
par ηη ‘que’ mais cette propriété est très discutable (Langer, 2004).
(11) ?Τη ληώζεη ην παηδί γηα ηα δσάθηα ηεο γεηηνληάο;
Qu’éprouve-t-il l’enfant envers les animaux du quartier ?
Enfin, la coordination avec d’autres noms prédicatifs est possible. La coordination avec des noms
non prédicatifs rend la phrase agrammaticale. Par exemple,
(12) Έρνπλ ζπλαηζζήκαηα : αηζζάλνληαη ραξά, ιύπε, αγάπε, κίζνο θαη αγαλάθηεζε, όπσο
όινη καο, «δε ζέινπλ» όκσο λα ηα εθθξάζνπλ.
Ils éprouvent des sentiments : ils ressentent la joie, la tristesse, l’amour, la haine et
l’indignation, comme nous tous, mais ils ne veulent pas les exprimer.
3.3 Quelques remarques complémentaires
Tous les critères présentés jusqu’ici nous permettent d’en conclure que les verbes ληώζω,
αηζζάλνκαη et έρω sont des verbes supports. Pour autant, il existe des noms prédicatifs qui
semblent nous poser certains problèmes d’analyse. Certains noms de sentiments ne sont pas
293
susceptibles d’admettre tous les verbes cités ci-dessus. Il a déjà été démontré (Valetopoulos,
2007) que les prédicats empruntés au turc (κεξάθη ‘regret, peine’, ζεβληάο et ζεθιέηη ‘chagrin
d’amour’ ou θέθη ‘bonne humeur’) sont plutôt susceptibles d’admettre le verbe έρω que les
verbes ληώζω et αηζζάλνκαη. L’hypothèse initiale étant que ces noms forment des expressions
relativement figées, nous pouvons facilement constater qu’ils répondent à tous les tests présentés
jusqu’ici. Ainsi, il semble que la cause du blocage des autres verbes supports est plutôt d’ordre
sémantique. Ces sentiments qui expriment l’intensif de l’amour ou du chagrin d’amour se
comportent finalement comme des <maladies> (pour une première analyse de cette hypothèse
voir Valetopoulos, 2007 et 2009).
(13) έρσ κεξάθη, έρσ ληαιθά, έρσ ζεβληά θαη πόλν.
j’ai de la peine, j’ai du chagrin, j’ai des chagrins et des peines.
4 La classe sémantique amour
D’après la lexicographie hellénophone, il existe une gradation entre les prédicats αγάπε et
έξωηαο : le prédicat αγάπε est un terme générique, neutre pour décrire une relation sentimentale
entre deux personnes. Ce sentiment s’associe avec les sentiments d’amitié ‘θηιία’, de tendresse
‘ζηνξγή’, de sympathie ‘ζπκπάζεηα’ ou de fidélité ‘αθνζίσζε’. C’est l’amour de l’homme pour
Dieu ou pour son voisin, un amour sincère et profond. Le terme έξωηαο désigne la relation
passionnée développée entre deux personnes, incluant l’attirance et l’envie charnelle, c’est-à-dire
le sentiment de passion ‘πάζνο’. Examinons les propriétés syntaxiques de ces deux
« sentiments ».
4.1 Le prédicat nominal αγάπε
Le verbe morphologiquement associé dispose de la syntaxe active N0 αγαπώ N1, dans laquelle le
sujet syntaxique est le siège psychologique du verbe. Dans le cas du nom prédicatif les verbes
supports sont ληώζω et αηζζάλνκαη. Le verbe έρω est de loin le moins utilisé avec une fréquence
de présence dans notre corpus de moins de 10%. Il faut souligner qu’à notre avis le verbe έρω
n’est pas présent dans les mêmes contextes que les deux autres verbes. Alors que les verbes
ληώζω et αηζζάλνκαη se trouvent dans des phrases dont le N1 est presque exclusivement humain,
le verbe έρω est plus générique et est rencontré dans des phrases dont le N1 peut être inanimé
abstrait ou inanimé concret :
(14) Έρεη αγάπε γηα ηελ γλώζε, αιιά θάλεη ιάζε θαη κπνξεί λα απνγνεηεύεηαη εύθνια.
Il a l’amour de la connaissance mais il fait des erreurs et il peut être déçu facilement.
Les verbes supports appropriés peuvent être divisés en quatre catégories générales :
- ceux qui montrent que le siège psychologique manifeste son amour : δείρλω ‘montrer’,
εθδειώλω ‘exprimer’ et leurs variantes métaphoriques πεξηβάιιω κε αγάπε ‘entourer
d’amour’, αγθαιηάδω κε αγάπε ‘entourer d’amour’, πξνζθέξω ηελ αγάπε κνπ ζε ‘offrir
mon amour à’ ;
- ceux qui montrent l’intensité du sentiment : θιέγνκαη ‘brûler de’, πιεκκπξίδω ‘inonder
de’, θαίγνκαη ‘brûler de’, μερεηιίδω ‘déborder de’, γεκίδω ‘être rempli de’, ζθηξηάω
‘tressaillir’, κεζώ ‘s’enivrer’ ;
- ceux qui expriment la causalité, comme εκπλέω ‘imposer’, πξνθαιώ ‘provoquer’, ou
θεξδίδω ‘gagner’ ;
- ceux qui constituent des variantes métaphoriques, comme ηξέθω ‘nourrir’.
En ce qui concerne les adjectifs appropriés, nous pouvons relever les classes sémantiques
suivantes :
294
la <pureté> : αγλόο ‘pur’ ; et dans un sens métaphorique αδειθηθόο ‘fraternel’, κεηξηθόο
‘maternel’ ;
- la <parenté> : αδειθηθόο ‘fraternel’, κεηξηθόο ‘maternel’, παηξηθόο ‘paternel’ ;
- l’<intensité> : δωεξή ‘vif’, ζεξκή ‘ardent’, παξάθνξε ‘fougueux’, ζθνδξή ‘fougueux’,
ηπθιή ‘aveugle’, ηξειή ‘fou’, ππεξβνιηθή ‘excessif’, θινγεξή ‘enflammé’ ;
- l’< extension> : απέξαληνο ‘immense’, απεξηόξηζηνο ‘infini’, κεγάινο ‘grand’, αηώληνο
‘éternel’ ;
- la <sincérité> : εηιηθξηλήο ‘sincère’, άδνινο ‘sincère’.
Les adjectifs morphologiquement associés à la racine prédicative αγαπ- sont :
- αγαπεζηάξεο ‘1. affectueux, tendre ; 2. celui qui tombe amoureux très facilement ; 3.
digne d’être aimé’ ;
- αγαπεκέλνο et πνιπαγαπεκέλνο ‘(très) aimé’ ;
- αμηαγάπεηνο ‘digne d’être aimé’ ;
- αλαγάπεηνο ‘qui ne peut pas être aimé’.
-
4.2 Le prédicat nominal έξωηαο
Le verbe morphologiquement associé dispose de la syntaxe passive N0 εξωηεύεηαη N1, dans
laquelle le sujet syntaxique est le siège psychologique du verbe. Le prédicat έξωηαο a les mêmes
verbes supports de base que αγάπε. Ils se partagent par ailleurs les mêmes verbes supports
d’intensité (θιέγνκαη ‘brûler de’, πιεκκπξίδω ‘inonder de’, θαίγνκαη ‘brûler de’, μερεηιίδω
‘déborder de’, γεκίδω ‘être rempli de’, ζθηξηάω ‘tressaillir’, κεζώ ‘s’enivrer’) ainsi que les mêmes
adjectifs d’intensité. Le sentiment de έξωηαο peut être κεγάινο ‘grand’, παξάθνξνο
‘irraisonnable’, ζθνδξόο ‘véhément’, ηξειόο ‘fou’, θινγεξόο ‘fervent’. Ces propriétés communes
montrent l’intersection qui existe entre les deux sentiments qui se partagent certaines propriétés à
cause du fait que αγάπε est le sentiment général.
Pour autant, nous pouvons facilement souligner certaines propriétés qui différencient ces deux
sentiments. Ainsi, prenant en compte les propriétés aspectuelles des deux sentiments, nous
constatons que έξωηαο peut accepter des adjectifs comme θεξαπλνβόινο ‘foudroyant’ ou
μαθληθόο ‘soudain’ qui montrent que la racine prédicative αγαπ- désigne un état psychologique
stable sans précision de durée ou de limites temporelles alors que la racine prédicative εξωηinsiste plutôt sur le début d’un état psychologique.
5 La classe sémantique haine
Nous examinons maintenant les sentiments négatifs exprimant plutôt des situations ou des états
désagréables. Selon la lexicographie hellénophone, les prédicats κίζνο ‘haine’, ερζξόηεηα
‘inimitié’, έρζξα ‘animosité’, απέρζεηα ‘dégoût’ dénotent des sentiments d’hostilité exprimant un
état d’âme volontaire et désagréable éprouvé par un (lecture univoque) ou au moins par deux
lieux psychologiques, l’un vis-à-vis de l’autre et vice-versa (lecture réciproque) :
(15) Ο Πέηξνο θαη ε Μαξία ληώζνπλ κεγάιν κίζνο (γηα ηα δώα + ν έλαο γηα ηνλ άιινλ).
Paul et Marie éprouvent une haine profonde (pour les animaux + l’un pour l’autre).
(16) Οη πνιηηηθνί θαη νη δεκνζηνγξάθνη ληώζνπλ κίζνο νη κελ γηα ηνπο δε.
Les hommes politiques et les journalistes éprouvent de la haine les uns pour les autres.
Cette lecture réciproque est assurée également par l’adjectif ακνηβαίνο ‘mutuel’ :
(17) Μαθξόρξνλε ακνηβαία απέρζεηα κεηαμύ ηεο εμνπζίαο θαη ηεο κνξθσκέλεο θνηλσλίαο.
Un dégoût mutuel et de longue durée entre le pouvoir et la société civilisée.
Cette hostilité qui caractérise la classe des «sentiments négatifs» est traduite syntaxiquement par
la préposition ελαληίνλ θπ/θη ‘à l'encontre de’. Même si elle peut permuter avec γηα ‘pour’, ou
πξνο ‘envers’ la préposition ελαληίνλ θπ/θη constitue, pourtant, une propriété définitoire pour ce
295
groupe de noms étant donné qu'elle ne peut pas figurer dans les phrases à prédicat tel que amour
ou sympathie :
(18) Δύζθνιν λα πεξηγξάςεη (ην κίζνο+ηελ απέρζεηα+*ηελ αγάπε) ηνπ ελαληίνλ ηεο
Ακεξηθήο.
Difficile à décrire (la haine + le dégoût + l’amour) à l’encontre des Etats-Unis.
S’agissant des états hostiles intenses, ils se combinent avec des opérateurs d’intensité ou
d’atténuation tout en se rapprochant des prédicats αγάπε et έξωηαο. Cependant, κίζνο et απέρζεηα
ne semblent pas partager les mêmes verbes :
(19) (Ξερείιηζε από κίζνο) + (πιεκκύξηζε κε κίζνο).
(*Il a débordé de haine) + (*il a été inondé de haine).
(20) Τειεπηαία κε θαηαθιύδεη ζε αζθπθηηθό βαζκό κία αηειείσηε απέρζεηα.
Ce dernier temps, un dégoût étouffant commence à m’inonder.
Les prédicats κίζνο et απέρζεηα ont une intensité dégradable (scalaire) et par conséquent ils
peuvent évoluer et arriver à des situations incontrôlables. Ils sélectionnent ainsi des adjectifs qui
montrent qu’il s’agit d’états d’âme forts comme par exemple l’adjectif ηπθιόο, qui se combine
avec κίζνο, ou πιήξεο, qui s’associe plutôt avec απέρζεηα. Μίζνο semble être un sentiment
passionnel, incontrôlable et, pour cette raison, il sélectionne l’adjectif ηπθιόο, ce qui n’est pas le
cas pour le nom de sentiment απέρζεηα :
(21) Νηώζεη (ηπθιό+*πιήξεο) κίζνο/(*ηπθιή+πιήξε) απέρζεηα γηα ηελ πνιηηηθή.
Il éprouve une haine (aveugle+*totale)/un dégoût (*aveugle+total) pour la politique
La cause est aussi un paramètre qui caractérise à la fois la classe des sentiments désagréables
mais aussi elle sert d’outil pour séparer les prédicats κίζνο et απέρζεηα en deux classes
différentes. Quant à la causalité, le classifieur αίηην ‘cause’ se combine avec ces deux prédicats :
(22) Αλαδεηνύλ ηα βαζύηεξα αίηηα ηεο απέρζεηαο ησλ καζεηώλ.
Ils recherchent les causes les plus profondes du dégoût des élèves.
En ce qui concerne la diversité entre les prédicats κίζνο et απέρζεηα, ces derniers partagent le
causatif πξνθαιώ ‘provoquer’, mais ce n’est pas le cas pour le verbe ππνθηλώ ‘inciter’:
(23) Η δήιηα πξνθαιεί κίζνο θαη απέρζεηα.
La jalousie provoque la haine et le dégoût.
(24) Η θηώρεηα ππνθηλεί ην κίζνο κεηαμύ ησλ ιαώλ.
La pauvreté provoque la haine entre les peuples
S’agissant d’états psychologiques négatifs, nous constatons que le N0 ou la cause du sentiment
est toujours d’ordre négatif.
5.1 Le prédicat nominal κίζνο
Le prédicat κίζνο comme αγάπε en grec moderne dispose d’une construction active No κηζεί N1.
Ses arguments ne semblent pas appartenir uniquement à la classe <humain> :
(25) Η Αζήλα κηζεί ηνπο θαηνίθνπο ηεο.
Athènes hait ses habitants.
(26) Μηζώ ην ςέκα θαη ηελ ππνθξηζία.
Je hais le mensonge et l’hypocrisie.
Μίζνο partage les verbes supports des sentiments, ληώζω et αηζζάλνκαη, alors que la combinaison
avec έρω semble problématique. Il s’associe aussi avec les verbes supports ππάξρεη (κεηαμύ) ‘il y
a (entre)’, ζπλδέεη ‘associer’ ce qui traduit le caractère relationnel de ce sentiment :
(27) Υπάξρεη έληνλν ηαμηθό κίζνο κεηαμύ ηνπο.
Il y a une grande haine entre eux due à leur classe sociale.
(28) Τνπο ζπλδέεη θνηλό κίζνο.
296
Ce qui les associe c’est une haine commune.
Comme nous le constatons, les adjectifs ακνηβαίνο ‘mutuel’ et θνηλόο ‘commun’ est un autre
moyen linguistique qui met en évidence le caractère relationnel de cet état psychologique partagé.
Cette même propriété est assurée par le verbe ρωξίδω ‘séparer’ qui est sémantiquement
compatible uniquement avec κίζνο. Il ne traduit pas seulement le caractère relationnel du
sentiment mais il confirme aussi son caractère « négatif » :
(29) Τνπο ρσξίδεη άζπνλδν κίζνο.
Ils sont séparés par une haine irrévocable.
Les verbes supports appropriés peuvent être divisés en trois catégories générales :
- ceux qui expriment la causalité, comme ζπέξλω ην κίζνο θαηά ‘semer la haine contre’,
ληθά ‘gagner’, γελλά ‘naître’ ;
- ceux qui constituent des variantes métaphoriques, comme πέθηω ζύκα ζην κίζνο (ηνπ)
[tomber victime de sa haine], απαιιάζζνκαη από ην κίζνο κνπ ‘être exempté de’,
θαιιηεξγώ κίζνο ζε θπ ‘cultiver’, αλακνριεύω ην ‘renforcer’, ππνδαπιίδω ην κίζνο
‘enflammer la haine’, απνπλέω ‘exhaler’, θαηέρνκαη ‘être envahi’, μερεηιίδω déborder’ ;
- ceux qui montrent que le siège psychologique manifeste son sentiment : εθθξάδω
‘exprimer’, κνηξάδνκαη ‘(se) partager’, δείρλω ‘montrer’, εθδειώλω ‘manifester’, θξύβω
‘cacher’.
En ce qui concerne les adjectifs appropriés, nous pouvons relever les classes sémantiques
suivantes :
- <siège de S> : ηαμηθό ‘de classe’, ακνηβαίν ‘mutuel’, θνηλό ‘commun’, θπιεηηθό ‘racial’,
εζληθό ‘national’ ;
- <d’intensité> : ηξειό ‘fou’, ηπθιό ‘aveugle’, απύζκελν ‘sans fond’, ζαλάζηκν ‘mortel’.
5.2 Le prédicat nominal απέρζεηα
Le prédicat απέρζεηα dispose le verbe morphologiquement associé απερζάλνκαη de voix passive
qui a une lecture univoque No απερζάλνκαη N1. Nous pouvons retrouver moins facilement ce
verbe dans la construction à lecture réciproque :
(30) * ?Ο Γηώξγνο θαη ε Μαξία απερζάλνληαη ν έλαο ηνλ άιινλ
[Georges et Maria se détestent l’un l’autre].
La construction à Vsup semble, en revanche, plus naturelle :
(31) Ο Γηώξγνο θαη ε Μαξία ληώζνπλ (απέρζεηα ν έλαο γηα ηνλ άιινλ + ακνηβαία απέρζεηα)
George et Maria éprouvent du dégoût l’un pour l’autre + un dégoût mutuel.
Quant à son actualisation, le prédicat απέρζεηα partage les mêmes verbes supports avec κίζνο. Si
έρω semble problématique avec κίζνο, il ne l’est moins avec απέρζεηα (dans la majorité de cas, le
N1 appartient à la classe <aliments> et <humains> :
(32) Είρα απέρζεηα (γηα ηελ ηξνθή + γηα ην ξαηζηζκό + ζηνπο πνιηηηθνύο).
Je ressentais du dégoût (pour la nourriture + pour le racisme + pour les hommes
politiques)
Les verbes qui caractérisent ce prédicat sont θαηαθιύδω ‘submerger’ et αλαπηύζζω ‘développer’.
Quant aux adjectifs appropriés, nous pouvons citer les adjectifs suivants : πιήξεο ‘total’, θαλεξόο
‘évident’, εκθαλήο ‘apparent’, ζηρακεξόο ‘dégoûtant’, εγγελήο ‘inné’, επίθηεηνο ‘acquis’.
297
6 En guise de conclusion
Dans cet article, nous avons abordé la question de la description des prédicats de sentiments. Vu
la complexité des noms appartenant dans cette classe,
nous considérons que les
sentiments doivent être étudiés selon une analyse exhaustive et précise en prenant en compte la
combinatoire dans sa totalité (opérateurs verbaux, verbes supports, variantes concernant l’aspect
intensif, d’atténuation, opérateurs causatifs). Ainsi, nous avons constaté tout d’abord que les
verbes ληώζω, αηζζάλνκαη et έρω sont des verbes supports, et que leur sélection dépend de
contraintes sémantiques. Par ailleurs, nous avons montré que les deux prédicats exprimant
l’amour, αγάπε et έξωηαο, ne sont pas de vrais synonymes et qu’ils ont des propriétés syntaxiques
et sémantiques différentes. Il est de même des prédicats appartenant à la classe sémantique de la
haine.
Références
Anscombre, J.-C. 1995. « Morphologie et représentation événementielle : le cas des noms de sentiments et d’attitude
». Langue Française 105, 40-54.
Antoniou, J. 1984. Syntaxe et métaphore des verbes psychologiques en grec. Thèse de Doctorat. Université Paris VII.
Baider, F. & F. Valetopoulos. 2010. « Quand la langue traduit les sentiments : Apprentissage de la peur et de la
surprise dans une langue étrangère ». Communication au colloque international Le lexique entre identités
culturelles et genres textuels. Université de Vérone. 11-13 novembre 2010.
Buvet, P.-A., Girardin, Ch., Gross, G. & Cl. Groud. 2005. « Les prédicats d’<affect> ». LIDIL 32, 123-143.
Catena, A. & E. Lamprou. 2009. « Les prédicats d’affect dans des dictionnaires monolingues coordonnés
espagnol/grec/français ». In Novakova, I. et A. Tutin (éds). Le lexique des émotions. Editions : PUG. 103-126.
Flaux, N. & D. Van de Velde. 2000. Les noms en français : esquisse de classement. Paris : Ophrys.
Gavriliidou, Z. 2002. « La détermination des noms de sentiment en grec moderne ». Langages 145. 83-96.
Giry-Schenider, J. 1987. Les prédicats nominaux en français. Genève : Librairie Droz.
Gross, G. 1994. « Classes d’objets et description des verbes ». Langages 115 : 15-30.
Gross, M. 1981. « Les bases empiriques de la notion de prédicat sémantique », Langages 63, Paris, Larousse, p. 752.
Gross, M. 1998. « La fonction sémantique des verbes supports », Travaux de linguistique 37, Louvain-la-Neuve,
Duculot, p. 25-46.
Lamprou, E. 1999. « Η ζεκαζηνινγηθή πνηθηιία ησλ επηβνεζεηηθώλ ξεκάησλ ». Studies in Greek 19, 80-101.
Lamprou, E. 2004. Les noms de <réciprocité> en français : étude syntactico-sémantique. Thèse du 3ème cycle.
Université Paris XIII
Langer, S. 2004. « A linguistic test battery for support verb constructions ». Linguisticae Investigationes : Special
Issue 27/2, 171-184.
Moustaki, A., Pantazara, M., Fotopoulou, A. & M. Mini. 2008a. « Comment traduire les noms d’émotions : étude
contrastive entre le grec moderne et le français ». Discours 3, [en ligne], mis en ligne le 23 mai 2009. URL :
http://discours.revues.org/index3873.html. Consulté le 26 février 2011.
Pantazara M., Fotopoulou A., Mini M. & A. Moustaki. 2008B. « La description des noms de sentiments du grec
moderne ». Linguisticae Investigationes : Special Issue 31/2, 323-331.
Tutin, A., Novakova, I., Grossmann, F. et C. Cavalla. 2006. « Esquisse de typologie des noms d’affect à partir de
leurs propriétés combinatoires ». Langue Française 150, 32-49.
Valetopoulos, F. 2003. Les adjectifs prédicatifs en grec et en français : de l’analyse syntaxique à l’élaboration des
classes sémantiques. Thèse du 3ème cycle. Université Paris XIII.
Valetopoulos, F. 2005. « Ce que vous pensez des autres et que vous n'osez pas dire : le dictionnaire de la jalousie et
de l’admiration ». LIDIL 32, 67-82.
Valetopoulos, F. 2007. « L’intégration syntaxique des emprunts turcs en grec : le cas des prédicats psychologiques ».
In Baider, F. (éd.). Emprunts linguistiques, Empreintes culturelles : Métissage orient-occident. Editions :
L’Harmattan. 51-68.
Valetopoulos, F. 2009. « Deux structures de locutions verbales pour exprimer le sentiment en grec moderne ». In
Novakova, I. et A. Tutin (éds). Le lexique des émotions. Editions : PUG. 227-248.
Valetopoulos, F. & E. Lamprou, 2011, « Les marques de niveaux de langue et la lexicographie bilingue français –
grec », in Baider, F, E. Lamprou & M. Monville-Burston (éds), La Marque en lexicographie. États des lieux et
voies d’avenir, Limoges, Lambert Lucas.
298
Varga Lidia
Université Paris-Est
[email protected]
VERBE SUPPORT ET NOMS PRÉDICATIFS À L’ACCUSATIF DU
HONGROIS
Abstract
This article presents a first description of the support verb constructions in Hungarian (SOV,
OVS and free-word order language), in particular the constructions with predicative name in
accusative case as lépést tesz (step make), döntést hoz (decision make) according to the
definition of M. Gross (1981).
Keywords: support verb, predicate noun, hungarian, lexicon-grammar.
Résumé
Cet article présente une première description des constructions à verbe support, notamment des
noms prédicatifs à l’accusatif du hongrois comme lépést tesz (pas faire), döntést hoz (décision
prendre) dans le cadre du lexique-grammaire (M. Gross (1981).
Mots-clés: verbe support, hongrois, lexique-grammaire, nom prédicatif.
1 Introduction
Les techniques d’extraction d’informations dans de grands corpus consistent, entre autres, à
détecter des noms prédicatifs, porteurs potentiels d’informations. Les noms prédicatifs
apparaissent le plus souvent dans des constructions à verbe support (CVS).
Dans cet article nous présentons une première approche de la description des propriétés
formelles des CVS à nom prédicatif à l’accusatif (Npred-ACC) du hongrois comme lépést tesz
(pas-ACC faire), döntést hoz (décision-ACC prendre), en les positionnant par rapport à la
notion de verbe support définie dans le cadre du lexique-grammaire (M. Gross, 1981).
Après une brève présentation du cadre théorique et de l’état de l’art sur les constructions à
verbe support du hongrois, nous rappellerons quelques particularités de la langue hongroise,
langue ouralienne. Nous décrivons ensuite les propriétés formelles des noms prédicatifs à
l’accusatif (Npred-ACC) dans l’optique d’une utilisation en traitement automatique des langues
(TAL).
2 Cadre théorique de notre étude et définition générale des CVS
Les verbes supports ont été introduits par Z.S. Harris (1964) et décrits pour le français par M.
Gross (1976, 1981) au LADL1 selon la théorie et méthodologie du lexique-grammaire où
l’unité d’analyse minimale est la phrase élémentaire comprenant un prédicat et des arguments.
Le verbe support (Vsup) désigne un verbe ayant comme objet (direct ou indirect) un nom
prédicatif (Npred) doté d’un déterminant ou pas, et qui peut recevoir des modifieurs en
expansion. Le verbe n’est qu’un support et le nom constitue le véritable noyau prédicatif de
l’expression. Le Npred est en relation coréférentielle obligatoire avec l’argument sujet (No).
Les CVS peuvent être réduites à des groupes nominaux en effaçant le Vsup suivi des
1
Laboratoire d’Automatique Documentaire et Linguistique, Université Paris 7.
299
arguments ou d’une partie des arguments sans perdre leur sens à part l’actualisation. Le verbe
support a un apport faible du point de vue sémantique et peut prendre en charge l’aspect. Les
constructions à verbe support se situent entre les syntagmes libres et les expressions figées.
Les critères de départ de notre description des CVS du hongrois sont ceux mentionnés cidessus.
Sans prétendre à l’exhaustivité nous mentionnons également les travaux de Giry-Schneider,
J. (1978, 1987), G. Gross (1989), L. Danlos, (2009) ; pour les langues SOV typologiquement
éloignées du français les travaux de Gerdes K. & P. Samvelian (2008) pour le persan et de S.H. Han (2000) pour le coréen ; A. Ibrahim (2002) pour l’arabe, M. Alonso Ramos (2001) pour
le persan, le basque et le japonais.
3 Etat de l’art et délimitation de notre étude
En hongrois, le prédicat est traditionnellement analysé par l’oposition thème/rhème,
topique/comment, ou nouveau/ancien. Les études sur les CVS mettent l’accent plutôt sur la
sémantique et la stylistique et ne sont exhaustives. Il existe une grande variété dans la
terminologie ainsi que dans l’interprétation des CVS du hongrois. Les termes « complex verb
structure », «light verb construction», « construction à verbe de fonction » ou « construction
semi-compositionnelle » sont également utilisés pour des constructions nom+verbe qui
regroupent souvent des expressions libres (könyvet olvas, Npred-ACC V, (livre lire), Webet
böngész (Web surfer), des expressions figées (helyet foglal), Npred-ACC V, prendre place)
et/ou des CVS ( tanácsot ad, donner conseil) sans distinction claire entre elles. Par exemple,
dans les travaux récents de V. Vincze (2009), les constructions semi-compositionnelles
comportent un verbe et un nom, chacun ayant un rôle prédicatif. L’auteur applique les
fonctions lexicales de Mel’cuk (1997) à ces constructions :
Oper1 (döntés) = [~t] hoz ’make a decision’.
Labor12 (számítás) = [~ba] vesz ’take into account’.
Func1 (alkalom) = nyílik ’a possibility emerges’.
Selon la définition de B. Keszler (1995), les CVS sont des noms à suffixes casuels
adverbiaux ou accusatifs suivis d’un verbe de fonction dépourvu de sens qui fait partie
intégrante de la construction. La relation syntaxique est exprimée par le cas assigné au
complément, mais le contenu sémantique est porté par le groupe nominal. Cette définition est
proche des Funktionsverbgefüge de l’allemand (P. Polenz, 1963) et inclut des constructions à
caractère adverbial qui ne sont pas unaniment considérées comme des CVS en français.
Nous avons distingué trois types de constructions susceptibles d’être des CVS, selon le cas
qui peut être attribué au Npred :
Npred au cas nominatif (sans suffixe), alkalom nyilik (occasion se présente)
Npred à cas adverbial Vsup - mozgásba lendül (se mettre en mouvement).
Npred à l’accusatif Vsup – lépést tesz, (faire pas)
Ces constructions montrent des comportements morphosyntaxiques différentes. Dans la
présente étude nous nous limitons à la description des constructions à verbe support à Npred à
l’accusatif (Npred-ACC Vsup) sans prétendre à obtenir une définition valable pour toutes les
constructions citées.
300
4 Quelques spécificités du hongrois
Le hongrois est une langue agglutinante opérant avec 18 -23 cas2. L’ordre de mots prédominant
est SOV (sujet-objet-verbe) selon la classification de J.H. Greenberg (1966), mais l’ordre SVO
(sujet-verbe-objet) est également très fréquent. De plus, l’ordre de mots libre est aussi retenu
comme caractéristique du hongrois (E. Kiss, 2002).
La position du focus occupe la place privilégiée devant le verbe. Cette place peut être
occupée par un nom, adverbe, adjectifs ou préfixe verbal formant avec le verbe un continuum
phonologique et une cohésion sémantique forte dans l’ordre de mots neutre3.
L’identification des CVS est difficile dans la mesure où malgré la cohésion très forte de la
séquence nom+verbe, elle peut être quand même dissociée suivant des règles grammaticales,
par exemple : inversion d’ordre des mots (OV → VO) en cas de négation, de mise en relief,
d’ajout de déterminant défini à Npred, etc. (cf. : § 5.1.1).
Le hongrois possède un système préfixal riche4. Dans une phrase neutre, le préfixe est
attaché au verbe. Il se détache suivant des règles grammaticales et peut être postposé au verbe.
Une grande partie des combinaisons préfixe-verbe ne sont pas répertoriées dans les
dictionnaires classsiques et electroniques.
5 La construction Npred-ACC Vsup
Le hongrois et très riche en dérivations morphologiques et les grammaires traditionnelles
minimisent l’importance des CVS et font correspondre l’expression des actions ou activités à
des prédicats verbaux, facilement dérivables de substantifs. Or, nous trouvons des CVS à nom
prédicatif à l’accusatif dans des textes juridiques dès le XVI-XVII siècles : döntést hoz
(prendre décision) (E. Zsilinszky 1996). Dans une étude sur les prédicats de mouvement du
hongrois, nous avons également montré l’importance des CVS dans la langue courante (L.
Varga, 2007). Nous en avons répertorié un grand nombre dans le Corpus National du hongrois
(HNC)5 : lépést tesz (faire pas), zajt csinál (bruit faire), előadást tart (exposé faire) fordulatot
tesz (tour faire, tourner), kört tesz, faire tour), kerülőt tesz (détour faire).
Les verbes supports les plus fréquents sont tesz (faire), hoz (porter), ad (donner), kap,
(recevoir), csinál, (faire). Leur fréquence varie selon les classes sémantiques des Npred et, par
extension, du domaine en question.
5.1 La construction à Npred-ACC et propriétés formelles
Afin de pouvoir élaborer des dictionnaires électroniques des CVS, c’est-à-dire des noms
prédicatifs et de leurs verbes supports, il faut pouvoir les distinguer des emplois
distributionnels et des expressions figées. Pour définir des propriétés morpho-syntaxiques des
CVS nous avons appliqué quelques tests linguistiques et avons défini une forme canonique de
celle-ci. Nous les présentons dans les paragraphes suivants.
5.1.1 Forme canonique, dictionnaires et CVS
Pour pouvoir créer des entrées de dictionnaires électroniques gérables par des logiciels
linguistique comme Unitex (S. Paumier, 2008) et pouvoir mieux distinguer les CVS d’autres
constructions, nous avons fixé comme forme canonique des CVS la séquence avec un Npred à
déterminant zéro. Par déterminant zéro nous comprenons que le nom n’a pas de déterminant
(article), n’accepte pas de suffixe possessif, mais peut accepter le suffixe du pluriel :
2
Leur nombre varie selon les linguistes.
Dans la littérature les termes : ordre de mots neutre, forme canonique ou ordre de mots de base sont souvent
considérés comme des termes synonymes. En hongrois, l’ordre de mots neutre est l’ordre de mots où aucun des
éléments de la phrase n’est mis en relief. Dans certains cas une phrase n’a pas d’ordre de mots neutre.
4
Le hongrois compte 44 -74 préfixes verbaux, leur nombre varie selon les linguistes.
5
Le corpus contient 187,6 millions de tokens.
3
301
1)
Max mejegyzést
tesz.
No
N1pred-ACC
Vsup
Max remarque
fait
Max fait une (des) remarque(s).
2) Max megjegyzéseket tesz.
No Npred-PL-ACC Vsup
Max remarques
fait
Max fait des remarques.
L’ajout de déterminants (article, suffixe du possessif), de quantifieurs (numéraux, adverbes de
quantité) peut changer l’ordre des mots de la phrase : l’ordre de mots OV bascule en VO et la
construction garde à peu près le même sens. Par exemple, avec le quantifieur « un » l’ordre des
mots neutre de la phrase (1) devient VO :
3)
Max fait un remarque-ACC
Max tesz egy mejegyzést,
La forme VO avec déterminant est une transformation syntaxique des CVS à Npred-ACC et ne
change pas essentiellement le sens de la construction. Il s’agit d’une est même construction.
L’article zéro n’y est pas fixe. Nous notons que certains Npred du français acceptent également
plusieurs déterminant dont l’article zéro. (J. Giry-Schneider, 1991).
Un ordre de mots différents peut aussi cacher une expression figée. Dans l’exemple cidessous, le Npred est défini par le suffixe du possessif. L’ordre de mots canonique est SOV:
4)
Max tiszteletét
teszi
Marinál.
No
ACC faire
respect-POSSMarie-DAT
Max rend visite à Marie.
Ici, l’ordre de mots neutre coïncide avec l’ordre de mots canonique (SOV), malgré une
focalisation (mise en relief) apparente du Npred, plus exactement l’analyse ne peut pas se faire
pour un élément mais pour l’ensemble de l’expression en cas de figement.
Pour résumer, nous devons faire une distinction entre ordre de mots neutre et canonique. En
entrée de dictionnaire nous sélectionnons un ordre de mots canonique des CVS qui est, en
général, un ordre de mots neutre. Une CVS représentée en entrée, peut subir plusieurs
transformations d’ordre de mots.
5.1.2 L’extraction contrastive
Les expressions figées n’acceptent pas l’extraction contrastive. Celle-ci consiste à mettre en
position de focus (préverbal) l’élément que nous voulons mettre en relief. Dans l’exemple
suivant, la phrase n’est correcte que dans l’interprétation « réserver une place », emploi
distributionnel, mais pas dans le sens « s’asseoir ».
5) Helyet foglal nem szobàt.
N1-ACC V
non N2-ACC
(Il réserve un espace (place) et non pas une chambre d’hôtel)
Les CVS accepte difficilement l’extraction constrastive. Cependant si les Npred sont du même
domaine et que les 2 Npred en question ont le même Vsup la phrase parait acceptable :
6)
(?)Döntést hozott nem itéletet.
L’extraction contrastive n’est donc pas un test
fiable pour définir les CVS.
302
5.1.3 Les CVS à modifieur obligatoire
Les CVS comme mozdulatot tesz (geste faire), kört tesz (tour faire), utazást tesz (voyage faire)
ne sont acceptables ou considérés stylistiquement correctes qu’avec un déterminant, un
numéral ou un modifieur adjectival (*?)6 :
7)
*? Max
utazást
tett
Afrikába.
Max
Max
voyage-ACC
Vsup
a fait (un, des ) voyage(s) en Afrique.
Max
No
(izgalmas+szép)
(passionnant+ beau)
utazást
voyage-ACC
Afrique-ILL
tett
fait-Vsup
Afrikába.
Afrique-ILL
Max a fait (un,des) (beau(x) voyage(s) passionnant(s) en Afrique.
Ces constructions permettent d’ajouter des modifieurs que la forme verbale n’accepte pas
toujours :
8)
(*)Max
(izgalmasan+szépen)
utazott
* Max
(passionnément+joliment)
a voyagé
5.1.4 Effacement du verbe support
Les verbes supports sont vides de sens ce qui peut être testé par l’effacement du Vsup. Après
relativation et l’effacement du Vsup, le prédicat forme un groupe nominal en gardant ses
arguments et le sens à part l’actualisation :
9)
Pál
adott
egy csókot
Leának.
No
Paul
Vsup
a donné
Det Npred-ACC
un baiser
N2-DAT
à Léa
Pál
csókja
Paul le baiser-POSS
Le baiser de Paul
(G. Gross, 1989)
Leának
Léa-DAT
à Léa
5.1.5 Relation entre le sujet et le nom prédicatif
L’argument sujet est co-référent avec le nom prédicatif d’où une contrainte sur les
déterminants du Npred :
10) Pál odaadta (a rózsámat+a testvérének a rózsáját) Leának.
Paul a donné (ma rose + la rose de son frère)
à Léa
Pál odaadta (*a csókómat + *a tesvére csókját) Leának
Paul a donné (*mon baiser + *le baiser de son frère) à Léa
6
V
Vsup
Des puristes considèrent les constructions à verbe support à Npred à l’accusatif comme des structures
agrammaticales d’où des appellations plutôt péjoratives encore utilisées de nos jours : terpeszkedő, terjengős
kifejezések (expressions redondantes) (P. Heltai – M. Gósy, 2005).
303
5.1.6 Relation de synonymie entre adjectif et adverbe
Dans le cas des noms prédicatifs il est possible d’établir une correspondance entre un adverbe
et son adjectif donnant lieu à une synonymie :
11) Pál adott egy gyengéd csókot Leának.
Paul a donné un baiser tendre à Lea.
Adj
Pál gyengéden adott egy csókot.
Paul a donné tendrement un baiser.
Adv
Cette substitution n’est pas possible dans le cas des verbes distributionnels :
12)
Max gyengéden
adott egy rózsát
Leának.
No tendrement
a donné une rose
Lea-DAT.
Max a tendrement donné une rose à Léa.
*Max adott egy
gyengéd
rózsát.
Max Vsup un
tendre-Adj
rose-ACC
Paul a donné (*une rose gentille) à Léa.
5.1.7 Nom prédicatif et équivalent verbal
Les noms prédicatifs sont souvent leur équivalent verbal : lép (V) → lépés (N), dönt (V) →
döntés (N), utazik (V) → utazás (N) sans que cela soit automatique. Par exemple, certains
mouvements complexes sont exprimés à l’aide de noms prédicatifs composés relativement
longs qui n’ont pas de correspondant verbal :
13)
A
pilóta zuhanórepülést
végez.
Det
No
effectue
Npred-ACC
Le pilote a effectué un piqué.
Le Npred zuhanórepülés est un substantif composé d’un adjectif zuhanó (tombant) et d’un
substantif repülés (vol), mais le verbe *zuhanórepülésezik n’existe pas.
5.1.8 Test de nominalisation
La formation de mot composé à partir du Npred et du Vsup en nominalisant le Vsup est un test
de degré de lexicalisation donc un test d’acceptabilité d’un mot. La nominalisation n’est pas
toujours possible pour des CVS pourtant grammaticalement correctes :
14) lépést tesz (faire pas) →*lépéstétel (N),
15) döntés hoz → döntéshozatal (N).
Une étude reste à mener pour en trouver les explications linguistiques.
5.1.9 Extension aspectuelle
Les verbes supports peuvent être porteurs de sens aspectuel. L’aspect peut être exprimé, entre
autres, à l’aide de l’ajout de préfixe verbal ou à l’aide de suffixe dérivationnel. Le préfixe
304
verbal meg- est l’un des rares préfixes verbaux dont le sens directionnel s’est effacé avec le
temps et qui peut se combiner avec les CVS en question pour marquer l’aspect accompli :
16) Max
meg|tette
No
Pref Vsup
Max a fait le pas.
a
lépést.
Det
Npred-ACC
Certains verbes supports peuvent accepter les suffixes dérivationnels -gat, -get -gal, -gél qui
expriment une répétition ou une diminution de l’intensité de l’action ou activité décrite par le
Npred. Cette combinaison n’est pas systématique et est à étudier cas par cas :
17) Tanácsot adogat (Donner des conseils régulièrement)
18) Lépéseket *teszeget.
Nous notons qu’en hongrois, la transformation passive où le complément à l’accusatif d’objet
direct de la phrase active devient sujet de la phrase passive n’existe pas et ne peut donc pas être
un test pour les CVS :
19) (F) Paul a donné des conseils ↔
(H) Pál tanácsokat adott.
Des conseils ont été donnés par Paul.
*Tanácsok lettek adva Pál által.
6 Conclusion
Dans cette étude nous avons défini les constructions à verbe à support (CVS) du hongrois
contenant des noms prédicatifs à l’accusatif (Npred-ACC Vsup) à l’aide de critères formels.
Nous avons cosntaté que les principaux critères utilisés pour le français sont applicables au
hongrois, excepté le test du passif. Des propriétés spécifiques comme les contraintes sur les
préfixes verbaux et les suffixes dérivationnels des verbes supports, les variations d’ordre des
mots des CVS ont été également étudiées. Ces spécifications morpho-syntaxiques de base
pourront contribuer au développement des dictionnaires electroniques des CVS, à l’extraction
des noms prédicatif dans de gros corpus ainsi qu’à la traduction automatique.
Références
DANLOS, L. (2009), « Extension de la notion de verbe support ». Volume d'hommage à Christian Leclère, Cahiers
du Cental, Presses Universitaires de Louvain, 81-90.
E. KISS, K. (2002), The syntax of Hungarian. Cambridge University press.UK.
GERDES K. & SAMVELIAN, P. (2008) « Les constructions à verbe support en persan. Une approche statistique »,
27e Colloque international sur le Lexique et la Grammaire, L'Aquila.
GIRY-SCHNEIDER, J. (1978). Les nominalisations en français. L’opérateur « faire » dans le
Lexique, Droz, Genève.
GIRY-SCHNEIDER, J. 1987. Les prédicats nominaux en français. Les phrases simples à verbe support, Genève:
Droz.
GIRY-SCHNEIDER, J. (1991), « L'article zéro dans le lexique-grammaire des noms prédicatifs » in Langages, 25e
année, n°102, 23-35.
GREENBERG, J. H. (1966), « Some Universals of Grammar with particular Reference to the order of meaningful
Elements ». In J.Greenberg (ed) Universals of Language. Cambridge:The M.I.T.Press, 73-113.
305
GROSS, G. (1989), Les constructions converses du français. Droz, Genève.
GROSS, M. (1981), « Les bases empiriques de la notion de prédicat sémantique ».Langage 63 : 7-52. Larousse,
Paris.
GROSS, M. (1976), « Sur quelques groupes nominaux complexes », in J.-C. Chevalier & M. Gross (Ed.),
Méthodes en grammaire française, Paris, Klincksieck.
HAN, S.-H. (2000), Les prédicats nominaux en coréen : Construction à verbe support hata, Thèse de doctorat,
Université de Marne-la-Vallée. HONG C.-S.
HARRIS, Z.S. (1964) «The Elementary Tranformations, Transformations and Discourse
Analysis Papers 54», dans Harris, Zellig S. (1970), Papers in Structural and Transformational Linguistics,
Dordrecht, Reidel.
HELTAI, P. & GÓSY, M. « A terpeszkedő szerkezetek hatása a feldolgozásra », ~nyelvor/period/[étude sur
l’emploi des expressions envahissantes]1294/129406.pdf, Magyar Nyelvőr – 129. évfolyam 4. szám, 2005.
október–december [consulté le 25 novembre 2007].
IBRAHIM, A. (2002), « Les verbes supports en arabe », Bulletin de la Société de linguistique de Paris, t. XCVII
(2002), fasc. 1, 315-352
KESZLER, B. (1995), « A mai magyar nyelv szófaji rendszerezésének problémái » [Problèmes de classification des
catégories grammaticales du hongrois d’aujourd’hui]. Magyar Nyelvőr 119: 293–308. Budapest.
MEL’CUK, I. (1997) Vers une linguistique Sens-Texte. Leçon inaugurale (faite le Vendredi 10 janvier 1997),
Collège de France, Chaire internationale.
PAUMIER, S. (2008) Unitex 2.0 User Manual. LIGM, Université Paris-Est, [electronic version]
POLENZ, P. (1963). Funktionsverben im heutigen Deutsch. Sprache in der rationalisierten Welt. Schwann,
Düsseldorf.
ALONSO RAMOS, M., (2001), « Constructions à verbe support dans les langues SOV » Bulletin de la Société de
Linguistique de Paris. Volume : 96, 79-106.
VARGA, L. (2007), Classification sémantique des prédicats de mouvement du hongrois dans l’optique du
traitement automatique. Thèse de doctorat, LDI, Université Paris 13.
VINCZE, V. (2009), « On the machine translatability of Semi-Compositional Constructions » In: Varadi, T.(ed.) : Selected Papers from the 1st Applied Linguistics PhD Conference. Institut de Linguistique Budapest,
Académie des Science de Hongrie (MTA), 166-178.
ZSILINSZKY, É. (1996), « Állandó szókapcsolatok XVII. századi jogi szövegekben » [collocation dans les textes
juridiques du VIIe siècle]. Nyelvőr. 120, Budapest.
Corpus
Corpus
National
Hongrois
(HNC),
Académie
des
Sciences
http://corpus.nytud.hu/mnsz/index_eng.html [consulté février -avril 2011]
Notation utilisée
AD :
cas adessif, -nál, -nél
ACC:
cas accusatif, -t
ILL:
cas illatif, -ba, -be
INE:
cas inessif, -ban, -ben
POSS:
affixe possessif
DAT:
cas datif, -nak, -nek
SUF:
suffixe casuel
PL: marque du pluriel : k
306
de
Hongrie,
Budapest,
Vetulani Zygmunt
Adam Mickiewicz University in Poznań
[email protected]
Vetulani Grażyna
Adam Mickiewicz University in Poznań
[email protected]
THROUGH WORDNET TO LEXICON GRAMMAR
Abstract
The results presented in this paper are expected to converge to the Lexicon-Grammar for
Polish. They were essentially obtained over the last 5 years. Our two major starting points
were the development of the lexical database for nouns organized in a wordnet (PolNet) and
advanced studies of verb-noun collocations. In the paper we shortly present various steps
completed so far as contribution to the final objective.
Keywords: lexicon, grammar, wordnet, valency, collocation.
1 Introduction
We refer to Lexicon Grammar mainly as the idea of a formal grammar where the fundamental
unit of meaning is elementary sentence and where the natural way to construct a grammatical
lexicon is to link words with possibly complete grammatical information related to these
words. Verbs and other predicative words were first concerned. This idea inspired by
Z.S.Harris' transformation theory was systematically developed since early 70-ties by Maurice
Gross, first for French, then for other languages.1 As a result, predicative words were studied
from the point of view of their aptitude to form elementary sentences. At about the same time
a Polish linguist Kazimierz Polański started his works on application of the transformationalgenerative model for systematic description of Polish language. This experiment resulted with
a monumental "Syntactic-generative Dictionary of Polish Verbs" (Polański, 1992) in five
volumes published during (1980-1992) (its forerunner appeared already in 1976). An
important difference between the two projects was that Gross since very beginning addressed
technological, long term language engineering priorities whereas Polański aimed at precise
and exhausted description of Polish for general purposes (unfortunately Polański work
appeared particularly "machine unfriendly" for its obsolete notation). What appears as a
common characteristic of both approaches is their hidden (but clear) reference to the sound
logical tradition (best represented by Tarski and Montague). In the project described in this
paper we benefited from both sides: we were inspired by the Maurice Gross research and
methodology, and we have adopted many data and solutions published by Polański.
Another important inspiration source was wordnet technology. Our interest in this area was
stimulated by our needs for ontologies which are necessary for development of real-scale
systems with natural language competence. Wordnets may be considered as complete
ontologies in which synsets (i.e. classes of synonymous word-senses) represent (lexicalized)
concepts. (In any given language almost all useful concepts are lexicalized in some way, with
possible exceptions for concepts "imported" from other languages.)
1
As lexicon-grammar was first implemented for languages with no inflection of nouns morphological
information was not taken into consideration in the lexicon grammar models. The situation is different for highly
inflectional languages like all Slavonic languages, Latin or German. We do not develop this issue in this paper.
We notice however that for Polish we do dispose of electronic dictionary of large coverage POLEX (Vetulani
2000). This resource is easily machine treatable and may be used as Polish Lexicon Grammar complement.
POLEX is distributed through ELDA (www.elda.fr).
307
We have chosen Euro WordNet as ontology model and developed PolNet, a semantic
network similar to Princeton WordNet (PWN), as the first, real-scale step towards a lexicon
grammar for Polish language.
2 Initial PolNet
PolNet is a wordnet system built from scratch according to the "merge model" methodology.
Its design started in 2006 and resource development in 2007. The resource development
algorithm (Vetulani et al., 2007) is based on several good traditional dictionaries of Polish
language and general wordnet development tool which was the DEBVisDic platform (Pala et
al., 2007). Construction of the PolNet kernel consisted in generation of synsets and basic
relations (starting with hiponymy/hyperonymy). The initial effort was focused on creation of a
wordnet for nouns. The work was organized in an incremental way, starting with general and
frequently used vocabulary. More precisely, we selected the most frequent words found in a
reference corpus of Polish language with however one important exception made for
methodological reasons. The reason was that we assumed possibly early validation of the
resource in a real-size application for which an application-complete vocabulary was
necessary.2 That is why we completed the initial vocabulary with terms (and terminology)
from a deliberately chosen application domain (homeland security) for which an application
with language competence was being developed in parallel. This additional vocabulary was
selected in language experiments resulting in small corpora. The initial PolNet (v.0....) was
basically made of synsets built form the simple (one word) nouns. This resource amounts now
to env. 11,700 synsets for over 20,300 word-senses (and 12,000 nouns). Of course, the PolNet
v.0 is open for new concepts, in particular for the domain specific vocabulary. The estimation
of the effort invested in the development of the initial PolNet (for nouns) is 11 man-months of
effective work. Below we present as example of PolNet entries a (simplified) description of
the synset composed of {szkoła:1, buda:5, szkółka:1,...}.
Example
<SYNSET>
<ID>PL_PK-518264818</ID>
<POS>n</POS>
<DEF>instytucja zajmująca się kształceniem; educational institution </DEF>
<SYNONYM>
<LITERAL lnote="U1" sense="1">szkoła</LITERAL>
% szkoła=school
<LITERAL lnote="U1" sense="5">buda</LITERAL>
<LITERAL lnote="U1" sense="1">szkółka</LITERAL>
.....
</SYNONYM>
<USAGE>Skończyć szkołę</USAGE>
<USAGE>Kierownik szkoły</USAGE>
.....
<ILR type="hypernym" link="POL-2141701467">instytucja oświatowa:1</ILR>
<RILR type="hypernym" link="POL-2141575802">uczelnia:1,szkoła wyższa:1,wszechnica:1</RILR>
<RILR type="hypernym" link="POL-2141603029">szkoła średnia:1</RILR
.....
<STAMP>Weronika 2007-07-15 12:07:38</STAMP>
<CREATED>Weronika 2007-07-15 12:07:38</CREATED>
</SYNSET>
2
The main components of the Polish Lexicon-Grammar project described in this paper are tested and validated
in successive versions of a large-scale project (POLINT-112-SMS) with an important language understanding
(Polish) module (Vetulani & Marciniak 2011).
308
3 Valency dictionary
Extension of the initial PolNet to other kinds of concepts was proceeded by a preparatory step
consisting in creation of a valency dictionary on the ground of existing linguistic knowledge
and grammatical resources (Vetulani et al., 2010). These resources were: Universal
Dictionary of Polish Language (Uniwersalny Słownik Języka Polskiego) (Dubisz, 2006),
Dictionary of Polish Language (Słownik Języka Polskiego) (Szymczak, 1995) and Syntactic
Generative Dictionary of Polish Verbs (Słownik syntaktyczno - generatywny czasowników
polskich) (Polański, 2009). They contain, together, practically all information necessary to
built a complete valency dictionary of Polish verbs (for the lexical material they cover). Still a
considerable amount of manual work was to be invested because of traditional format of data
hard to process automatically as well as because of omissions and gaps typical of human
addressed language resources (especially in the Polański grammar). The units of the valency
dictionary contain: the entry identifier (word form and meaning index), informal meaning
definition, syntactic pattern(s) (predicate-argument structure)), association of semantic roles +
ontology concepts3 with the positions opened in the syntactic pattern (argument positions).
The major difference with respect to the source dictionaries is that the simplified format we
apply here is text based and therefore is easily machine treatable. We have also applied a well
described set of semantic roles, adapted from Palmer (Palmer 2009). As result, we obtained a
resource for 1,533 verbs selected in a similar way as in the case of nouns: on the basis of a list
of the most frequent verbs of the reference corpus (IPI PAN Corpus; Przepiórkowski, 2004),
augmented by a number of verbs relevant for public security applications. For these verbs we
have obtained 4,863 units of the valency dictionary (one unit for one meaning /word sense/).
This means that verbs appeared more polysemious then nouns (with env. 3.2 meanings per
verb). Still, confrontation of different dictionaries permitted us to notice incompleteness of
our initial resource, i.e. the Syntactic Generative Dictionary (above). Also, for an important
number of identified meanings (over 1,400) the description was missing in the initial resource.
(These missing descriptions were completed at the next stage of the verbal wordnet creation.)
The important drawback of our valency dictionary was its limitation to simple words. In
particular, predicative verb-noun collocations composed of a light verb4 and a predicative
noun were not taken into account at this part of the project.
4 Verb extension of PolNet
The valency dictionary compiled from the above mentioned sources was the starting point for
PolNet extention to predicative concepts (releases of PolNet v.1….). As for the initial PolNet
of nouns, a resource development algorithm was proposed (Vetulani and Obrębski, 2010).
This algorithm was designed in order to organize the manual encoding of the PolNet entities
(verbal synsets) with the help of the DEBVisDic platform. According to the general wordnet
philosophy, lexical units, and more precisely verb+meaning pairs (verb word senses) are
grouped into synsets on basis of the relation of synonymy. In opposition to nouns, where the
focus is on the relations between concepts (represented by synsets), and in particular on
hiperonymi/hyponymy relations, for verbs the main interest is in relating verbal synsets
(representing predicative concepts) to noun synsets (representing general concepts) in order to
show what are connectivity constraints corresponding to the particular argument positions.
This approach imposes granularity restrictions on verbal synsets and more exactly on the
3
We used concepts applied in an informal way by Polański. A possible organization of the concepts used by
Polański in some formal ontological system is described in (Vetulani 2003). However, in further steps (cf.
Cahapter 4, below) instead of following this line, we apply the solutions elaborated within the EuroWordNet
project by Vossen et others (Vossen et al. 2003).
4
Support verb in French.
309
synonymy relation. Synonymous will be only such verb+meaning pairs in which the same
semantic roles take as value the same concepts (this condition is necessary but not
sufficient).5 In particular, the valency structure of a verb is one of formal indices of the
meaning (so, all members of a given sysnset share the valency structure). This approach
permits to formally encode valency structure as a property of a synset.
The idea of PolNet valency structure for synsets is basically the same as for valency
dictionary discussed earlier. The important difference is that in PolNet synset are considered
as ontology concepts which may be used to characterize the argument positions in the
predicate-argument structure, whereas in the valency dictionary the argument positions were
described in terms of the informal ontology of general concepts used in the Polański
grammar.6
Semantic roles as relations connecting noun synsets to verb synsets permit treatment of the
extended PolNet as a situational semantics network of concepts. Indeed, as it is often
admitted, verb synsets may be considered as representing situations (events, states), whereas
semantc roles (Agent, Patient, Beneficent,...) provide information on the ontological nature of
various agents participating, actively or passively, in this situation (event, state). Abstract
roles (Manner, Time,...) refer to concepts which position the situation (event, state) in time,
space and also with respect to abstract, qualitative landmarks. Formally, the semantic roles are
functions (in mathematical sense) associated to the argument positions in the syntactic
pattern(s) corresponding to synsets. Values of these functions are ontology concepts (here in
form of noun synsets). E.g., for many verbs, the semantic role BENEFICENT takes as its
value the concept representing the set of all humans (which are then considered as potential
addresses of the situation effects). The value {man:4,...} (or [+Hum] in Polański notation) of
the BENEFICENT role tell us that humans are typical agents whose individual names will be
accepted in the surface structure (sentence).
What follows is a simplified description of the synset {pomóc:1, pomagać:1} in PolNet as
it is displayed in DEBVisDic (with some slight modifications made for transparency) and in
the XML form.
DEBVisDic presentation of a synset:
POS: v ID: 3441
Synonyms: {pomóc:1, pomagać:1} (to help)
Definition: "wziąć (brać) udział w pracy jakiejś osoby (zwykle razem z nią), aby ułatwić jej tę pracę"
("to participate in sb's work in order to help him/her")
VALENCY:
 Agent(N)_Benef(D)
 Agent(N)_Benef(D) Action('w'+NA(L))
 Agent(N)_Benef(D) Manner
 Agent(N)_Benef(D) Action('w'+NA(L)) Manner
Usage: Agent(N)_Benef(D); "Pomogłam jej." (I helped her)
Usage: Agent(N)_Benef(D) Action('w'+NA(L)); "Pomogłam jej w robieniu lekcji." (I helped her in doing
homework)
Usage: Agent(N)_Benef(D) Manner Action('w'+NA(L)); "Chętnie pomogłam jej w lekcjach." (I helped her
willingly doing her homework)
5
It is however important to notice, that grammatical case distribution may be different within any given class of
synonyms (i.e. within a verb sysnset). The formal tools to mark differences are valency and usage fields of the
DEBVisDic editor. (Cf. upomnieć kogoś(Acc) - complement in accusative, and udzielić upomnienia komuś(Dat)
- complement in dative.)
6
As there was no a priori evidence that all concepts useful to describe the argument positions of predicates (i.e.
the valency structure) are indeed lexicalized in Polish, we decided to allow the use of concepts of some
sufficiently complete and well described general ontology. Our choice was for the EuroWordNet Top Ontology
(Vossen, 2003). At the realization stage it appeared that in most cases concepts represented by PolNet synsets
may be used as the semantic role values and this was the recommended solution.
310
Usage: Agent(N)_Benef(D) Manner;"Chętnie jej pomagałam." (I used to help her willingly)
Semantic_role: [Agent] {człek:1, człowiek:1, homo sapiens:1, istota ludzka:1, zwierzę:2, jednostka:1, łepek:3,
łebek:3, łeb:5, głowa:8, osoba:1, twarz:2, umysł:2, dusza:3} ({man:1,...,animal:2,...})
Semantic_role: [Benef] {człek:1, człowiek:1, homo sapiens:1, istota ludzka:1, zwierzę:2, jednostka:1, łepek:3,
łebek:3, łeb:5, głowa:8, osoba:1, twarz:2, umysł:2, dusza:3} ({man:1,...,animal:2,...})
Semantic_role: [Action] {czynność:1} ({activity:1})
Semantic_role: [Manner] {CECHA_ADVERB_JAKOŚĆ:1} (qualitative adverbial)
XML presentation of the same synset:
<SYNSET>
<VALENCY>
<FRAME>Agent(N)_Benef(D)</FRAME>
<FRAME>Agent(N)_Benef(D) Action('w'+L)</FRAME>
<FRAME>Agent(N)_Benef(D) Manner</FRAME>
<FRAME>Agent(N)_Benef(D) Action('w'+L) Manner</FRAME>
</VALENCY>
<ILR type="category_domain" link="1356">CITTA:1</ILR>
<ILR type="Agent" link="ENG20-02383992-n">człek:1, człowiek:1, istota ludzka:1, zwierzę:2, ....</ILR>
<ILR type="Benef" link="ENG20-02383992-n">człek:1, człowiek:1, istota ludzka:1, zwierzę:2, ....</ILR>
<ILR type="Action" link="PL_PK-2035015933">czynność:1</ILR>
<ILR type="Manner" link="2214">CECHA_ADVERB_JAKOŚĆ:1</ILR>
<DEF>"wziąć (brać) udział w pracy jakiejś osoby (zwykle razem z nią), aby ułatwić jej tę pracę"</DEF>
<SYNONYM>
<WORD>pomóc</WORD>
<WORD>pomagać</WORD>
<LITERAL lnote="U1" sense="1">pomóc</LITERAL>
<LITERAL lnote="U1" sense="1">pomagać</LITERAL>
</SYNONYM>
<ID>3441</ID>
<USAGE>Agent(N)_Benef(D); "Pomogłam jej."</USAGE>
<USAGE>Agent(N)_Benef(D) Action('w'+L); "Pomogłam jej w robieniu lekcji."</USAGE>
<USAGE>Agent(N)_Benef(D) Manner Action('w'+L); "Chętnie pomogłam jej w lekcjach."</USAGE>
<USAGE>Agent(N)_Benef(D) Manner;"Chętnie jej pomagałam."</USAGE>
<CREATED>agav 2010-11-27 18:49:47</CREATED>
<POS>v</POS>
</SYNSET>
The simple example below is to illustrate a typical usage we can make of PolNet data in text
processing. Let us consider the sentence pattern
Agnes offered a gift to X / Agnieszka dała prezent X-owi
Identification of the verb "to offer" / "dać" as belonging to the synset for which the
complement position in the syntactic pattern is linked through the semantic role
"BENEFICIENT" to the concept {man:1,...} allows us to substitute X with an individual or
generic name of a human in order to obtain a semantically correct sentence.
Thus
Agnes offered a gift to her sister Mary / Agnieszka dała prezent swojej siostrze Marysi
is a correct sentence while
*Agnes offered a gift to her car / Agnieszka dała prezent swojemu samochodowi
is not.
Although in the approach we present here the focus is on linking predicative concepts
(verb synsets) to other concepts through semantic roles, we do not exclude relations of other
kind, like hyponymy/hyperonymy for verbal synsets, with however lower priority then for
nouns.
In January 2011 the verb part of PolNet was composed of over 1,500 synsets corresponding
to env. 2,900 word+meaning pairs for 900 simple verbs. Predicative constructions were not
included yet. This operation is being realized now (preliminary phase) on the ground of verbnoun collocation dictionary (cf. Chapter 6, below).
5 Verb-noun collocations
311
Systematic studies of verb-noun collocations were started in late 1990-ties by Grażyna
Vetulani (Vetulani, 2000). This fundamental research consisted at first in manual examination
of env. 40,000 of Polish nouns in order to extract a list of over 7,500 abstract nouns which
may play the role of sentence predicate when supported with a semantically "empty" verb
(light verb). These predicative nouns belongs to 5 classes (not necessarily disjoint).
The Class I, which is the largest of five, contains predicative nouns denoting various types
of activities and behaviors (e.g. abordaż (boarding attack), bluźnierstwo (blaspheme), fiasko
(fiasco), wpływ (influence), zaszczyt (honor), zysk (benefice)...). Other classes are more
homogenous and represent respectively : Class II – character features (cf. agresja
(aggression), bezmyślność (thoughtlessness), próżność (vanity)...), Class III – diseases (cf.
anoreksja (anorexia), bezsenność (insomnia), grypa (flue)...), Class IV – professions (cf.
sokolnictwo (falconry), medycyna (medicine), ...), Class V – other, par example those which
combine with circumstantial light verbs (like take place in English or avoir lieu in French).
(All these nouns are listed in (Vetulani, 2000).)
The most productive and open Class I (over 2,862 nouns) was subject of detailed
description in terms of valency structure of the predicative construction light
verb+predicative noun. This description was based on dictionary research (using classical
Polish language dictionary by Szymczak (edition of 1978)). This study permitted
identification and to description of 5,404 collocations. The processing effort is evaluated as 8
man-month.
These 5,404 collocations were subject of syntactic description presented in (Vetulani,
2000). Below is an example of an entry ("ambicja") from the resulting syntactic dictionary.
Example
The entry "ambicja" compiled from the traditional dictionary
ambicja, f/ [ambition]
mieć(Acc)/N1(Gen), "mieć ambicję"(to have an ~ of sth)
mieć(Acc,pl)/MOD, "mieć ambicje"(to have MOD ~s)
In this example "ambicja" is the predicative noun (ang. ambition) and "mieć" is the infinitive
Polish form of the light verb ("support") corresponding to English to have. The two
collocations correspond to two (similar but different) meanings and have different formal
properties. The first one opens two obligatory positions: the one traditionally corresponding to
"subject" /N0/ (as a default position it is absent in the notation), and the other /N1/,
corresponding to the traditional "direct object". The syntactic information which is attached to
this position is about grammatical case of the argument (which is genitive). Syntactic
information concerning the grammatical gender of the (feminine) and the grammatical case
(accusative) of the predicative noun is also included. The second collocation opens only the
subject position (default) but requires to be modified by some feature (adverbial complement
in traditional terminology) (the symbol MOD is used in this notation). Let us observe also that
the predicate noun must stay in plural and accusative. This description, although purely
syntactic, permits observation of syntactic indices of semantic variations of words.
Since very beginning it was clear that the dictionary-based method presented above was
biased by the limitations of the traditional dictionaries (limitations of dictionary size
necessarily imposes important gaps). Therefore, in 2008, the initial resource was substantially
enlarged as a result of a large corpus exploration. We have extracted from the IPI PAN corpus
(Przepiórkowski, 2004), in the machine assisted way, further light verbs supporting
predicative nouns from the initial list of the Class I items. The idea of machine aided
processing procedures were based on a smart exploration of automatically gathered
concordances in order to substantially reduce the search space for human expert processing by
312
lexicographers. As a result of this operation the number of identified and described
collocation raised up from over 5,400 to env. 16,000. The total effort of the enlargement
operation may be evaluated as 8 man-month. The following example shows the effect of
application of a corpus based enlargement procedure (Vetulani, Vetulani and Obrębski, 2008).
Example
The entry “ambicja” including collocations retrieved in the corpus (in bold and italics)
ambicja, f/ (ambition)
mieć(Acc)/N1(Gen), "mieć ambicję" (to have an ~ of sth)
mieć(Acc,pl)/MOD, "mieć ambicje" (to have MOD ~s/)
posiadać(Acc,pl)/MOD, "posiadać ambicje" (to own MOD ~s)
ujawniać(Acc,pl)/MOD, "ujawniać ambicje" (to show MOD ~s)
zaspokoić(Acc)/N1(Gen), "zaspokajać ambicję" (to fulfill one’s ~ of sth)
zaspokoić(Acc,pl)/MOD, "zaspokoić ambicje" (to fulfill MOD ~s)
zaspakajać(Acc)/N1(Gen) "zaspakajać ambicję"(to fulfill one’s ~ of sth)
zaspakajać(Acc,pl) "zaspakajać ambicje"(to fulfill MOD ~s)
6. The next step (on-going): enlargement of PolNet to verb+noun collocations
The next step, now in progress, towards the Polish Lexicon Grammar consists in the
incorporation of the noun-verb collocation lexicon to the PolNet. Two important cases are to
be considered, as they require different processing.
Case 1 (simple): the considered verb+noun collocation has a synonym7 already included in
PolNet. In this case we only need to enlarge the already existing synset.
Case 2 (more complex): the considered verb+noun collocation does not have a synonym in
PolNet. In this case we must compile the entry from the dictionary of collocations described
in Chapter 4. What needs to be completed from scratch for such collocations are definition
and semantic roles for the argument positions opened by the predicate (other information may
be compiled from the dictionary). Two cases may be distinguished: when there exists a oneword synonym for the collocation (but it is not represented in PolNet), and when there is no
such a synonym (as e.g. there is no one-word synonym for mieć ambicję /to be ambitious/, see
the example in Chapter 4). In the first case we apply development strategy to create all
remaining synsets corresponding to all other meanings of the word. In the second case, quite
frequent in Polish language, synsets will often be composed of just one element as
collocations appear to be less polysemous then corresponding one-word verbs. The
completion of this step for the most important collocations will conclude the first, essential
part of the Lexicon-Grammar of Polish at a level comparable to French Syntactic Tables by
Maurice Gross.
7
We must use the same synonymy relation as for one-word verbs, already considered in PolNet.
313
References
Dubisz, St.(Ed.). 2006. Uniwersalny słownik języka polskiego PWN, (Universal dictionary of Polish, in Polish),
2nd edition, Warszawa: Wydawnictwo Naukowe PWN.
Pala, K., Horák, A., Rambousek, A.Vetulani, Z., Konieczka, P., Marciniak, J., Obrębski, T., Rrzepecki P.,
Walkowska, J., (2007): DEB Platform tools for effective development of WordNets in application to PolNet,
in: Z. Vetulani (ed.) Proceedings of the 3rd Language and Technology Conference: Human Language
Technologies as a Challenge for Computer Science and Linguistics, October 5-7, 2005, Poznań, Poland,
Wyd. Poznańskie, Poznań, pp. 514-518.
Palmer, M. (2009): "Semlink: Linking PropBank, VerbNet and FrameNet." Proceedings of the Generative
Lexicon Conference. Sept. 2009, Pisa, Italy: GenLex-09, 2009.
Polański, K. (Ed.) 1992. Słownik syntaktyczno - generatywny czasowników polskich vol. I-IV, Ossolineum,
Wrocław,1980-1990, vol. V, Kraków: Instytut Języka Polskiego PAN.
Przepiórkowski, A (2004): Korpus IPI PAN. Wersja wstępna / The IPI PAN CORPUS: Preliminary version. IPI
PAN, Warszawa.
Szymczak, M. (ed.) (1978). Słownik języka polskiego. (Dictionary of Polish Language; in Polish).
Vetulani, G., 2000, Rzeczowniki predykatywne języka polskiego. W kierunku syntaktycznego słownika
rzeczowników predykatywnych, Wydawnictwo Naukowe UAM, Poznań.
Vetulani, G., (2010): in: Ibrahim, A.H. (ed.), Supports et prédicats non verbaux dans les langues du monde.
CLR, Paris, pp. 166-181.
Vetulani, G. & Vetulani, Z. & Obrębski, T. (2008): Verb-Noun Collocation Syntax Dictionary – Corpus-Based
Approach”, Proceedings of 6th International Conference on Language Resources and Evaluation, Marrakech,
Morocco, ELRA 2008.
Vetulani, Z. (2000): Electronic Language Resources for POLISH: POLEX, CEGLEX and GRAMLEX. In: M.
Gavrilidou et al. (ed.), Second International Conference on Language Resources and Evaluation, Athens,
Greece, 30.05.-2.06.2000, (Proceedings), ELRA, pp. 367-374.
Vetulani, Z. (2003): Linguistically Motivated Ontological Systems, in: Callaos, N, Lesso, W., Schewe K.-D.,
Atlam, E. (eds.): Proceedings of the 7th World Multiconference on Systemics, Cybernetics and Informatics,
July 27- 30, 2003, Orlando, Florida, USA, vol. XII (Information Systems, Technologies and Applications:
II), Int. Inst. of Informatics and Systemics, 2003, pp. 395-400.
Vetulani, Z., Walkowska, J., Obrębski, T., Konieczka, P., Rrzepecki P., Marciniak, J. (2007): PolNet - Polish
WordNet project algorithm, in: Z. Vetulani (ed.) Proceedings of the 3rd Language and Technology
Conference: Human Language Technologies as a Challenge for Computer Science and Linguistics, October
5-7, 2005, Poznań, Poland, Wyd. Poznańskie, Poznań, pp. 172-176.
Vetulani, Z., Obrębski, T. (2010): Resources for Extending the PolNet-Polish WordNet with a Verbal
Component, in: Bhattacharyya, P, Fellbaum, Ch., Vossen, P. (eds.) Principles, Construction and Application
of Multilingual Wordnets. Proceedings of the 5th Global Wordnet Conference, Narosa Publishing House:
New Delhi, Chennai, Mumbai, Kolkata, pp. 325-330
Vetulani, Z., Walkowska, J., Obrębski, T., Konieczka, P., Rrzepecki P., Marciniak, J. (2007): PolNet - Polish
WordNet project algorithm, in: Z. Vetulani (ed.) Proceedings of the 3rd Language and Technology
Conference: Human Language Technologies as a Challenge for Computer Science and Linguistics, October
5-7, 2005, Poznań, Poland, Wyd. Poznańskie, Poznań, pp. 172-176.
Vetulani, Z., Marciniak, J. (2011): Natural Language Based Communication between Human Users and the
Emergency Center: POLINT-112-SMS. In: Vetulani, Z. (ed.): Human Language Technology. Challenges for
Computer Science and Linguistics. LTC 2009. Revised Selected Papers. LNAI 6562, Springer-Verlag Berlin
Heidelberg, pp. 303-314.
Vossen,P., Bloksma, L., Rodriguez, H., Climent, S., Calzolari, N., Peters, W. (1998): The EuroWordNet Base
Concepts and Top Ontology, Version 2, Final, January 22, 1998 (Euro WordNet project report)
(http://www.vossen.info/docs/1998/D017.pdf; access 22/04/2011). (also: Vossen, P. (et al.) (2003):
EuroWordNet General Document, Version 3. Final, July 22).
314
Walther Géraldine
Université Paris 7
[email protected]
Sagot Benoît
Université Paris 7
[email protected]
PROBLÈMES D’INTÉGRATION MORPHOLOGIQUE
D’EMPRUNTS D’ORIGINE ANGLAISE EN FRANÇAIS
Résumé
Nous proposons une étude morphologique de l’emprunt, en particulier verbal, d’origine anglaise en
français. À partir de données extraites d’un corpus volumineux, nous étudions les procédés
morphologiques d’intégration des nouvelles unités lexicales (sous leur forme graphémique) et les
problèmes qu’ils posent notamment en termes d’instabilité orthographique ou de mécanismes
dérivationnels. Cette étude fournit ainsi une première approche théorique du phénomène
morphologique de l’emprunt. Elle devra ensuite servir de support théorique à un traitement
automatique des emprunts.
Mots clés: néologie, emprunt, morphologie, lexique, intégration morphologique et lexicale.
1. Introduction
La présence de mots inconnus dans les corpus est un problème important pour le traitement
automatique des langues, notamment pour la constitution de lexiques ou l’extraction
d’information à partir de textes produits en temps réel, comme les corpus journalistiques.
Parmi les mots inconnus, ou plus précisément les tokens inconnus, on peut identifier des
composants d’entités nommées (nom propres, dates, URL, sigles…), des fautes d’orthographe
et des néologismes (Blancafort et al., 2010). Ces derniers peuvent être des créations lexicales
productives (p.ex. des dérivés comme bravitude), des jeux lexicaux ou langages secrets
(verlan, javanais…) ou encore des emprunts.
Dans cet article nous étudions le problème des emprunts, que nous définissons comme des
mots hérités d’une langue étrangère mais ayant depuis fait l’objet d’une intégration
morphologique, c’est-à-dire d’un processus permettant leur ajout dans le lexique de la langue
cible. Nous centrons ici plus particulièrement notre étude sur le cas des emprunts du français à
l’anglais au cours des années 2000 concernant les unités lexicales verbales et les noms
d’agent et d’action associés, leurs propriétés morphologiques et leur mode d’intégration dans
le lexique. Dans la mesure où notre travail part d’une problématique de traitement
automatique de données textuelles, nous étudions ici le lexique dans sa version graphémique.
La stabilisation orthographique des emprunts constitue ainsi un enjeu important pour notre
étude. Notre ambition est de contribuer à une première approche théorique de la morphologie
des emprunts anglais en français. Cette approche théorique pourra ensuite servir à améliorer le
traitement par des outils de traitement automatique des emprunts, difficiles en ce que, par leur
actualisation permanente, ils constituent des unités lexicales potentiellement inconnues des
lexiques disponibles. L’objet de notre travail, qui repose sur des données extraites de corpus,
est l’étude de l’intégration de ces nouvelles entrées lexicales.
Nous décrivons dans un premier temps l’origine et le mode d’obtention sur corpus des
données analysées (section 2), puis les notions employées pour l’analyse (section 3). En
section 4, nous présentons les différents modes d’intégration morphologique des emprunts et
les problèmes qu’ils posent, avant de conclure en section 5.
2. Obtention des données
L’extraction automatique d’emprunts à partir de corpus n’est pas une tâche simple.
Premièrement, peu de corpus librement accessibles et de taille importante satisfont les critères
315
nécessaires :
 Ils doivent contenir un nombre important d’emprunts récents, adaptés ou non : ceci exclut
des corpus comme les corpus journalistiques, dans lesquels les emprunts sont restreints à
quelques noms issus de l’actualité comme vuvuzela), mais également des corpus comme
Wikipedia, dont le langage reste soutenu bien que parfois technique (ce qui apporte des
emprunts nominaux de base tels que firewall mais peu de verbes ou de noms d’action) ;
 Ils doivent être d’une qualité orthographique suffisante : ceci exclut, du moins dans un
premier temps, les corpus de type forums ou blogs.
Verbe candidat Noms d’agent et d’action ayant induit la construction du candidat
RAPPER
(au, avec, de, du, en, le, les, un, une) rappeur ; (aux, de, des, du, les, pour, vers)
rappeurs ; (de, la, une) rappeuse ; (de, des, les) rappeuses
LABELLISER
(de, la, le, une, à) labellisation ; (aux, de, les) labellisations
SCANNER
(de, du, le, par, un) scannage ; (de, du, un) scanneur ; (de, des, les) scanneurs
MAPPER
(de, du, le, un) mappage ; (de, des, les) mappages ; (le) mappeur ; (aux, des)
mappeurs
SLAMMER
(du, le) slammeur ; (de, les) slammeurs ; (les) slammeuses
JOGGER
(de, du, le, un) joggeur ; (des, les) joggeurs ; (la) joggeuse
SPAMMER
(le, un) spammeur ; (aux, de, des, les) spammeurs
Tableau 1. Exemples de candidats lexèmes emprunts obtenus à partir de noms d’action et d’agent inconnus
Nous avons porté notre choix sur la version du corpus Wikipedia qui inclut les
discussions entre rédacteurs à propos des articles1. En effet, ces discussions, qui manifestent
une créativité lexicale plus riche, complètent ainsi utilement la Wikipedia proprement dite.
Nous avons converti ce corpus, originellement au format Wikipedia, en un corpus au format
texte contenant 441 millions de tokens dont 4,7 millions de tokens distincts.
Deuxièmement, l’identification automatique d’emprunts n’est pas aisée. Pour extraire des
néologismes empruntés au cours des années 2000, nous avons tout d’abord établi une liste de
tokens considérés comme connus, en fusionnant la liste de toutes les formes fléchies du
lexique Lefff (Sagot, 2010) et la liste des tokens faisant partie de livres publiés pendant les
années 1990 et numérisés par Google2. Nous avons dans un premier temps extrait des noms
d’action et des noms d’agent faciles à reconnaître : nous avons cherché toutes les occurrences
de motifs composés d’un token susceptible d’être un déterminant3 ou une préposition suivi
d’un token inconnu se terminant en -eur(s), -euse(s), -trice(s), -age(s), -isation(s),
-ification(s). Nous avons alors remplacé les suffixes précédents par -er, -iser ou -ifier suivant
les cas, en ajoutant quelques variantes possibles (-ateur/-ateuse/-atrice > -er en plus de -ater)
et en appliquant certaines règles grapho-phonologiques standard (par exemple, -cage > -quer).
Ceci nous a permis de construire 5 418 néologismes verbaux candidats, auxquels nous avons
associé le cumul des nombres d’occurrences des motifs impliquant des noms ayant conduit à
leur construction. Ainsi, selon cette métrique, le néologisme verbal candidat le mieux classé
est RAPPER, avec un score de 2 363, créé à partir des quatre tokens rappeur(s) et rappeuse(s).
Nous avons annoté manuellement les 789 candidats dont ce score est de 7 ou plus, en
identifiant ceux qui relèveraient effectivement de l’emprunt. Ces derniers sont au nombre de
97, plus 3 calques. À ce stade, ces 97 verbes sont des candidats dont l’attestation en corpus
n’a pas encore été vérifiée. Un sous-ensemble en est montré au tableau 1.
1
http://dumps.wikimedia.org/frwiki/latest/frwiki-latest-pages-meta-current.xml.bz2
http://ngrams.googlelabs.com/datasets
3
Nous n’avons pas pris en compte les déterminants complexes, en raison de leur fréquence moindre et de la plus
grande difficulté de leur identification.
2
316
Par ailleurs, nous avons cherché, dans ce même corpus, des unités lexicales complexes de
type verbe support + nom prédicatif emprunté. Pour cela, nous avons cherché les occurrences
du motif Vsup Det Npred, où Vsup est l’une des formes fléchies de l’un des 37 verbes
supports possibles que nous avons retenus (être exclu)4, Det est un token susceptible d’être un
déterminant et Npred est un token inconnu au sens défini ci-dessus. Une fois le déterminant
éliminé, les 31 072 occurrences de ce motif donnent 18 090 séquences distinctes pour 15 129
noms prédicatifs différents possibles. Après élimination des hapax, les 3 655 séquences
distinctes restantes ont été classées manuellement afin d’identifier celles qui sont
effectivement des constructions à verbe support et dont le nom prédicatif est un emprunt.
Nous avons ainsi identifié 167 séquences distinctes mettant en jeu 89 noms prédicatifs, au
singulier ou au pluriel, et stocké leurs nombres d’occurrences respectifs (cf. tableau 2).
Vsup
avoir
faire
avoir
avoir
avoir
faire
Npred
spin
remix
gameplay
blog
remix
heel
Occ
41
41
40
28
25
25
Verbe simple
candidat
SPINER induit
REMIXER
GAMEPLAYER
BLOGUER
REMIXER
HEELER
Vsup
prendre
posséder
effectuer
avoir
faire
lancer
Npred
Occ Verbe simple
gameplay
23 candidat
SPINER induit
spin
20 REMIXER
heel
19 GAMEPLAYER
flashbacks
14 BLOGUER
buzz
13 REMIXER
blog
13 HEELER
Tableau 2. Exemples de lexèmes emprunts candidats obtenus à partir de noms d’action et d’agent inconnus
Verbe
REMIXER
REMASTERISER
HACKER
SAMPLER
« Occ »
1634
599
473
356
Verbe
« Occ »
REMASTERISER
192
CATCHER
187
SKATER
137
MAPPER
125
Verbe
MASTERISER
TAGUER
RAPPER
SCORER
« Occ »
120
85
85
76
Tableau 3. Emprunts verbaux simples les plus fréquents extraits du corpus
Nous avons alors complété notre première liste de candidats verbes simples empruntés en
la complétant comme suit : à partir de la forme singulier des 89 noms prédicatifs ci-dessus,
nous avons construit un verbe candidat par ajout de -er (ou simplement de -r lorsque le nom
se termine par -e). Nous avons ainsi construit 98 lemmes verbaux (cf. tableau 2), dont 7
communs avec les 97 verbes construits plus haut (SPINER, SNOWBOARDER, BLOGUER,
STRIPTEASER, REMIXER, SLAMER, DEALER). L’union de ces deux listes, qui contient donc 188
verbes, a alors été fléchie selon la classe flexionnelle des verbes standard du premier groupe,
qui est celle de la quasi-totalité des néologismes (Bonami et Boyé, 2003). Parmi les formes
fléchies obtenues, celles correspondant à des tokens connus ont été éliminées, ainsi que 95
formes qui auraient conduit à des erreurs (exemples : cora, nom d’une marque, game,
emprunt nominal, et d’autres). Nous avons extrait du corpus le nombre d’occurrences des 434
formes restantes, et avons alors calculé un nombre d’occurrences approché (noté « Occ »)
pour les 188 verbes, en additionnant les contributions de celles de leurs formes qui ont été
conservées. Seuls 106 des candidats verbes sont alors considérés comme attestés, les 12 plus
fréquents étant indiqués au tableau 3. Ce sont ces candidats verbes qui ont fourni les données
dont l’intégration morphologique est étudiée en 4.
4
Il s’agit des verbes suivants : accorder, allonger, allouer, apporter, asséner, attribuer, avoir, bourrer,
commettre, crépiter, distribuer, donner, décocher, déployer, effectuer, émettre, engager, éprouver, faire, filer,
flanquer, infliger, jeter, lancer, livrer, mener, mettre, nourrir, partager, perpétrer, porter, posséder, pousser,
prendre, recevoir, ressentir, subir.
317
3. Définition des notions sous-jacentes à l’analyse
Notre étude se situe dans une approche lexématique de la morphologie (Matthews, 1974) : le
lexème est considéré comme une unité lexicale abstraite définie par sa phonologie et/ou sa
graphie, son sens et sa catégorie morphosyntaxique5. Notre approche s’inscrit par ailleurs
dans l’approche Mot et Paradigme (Word and Paradigm) dans laquelle la notion de
paradigme défendue par (Hockett, 1954) et (Robins, 1959) constitue une notion centrale.
Ainsi, nous désignons par paradigme l’ensemble des formes d’un même lexème. Notre vision
du paradigme s’appuie par ailleurs sur les notions de radicaux et d’exposants (Matthews,
1974)6 ; les formes concrètes sont construites à partir des lexèmes abstraits à l’aide de règles
de réalisations définies dans des modèles inférentiels réalisationnels comme PFM (Paradigm
Function Morphology (Stump, 2001) ou Network Morphology (Corbett & Fraser, 1993)),
produisant ainsi les formes effectivement observables dans la langue.
En morphologie lexématique, la création d’un nouveau lexème ne peut se faire que par des
règles de création de lexèmes (LCR) qui spécifient, pour chaque nouveau lexème créé, sa
phonologie, son sens et sa catégorie morphosyntaxique. Les LCR peuvent être de plusieurs
types, les deux types majeurs étant les règles de composition et les règles de dérivation. Les
premières mettent en jeu la combinaison de deux lèxèmes existants, la seconde modifie un
lexème unique (Fradin, 2003 ; Tribout, 2010). Parmi ces dernières, celles qui nous intéressent
ici sont les règles de dérivation affixale et les règles de conversion.
Les LCR de dérivation affixale du français peuvent être définies comme faisant intervenir
une base et un affixe dérivationnel. La combinaison entre base et affixe est soumise à des
contraintes sémantiques du lexème base7. Nous définissons la dérivation affixale (en français)
par
1. un ensemble de conditions sur l’input de la règle indiquant notamment la (sous-)catégorie
morphosyntaxique du lexème, sa structure argumentale et des contraintes sémantiques ;
2. les traits sémantiques réalisés par la règle (cf. nom d’agent pour les noms dérivés en
-eur comme danseur) — ces traits sémantiques constituent ainsi des conditions sur l’output ;
3. les propriétés morphosyntaxiques associées à l’output — déterminant notamment la catégorie
morphosyntaxique et la flexion du lexème dérivé ;
4. la dérivation affixale proprement dite définie par des opérations phonologiques (affixales)
appliquées au lexème base — et potentiellement assorties de contraintes phonologiques.
Les lexèmes issus d’un processus de conversion sont appelés converts. Nous adoptons les
critères définis par Tribout (2010), à une exception près8 :
 Il existe au moins une forme du paradigme du convert phonologiquement/graphiquement
identique à une forme du paradigme du lexème base ;
 la LCR a pour effet un changement de catégorie ou de sous-catégorie ;
 le convert possède toutes les propriétés attendues de sa (sous-)catégorie. Il ne peut ainsi y avoir de
défectivité comme pour le vrai/*les vrais.
Lors du processus de lexicalisation (Corbin, 1992) initié par une LCR, une nouvelle entrée
est introduite dans le lexique. Nous définissons ici le lexique comme l’ensemble des lexèmes
appartenant à une langue. Dans cet article nous nous intéressons aux LCR spécifiques à la
création de lexèmes-emprunts. Nous définissons les emprunts comme des mots hérités d’une
5
Nous considérons que des propriétés syntaxiques (structure argumentale, etc.) sont spécifiées dans le lexique.
Le radical est la partie d’une forme après suppression des marques flexionnelles (à savoir des exposants).
7
Fradin et Kerleroux (2003) notent que le verbe VOLER ‘dérober’ peut être dérivé en son nom d’action VOLEUR,
mais pas VOLER dans le sens de ‘se déplacer dans l’air’ malgré des propriétés morphologiques identiques.
8
Tribout (2010) considère que la conversion change nécessairement la catégorie morphosyntaxique. Dans la
mesure où nous considérons les propriétés morphosyntaxiques comme inhérentes à la définition d’un lexème,
nous considérons qu’un changement de sous-catégorie (ayant par exemple un effet sur la structure argumentale
du convert) est un critère suffisant. En ce sens, notre définition rejoint ainsi celle de (Meľčuk, 1996).
6
318
langue étrangère mais ayant depuis fait l’objet d’une intégration morphologique. Cette
intégration morphologique se traduit par l’existence de paradigmes propres à ces nouveaux
lexèmes de la langue cible.
4. Processus et degrés d’intégration morphologique
4.1 Stabilisation de l’orthographe des emprunts morphologisés
L’enrichissement du lexique d’une langue par emprunts passe dans un premier temps par
une adaptation phonétique et/ou graphémique de mots (formes) issus de la langue source en
séquence de signes phonétiques ou graphiques intégrables dans la langue cible. Ces séquences
adaptées fonctionnent alors comme des bases pour la morphologie constructionnelle. Elles
peuvent constituer l’input de LCR dont l’output fournit une nouvelle entrée lexicale dans la
langue cible. La première difficulté dans la stabilisation des nouvelles entrées lexicales réside
ainsi dans les processus d’adaptation phonétique et/ou graphémique des formes empruntées à
la langue source.
Ainsi, la coexistence de séquences graphiques telles déboguer, débugger, débuguer,
débugguer et debugguer rend difficile la reconnaissance des entrées lexicales nouvelles crées
par les processus d’emprunt. La difficulté de stabilisation orthographique apparait dès lors
que les conventions orthographiques de la langue source et de la langue cible diffèrent. Dans
le cas du mot anglais debug, la création d’un verbe en -er est compliqué par les conventions
orthographiques du français permettant de transcrire le son [ɡ] : en français <g> devant <e> se
prononce [ʒ], des stratégies de restitution du son [ɡ] sont nécessaires. Pour les emprunts, il y a
concurrence entre la stratégie de la langue cible de l’insertion d’un <u> entre <g> et <e>
(cf. tangage → tanguer) et celle de la langue source par redoublement de la consonne finale
devant voyelle (cf. debug + -ing → debugging).
Forme
déboguer
débugger
déboguée
débuguer
débogué
débuggé
débuggée
débogués
debodebudébodébu-
Lemme
Occ
44
11
4
4
4
3
3
2
DÉBOGUER
DÉBUGGER
DÉBOGUER
DÉBUGUER
DÉBOGUER
DÉBUGGER
DÉBUGGER
DÉBOGUER
-gage
4
1
115
12
Forme
débogue
débugué
débuguée
débugguer
déboguées
déboguaient
déboguant
debuggué
Lemme
DÉBOGUER
DÉBUGUER
DÉBUGUER
DÉBUGGUER
DÉBOGUER
DÉBOGUER
DÉBOGUER
DEBUGGUER
Occ
2
1
1
1
1
1
1
1
Lemme
DÉBOGUER
DÉBUGGER
DÉBUGUER
DÉBUGGUER
DEBUGGUER
-ggage
-guage
-geur
1
-gueur
-ggeur
-ggueur
6
2
8
24
1
109
2
3
8
1
1
Occ
59
16
6
1
1
Tableau 4. Cas d’instabilité orthographique pour l’emprunt construit à partir de debug
Les formes appartenant aux paradigmes des cinq infinitifs ci-dessus observables dans les
corpus étudiés sont listées avec leur nombre d’occurrences dans le tableau 4, de même que
différentes variantes du nom d’action et du nom d’agent correspondants. Sont également
indiquées pour les verbes les nombres d’occurrences de chaque entrée lexicale (lemme)
potentielle en additionnant les occurrences de toutes ses formes (calcul différent de celui de la
section 2). Le tableau 4 montre que la stabilisation orthographique de l’emprunt du mot
anglais debug n’est pas achevée. Mais le nombre d’occurrences permet déjà d’identifier des
préférences orthographiques émergentes.
319
D’après nos données, de tels cas de flottements orthographiques dus au redoublement de la
consonne finale concernent plus généralement les mots se terminant par une consonne finale
unique précédée par une voyelle courte en anglais. Ces mots redoublent leur consonne finale
devant tout suffixe commençant par une voyelle. Cette règle n’existe pas de façon native en
français, de sorte qu’on observe pour les emprunts des flottements entre l’utilisation de bases
d’emprunt à consonne finale redoublée et de bases finales simples, cf. RAP(P)ER
(< rap), SCAN(N)ER (< scan) ou NOVEL(L)ISER (< novel).
4.2 Types de LCR à partir de séquences adaptées de mots d’une langue source
Après l’adaptation des mots empruntés, l’intégration morphologique passe par des LCR
propres aux emprunts. Sur le modèle de la dérivation et de la conversion définies ci-dessus,
nous définissons deux types de LCR applicables aux séquences en langue étrangère adaptées :
1. Les LCR à structure dérivationnelle pour lesquelles une structure en base (empruntée)
+ affixe dérivationnel (propre à la langue cible) est reconnaissable ;
2. Les LCR de type conversion où au moins une forme du paradigme ou un radical du
lexème créé est homophone/homographe avec la séquence adaptée de l’input.
LCR à structure dérivationnelle affixale C’est le cas pour les exemples (1) et (2).
(1)
(2)
Anglais remix → base : remix + suffixe -age → lexème : REMIXAGE
Anglais pixel → Français : base : pixel + suffixe(s) -isation → lexème : PIXELISATION
LCR de type conversion C’est le cas pour tous les verbes construits à partir de séquences
adaptées de mots anglais se terminant par -e comme dans les exemples (3) et (4).
(3)
(4)
Anglais parse → Français : forme : (il/elle) parse → lexème : PARSER
Anglais impulse → Français : forme : (il/elle) impulse → lexème : IMPULSER
Ces procédés peuvent être réguliers, mais parfois des cas particuliers se distinguent.
4.3 Ambiguïtés dans l’identification des bases dérivationnelles
Lors de l’intégration des nouvelles unités lexicales dans la langue cible par des LCR à
structure dérivationnelle affixale, la frontière entre base et affixes n’est pas toujours
clairement identifiable. Nous avons notamment observé cette difficulté pour les verbes dont la
forme source vient d’un verbe anglais se terminant en -ate comme populate. Comme expliqué
dans la section 2, nous avons, pour ces données, produit deux lemmes candidats, doublons
provenant de généralisations excessives sur des procédés analogiques observables en français,
cf. exemples (5) et (6).
(5)
(6)
acclimateur et acclimater, mais pas *acclimer
exploitation et exploiter, mais pas *exploitater
Ainsi avons-nous produit *gentrificater et gentrifier à partir de gentrification et *populater et
populer à partir de populage et populateur. L’obtention du radical popul- plutôt que populatsemble s’expliquer par une réanalyse du mot anglais en analogie avec le mot français
population décomposé en radical popul- + suffixe -ation. La LCR permettant d’obtenir le
lexème POPULER passe donc par une analogie avec un mot similaire déjà présent dans le
lexique français.
4.4 Surdifférenciation lexicale
Enfin, l’intégration des emprunts permets de créer des différentiations dans la langue cible qui
n’existaient pas dans la langue source. Un tel cas est représenté dans l’exemple (7).
(7)
babysitter (M/F) → BABYSITTEUR (M/F) → BABYSITTEUR (M) vs. BABYSITTEUSE (F)
Ainsi le mot babysitter en anglais désigne une personne qui garde un enfant, qu’elle soit un
homme ou une femme. Lors de la création de l’emprunt, une réanalyse des composants
morphologiques du mot anglais conduit à identifier, par analogie, une base verbale babysit- et
320
le suffixe dérivationnel de type nom d’agent en -er qui est rendu par -eur en français. Le
français possédant par ailleurs une alternance régulière entre les suffixes -eur pour les noms
d’agent de sexe masculin et -euse pour ceux de sexe féminin, nous obtenons à partir d’un
lexème unique dans la langue source, deux lexèmes dans la langue cible. Ces deux lexèmes
introduisent à partir d’un même mot emprunté une nouvelle différentiation propre à la langue
cible que nous pouvons qualifier de surdifférenciation par rapport à la langue source9.
4.5.Liens de dérivation empruntés
La majorité des emprunts se font mot pour mot. Par ailleurs, la plupart des lexèmes emprunts
de l’anglais en français est constituée de noms. Ces noms peuvent alors à leur tour servir de
base à la construction d’un verbe par des procédés de dérivation propres à la langue cible
(cf. SCAN > SCANNER). Le lien de dérivation entre SCAN et SCANNER se construit ici par une
LCR de dérivation interne.
Néanmoins, dans certains cas, le français peut emprunter plusieurs lexèmes qui en anglais
étaient formés sur la même base. C’est par exemple le cas du verbe PARSER et du nom
d’action PARSING. Les deux lexèmes sont les résultats de LCR d’emprunts séparées. Pourtant,
les locuteurs reconstituent dans le lexique d’arrivée les liens de dérivations existant dans la
langue source : PARSER et PARSING sont clairement perçus comme issus de la même base
dérivationnelle, y compris en français. On peut alors parler d’emprunts de liens de dérivation
qui s’ajoutent au cas d’emprunts lexicaux. Ces liens de dérivations empruntés coexistent avec
les liens de dérivation internes construits à partir de lexèmes emprunts (CRACKER >
CRACKAGE), au point que dans certains cas, il y a concurrence directe entre dérivations
internes et liens de dérivation empruntés (cf. MAPPER vs. MAPPING et MAPPAGE).
5. Conclusions et perspectives
À partir de données extraites de corpus volumineux, nous avons étudié les emprunts verbaux,
et leurs noms d’agent ou d’action correspondants, d’origine anglaise en français et étudié les
modes d’intégration morphologique de ces entrées dans le lexique du français. Nous avons
identifiés un certain nombre de problèmes liés à la stabilisation des mots nouveaux et à leur
réinterprétation en termes d’analogie morphologique avec les processus existant en français.
Nous avons également montré que le phénomène morphologique de l’emprunt ne se limite
pas à l’intégration d’unités lexicales, mais qu’il peut également concerner des cas
d’intégration de relation morphologiques comme des liens de dérivation.
Pour l’instant nous avons laissé de côté les calques (cf. exemple (8)) qui constituent une
version particulière de l’emprunt. En effet, dans ce cas, l’emprunt ne porte pas sur une
séquence phonologique/graphémique, mais est construit par analogie avec des mots existants
dans la langue source et dont les constituants ont été identifiés et traduits dans la langue cible.
Par ailleurs, l’intégration morphologique n’est pas la seule façon pour une unité lexicale
verbale d’intégrer le lexique d’une langue : l’intégration syntaxique le permet également,
notamment au moyen de constructions à verbe support (Danlos, 1992). Nous ne sommes pas
pour l’instant en mesure de proposer des critères généraux permettant de prédire si un
emprunt sera intégré plutôt morphologiquement ou syntaxiquement10, mais quelques
tendances peuvent déjà être discernées :
9
D’autres cas de ce phénomène de surdifférenciation sont illustrés par GOLFEUR/GOLFEUSE (< golfer),
(< boxer) ou HACKEUR/HACKEUSE (< hacker).
BOXEUR/BOXEUSE
10
Comparer systématiquement l’intégration morphologique et l’intégration syntaxique nécessiterait une
extraction exhaustive des deux types d’emprunts. Ceci est impossible pour les emprunts de type verbes simples
en raison de l’homographie de certaines de leurs formes avec des mots préexistants, voire de l’ensemble de leur
paradigme (cf. l’emprunt POSTER (< angl. post) dans son emploi publier un message sur un forum internet).
321
 certains noms prédicatifs empruntés sont phonologiquement difficiles à utiliser comme
base pour la création d’un verbe simple : c’est par exemple le cas du verbe anglais google
‘rechercher sur Google’, prononcé [ɡuːɡəl] en anglais et [ɡuɡœl] en français, qui donnerait
régulièrement le verbe googler [ɡuɡle], attesté mais rare (du reste, on trouve également
googoliser et googliser sur le Wiktionnaire) ;
 certains noms prédicatifs empruntés sont ressentis comme très similaires, en sens et/ou en
phonologie, à des noms prédicatifs du français ; lorsque ces derniers n’ont pas d’équivalent
verbal, il en est de même pour l’emprunt ; c’est par exemple le cas de masterclass, associé à
classe : ce dernier n’ayant pas d’équivalent verbal à cause du blocage provenant de
l’existence du verbe classer ayant un tout autre sens, le verbe masterclasser n’est pas attesté ;
 certains verbes simples, notamment s’ils proviennent d’un verbe anglais qui n’est pas luimême un convert ou un dérivé, ne semblent pas avoir de contrepartie fonctionnant comme un
nom prédicatif ; c’est par exemple le cas de solver ‘résoudre’, issu de l’anglais solve. Nous
avons également l’intention d’approfondir ce travail en étudiant le rapport entre structure
argumentale et préférence morphologique vs. syntaxique, cf. exemples (9) et (10).
(9)
(10)
Intégration syntaxique : Je vérifie ça et je te fais un mail.
Intégration morphologique : Je te maile le document dès qu’il est prêt.
Remerciements Travail réalisé au sein du projet ANR EDyLex (ANR-09-CORD-008)
Références
Blancafort San José H., Recourcé G., Couto J., Sagot B., Stern R. & Teyssou D. 2010. Traitement des inconnus :
une approche systématique de l’incomplétude lexicale. In TALN 2010, Montréal Canada.
Bonami, O., Boyé, G. 2003. Supplétion et classes flexionnelles dans la conjugaison du français. Langages, 152,
102–126
Corbett G. G. & Fraser N. 1993. Network Morphology: a DATR account of Russian nominal inflection. Journal
of Linguistics, 29, 113–142.
Corbin D. 1992. Hypothèses sur les frontières de la composition nominale. Cahiers de Grammaire, 17, 25–55.
Danlos L. 1992. Support verb constructions: linguistic properties, representation, translation. Journal of
French Linguistic Studies, 2(1), 1–32.
Fradin , B. 2003. Nouvelles approches en morphologie. Paris, France : Presses Universitaires de France.
Fradin B. & Kerleroux F. 2003. Troubles with lexemes. In G. Booij & A. R. Janet de Cesaris, Sergio Scalise,
Eds., Selected papers from MMM3, Topics in Morphology, p. 177–196, Barcelona, Spain.
Hockett C. F. 1954. Two models of linguistc descriptions. Words, 10, 210–234.
Matthews P. H. 1974. Morphology. Cambridge, UK: CUP.
Meľčuk I. 1996. Cours de morphologie générale. Troisième partie: Moyens morphologiques. Quatrième partie:
Syntactiques morphologiques. Montréal, Canada: Presses de l’Université de Montréal.
Robins R. H. 1959. In defense of wp. Transactions of the Philological Society 1959, p. 116–144.
Sagot B. 2010. The Lefff, a freely available, accurate and large-coverage lexicon for French. In Proceedings of
LREC 2010, La Valette, Malte.
Stump G. T. 2001. Inflectional Morphology. A Theory of Paradigm Structure. Cambridge, UK: CUP.
Tribout D. 2010. Les conversions de nom à verbe et de verbe à nom en français. PhD thesis, Univ. Paris 7, Paris.
322
Téléchargement