ANNOTER LES PARTICULES DISCURSIVES COMME « NOYAUX ASSOCIÉS »
33
peut être interprétée comme un acte de langage, suffisant communicativement
et sur lequel l’interlocuteur peut s’appuyer pour répondre.
Les noyaux et les ad-noyaux composent une unité de macro-syntaxe,
l’Unité Illocutoire (l’UI), qui a été définie par le groupe syntaxe du projet
Rhapsodie6 comme la plus grande unité macrosyntaxique, concaténation
d’unités macro de rang inférieur que représente l’ensemble noyau + adnoyaux.
Après avoir indiqué les propriétés (macro)syntaxiques des PDi, nous
montrerons comment certaines d’entre elles se comportent dans l’interaction,
par l’observation d’occurrences extraites de grands corpus de l’oral, CLAPI7,
CRFP, Corpaix8.
Nous tenterons ainsi de répondre à la question suivante, déjà posée au
cours du projet Rhapsodie9 : ces éléments ont-ils systématiquement un
fonctionnement de « noyau associé » ou d’ « Unité Illocutoire Associée » (ie UIA cf.
Kahane, Pietra Andrea, 2011), comme cela a été proposé par les chercheurs
participant au projet d’annotation syntaxique de l’oral du dit projet Rhapsodie.
La question nous paraît cruciale aussi bien pour l’enrichissement de
l’annotation, que pour une plus grande précision dans la description du
fonctionnement du langage ainsi que pour les applications possibles
(traduction automatique, dialogue homme-machine, TAL).
Sans pouvoir donner immédiatement et de façon exhaustive des
solutions à cette problématique, nous avons envisagé d’autres pistes fondées
sur des études commencées il y a plusieurs années : en effet, il a été proposé
d’annoter syntaxiquement et de manière plus systématique voire automatique, à
partir d’études de corpus oraux, en suivant une méthodologie inductive (J.
Véronis et Teston-Bonnard, 2004) les particules discursives surtout celles qui
sont des catégories grammaticales – noms, adjectifs, pronoms, constructions
verbales… -et ont parallèlement un emploi de particules discursives, telles que
genre, bon, quoi, je veux dire.
Il a été en effet possible de faire émerger, en fonction des propriétés
distributionnelles et topologiques repérées dans les corpus, de grandes
tendances systémiques, voire des règles implémentables qui permettent à
terme d’établir un étiquetage automatique.
Les propositions d’annotations qui sont faites dans ce contexte seront,
pour cette contribution, étayées par l’analyse des quelques PDi
représentatives dans les corpus étudiés.
6 Projet financé par l’Agence Nationale de la Recherche (contrat ANR Rhapsodie 07 Corp-030-
01, Corpus prosodique de référence du français parlé, dirigé par Anne Lacheret).
7 clapi.univ-lyon2.fr. Conventions de transcription du groupe ICOR.
8 Corpus constitués par l’équipe aixoise de Claire Blanche Benveniste, représentant environ 1 million
et demi de mots dont 450 000 sont des corpus audio (Equipe DELIC (2004). Présentation du
Corpus de référence du français parlé. Recherches sur le français parlé, 18, 11-42).
9 Projet financé par l’Agence Nationale de la Recherche (contrat ANR Rhapsodie 07 Corp-030-
01, Corpus prosodique de référence du français parlé, dirigé par Anne Lacheret).