57 corpora del parlato francese, spagnolo ed inglese le corpus de

57
CORPORA DEL PARLATO FRANCESE, SPAGNOLO ED
INGLESE
CLAIRE BLANCHE-BENVENISTE*
LE CORPUS DE FRANÇAIS PARLÉ DU GARS,
GROUPE AIXOIS DE RECHERCHES EN SYNTAXE
La linguistique orientée vers les corpus est devenue depuis quelques années une dis-
cipline à part entière et, dans toutes les grandes langues européennes, des cor-
pus ont été établis, surtout pour la langue écrite (cf. Kennedy 1998; Habert /
Nazarenco 1997). L’introduction de la langue parlée s’est généralement faite un
peu plus tard que celle de la langue écrite, en raison de la difficulté et du coût
beaucoup plus considérables des recueils de données. La consultation simulta-
née des deux sortes de corpus est en train, semble-t-il, de changer la concep-
tion même que l’on se fait de la description linguistique (cf. Sinclair 1991).
On connaissait déjà des comparaisons modernes entre langue écrite et lan-
gue parlée, comme celle de Halliday (1985), par exemple, et on savait quel bé-
néfice la linguistique descriptive pouvait en tirer (cf. Miller / Weinert 1998).
Mais les corpus contemporains apportent à cette comparaison de nouvelles
dimensions et en particulier la très grande diversité des données, la possibilité
de les quantifier finement et de les stocker par l’informatisation, ce qui a com-
plètement changé la façon même de voir ces comparaisons. D. Biber et ses
collaborateurs en ont fourni récemment une illustration frappante, en publiant
une nouvelle grammaire de l’anglais «parlé et écrit», entièrement fondée sur les
répartitions en «genres» que permettent maintenant ces nouvelles confronta-
tions (cf. Biber / Johansson / Leech / Conrad / Finegan 1999). Les corpus de
langue parlée permettront sans doute de nombreuses autres exploitations, en-
core inédites à ce jour.
Le lancement des corpus de français parlé a été assez tardif – est-ce en rai-
son des réticences normatives bien connues des Français?… Pour l’instant, le
* Claire Blanche-Benveniste est actuellement professeur émérite à l’Université de Provence
et à l’Ecole Pratique des Hautes Etudes à Paris. Son travail a porté sur la langue écrite (recher-
ches sur l’orthographe) et sur la langue orale (corpus du GARS), particulièrement en ce qui con-
cerne la morphologie et la syntaxe du français.
58
corpus le plus vaste (dix fois moins grand cependant que le corpus britanni-
que!…) est celui qu’a constitué depuis une quinzaine d’années, à Aix-en-Pro-
vence, le Groupe Aixois de Recherches en Syntaxe (GARS). Le catalogue de ce
corpus est partiellement consultable par le Web, sur le site DELIC1.
Je propose de présenter les caractéristiques essentielles de ce corpus de
français parlé et d’en développer trois aspects: l’intérêt des problèmes de trans-
cription, l’exploitation des données à des fins d’analyse grammaticales et quel-
ques considérations sur l’organisation des discours.
1. CARACTÉRISTIQUES GÉNÉRALES
On calcule la dimension des corpus de langue parlée en comptant non pas le
temps de parole mais le nombre de mots transcrits. En effet, lebit de parole
est assez variable selon les personnes et selon les situations. Nous avons cal-
culé que, pour le français, il peut aller du simple au triple: dans un débit lent,
on compte environ 110 mots pour une minute d’enregistrement; un débit très
rapide peut en contenir jusqu’à 350. En adoptant une moyenne basse, on es-
time que 100 heures d’enregistrement correspondent en gros à un million de
mots transcrits.
Le corpus collecté par le GARS contient 1.500.000 mots. Le grand corpus
britannique du BNC en compte 10 millions. La disproportion est flagrante.
Elle s’explique en partie par une histoire différente et par la disparité des
moyens mis en œuvre. Le corpus de français parlé du GARS a été commencé
dans les années 1980, avec des moyens réduits, par un groupe de linguistes qui
s’intéressaient surtout à la grammaire et qui voulaient observer les mécanismes
grammaticaux de la langue parlée dans une optique de linguistique descriptive.
Il s’agissait d’une collecte de données ouverte, qui se complétait tous les ans, au
fur et à mesure des besoins. La transcription des enregistrements – que certai-
nes équipes avaient traitée comme un simple problème technique qu’on pou-
vait confier à des non-linguistes2 – a été comprise au contraire comme un défi
d’ordre méthodologique et théorique. Il nous a semblé que, pour faire des
transcriptions utilisables à des fins d’analyse grammaticale, il fallait résoudre un
grand nombre de problèmes préalables concernant les relations entre la langue
orale et sa représentation graphique: quel degré de réalisme choisir pour les
transcriptions, quelle relation établir entre la fidélité à l’original et la lisibilité du
1 <http://www.up.univ-mrs.fr/delic/>.
2 C’était le cas très souvent des recherches en socio-linguistique, par exemple pour le corpus
Sankoff-Cedergren de Montréal, dont une partie a dû être retranscrite pour les études de mor-
pho-syntaxe.
59
texte et, spécialement pour le français, comment rendre compte des différences
entre la morphologie orale et l’orthographe. Vues dans cette orientation, les
transcriptions ont été des opérations certes complexes et longues mais pleines
d’enseignement.
L’échantillonnage initial est une des grandes préoccupations de certains
créateurs de corpus de langue parlée. Si l’on veut pouvoir comparer les locu-
teurs et leurs productions, il faut s’assurer qu’ils sont régulièrement représentés
et, pour étudier les variations, il est bon d’avoir des échantillons de toutes sor-
tes de situations de parole. Deux options: on peut prévoir ces choix dès le dé-
part en construisant le corpus selon des proportions déterminées à l’avance; on
peut les faire après coup, en découpant des échantillons dans un ensemble de
données plus vastes. Les préoccupations de l’équipe du GARS n’impliquaient
pas un échantillonnage au départ. Au contraire, c’est en cours de route que
s’est formée l’expérience de ce qui constituait les «bonnes sources» grammati-
cales. Par exemple, il a fallu un certain temps pour comprendre que les formes
de syntaxe les plus élaborées, avec le plus d’enchâssements de subordonnées,
se rencontraient dans les situations d’explications techniques (et surtout pas
dans les conversations); que les grandes organisations chronologiques ne se
trouvaient pas dans les récits de vie mais bien davantage dans les récits d’acci-
dents; qu’on obtenait de bons exemples d’un certain type de langage «formel»
en questionnant les locuteurs sur leurs professions; que, pour étudier la syntaxe
des enfants, il fallait éviter les situations de langage spontané et favoriser cer-
tains degrés d’artifice; que la situation de «porte-parole» (porte-parole d’une
association ou d’autres types de groupes) favorisait des tournures grammatica-
les particulièrement intéressantes et rarement attestées ailleurs (appositions, par
exemple). Autrement dit, nous ne savions pas, au départ, comment les locu-
teurs utilisaient les ressources grammaticales de la langue dans leurs différents
actes de parole3. Nous ne pouvions donc pas fournir a priori les échantillonna-
ges qui nous intéressaient. Nous pouvons le faire en partie maintenant.
Les grands corpus établis dans les années 1990 ont généralement été fon-
dés, dès le départ, sur les possibilités ouvertes par l’informatique. Le corpus du
GARS, engagé bien antérieurement, a été en grande partie revu et informatisé à
partir de cette époque. Nous avons fait le choix d’une informatisation «légère»,
3 D. Biber avait pressenti ce problème en 1991, lorsque, sous le terme de «variation», il avait
envisagé une répartition en «genres» (cf. Biber 1991). Une dizaine d’années plus tard, dans la
grande grammaire de l’anglais parlé et écrit qu’il a dirigée, toutes les répartitions ont été soigneu-
sement révisées, en tenant compte de l’expérience acquise par les corpus (cf. Biber / Johansson
/ Leech / Conrad / Finegan 1999).
60
avec un logiciel d’exploitation, XCOR, fourni par Jean-Pierre Adam4. Nous
n’avons pas utilisé pour l’instant, de façon systématique, un étiqueteur gram-
matical, puisque, justement, une partie de notre travail consiste à vérifier les
analyses grammaticales courantes. On peut tout à fait admettre les classements
en adverbes, conjonctions, prépositions, fournis par les ouvrages de grand
public, si l’objectif est de répondre à des demandes de grand public, en
s’adaptant aux habitudes usuelles. Mais, comme l’objectif ambitieux du GARS
consistait à raffiner et même à réformer une partie de la terminologie, nous ne
pouvions pas adopter l’ensemble de l’étiquetage morpho-syntaxique. Nous
n’avons donc indexé, prudemment, que les catégories «sans problèmes»,
comme par exemple les verbes conjugués (cf. Blanche-Benveniste / Adam
1999).
Il faut préciser ce qu’on entend par «langue parlée». Pour beaucoup de
Français – y compris certains linguistes de profession – le parlé se réduit au
spontané et au fautif. Dès qu’une production orale comporte peu de fautes
contre la norme et qu’en revanche elle contient des parties grammaticalement
complexes, le soupçon leur vient qu’il ne s’agit pas vraiment de parlé, mais de
quelque chose de mixte, comme «de l’écrit parlé» ou du «parlé écrit». Nous
avons choisi au contraire de définir le «parlé» par le media utilisé, à savoir la
parole articulée. Il nous paraît utile de collectionner toutes sortes de produc-
tions, depuis les plus spontanées jusqu’aux plus contraintes. C’est pourquoi, à
part les conversations, récits, ou témoignages improvisés, le corpus contient
des prises de parole formelles, discours publics, émissions de radio et télévision
et même lectures de textes.
Nous retenons comme locuteurs francophones ceux qui ont fait leur scola-
rité primaire en France et qui sont âgés de plus de 5 ans. En raison des diffi-
cultés à transcrire la parole lorsque les locuteurs sont trop nombreux, nous
limitons le nombre des participants à six. Il est commode d’avoir à sa disposi-
tion plusieurs «longueurs» de textes. Pour le GARS, les enregistrements
“longs” font entre 60 et 90 minutes; les “courts” durent de 10 à 15 minutes.
Les enregistrements ont lieu à domicile, sur les lieux de travail, dans des maga-
sins ou des bureaux, dans des institutions publiques, au téléphone. Nous ne
faisons pas d’enregistrement avec «micro caché».
Les règles de protection juridique de la parole sont beaucoup plus com-
plexes qu’on ne pourrait le croire de l’extérieur. C’est pourquoi il n’est pas
possible de communiquer des corpus de langue parlée pour lesquels il n’existe
pas une autorisation explicite d’enregistrement et de transcription. Pour les
4 Par la suite, Jean Véronis (Véronis / Khuori / Meunier 1994) a proposé un codage
standard, avec un dictionnaire MULTEX (lexique informatisé de 350.000 formes).
61
corpus de grande envergure, il a fallu généralement passer une année entière à
régler les problèmes juridiques, avant de se mettre au travail.
Faire un corpus de langue parlée qui corresponde aux exigences modernes
revient très cher. Ce n’est pas un hasard si les corpus de langue anglaise sont
actuellement les plus vastes; ils peuvent miser sur des financements considéra-
bles: le marché commercial ouvert par l’enseignement de l’anglais parlé est tel
que les financiers peuvent raisonnablement espérer en tirer un profit.
Les méthodes de travail, la taille et la composition même du corpus dépen-
dent étroitement de l’objectif que l’on se fixe. Il serait illusoire de faire une
recherche lexicale sur la langue parlée avec moins de dix millions de mots5,
mais la recherche grammaticale peut commencer dès qu’on dispose d’un mil-
lion de mots et il en faut encore moins pour faire les études phonologiques6.
2. TRANSCRIPTIONS
Les débats sur les types de transcription mettent souvent aux prises les débu-
tants – qui veulent généralement «tout» noter, avec une frénésie de réalisme; les
techniciens, qui cherchent à suivre les consignes internationales des experts
informaticiens, quels que soient les objectifs7; et les linguistes, qui, pour peu
qu’ils aient réfléchi aux relations entre l’écrit et le parlé, savent qu’il faut adap-
ter les transcriptions aux objectifs de la recherche.
Pour s’intéresser aux réalisations grammaticales présentes dans un corpus, il
faut pouvoir lire des quantités de textes et c’est pourquoi un minimum de lisi-
bilité est requis. Les transcriptions phonétiques sont souvent indispensables –
par exemple pour étudier certains phénomènes de liaison – mais nous ne
connaissons aucun grand corpus qui serait entièrement transcrit phonétique-
ment, ce qui serait un obstacle trop grand à une lecture cursive. Les transcrip-
tions surchargées de symboles sont, de ce fait, écartées. L’idéal est de trouver le
bon compromis entre fidélité et lisibilité.
L’équipe du GARS a mis au point, progressivement, un système de trans-
cription “pauvre”, qui a été adopté par plusieurs équipes de recherche: sans
5 Il n’est donc pas envisageable de faire des dictionnaires fondés sur corpus, comme on a
pu en faire pour les français régionaux, en collectionnant des questionnaires.
6 Une équipe de phonéticiens et phonologues entreprend à Toulouse, sous la direction de
Jacques Durand, un corpus qui servira aux recherches dans le domaine phonologique et prosodi-
que.
7 Par exemple la TEI, Text Encoding Initiative (<http://www.tei-c.org/>) ou les consignes
données par le groupe EAGLES pour les grands corpus européens des différents projets PA-
ROLE (<http://www.ilc.pi.cnr.it/ >).
1 / 19 100%

57 corpora del parlato francese, spagnolo ed inglese le corpus de

La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !