57 corpora del parlato francese, spagnolo ed inglese le corpus de

Téléchargement

CORPORA DEL PARLATO FRANCESE, SPAGNOLO ED

INGLESE

CLAIRE BLANCHE-BENVENISTE*

LE CORPUS DE FRANÇAIS PARLÉ DU GARS,

GROUPE AIXOIS DE RECHERCHES EN SYNTAXE

La linguistique orientée vers les corpus est devenue depuis quelques années une dis-

cipline à part entière et, dans toutes les grandes langues européennes, des cor-

pus ont été établis, surtout pour la langue écrite (cf. Kennedy 1998; Habert /

Nazarenco 1997). L’introduction de la langue parlée s’est généralement faite un

peu plus tard que celle de la langue écrite, en raison de la difficulté et du coût

beaucoup plus considérables des recueils de données. La consultation simulta-

née des deux sortes de corpus est en train, semble-t-il, de changer la concep-

tion même que l’on se fait de la description linguistique (cf. Sinclair 1991).

On connaissait déjà des comparaisons modernes entre langue écrite et lan-

gue parlée, comme celle de Halliday (1985), par exemple, et on savait quel bé-

néfice la linguistique descriptive pouvait en tirer (cf. Miller / Weinert 1998).

Mais les corpus contemporains apportent à cette comparaison de nouvelles

dimensions et en particulier la très grande diversité des données, la possibilité

de les quantifier finement et de les stocker par l’informatisation, ce qui a com-

plètement changé la façon même de voir ces comparaisons. D. Biber et ses

collaborateurs en ont fourni récemment une illustration frappante, en publiant

une nouvelle grammaire de l’anglais «parlé et écrit», entièrement fondée sur les

répartitions en «genres» que permettent maintenant ces nouvelles confronta-

tions (cf. Biber / Johansson / Leech / Conrad / Finegan 1999). Les corpus de

langue parlée permettront sans doute de nombreuses autres exploitations, en-

core inédites à ce jour.

Le lancement des corpus de français parlé a été assez tardif – est-ce en rai-

son des réticences normatives bien connues des Français?… Pour l’instant, le

* Claire Blanche-Benveniste est actuellement professeur émérite à l’Université de Provence

et à l’Ecole Pratique des Hautes Etudes à Paris. Son travail a porté sur la langue écrite (recher-

ches sur l’orthographe) et sur la langue orale (corpus du GARS), particulièrement en ce qui con-

cerne la morphologie et la syntaxe du français.

corpus le plus vaste (dix fois moins grand cependant que le corpus britanni-

que!…) est celui qu’a constitué depuis une quinzaine d’années, à Aix-en-Pro-

vence, le Groupe Aixois de Recherches en Syntaxe (GARS). Le catalogue de ce

corpus est partiellement consultable par le Web, sur le site DELIC1.

Je propose de présenter les caractéristiques essentielles de ce corpus de

français parlé et d’en développer trois aspects: l’intérêt des problèmes de trans-

cription, l’exploitation des données à des fins d’analyse grammaticales et quel-

ques considérations sur l’organisation des discours.

1. CARACTÉRISTIQUES GÉNÉRALES

On calcule la dimension des corpus de langue parlée en comptant non pas le

temps de parole mais le nombre de mots transcrits. En effet, le débit de parole

est assez variable selon les personnes et selon les situations. Nous avons cal-

culé que, pour le français, il peut aller du simple au triple: dans un débit lent,

on compte environ 110 mots pour une minute d’enregistrement; un débit très

rapide peut en contenir jusqu’à 350. En adoptant une moyenne basse, on es-

time que 100 heures d’enregistrement correspondent en gros à un million de

mots transcrits.

Le corpus collecté par le GARS contient 1.500.000 mots. Le grand corpus

britannique du BNC en compte 10 millions. La disproportion est flagrante.

Elle s’explique en partie par une histoire différente et par la disparité des

moyens mis en œuvre. Le corpus de français parlé du GARS a été commencé

dans les années 1980, avec des moyens réduits, par un groupe de linguistes qui

s’intéressaient surtout à la grammaire et qui voulaient observer les mécanismes

grammaticaux de la langue parlée dans une optique de linguistique descriptive.

Il s’agissait d’une collecte de données ouverte, qui se complétait tous les ans, au

fur et à mesure des besoins. La transcription des enregistrements – que certai-

nes équipes avaient traitée comme un simple problème technique qu’on pou-

vait confier à des non-linguistes2 – a été comprise au contraire comme un défi

d’ordre méthodologique et théorique. Il nous a semblé que, pour faire des

transcriptions utilisables à des fins d’analyse grammaticale, il fallait résoudre un

grand nombre de problèmes préalables concernant les relations entre la langue

orale et sa représentation graphique: quel degré de réalisme choisir pour les

transcriptions, quelle relation établir entre la fidélité à l’original et la lisibilité du

1 <http://www.up.univ-mrs.fr/delic/>.

2 C’était le cas très souvent des recherches en socio-linguistique, par exemple pour le corpus

Sankoff-Cedergren de Montréal, dont une partie a dû être retranscrite pour les études de mor-

pho-syntaxe.

texte et, spécialement pour le français, comment rendre compte des différences

entre la morphologie orale et l’orthographe. Vues dans cette orientation, les

transcriptions ont été des opérations certes complexes et longues mais pleines

d’enseignement.

L’échantillonnage initial est une des grandes préoccupations de certains

créateurs de corpus de langue parlée. Si l’on veut pouvoir comparer les locu-

teurs et leurs productions, il faut s’assurer qu’ils sont régulièrement représentés

et, pour étudier les variations, il est bon d’avoir des échantillons de toutes sor-

tes de situations de parole. Deux options: on peut prévoir ces choix dès le dé-

part en construisant le corpus selon des proportions déterminées à l’avance; on

peut les faire après coup, en découpant des échantillons dans un ensemble de

données plus vastes. Les préoccupations de l’équipe du GARS n’impliquaient

pas un échantillonnage au départ. Au contraire, c’est en cours de route que

s’est formée l’expérience de ce qui constituait les «bonnes sources» grammati-

cales. Par exemple, il a fallu un certain temps pour comprendre que les formes

de syntaxe les plus élaborées, avec le plus d’enchâssements de subordonnées,

se rencontraient dans les situations d’explications techniques (et surtout pas

dans les conversations); que les grandes organisations chronologiques ne se

trouvaient pas dans les récits de vie mais bien davantage dans les récits d’acci-

dents; qu’on obtenait de bons exemples d’un certain type de langage «formel»

en questionnant les locuteurs sur leurs professions; que, pour étudier la syntaxe

des enfants, il fallait éviter les situations de langage spontané et favoriser cer-

tains degrés d’artifice; que la situation de «porte-parole» (porte-parole d’une

association ou d’autres types de groupes) favorisait des tournures grammatica-

les particulièrement intéressantes et rarement attestées ailleurs (appositions, par

exemple). Autrement dit, nous ne savions pas, au départ, comment les locu-

teurs utilisaient les ressources grammaticales de la langue dans leurs différents

actes de parole3. Nous ne pouvions donc pas fournir a priori les échantillonna-

ges qui nous intéressaient. Nous pouvons le faire en partie maintenant.

Les grands corpus établis dans les années 1990 ont généralement été fon-

dés, dès le départ, sur les possibilités ouvertes par l’informatique. Le corpus du

GARS, engagé bien antérieurement, a été en grande partie revu et informatisé à

partir de cette époque. Nous avons fait le choix d’une informatisation «légère»,

3 D. Biber avait pressenti ce problème en 1991, lorsque, sous le terme de «variation», il avait

envisagé une répartition en «genres» (cf. Biber 1991). Une dizaine d’années plus tard, dans la

grande grammaire de l’anglais parlé et écrit qu’il a dirigée, toutes les répartitions ont été soigneu-

sement révisées, en tenant compte de l’expérience acquise par les corpus (cf. Biber / Johansson

/ Leech / Conrad / Finegan 1999).

avec un logiciel d’exploitation, XCOR, fourni par Jean-Pierre Adam4. Nous

n’avons pas utilisé pour l’instant, de façon systématique, un étiqueteur gram-

matical, puisque, justement, une partie de notre travail consiste à vérifier les

analyses grammaticales courantes. On peut tout à fait admettre les classements

en adverbes, conjonctions, prépositions, fournis par les ouvrages de grand

public, si l’objectif est de répondre à des demandes de grand public, en

s’adaptant aux habitudes usuelles. Mais, comme l’objectif ambitieux du GARS

consistait à raffiner et même à réformer une partie de la terminologie, nous ne

pouvions pas adopter l’ensemble de l’étiquetage morpho-syntaxique. Nous

n’avons donc indexé, prudemment, que les catégories «sans problèmes»,

comme par exemple les verbes conjugués (cf. Blanche-Benveniste / Adam

1999).

Il faut préciser ce qu’on entend par «langue parlée». Pour beaucoup de

Français – y compris certains linguistes de profession – le parlé se réduit au

spontané et au fautif. Dès qu’une production orale comporte peu de fautes

contre la norme et qu’en revanche elle contient des parties grammaticalement

complexes, le soupçon leur vient qu’il ne s’agit pas vraiment de parlé, mais de

quelque chose de mixte, comme «de l’écrit parlé» ou du «parlé écrit». Nous

avons choisi au contraire de définir le «parlé» par le media utilisé, à savoir la

parole articulée. Il nous paraît utile de collectionner toutes sortes de produc-

tions, depuis les plus spontanées jusqu’aux plus contraintes. C’est pourquoi, à

part les conversations, récits, ou témoignages improvisés, le corpus contient

des prises de parole formelles, discours publics, émissions de radio et télévision

et même lectures de textes.

Nous retenons comme locuteurs francophones ceux qui ont fait leur scola-

rité primaire en France et qui sont âgés de plus de 5 ans. En raison des diffi-

cultés à transcrire la parole lorsque les locuteurs sont trop nombreux, nous

limitons le nombre des participants à six. Il est commode d’avoir à sa disposi-

tion plusieurs «longueurs» de textes. Pour le GARS, les enregistrements

“longs” font entre 60 et 90 minutes; les “courts” durent de 10 à 15 minutes.

Les enregistrements ont lieu à domicile, sur les lieux de travail, dans des maga-

sins ou des bureaux, dans des institutions publiques, au téléphone. Nous ne

faisons pas d’enregistrement avec «micro caché».

Les règles de protection juridique de la parole sont beaucoup plus com-

plexes qu’on ne pourrait le croire de l’extérieur. C’est pourquoi il n’est pas

possible de communiquer des corpus de langue parlée pour lesquels il n’existe

pas une autorisation explicite d’enregistrement et de transcription. Pour les

4 Par la suite, Jean Véronis (Véronis / Khuori / Meunier 1994) a proposé un codage

standard, avec un dictionnaire MULTEX (lexique informatisé de 350.000 formes).

corpus de grande envergure, il a fallu généralement passer une année entière à

régler les problèmes juridiques, avant de se mettre au travail.

Faire un corpus de langue parlée qui corresponde aux exigences modernes

revient très cher. Ce n’est pas un hasard si les corpus de langue anglaise sont

actuellement les plus vastes; ils peuvent miser sur des financements considéra-

bles: le marché commercial ouvert par l’enseignement de l’anglais parlé est tel

que les financiers peuvent raisonnablement espérer en tirer un profit.

Les méthodes de travail, la taille et la composition même du corpus dépen-

dent étroitement de l’objectif que l’on se fixe. Il serait illusoire de faire une

recherche lexicale sur la langue parlée avec moins de dix millions de mots5,

mais la recherche grammaticale peut commencer dès qu’on dispose d’un mil-

lion de mots et il en faut encore moins pour faire les études phonologiques6.

2. TRANSCRIPTIONS

Les débats sur les types de transcription mettent souvent aux prises les débu-

tants – qui veulent généralement «tout» noter, avec une frénésie de réalisme; les

techniciens, qui cherchent à suivre les consignes internationales des experts

informaticiens, quels que soient les objectifs7; et les linguistes, qui, pour peu

qu’ils aient réfléchi aux relations entre l’écrit et le parlé, savent qu’il faut adap-

ter les transcriptions aux objectifs de la recherche.

Pour s’intéresser aux réalisations grammaticales présentes dans un corpus, il

faut pouvoir lire des quantités de textes et c’est pourquoi un minimum de lisi-

bilité est requis. Les transcriptions phonétiques sont souvent indispensables –

par exemple pour étudier certains phénomènes de liaison – mais nous ne

connaissons aucun grand corpus qui serait entièrement transcrit phonétique-

ment, ce qui serait un obstacle trop grand à une lecture cursive. Les transcrip-

tions surchargées de symboles sont, de ce fait, écartées. L’idéal est de trouver le

bon compromis entre fidélité et lisibilité.

L’équipe du GARS a mis au point, progressivement, un système de trans-

cription “pauvre”, qui a été adopté par plusieurs équipes de recherche: sans

5 Il n’est donc pas envisageable de faire des dictionnaires fondés sur corpus, comme on a

pu en faire pour les français régionaux, en collectionnant des questionnaires.

6 Une équipe de phonéticiens et phonologues entreprend à Toulouse, sous la direction de

Jacques Durand, un corpus qui servira aux recherches dans le domaine phonologique et prosodi-

que.

7 Par exemple la TEI, Text Encoding Initiative (<http://www.tei-c.org/>) ou les consignes

données par le groupe EAGLES pour les grands corpus européens des différents projets PA-

ROLE (<http://www.ilc.pi.cnr.it/ >).

1 / 19 100%

Documents connexes

corpus 10 mai nrc13

BA 7 – EVALUATION ORALE DRAMATURGIE Liste de textes 3

le corps dans tous ses etats dans l`oeuvre de john donne

Révisions pour le brevet blanc 3e2 Séquence 1 : Nouvelles à chute

Verbe ou révérence

Lexico 3

Compte-rendu de l`exercice d`écriture

énoncé tp - Université Paris Diderot

Rapport Economie

Les groupes compléments Les Groupes compléments

Objectifs : Acquérir de l`expertise et développer mes connaissances

Appel

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d'utilisation

57 corpora del parlato francese, spagnolo ed inglese le corpus de

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

57 corpora del parlato francese, spagnolo ed inglese le corpus de

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib