
60
avec un logiciel d’exploitation, XCOR, fourni par Jean-Pierre Adam4. Nous
n’avons pas utilisé pour l’instant, de façon systématique, un étiqueteur gram-
matical, puisque, justement, une partie de notre travail consiste à vérifier les
analyses grammaticales courantes. On peut tout à fait admettre les classements
en adverbes, conjonctions, prépositions, fournis par les ouvrages de grand
public, si l’objectif est de répondre à des demandes de grand public, en
s’adaptant aux habitudes usuelles. Mais, comme l’objectif ambitieux du GARS
consistait à raffiner et même à réformer une partie de la terminologie, nous ne
pouvions pas adopter l’ensemble de l’étiquetage morpho-syntaxique. Nous
n’avons donc indexé, prudemment, que les catégories «sans problèmes»,
comme par exemple les verbes conjugués (cf. Blanche-Benveniste / Adam
1999).
Il faut préciser ce qu’on entend par «langue parlée». Pour beaucoup de
Français – y compris certains linguistes de profession – le parlé se réduit au
spontané et au fautif. Dès qu’une production orale comporte peu de fautes
contre la norme et qu’en revanche elle contient des parties grammaticalement
complexes, le soupçon leur vient qu’il ne s’agit pas vraiment de parlé, mais de
quelque chose de mixte, comme «de l’écrit parlé» ou du «parlé écrit». Nous
avons choisi au contraire de définir le «parlé» par le media utilisé, à savoir la
parole articulée. Il nous paraît utile de collectionner toutes sortes de produc-
tions, depuis les plus spontanées jusqu’aux plus contraintes. C’est pourquoi, à
part les conversations, récits, ou témoignages improvisés, le corpus contient
des prises de parole formelles, discours publics, émissions de radio et télévision
et même lectures de textes.
Nous retenons comme locuteurs francophones ceux qui ont fait leur scola-
rité primaire en France et qui sont âgés de plus de 5 ans. En raison des diffi-
cultés à transcrire la parole lorsque les locuteurs sont trop nombreux, nous
limitons le nombre des participants à six. Il est commode d’avoir à sa disposi-
tion plusieurs «longueurs» de textes. Pour le GARS, les enregistrements
“longs” font entre 60 et 90 minutes; les “courts” durent de 10 à 15 minutes.
Les enregistrements ont lieu à domicile, sur les lieux de travail, dans des maga-
sins ou des bureaux, dans des institutions publiques, au téléphone. Nous ne
faisons pas d’enregistrement avec «micro caché».
Les règles de protection juridique de la parole sont beaucoup plus com-
plexes qu’on ne pourrait le croire de l’extérieur. C’est pourquoi il n’est pas
possible de communiquer des corpus de langue parlée pour lesquels il n’existe
pas une autorisation explicite d’enregistrement et de transcription. Pour les
4 Par la suite, Jean Véronis (Véronis / Khuori / Meunier 1994) a proposé un codage
standard, avec un dictionnaire MULTEX (lexique informatisé de 350.000 formes).