Manuel d`utilisation pour le corpus

publicité
Manuel d’utilisation du corpus T-zéro
Charlotte Meisner
juillet 2014
Contenu
1. Comment accéder aux données extralinguistiques de T-zéro? ..................................................... 1
1.1 La dimension interpersonnelle ................................................................................................... 1
1.2 La dimension intrapersonnelle ................................................................................................... 2
2. Comment accéder aux données linguistiques de T-zéro ? ............................................................. 3
1. Comment accéder aux données extralinguistiques de T-zéro?
1.1 La dimension interpersonnelle
Les informations sociodémographiques sont accessibles à travers le masque de saisie rose
personnes (1). Chaque cellule du masque contient des informations qui peuvent faire objet
d’une requête, et ceci également en combinaison avec d’autres cellules : un clic sur le bouton
Find/Suchen/Recherche, marqué par la flèche rouge, dans le menu supérieur suffit pour lancer
une requête.
(1) Le masque rose : les données sociodémographiques
2.
3.
4.
1.
5.
6.
9.
7.
11.
8.
10.
12
Chaque locuteur reçoit, tout d’abord, un numéro individuel d’identification (1.) qui contient
non seulement un numéro continu, mais également le sigle du pays d’enregistrement (CH ou
1
Charlotte Meisner
Manuel d’utilisation du corpus T-zéro
juillet 2014
FR) et du sexe (F ou M). Lo_CH_M_1120 signifie, par exemple, locuteur, suisse, masculin,
ayant le numéro continu 1120.
Les données sociodémographiques de base, à savoir le sexe (2.), l’âge (3.), la ou les langue(s)
maternelle(s) (4.), le lieu d’enregistrement en sigles (CH ou FR) et le lieu de naissance 1 (5.),
tout comme le niveau d’études ou la profession (6.), respectivement élève/professeur au lycée
ou étudiant/chercheur/doctorant/professeur d’université figurent en haut à droite.
Les trois champs suivants contiennent des informations ultérieures qui n’ont pas été relevées
dans tous les cas. Les locuteurs de Suisse ont participé à une enquête auto-évaluative
concernant leur comportement d’alternance codique (7.) et stylistique (8.)2. Pour les locuteurs
de France, majoritairement des élèves, nous avons retenu des informations relatives à leur
provenance sociale (9.), plus précisément à leur spécialisation scolaire (ex. TES = terminale
scientifique) et à la profession de leurs parents.
Les champs (10.) et (11.) montrent les données situationnelles et linguistiques connectées à
l’entrée affichée, c’est-à-dire les détails de la situation d’enregistrement et les constructions
verbales produites par le locuteur, et renvoient (avec un clic sur le bouton [>]) aux masques
de saisie respectifs.
Le dernier champ (12.) contient des informations variées sur le locuteur (langues maitrisées,
séjours à l’étranger, commentaires sur le questionnaire, etc.) qui pourraient être intéressantes
pour une analyse qualitative.
1.2 La dimension intrapersonnelle
Les informations relatives à la situation de communication enregistrée sont stockées dans un
tableau différent auquel il est possible d’accéder à travers le masque de saisie jaune
enregistrements :
1
Respectivement le lieu d’enfance si celui-ci n’est pas identique au lieu de naissance.
Les locuteurs ont indiqué s’ils changent de langue et de style plutôt en fonction de l’interlocuteur, du lieu, de la
situation ou du médium.
2
2
Charlotte Meisner
Manuel d’utilisation du corpus T-zéro
juillet 2014
(2) Le masque jaune : les enregistrements
6.
1.
7.
2.
8.
9.
3.
10.
4.
1-2
11.
5.
Afin d’être repérables, les enregistrements reçoivent, tout comme les locuteurs, un numéro
d’identification individuel qui figure dans le champ (1.). Pour des raisons d’anonymat des
locuteurs, les fichiers audio ne sont pas directement accessibles dans la version publiée de Tzéro (2.). Les cellules suivantes décrivent la situation d’enregistrement: la classification
générale (3.) en formelle (= de distance communicative), pour les examens oraux, et
informelle (= de l’immédiat communicatif), pour les conversations et discussions, est précisée
en (4.) : par exemple s’il s’agit d’une discussion en classe d’une conversation devant la salle
d’examens, pendant la pause café etc. Le champ (5.) montre quels locuteurs sont présents lors
de l’enregistrement et permet l’accès direct à leurs données sociodémographiques (en cliquant
sur le bouton [>]). La date, le lieu, l’heure et la durée de l’enregistrement se trouvent, quant à
elles, dans les champs (6.) à (9.) et en (10.), nous indiquons, de plus, quelles minutes de
l’enregistrement sont transcrites. Finalement, le champ (11.) nous permet d’ajouter des
informations ultérieures quant à la qualité de l’enregistrement, l’ordre des locuteurs etc., ce
qui s’est relevé crucial pendant le processus de transcription.
2. Comment accéder aux données linguistiques de T-zéro ?
Les données linguistiques du corpus T-zéro sont accessibles à travers le masque vert
constructions verbales qui contient deux onglets : un pour les facteurs linguistiques, en vert
clair (3), et l’autre pour les facteurs extralinguistiques, en vert foncé (4).
3
Charlotte Meisner
Manuel d’utilisation du corpus T-zéro
juillet 2014
(3) Le masque en vert clair : les facteurs linguistiques
En (3), chaque entrée correspond à une construction verbale3 (abrégée CV), c’est-à-dire à un
verbe fléchi avec ses arguments et analysé en fonction de critères linguistiques. Etant donné
que toute classification implique une interprétation, surtout si l’on travaille sur des données
linguistiques phoniques, nous avons adapté nos critères aux exigences de la langue phonique
(cf. Baude 2007, Bilger 2008) en nous basant sur les analyses syntaxiques de Jones (32007) et
la grammaire descriptive de Riegel et al. édd. (52008).
Le premier champ (1.) montre la CV sous deux formes de transcription : une transcription
orthographique et une transcription phonétique (cf. section 3.7). Le deuxième champ (2.)
concerne la forme verbale. Outre à la réalisation phonologique de la forme fléchie du verbe
(en API), l’infinitif du verbe et sa forme temporelle et modale sont indiqués dans la base de
données.
3
Le matériel lexical qui ne rentre pas dans la valence du verbe (interjections, adjoints facultatifs) n’est pas retenu
dans T-zéro. Nous tenons à noter que, dans la mesure où il s’agit d’analyser le français phonique, des
incertitudes quant au caractère facultatif ou obligatoire d’un syntagme peuvent persister. Cette problématique
concerne surtout la distinction entre les compléments circonstanciels obligatoires et les ajouts circonstanciels
facultatifs qui peuvent être supprimés sans conséquences pour la grammaticalité d’une phrase (cf. Pierre vient
avec plaisir. Probablement, il est déjà à la maison.). Tout cas de doute est signalé dans le champ remarques afin
d’orienter les utilisateurs de T-zéro.
4
Charlotte Meisner
Manuel d’utilisation du corpus T-zéro
juillet 2014
Une grande section (3.) au milieu du masque est dédiée aux arguments du verbe, plus
précisément au sujet et aux divers compléments. Le champ contient une classification des
arguments selon deux axes principaux: d’abord la fonction grammaticale de l’argument (sujet,
cod, coi etc.) et ensuite son statut morphosyntaxique (clitique vs. non-clitique).
Quant à la fonction grammaticale, nous distinguons les sujets, les compléments d’objet
directs, indirects et prépositionnels, mais également d’autres types de compléments tels que le
prédicatif, le complément infinitival et le complément circonstanciel (pour une liste des
définitions et des exemples, cf. tableau Fehler! Verweisquelle konnte nicht gefunden
werden. dans l’annexe). Dans un second temps, les arguments du verbe sont classés en
fonction de leur morphosyntaxe, choisissant ainsi entre trois options : pronominal, doublé et
lexical. L’option pronominal couvre tous les pronoms (clitiques et non-clitiques) et nous
précisons pour les pronoms personnels la forme sous-jacente en orthographe standard et la
forme réalisée phonétiquement en API. L’option doublé, en revanche, comprend les
arguments redoublés (ex. moii jei vais, cf. section 2.2.5.1).
La dernière option lexical s’applique au matériel lexical et aux noms propres employés en
position d’argument. Les sujets lexicaux, les pronoms non-clitiques et le matériel lexical
compris dans les sujets doublés sont insérés dans un champ à part et classés selon le type de
syntagme : par exemple DP les corps (1004), NomPr Cornélius (0056) ou PronRel qui (1014)
etc. (cf. tableau Fehler! Verweisquelle konnte nicht gefunden werden. dans l’annexe pour
la typologie des syntagmes). À l’aide de cette classification, qui correspond à un tagging
syntaxique, nous pouvons repérer les types des syntagmes à l’aide des sigles (DP, NomPr,
PronRel etc.) et les mettre en relation avec d’autres phénomènes linguistiques. Le bloc en (3.)
contient de plus une sous-classification des différentes fonctions du pronom polyvalent se (se
réfléchi, réciproque, détransitivant ou pseudo-pronominal, cf. tableau Fehler! Verweisquelle
konnte nicht gefunden werden. dans l’annexe pour les détails) ainsi qu’une classification
des différentes constructions clivées4.
Le champ (4.) concerne la négation et indique non seulement si la particule ne a été réalisée
ou non, mais également quel terme négatif non-clitique a été employé.5 Il n’y a que deux
options pour ne : réalisé ou omis. Ceci signifie que toutes les réalisations de ne, soit comme
[nə] ou comme [n], sont comptées comme réalisations et seuls les énoncés syntaxiquement
négatifs sont classés comme négations. Contrairement à d’autres analyses de corpus,
4
Les clivées consistent en deux CVs étroitement liées au niveau syntaxique et sémantique. Elles correspondent
donc à deux entrées dans T-zéro, cf. [principale C’est elle [subordonnée qui le voit]] (0884/0886).
5
Dans les rares cas d’une négation exprimée uniquement par ne, nous notons zéro dans la cellule du terme
négatif.
5
Charlotte Meisner
Manuel d’utilisation du corpus T-zéro
juillet 2014
l’exclusion après coup des occurrences positives de pas (désignant une enjambée) ou pas mal
et plus (dans le sens de davantage) etc. est donc ici superflue, car ces items ne sont pas classés
comme négations.
Le champ (5.) indique si la CV se trouve dans une principale ou dans une subordonnée.6 Dans
le deuxième cas, le complémenteur, donc l’élément subordonnant, est spécifié et lorsqu’il
s’agit d’un terme relatif, nous indiquons également à quel antécédent il se réfère.
La section (6.) permet l’ajout d’informations supplémentaires ou métalinguistiques par
rapport à l’entrée et en (7.), une sous-classification des divers types d’interrogatives
(intonation, inversion, est-ce que, WH et WH in situ) est consultable. Les types
d’interrogatives ne sont pas mutuellement exclusifs, mais il est possible de rechercher chaque
type individuellement dans la base de données.
Finalement, le champ (8.) permet l’identification explicite de chaque CV. À part le numéro
d’identification (ID) de la CV, l’ID du locuteur et le temps d’occurrence dans
l’enregistrement sont aussi notés. Les entrées du locuteur et du fichier dans les masques
respectifs peuvent être consultés en cliquant sur le bouton [>] à côté de ce bloc.
À travers le deuxième onglet du masque constructions verbales, en vert foncé, qui figure en
(4), on peut accéder aux facteurs extralinguistiques relatifs à chaque CV. L’objectif de
l’onglet facteurs extralinguistiques est d’offrir une vue d’ensemble des informations inter et
intrapersonnelles qui forment les conditions d’énonciation individuelles de chaque CV.
6
À part les options principale et subordonnée, T-zéro contient également l’option non identifiable, afin de
rendre compte du caractère phonique des données et de classer également les constructions dont l’appartenance à
une des deux autres catégories n’est pas clairement établie.
6
Charlotte Meisner
Manuel d’utilisation du corpus T-zéro
juillet 2014
(4) Le masque en vert foncé : les facteurs extralinguistiques
Cet onglet permet d’accéder simultanément aux deux types de données, interpersonnelles
(sociodémographiques) et intrapersonnelles (situationnelles), qui se croisent au moment de la
production d’un énoncé concret et qui sont normalement stockées séparément dans les
masques personnes (rose) et enregistrements (jaune).
Le champ (1.) permet l’identification du locuteur à travers son ID, et le champ (2.) nous
renseigne sur les détails sociodémographiques le concernant. En (3.) se trouve la classification
globale de la situation (formelle vs. informelle), et la nature exacte de la situation en question
est précisée. Finalement, les champs (4.) et (5.) de cet onglet permettent l’ajout d’informations
concernant le comportement linguistique (alternance codique et stylistique) et la provenance
sociale, i.e. l’école fréquentée, la profession des parents, d’autres langues pratiquées etc.
En conclusion, le masque vert offre une interface pratique et puissante pour lancer des
requêtes linguistiques d’une grande complexité syntaxique, sans pour autant présupposer des
connaissances en linguistique computationnelle.
7
Téléchargement