Manuel d’utilisation du corpus T-zéro Charlotte Meisner juillet 2014 Contenu 1. Comment accéder aux données extralinguistiques de T-zéro? ..................................................... 1 1.1 La dimension interpersonnelle ................................................................................................... 1 1.2 La dimension intrapersonnelle ................................................................................................... 2 2. Comment accéder aux données linguistiques de T-zéro ? ............................................................. 3 1. Comment accéder aux données extralinguistiques de T-zéro? 1.1 La dimension interpersonnelle Les informations sociodémographiques sont accessibles à travers le masque de saisie rose personnes (1). Chaque cellule du masque contient des informations qui peuvent faire objet d’une requête, et ceci également en combinaison avec d’autres cellules : un clic sur le bouton Find/Suchen/Recherche, marqué par la flèche rouge, dans le menu supérieur suffit pour lancer une requête. (1) Le masque rose : les données sociodémographiques 2. 3. 4. 1. 5. 6. 9. 7. 11. 8. 10. 12 Chaque locuteur reçoit, tout d’abord, un numéro individuel d’identification (1.) qui contient non seulement un numéro continu, mais également le sigle du pays d’enregistrement (CH ou 1 Charlotte Meisner Manuel d’utilisation du corpus T-zéro juillet 2014 FR) et du sexe (F ou M). Lo_CH_M_1120 signifie, par exemple, locuteur, suisse, masculin, ayant le numéro continu 1120. Les données sociodémographiques de base, à savoir le sexe (2.), l’âge (3.), la ou les langue(s) maternelle(s) (4.), le lieu d’enregistrement en sigles (CH ou FR) et le lieu de naissance 1 (5.), tout comme le niveau d’études ou la profession (6.), respectivement élève/professeur au lycée ou étudiant/chercheur/doctorant/professeur d’université figurent en haut à droite. Les trois champs suivants contiennent des informations ultérieures qui n’ont pas été relevées dans tous les cas. Les locuteurs de Suisse ont participé à une enquête auto-évaluative concernant leur comportement d’alternance codique (7.) et stylistique (8.)2. Pour les locuteurs de France, majoritairement des élèves, nous avons retenu des informations relatives à leur provenance sociale (9.), plus précisément à leur spécialisation scolaire (ex. TES = terminale scientifique) et à la profession de leurs parents. Les champs (10.) et (11.) montrent les données situationnelles et linguistiques connectées à l’entrée affichée, c’est-à-dire les détails de la situation d’enregistrement et les constructions verbales produites par le locuteur, et renvoient (avec un clic sur le bouton [>]) aux masques de saisie respectifs. Le dernier champ (12.) contient des informations variées sur le locuteur (langues maitrisées, séjours à l’étranger, commentaires sur le questionnaire, etc.) qui pourraient être intéressantes pour une analyse qualitative. 1.2 La dimension intrapersonnelle Les informations relatives à la situation de communication enregistrée sont stockées dans un tableau différent auquel il est possible d’accéder à travers le masque de saisie jaune enregistrements : 1 Respectivement le lieu d’enfance si celui-ci n’est pas identique au lieu de naissance. Les locuteurs ont indiqué s’ils changent de langue et de style plutôt en fonction de l’interlocuteur, du lieu, de la situation ou du médium. 2 2 Charlotte Meisner Manuel d’utilisation du corpus T-zéro juillet 2014 (2) Le masque jaune : les enregistrements 6. 1. 7. 2. 8. 9. 3. 10. 4. 1-2 11. 5. Afin d’être repérables, les enregistrements reçoivent, tout comme les locuteurs, un numéro d’identification individuel qui figure dans le champ (1.). Pour des raisons d’anonymat des locuteurs, les fichiers audio ne sont pas directement accessibles dans la version publiée de Tzéro (2.). Les cellules suivantes décrivent la situation d’enregistrement: la classification générale (3.) en formelle (= de distance communicative), pour les examens oraux, et informelle (= de l’immédiat communicatif), pour les conversations et discussions, est précisée en (4.) : par exemple s’il s’agit d’une discussion en classe d’une conversation devant la salle d’examens, pendant la pause café etc. Le champ (5.) montre quels locuteurs sont présents lors de l’enregistrement et permet l’accès direct à leurs données sociodémographiques (en cliquant sur le bouton [>]). La date, le lieu, l’heure et la durée de l’enregistrement se trouvent, quant à elles, dans les champs (6.) à (9.) et en (10.), nous indiquons, de plus, quelles minutes de l’enregistrement sont transcrites. Finalement, le champ (11.) nous permet d’ajouter des informations ultérieures quant à la qualité de l’enregistrement, l’ordre des locuteurs etc., ce qui s’est relevé crucial pendant le processus de transcription. 2. Comment accéder aux données linguistiques de T-zéro ? Les données linguistiques du corpus T-zéro sont accessibles à travers le masque vert constructions verbales qui contient deux onglets : un pour les facteurs linguistiques, en vert clair (3), et l’autre pour les facteurs extralinguistiques, en vert foncé (4). 3 Charlotte Meisner Manuel d’utilisation du corpus T-zéro juillet 2014 (3) Le masque en vert clair : les facteurs linguistiques En (3), chaque entrée correspond à une construction verbale3 (abrégée CV), c’est-à-dire à un verbe fléchi avec ses arguments et analysé en fonction de critères linguistiques. Etant donné que toute classification implique une interprétation, surtout si l’on travaille sur des données linguistiques phoniques, nous avons adapté nos critères aux exigences de la langue phonique (cf. Baude 2007, Bilger 2008) en nous basant sur les analyses syntaxiques de Jones (32007) et la grammaire descriptive de Riegel et al. édd. (52008). Le premier champ (1.) montre la CV sous deux formes de transcription : une transcription orthographique et une transcription phonétique (cf. section 3.7). Le deuxième champ (2.) concerne la forme verbale. Outre à la réalisation phonologique de la forme fléchie du verbe (en API), l’infinitif du verbe et sa forme temporelle et modale sont indiqués dans la base de données. 3 Le matériel lexical qui ne rentre pas dans la valence du verbe (interjections, adjoints facultatifs) n’est pas retenu dans T-zéro. Nous tenons à noter que, dans la mesure où il s’agit d’analyser le français phonique, des incertitudes quant au caractère facultatif ou obligatoire d’un syntagme peuvent persister. Cette problématique concerne surtout la distinction entre les compléments circonstanciels obligatoires et les ajouts circonstanciels facultatifs qui peuvent être supprimés sans conséquences pour la grammaticalité d’une phrase (cf. Pierre vient avec plaisir. Probablement, il est déjà à la maison.). Tout cas de doute est signalé dans le champ remarques afin d’orienter les utilisateurs de T-zéro. 4 Charlotte Meisner Manuel d’utilisation du corpus T-zéro juillet 2014 Une grande section (3.) au milieu du masque est dédiée aux arguments du verbe, plus précisément au sujet et aux divers compléments. Le champ contient une classification des arguments selon deux axes principaux: d’abord la fonction grammaticale de l’argument (sujet, cod, coi etc.) et ensuite son statut morphosyntaxique (clitique vs. non-clitique). Quant à la fonction grammaticale, nous distinguons les sujets, les compléments d’objet directs, indirects et prépositionnels, mais également d’autres types de compléments tels que le prédicatif, le complément infinitival et le complément circonstanciel (pour une liste des définitions et des exemples, cf. tableau Fehler! Verweisquelle konnte nicht gefunden werden. dans l’annexe). Dans un second temps, les arguments du verbe sont classés en fonction de leur morphosyntaxe, choisissant ainsi entre trois options : pronominal, doublé et lexical. L’option pronominal couvre tous les pronoms (clitiques et non-clitiques) et nous précisons pour les pronoms personnels la forme sous-jacente en orthographe standard et la forme réalisée phonétiquement en API. L’option doublé, en revanche, comprend les arguments redoublés (ex. moii jei vais, cf. section 2.2.5.1). La dernière option lexical s’applique au matériel lexical et aux noms propres employés en position d’argument. Les sujets lexicaux, les pronoms non-clitiques et le matériel lexical compris dans les sujets doublés sont insérés dans un champ à part et classés selon le type de syntagme : par exemple DP les corps (1004), NomPr Cornélius (0056) ou PronRel qui (1014) etc. (cf. tableau Fehler! Verweisquelle konnte nicht gefunden werden. dans l’annexe pour la typologie des syntagmes). À l’aide de cette classification, qui correspond à un tagging syntaxique, nous pouvons repérer les types des syntagmes à l’aide des sigles (DP, NomPr, PronRel etc.) et les mettre en relation avec d’autres phénomènes linguistiques. Le bloc en (3.) contient de plus une sous-classification des différentes fonctions du pronom polyvalent se (se réfléchi, réciproque, détransitivant ou pseudo-pronominal, cf. tableau Fehler! Verweisquelle konnte nicht gefunden werden. dans l’annexe pour les détails) ainsi qu’une classification des différentes constructions clivées4. Le champ (4.) concerne la négation et indique non seulement si la particule ne a été réalisée ou non, mais également quel terme négatif non-clitique a été employé.5 Il n’y a que deux options pour ne : réalisé ou omis. Ceci signifie que toutes les réalisations de ne, soit comme [nə] ou comme [n], sont comptées comme réalisations et seuls les énoncés syntaxiquement négatifs sont classés comme négations. Contrairement à d’autres analyses de corpus, 4 Les clivées consistent en deux CVs étroitement liées au niveau syntaxique et sémantique. Elles correspondent donc à deux entrées dans T-zéro, cf. [principale C’est elle [subordonnée qui le voit]] (0884/0886). 5 Dans les rares cas d’une négation exprimée uniquement par ne, nous notons zéro dans la cellule du terme négatif. 5 Charlotte Meisner Manuel d’utilisation du corpus T-zéro juillet 2014 l’exclusion après coup des occurrences positives de pas (désignant une enjambée) ou pas mal et plus (dans le sens de davantage) etc. est donc ici superflue, car ces items ne sont pas classés comme négations. Le champ (5.) indique si la CV se trouve dans une principale ou dans une subordonnée.6 Dans le deuxième cas, le complémenteur, donc l’élément subordonnant, est spécifié et lorsqu’il s’agit d’un terme relatif, nous indiquons également à quel antécédent il se réfère. La section (6.) permet l’ajout d’informations supplémentaires ou métalinguistiques par rapport à l’entrée et en (7.), une sous-classification des divers types d’interrogatives (intonation, inversion, est-ce que, WH et WH in situ) est consultable. Les types d’interrogatives ne sont pas mutuellement exclusifs, mais il est possible de rechercher chaque type individuellement dans la base de données. Finalement, le champ (8.) permet l’identification explicite de chaque CV. À part le numéro d’identification (ID) de la CV, l’ID du locuteur et le temps d’occurrence dans l’enregistrement sont aussi notés. Les entrées du locuteur et du fichier dans les masques respectifs peuvent être consultés en cliquant sur le bouton [>] à côté de ce bloc. À travers le deuxième onglet du masque constructions verbales, en vert foncé, qui figure en (4), on peut accéder aux facteurs extralinguistiques relatifs à chaque CV. L’objectif de l’onglet facteurs extralinguistiques est d’offrir une vue d’ensemble des informations inter et intrapersonnelles qui forment les conditions d’énonciation individuelles de chaque CV. 6 À part les options principale et subordonnée, T-zéro contient également l’option non identifiable, afin de rendre compte du caractère phonique des données et de classer également les constructions dont l’appartenance à une des deux autres catégories n’est pas clairement établie. 6 Charlotte Meisner Manuel d’utilisation du corpus T-zéro juillet 2014 (4) Le masque en vert foncé : les facteurs extralinguistiques Cet onglet permet d’accéder simultanément aux deux types de données, interpersonnelles (sociodémographiques) et intrapersonnelles (situationnelles), qui se croisent au moment de la production d’un énoncé concret et qui sont normalement stockées séparément dans les masques personnes (rose) et enregistrements (jaune). Le champ (1.) permet l’identification du locuteur à travers son ID, et le champ (2.) nous renseigne sur les détails sociodémographiques le concernant. En (3.) se trouve la classification globale de la situation (formelle vs. informelle), et la nature exacte de la situation en question est précisée. Finalement, les champs (4.) et (5.) de cet onglet permettent l’ajout d’informations concernant le comportement linguistique (alternance codique et stylistique) et la provenance sociale, i.e. l’école fréquentée, la profession des parents, d’autres langues pratiquées etc. En conclusion, le masque vert offre une interface pratique et puissante pour lancer des requêtes linguistiques d’une grande complexité syntaxique, sans pour autant présupposer des connaissances en linguistique computationnelle. 7