Romanisches & Deutsches Seminar Le nouveau corpus SMS de Suisse: traitement des données multilingues et premiers résultats d'analyse Prof. Dr. Elisabeth Stark [email protected] Prof. Dr. Christa Dürscheid [email protected] Romanisches & Deutsches Seminar Sommaire 1. Situation de départ 2. Le projet SMS suisse 3. Des donnés brutes au corpus 4. Travaux de recherche prévus 5. Premiers résultats (choix) 6. Conclusions et perspectives Bibliographie Romanisches Seminar & Deutsches Seminar 1. Situation de départ Corpora déjà disponibles, p.ex. : Les corpora pour la Computer Mediated Communication (= CMC; communcation médiée par ordinateur, CMO): http://www.cmc-corpora.de (cf. Beißwenger/Storrer 2008). Les corpora déjà disponibles sont en règle générale : a. relativement petits (de 300 à 8‘000 SMS, cf. Tagg 2009); b. basés sur des SMS recopiés – perte d‘authenticité; c. sans indications démographiques → Raison d‘être du projet international sms4science 15.05.2011 Seite 3 Romanisches Seminar & Deutsches Seminar 1. Situation de départ Notre intérêt: Les grands corpora de SMS offrent des données idéales concernant les stratégies d’écriture/l‘usage linguistique à l‘écart de la norme. Ils nous aident ainsi à réconcilier la linguistique variationnelle et la linguistique structurelle/formelle (recherche centrée sur la morphosyntaxe/grammaire): • la graphie non réfléchie peut contenir des indices des régularités grammaticales sous-jacentes; • les données socio-démographiques permettent une recherche linguistique variationnelle bien fondée ; • le matériel d’écrit spontané permet la vérification statistiquement valide d‘hypothèses grammatico-théoriques ou typologiques. 15.05.2011 Seite 4 Romanisches Seminar & Deutsches Seminar 2. Le projet SMS suisse Période de collecte : du 11.9.2009 au 31.01.2010 SMS donnés (utilisables) : 24'038 Nombre de mots : env. 480‘000 Régions : 18% Romandie, 82% Suisse allemande et italienne Nombre de dons : en moyenne 1 à 5 SMS par personne (80 personnes avec plus de 50 SMS). 15.05.2011 Seite 5 Romanisches Seminar & Deutsches Seminar 2. Le projet SMS suisse: participants • Données démographiques : indications d‘env. 50% des participants (1‘311 personnes), correspond à env. 3/4 (18‘915 SMS) des SMS reçus. • Sexe : 2/3 féminin, 1/3 masculin • Age: 10-19 20-29 30-39 40-49 50-59 60-69 70+ 245 599 190 152 80 38 5 • Langues maternelles: All (CH) All Fr Ital Romanche Autres 190 152 80 38 (standard) 245 15.05.2011 599 Seite 6 Romanisches Seminar & Deutsches Seminar Langues trouvées dans sms4sciene.ch , attributions multiples possibles 2. Le projet SMS suisse: Les langues Langue Absolu % Dialecte alémanique Allemand standard Français Italien Romanche Anglais Espagnol Slave Arabe Portugais Suédois Néerlandais Grec moderne Autres 10'705 7'231 4'618 493 214 517 29 27 1 3 1 2 3 194 24'038 44.63 30.14 19.25 2.06 0.89 2.16 0.12 0.11 0.00 0.01 0.00 0.01 0.01 0.81 100.21 15.05.2011 * Seite 7 Romanisches Seminar & Deutsches Seminar 2. Le projet SMS suisse: Le site web quadrilingue 15.05.2011 Seite 8 Romanisches & Deutsches Seminar 2. Le projet SMS suisse: Le logiciel d‘analyse Romanisches Seminar & Deutsches Seminar 2. Le projet SMS suisse: La recherche d‘expressions régulières Romanisches Seminar & Deutsches Seminar 2. Le projet SMS suisse: L‘intégration des données sociodémographiques Romanisches Seminar & Deutsches Seminar 2. Le projet SMS suisse: propriétés sociodémographiques des auteurs de nos SMS Romanisches Seminar & Deutsches Seminar 2. Le projet SMS suisse: Exemples Exemples de SMS français dans le corpus : (1) Hey hey hey l'ami!coment va? JOYEUX ANNiiìiiìiVERSAIRE! Profites bien dta journée,today,you are the best!! 18 ans...atention à kan meme pa fair tro dbetises!;-) merci encor pour samdi,cété vrémen vrémen chouette!(jesper ke tu fra pa dindigestion de pattes ac tt ce kil restait!).bsx.ju(et sn num suisse:-() (2) Patois: E pieu a'ti maitin,que boune tchose po lai tiere e po lai dou.E y e aich'bin l'ouere que tire taint qu'i peu da l'coutchain.En s'eurmije dedain e peu en d'more a tcha! Taint pe po l'rechte. 15.05.2011 Seite 13 Romanisches Seminar & Deutsches Seminar 3. Des données brutes au corpus Six pas lors de l’élaboration du corpus : 1-4: Sélection/Triage – anonymisation – annotation pour les langues (forte alternance codique!) − implémentation dans le logiciel Corpus Navigator (cf. Dürscheid/Stark (sous presse)); 5-6: Normalisation + Annotation pour les parties du discours (Part-of-Speech-tagging, PoS) (3) Jo isch gstande ff.. Isch echt dä döt verbi gfahre und i has verpennt? :$ goh ezt hei go jogge. Nocher blätter iordne (ha ordner kauft) und dänn englisch :-S -> 1h juste 1h après tu rentre s'il te plais et oublie pas le carton = Une heure, juste une heure, et après tu rentres, s'il te plaît, et (n’)oublie pas le carton (4) 15.05.2011 Seite 14 Romanisches Seminar & Deutsches Seminar 3. Des données brutes au corpus Anonymisation: en grande partie effectuée de manière automatique/par informatique linguistique et vérifiée manuellement : numéros (téléphone, comptes bancaires), noms de rues et adresses électroniques ne posent pas de problèmes : NNN pour une séquence de 3 chiffres ; [email protected] pour les adresses électroniques ; [StreetAddress] pour les noms de rues ; [LastName] pour les noms de famille ; prénoms pas remplacés, mais échangés par rotation. – Pas remplacés : noms de lieus, pages Internet, nom d’établissements publics, noms d’entreprises, noms de marques. (5) Alors le numéro c'est *NNN*NNN# bisous 15.05.2011 Seite 15 Romanisches Seminar & Deutsches Seminar 3. Des données brutes au corpus Problèmes lors de l’annotation pour les langues : Distinction entre a) langue principale, b) emprunt, c) emprunt ad hoc, „nonce borrowing“ (pour ceci, orientation stricte aux dictionnaires de référence): (6) Eau de Parfume tendre, das Wässerchen ist lila! Alternance codique très fréquente dans les SMS suisses: (7) Olla fratello!!! Come stai? Wie geht's dir so? Immer noch so lange am arbeiten wie früher? Ich hab endlich mein eigenes Restaurant und mucho travajo...;-) aber macht mir extrem spass...;-) allora amore, buona giornata und luegsch uf di, gäll...;-)peace 15.05.2011 Seite 16 Romanisches Seminar & Deutsches Seminar 3. Des données brutes au corpus (6) das ist lila! Eau de fr fr fr (?) fr all all all all ‘Eau de parfum tendre, la petite eau est lila! (7) Parfume tendre, Wässerch en Olla fratello! !! Come stai? Wie geht’s dir so? esp it it it all all all all toi (comme ça)?’ Commen Comme ‘Salut frérot!!! t vas-tu? nt 15.05.2011 ça va Seite 17 Romanisches Seminar & Deutsches Seminar 3. Des données brutes au corpus (7) eigene Restauran habe endlich mein s t und Ich all all ‘J’ all ai enfin all all travajo… esp esp all mon propre restaurant et beaucou p de travail…’ aber macht mir extrem spass… all all all all all me beaucou p plaisir…’ ‘mais 15.05.2011 all mucho fait allora amore, it It ‘Alors amour giornat buona a it it bonne journée und luegsch uf di, gäll… peace all (CH) all (CH) all (CH) all (CH) all (CH) angl et prend soin de toi hein… paix’ Seite 18 Romanisches Seminar & Deutsches Seminar 3. Des données brutes au corpus Problèmes lors de l‘annotation: (8) La soirée est reservée pour toi,chérie!!je serais là.a+ mot 1 La 2 soirée 3 est 4 reservée 5 pour 6 toi 7 , 8 chérie 9 ! 10 !je 11 serais 12 là 15.05.2011 cat. gramm. DET:ART NOM VER:pres VER:pper PRP PRO:PER PUN VER:pper SENT NOM VER:cond ADV lexème/signe le soirée être <unknown> pour toi , chérir ! <unknown> être là Seite 19 Romanisches Seminar & Deutsches Seminar 3. Des données brutes au corpus Problèmes lors de la transcription / standardisation / normalisation : Décisions difficiles pour les indicateurs variationnels (potentiels) ou les marqueurs variationnels (p.ex. la particule de négation ne) : (4) 1h juste 1h après tu rentre s'il te plais et oublie pas le carton = Une heure, juste une heure, et après tu rentres, s'il te plaît, et (n‘)oublie pas le carton 15.05.2011 Seite 20 Romanisches Seminar & Deutsches Seminar https://www.kpz-linguistik.uzh.ch/corpora/sms4science 15.05.2011 Seite 21 Romanisches Seminar & Deutsches Seminar 4. Travaux de recherche prévus Trois sous-projets d’un grand projet commun sur la variation linguistique dans les SMS suisses sont planifiés (requête de recherche remise): a) Les ‘grandes langues’ de la Suisse: Variation morphosyntaxique/syntaxique dans la communication par SMS Langues analysées dans le corpus : français et allemand / Suisse allemand (dialectes alémaniques) Direction du projet: Elisabeth Stark, Christa Dürscheid, MarieJosé Béguelin (Universités de Zurich et de Neuchâtel). 15.05.2011 Seite 22 Romanisches Seminar & Deutsches Seminar 4. Travaux de recherche prévus a) Les ‘grandes langues’ de la Suisse: variation morphosyntaxique/syntaxique dans la communication par SMS Questions de recherche : 1) Que disent les données sur la variation grammaticale (morphologie et syntaxe) dans les SMS des langues objet respectives? 2) Quels phénomènes de variation sont des effets universaux de la performance et quels sont spécifiques pour une langue/variété? 3) Est-ce que nous trouvons dans les SMS des phénomènes du ‘noyau dur’ de la syntaxe humaine qui restent stables même dans un environnement très écarté de la norme? 15.05.2011 Seite 23 Romanisches Seminar & Deutsches Seminar 4. Travaux de recherche prévus Trois sous-projets d’un grand projet commun sur la variation linguistique dans les SMS suisses sont planifiés (requête de recherche remise): b) Les ‘petites langues’ de la Suisse et les phénomènes de contact linguistique dans la communication par SMS Langues analysées dans le corpus : italien, dialecte italien du Tessin, romanche Direction du projet: Bruno Moretti / Matthias Grünert (Universités de Berne et de Zürich). 15.05.2011 Seite 24 Romanisches Seminar & Deutsches Seminar 4. Travaux de recherche prévus b) Les ‘petites langues’ de la Suisse et les phénomènes de contact linguistique dans la communication par SMS Questions de recherche : 1) Quel est le rôle et la structure des langues minoritaires dans les SMS suisses et quelles conséquences, pour les situations diglossiques, peuvent se présenter à cause de la communication par SMS? 2) Les langues minoritaires et les dialectes sont utilisés dans les SMS beaucoup plus fréquemment que dans d’autres formes de communications écrites. L’hypothèse principale à vérifier postule une modification profonde du statut sociologique et des structures linguistiques des variétés en question. 15.05.2011 Seite 25 Romanisches Seminar & Deutsches Seminar 4. Travaux de recherche prévus Trois sous-projets d’un grand projet commun sur la variation linguistique dans les SMS suisses sont planifiés (requête de recherche remise): c) ‘Beaucoup de langues en Suisse’: plurilinguisme et alternance codique dans la communication par SMS Langues analysées dans le corpus : français et allemand / Suisse allemand (dialectes alémaniques) Direction du projet: Simona Pekarek Doehler, Beat Siebenhaar (Universités de Neuchâtel et de Leipzig (Allemagne)). 15.05.2011 Seite 26 Romanisches Seminar & Deutsches Seminar 4. Travaux de recherche prévus c) ‘Beaucoup de langues en Suisse’: plurilinguisme et alternance codique dans la communication par SMS Questions de recherche: 1) Est-ce que le statut officiel de la Suisse de pays plurilingue a une influence sur la production des SMS, par exemple par un degré élevé d’alternance codique? 2) Le projet étudie la nature plurilingue de la communication par SMS en Suisse et vise à contribuer, de façon empirique, à la compréhension de la pratique plurilingue de la communication par SMS, avec des implications théoriques considérables. 15.05.2011 Seite 27 Romanisches Seminar & Deutsches Seminar 5. Premiers résultats (choix) Variation morphosyntaxique dans les SMS français : a. Réalisation de la particule de négation ne dans les premiers 1’500 SMS en français standard (de env. 4’600 en total) : tous sujet lexical clitique 15.05.2011 avec ne sans ne autres constr. 49 228 104 12,86% 59,84% 27,30% avec ne sans ne autres constr. 15 4 0 78,90% avec ne 21,10% sans ne 0 autres constr. 34 224 104 9,39% 61,88% 28,73% Seite 28 Romanisches Seminar & Deutsches Seminar 5. Premiers résultats Variation morphosyntaxique dans les SMS français : b. Marquage de l’accord sujet-verbe dans les 400 premiers SMS de français standard (986 sujets clitiques et 73 sujets lexicaux, cf. Stark (sous presse)): Marquage canonique/standard comme marquage par défaut: avec sujets lex. dans 95,45% des cas, avec clitiques dans 87,96%. (9) Hello!Merci pr l'invit' C'est sympa!jpense que jpourrai venir mè jdoi qanmem massurer auprès de ma mère qui n'est pas la ce soir...je te redis demain.bisous:-) (388) (10) Hello! Désolée j.suis chez félici et je rentre vers 4h... Lundi et mercredi j'peu pas non plus. Mardi ché pas?!on se retelefone. Dsl:-(à bientot j'espère et profite bien des dernier jours! Je T.adore (390) 15.05.2011 Seite 29 Romanisches Seminar & Deutsches Seminar 5. Premiers résultats Variation morphosyntaxique dans les SMS français : b. Marquage de l’accord sujet-verbe dans les 400 premiers SMS de français standard (986 sujets clitiques et 73 sujets lexicaux, cf. Stark (sous presse) et Dürscheid/Stark 2011): 79 x ‘orthographe pseudo-phonétique’ des formes allegro des pronoms sujet clitiques, mais: en règle générale, conservation des graphèmes initiaux et de la flexion verbale: (11) J1.SG'peux1./2.SG lui dire que j'ai subi une opération chirurgicale pour devenir un homme? (12) J1.SG'me suis1.SG endormi direct avant.. Ouais c'est bien allé! […] Et une fille qui était la hier soir était trop contente pour moi, que t2.SG'étais1./2.SG hyper chou et que t2.SG'avais1./2.SG vraiment l'air sympa:) bisou Romanisches Seminar & Deutsches Seminar 5. Premiers résultats Variation morphosyntaxique dans les SMS français : b. Marquage de l’accord sujet-verbe dans les 400 premiers SMS de français standard (986 sujets clitiques et 73 sujets lexicaux, cf. Stark (sous presse) et Dürscheid/Stark 2011): 79 x ‘orthographe pseudo-phonétique’ des formes allegro des pronoms sujet clitiques, seulement en 21 cas pas de flexion verbale et seulement 3 vrais cas d‘orthographe phonétique: (13) Hello tout va bien avec la colle mais on est en rupture donc si t2.SGaØ des journaux pour notre deuxième couche ce serai cool si tu pouvai les prendre quand tu vien après merci beaucoup ciao zac (14) Ch1.SGte rejoin-s1./2.SG! <Je te rejoins> [ʃtərəʒwɛ̃] Romanisches Seminar & Deutsches Seminar 5. Premiers résultats Variation morphosyntaxique dans les SMS français : b. Marquage de l’accord sujet-verbe dans les 400 premiers SMS de français standard (986 sujets clitiques et 73 sujets lexicaux, cf. Stark (sous presse) et Dürscheid/Stark 2011): 35 cas d‘homophones de lettres pour le pronom sujet clitique + verbe conjugué; perte de l‘identité de mot/constituant: 17 x <g> pour <j‘ai> ([ʒe]) 15 x <c> pour <c‘est> (ou <sais>; [sE]) 3 x <t> pour <t‘es> ([tE]) Romanisches Seminar & Deutsches Seminar 5. Premiers résultats Variation morphosyntaxique dans les SMS français : b. Marquage de l’accord sujet-verbe dans les 400 premiers SMS de français standard (986 sujets clitiques et 73 sujets lexicaux, cf. Stark (sous presse) et Dürscheid/Stark 2011): 35 cas d‘homophones de lettres pour le pronom sujet clitique + verbe conjugué; perte de l‘identité de mot/constituant: (15) Tcho l'yeti!J'rigole!;-)ca farte?c t [= c’était] super hier!mon voeux ne s'est pas encore réalisé...et toi?J'ai été voir tt les hanna sur facebook […] et g retenu quelks […] (16) Jarive a toute,mais c après le pont? (17) Alor g [= j’ai] rdv avec 1prof à 17h,j'c pa [= je ne sais pas] tro combien de tmp ca va durer... On peut dir 17h45 à la PP? Romanisches Seminar & Deutsches Seminar 5. Premiers résultats Variation morphosyntaxique dans les SMS français: → Ce qui frappe dans les deux analyses : Très peu de sujet lexicaux: typique de la conception orale des énoncés (cf. le concept de la Preferred Argument Structure chez Du Bois 1987). Linguistique variationnelle : la plupart des SMS dans le corpus sont d’une conception orale, mais relèvent du code graphique. Variation grammaticale : l’absence de ne en dépendance de la catégorie grammaticale du sujet (lexical vs. clitique cf. Coveney 2002 : 73) indique une régularité linguistique interne (cf. Dufter/Stark 2008), comme le fait la stabilité du marquage de l’accord. 15.05.2011 Seite 34 Romanisches Seminar & Deutsches Seminar 6. Conclusions et perspectives Linguistique variationnelle Recherche grammaticale Données SMS Linguistique de l’écriture (graphématique) 15.05.2011 Linguistique informatique Seite 35 Romanisches Seminar & Deutsches Seminar 15.05.2011 Seite 36 Romanisches Seminar & Deutsches Seminar Bibliographie Beißwenger, Michael & Angelika Storrer (2008): “Corpora of computer-mediated communication“. In: Anke Lüdeling & Merja Kytö (éds.), Corpus Linguistics. An International Handbook, vol. 1, Berlin & New York: de Gruyter, 292-308. Catach, Nina (1980): L'orthographe française. Traité théorique et pratique avec des travaux d'application et leurs corrigés, Paris: Nathan. Coveney, Aiden (2002): Variability in spoken French. A sociolinguistic study of Interrogation and Negation, Bristol UK/Portland USA: Elm Bank. Du Bois, John W. (1987): "The Discourse Basis of Ergativity". Language 63/4, 805-855. Dürscheid, Christa (32006): Einführung in die Schriftlinguistik. Ergänzt um ein Kapitel zur Typographie von Jürgen Spitzmüller. Göttingen: Vandenhoeck & Ruprecht [1ère édition 2002]. Dürscheid, Christa & Elisabeth Stark (2011): ‟Anything goes? SMS, phonographisches Schreiben und Morphemkonstanz.“ Conférence lors du 33ème congrès annuel de la société allemande es linguistes, Göttingen, 23-25 février 2011. 15.05.2011 Seite 37 Romanisches Seminar & Deutsches Seminar Bibliographie Dürscheid, Christa & Elisabeth Stark (sous presse): "SMS4science: An international corpus-based texting project and the specific challenges for multilingual Switzerland“. In: Crispin Thurlow & Kristine Mroczek (éds.), Digital Discourse. Language in the New Media, Oxford: Oxford University Press. Dufter, Andreas & Elisabeth Stark (2008): “La linguistique variationnelle et les changements linguistiques ‘mal compris’: Le cas de la ‘disparition’ du ne de négation”. Im: Bernard Combettes & Christiane Marchello-Nizia (éds.), Etudes sur le changement linguistique en français, Nancy : Presses Universitaires de Nancy, 115-128. Fairon, Cédrick & Jean René Klein & Sébastien Paumier (2006): Le langage SMS. Etude d'un corpus informatisé à partir de l'enquête 'Faites don de vos SMS à la science'. Louvain-la-Neuve: Presses universitaires de Louvain. Kaiser, Georg (1992): Die klitischen Personalpronomina im Französischen und Portugiesischen, Frankfurt am Main: Vervuert. Koch, Peter & Wulf Oesterreicher (1990): Gesprochene Sprache in der Romania. Französisch – Italienisch – Spanisch, Tübingen: Niemeyer 15.05.2011 Seite 38 Romanisches Seminar & Deutsches Seminar Bibliographie Meisenburg Trudel (1996): Romanische Schriftsysteme im Vergleich: eine diachrone Studie, Tübingen: Narr. Stark Elisabeth (sous presse): "La morphosyntaxe dans les SMS suisses francophones: Le marquage de l’accord sujet – verbe conjugué". Linguistik Online. Tagg, Caroline (2009): A Corpus Linguistics Study of SMS Text Messaging. Thèse de doctorat non publiée, Department of English, University of Birmingham. http://etheses.bham.ac.uk/253/1/Tagg09PhD.pdf 15.05.2011 Seite 39 Romanisches Seminar & Deutsches Seminar 3. Des données brutes au corpus (3) 15.05.2011 Jo isch gstande Ja es Oui il ff.. ist gestanden (stand) était Isch echt dä döt Ist vielleicht der dort Est peutêtre celui-là là-bas ‘Est-il peutêtre par labàs passé écrit verbi gfahre vorbei gefahren passé ff.. und i und ich has verpennt? habe es verschlafe n? et et je je ne l’ passé à dormir? ai le ai pa remarqué ?’ s Seite 40 classeur Romanisches Seminar & Deutsches Seminar 3. Des données brutes au corpus (3) goh ezt hei go jogge. Ich gehe jetzt heim (nach Hause) [gehen] joggen. Je vais maintenant à la maison [aller] courrir. Nocher blätter iordne Nachh er Blätter einordn en (ich hab e einen Après feuilles classer je ai un ‘Après classer 15.05.2011 les (ha ordner feuill es (j’ai acheté kauft) Ordner gekauft) classeur un acheté classeur) und und et et dänn englisch danach Englisch après anglais. après anglais. ’ Seite 41