Le nouveau corpus SMS de suisse - MSH-M

publicité
Romanisches & Deutsches Seminar
Le nouveau corpus SMS de Suisse:
traitement des données multilingues et
premiers résultats d'analyse
Prof. Dr. Elisabeth Stark
[email protected]
Prof. Dr. Christa Dürscheid
[email protected]
Romanisches & Deutsches Seminar
Sommaire
1. Situation de départ
2. Le projet SMS suisse
3. Des donnés brutes au corpus
4. Travaux de recherche prévus
5. Premiers résultats (choix)
6. Conclusions et perspectives
Bibliographie
Romanisches Seminar & Deutsches Seminar
1. Situation de départ
Corpora déjà disponibles, p.ex. :
Les corpora pour la Computer Mediated Communication (= CMC;
communcation médiée par ordinateur, CMO):
http://www.cmc-corpora.de (cf. Beißwenger/Storrer 2008).
Les corpora déjà disponibles sont en règle générale :
a. relativement petits (de 300 à 8‘000 SMS, cf. Tagg 2009);
b. basés sur des SMS recopiés – perte d‘authenticité;
c. sans indications démographiques
→ Raison d‘être du projet international sms4science
15.05.2011
Seite 3
Romanisches Seminar & Deutsches Seminar
1. Situation de départ
Notre intérêt:
Les grands corpora de SMS offrent des données idéales concernant
les stratégies d’écriture/l‘usage linguistique à l‘écart de la norme.
Ils nous aident ainsi à réconcilier la linguistique variationnelle et la
linguistique structurelle/formelle (recherche centrée sur la
morphosyntaxe/grammaire):
•
la graphie non réfléchie peut contenir des indices des régularités
grammaticales sous-jacentes;
•
les données socio-démographiques permettent une recherche
linguistique variationnelle bien fondée ;
•
le matériel d’écrit spontané permet la vérification statistiquement
valide d‘hypothèses grammatico-théoriques ou typologiques.
15.05.2011
Seite 4
Romanisches Seminar & Deutsches Seminar
2. Le projet SMS suisse
Période de collecte : du 11.9.2009 au 31.01.2010
SMS donnés (utilisables) : 24'038
Nombre de mots : env. 480‘000
Régions : 18% Romandie, 82% Suisse allemande et italienne
Nombre de dons : en moyenne 1 à 5 SMS par personne (80
personnes avec plus de 50 SMS).
15.05.2011
Seite 5
Romanisches Seminar & Deutsches Seminar
2. Le projet SMS suisse: participants
• Données démographiques : indications d‘env. 50% des
participants (1‘311 personnes), correspond à env. 3/4 (18‘915
SMS) des SMS reçus.
• Sexe : 2/3 féminin, 1/3 masculin
• Age:
10-19
20-29
30-39
40-49
50-59
60-69
70+
245
599
190
152
80
38
5
• Langues maternelles:
All (CH)
All
Fr
Ital
Romanche
Autres
190
152
80
38
(standard)
245
15.05.2011
599
Seite 6
Romanisches Seminar & Deutsches Seminar
Langues trouvées dans sms4sciene.ch ,
attributions multiples possibles
2. Le projet SMS suisse: Les langues
Langue
Absolu
%
Dialecte alémanique
Allemand standard
Français
Italien
Romanche
Anglais
Espagnol
Slave
Arabe
Portugais
Suédois
Néerlandais
Grec moderne
Autres
10'705
7'231
4'618
493
214
517
29
27
1
3
1
2
3
194
24'038
44.63
30.14
19.25
2.06
0.89
2.16
0.12
0.11
0.00
0.01
0.00
0.01
0.01
0.81
100.21
15.05.2011
*
Seite 7
Romanisches Seminar & Deutsches Seminar
2. Le projet SMS suisse: Le site web quadrilingue
15.05.2011
Seite 8
Romanisches & Deutsches Seminar
2. Le projet SMS suisse: Le logiciel d‘analyse
Romanisches Seminar & Deutsches Seminar
2. Le projet SMS suisse: La recherche d‘expressions régulières
Romanisches Seminar & Deutsches Seminar
2. Le projet SMS suisse:
L‘intégration des données sociodémographiques
Romanisches Seminar & Deutsches Seminar
2. Le projet SMS suisse: propriétés
sociodémographiques des auteurs de nos
SMS
Romanisches Seminar & Deutsches Seminar
2. Le projet SMS suisse: Exemples
Exemples de SMS français dans le corpus :
(1) Hey hey hey l'ami!coment va? JOYEUX ANNiiìiiìiVERSAIRE! Profites
bien dta journée,today,you are the best!! 18 ans...atention à kan meme
pa fair tro dbetises!;-) merci encor pour samdi,cété vrémen vrémen
chouette!(jesper ke tu fra pa dindigestion de pattes ac tt ce kil
restait!).bsx.ju(et sn num suisse:-()
(2) Patois: E pieu a'ti maitin,que boune tchose po lai tiere e po lai dou.E y e
aich'bin l'ouere que tire taint qu'i peu da l'coutchain.En s'eurmije dedain
e peu en d'more a tcha! Taint pe po l'rechte.
15.05.2011
Seite 13
Romanisches Seminar & Deutsches Seminar
3. Des données brutes au corpus
Six pas lors de l’élaboration du corpus :
1-4:
Sélection/Triage – anonymisation – annotation pour les
langues (forte alternance codique!) − implémentation dans
le logiciel Corpus Navigator
(cf. Dürscheid/Stark (sous presse));
5-6:
Normalisation + Annotation pour les parties du discours
(Part-of-Speech-tagging, PoS)
(3)
Jo isch gstande ff.. Isch echt dä döt verbi gfahre und i has
verpennt? :$ goh ezt hei go jogge. Nocher blätter iordne (ha
ordner kauft) und dänn englisch :-S ->
1h juste 1h après tu rentre s'il te plais et oublie pas le carton
= Une heure, juste une heure, et après tu rentres, s'il te plaît, et
(n’)oublie pas le carton
(4)
15.05.2011
Seite 14
Romanisches Seminar & Deutsches Seminar
3. Des données brutes au corpus
Anonymisation:
en grande partie effectuée de manière automatique/par
informatique linguistique et vérifiée manuellement :
numéros (téléphone, comptes bancaires), noms de rues et
adresses électroniques ne posent pas de problèmes :
NNN pour une séquence de 3 chiffres ;
[email protected] pour les adresses électroniques ;
[StreetAddress] pour les noms de rues ;
[LastName] pour les noms de famille ;
prénoms pas remplacés, mais échangés par rotation.
– Pas remplacés : noms de lieus, pages Internet, nom
d’établissements publics, noms d’entreprises, noms de
marques.
(5) Alors le numéro c'est *NNN*NNN# bisous
15.05.2011
Seite 15
Romanisches Seminar & Deutsches Seminar
3. Des données brutes au corpus
Problèmes lors de l’annotation pour les langues :
Distinction entre a) langue principale, b) emprunt, c) emprunt ad
hoc, „nonce borrowing“ (pour ceci, orientation stricte aux
dictionnaires de référence):
(6) Eau de Parfume tendre, das Wässerchen ist lila!
Alternance codique très fréquente dans les SMS suisses:
(7) Olla fratello!!! Come stai? Wie geht's dir so? Immer noch so lange am
arbeiten wie früher? Ich hab endlich mein eigenes Restaurant und
mucho travajo...;-) aber macht mir extrem spass...;-) allora amore,
buona giornata und luegsch uf di, gäll...;-)peace
15.05.2011
Seite 16
Romanisches Seminar & Deutsches Seminar
3. Des données brutes au corpus
(6)
das
ist
lila!
Eau
de
fr
fr
fr (?)
fr
all
all
all
all
‘Eau
de
parfum
tendre,
la
petite eau
est
lila!
(7)
Parfume tendre,
Wässerch
en
Olla
fratello!
!!
Come
stai?
Wie
geht’s
dir
so?
esp
it
it
it
all
all
all
all
toi
(comme
ça)?’
Commen
Comme
‘Salut frérot!!!
t
vas-tu?
nt
15.05.2011
ça va
Seite 17
Romanisches Seminar & Deutsches Seminar
3. Des données brutes au corpus
(7)
eigene Restauran
habe endlich mein
s
t
und
Ich
all
all
‘J’
all
ai
enfin
all
all
travajo…
esp
esp
all
mon propre restaurant
et
beaucou
p
de travail…’
aber
macht
mir
extrem
spass…
all
all
all
all
all
me
beaucou
p
plaisir…’
‘mais
15.05.2011
all
mucho
fait
allora
amore,
it
It
‘Alors
amour
giornat
buona
a
it
it
bonne journée
und
luegsch
uf
di,
gäll…
peace
all
(CH)
all (CH)
all
(CH)
all
(CH)
all (CH)
angl
et
prend
soin
de toi
hein…
paix’
Seite 18
Romanisches Seminar & Deutsches Seminar
3. Des données brutes au corpus
Problèmes lors de l‘annotation:
(8) La soirée est reservée pour toi,chérie!!je serais là.a+
mot
1 La
2 soirée
3 est
4 reservée
5 pour
6 toi
7 ,
8 chérie
9 !
10 !je
11 serais
12 là
15.05.2011
cat. gramm.
DET:ART
NOM
VER:pres
VER:pper
PRP
PRO:PER
PUN
VER:pper
SENT
NOM
VER:cond
ADV
lexème/signe
le
soirée
être
<unknown>
pour
toi
,
chérir
!
<unknown>
être
là
Seite 19
Romanisches Seminar & Deutsches Seminar
3. Des données brutes au corpus
Problèmes lors de la transcription / standardisation /
normalisation :
Décisions difficiles pour les indicateurs variationnels (potentiels) ou
les marqueurs variationnels (p.ex. la particule de négation ne) :
(4) 1h juste 1h après tu rentre s'il te plais et oublie pas le carton = Une
heure, juste une heure, et après tu rentres, s'il te plaît, et (n‘)oublie pas
le carton
15.05.2011
Seite 20
Romanisches Seminar & Deutsches Seminar
https://www.kpz-linguistik.uzh.ch/corpora/sms4science
15.05.2011
Seite 21
Romanisches Seminar & Deutsches Seminar
4. Travaux de recherche prévus
Trois sous-projets d’un grand projet commun sur la variation linguistique
dans les SMS suisses sont planifiés (requête de recherche remise):
a) Les ‘grandes langues’ de la Suisse: Variation
morphosyntaxique/syntaxique dans la communication par
SMS
Langues analysées dans le corpus :
français et allemand / Suisse allemand (dialectes
alémaniques)
Direction du projet: Elisabeth Stark, Christa Dürscheid, MarieJosé Béguelin (Universités de Zurich et de Neuchâtel).
15.05.2011
Seite 22
Romanisches Seminar & Deutsches Seminar
4. Travaux de recherche prévus
a) Les ‘grandes langues’ de la Suisse: variation
morphosyntaxique/syntaxique dans la communication par
SMS
Questions de recherche :
1) Que disent les données sur la variation grammaticale
(morphologie et syntaxe) dans les SMS des langues objet
respectives?
2) Quels phénomènes de variation sont des effets universaux
de la performance et quels sont spécifiques pour une
langue/variété?
3) Est-ce que nous trouvons dans les SMS des phénomènes du
‘noyau dur’ de la syntaxe humaine qui restent stables même
dans un environnement très écarté de la norme?
15.05.2011
Seite 23
Romanisches Seminar & Deutsches Seminar
4. Travaux de recherche prévus
Trois sous-projets d’un grand projet commun sur la variation linguistique
dans les SMS suisses sont planifiés (requête de recherche remise):
b) Les ‘petites langues’ de la Suisse et les phénomènes de contact
linguistique dans la communication par SMS
Langues analysées dans le corpus :
italien, dialecte italien du Tessin, romanche
Direction du projet: Bruno Moretti / Matthias Grünert
(Universités de Berne et de Zürich).
15.05.2011
Seite 24
Romanisches Seminar & Deutsches Seminar
4. Travaux de recherche prévus
b) Les ‘petites langues’ de la Suisse et les phénomènes de contact
linguistique dans la communication par SMS
Questions de recherche :
1) Quel est le rôle et la structure des langues minoritaires dans
les SMS suisses et quelles conséquences, pour les situations
diglossiques, peuvent se présenter à cause de la communication
par SMS?
2) Les langues minoritaires et les dialectes sont utilisés dans les
SMS beaucoup plus fréquemment que dans d’autres formes de
communications écrites. L’hypothèse principale à vérifier postule
une modification profonde du statut sociologique et des
structures linguistiques des variétés en question.
15.05.2011
Seite 25
Romanisches Seminar & Deutsches Seminar
4. Travaux de recherche prévus
Trois sous-projets d’un grand projet commun sur la variation linguistique
dans les SMS suisses sont planifiés (requête de recherche remise):
c) ‘Beaucoup de langues en Suisse’: plurilinguisme et alternance
codique dans la communication par SMS
Langues analysées dans le corpus :
français et allemand / Suisse allemand (dialectes
alémaniques)
Direction du projet: Simona Pekarek Doehler,
Beat Siebenhaar (Universités de Neuchâtel et de Leipzig
(Allemagne)).
15.05.2011
Seite 26
Romanisches Seminar & Deutsches Seminar
4. Travaux de recherche prévus
c) ‘Beaucoup de langues en Suisse’: plurilinguisme et alternance
codique dans la communication par SMS
Questions de recherche:
1) Est-ce que le statut officiel de la Suisse de pays plurilingue a
une influence sur la production des SMS, par exemple par un
degré élevé d’alternance codique?
2) Le projet étudie la nature plurilingue de la communication par
SMS en Suisse et vise à contribuer, de façon empirique, à la
compréhension de la pratique plurilingue de la communication
par SMS, avec des implications théoriques considérables.
15.05.2011
Seite 27
Romanisches Seminar & Deutsches Seminar
5. Premiers résultats (choix)
Variation morphosyntaxique dans les SMS français :
a. Réalisation de la particule de négation ne dans les premiers 1’500
SMS en français standard (de env. 4’600 en total) :
tous
sujet lexical
clitique
15.05.2011
avec ne
sans ne
autres constr.
49
228
104
12,86%
59,84%
27,30%
avec ne
sans ne
autres constr.
15
4
0
78,90%
avec ne
21,10%
sans ne
0
autres constr.
34
224
104
9,39%
61,88%
28,73%
Seite 28
Romanisches Seminar & Deutsches Seminar
5. Premiers résultats
Variation morphosyntaxique dans les SMS français :
b. Marquage de l’accord sujet-verbe dans les 400 premiers SMS de
français standard (986 sujets clitiques et 73 sujets lexicaux, cf.
Stark (sous presse)):
Marquage canonique/standard comme marquage par défaut: avec
sujets lex. dans 95,45% des cas, avec clitiques dans 87,96%.
(9)
Hello!Merci pr l'invit' C'est sympa!jpense que jpourrai venir mè
jdoi qanmem massurer auprès de ma mère qui n'est pas la ce
soir...je te redis demain.bisous:-) (388)
(10)
Hello! Désolée j.suis chez félici et je rentre vers 4h... Lundi et
mercredi j'peu pas non plus. Mardi ché pas?!on se retelefone.
Dsl:-(à bientot j'espère et profite bien des dernier jours! Je
T.adore (390)
15.05.2011
Seite 29
Romanisches Seminar & Deutsches Seminar
5. Premiers résultats
Variation morphosyntaxique dans les SMS français :
b. Marquage de l’accord sujet-verbe dans les 400 premiers SMS de
français standard (986 sujets clitiques et 73 sujets lexicaux, cf.
Stark (sous presse) et Dürscheid/Stark 2011):
79 x ‘orthographe pseudo-phonétique’ des formes allegro des
pronoms sujet clitiques,
mais: en règle générale, conservation des graphèmes initiaux et de
la flexion verbale:
(11)
J1.SG'peux1./2.SG lui dire que j'ai subi une opération
chirurgicale pour devenir un homme?
(12)
J1.SG'me suis1.SG endormi direct avant.. Ouais c'est bien allé!
[…] Et une fille qui était la hier soir était trop contente pour
moi, que t2.SG'étais1./2.SG hyper chou et que t2.SG'avais1./2.SG
vraiment l'air sympa:) bisou
Romanisches Seminar & Deutsches Seminar
5. Premiers résultats
Variation morphosyntaxique dans les SMS français :
b. Marquage de l’accord sujet-verbe dans les 400 premiers SMS de
français standard (986 sujets clitiques et 73 sujets lexicaux, cf.
Stark (sous presse) et Dürscheid/Stark 2011):
79 x ‘orthographe pseudo-phonétique’ des formes allegro des
pronoms sujet clitiques,
seulement en 21 cas pas de flexion verbale et seulement 3 vrais
cas d‘orthographe phonétique:
(13)
Hello tout va bien avec la colle mais on est en rupture donc
si t2.SGaØ des journaux pour notre deuxième couche ce serai
cool si tu pouvai les prendre quand tu vien après merci
beaucoup ciao zac
(14)
Ch1.SGte rejoin-s1./2.SG! <Je te rejoins> [ʃtərəʒwɛ̃]
Romanisches Seminar & Deutsches Seminar
5. Premiers résultats
Variation morphosyntaxique dans les SMS français :
b. Marquage de l’accord sujet-verbe dans les 400 premiers SMS de
français standard (986 sujets clitiques et 73 sujets lexicaux, cf.
Stark (sous presse) et Dürscheid/Stark 2011):
35 cas d‘homophones de lettres pour le pronom sujet clitique +
verbe conjugué; perte de l‘identité de mot/constituant:
17 x <g> pour <j‘ai> ([ʒe])
15 x <c> pour <c‘est> (ou <sais>; [sE])
3 x <t> pour <t‘es> ([tE])
Romanisches Seminar & Deutsches Seminar
5. Premiers résultats
Variation morphosyntaxique dans les SMS français :
b. Marquage de l’accord sujet-verbe dans les 400 premiers SMS de
français standard (986 sujets clitiques et 73 sujets lexicaux, cf.
Stark (sous presse) et Dürscheid/Stark 2011):
35 cas d‘homophones de lettres pour le pronom sujet clitique +
verbe conjugué; perte de l‘identité de mot/constituant:
(15)
Tcho l'yeti!J'rigole!;-)ca farte?c t [= c’était] super hier!mon
voeux ne s'est pas encore réalisé...et toi?J'ai été voir tt les
hanna sur facebook […] et g retenu quelks […]
(16)
Jarive a toute,mais c après le pont?
(17)
Alor g [= j’ai] rdv avec 1prof à 17h,j'c pa [= je ne sais pas]
tro combien de tmp ca va durer... On peut dir 17h45 à la
PP?
Romanisches Seminar & Deutsches Seminar
5. Premiers résultats
Variation morphosyntaxique dans les SMS français:
→ Ce qui frappe dans les deux analyses :
Très peu de sujet lexicaux: typique de la conception orale des
énoncés (cf. le concept de la Preferred Argument Structure chez Du
Bois 1987).
Linguistique variationnelle : la plupart des SMS dans le corpus sont
d’une conception orale, mais relèvent du code graphique.
Variation grammaticale :
l’absence de ne en dépendance de la catégorie grammaticale du
sujet (lexical vs. clitique cf. Coveney 2002 : 73) indique une
régularité linguistique interne (cf. Dufter/Stark 2008),
comme le fait la stabilité du marquage de l’accord.
15.05.2011
Seite 34
Romanisches Seminar & Deutsches Seminar
6. Conclusions et perspectives
Linguistique variationnelle
Recherche grammaticale
Données SMS
Linguistique de l’écriture
(graphématique)
15.05.2011
Linguistique informatique
Seite 35
Romanisches Seminar & Deutsches Seminar
15.05.2011
Seite 36
Romanisches Seminar & Deutsches Seminar
Bibliographie
Beißwenger, Michael & Angelika Storrer (2008): “Corpora of computer-mediated
communication“. In: Anke Lüdeling & Merja Kytö (éds.), Corpus Linguistics.
An International Handbook, vol. 1, Berlin & New York: de Gruyter, 292-308.
Catach, Nina (1980): L'orthographe française. Traité théorique et pratique avec
des travaux d'application et leurs corrigés, Paris: Nathan.
Coveney, Aiden (2002): Variability in spoken French. A sociolinguistic study of
Interrogation and Negation, Bristol UK/Portland USA: Elm Bank.
Du Bois, John W. (1987): "The Discourse Basis of Ergativity". Language 63/4,
805-855.
Dürscheid, Christa (32006): Einführung in die Schriftlinguistik. Ergänzt um ein
Kapitel zur Typographie von Jürgen Spitzmüller. Göttingen: Vandenhoeck &
Ruprecht [1ère édition 2002].
Dürscheid, Christa & Elisabeth Stark (2011): ‟Anything goes? SMS,
phonographisches Schreiben und Morphemkonstanz.“ Conférence lors du
33ème congrès annuel de la société allemande es linguistes, Göttingen, 23-25
février 2011.
15.05.2011
Seite 37
Romanisches Seminar & Deutsches Seminar
Bibliographie
Dürscheid, Christa & Elisabeth Stark (sous presse): "SMS4science: An
international corpus-based texting project and the specific challenges for
multilingual Switzerland“. In: Crispin Thurlow & Kristine Mroczek (éds.), Digital
Discourse. Language in the New Media, Oxford: Oxford University Press.
Dufter, Andreas & Elisabeth Stark (2008): “La linguistique variationnelle et les
changements linguistiques ‘mal compris’: Le cas de la ‘disparition’ du ne de
négation”. Im: Bernard Combettes & Christiane Marchello-Nizia (éds.), Etudes
sur le changement linguistique en français, Nancy : Presses Universitaires de
Nancy, 115-128.
Fairon, Cédrick & Jean René Klein & Sébastien Paumier (2006): Le langage
SMS. Etude d'un corpus informatisé à partir de l'enquête 'Faites don de vos
SMS à la science'. Louvain-la-Neuve: Presses universitaires de Louvain.
Kaiser, Georg (1992): Die klitischen Personalpronomina im Französischen und
Portugiesischen, Frankfurt am Main: Vervuert.
Koch, Peter & Wulf Oesterreicher (1990): Gesprochene Sprache in der
Romania. Französisch – Italienisch – Spanisch, Tübingen: Niemeyer
15.05.2011
Seite 38
Romanisches Seminar & Deutsches Seminar
Bibliographie
Meisenburg Trudel (1996): Romanische Schriftsysteme im Vergleich: eine
diachrone Studie, Tübingen: Narr.
Stark Elisabeth (sous presse): "La morphosyntaxe dans les SMS suisses
francophones: Le marquage de l’accord sujet – verbe conjugué". Linguistik
Online.
Tagg, Caroline (2009): A Corpus Linguistics Study of SMS Text Messaging.
Thèse de doctorat non publiée, Department of English, University of
Birmingham. http://etheses.bham.ac.uk/253/1/Tagg09PhD.pdf
15.05.2011
Seite 39
Romanisches Seminar & Deutsches Seminar
3. Des données brutes au corpus
(3)
15.05.2011
Jo
isch gstande
Ja
es
Oui
il
ff..
ist gestanden
(stand)
était
Isch
echt
dä
döt
Ist
vielleicht
der
dort
Est
peutêtre
celui-là là-bas
‘Est-il
peutêtre
par labàs
passé
écrit
verbi
gfahre
vorbei
gefahren
passé
ff..
und
i
und
ich
has
verpennt?
habe es verschlafe
n?
et
et
je
je ne l’
passé à
dormir?
ai
le
ai
pa remarqué
?’
s
Seite 40
classeur
Romanisches Seminar & Deutsches Seminar
3. Des données brutes au corpus
(3)
goh
ezt
hei
go
jogge.
Ich
gehe
jetzt
heim
(nach Hause)
[gehen]
joggen.
Je
vais
maintenant
à la maison
[aller]
courrir.
Nocher
blätter
iordne
Nachh
er
Blätter
einordn
en
(ich
hab
e
einen
Après
feuilles
classer
je
ai
un
‘Après classer
15.05.2011
les
(ha
ordner
feuill
es (j’ai acheté
kauft)
Ordner gekauft)
classeur
un
acheté
classeur)
und
und
et
et
dänn
englisch
danach Englisch
après
anglais.
après
anglais.
’
Seite 41
Téléchargement