Visualisation et analyse du réseau socio-sémantique 88milSMS
Université de Nantes - Université de Montpellier
Dorian KODELJA - dorian.ko[email protected]
Martin GUERRE - [email protected]
Résumé : Le corpus "88milSMS" , diffusé à partir du 26 juin 2014, est un
grand corpus de SMS authentiques, anonymisés, en français. L’objectif est de
construire et d’analyser le graphe socio-sémantique représentant ce corpus, pour
visualiser les communautés thématiques constituées autour de vocabulaires com-
muns, communautés génériques, incontournables ou excentriques, sous-jacentes au
corpus étudié.
Mots-clés : graphes, 88milSMS, réseau socio-sémantique, communautés, cor-
pus, ranking
88milSMS. A corpus of authentic text messages in French » Panckhurst R.,
Détrie C., Lopez C., Moïse C., Roche M., Verine B. (2014), produit par l’Uni-
versité Paul-Valéry Montpellier 3 et le CNRS, en collaboration avec l’Université
catholique de Louvain, financé grâce au soutien de la MSH-M et du Ministère de
la Culture (Délégation générale à la langue française et aux langues de France)
et avec la participation de Praxiling, Lirmm, Lidilem, Tetis, Viseo. ISLRN : 024-
713-187-947-8
Juin 2015 - Université de Nantes - Université de Montpellier - Reproduction interdite
1
Table des matières
Introduction 4
1. Présentation de l’entreprise 6
1.1. Présentation générale . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2. La société CAPACITES . . . . . . . . . . . . . . . . . . . . . . . 6
1.3. Organigramme............................. 7
1.4. Projet ................................. 7
2. Contexte du projet 8
3. Modèle du domaine 10
4. Objectifs globaux 12
4.1. Objectifs fonctionnels . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.2. Objectifs techniques . . . . . . . . . . . . . . . . . . . . . . . . . . 12
5. Etat de l’Art 14
5.1. Détermination du système de gestion de base de données . . . . . . 14
5.1.1. TypedeSGBD ........................ 15
5.1.2. Choix d’une solution de base de donnée relationnelle . . . . 21
5.2. Traitement automatisé d’un corpus SMS . . . . . . . . . . . . . . . 25
5.2.1. Les particularités d’un corpus SMS . . . . . . . . . . . . . 25
5.2.2. Outils d’analyse sémantique . . . . . . . . . . . . . . . . . 29
5.3. Pondération pour la fouille de texte . . . . . . . . . . . . . . . . . 31
5.3.1. tf................................ 31
5.3.2. idf ............................... 31
5.3.3. tf-idf.............................. 31
5.3.4. OkapiBM25.......................... 32
5.4. FREETEXTTABLE et CONTAINSTABLE . . . . . . . . . . . . . 32
5.4.1. CONTAINSTABLE . . . . . . . . . . . . . . . . . . . . . . 32
5.4.2. FREETEXTTABLE . . . . . . . . . . . . . . . . . . . . . 33
5.5. Graphes et communautés . . . . . . . . . . . . . . . . . . . . . . . 35
2
Table des matières Table des matières
5.5.1. Modularité........................... 36
5.5.2. Graphes bipartis . . . . . . . . . . . . . . . . . . . . . . . 36
5.6. Visualisation.............................. 37
5.7. Solutionrejetée ............................ 38
6. Conception du corpus restreint 40
6.1. Basededonnées............................ 41
6.1.1. Stockage des données brutes du corpus . . . . . . . . . . . 41
6.2. Prétraitement des données . . . . . . . . . . . . . . . . . . . . . . 44
6.2.1. Constitution de la liste des mots bruits . . . . . . . . . . . 44
6.2.2. Tabledesfaits......................... 45
6.3. Traitement des données . . . . . . . . . . . . . . . . . . . . . . . . 46
6.3.1. Structure du graphe . . . . . . . . . . . . . . . . . . . . . . 46
6.3.2. Construction des tables de noeuds et d’arc . . . . . . . . . 47
6.3.3. Visualisation et analyse . . . . . . . . . . . . . . . . . . . . 52
7. Développement du corpus restreint 54
7.1. Mise en place de base de données . . . . . . . . . . . . . . . . . . 54
7.1.1. Installation de la base de données . . . . . . . . . . . . . . 54
7.1.2. Structure et remplissage des données du corpus . . . . . . . 55
7.1.3. Index FullText, un outil puissant . . . . . . . . . . . . . . . 56
7.2. Pré-traitement des données . . . . . . . . . . . . . . . . . . . . . . 57
7.2.1. Constitution de la liste des mots bruits . . . . . . . . . . . 57
7.2.2. Ranking et table des faits . . . . . . . . . . . . . . . . . . . 59
7.3. Traitement des données . . . . . . . . . . . . . . . . . . . . . . . . 64
7.3.1. Construction des tables de noeuds et d’arcs . . . . . . . . . 64
7.3.2. Visualisation et analyse . . . . . . . . . . . . . . . . . . . . 65
8. Conception du corpus étendu 77
8.1. Basededonnées............................ 77
8.2. Prétraitement des données . . . . . . . . . . . . . . . . . . . . . . 77
8.2.1. Tabledesfaits......................... 78
8.3. Traitement des données . . . . . . . . . . . . . . . . . . . . . . . . 79
8.3.1. Structure du graphe . . . . . . . . . . . . . . . . . . . . . . 79
8.3.2. Construction des tables de noeuds et d’arcs . . . . . . . . . 80
9. Développement du corpus étendu 81
9.1. Prétraitement des données . . . . . . . . . . . . . . . . . . . . . . 81
9.1.1. Tabledesfaits......................... 81
Juin 2015 - Université de Nantes - Université de Montpellier - Reproduction interdite
3
Table des matières Table des matières
9.2. Traitement des données . . . . . . . . . . . . . . . . . . . . . . . . 84
9.2.1. Visualisation et analyse . . . . . . . . . . . . . . . . . . . . 84
10.Bilan et perspectives 89
10.1.Bilan.................................. 89
10.2.Perspectives.............................. 89
11.Remerciements 91
A. Annexes 92
A.1. Requête d’installation du package Semantic Language Database . . 96
A.2. Procédures stockées . . . . . . . . . . . . . . . . . . . . . . . . . . 97
Juin 2015 - Université de Nantes - Université de Montpellier - Reproduction interdite
4
Introduction
Le corpus 88milSMS est un corpus réunissant plus de 88 000 SMS authen-
tiques, provenant de Montpellier et collectés en 2011 dans le cadre du projet
de recherche sud4science LR étudiant les “mutations des pratiques scripturales
en communications électroniques médiées”. Les participants pouvaient également
compléter un questionnaire sociolinguistique, portant sur leurs informations per-
sonnelles (sexe, âge, niveau d’études, profession. . . ) et leurs pratiques liées aux
SMS (type de téléphone, d’abonnement, nombre de SMS par semaine, destina-
taires principaux, style d’écriture,...). A partir du corpus anonymisé, 1000 SMS
ont été transcodés en français en parallèle par les chercheurs et des étudiants en
Master Langage, pour rétablir l’orthographe et la grammaire sans injecter d’in-
formations supplémentaires, ceci pour faciliter l’automatisation de traitements
ultérieurs.
Ce corpus est très intéressant à des fins d’études car il constitue le seul su-
jet d’étude disponible sur les échanges SMS en français. Bien que de nombreuses
études aient déjà été réalisées sur des corpus similaires traitant des chats en ligne,
on ne peut extrapoler totalement les résultats à ce médium car il s’agit d’une part
d’un service payant, et d’autre part pratiqué sur un clavier limité (l’étude datant
de 2011, les smartphones étaient bien moins répandus, de même que les forfaits
illimités) ce qui influence certainement les pratiques d’expression.
Nous allons étudier ce corpus afin de faire ressortir les communautés socio-
sémantiques issues de celui-ci, bien qu’elles soient invisibles à première vue. Nous
étudierons différentes techniques permettant d’extraire des communautés aussi
bien au sein du corpus restreint corrigé, et du corpus étendu brut.
5
1 / 103 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !