Duc Kinh Le Tran

publicité
Technique d'analyse des média sociaux pour la relation
client
3 juin 2013
Elève doctorant :
Directeur :
Encadrants :
1
Le Tran
Kermarrec
Cécile Bothorel
Pascal Cheung Mon Chan
Duc Kinh
Yvon
-
Dpt. LUSSI Telecom Bretagne
Dpt. LUSSI Telecom Bretagne
Orange Labs France Telecom R&D - Lannion
Contexte et objectif
Cette thèse d'informatique s'inscrit dans le domaine du data mining et de l'apprentissage au-
tomatique. Elle a pour but d'analyser les données issues des média sociaux, de les combiner avec
les données de facturation des clients, et d'en extraire les connaissances utiles pour la gestion de
la relation client (Customer Relationship Management ou CRM ).
Le CRM est l'ensemble de techniques et outils permettant de gérer les interactions entre une
entreprise et ses clients ou prospects. L'objectif est de déliser les clients, d'en attirer de nouveaux,
mais aussi de réduire le coût du marketing et du service à la clientèle. Le CRM est toujours un
des domaines d'application les plus importants du data mining. De plus, l'apparition et le développement rapide des média sociaux apportent beaucoup d'opportunités et beaucoup de challenges
pour le CRM. Dans l'ère des média sociaux, le CRM est en train de devenir le CRM social qui se
focalise sur l'engagement des clients avec la marque. Il existe actuellement beaucoup d'outils et
de travaux en data mining portant sur le monitoring de média sociaux. Ces outils et travaux ont
pour but de détecter les tendances et le ressenti des clients et des internautes de manière générale,
à propos des ores commerciales ou de l'image de l'entreprise. Cependant, ces outils arrivent tard
dans la dynamique de la gestion de la relation client et ils n'orent que des possibilités de réaction
par rapport à des phénomènes bien visibles, positivement ou négativement. Dans cette thèse, nous
essayons d'aller plus loin dans la modélisation des phénomènes sociaux impactant une marque, un
produit et de travailler sur la prédiction de comportement.
L'objectif de cette thèse est de concevoir de nouvelles techniques d'analyse des media sociaux
pour la relation client, plus performantes et plus adaptées aux besoins actuels et à venir en matière
de CRM, et capables en particulier de détecter des corrélations entre les comportements des clients
sur les media sociaux et leurs actes commerciaux et d'exploiter ces corrélations lorsqu'elles existent
an de mieux caractériser l'engagement du client et de mieux prédire son comportement.
2
Travaux concernés
Cette thèse se focalise sur les techniques d'apprentissage automatique avec les données issues des
média sociaux. Ces données contiennent souvent plusieurs types d'instances (données hétérogènes )
et aussi des relations entre les instances. Par exemple, dans un forum en ligne les contributeurs du
forum, ses posts (messages écrits par les contributeurs) sont des instances, les interactions (écrire
un post, commenter/cliquer like sur un post ) sont des relations. Dans Twitter, les utilisateurs
Twitter, les tweets sont des instances et les interactions comme followee-follower , des likes (un utilisateur clique like sur un tweet ) sont des relations. Ce type de données est souvent
désigné par les mots données relationnelles (relational data ).
1
Les techniques d'apprentissage traditionnel se sont basées sur la représentation attributvaleur - toutes les données sont stockées dans une table où chaque ligne correspond à une instance (ou un individu) et chaque colonne correspond à une variable (un attribut des instances). Ces
techniques ne peuvent pas s'appliquer sur les données relationnelles. Les techniques d'apprentissage
statistique relationnel ont été donc développées pour modéliser ces données (Dºeroski (2003); Do-
mingos (2003); Getoor et Taskar (2007)).
Certain travaux récentes en apprentissage statistique relationnel ont aussi essayé de modéliser
l'aspect dynamique (e.g Sharan et Neville (2008)). Ce sont des approches d'apprentissage qui
prennent en compte la dimension temporelle de données : un individu (ou une relation) a une
date de création (on dit que les individus et les relations sont horodatées). Au cours du temps,
de nouveaux individus (ou nouvelles relations) peuvent être créés (ou disparus), les valeurs de
ses attributs peuvent évoluer. Ces données sont appelées données relationnelles dynamiques. Les
données issues des média sociaux appartient à ce type de données. La prise en compte de l'aspect
dynamique est donc intéressant dans notre travail.
3
Notre approche et nos travaux en cours
Dans un premier temps, nous nous intéressons au problème de prédiction des comportements
commerciaux des clients (e.g churn, achat d'un produit, etc.) avec les données issues de média
sociaux et les données de facturation des clients. Nous supposons que nous pouvons faire la jointure
entre les utilisateurs dans les média sociaux et les clients dans la base de données de facturation.
Nous représentons les données sous forme d'un graphe dynamique attribué. Ce graphe est déni
comme suit :
Les sommets représentent des utilisateurs des média sociaux et aussi des clients/prospects.
Chaque sommet a un ensemble d'attributs (variables) dont les valeurs peuvent évoluer au
ls du temps (dynamique). Ces attributs sont les éléments du prol des utilisateurs sur les
média sociaux ou du prol commercial des clients.
Les arêtes entre 2 sommets représentent les interactions ou relations entre eux (e.g les conversations sur des média sociaux, les relations de type followee-follower ). Les arêtes sont
aussi dynamiques : chaque arête a une date de création.
Nous nous intéressons au problème de prédiction d'attributs sur les sommets d'un graphe dynamique attribué. Plus précisément, étant donné un graphe dynamique attribué jusqu'au moment
notre problème est de prédire la valeur d'un certain attribut sur des sommets après
t0 .
t0 ,
Nous nous
intéressons aux variables concernant les comportement commerciaux des clients.
Les algorithmes de prédiction que nous allons concevoir doivent prendre en compte toutes les
informations disponibles dans le graphe : les attributs explicatifs sur les sommets, les relations
entre les sommets (les arêtes), les évolutions des attributs et des relations (la dynamique).
Nous avons eectué une étude bibliographique dans l'apprentissage statistique relationnel pour
chercher des techniques convenant à notre problème. Nous avons constaté que les techniques basées
sur le modèle de variables latentes (Neville et Jensen (2005); Koren, Bell, et Volinsky (2009); Tang
et Liu (2011)) peuvent répondre à nos besoins.
Pour les expérimentations et évaluations, nous sommes en train de récupérer des données sur
les média suivants : forum d'entraide d'Orange, forum d'entraide de Sosh, Twitter (les échanges
sur Twitter entre les clients et @sosh_conseil, @sosh_fr (compte ociel d'Orange et de Sosh
sur Twitter)). Sur ces données, les clients donnent parfois leurs coordonnées, ces dernières nous
permettent de faire la jointure avec la base de données de facturations des clients.
Nous envisageons aussi de travailler avec les données de substitutions ou les données synthétiques (à générer) pour évaluer la performance et la robustesse des algorithmes proposés.
Références
Domingos, P. (2003) : Prospects and challenges for multi-relational data mining, ACM SIGKDD
explorations newsletter, 2003(1), 8083.
2
Dºeroski, S. (2003) : Multi-relational data mining : an introduction, ACM SIGKDD Explorations Newsletter, 5(1), 116.
Getoor, L., et B. Taskar (2007) : Introduction to Statistical Relational Learning, vol. L of
Adaptive computation and machine learning. MIT Press.
Koren, Y., R. Bell, et C. Volinsky (2009) : Matrix Factorization Techniques for Recom-
mender Systems, Computer, 42(8), 3037.
Neville, J., et D. Jensen (2005) : Leveraging relational autocorrelation with latent group
models, dans Proceedings of the 4th international workshop on Multi-relational mining - MRDM
'05, pp. 4955, New York, New York, USA. ACM Press.
Sharan, U., et J. Neville (2008) : Temporal-relational classiers for prediction in evolving
domains, dans Data Mining, 2008. ICDM'08. Eighth IEEE . . ., pp. 540549. IEEE Computer
Society.
Tang, L., et H. Liu (2011) : Leveraging social media networks for classication, Data Mining
and Knowledge Discovery, 23(3), 447478.
3
Téléchargement