Technique d'analyse des média sociaux pour la relation client 3 juin 2013 Elève doctorant : Directeur : Encadrants : 1 Le Tran Kermarrec Cécile Bothorel Pascal Cheung Mon Chan Duc Kinh Yvon - Dpt. LUSSI Telecom Bretagne Dpt. LUSSI Telecom Bretagne Orange Labs France Telecom R&D - Lannion Contexte et objectif Cette thèse d'informatique s'inscrit dans le domaine du data mining et de l'apprentissage au- tomatique. Elle a pour but d'analyser les données issues des média sociaux, de les combiner avec les données de facturation des clients, et d'en extraire les connaissances utiles pour la gestion de la relation client (Customer Relationship Management ou CRM ). Le CRM est l'ensemble de techniques et outils permettant de gérer les interactions entre une entreprise et ses clients ou prospects. L'objectif est de déliser les clients, d'en attirer de nouveaux, mais aussi de réduire le coût du marketing et du service à la clientèle. Le CRM est toujours un des domaines d'application les plus importants du data mining. De plus, l'apparition et le développement rapide des média sociaux apportent beaucoup d'opportunités et beaucoup de challenges pour le CRM. Dans l'ère des média sociaux, le CRM est en train de devenir le CRM social qui se focalise sur l'engagement des clients avec la marque. Il existe actuellement beaucoup d'outils et de travaux en data mining portant sur le monitoring de média sociaux. Ces outils et travaux ont pour but de détecter les tendances et le ressenti des clients et des internautes de manière générale, à propos des ores commerciales ou de l'image de l'entreprise. Cependant, ces outils arrivent tard dans la dynamique de la gestion de la relation client et ils n'orent que des possibilités de réaction par rapport à des phénomènes bien visibles, positivement ou négativement. Dans cette thèse, nous essayons d'aller plus loin dans la modélisation des phénomènes sociaux impactant une marque, un produit et de travailler sur la prédiction de comportement. L'objectif de cette thèse est de concevoir de nouvelles techniques d'analyse des media sociaux pour la relation client, plus performantes et plus adaptées aux besoins actuels et à venir en matière de CRM, et capables en particulier de détecter des corrélations entre les comportements des clients sur les media sociaux et leurs actes commerciaux et d'exploiter ces corrélations lorsqu'elles existent an de mieux caractériser l'engagement du client et de mieux prédire son comportement. 2 Travaux concernés Cette thèse se focalise sur les techniques d'apprentissage automatique avec les données issues des média sociaux. Ces données contiennent souvent plusieurs types d'instances (données hétérogènes ) et aussi des relations entre les instances. Par exemple, dans un forum en ligne les contributeurs du forum, ses posts (messages écrits par les contributeurs) sont des instances, les interactions (écrire un post, commenter/cliquer like sur un post ) sont des relations. Dans Twitter, les utilisateurs Twitter, les tweets sont des instances et les interactions comme followee-follower , des likes (un utilisateur clique like sur un tweet ) sont des relations. Ce type de données est souvent désigné par les mots données relationnelles (relational data ). 1 Les techniques d'apprentissage traditionnel se sont basées sur la représentation attributvaleur - toutes les données sont stockées dans une table où chaque ligne correspond à une instance (ou un individu) et chaque colonne correspond à une variable (un attribut des instances). Ces techniques ne peuvent pas s'appliquer sur les données relationnelles. Les techniques d'apprentissage statistique relationnel ont été donc développées pour modéliser ces données (Dºeroski (2003); Do- mingos (2003); Getoor et Taskar (2007)). Certain travaux récentes en apprentissage statistique relationnel ont aussi essayé de modéliser l'aspect dynamique (e.g Sharan et Neville (2008)). Ce sont des approches d'apprentissage qui prennent en compte la dimension temporelle de données : un individu (ou une relation) a une date de création (on dit que les individus et les relations sont horodatées). Au cours du temps, de nouveaux individus (ou nouvelles relations) peuvent être créés (ou disparus), les valeurs de ses attributs peuvent évoluer. Ces données sont appelées données relationnelles dynamiques. Les données issues des média sociaux appartient à ce type de données. La prise en compte de l'aspect dynamique est donc intéressant dans notre travail. 3 Notre approche et nos travaux en cours Dans un premier temps, nous nous intéressons au problème de prédiction des comportements commerciaux des clients (e.g churn, achat d'un produit, etc.) avec les données issues de média sociaux et les données de facturation des clients. Nous supposons que nous pouvons faire la jointure entre les utilisateurs dans les média sociaux et les clients dans la base de données de facturation. Nous représentons les données sous forme d'un graphe dynamique attribué. Ce graphe est déni comme suit : Les sommets représentent des utilisateurs des média sociaux et aussi des clients/prospects. Chaque sommet a un ensemble d'attributs (variables) dont les valeurs peuvent évoluer au ls du temps (dynamique). Ces attributs sont les éléments du prol des utilisateurs sur les média sociaux ou du prol commercial des clients. Les arêtes entre 2 sommets représentent les interactions ou relations entre eux (e.g les conversations sur des média sociaux, les relations de type followee-follower ). Les arêtes sont aussi dynamiques : chaque arête a une date de création. Nous nous intéressons au problème de prédiction d'attributs sur les sommets d'un graphe dynamique attribué. Plus précisément, étant donné un graphe dynamique attribué jusqu'au moment notre problème est de prédire la valeur d'un certain attribut sur des sommets après t0 . t0 , Nous nous intéressons aux variables concernant les comportement commerciaux des clients. Les algorithmes de prédiction que nous allons concevoir doivent prendre en compte toutes les informations disponibles dans le graphe : les attributs explicatifs sur les sommets, les relations entre les sommets (les arêtes), les évolutions des attributs et des relations (la dynamique). Nous avons eectué une étude bibliographique dans l'apprentissage statistique relationnel pour chercher des techniques convenant à notre problème. Nous avons constaté que les techniques basées sur le modèle de variables latentes (Neville et Jensen (2005); Koren, Bell, et Volinsky (2009); Tang et Liu (2011)) peuvent répondre à nos besoins. Pour les expérimentations et évaluations, nous sommes en train de récupérer des données sur les média suivants : forum d'entraide d'Orange, forum d'entraide de Sosh, Twitter (les échanges sur Twitter entre les clients et @sosh_conseil, @sosh_fr (compte ociel d'Orange et de Sosh sur Twitter)). Sur ces données, les clients donnent parfois leurs coordonnées, ces dernières nous permettent de faire la jointure avec la base de données de facturations des clients. Nous envisageons aussi de travailler avec les données de substitutions ou les données synthétiques (à générer) pour évaluer la performance et la robustesse des algorithmes proposés. Références Domingos, P. (2003) : Prospects and challenges for multi-relational data mining, ACM SIGKDD explorations newsletter, 2003(1), 8083. 2 Dºeroski, S. (2003) : Multi-relational data mining : an introduction, ACM SIGKDD Explorations Newsletter, 5(1), 116. Getoor, L., et B. Taskar (2007) : Introduction to Statistical Relational Learning, vol. L of Adaptive computation and machine learning. MIT Press. Koren, Y., R. Bell, et C. Volinsky (2009) : Matrix Factorization Techniques for Recom- mender Systems, Computer, 42(8), 3037. Neville, J., et D. Jensen (2005) : Leveraging relational autocorrelation with latent group models, dans Proceedings of the 4th international workshop on Multi-relational mining - MRDM '05, pp. 4955, New York, New York, USA. ACM Press. Sharan, U., et J. Neville (2008) : Temporal-relational classiers for prediction in evolving domains, dans Data Mining, 2008. ICDM'08. Eighth IEEE . . ., pp. 540549. IEEE Computer Society. Tang, L., et H. Liu (2011) : Leveraging social media networks for classication, Data Mining and Knowledge Discovery, 23(3), 447478. 3