www.heig-vd.ch Twitter Sentiment Analysis Contexte Les réseaux sociaux sont rapidement devenus une des forces les plus puissantes d’Internet réunissant plusieurs milliards d’utilisateurs. d’un tweet à la catégorie positive ou négative. Deux algorithmes de classification existants ont été comparés : Naive Bayesian et SGD. Ces algorithmes sont tout d’abord entrainés sur un ensemble de données préalablement récoltées et catégorisées. Ensuite, ils sont testés tout d’abord sur l’ensemble d’entraînement, puis sur un ensemble de données différent. Pour chaque phase, on mesure le taux de réussite lors de l’évaluation des données de l’algorithme, et on compare enfin ceux-ci. Les relations sur Facebook Incontestablement, ceux-ci sont un excellent endroit pour mesurer les meilleures représentations virtuelles de nos goûts, nos activités ou encore nos intérêts. Imaginons alors quelle serait la force d’un outil qui permettrait de sonder les réseaux sociaux de façon instantanée et ferait un état des lieux précis des opinions qui y circulent à un instant donné. C’est ces outils, appelés algorithmes de classification, que nous avons analysé, comparé et que nous avons finalement tenté d’améliorer dans le cadre de ce travail de Bachelor. Type de données et catégories La première étape consiste à récupérer des données issues de Twitter. Les tweets constituant nos données ont été divisés en deux catégories, évalués par la machine : - les tweets de catégorie positive, c’està-dire contenant une majorité de smileys. - les tweets de catégorie négative, contenant des frowneys (smileys négatifs). Évaluation d’algorithmes de classification Les algorithmes de classification sont responsables de l’évaluation de l’appartenance Auteur: Répondant externe: Prof. responsable: Sujet proposé par: Développement d’un algorithme personnalisé À l’aide d’observations basées sur l’analyse textuelle de nos données et des propriétés de l’algorithme SGD de classification, un algorithme personnalisé a été mis au point. Celui-ci utilise certains outils tels que les dictionnaires pour évaluer un tweet. Dans la dernière partie de ce travail, on a comparé les performances de cet algorithme personnalisé avec celui de Naive Bayesian, notamment sur des données évaluées par des humains plutôt que par la machine. Mathieu Prêtre Nastaran Fatemi Swiss Re HEIG-VD © 2013, filière Informatique