Auteur:
Répondant externe:
Prof. responsable:
Sujet proposé par:
Mathieu Prêtre
Nastaran Fatemi
Swiss Re
HEIG-VD © 2013, filière Informatique
Twitter Sentiment Analysis
Contexte
Les réseaux sociaux sont rapidement devenus
une des forces les plus puissantes d’Internet
réunissant plusieurs milliards d’utilisateurs.
Les relations sur Facebook
Incontestablement, ceux-ci sont un excellent
endroit pour mesurer les meilleures
représentations virtuelles de nos goûts, nos
activités ou encore nos intérêts.
Imaginons alors quelle serait la force d’un outil
qui permettrait de sonder les réseaux sociaux
de façon instantanée et ferait un état des lieux
précis des opinions qui y circulent à un instant
donné. C’est ces outils, appelés algorithmes
de classification, que nous avons analysé,
comparé et que nous avons finalement tenté
d’améliorer dans le cadre de ce travail de
Bachelor.
Type de données et catégories
La première étape consiste à récupérer des
données issues de Twitter. Les tweets
constituant nos données ont été divisés en
deux catégories, évalués par la machine :
- les tweets de catégorie positive, c’est-
à-dire contenant une majorité de
smileys.
- les tweets de catégorie négative,
contenant des frowneys (smileys
négatifs).
Évaluation d’algorithmes de
classification
Les algorithmes de classification sont
responsables de l’évaluation de l’appartenance
d’un tweet à la catégorie positive ou négative.
Deux algorithmes de classification existants
ont été comparés : Naive Bayesian et SGD.
Ces algorithmes sont tout d’abord entrainés
sur un ensemble de données préalablement
récoltées et catégorisées. Ensuite, ils sont
testés tout d’abord sur l’ensemble
d’entraînement, puis sur un ensemble de
données différent.
Pour chaque phase, on mesure le taux de
réussite lors de l’évaluation des données de
l’algorithme, et on compare enfin ceux-ci.
Développement d’un algorithme
personnalisé
À l’aide d’observations basées sur l’analyse
textuelle de nos données et des propriétés de
l’algorithme SGD de classification, un
algorithme personnalisé a été mis au point.
Celui-ci utilise certains outils tels que les
dictionnaires pour évaluer un tweet.
Dans la dernière partie de ce travail, on a
comparé les performances de cet algorithme
personnalisé avec celui de Naive Bayesian,
notamment sur des données évaluées par des
humains plutôt que par la machine.