Analyse de sentiment Twitter
2.3.2. DEUX SCORES
Dans ce cas là, nous gardons les scores positifs et négatifs
tels quels et nous créons deux dictionnaires distincts. Ainsi
chaque phrase contient deux scores positifs dans le sens
mathématiques matérialisant un score d’opinion positif et
un score d’opinion négatif. Le classifieur utilisera les deux
valeurs pour la prédiction :
score[positif] = +scorep
score[negatif ] = +scoren
Nous avons comparé nos résultats avec et sans l’ajout de
ces nouvelles caractéristiques.
2.4. Amélioration des formes négatives
Das et Chen (Das S. and Chen M,2001) ont implémenté
une méthode dans leurs recherches pour l’extraction de
sentiments de messages provenant de forums sur les ac-
tions en bourse. Ils ont déterminé que la négation dans une
phrase inverse le sens de la phrase. Ils ont discuté sur com-
ment les mots tels que not,never ou no sont utilisés pour
inverser le sens d’une phrase. Pour mettre en valeur la né-
gation de la phrase, ils commencent par détecter les mots
des phrases et les marquent d’un tag négatif. Pang et Lee
(Pang, B., Lee, L. and Vaithyanathan, S,2002) utilisent la
même technique en ajoutant le mot de négation à chaque
mot jusqu’à la première marque de ponctuation suivant le
mot de négation trouvé.
Voici un exemple illustrant leur méthode :
« I do not NOT like NOT this NOT movie , but I like this
one . »
Nous avons essayé cette méthode mais cela n’a pas amé-
lioré notre modèle.
Par ailleurs, nous avons constaté qu’en modifiant la mé-
thode de la façon suivante :
« I do not NOT_like NOT_this NOT_movie , but I like this
one . »
, nous obtenons une meilleure précision couplée à Senti-
WordNet. Cependant, il est à noter que la méthode est li-
mitée par la liste de mots impliquant une négation (nous
utilisons seulement "not", "n’t" et "no") et la liste est forcé-
ment incomplète.
2.5. Sélection de caractéristiques
Dans la classification de texte, la sélection de caracté-
ristiques (feature selection) est une méthode qui permet
de sélectionner une sous-partie spécifique de termes de
l’ensemble d’entraînement et seulement utiliser cette
sous-partie pour la tâche de classification. Les principaux
avantages de cette méthode sont la réduction de la di-
mension des données et, par conséquent, cela permet un
entraînement plus rapide mais aussi elle peut améliorer la
précision du système en supprimant des caractéristiques
pouvant être vues comme du bruit.
Nous utilisons la méthode SelectKBest implémentée dans
Scikit-learn avec la méthode χ-Square (chi2 ou χ2) pour
une première sélection de caractéristiques. Cette méthode
est principalement utilisée en statistiques pour tester
l’indépendance de deux événements. Dans la sélection de
caractéristiques, chi2 calcule si l’occurrence d’un terme
spécifique et l’occurrence d’une classe spécifique sont
indépendantes. Ainsi chaque terme est évalué et tous les
termes finissent ordonnés par leur score. Un score élevé
indique que l’hypothèse nulle d’indépendance doit être
rejeté et, que, l’occurrence du terme et de la classe sont
dépendantes. Si la classe et le terme sont dépendants
l’un de l’autre, la caractéristique est sélectionnée pour la
classification (les kpremières caractéristiques).
Une autre technique que nous utilisons, seulement lorsque
nous n’utilisons pas le hashing trick, est la suppression des
mots rares et trop fréquents du vocabulaire. Nous ne gar-
dons que les mots qui apparaissent au moins 2 fois et sup-
primons les mots qui apparaissent dans plus de 95% des
tweets.
3. Modèles
Nous comparons deux types de modèles différents avec
leur pré-traitement respectif. Tout d’abord, nous essayons
la méthode d’eXtreme Gradient Boosting (Tianqi Chen,
Carlos Guestrin,2016) où nous pouvons mettre en œuvre
le sac de mots avec le hashing trick. Ensuite, nous utili-
sons et comparons les résultats avec un réseau de neurones
convolutifs.
3.1. eXtreme Gradient Boosting
Nous commençons par définir le boosting et introduisons
l’eXtreme Gradient Boosting pour la tâche de classifica-
tion.
3.1.1. BOOSTING
La principale idée derrière le boosting est de combiner plu-
sieurs simples et modérément imprécis apprenants en un
seul et très précis apprenant. Les apprenants faibles sont en-
traînés séquentiellement de la sorte que chaque apprenant
est entraîné sur les exemples qui étaient les plus difficiles à
classifier par les apprenants précédents. Donc à chaque ité-
ration, un nouvel apprenant faible est entraîné en fonction