Mémoire Julien Velcin Habilitation à Diriger des

publicité
Université Lumière Lyon 2
Laboratoire ERIC
Année 2015
Mémoire
présenté par
Julien Velcin
Maître de Conférences - 27ème section
en vue de l’obtention du diplôme d’
Habilitation à Diriger des
Recherches
Spécialité : Informatique
Contributions à la science des
données : Fouille de données
textuelles appliquée à l’analyse
des médias sociaux
Soutenue le 29 mai 2015
devant le jury composé de :
M.
M.
Mme
M.
M.
M.
M.
Eric Gaussier
Stan Matwin
Christel Vrain
Patrice Bellot
Jérôme Darmont
Jean-Gabriel Ganascia
Djamel A. Zighed
Pr. à l’Université Joseph Fournier
Pr. à l’Univ. Dalhousie, Halifax (Canada)
Pr. à l’Université d’Orléans
Pr. à Aix-Marseille Université
Pr. à l’Université Lumière Lyon 2
Pr. à l’Université Pierre et Marie Curie
Pr. à l’Université Lumière Lyon 2
(Rapporteur)
(Rapporteur)
(Rapporteur)
(Examinateur)
(Examinateur)
(Examinateur)
(Examinateur)
à Romain
Remerciements
E
n premier lieu, je souhaite remercier chaleureusement Jérôme Darmont
qui m’a accompagné tout au long de cette démarche en qualité de
coordinateur, affichant une confiance remarquable par sa constance. J’exprime également tous mes remerciements envers Monsieur Stan Matwin,
Monsieur Eric Gaussier et Madame Christel Vrain qui m’ont fait l’honneur
d’accepter d’être les rapporteurs de ce mémoire d’HDR, ainsi qu’à Messieurs Patrice Bellot, Jean-Gabriel Ganascia et Djamel A. Zighed pour celui
d’examiner mon travail en intégrant le jury de soutenance. Je tiens à remercier en particulier Jean-Gabriel Ganascia pour les discussions passionnantes que nous avons eues sur ces sujets situés entre science et société.
Sans lui, une dimension importante aurait fait défaut à ce mémoire.
Je remercie en second lieu tous les collègues du laboratoire ERIC, qu’il
s’agisse des enseignants-chercheurs, enseignants, personnels administratifs et doctorants. Mes pensées vont particulièrement vers ces derniers qui
m’ont fait confiance pour participer à la supervision de leur travail de
thèse : Anna Stavrianou, Mathilde Forestier, Marian-Andréi Rizoiu, Mohamed Dermouche, Alberto Lumbreras. Je sais tout le crédit que je leur
dois, ainsi qu’à toutes les petites mains (étudiants, stagiaires, chercheurs
invités), dans la poursuite de mes recherches. Je dois aussi beaucoup aux
nombreuses et enrichissantes discussions partagées avec des collègues de
l’Université Lyon 2 et plus largement avec des membres de la communauté
universitaire. Sans ces moments d’échange, qui nous élèvent au-dessus des
questions administratives terre-à-terre et parfois bien rébarbatives, le métier d’enseignant-chercheur ne serait pas le même.
Pour terminer, je remercie ma famille qui m’a toujours soutenu dans
les moments difficiles. Je pense notamment à ma belle-mère Etiennette et
à ma sœur Claire qui ont accepté la tâche ingrate mais indispensable de
relire l’intégralité de mon mémoire. Je pense surtout à mon épouse Margot
et à mon fils Romain qui donnent un sens à tout ça. C’est à ce dernier que
je dédie ce mémoire.
Lyon, le 25 mars 2015.
v
Table des matières
Préface
1
1 Introduction
3
5
6
7
1.1
1.2
1.3
Motivations et problématique . . . . . . . . . . . . . . . .
Contexte local . . . . . . . . . . . . . . . . . . . . . . . . .
Contributions et plan du mémoire . . . . . . . . . . . . .
2 Apport de la science des données aux SHS
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
11
13
17
23
29
32
3.1 Extraction, nommage, évaluation des thématiques
3.2 Détection des thématiques et des opinions . . . . .
3.3 Détection et suivi des images d’opinion . . . . . . .
Conclusion du chapitre . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
33
35
42
53
62
2.1 Science des Données et SHS . .
2.2 Fouille de données complexes
2.3 Question de représentation(s)
2.4 Discussion . . . . . . . . . . . . .
Conclusion du chapitre . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3 Analyse des thématiques et des opinions
4 Recommandation de messages et analyse des rôles
dans les communautés en ligne
4.1 Recommandation dans les communautés en ligne . . . .
4.2 Détection de rôles dans les communautés en ligne . .
Conclusion du chapitre . . . . . . . . . . . . . . . . . . . . . . .
65
67
73
82
5 Construction semi-supervisée du vocabulaire
85
5.1 Construction du vocabulaire visuel . . . . . . . . . . . . 87
5.2 Reconstruction du vocabulaire sémantique . . . . . . . 94
Conclusion du chapitre . . . . . . . . . . . . . . . . . . . . . . . 102
6 Implication dans des projets de recherche
105
6.1 Analyse des conversations en ligne . . . . . . . . . . . . 107
6.2 Projet Imagiweb . . . . . . . . . . . . . . . . . . . . . . . . . 110
Conclusion du chapitre . . . . . . . . . . . . . . . . . . . . . . . 113
7 Conclusion sur l’activité de recherche et perspectives 115
7.1
7.2
Bilan général . . . . . . . . . . . . . . . . . . . . . . . . . . 117
Perspectives de recherche . . . . . . . . . . . . . . . . . . 117
Bibliographie
121
Webographie
141
vii
Préface
C
e document présente des travaux de recherche que j’ai menés après
l’obtention de mon Doctorat en 2005 et mon recrutement à l’Université de Lyon 2 en 2007. J’ai choisi de rassembler ces travaux autour du
thème de la science des données, en soulignant les applications qui en sont
faites dans la fouille des données complexes (notamment textuelles) issues
des nouveaux médias sociaux. J’ai omis délibérément certains travaux qui
n’entrent pas correctement dans ce cadre afin d’éviter de produire une
cohérence artificielle.
Ces activités se sont déroulées dans le laboratoire Entreposage, Représentation et Ingénierie des Connaissances (ERIC, E.A. 3083) de novembre
2007 à juin 2014. Elles doivent beaucoup à des collaborations fructueuses
avec des collègues du laboratoire, aux travaux réalisés par des stagiaires
de niveau Master, mais surtout au dur labeur de doctorants auxquels je
dois beaucoup. Tout au long de ce document, j’essaie de mettre en évidence tout le crédit que je dois à ces personnes qui m’ont accompagné ces
sept dernières années.
Ma principale contribution consiste à proposer de nouveaux modèles
et algorithmes de fouille des données qui relèvent principalement de l’apprentissage automatique non ou peu supervisé. Plus précisément :
Le premier chapitre est une introduction générale dans laquelle je motive et j’énonce la problématique abordée tout au long de mes recherches.
Je liste également les contributions qui structurent les chapitres de ce mémoire.
Le deuxième chapitre détaille les motivations de mes travaux de recherche. L’objectif est alors d’expliquer en quoi la science des données peut
apporter des outils majeurs dans les bouleversements que connaissent les
Sciences de l’Homme et de la Société.
Le troisième chapitre est consacré à mes travaux en lien avec l’analyse
des thématiques et des opinions. L’approche privilégiée consiste à automatiser le processus d’analyse à l’aide de techniques issues de l’apprentissage automatique. Ces travaux trouvent une application directe dans
des projets de recherche présentés dans le sixième chapitre.
Le quatrième chapitre présente pour l’essentiel les travaux sur la détection de rôles dans les discussions en ligne. Deux approches ont été utilisées pour cela. La première approche, orientée recherche d’information,
consiste à détecter des rôles déjà établis. La deuxième approche consiste à
rechercher des rôles de manière non (ou peu) supervisée, en particulier à
l’aide d’algorithmes d’apprentissage automatique.
Le cinquième chapitre traite des travaux sur la construction d’un vocabulaire réalisée de manière semi-supervisée. Une partie des travaux est
1
2
Préface
consacrée à la construction d’un vocabulaire visuel à partir d’images, et
une autre à la redescription d’images à l’aide de descripteurs sémantiques.
Le sixième chapitre expose les différents projets dans lesquels je me suis
investi ces dernières années et qui illustrent utilement les travaux théoriques décrits dans les chapitres précédents. Je consacre une place particulière au projet ImagiWeb car il donne un point de vue éclairant sur une
partie des recherches entreprises.
Le septième chapitre est une conclusion sur mon activité de recherche de
ces dernières années. Je dresse quelques perspectives pour les années à venir, en particulier sur le développement d’algorithmes adaptés à l’analyse
des données du Web pour l’extraction automatique de représentations.
Cette activité de recherche a fait l’objet de diverses publications qui
sont détaillées au début de chacun des chapitres.
Je souhaite apporter quelques précisions préalables sur le vocabulaire
employé dans ce mémoire. J’ai cherché à traduire au maximum les termes
anglais en les termes français correspondants lorsqu’ils n’étaient pas équivoques. Dans le cas contraire (pour clustering par exemple), j’ai préféré soit
opter pour la conservation du terme original qui est le plus souvent non
ambigu au regard des spécialistes du domaine, soit utiliser un anglicisme
lorsque je le jugeais plus approprié (par exemple « évolutionnaire » pour
« evolutionary »). Les termes étrangers sont alors, sauf oubli de ma part,
affichés en italique. J’espère que le lecteur de ce mémoire ne m’en tiendra
pas rigueur.
1
Introduction
Sommaire
1.1
1.2
1.3
Motivations et problématique . . . . . . . . . . . . . . . . . .
Contexte local . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Contributions et plan du mémoire . . . . . . . . . . . . . . .
5
6
7
C
e chapitre est une introduction générale à mon activité de recherche
de ces dernières années. Tout d’abord, je précise les motivations qui
m’ont conduit à travailler sur l’analyse des représentations à l’aide de techniques issues de la fouille de données et de l’intelligence artificielle. Une
fois cette problématique posée, je précise le contexte local qui permet de
mieux comprendre les raisons d’un travail à l’intersection entre la Science
des Données et les Sciences de l’Homme et de la Société (SHS). Enfin, je
donne un aperçu des contributions techniques qui seront détaillées dans
les chapitres suivants.
3
1.1. Motivations et problématique
1.1
Motivations et problématique
I
l paraît difficile aujourd’hui d’imaginer qu’Internet, tel que nous le
connaissons, n’existait pas quelques décennies en arrière. L’accès aux
données était difficile et les modèles d’analyse de ces données adaptés à
des volumes restreints. L’avènement du Web a conduit à un accès plus
facile à l’information et aux données, que celles-ci soient fournies par les
acteurs traditionnels (par exemple les pouvoirs publics, les médias) ou
qu’elles soient produites par des nouveaux acteurs, utilisateurs de ce nouveau médium. Cette forme de démocratisation a conduit à une augmentation considérable du volume des données disponibles, augmentation qui
trouve les qualificatifs imagés les plus divers : surcharge, explosion, déluge, avalanche, tsunami. . . Ce nouveau mal fut qualifié d’infobésité (traduction d’information overload) et le remède au traitement des big data vint
des nouvelles technologies elles-mêmes par le développement des entrepôts de données, des moteurs de recherche, des logiciels de fouille de
données, etc. Aujourd’hui, de nombreux champs de recherche attribués
au domaine des Sciences de l’Homme et de la Société (sociologie, histoire,
communication, linguistique, etc.) ont besoin d’outils efficaces pour traiter
ces données complexes massives issues des bases de données et d’Internet. On peut ici citer les nombreux exemples de logiciels développés pour
aider le spécialiste de la veille (AMI EI, Linkfluence), le sociologue spécialiste des représentations sociales (Alceste de Reinert (1990), Prospero de
Chateauraynaud (2003)), mais également le citoyen (Qwant, Apopsis).
Sur la base des nombreux succès remportés par la science des données
dans le traitement des données complexes (Abiteboul, 2012), tel que celui
du moteur de recherche de Google, du système de recommandation de
Meetic, de la traduction automatique opérée par SYSTRAN, je suis pleinement convaincu que les outils informatiques constituent un atout majeur
que le spécialiste en SHS peut employer aujourd’hui pour traiter efficacement les grands volumes de données à sa disposition. Ce dernier peut
alors se recentrer sur son cœur de métier, qu’il s’agisse de résoudre des
problématiques historiques, linguistiques, sociologiques, littéraires, tout
en gardant un regard averti sur l’usage de ces outils, leurs forces, leurs
limitations, les biais qu’ils induisent. Il ne s’agit bien sûr pas de remplacer
complètement une analyse qualitative humaine, mais bien de développer
des outils qui apportent un soutien déterminant à cette analyse.
Problématique – Les raisons brièvement exposées ci-dessus et qui seront
détaillées dans le prochain chapitre expliquent, au moins en partie, l’intérêt que je porte au développement de nouveaux modèles et algorithmes
dont le but est d’analyser les données complexes. En particulier, je propose
de travailler sur les représentations qui circulent sur les médias sociaux à
l’aide d’outils issus de la science des données. Cette problématique générale touche à deux problèmes complémentaires.
Le premier problème est la question de la fouille des données complexes, telle qu’elle a pu être introduite par Zighed et al. (2009). Plus précisément, il s’agit ici de développer de nouveaux modèles et algorithmes
de recherche d’information et d’apprentissage automatique en mesure
5
Chapitre 1. Introduction
6
de traiter ces données un peu particulières. Développer de tels outils se
heurte à plusieurs verrous car cela nécessite d’être en mesure de gérer
plusieurs dimensions simultanément : la dimension textuelle (on associe
un contenu textuel aux données), la dimension temporelle (les données
évoluent dans le temps et on cherche à capturer leur dynamique), la dimension connaissance (on souhaite prendre en compte certaines connaissances sur le problème traité). La majorité des données présentées dans ce
mémoire sont issues des nouveaux médias sociaux ; elles vérifient pleinement les propriétés de complexité que je viens d’évoquer.
Le deuxième problème est la question pluridisciplinaire des représentations. Cette question est centrale car c’est elle qui permet de faire le pont
entre la description des objets centrée sur les individus ou sur les groupes
d’individus (représentation cognitive, sociale), et la description des objets manipulés par les modèles formels mathématiques et les systèmes
informatiques (représentation logique, informatique). Elle a été beaucoup
étudiée, en particulier par les spécialistes en psychologie cognitive (Rosch
1999) et en psychologie sociale (Moscovici 1961). Elle est centrale en informatique dans le développement d’algorithmes efficaces pour répondre au
problème de la fouille dans les données complexes.
L’application privilégiée dans mes travaux, à savoir l’analyse des médias sociaux, est à la convergence des deux problèmes que je viens de décrire. Confronté à cette problématique, l’objectif principal de mon travail
consiste à développer de nouveaux modèles et algorithmes pour analyser
et synthétiser les masses importantes d’information qui sont issues majoritairement du Web. Pour cela, j’ai privilégié des méthodes relatives à la
recherche d’information et à l’apprentissage automatique. En particulier,
l’apprentissage automatique a démontré son utilité dans de nombreux domaines d’application : reconnaissance de formes, comme des visages ou
des tumeurs cancéreuses (Cruz et Wishart 2006), filtrage de courriels indésirables (Aberdeen et al. 2010), assistant téléphonique intelligent (projet AMI EICALO à la base de l’agent Siri), détection des anomalies en
physique des particules (Whiteson et Whiteson 2009). Il est aujourd’hui
considéré comme un outil majeur en fouille de données.
1.2
Contexte local
C
es travaux de recherche ont été réalisés au sein du laboratoire ERIC,
dont l’une des principales thématiques abordées est la fouille de données complexes. Les données textuelles, en particulier, n’avaient été que
peu abordées jusqu’à mon arrivée en novembre 2007. Les travaux précédents avaient été menés par Radwan Jalam sous la direction de JeanHugues Chauchat, de 1998 à 2003. L’un des thèmes abordés concernait
l’extraction de caractéristiques pertinentes dans un objectif de classification supervisée multilingue des données, en utilisant des techniques provenant de la statistique (Jalam 2003). La thèse de Zihua Wei, réalisée de
2006 à 2010 en collaboration avec le laboratoire (séjour de décembre 2006
à novembre 2007), avait également comme objectif de classifier des textes.
Il s’agissait alors de tirer profit des modèles de thématiques afin de redé-
1.3. Contributions et plan du mémoire
crire les données dans un espace qualifié de sémantique, puis d’adapter
la procédure au traitement de textes rédigés en chinois (Wei et al. 2008).
Dans ce contexte, mon recrutement au sein du laboratoire en 2007 était
un moyen de développer cette thématique autour de la fouille des données textuelles. Depuis mon arrivée, huit thèses ont été menées dans mon
équipe sur des sujets liés à la fouille de données dans les médias sociaux.
J’ai co-encadré, ou co-encadre encore aujourd’hui, cinq de ces thèses dont
trois ont été soutenues à ce jour.
1.3
Contributions et plan du mémoire
L
es motivations et le positionnement de mes travaux de recherche n’ont
été qu’esquissés dans ce qui précède. Je tâche dans le chapitre 2 de
prendre un peu de recul en précisant davantage en quoi les méthodes
originales de fouille de données complexes s’avèrent incontournables dans
la résolution de nombreux problèmes, en particulier dans les domaines
couverts par les SHS. Les chapitres qui suivent détaillent de manière plus
technique les travaux réalisés ces dernières années au sein du laboratoire
ERIC. Ces travaux m’ont permis d’apporter des contributions scientifiques
théoriques, en particulier dans le domaine de l’apprentissage automatique
non ou peu supervisé, de les appliquer sur des données réelles issues des
médias sociaux et de concrétiser un certain nombre de projets en lien avec
la fouille des données complexes.
Les questions qui ont été abordées peuvent être résumées de la manière
suivante. A partir d’une collection de textes accompagnés d’une structure
(p. ex. les liens entre les textes ou entre les auteurs) et ordonnés dans le
temps, est-il possible d’extraire :
1. de quoi on parle ? Il s’agit des travaux en lien avec l’extraction de
thématiques à partir d’une collection de documents, mais également
l’évaluation de la qualité de ces thématiques et leur étiquetage. Cette
question habite le chapitre 3.
2. comment on en parle ? Il s’agit des travaux sur l’identification des
opinions. Cette question est également abordée dans le chapitre 3 car
les deux sujets de recherche sont étroitement liés, jusqu’à proposer
un modèle joint d’extraction des thématiques et des opinions.
3. qui en parle ? Cette question concerne les producteurs d’opinion, par
le biais du réseau social sous-jacent aux conversations en ligne et aux
rôles joués par les internautes. Elle est abordée dans le chapitre 4.
4. quand on en parle ? Cette question concerne la temporalité de l’analyse, en adoptant une approche essentiellement rétrospective. Elle est
abordée à plusieurs endroits dans ce document, par exemple dans le
chapitre 3 sur l’analyse jointe des opinions et des thématiques dans
le temps et sur la dynamique des images de marque, mais aussi dans
le chapitre 4 sur l’analyse des forums de discussion.
En complément, je présente dans le chapitre 5 des travaux entrepris sur la
recherche d’un meilleur espace de description pour les objets sujets à un
processus de classification. Pour terminer, le chapitre 6 permet de donner
un aperçu des différents projets de recherche appliquée dans lesquels j’ai
7
8
Chapitre 1. Introduction
été impliqué ces dernières années. Je détaille ci-dessous les différentes
contributions présentées dans la suite de ce mémoire.
Apport de la science des données aux SHS (chapitre 2)
Avant d’attaquer les contributions plus techniques de mon travail, je profite de ce premier chapitre pour motiver plus en détail l’intérêt que je vois
dans l’utilisation des techniques issues de la science des données dans
le contexte des bouleversements majeurs que connaissent aujourd’hui les
Sciences de l’Homme et de la Société. Plus spécifiquement, je détaille les
deux problèmes complémentaires que sont la fouille des données complexes (telles que les données textuelles) et l’analyse des représentations.
Je termine en donnant quelques précisions sur la démarche dans laquelle
je m’inscris, laquelle n’est pas de mettre au point une automatisation tous
azimuts mais bien de fournir des outils adaptés aux besoins des spécialistes
en SHS. J’esquisse enfin quelques réflexions d’ordre éthique.
Analyse des thématiques et des opinions (chapitre 3)
Une manière d’analyser les données majoritairement textuelles issues du
Web consiste à employer des méthodes non supervisées d’analyse des thématiques et des opinions. Une littérature importante existe sur ces sujets,
mais elle laisse ouvertes de nombreuses questions scientifiques : Comment
nomme-t-on les thématiques issues de ces algorithmes ? Comment évaluet-on leur pertinence les uns par rapport aux autres ? Comment analyse-ton conjointement les thématiques et les opinions, en particulier dans une
perspective dynamique ? Après avoir passé en revue les travaux existants,
je propose de décrire trois contributions :
1. Extraction, étiquetage, évaluation des thématiques (section 3.1) : je
présente en particulier deux approches que nous avons proposées
et testées afin d’évaluer la qualité des thématiques extraites par des
algorithmes de nature différente.
2. Analyse des opinions (section 3.2) : je présente une approche de classification hybride des opinions, suivant une démarche classique descendante (top down), puis un modèle pour suivre de manière non
supervisée la dynamique des opinions et des thématiques.
3. Détection et suivi des images (section 3.3) : je présente deux approches pour capturer de manière inductive la dynamique d’images
correspondant aux représentations attachées à des entités (p. ex. des
pays ou des hommes politiques). La différence vis-à-vis des deux
contributions précédentes réside dans le fait que les objets manipulés n’ont pas de composante textuelle. A la place, nous utilisons un
formalisme plus classique attributs-valeurs pour décrire les entités
étudiées.
Analyse des rôles dans les communautés en ligne (chapitre 4)
Un deuxième type d’analyse consiste à s’intéresser de plus près aux internautes, au réseau social qu’ils tissent sur la toile et, plus précisément,
aux rôles qu’ils peuvent jouer dans les conversations virtuelles. Là encore,
1.3. Contributions et plan du mémoire
de nombreux travaux ont été entrepris sur l’étude des rôles, en particulier
dans le domaine de la sociologie. Cependant, beaucoup de ces travaux
partent du principe que les rôles sont connus à l’avance, par exemple
suite à une étude anthropologique. Or, les rôles varient en fonction du
contexte et ils peuvent varier dans le temps. Partant d’une approche classique qui consiste à utiliser des rôles définis à priori, je montre dans ce
chapitre comment nous avons commencé à prendre la dimension temporelle avec l’objectif à terme d’analyser la dynamique des rôles (sujet qui
sera plus particulièrement détaillé dans les perspectives en section 7.2).
Plus précisément, je propose de décrire trois contributions :
1. Analyse des discussions en ligne (section 4.1) : je présente des travaux préliminaires sur l’analyse des forums de discussion, notamment sur l’identification de messages-clefs pour une tâche de recommandation à froid.
2. Détection de rôles dans les réseaux sociaux (section 4.2.1) : je résume
une importante revue de la littérature que nous avons réalisée sur
les travaux traitant de l’identification automatique de rôles à l’aide
d’outils informatiques.
3. Détection de rôles dans les communautés en ligne (section 4.2) : je
présente deux approches différentes pour trouver des rôles à partir de forums de discussion en ligne, une première approche qui
consiste à s’inspirer de travaux en sociologie pour extraire un rôle
prédéterminé (celui de célébrité, approche top-down) puis une seconde approche qui cherche des comportements récurrents émergents à partir des données (approche bottom-up).
Construction semi-supervisée du vocabulaire (chapitre 5)
Il s’agit ici d’un travail centré sur les représentations, en lien avec la manipulation d’images (cette fois pris au sens propre de représentation graphique). Cette partie est plus classique dans l’analyse et la fouille des
données ; elle rentre pleinement dans la discussion entamée dans la section 2.3. Ce chapitre permet de montrer un travail réalisé sur des données
de nature différente de celles présentées jusqu’à présent tout en conservant une réflexion sur la question de représentation des données. Plus
précisément, je propose de décrire deux contributions :
1. Construction du vocabulaire visuel (section 5.1) : je présente une
approche qui consiste à trouver la meilleure représentation d’un
ensemble d’images décrites par des descripteurs de bas niveaux
(meilleure pour une tâche de classification automatique).
2. Reconstruction du vocabulaire sémantique (section 5.2) : la seconde
idée consiste à redécrire un ensemble d’images étiquetées par des
descripteurs sémantiques (caractéristiques attribuées par des spécialistes du domaine) afin de trouver une description plus adéquate de
ces images.
Implication dans des projets de recherche (chapitre 6)
Je décris dans ce chapitre les principaux projets de recherche dans lesquels
je me suis investi ces dernières années. Ces projets constituent souvent
9
10
Chapitre 1. Introduction
un terrain d’application des modèles et des algorithmes développés par
ailleurs. Plus précisément, je propose de décrire deux projets :
1. Analyse des conversations en ligne (section 6.1) : sous cet intitulé, je
présente plusieurs projets centrés autour des forums de discussion,
et notamment la mise en place d’une plateforme intégrée d’acquisition et d’analyse de ces conversations.
2. Projet ANR ImagiWeb (section 6.2) : je présente en détail ce projet qui
consiste à étudier les images (au sens des représentations) véhiculées
par les médias sociaux, et plus particulièrement les données issues
de Twitter et de blogs. Il illustre bien le type de problématique que
je cherche à explorer, à la frontière entre SHS et science des données.
Apport de la science des
données aux SHS
2
Sommaire
2.1
Science des Données et SHS . . . . . . . . . . . . . . . . . . .
13
2.1.1 Evolution des SHS et avènement de la Science des Données 13
2.1.2 Problématique et solution envisagée . . . . . . . . . . . . . 15
2.2 Fouille de données complexes . . . . . . . . . . . . . . . . . . 17
2.3 Question de représentation(s) . . . . . . . . . . . . . . . . . . 23
2.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.4.1 Eclaircissements préalables et questions éthiques . . . . . 31
Conclusion du chapitre . . . . . . . . . . . . . . . . . . . . . . . . . 32
D
ans ce chapitre, je cherche à expliquer le tournant épistémologique
que connaissent aujourd’hui les Sciences de l’Homme et de la Société
et le rôle que peut y jouer la Science des Données. Cela me donne l’occasion de détailler les motivations à long terme de mes travaux de recherche,
tout en apportant des repères qui permettront au lecteur de mieux aborder
les contributions techniques des chapitres suivants.
11
2.1. Science des Données et SHS
2.1
Science des Données et SHS
D
ans cette première partie, je motive l’utilisation des techniques informatiques de la Science des Données (Data Science) dans le contexte
des bouleversements majeurs que connaissent aujourd’hui les Sciences de
l’Homme et de la Société.
2.1.1 Evolution des SHS et avènement de la Science des Données
D
e manière générale, les Sciences de l’Homme et de la Société se
donnent comme objectif l’étude des différents aspects de la réalité
humaine et regroupent de nombreuses disciplines : anthropologie, sociologie, linguistique, psychologie, histoire, etc. Elles s’opposent traditionnellement aux sciences de la nature (biologie, physique, chimie, mathématiques. . . ), à la fois en terme d’objet étudié et de méthodologie, ce pourquoi le philosophe Rickert (1921) introduira l’expression de sciences de
la culture. Dans cette distinction, il explique que ces sciences emploient
principalement des méthodes descriptives où le travail d’interprétation
est prépondérant. Des cas particuliers exemplaires peuvent être utilisés
pour en tirer des explications et des enseignements qui sauront éclairer
d’autres cas à venir (Ganascia 2009). A l’inverse, les méthodes employées
par les sciences de la nature reposent principalement sur l’induction de
lois générales à partir de l’observation de cas particuliers. Or, force est de
constater que la frontière méthodologique traditionnelle entre ces deux familles tend à s’atténuer. Je propose de donner un bref aperçu historique de
la démarche scientifique généralement employée en SHS avant d’expliquer
en quoi la révolution Internet constitue un véritable tournant épistémologique qui justifie le recours aux techniques modernes de la sciences des
données.
Pendant longtemps, la démarche scientifique, héritée de l’époque antique, était de nature contemplative ; elle cherchait à expliquer des phénomènes sur la base d’observations particulières, utilisant les formules de la
rhétorique pour convaincre. A partir du XVème siècle, les grands voyages
d’exploration, cherchant à découvrir de nouvelles terres promesses de
richesses, ont conduit à un tournant essentiel dans cette démarche. Ces
voyages et ces découvertes étaient rendus possibles par de nombreuses innovations technologiques, telles que le compas pour la navigation ou le télescope pour l’observation des étoiles. Les premiers voyages d’exploration
scientifique, tels que celui du capitaine Cook en 1768 à bord de l’Endeavour, regroupaient des naturalistes, des astronomes, des géologues. . . afin
de mieux étudier la géographie des lieux, la faune et la flore, les peuplades
exotiques rencontrées 1 . Ces savants avaient pour principale mission de
recueillir des informations en étant sur place, effectuant des relevés topographiques ou des prélèvements, observant les populations indigènes. Ces
recueils, accompagnés des récits de voyages ou d’autres sources comme
les journaux de missionnaires, seront ensuite utilisés par des « anthropologues en chambre », selon l’expression de J. G. Frazer (Deliège et al. 2006),
1. Le lecteur pourra consulter sur Wikipedia la liste exhaustive des voyages d’exploration scientifique entre 1764 et 1910.
13
14
Chapitre 2. Apport de la science des données aux SHS
pour analyser les informations rapportées. Après la première guerre mondiale, un courant appelé méthode participante se développe. Cette nouvelle méthode consiste principalement en un travail de terrain impliquant
un contact prolongé avec les tribus étudiées, une véritable immersion dans
la population en participant aux activités du groupe (jeux, rituels, etc.) et
en se faisant accepter par ses membres. Cette méthode ethnologique a été
introduite par Malinowski et al. (1922) ; Malinowski s’est immergé dans
la culture trobriandaise, population habitant des îles de l’archipel Mélanésien, apprenant leur langue et parvenant à comprendre cette société dans
sa globalité. On peut également citer de nombreux autres travaux, tels que
ceux de Whyte (1943) qui est allé jusqu’à se fondre dans la population d’un
quartier d’immigrants italiens de Boston, aux États-Unis, en participant
aux activités des gangs mais également aux œuvres sociales du quartier,
ou ceux de Levi Strauss (1949) sur l’étude ethnographique des peuples
Mundé et Tupi Kawahib dans l’état du Rondônia au Brésil. Citons enfin
les travaux de Jodelet et Moscovici (1989), pour lesquels D. Jodelet vécut à
Ainay-le-Château afin étudier de l’intérieur une communauté mélangeant
des gens normaux et anormaux, avec l’objectif de travailler sur les malades
mentaux et les représentations sociales de la folie. L’outil méthodologique
essentiel est alors le questionnaire et l’entretien durant lequel l’enquêteur
rencontre les individus sujets de son étude. Cet outil est largement partagé
par la plupart des SHS, qu’il s’agisse de répondre à des questions d’ordre
sociologique, politique, marketing, etc.
Il paraît évident aujourd’hui que l’arrivée de l’informatique, et plus récemment d’Internet, a permis d’amorcer un nouveau tournant épistémologique dans les SHS. Deux bouleversements majeurs semblent expliquer
les mutations que nous observons dans la manière d’aborder ces sciences.
Il s’agit tout d’abord du volume important de données disponibles, engendré par la chute des coûts de stockage 2 et la démocratisation d’Internet. L’émergence du Web 2.0, avec des contenus générés par les individus
eux-mêmes (UGC pour User Generated Content), a conduit à une explosion des données disponibles. Imaginez donc : 4 milliards d’actions effectuées chaque jour sur Facebook, 350 000 tweets chaque minute sur Twitter,
72 heures de vidéo ajoutées chaque minute sur YouTube, 40 millions de
nouvelles photos postées quotidiennement sur Instagram, 150 milliards de
courriels environ échangés chaque jour, plus de 800 000 sites créés sur Internet (sources BradFrost et Planetoscope). A ces données s’ajoutent celles
produites par les efforts importants de la part des pouvoirs publics, mais
également par certains acteurs industriels, pour valoriser les masses de
données du patrimoine telles que les archives de l’INA ou de la BnF en
France dans le contexte des données ouvertes (Open Data). Il s’agit ensuite
d’un changement au niveau de la puissance des outils disponibles qui
résulte d’une convergence des travaux de recherche réalisés dans de nombreux domaines (mathématiques, statistiques, linguistique, sociologie, informatique, etc.) et qui tire partie aujourd’hui d’une capacité de calculs
jamais égalée. Les avancées en mathématiques, par exemple avec la théorie des graphes et l’analyse des systèmes complexes, ont permis de formaliser les problèmes rencontrés en SHS de manière totalement nouvelle.
2. Un disque dur de moins de 100 euros peut contenir l’équivalent d’une bibliothèque
nationale (Dowek 2013).
2.1. Science des Données et SHS
J. L. Moreno, éminent psychiatre et sociologue américain, est ainsi le premier à avoir construit, dans le cadre de son « psychodrame humaniste »,
une matrice décrivant les relations entre des individus pour en tirer des
conclusions (Moreno et Jennings 1934). Ces travaux donneront naissance à
la sociométrie ; on y retrouve notamment, en creux, les notions de centralité qui sont utilisées aujourd’hui de manière extensive dans l’analyse des
graphes et des réseaux. Ces travaux conduiront à la formalisation des modèles par blocs mis au point par Lorrain et White (1971) afin d’étudier les
positions et les rôles sociaux de manière quantitative. Plus généralement,
les avancées conceptuelles dans la manière dont on représente l’information et dont on la manipule permettent d’imaginer des moyens de recueillir les observations et de réaliser des traitements jusque là considérés
comme inaccessibles. L’arrivée de l’informatique et des Nouvelles Technologies de l’Information et de la Communication (NTIC) a bien sûr accéléré ces mutations en autorisant la mise en place d’expériences jusqu’alors
considérées comme impossibles à réaliser faute de ressources suffisantes.
De la même façon que les grandes aventures scientifiques des XVIIIème
et XIXème siècles ont été rendues possibles grâce aux progrès de la science
et des techniques, il paraît évident aujourd’hui que les immenses avancées
technologiques, les instruments prodigieux que sont le microprocesseur,
l’ordinateur personnel et Internet, mais également les outils de recueil et
d’analyse de la science des données, permettent d’envisager l’exploration
de nouveaux espaces pleins de richesses que sont les univers virtuels, ce
que Balandier (2009) appelle les « nouveaux nouveaux mondes ». L’élaboration de nouveaux outils pour la fouille des données complexes issues
d’Internet, mais également des grands gisements d’information que sont
les fonds d’archives de la BnF ou de l’INA, est l’un des défis majeurs de
notre époque. Je décris dans ce mémoire quelques contributions qui s’inscrivent précisément dans ce courant.
2.1.2 Problématique et solution envisagée
P
armi les nombreuses questions posées en SHS, l’une d’elles consiste
à se demander comment les individus et les groupes d’individus qui
composent la société fabriquent des représentations relatives à des sujets
aussi divers que des objets (p. ex. un livre, un film, un appareil photo), des
personnes (p. ex. une célébrité ou un personnage politique), des groupes
(p. ex. les malades mentaux, les retraités, les bobos), des événements (p.
ex. une élection, un attentat, un tremblement de terre), des concepts (p.
ex. la psychanalyse). Ces représentations sont essentielles dans la communication entre les individus et elles sont étudiées dans de nombreux
domaines des SHS : psychologie, sociologie, marketing, etc. Dans mon
travail, je défends l’idée que l’étude de ces représentations peut, et même
doit bénéficier des outils modernes de la science des données. Le foisonnement actuel autour d’Internet, des réseaux sociaux et des nouveaux médias, de l’analyse de grands volumes de données promis par la fouille des
données et le big data, mais aussi du courant des humanités numériques
(digital humanities) avec le rapprochement entre les sciences de la nature
et les sciences de la culture, toute cette effervescence est la preuve qu’un
changement radical dans la manière dont nous allons répondre à ces ques-
15
16
Chapitre 2. Apport de la science des données aux SHS
tions est à l’œuvre. Zighed (2014) évoque même une « révolution majeure
de l’être humain après l’écriture, il y a plus de 3500 ans, et l’imprimerie, il
y a plus de 500 ans ».
L’idée principale consiste à supposer que les informations nécessaires
à l’analyse de ces représentations sont déjà disponibles et que leur traitement nécessite les outils modernes fournis par la science des données.
On peut conjecturer que ces informations se trouvent déjà dans les gisements de données et sur Internet, incluant les données générées par les
individus eux-mêmes (UGC) mais aussi les données issues de l’Open Data
et du Web sémantique. D’une certaine manière, cela revient à imaginer
que les carnets de voyage des explorateurs des siècles passés sont accessibles au vu et au su de tous, mais complétés par les textes rédigés par
les indigènes eux-mêmes sans l’intermédiaire d’enquêtes ni de questionnaires. Cette sorte de copie virtuelle du monde, grâce à laquelle toutes les
expériences sont possibles et reproductibles sans même avoir à intervenir,
intervention qui influence comme on le sait le processus, est à rapprocher
de l’idée d’expérience in silico. Cette expression, apparue en 1989 dans
le congrès américain “Cellular Automata : Theory and Applications”, désigne une expérience pouvant avoir lieu grâce à un ordinateur ou une
simulation informatique (Ganascia 2009). Non seulement cette manière
de procéder rend possible la multiplication et la reproduction des expériences, mais elle autorise un enrichissement continuel des informations
contenues dans cette copie du monde, sans que cela soit dommageable à
priori.
En d’autres termes, je postule que l’utilisation d’outils issus de la
science des données s’avère aujourd’hui indispensable aux spécialistes
en SHS pour mener à bien leur travail d’interprétation et d’explication,
suivant en cela le courant initié par les humanités numériques (Zighed
2014). Ces outils rendent possible la mise en place d’expériences systématiques et reproductibles, inspirées des méthodologies employées dans
les sciences de la nature (en biologie, en physique, etc.) mais sur un objet
qui est l’humain et la société. En particulier, l’étude des représentations
ne peut que tirer profit des nombreuses traces laissées par les individus
sur le Web, comme les données d’opinion qui transitent par les réseaux
sociaux, les blogs et les micro-blogs, les forums de discussion, traces qui
représentent une formidable mine d’informations dans l’analyse de ces
représentations. A partir de ces traces, il est en effet possible de répondre
à des questions comme : « De quoi parlent les internautes ? » ou encore
« Quelles sont leurs opinions ? ». Il n’est bien sûr pas question de pousser
à une automatisation tous azimuts de la démarche d’analyse des représentations, mais plutôt d’envisager cette solution comme un outil précieux à
la disposition des spécialistes en SHS pour les aider dans leur travail d’interprétation pour résoudre ces questions difficiles. Cette approche méthodologique est à rapprocher de la recherche d’un « espace intermédiaire »
(Chateauraynaud 2002) qui autorise une véritable recherche systématique
dans les données tout en mettant à l’épreuve les théories élaborées par les
chercheurs.
Je vais maintenant détailler ces deux problèmes complémentaires que
sont la fouille des données complexes et l’analyse des représentations.
Ces problèmes n’ont été qu’esquissés dans le chapitre précédent et ils
2.2. Fouille de données complexes
constituent le fil directeur de mon travail de recherche. L’objectif est de
prendre du recul sur les travaux réalisés ces dernières années pour mettre
en évidence les questions clefs qui, parfois, dépassent largement les questions techniques traitées dans les chapitres qui suivent. On peut voir cela
comme un exercice de mise en perspective des recherches que j’ai menées
ces dernières années. Il s’agit surtout de réfléchir à celles que je compte
entreprendre dans les années à venir.
2.2
Fouille de données complexes
Généralités sur la fouille de données – La fouille de données (data mining) se nourrit de multiples influences et elle est utilisée dans de nombreux contextes, ce qui explique qu’il est parfois difficile de la définir tout
à fait. Inspiré de travaux réalisés dans le laboratoire ERIC (Zighed et al.
2009, Rizoiu 2013a), mais également de la nombreuse littérature sur le
sujet (Pang-Ning et al. 2006, Han et al. 2006, Witten et al. 2011), je propose de définir la fouille de données comme le processus de découverte
de connaissances à partir d’un ensemble, en général volumineux, de données. En anglais, on parle aussi de KDD (Knowledge Discovery from Data).
Il s’agit d’un processus, situé au cœur de la science des données, qui suit
une succession d’étapes :
1. on part d’un problème à résoudre et des données que l’on souhaite
utiliser, stockées dans une base ou un entrepôt de données, voire
même plus récemment dans le “nuage” (cloud) ;
2. ces données sont prétraitées afin de pouvoir être manipulées par les
algorithmes d’analyse ultérieurs (compléter les valeurs manquantes,
sélectionner des attributs, etc.) ;
3. les données sont analysées à l’aide de techniques issues, par
exemple, de l’analyse de données, de l’intelligence artificielle, de la
linguistique computationnelle ;
4. les résultats de l’analyse sont interprétés comme de nouvelles informations sur les données, candidates à devenir des connaissances, en
ayant souvent recours à des interfaces de visualisation ;
5. les connaissances sont finalement validées, si possible avec le
concours d’un expert métier.
Notons que l’étape de prétraitement (2) revient finalement à trouver une
bonne représentation numérique des données, ce qui fait écho à la section 2.3 qui suit. Ce processus est parfois présenté comme un cycle où les
connaissances extraites sont réinjectées dans la base de données initiale,
avant de réitérer chacune des étapes. Le spécialiste en fouille de données
(data miner ou plus récemment data scientist) occupe une place de choix
quand il s’agit de décider des meilleurs traitements et algorithmes à appliquer dans le contexte d’une étude ciblée. Il est bien sûr en étroite relation avec l’expert du domaine car celui-ci possède la connaissance métier
souvent indispensable pour la résolution finale du problème. L’expert joue
un rôle essentiel dans la validation des nouvelles connaissances extraites
qui devront s’avérer actionnables (dans une optique de prise de décision),
17
18
Chapitre 2. Apport de la science des données aux SHS
utiles (pour mieux comprendre ses clients, ses produits, ses services. . . ),
ou à tout le moins intéressantes.
Fouille des données complexes – Les premiers algorithmes d’analyse
de données traitaient un ensemble observations décrites par des paires
(attribut, valeur). Il s’agit typiquement du format tabulaire manipulé par
les techniques issues de la statistique depuis les années 60, si l’on pense
par exemple aux travaux sur l’analyse des données de Benzécri et Bellier
(1976). Il s’agit également des données manipulées par les premiers arbres
de décision (Quinlan 1986), algorithmes issus de la recherche en intelligence artificielle, ou des données transactionnelles de l’algorithme APriori
imaginé par Agrawal et al. (1994). Il s’est vite avéré que la plupart des
données issues de problèmes réels ne se conformaient pas bien à ce type
de représentation. Les données sont qualifiées de complexes lorsqu’elles
répondent à un certain nombre de critères, parmi lesquels :
1. elles sont volumineuses (p. ex. comment traiter des millions, voire
des milliards, de tweets ?),
2. elles proviennent de sources hétérogènes (p. ex. différents sites Web),
3. elles sont de natures variées (p. ex. contenu textuel, méta-données,
images, sons),
4. elles sont interconnectées (voir à ce sujet le projet linked open data),
5. elles sont souvent imprécises ou imparfaites (p. ex. mise en doute de
la qualité de la source d’une information, données contradictoires),
6. elles évoluent au cours du temps (p. ex. variation de l’opinion ou
fluctuation des hashtags employés sur Twitter).
Dans le domaine émergent du big data, on parle des 3 V que sont le Volume, la Vitesse (ou Vélocité) et la Variété, mais d’aucuns se sont empressés d’en ajouter de nouveaux (p. ex. le V de Véracité).
Afin d’être en mesure de manipuler ces données complexes, les chercheurs de multiples disciplines ont du adapter les modèles et les algorithmes employés jusqu’à présent. Le traitement des données textuelles
a donné naissance à la fouille de textes (text mining), convergence des
travaux réalisés en traitement automatique de la langue, en statistiques
textuelles, en linguistique computationnelle (Stavrianou et al. 2007). La
prise en compte de l’interconnexion entre les informations a ouvert la voie
au traitement des données relationnelles (voir par exemple les travaux de
Getoor (2003) sur le link mining). Le développement d’algorithmes adaptés à l’analyse de données très volumineuses a initié le mouvement sur
le big data (Agrawal et al. 2011). Enfin, il convient de citer les nombreux
travaux s’inscrivant dans la dynamique des humanités numériques (digital humanities) qui constituent un terrain essentiel pour le développement de nouvelles techniques adaptées aux données complexes : données
historiques, économiques, sociales, etc. Dans le milieux économique, de
nombreuses sociétés se sont fortement positionnées sur ces thématiques,
telles que IBM ou SAS. Cette liste est loin d’être exhaustive, mais permet
de mesurer l’importance que revêt aujourd’hui le traitement efficace des
données complexes.
2.2. Fouille de données complexes
En particulier, de nombreux efforts se sont conjugués pour traiter les
données complexes issues des nouveaux médias qui jouent un si grand
rôle aujourd’hui dans notre société. Boullier et al. (2012) donnent par
exemple un panorama éclairant et critique sur l’analyse des sentiments et
des opinions à partir du Web. Ces efforts se sont concrétisés dans ce que
l’on appelle l’analyse des médias sociaux (social media analysis). Je détaille
à présent cette problématique.
Analyse des médias sociaux – A la fin des années 90, une centaine de
BBS (Bulletin Board System) existaient en France pour offrir des plateformes
d’échange de messages, de stockage et d’échange de fichiers, de jeux via
des modems reliés à des lignes téléphoniques (source Wikipedia BBS).
Les médias sociaux que nous connaissons aujourd’hui peuvent être vus
comme une version améliorée de ces bulletins, mais des auteurs comme
Kaplan et Haenlein (2010) pensent qu’ils vont bien au-delà. Ces derniers
définissent les médias sociaux comme un groupe d’applications qui s’appuient sur les nouvelles technologies du Web 2.0 et permettent à tout individu ayant un accès à la toile de créer et d’échanger du contenu (ce
qu’on appelle les “données générées par les utilisateurs” ou User Generated Content). Mis à part de lointains ancêtres tels que Usenet, les premiers
médias sociaux remontent à des sites comme Open Diary, créé en 1998,
puis aux succès de MySpace et FaceBook. Ils ont ensuite été rejoints par les
médias traditionnels, comme Le Monde ou L’Express, obligés de s’adapter à ce contexte numérique engendré par les nouvelles technologies. Il
est clair aujourd’hui que les médias sociaux ont définitivement bouleversé
le monde dans lequel nous vivons. Qualman (2012) introduit le terme de
socialnomics, correspondant à la valeur créée et échangée par ces nouveaux
médias et à son influence sur notre monde : politique, économique, sociale. . .
Le tableau de la figure 2.1 p. 20 est une adaptation de celui proposé
par Gundecha et Liu (2012) qui donne un aperçu des principaux types de
médias sociaux que l’on trouve sur Internet. Il faut cependant relativiser
cette possible typologie car la frontière n’est pas toujours très simple à
tracer. Par exemple, un site comme IMDb, en plus d’être une base de données de films, donne l’opportunité aux internautes de commenter les films
(comme sur un forum) mais également d’écrire des évaluations (reviews)
exprimant leur opinion de manière concise. Un site d’actualité comme le
Huffington Post fait de l’actualité sociale mais il héberge également un
nombre important de blogs, fédérant une communauté d’internautes en
proposant des fonctionnalités assez proches de celles d’un réseau social.
On pourrait donner de nombreux autres exemples, mais le message essentiel à retenir est que le Web est en constante évolution et qu’établir
une typologie générale et immuable des médias sociaux est une mission
quasiment impossible.
Le fait d’être capable de traiter automatiquement ces sources de données très riches permet de résoudre de nombreux problèmes : aider à
la gestion de crises humanitaires (voir le projet ASU Coordination Tracker), analyser l’activité des réseaux sociaux dans une perspective de veille
(Guille et al. 2013), sécuriser l’accès et les échanges d’information et bien
d’autres choses encore. Récemment, Asur et Huberman (2010) ont mon-
19
Chapitre 2. Apport de la science des données aux SHS
20
Type
Wikis
Réseaux
sociaux
Forums,
Blogs
Marquepage social
Description
Permettent de produire du contenu (en
particulier textuel) de manière collaborative.
Permettent à des individus et des communautés de se connecter virtuellement (relations d’amitié, de travail. . . )
et d’échanger (messages, photos, articles. . . ).
Permettent à des institutions ou des individus de publier des articles sur des
sujets divers : articles d’actualité, de
mode, recettes de cuisine, journal personnel, etc. Assez souvent, les internautes peuvent exprimer leur opinion
sous la forme de commentaires (forum
de discussion).
Permettent de sélectionner, organiser,
partager des marques-pages (sites Web).
Partage de
médias
Permettent de partager de nombreux médias, comme des vidéos, des photos, des
musiques, etc.
Microblogs
Servent à la fois à créer du contenu (avec
une taille limitée), à permettre aux individus de relayer et commenter l’information, mais également à relier les individus comme dans le cas d’un réseau social.
Permettent de sélectionner, partager et
de commenter des articles d’actualité.
Actualité
sociale
Revues
d’opinion
QuestionRéponses
Permettent de partager ses opinions sur
des produits, des films, des recettes de
cuisine, etc.
Permettent d’obtenir des réponses en posant explicitant une question.
Mondes
virtuels
Permettent de plonger les internautes
dans un univers virtuel très évolué.
Exemples
Wikipedia,
Wikitravel,
Wikihow
Facebook,
MySpace,
Linked’in
Huffington
Post,
Le Monde,
Marmiton,
Doctissimo
Delicious,
StumbleUpon
YouTube,
Flickr, Instagram,
Spotify
Twitter,
Sina Weibo
Digg, Slashdot,
Reddit
Epinions,
Yelp, Cnet
Yahoo !
answers,
WikiAnswers
Second
Life, World
of Warcraft
Figure 2.1 – Typologie possible des médias sociaux inspirée par Gundecha et Liu (2012).
2.2. Fouille de données complexes
tré que l’analyse des médias sociaux permettait de prédire le résultat de
films au box-office américain, et Tumasjan et al. (2010) que le volume de
messages échangés sur Twitter était un bon indicateur de réussite pour les
six partis en lice lors des élections fédérales allemandes en 2009, résultats
comparables aux techniques de sondage traditionnel. Ces résultats impressionnants ont été tempérés depuis par O’Connor et al. (2010) ou Mejova
et al. (2013). Il n’en demeure pas moins que la plupart des chercheurs
s’accordent à dire que les médias sociaux ont une influence importante
sur le déroulement d’une campagne politique (voir les conclusions tirées
sur la primaire américaine par Williams et Gulati (2008)). Développer des
outils d’analyse adaptés constituent dans ce contexte une piste pleine de
promesses.
Algorithmes pour l’analyse des médias – L’analyse automatique, ou
semi-automatique, des données issues des nouveaux médias sociaux nécessite l’emploi de techniques modernes de la science des données. Ces
techniques issues de l’informatique, des mathématiques, des statistiques,
entre autres, sont essentielles pour traiter des problèmes très concrets
comme la recherche d’information grâce à des moteurs de recherche de
plus en plus sophistiqués, l’identification des sujets discutés par les internautes, ainsi que leurs opinions, la compréhension des mécanismes de
diffusion de l’information, l’analyse des communautés qui se forment sur
Internet et du rôle individuel joué par ses différents membres (avec par
exemple la recherche d’acteurs influents), la recommandation sociale (de
produits, de services, etc.), la liste est longue. Présenter succinctement les
principaux algorithmes qui existent aujourd’hui pour analyser les données
complexes relève de la gageure. En effet, ils sont à la fois très nombreux et
difficiles à classer, simplement par le fait qu’il existe de nombreuses manières de les organiser. C’est pourquoi, dans ce mémoire, je choisis de ne
pas être exhaustif et je préfère insister sur les techniques qui permettront
au lecteur de situer celles que je développe par la suite.
Une première manière de distinguer les différentes techniques existantes consiste à les classer suivant le fait qu’elles permettent de trouver
une information assez bien définie au départ ou, au contraire, si elles sont
d’ordre plus exploratoire. La première classe est généralement qualifiée de
descendante ou “haut vers le bas” (top down) ; elle regroupe des méthodes
classiques de recherche d’information, de base de données (requêtes),
d’apprentissage automatique supervisé (classification, régression). Par opposition, la deuxième classe est qualifiée d’ascendante ou “bas vers le
haut” (bottom up) ; elle regroupe des méthodes associées généralement
à l’apprentissage automatique non supervisé (clustering, certaines règles
d’association) ou à la découverte automatique (par exemple la découverte
scientifique). Cette deuxième classe d’approches est souvent couplée à des
interfaces de visualisation et d’analyse afin d’aider à la découverte d’informations utiles. Il s’agit par exemple du recours à l’analyse en ligne dans
les entrepôts de données (OLAP pour OnLine Analysis Processing) ou de
l’analyse visuelle des données (visual analytics). Bien sûr, ces manières différentes d’aborder la fouille des données interagissent constamment et il
n’est pas question de tracer une frontière infranchissable entre les deux. En
témoignent les approches hybrides de plus en plus fréquentes d’appren-
21
22
Chapitre 2. Apport de la science des données aux SHS
tissage dit semi-supervisé ou bien l’apprentissage actif qui favorise l’interaction avec l’expert du domaine, approches qui sont à la recherche d’un
bon compromis entre les deux. Je donne ci-dessous quelques exemples
soigneusement choisis pour faire le lien avec mes propres travaux.
Approche descendante (top-down) – Cette catégorie regroupe les modèles et les algorithmes pour lesquels on a une connaissance assez précise de l’information recherchée. Un exemple emblématique est celui de
la requête dans une base de données ou de la requête exprimée dans un
moteur de recherche à l’aide de mots clefs écrits en langage naturel. L’algorithme utilisé par Google utilise ainsi une formule (secrète) basée sur
une combinaison de plusieurs facteurs : similarité entre la requête et la
page Web retournée, crédibilité de la page (notion de PageRank, voir Page
et al. (1999)), mise à jour récente de la page, etc.
Un autre exemple est celui présenté dans la section 4.2.2. L’objectif est
de chercher quels internautes peuvent être considérés comme des célébrités dans une discussion en ligne de type forum. La technique employée
est, ici, de se baser sur une définition de la notion de célébrité issue de la
littérature en sociologie, puis de la traduire sous la forme d’une formule
comprenant des critères à optimiser. Cette méthode est finalement très similaire à celle employée dans le cas du moteur de recherche : on calcule
la valeur obtenue par chaque internaute à l’aide de cette formule puis on
retourne la liste des internautes qui optimisent cette valeur.
Un dernier exemple est celui de la classification de textes dans des
classes prédéfinies, tels que les messages postés sur Twitter ou sur les
forums de discussion. L’une des contributions présentées dans la section 3.2.2 consiste à distinguer automatiquement la polarité d’opinion selon deux ou trois classes : textes au contenu plutôt positif, neutre ou négatif. Cette tâche d’analyse d’opinion peut être résolue en ayant recours
à un algorithme de classification automatique qui repose sur un étiquetage manuel réalisé par des êtres humains. Sur la base de ces exemples,
l’algorithme trouve les motifs récurrents qui lui permettront de propager
l’annotation à d’autres textes. On constate là encore que ce qui distingue
un texte positif d’un texte négatif est fourni au préalable par des êtres
humains dont la connaissance guide le processus d’apprentissage.
Approche ascendante (bottom-up) – Cette catégorie regroupe les modèles et les algorithmes qui permettent de faire émerger une information
utile, intéressante, inattendue, actionnable. . . à partir des données, sans
avoir une connaissance préalable très précise de ce que l’on recherche. On
peut considérer ce type d’approche comme exploratoire ; elle est souvent
complétée par une analyse plus dirigée comme celle présentée dans le paragraphe précédent. Il est bien sûr possible, voire souhaitable, de calculer
des statistiques descriptives simples sur les données traitées car celles-ci
donnent des premiers éléments qui peuvent s’avérer déterminants pour la
suite. Mais ce genre d’analyse rencontre vite des limites. Une manière de
dépasser ces limites consiste à avoir recours à des techniques d’apprentissage automatique non (ou peu) supervisé qui permettent de faire émerger des informations plus fines non nécessairement attendues, comme des
motifs ou des catégories signifiantes selon certains critères.
2.3. Question de représentation(s)
Un exemple emblématique lié à l’analyse des médias sociaux est celui de l’identification automatique de communautés. Les techniques d’apprentissage non supervisé permettent ainsi d’extraire des groupes considérés comme homogènes de chercheurs scientifiques en observant le réseau de collaborations induit à partir de DBLP (Muhlenbach et Lallich
2010). Bien sûr, le qualificatif d’homogène recèle une ambiguité qui n’est
pas sans rappeler celle liée à la distance en apprentissage supervisé : sur
quelle base compare-t-on deux observations ou davantage (articles scientifiques, chercheurs, messages de blogs, etc.) ? Elle est aussi indubitablement
liée à la question de la représentation des objets manipulés, comme j’en
discuterai dans la section 2.3.
Un autre exemple est à la croisée des chemins entre apprentissage automatique, fouille de textes et linguistique computationnelle : il s’agit de
l’extraction de thématiques à partir d’un corpus de textes. De nombreux
chercheurs ont ainsi développé des algorithmes pour extraire de “quoi”
parle un corpus parfois très vaste (articles, messages, tweets, sites Web. . . ).
Ces approches ont en commun de poser le moins d’hypothèses possible
sur la nature de ces thématiques qui émergent des co-occurrences observées dans les termes composant le corpus. J’aborde largement cette question dans le chapitre 3 en proposant de nouveaux modèles et algorithmes
pour extraire les thématiques, mais également les opinions, à partir de
données issues des médias sociaux.
Mon dernier exemple est en miroir de celui donné dans la partie précédente sur l’identification des rôles. Contrairement à l’exemple précédent,
une approche ascendante consiste à limiter les idées préconçues sur le
type de rôles que l’on s’attend à rencontrer dans une communauté virtuelle donnée. Dans la section 4.2.3, je détaille ainsi une approche utilisant
l’apprentissage non supervisé pour faire émerger des comportements récurrents qui, peut-être, pourront être interprétés comme des rôles. Elle
illustre bien la dualité qui est souvent faite entre les approches top down et
les approches bottom up.
2.3
Question de représentation(s)
L
a notion de représentation est centrale en apprentissage automatique
et en fouille de données. Effectivement, la manière dont les objets sont
décrits pour être traités par les machines conditionne souvent la réussite
ou l’échec des algorithmes développés. Or, on sait qu’il n’existe jamais une
seule description, mais au contraire qu’elles sont nombreuses et qu’elles
peuvent correspondre à des points de vue différents portés sur les données. Pour preuve de l’importance de la représentation en informatique,
on peut citer ici tous les travaux sur la construction ou l’extraction de caractéristiques (Liu et Motoda 1998), sur l’apprentissage de variétés topologiques ou manifold learning (Huo et al. 2007), sur la recherche d’espaces
latents (Hofmann 1999, Hoff et al. 2002). La construction d’une représentation adéquate des données a d’ailleurs récemment concentré l’attention de
la communauté scientifique, qui a organisé une conférence dédiée à cette
question (conférence ICRL). Elle est centrale et transversale à la plupart
23
24
Chapitre 2. Apport de la science des données aux SHS
des questions d’apprentissage automatique, que celui-ci soit supervisé,
non supervisé ou semi-supervisé.
Cependant, la question des représentations est bien plus ancienne et,
par sa nature même, pluridisciplinaire. Dans cette section, je cherche à
élargir un peu l’horizon en discutant de la manière dont différents champs
disciplinaires se sont emparés de cette question. Cette discussion est importante car elle permet de comprendre la portée des recherches que j’ai
pu mener jusqu’à présent, mais plus que cela le projet de recherche dans
lequel je m’inscris pour les années à venir. Afin de proposer une grille de
lecture pour cette partie, je commence par parler des représentations au
sens large en employant le vocabulaire de la sémiotique. Cela permet de
distinguer différentes formes de représentations avant de discuter comment l’informatique, et mes recherches en particulier, s’inscrivent dans
une démarche plus générale d’extraction des représentations des objets
du monde telles qu’elles sont véhiculées par les médias sociaux.
Représentation et sémiotique – Dans son précis de sémiotique générale,
Klinkenberg (2000) définit la sémiotique comme la science des signes, et le
signe comme témoignant « d’une certaine structuration de l’univers (des
choses, des sensations, des valeurs. . . ), valide pour des personnes données, dans des circonstances données ». Le signe est un substitut qui fait
correspondre une partie de l’univers sensible (un objet ou référé) à une partie de l’univers logique, conceptuel (le référant). A ce titre, la logique, telle
que développée dès l’époque hellénique par des philosophes comme Aristote, relève pleinement de cette acception. Le code de la logique est composé de la syntaxe qui permet de définir le vocabulaire de signes constituant le langage formel, mais également les règles de manipulation de ces
signes (ce qu’on appelle la grammaire), et de la sémantique qui précise
le sens que l’on donne aux signes que l’on manipule. Ce langage logique
donnera d’ailleurs naissance aux langages formels qui seront la clef des
études sur la calculabilité et le développement des langages de programmation modernes.
La sémiotique permet ainsi de mieux comprendre la relation existant
entre le monde réel et l’univers conceptuel du langage de la logique, permettant d’opérer des inférences (comme la déduction) et de modifier sa
compréhension du monde pour, par exemple, prendre les bonnes décisions. C’est d’ailleurs ce qui a permis la réussite des systèmes à base de
connaissances, puis du Web sémantique (voir à ce sujet les logiques de
description (Baader 2003) et les moteurs automatiques d’inférence (Haarslev et Möller 2003)). Cependant, utiliser la sémiotique comme point de
référence permet également de mieux appréhender les liens existant avec
les représentations que se font les individus ou les groupes d’individus.
Je tâche dans la section suivante d’éclaircir ce point, essentiel pour bien
comprendre les tenants et aboutissants de mon travail.
Représentation cognitive et représentation sociale – L’image personnelle que se fait un individu d’un certain objet (événement, personne, problème, etc.) entretient d’étroites relations avec l’image sociale véhiculée au
sujet du même objet dans une population. On nomme la première une
2.3. Question de représentation(s)
représentation cognitive et la seconde une représentation sociale. Un lien s’établit clairement entre les deux, ne serait-ce que du fait qu’elles partagent
un même référé dans le monde réel. Il n’est pas question ici de lister les
nombreux travaux qui ont été réalisés sur ces sujets dans des domaines
comme la psychologie, la sociologie, les sciences cognitives et la linguistique, entre autres. L’objectif est plutôt de donner un aperçu de ces questions, pour pouvoir ensuite les mettre en relation avec les représentations
plus formelles des mathématiques et de l’informatique, et donc avec les
travaux décrits dans la suite de ce mémoire.
Le sens ne peut être l’unique produit d’une société et de pratiques
culturelles héritées des générations passées, constat qui amène naturellement à se poser la question de l’origine du sens. Or, cette origine ne peut
être cherchée que dans l’expérience que vivent les individus, les stimuli
en provenance du monde réel. Une approche interactionniste indique alors
que le sens provient finalement d’une interaction continuelle entre les stimuli et les modèles. Autrement dit, les modèles servent de base à notre
interprétation du monde mais ils peuvent être révisés lorsque les observations commencent à trop s’en éloigner. La catégorisation est un thème
ancien qui remonte à l’antiquité et au modèle CNS (Conditions Nécessaires et Suffisantes) d’Aristote. Il a connu de nombreux développements
au siècle dernier avec les travaux de Rosch (1973; 1999) en psychologie
cognitive et de Lakoff (1987) en linguistique. L’idée d’air de famille donne
notamment une manière commode d’expliquer la manière dont les individus organisent des catégories complexes, comme celle de “jeu” (Wittgenstein et al. 1958).
D’un autre côté, l’individu est nécessairement influencé par les informations émanant de son entourage (famille, proches, collègues), des rumeurs (entendues chez le coiffeur ou dans un magasin), mais surtout des
médias (affiches, radio, télévision, presse). Cette influence serait à la base
de la formation de l’opinion publique et expliquerait de nombreux phénomènes, comme le montre Lippmann (1922) sur la formation des stéréotypes. Elle prend donc racine dans les représentations véhiculées dans la
société par ses acteurs : personnes, institutions, entreprises, etc. L’étude
des représentations, et en particulier de celles véhiculées par les médias,
est un thème étudié par la psychologie sociale et l’analyse du discours
de presse. Un exemple fameux est celui de l’étude pharaonique menée au
sujet de l’image de la psychanalyse par Moscovici (1961). D’autres travaux
remarquables ont été entrepris par la suite, comme par exemple au sujet
des maladies mentales par Jodelet et Moscovici (1989).
Durkheim (1898) montre que les représentations personnelles, rattachées traditionnellement au domaine de la psychologie cognitive, sont
parfaitement conciliables avec les représentations collectives de la psychologie sociale. En d’autres termes, il semble évident que ces deux univers entretiennent des liens entre eux et qu’il est possible, par exemple, de
faire des analogies entre les deux niveaux : certains phénomènes ayant lieu
au niveau de l’individu (sur la perception, la classification, etc.) peuvent
être transposés, toutes proportions gardées, à l’échelle d’une population.
Mais la lecture de Durkheim (1898) nous apprend également que les représentations sociales ne peuvent absolument pas se réduire à la somme
des représentations individuelles. Au niveau macroscopique, de nouveaux
25
26
Chapitre 2. Apport de la science des données aux SHS
phénomènes entrent en jeu, influencés par des facteurs sociaux, culturels,
économiques, etc. Malgré cela, on voit bien que les deux niveaux entretiennent des relations étroites car, de la même façon que les représentations individuelles influencent les représentations de groupe, les travaux
sur l’influence sociale (Beauvois et al. 1995), et bien sûr aussi ceux sur la
propagande (Doob 1948), nous apprennent que le monde social influence
aussi les représentations individuelles.
Dans un autre domaine, Qualman (2012) introduit le terme de world of
mouth qui, selon lui, remplace le word of mouth qui prévalait avant l’avènement des médias sociaux. En d’autres termes, on remplace un modèle ancien, si ce n’est ancestral, de “bouche à oreilles” (représenté sous la forme
d’un arbre de diffusion) par un modèle de “bouches à oreilles” (notez le
’s’) qui suppose une symétrie dans la diffusion. Ce modèle fait écho aux
idées de Lippmann (1922) pour la formation des stéréotypes, évoquées
plus tôt dans ce document. Cependant, on notera que cette diffusion s’effectue à présent par un nouveau canal qui est celui d’Internet et des médias sociaux. Il semble alors possible de postuler que les représentations
véhiculées par le Web, observables et potentiellement mesurables, ont un
impact sur les représentations personnelles que se forgent les usagers de
ces médias. Utiliser la science des données comme un outil pour l’analyse des représentations qui circulent sur Internet sous-tend mon projet
général de recherche.
Des représentations informatiques – Le but de toute communication
est la résolution de l’ambiguïté (Klinkenberg 2000). Cette assertion est en
lien direct avec la théorie de l’information qui joue un rôle prépondérant
en informatique (Shannon 1948). Le message électronique, passant d’ordinateur en ordinateur via Internet et les milliers de data centers répartis
à travers le monde, est contraint par un code que les machines sont capables de manipuler. Ce code est exprimé en bits, atomes d’information à
valeur binaire, qui contraignent le contenu de ces échanges. Faisant cela,
ce nouveau médium devient une sorte de médiateur lorsqu’il se double
d’institutions créées pour mettre en place des normes, telles que le W3C.
Il semble évident que les normes ainsi imposées, comme les protocoles
HTML et TCP-IP, ou les triplets RDF du Web sémantique, orientent la manière dont les communications peuvent avoir lieu. Mais laissons ce débat
pour discuter plus en détail des représentations informatiques manipulées
par les algorithmes de fouille de données.
D’un point de vue informatique, l’analyse automatique des données
nécessite que nous soyons en mesure de décrire les données complexes. Il
s’agit par exemple d’une collection de mammographies dans une tâche de
détection de tumeurs, ou d’un réseau de clients pour une banque ou un
assureur. Nous pouvons nommer cet objet réel le référé si l’on s’en tient au
vocabulaire de la sémiotique, comme vu précédemment. La projection de
cet objet sur un support numérique composé de 0 et de 1 constitue un référent pour cet objet, une transformation qui nous permet de le manipuler
aisément à l’aide d’algorithmes de traitement de l’information. Ainsi, le tableau qui décrit les tumeurs à partir d’un vocabulaire de caractéristiques
(motifs provenant de l’image) ou les clients à partir de variables sociodémographiques est bien une manière de représenter les objets que l’on
2.3. Question de représentation(s)
souhaite manipuler avec nos machines. Les données textuelles, qui constituent une grande partie des données ciblées dans mes travaux, peuvent
également être décrites de multiples façons : représentation en “sac de
mots” (bag of words), vecteurs dans des espaces multidimensionnels, arbres
syntaxiques, etc. Il est admis qu’il existe de nombreuses descriptions possibles pour un même objet, comme autant de points de vue différents qui
poseront bien sûr des difficultés aux algorithmes de fouille de données,
comme nous le verrons par la suite.
Une fois les objets qui nous intéressent décrits en langage informatique, il est possible de leur appliquer des modèles d’analyse mathématique et statistique en utilisant des algorithmes. Cependant, il est connu
que la description de ces objets, souvent construite à priori, est rarement
la plus pertinente pour la tâche visée. Résoudre ce problème revient à
chercher le meilleur espace de description pour la tâche (classification, régression, visualisation, etc.), problème qui a beaucoup sollicité l’attention
des chercheurs en mathématique et en informatique, et ce depuis longtemps. On peut citer les nombreux travaux en construction ou extraction
de caractéristiques, qui consistent par exemple à sélectionner un certain
nombre de dimensions de l’espace de représentation afin d’améliorer les
performances obtenues en classification (Liu et Motoda 1998). En analyse
de données, les premiers axes factoriels sont souvent utilisés pour redécrire les données car ils résument la plus grande partie de la variance
observée (Benzécri et Bellier 1976) bien qu’ils laissent de côté les signaux
les plus faibles. Dans la même lignée, l’apprentissage de variétés topologiques (manifold learning) cherche la projection dans un espace non nécessairement convexe qui préserve au maximum la topologie propre aux
données (Huo et al. 2007). Pour donner un dernier exemple, en lien direct avec certaines contributions présentées dans ce document, une idée
similaire est développée lorsque l’on cherche des espaces latents avec des
techniques de factorisation de matrices comme NMF (Paatero et Tapper
1994) ou des modèles probabilistes comme pLSA et LDA (Hofmann 1999,
Blei et al. 2003).
On peut constater que l’effort principal de la communauté s’est porté
sur la représentation des données en entrée des algorithmes. Or, la sortie
des algorithmes de fouille de données, autrement dit le type d’information
proposé à un utilisateur souvent via une interface graphique, joue également un rôle important bien que celle-ci soit parfois très pauvre. C’est
particulièrement flagrant en apprentissage non supervisé où le produit de
l’analyse se résume la plupart du temps à un ensemble de groupes (souvent disjoints) parfois organisés sous la forme d’une grille (Kohonen 1982)
ou d’une hiérarchie (Fraiman et al. 2013). L’analyse fine des groupes (caractérisation, nommage, relations inter-groupes) est réalisée à posteriori,
souvent en concertation avec l’expert métier. Pour la tâche d’apprentissage de thématiques (topic learning), les documents sont étiquetés avec des
thématiques qui se retrouvent souvent être des distributions sur un vocabulaire fixe de mots. Les interfaces récentes de visualisation et de navigation dans les thématiques (Wei et al. 2010, Gohr et al. 2013) rencontrent
vite leurs limites car elles ne permettent pas réellement de caractériser
les groupes et surtout leur dynamique dans le temps. Ce genre d’analyse
avancée nécessite, bien sûr, des modèles de représentation adaptés qui
restent à construire.
27
28
Chapitre 2. Apport de la science des données aux SHS
Image, nouveaux médias et curation – J’ai plusieurs fois fait allusion
aux images, ou représentations, véhiculées par les médias. En effet, ils sont
souvent des intermédiaires entre la réalité (des faits, des événements) et la
connaissance que les individus en ont. Ce concept d’image est central aux
recherches en analyse du discours, notamment du discours de presse, mais
également aux travaux en communication. Il a été étudié par des chercheurs comme Lippmann (1922), avec l’idée de stéréotypes, ou l’équipe
de Moscovici, avec l’image de la psychanalyse (Moscovici 1961) et de la
maladie mentale (Jodelet et Moscovici 1989). Il rencontre un écho particulièrement important de nos jours avec l’apparition des nouveaux médias
tels que les blogs et les réseaux sociaux. En effet, ces médias effectuent un
travail éditorial qu’on qualifie de curation de contenu, concept qui n’est
qu’une nouvelle manière de manipuler 3 l’information et ses représentations. On ne peut évidemment s’empêcher de faire le lien avec la question
de l’influence des médias sur l’opinion publique et les représentations individuelles. Comme je l’expliquerai brièvement plus tard (section 2.4.1),
je préfère ne pas me hasarder à discuter de ces questions importantes et
complexes d’influence dans le présent document car elles sont déjà étudiées par ailleurs dans d’autres disciplines que l’informatique.
L’une des différences souvent mise en avant est que les “nouveaux”
médias, par opposition aux “anciens” médias, laissent une plus grande
place à l’information produite par les individus. Les individus qui participent à la création du contenu constituent la foule (crowd) qui n’est, par
définition, pas reconnue comme experte dans le sujet traité ni spécialisée
dans la diffusion de l’information. Ce contexte explique la nécessité de
s’inscrire dans une démarche de curation. Comme l’explique bien Rosenbaum (2011), cette démarche n’est pas entièrement nouvelle car elle repose
sur l’idée de l’éditorialisation du contenu. Le terme provient d’ailleurs
du domaine de la muséologie où le curateur (curator) fait référence au
commissaire qui sélectionne, trie, contextualise, présente les œuvres d’art
qui composent son exposition. Adoptant une démarche similaire, le curateur du média, qu’il dépende d’un organe traditionnel de presse ou qu’il
s’agisse de l’auteur d’un blog au sujet de sa passion pour le scrabble, organise son contenu de telle sorte que sa lecture apporte une réelle plus value
à ses auditeurs, un supplément d’âme. La place de l’humain, le curateur,
est fondamentale en ce qu’il permet d’aller au-delà de simples agrégateurs automatiques d’information tels que les agrégateurs de flux RSS ou
les compilateurs de news comme Google Actualité. C’est là que réside la
valeur ajoutée qui ne peut être apportée que par l’intelligence de l’être humain, comme le prône l’idée de curation défendue par Rosenbaum (2011).
Au fond, on peut avoir l’impression de voir se rejouer la pièce dramatique qu’a connu l’Intelligence Artificielle depuis les années 60. Les détracteurs de l’IA dite cognitiviste, comme Dreyfus (1992), soulignent que
la connaissance et les comportements humains ne sont pas réductibles à
un ensemble de propositions formelles comme celles de la logique manipulée par les ordinateurs. Ils s’opposent donc à l’idée que l’esprit puisse
être modélisé sous la forme d’une machine symbolique. La conséquence
est que les systèmes dits intelligents nécessiteront toujours l’intervention
3. Manipuler ici n’est pas pris dans son acception péjorative, mais bien pour signifier
que le curateur manipule l’information dès lors qu’il la traite à des fins éditoriales.
2.4. Discussion
humaine lorsqu’il s’agit d’accomplir des tâches de haut niveau tel qu’un
travail éditorial. Autrement dit, l’automatisation totale de ces systèmes
est une chimère. D’autres voix s’élèvent pour défendre l’intelligence artificielle en levant l’ambiguité sur le projet réel qu’a été, et qu’est encore à
ce jour, celui de l’IA (Ganascia 2010a). Remettre l’humain dans le jeu de la
découverte de connaissances à partir de gisements massifs provoqués par
le déluge de données est précisément l’un des enjeux de la curation, mais
également de ce que l’on appelle aujourd’hui la science des données. La
démarche de curation nécessite une sélection appropriée des données pertinentes, leur organisation et leur mise en forme en fonction d’un contexte,
puis leur diffusion. La fouille de données, qui laisse une part importante
de la décision au data miner ou data scientist, mais surtout à l’expert métier
(le citoyen, le journaliste, le chercheur en sciences sociales, etc.), représente
alors une piste particulièrement prometteuse, voire inévitable, pour mettre
en œuvre ce type de démarche « intermédiaire ». Certains médias ne s’y
trompent d’ailleurs pas en proposant des outils de sélection des données,
de modération des discussions, de visualisation dynamique, etc. A ce titre,
le projet des humanités numériques ne semble pas bien différent (Zighed
2014).
2.4
Discussion
L
a synthèse des deux parties qui précèdent revient à se demander ce que
peuvent apporter les modèles et les algorithmes de la science des données pour l’analyse des médias, ou plus précisément pour l’analyse des représentations qu’ils véhiculent. Pour tenter de répondre à cette question,
il faut rappeler que la plupart des médias actuels (radio, presse, réseaux
sociaux, etc.) ont aujourd’hui une existence partielle ou totale sur Internet et que ce support numérique est également le canal par lequel transite une grande quantité de l’information fournie aux individus. Il semble
alors légitime de postuler qu’une analyse des traces numériques (articles,
messages, commentaires, tweets, statuts. . . ) laissées sur ces médias nous
donnera des indices suffisants sur le type de représentation véhiculée sur
la toile et donc proposée aux individus. Or, une analyse systématique de
ces traces n’est envisageable qu’en ayant recours à des outils modernes
de fouille des données, ne serait-ce que pour filtrer, synthétiser, visualiser
les masses prodigieuses d’information disponible. Ce postulat me mène
donc à conclure que la fouille des données complexes et massives, que
l’on classe aujourd’hui comme l’un des projets de la science des données,
constitue un outil inévitable pour l’analyse des médias aujourd’hui. Bien
sûr, je m’inscris dans une tradition pragmatique qui, loin de tomber dans
les travers quantitativistes un temps dénoncés (voir à ce sujet l’historique
tracé par Lemercier et Claire (2010)), donne toute sa place à l’humain dans
le processus, qu’il s’agisse de l’expert en sciences des données ou de l’analyste qui emploie ces outils dans sa démarche interprétative. Plus encore,
il semble évident que la réussite du processus dans son ensemble nécessite
une forte coopération des deux parties.
Il convient à présent de discuter de la classification automatique, en
particulier non supervisée, car elle constitue le mode privilégié des tech-
29
30
Chapitre 2. Apport de la science des données aux SHS
niques originales présentées dans ce mémoire. La catégorisation occupe
une place de choix dans les techniques de la fouille des données, plus
particulièrement en apprentissage automatique inductif. La nécessité de
catégoriser le monde réel sensible a mené à l’élaboration de nombreuses
encyclopédies, systèmes de classement aussi divers que les taxonomies de
Linnaeus et al. (1758), l’encyclopédie collaborative Wikipédia ou l’ontologie OGMS dans le domaine de la médecine. Les chercheurs en mathématiques et en informatique ont réalisé qu’il était important de mettre
au point des techniques pour automatiser la construction de ces catégories. Certains ont été jusqu’à s’inspirer de théories sur la catégorisation
humaine, comme la théorie du prototype de Rosch (1999), pour élaborer
leurs mesures (comme la Category Utility de Gluck et Corter (1985)) et
leurs algorithmes (COBWEB de Fisher (1987)). De manière analogue, on
peut se demander aujourd’hui si les outils d’analyse des représentations
véhiculées dans et par les médias ne devraient pas tirer enseignement des
travaux réalisés depuis longtemps en sociologie et en psychologie sociale.
Il s’agit de l’une des pistes que je souhaite continuer à explorer et qui se
retrouve naturellement dans mes perspectives actuelles de recherche (cf.
section 7.2).
Comme souligné par Klinkenberg (2000), les encyclopédies ont un caractère « pluriel et provisoire ». Pluriel car il est vain de vouloir construire
une unique encyclopédie de référence, valable pour tous les individus et
pour tous les sujets. Provisoire car elles sont en constante évolution. Ces
éléments plaident d’abord contre l’illusion de découvrir une unique structuration des données. C’est la raison pour laquelle je n’aborde pas, ou
très peu, la question du bon nombre de catégories, question récurrente
lorsqu’on évoque des algorithmes comme les k-means de MacQueen et al.
(1967) ou les algorithmes d’extraction de thématiques comme LDA (Blei
et al. 2003). Ces éléments plaident également pour la nécessité de développer des modèles et des algorithmes d’analyse capables de prendre en
compte la dimension temporelle. Cela ne veut pas dire qu’il soit nécessaire
que les algorithmes donnent des réponses en temps réel (problématique
online ou anytime), mais plutôt qu’il convient de prendre convenablement
cette dimension en compte, par exemple de manière rétrospective. C’est
ce type d’approche qui est justement privilégié dans mes travaux.
Pour terminer, je me dois d’insister sur un point : la place de l’humain
dans cette démarche d’analyse. C’est un thème central en fouille de données mais aussi en curation des contenus, voire plus généralement dans
l’utilisation des outils informatiques dans le domaines des SHS. C’est ainsi
que des logiciels comme Prospero (Chateauraynaud 2003) et Alceste (Reinert 1990) sont quotidiennement utilisés par des chercheurs en sociologie
pour analyser les discours. Prospero, issu des travaux du groupe de sociologie pragmatique et réflexive à l’EHESS porte, en lui-même, la nécessité d’une utilisation éclairée impliquant le chercheur à toutes les étapes
de l’analyse. Quant à Alceste, Kalampalikis et Moscovici (2005) montrent
bien que l’utilisation de ce logiciel nécessite d’être revisitée en adoptant,
là encore, une démarche pragmatique. On retrouve le même souci dans
d’autres domaines tel que l’histoire où la communauté s’interroge sur
la place des outils quantitatifs (Lemercier et Claire 2010). Traiter de la
question des interfaces homme-machine n’est pas l’objet de mes travaux
2.4. Discussion
de recherche. Malgré tout, l’humain est bien présent à tous les niveaux
du processus : il sélectionne les données, il étiquète les cibles et polarités de l’opinion, il fournit de la connaissance qui sera prise en compte
par les algorithmes, il aide à valider la pertinence des algorithmes que
nous développons. Plus généralement, il aide à remettre en question tous
les niveaux du processus de fouille des données. C’est la raison pour laquelle j’utilise parfois l’expression d’analyse semi-automatique. Il est difficile d’envisager aujourd’hui un processus totalement automatique, de la
sélection des données à la validation des connaissances extraites. Mais, qui
sait, ce vieux rêve de l’Intelligence Artificielle dite forte sera peut-être un
jour atteignable.
2.4.1 Eclaircissements préalables et questions éthiques
L
a lecture de ce document nécessite quelques éclaircissements préalables. Tout d’abord, la question à laquelle je souhaite répondre, du
moins en partie, est bien de tester s’il est possible de capter des opinions,
des images, des représentations, à partir de traces (messages de forum,
commentaire de blog, tweet, etc.) laissées sur Internet. En d’autres termes :
Quel est le type de représentation qui circule sur le Web, sans prétendre
d’ailleurs à l’exhaustivité, en particulier via les médias sociaux ? Il n’est
pas question ici de faire des hypothèses hasardeuses sur la représentation que se ferait un individu ou un groupe d’individus. Bien sûr, il n’est
pas absurde de postuler que ces représentations émises par une source
aient une certaine influence sur la manière dont les individus perçoivent
tel événement ou tel homme politique. C’est d’ailleurs l’objet des travaux
sur l’influence des médias, comme ceux de McCombs et Shaw (1972) sur
les élections en Caroline du Nord, de Robinson et al. (2007) sur le comportement d’achat des enfants ou plus récemment de Lecomte (2012). Cependant, je laisse ce type de réflexion à des recherches futures qui devront
être menées en étroite collaboration avec des spécialistes en psychologie,
sociologie, sciences cognitives, communication, c’est-à-dire avec des spécialistes en SHS.
Ensuite, il convient de dire quelques mots sur les aspects éthiques liés
à ce type de travaux, aspects que l’on ne peut ignorer. Ils sont de deux
ordres. Tout d’abord, comprendre les mécanismes qui se cachent derrière
la diffusion et la circulation des représentations peut amener à croire qu’il
est possible d’agir sur ces médias pour influencer l’opinion publique, action prévue par le Social Media Monitoring. Un exemple consiste à poster
des messages ou à suivre des internautes (comme sur Twitter) dans un but
qui n’est pas celui de transmettre ou de communiquer, mais bien de manipuler le réseau pour gagner en visibilité et en influence (voir par exemple
les études sur les “capitalistes sociaux” de Dugué et Perez (2013)). Un
autre exemple consiste à envoyer de fausses informations, comme les fameux hoax envoyés sur nos boîtes aux lettres électroniques, afin de pousser les internautes à donner de l’argent ou à infecter leur ordinateur avec
un virus. Il semble important aujourd’hui de mettre en place des mécanismes pour se prémunir de ce type de comportement néfaste tout en
évitant l’excès inverse qui ne garantirait plus la liberté d’expression des citoyens. La solution résiderait-elle dans l’idée de sousveillance, permettant
31
Chapitre 2. Apport de la science des données aux SHS
32
un contrôle venant de la base et opposée à celle de surveillance (Ganascia
2010b) ?
Le deuxième aspect éthique qu’il faut évoquer concerne les questions
de sécurité des données personnelles et de préservation de la vie privée.
Que ce soit pour vendre un produit en utilisant la publicité ciblée, avec la
naissance du Social Media Marketing (Zarrella 2010), ou pour pousser les
citoyens à voter pour tel ou tel candidat (Graber 1997), les traces laissées
volontairement ou involontairement par les internautes peuvent être utilisées à différentes fins, bien éloignées d’un idéal de partage universel de
la connaissance. Les goûts et le profiling des internautes deviennent euxmêmes l’objet de négoce et les informations passent d’entreprise en entreprise. Cette question fait la une de l’actualité à l’occasion de scandales récurrents, comme celui du système PRISM de la NSA (source Panoptinet).
Tom’s Guide recense ainsi douze scandales impliquant le réseau phare
FaceBook. Dans ce contexte, il semble important que les concepteurs des
algorithmes de fouille de données soient, d’une part, informés des dérives
possibles liées à l’utilisation de ces algorithmes, et, d’autre part, impliqués
dans la diffusion à la fois des jeux de données constitués mais aussi desdits
algorithmes. Cela pose en particulier des problèmes techniques d’anonymisation des données, de telle sorte qu’il ne soit pas possible de revenir à
la source de l’information, surtout lorsque des intérêts privés sont en jeu.
Pour ce faire, une première démarche que peut entreprendre le data analyst consiste à se mettre en relation étroite avec la CNIL en France, comme
cela a été fait dans le cadre du projet ImagiWeb (cf. section 6.2). Une autre
démarche consiste à travailler en transparence avec les pouvoirs publics et
les entreprises afin de contrôler la manière dont sont utilisés les outils de
fouille de données et, le cas échéant pouvoir donner l’alerte.
Conclusion du chapitre
D
ans ce chapitre, j’ai détaillé deux problèmes qui semblent, à première
vue, être traités par des disciplines bien distinctes mais qui se révèlent
au contraire complémentaires. En effet, les outils développés pour fouiller
les données complexes constituent aujourd’hui un soutien indispensable
à l’analyse des nouveaux médias d’information, en particulier des représentations qu’ils véhiculent. J’ai également montré que les représentations
sont partout : dans l’image émise par les entités et diffusée par les médias,
dans la description des objets complexes et leur manipulation par des
machines, dans les sorties proposées par les algorithmes. Les chapitres
suivants concrétisent ces réflexions préliminaires selon trois axes d’étude :
l’analyse des thématiques et des opinions, l’analyse des discussions en
ligne et plus particulièrement la détection des rôles dans les communautés virtuelles, et enfin la construction du vocabulaire permettant de décrire
certains objets complexes dans un objectif de classification. Ces contributions techniques se concrétisent ensuite dans des projets appliqués, tel que
le projet ImagiWeb qui se situe parfaitement dans ce projet global d’analyse des représentations qui circulent sur les médias sociaux. Le dernier
chapitre est l’occasion de détailler plusieurs axes futurs de recherche pour
développer de nouveaux outils de fouille de donnés qui pourraient s’avérer déterminants dans l’étude des représentations, une fois bien sûr placés
entre les mains averties de spécialistes en SHS.
3
Analyse des thématiques et
des opinions
Sommaire
3.1
Extraction, nommage, évaluation des thématiques . . .
Eléments de bibliographie . . . . . . . . . . . .
Contributions . . . . . . . . . . . . . . . . . . .
3.2 Détection des thématiques et des opinions . .
3.2.1 Eléments de bibliographie . . . . . . . . . . . .
3.2.2 Contributions . . . . . . . . . . . . . . . . . . .
3.3 Détection et suivi des images d’opinion . . . .
3.3.1 Eléments de bibliographie . . . . . . . . . . . .
3.3.2 Contribution . . . . . . . . . . . . . . . . . . . .
Conclusion du chapitre . . . . . . . . . . . . . . . . . .
3.1.1
3.1.2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
35
35
38
42
42
45
53
53
54
62
D
ans ce chapitre, je présente les travaux réalisés sur l’analyse des thématiques et des opinions à travers plusieurs projets. La première
partie est consacrée aux problèmes d’extraction, d’évaluation et de nommage de thématiques extraites des textes de manière non supervisée. La
deuxième partie traite de la détection jointe des thématiques et des opinions, prenant en compte la dimension temporelle. La troisième partie est
consacrée à l’agrégation des opinions et la formation des images “de marque”. Ces travaux ont mobilisé plusieurs personnes et ont donné lieu à un
certain nombre de publications :
Thèse de Marian-Andréi Rizoiu : Stéphane Lallich (directeur). Thèse de
Mohamed Dermouche : Sabine Loudcher (directrice), Leila Khouas (encadrante entreprise, AMI Software). Post-doctorat de Young-Min Kim :
Stéphane Bonnevay (co-encadrant). Stage de Marian-Andréi Rizoiu :
Jean-Hugues Chauchat (co-encadrant). Stage de Claudiu Musat : Stefan
Trausan-Matu (co-encadrant).
Publications : 1 revue int. (Rizoiu et al. 2014), 5 conférences int. (Musat
et al. 2011a;b, Rizoiu et al. 2012, Dermouche et al. 2014, Kim et al. 2015),
1 workshop int. (Dermouche et al. 2013a), 3 conférences nat. (Rizoiu et al.
2010, Dermouche et al. 2013b; 2015), 1 chapitre d’ouvrage int. (Rizoiu et
Velcin 2011).
33
3.1. Extraction, nommage, évaluation des thématiques
3.1
Extraction, nommage, évaluation des thématiques
C
ette première partie regroupe les travaux centrés, pour l’essentiel, autour des thématiques que l’on peut extraire de manière non supervisée (approche ascendante) à partir d’un corpus de textes décrits dans
le formalisme vectoriel classique de Salton et al. (1975). Le couplage avec
les opinions et le traitement de leur dynamique seront étudiés dans les
parties suivantes.
3.1.1 Eléments de bibliographie
L
’apprentissage de thématiques (topic learning) est une tâche à la croisée
entre l’apprentissage automatique et le traitement automatique des
langues. L’objectif principal consiste à extraire de “quoi” parle un texte, ou
un extrait de texte, ce que l’on appelle la thématique. Définir la thématique
de manière précise n’est pas évident car elle peut être associée à un ou
plusieurs mots-clefs (« apprentissage », « catégorisation », « centroïdes »
pour une thématique autour du clustering), à des expressions (« intelligence artificielle », « fouille de données textuelles »), à des phrases, des
vecteurs ou des distributions entières sur un vocabulaire (cas de la distribution multinomiale des topic models), etc. Il peut s’agir de voir émerger
la thématique du sport à partir d’articles de presse ou la thématique de
la cuisine au barbecue à partir de recettes de cuisine. Cette problématique
regroupe également l’évaluation de la qualité des thématiques obtenues,
leur caractérisation (par exemple trouver le titre le plus adéquat) et leur
visualisation dans le cadre de logiciels de fouille de données. Je donne
ci-dessous quelques éléments d’état de l’art, recueillis dans le cadre des
thèses de M.A. Rizoiu et M. Dermouche.
Extraction des thématiques – L’extraction des thématiques à partir d’un
corpus de textes est, au départ, une tâche d’apprentissage automatique
non supervisé qui s’apparente à du clustering. Cette tâche a été abordée à
l’aide de différentes approches que l’on peut catégoriser en trois grandes
familles. Je laisse volontairement de côté les approches plus linguistiques,
telles que celles basées sur des graphes de termes (Lauf et al. 2012), pour
privilégier les approches statistiques que l’on trouve majoritairement dans
la littérature. La première approche consiste à adapter un algorithme classique basé sur des similarités ou dissimilarités entre textes afin de l’utiliser
sur des corpus représentés sous forme vectorielle. Il s’agit par exemple de
l’approche employée avec l’algorithme AGAPE, développé à la suite de
ma thèse (Velcin et Ganascia 2007), ou des travaux de Pons-Porrata et al.
(2003). Bien que l’algorithme n’y soit pas dédié, il est envisageable d’utiliser la variante floue des c-moyennes appelée FCM (pour Fuzzy C-Means)
proposée par Dunn (1973). Dans ce cas, la thématique est déduite à postériori des catégories de textes regroupés ensemble par ces techniques. Il
apparaît que cette famille d’approches ne semble pas réellement adaptée
à la tâche et que les deux qui suivent le sont bien d’avantage.
La deuxième approche consiste à avoir recours à des techniques de
factorisation de matrices issues de l’algèbre linéaire. En quelques mots, il
35
36
Chapitre 3. Analyse des thématiques et des opinions
s’agit de décomposer la matrice rectangulaire (documents, termes) en un
produit de deux matrices ou davantage. Il s’agit par exemple des techniques d’analyse factorielle consistant à trouver les axes qui expliquent au
mieux la variance observée dans les données. C’est le cas de l’algorithme
LSA (pour Latent Semantic Analysis) proposé par Deerwester et al. (1990)
qui se base sur une décomposition en vecteurs singuliers (SVD pour Singular Value Decomposition). L’un des défauts de cette approche, à savoir
extraire des axes difficilement interprétables car comportant des valeurs
négatives, a donné naissance à des algorithmes comme la factorisation
non négative (NMF pour Non negative Matrix Factorization) de Paatero et
Tapper (1994). Une autre approche, appelée apprentissage de dictionnaire,
adopte une idée similaire en travaillant sur la norme utilisée pour la régularisation de la fonction objectif comme dans Jenatton et al. (2010).
Enfin, la troisième approche, et probablement la plus populaire, est
celle basée sur des modèles graphiques probabilistes appelés topic models.
Le premier modèle, appelé pLSA (pour probabilistic Latent Semantic Analysis), a été proposé par Hofmann (1999). Le modèle LDA (pour Latente Dirichlet Allocation) proposé par Blei et al. (2003) permet de résoudre certaines
limitations de pLSA, en particulier proposer un modèle complètement génératif capable de faire de l’inférence sur de nouveaux textes. Ils seront
suivis d’un nombre impressionnant de modèles adoptant la même philosophie, c’est-à-dire modélisant le processus génératif supposé à l’aide d’un
modèle graphique puis estimant ses paramètres à l’aide de techniques
d’optimisation comme les méthodes de Monte-Carlo ou les approches variationnelles. Ces nombreux modèles permettent, par exemple, d’extraire
des hiérarchies de thématiques (Blei et al. 2010), des corrélations de thématiques (Lafferty et Blei 2005), des thématiques dans le temps (Wang et
McCallum 2006), etc.
Il est intéressant de signaler que des chercheurs ont mis en évidence des équivalences selon certaines conditions entre ces différentes
approches, par exemple entre NMF et le clustering spectral (Ding et al.
2005) ou entre NMF et pLSA (Gaussier et Goutte 2005).
Evaluation des thématiques – Bien que certains travaux tâchent de réconcilier les approches totalement non supervisées survolées dans la section précédente avec des informations supervisées comme dans le cas de
l’algorithme sLDA par exemple (Blei et McAuliffe 2010), l’esprit général
commun à ces approches est bien de faire émerger des thématiques de
“bas en haut” (approche bottom-up) en se basant principalement sur la cooccurence des termes dans le corpus de textes. Se pose alors la question
récurrente de l’évaluation de la qualité des thématiques extraites par les
algorithmes, qu’ils suivent une approche basée sur la similarité, une factorisation de matrices ou un modèle probabiliste. Une littérature extensive
existe sur le sujet dans le cas général (voir par exemple le passage en revue réalisé par Halkidi et al. (2002)), mais elle est plus rare dans le cas
de l’extraction des thématiques, ce qui rend difficiles la validation et la
comparaison des algorithmes.
Grossièrement, il existe deux manières d’évaluer les algorithmes : la
manière qualitative, qui consiste à utiliser le jugement humain, évidemment subjectif, afin de valider la qualité des thématiques, et la manière
3.1. Extraction, nommage, évaluation des thématiques
quantitative, qui consiste à employer des mesures statistiques. Le jugement humain, par exemple d’un expert du domaine étudié, peut se réaliser de différentes façons. On peut par exemple employer une approche
systématique basée sur un système comme le turc mécanique d’Amazon,
ce que font Chang et al. (2009). On peut plus prosaïquement présenter
le résultat des algorithmes et demander leur validation par l’utilisateur.
La caractérisation des thématiques, problème que j’évoque dans le paragraphe qui suit, constitue alors un véritable atout. La deuxième manière
consiste à utiliser des mesures statistiques, comme par exemple la perplexité qui évalue la vraisemblance du modèle sur des données qui n’ont
pas été utilisées en apprentissage (ce qui est fait par Blei et al. (2003)), ou
les mesures issues de la recherche d’information (précision, rappel, information mutuelle) qui se basent sur une catégorisation thématique donnée
à priori du corpus. Ces schémas d’évaluation sont bien sûr critiquables.
L’évaluation par le jugement humain est taxé de subjectivité et il est difficile à réaliser à grande échelle. L’évaluation purement automatique n’est
pas exempt de défauts : la vraisemblance permet surtout de comparer des
modèles d’une même famille entre eux, alors que l’objectivité supposée
de la vérité terrain qui résulte d’une catégorisation humaine est très discutable. Dans ce contexte, on comprend bien qu’il faut parfois avoir recours à
plusieurs types d’évaluation et qu’une évaluation qualitative s’avère souvent nécessaire pour convaincre l’utilisateur.
Caractérisation des thématiques – La nature des thématiques n’est pas
la même suivant que l’on utilise l’une ou l’autre des familles d’algorithmes
présentées plus haut. Par exemple, une approche à base de distance pourra
représenter une thématique comme un centroïde, vecteur décrit par le
poids des mots qui se trouvent au centre d’inertie d’un nuage de textes,
alors qu’une approche à base de modèles graphiques utilisera une distribution multinomiale sur le vocabulaire. On remarque qu’il existe bien une
analogie, qui sera d’ailleurs utilisée dans une contribution présentée plus
loin dans ce document, mais la nature même des objets est différente et il
convient de faire attention au mélange de ces représentations. Par contre,
il est à la fois autorisé et même important d’être en mesure de caractériser
les thématiques extraites par les algorithmes. Une première caractérisation, manuelle, est déjà réalisée dans une grande partie de la littérature où
la liste des mots-clefs les plus saillants pour une thématique est toujours
accompagnée d’un titre donné par le chercheur qui propose sa (nouvelle)
solution. Cette caractérisation peut consister en un ensemble de mots-clefs
éventuellement pondérés et triés par importance, en une expression, en
une phrase entière, en un concept issu d’une ontologie précise ou du Web
sémantique, etc.
Différents travaux ont été menés afin d’automatiser le processus de
caractérisation (on trouve également les termes étiquetage, nommage, titrage) des thématiques. Ont été utilisés des itemsets fréquents (Fung et al.
2003), des groupes de mots-clefs (Wartena et Brussee 2008), des concepts
(Hulpus et al. 2013). En particulier, Magatti et al. (2009) présentent un
travail remarquable afin de définir ce qu’est un bon nom pour une thématique et de proposer un ensemble de critères à employer pour le trouver.
Bien sûr, cette problématique devient d’autant plus utile qu’elle est un
37
Chapitre 3. Analyse des thématiques et des opinions
38
élément clef de la conception d’interfaces permettant de visualiser les thématiques extraites à partir d’un corpus.
Visualisation des thématiques – Cette dernière problématique liée à
l’apprentissage de thématiques est importante car elle entre pleinement
à la fois dans la validation et dans l’utilisation des algorithmes développés pour résumer de large corpus de textes. Elle est liée au mouvement
des visual analytics qui placent l’utilisateur au centre du système, ce qui fait
écho à la discussion entamée à la fin de la section 2.3 sur la place de l’être
humain dans le processus d’analyse. Quant à la visualisation des thématiques, elle est parfois utilisée à des fins de validation comme dans Termite
(Chuang et al. 2012), pour guider le processus de découverte des thématiques avec les Topicnets (Gretarsson et al. 2012) ou pour tracer l’évolution
des thématiques avec TopicTable (Gohr et al. 2010) ou TIARA (Wei et al.
2010). On peut noter des liens avec le clustering faiblement supervisé (voir
à ce sujet les travaux de Basu et al. (2004)) lorsqu’il s’agit de prendre en
compte des retours de la part de l’utilisateur. Je n’entre pas plus en détail
sur cette partie qui n’est pas au cœur de mes travaux.
3.1.2 Contributions
C
es dernières années passées au laboratoire ERIC, j’ai eu l’occasion de
travailler sur différents aspects de l’apprentissage de thématiques. Je
présente ci-dessous plusieurs contributions sur l’étiquetage automatique
et sur l’évaluation des thématiques. Ces travaux m’ont permis de me familiariser avec cette problématique mais également avec les fondements
théoriques de certaines méthodes employées dans la littérature, en particulier les modèles graphiques probabilistes.
Etiquetage des thématiques – Ce travail a été réalisé principalement à
l’occasion du stage de Master recherche de M.A. Rizoiu. Le système que
nous avons proposé aborde le problème de l’extraction des thématiques
en utilisant un algorithme de classification non supervisée avec recouvrement (Cleuziou 2007). Cela signifie que, contrairement à des approches où
un objet (un texte, par exemple) est associé à des degrés d’appartenance à
une catégorie (une thématique), ce qui est le cas pour la plupart des algorithmes cités dans la littérature (LDA, par exemple), un objet appartient
exactement à une ou plusieurs catégories. Cette approche a l’avantage de
résoudre le problème de l’affectation des objets aux catégories qui est posé
dans la plupart des modèles de thématiques. Une fois la catégorisation réalisée, notre système cherche à étiqueter les catégories ainsi extraites à l’aide
d’expressions fréquentes directement issues du corpus de textes, comme
« data mining » ou « cocoa stock buffer ». La technique employée s’inspire
de Osiński et al. (2004) et revient à associer à chaque thématique l’expression qui possède la similarité la plus forte avec le centroïde de la catégorie,
autrement dit le document moyen. Des expériences ont été menées sur un
extrait du corpus Reuters avec deux types d’évaluation. D’une part, nous
avons comparé les catégories obtenues en faisant varier différents types
de pondération (fréquence, TF-IDF. . . ) avec la vérité terrain constituée par
3.1. Extraction, nommage, évaluation des thématiques
les catégories affectées manuellement par les humains. Les résultats sur ce
(petit) jeu de données indiquent que la mesure basée sur la fréquence permet d’obtenir les catégories les plus proches de celles manuelles. D’autre
part, cinq humains ont évalué les noms extraits de manière qualitative
pour constater que ces derniers étaient souvent plus informatifs qu’une
liste de mots clefs. En particulier, la mesure de présence/absence de mots
conduit à un taux de satisfaction compris entre 65% et 90%. Ces travaux
ont conduit à une publication dans la conférence EGC (Rizoiu et al. 2010).
Ce système, nommé par la suite CKP (pour Cluster Key Phrases), a été intégré au logiciel d’analyse des forums CommentWatcher (voir section 6.1).
Evaluation des thématiques – Evaluer la qualité des thématiques extraites par les algorithmes automatiques est reconnu comme étant un problème difficile, ce qui n’a rien d’étonnant puisqu’il s’agit de l’implémentation du problème classique de classification non supervisée pour les données textuelles. Il a été montré dans le cas des modèles graphiques que
les mesures usuelles basées sur la vraisemblance calculée sur des données
de test (comme la mesure de perplexité) n’était pas toujours la meilleure
solution (Chang et al. 2009). Dans ce contexte, nous avons proposé deux
contributions.
La première contribution est le fruit d’une collaboration avec l’Université Polytechnique de Bucarest (UPB), en particulier à l’occasion du séjour
de C. Musat alors en thèse sous la direction de S. Trausan-Matu. L’idée
consistait à utiliser une base de connaissances lexicales afin de tester la cohérence interne des thématiques. Nous souhaitions vérifier si l’évaluation
qualitative réalisée dans les travaux de Chang et al. (2009) pouvait être
émulée par le passage à une base comme WordNet (Miller 1995) qui est
elle-même le fruit d’un travail de conceptualisation réalisé par des êtres
humains. Autrement dit, nous cherchions à mettre au point une mesure
automatique qui donne une valeur de cohérence importante à la thématique lorsque l’humain gagne au jeu de l’intrus, qui consiste à trouver
un mot qui n’appartient pas à une thématique parmi les mots clefs les
mieux notés, et qui donne une valeur faible lorsque celui-ci se trompe car
la thématique n’est pas très homogène. Pour ce faire, nous avons construit
des sous-arbres thématiques issus de la hiérarchies des concepts de WordNet, sous-arbres associés aux mots les mieux notés par la thématique.
Chaque thématique est alors associée au concept qui maximise un compromis entre la couverture du sous-arbre (sur les mots de la thématique)
et la spécificité du concept (pour qu’il ne soit pas trop général). Le score
de pertinence est ensuite utilisé pour quantifier l’homogénéité de la thématique et donc sa qualité. La figure 3.1 p.40 illustre le type de sous-arbre
sélectionné pour une thématique qui est ici décrite par ses cinq mots clefs
de poids le plus fort. On constate qu’on désambigüise correctement en sélectionnant au final l’acceptation « data mining » issue du domaine de la
gestion des connaissances. L’évaluation a été réalisée en demandant à 37
humains de juger de la qualité des thématiques extraites à l’aide de l’algorithme LDA sur deux jeux de données en anglais : un corpus sur le discours de l’union des présidents américains découpé en 6 427 paragraphes
et un corpus de 23 986 nouvelles économiques issus de l’Associated Press.
La tâche d’évaluation est la même que celle utilisée avec le turc mécanique
39
40
Chapitre 3. Analyse des thématiques et des opinions
Figure 3.1 – Illustration du type de sous-arbre extrait à l’aide de l’algorithme mettant
en correspondance une liste de mots-clefs et une hiérarchie de concepts (extrait de la thèse
de M.A. Rizoiu (2013c)).
dans l’article de Chang et al. (2009). Les résultats montrent que le taux de
détection par les humains s’améliore systématiquement lorsque les thématiques sont jugées pertinentes par notre mesure, avec un gain relatif
de 6,93% pour le corpus économique et 28,55% pour le corpus sur le discours de l’union. Cela n’a rien d’étonnant lorsqu’on rappelle que la base
de connaissance utilisée a elle-même été conçue manuellement pour correspondre à la manière dont les humains conçoivent les catégories. Il n’en
demeure pas moins que les paramètres de la mesure (p. ex. : le compromis entre les deux critères) ont été fixés manuellement et que les résultats
devront être plus amplement généralisés. Ces travaux ont conduit à une
publication aux conférences ISMIS (Musat et al. 2011a) et IJCAI (Musat
et al. 2011b).
La deuxième contribution a été réalisée dans le cadre de la thèse de
M. Dermouche, en collaboration avec S. Loudcher d’ERIC et L. Khouas de
l’entreprise AMI Software. Partant du constat que le format des thématiques extraites par différents types d’algorithme (LDA, NMF, etc.) présente des similitudes, l’idée était de réfléchir à un cadre général afin de
comparer leurs résultats de manière quantitative. La proposition se présente en deux parties : a) projeter les thématiques dans un même espace
vectoriel, que nous appelons l’espace latent, à l’aide de transformations,
b) évaluer la qualité des thématiques sur la base d’une mesure dérivée de
la log-vraisemblance. La projection est réalisée de manière très simple, par
exemple en normalisant les vecteurs obtenus par l’algorithme NMF pour
les rendre comparables. La mesure est alors calculée, non pas sur la base
de probabilité comme dans le cas usuel, mais sur la moyenne géométrique
des scores individuels des vecteurs issus des données textuelles. Suivant
l’hypothèse d’indépendance, le score individuel est calculé comme le produit sur chaque mot du vocabulaire. La normalisation est calculée sur la
double somme qui correspond au nombre total de termes dans la multipli-
3.1. Extraction, nommage, évaluation des thématiques
Figure 3.2 – Variation de la mesure VG en fonction du nombre de thématiques sur le
corpus AP (gauche) et Elections (droite) (extrait de Dermouche et al. (2013b)).
cation. Au final, on obtient la formule 3.1 de Vraisemblance Généralisée.


 ∑ log score(d) 
d∈ D
VG ( D ) = exp
(3.1)
 ∑ ∑ n(d, w) 
d ∈ D w ∈V
Des expériences ont été réalisées sur un corpus en anglais de l’Associated
Press (AP) comportant 2210 documents et un corpus de 2777 documents
hétérogènes (blogs, sites, réseaux sociaux) en français sur les élections de
2012 collectés par l’entreprise. Trois algorithmes, un de chaque famille
identifiée dans la section 3.1.1, ont été comparés et exécutés 5 fois pour
extraire les thématiques : LDA, NMF et FCM.
Les résultats numériques obtenus sont présentés dans la figure 3.2.
Celle-ci donne la valeur prise par la mesure pour un nombre k de thématiques qui varie entre 1 et 100. Les premières conclusions à tirer sont
que les algorithmes LDA et NMF obtiennent des scores comparables qui
augmentent avec le nombre de catégories. On peut aisément expliquer ce
type de comportement : un plus grand nombre de thématiques augmente
mécaniquement la proximité entre celles-ci et les documents proches, ce
qui accroît la valeur de la mesure. Il est intéressant de constater que, sur
ces données, LDA est systématiquement meilleur que NMF. Bien sûr, on
peut rappeler que NMF n’a pas, à proprement parler, été mis au point
pour réaliser cette seule tâche mais pour traiter tout type de données numériques non nulles. Ce résultat est probablement du à un biais qui dérive
du fait que la mesure que nous proposons est une traduction de la mesure
de vraisemblance optimisée par le modèle graphique. Ce point mériterait
d’être étudié plus en profondeur. D’un autre côté, FCM a un comportement très différent qui montre clairement que cet algorithme n’est, à la
base, pas prévu pour extraire des thématiques. La prise en compte du recouvrement avec un paramètre capturant le caractère flou des frontières
semble empirer la situation au fur et à mesure que k augmente. On peut
conjecturer que les documents sont associés à trop de catégories et que cela
pénalise fortement la mesure. Une étude plus approfondie des liens de
la mesure avec ce paramètre pourrait confirmer cette intuition, mais cela
41
Chapitre 3. Analyse des thématiques et des opinions
42
reste à faire. En complément, une étude qualitative de quelques-unes des
thématiques extraites par les trois approches confirme les qualités comparables des deux premières et une qualité bien inférieure pour la troisième.
Les résultats de ces travaux ont conduit à une publication à la conférence
EGC (Dermouche et al. 2013b).
3.2
Détection des thématiques et des opinions
D
ans cette seconde partie, j’introduis la question de l’analyse des opinions exprimées dans les textes. En particulier, je montre comment
nous l’avons mise en relation avec la notion de thématique telle qu’elle a
été traitée dans la partie précédente. Après un bref état de l’art, je présente deux contributions réalisées au sein de la thèse de M. Dermouche,
en collaboration avec l’entreprise AMI Software.
3.2.1 Eléments de bibliographie
D
ans la section précédente, j’ai présenté les travaux qui n’abordaient
que l’aspect thématique (le “quoi”) des textes rédigés en langue naturelle. Or, il est nécessaire d’aborder la question des opinions (le “comment”) si l’on souhaite capturer la manière dont les textes, par exemple
issus des médias sociaux, traitent l’information. Dans la littérature, on
trouve au moins deux expressions utilisées de manière quasi synonyme,
au moins dans le vocabulaire anglo-saxon : fouille d’opinion (opinion mining) et analyse de sentiments (sentiment analysis). Je découpe ce survol
de l’état de l’art en deux parties. La première partie décrit la tâche telle
qu’elle est définie de façon assez classique aujourd’hui et qui revient à un
problème de classification automatique dans des catégories préétablies. La
deuxième partie s’attache à détailler les approches cherchant à relier les
opinions à leurs cibles.
Analyse des opinions – L’opinion est une composante de la pensée humaine qui peut être définie comme un point de vue ou une prise de position par rapport à un objet, un service, une idée, un événement, etc.
Wiebe et al. (2005) la définissent comme un état privé qui ne peut pas être
directement observé et qui va au-delà de la définition précédente pour exprimer des émotions, des spéculations, etc. Cet état peut se décliner selon
de nombreux modes (jugement, avis, évaluation. . . voir à ce sujet Boullier
et al. (2012)), voire englober la question des émotions (peur, joie, doute,
etc.).
Je n’aborderai ici l’opinion qu’au sens d’une inclination positive (j’aime
ce film, je soutiens cet homme politique) ou négative (je suis déçu de la
vitesse de cette imprimante, j’ai une vision négative des actions de cette
entreprise). Cela restreint considérablement le champ d’étude mais représente déjà un défi important à relever pour l’analyse automatique. Au travers d’Internet et des médias sociaux, les individus expriment donc leur
opinion et ils contribuent ainsi à l’accumulation d’une masse importante
de données hautement subjectives. Il existe un fort enjeu lié à l’analyse
efficace de cette masse pour capturer l’humeur d’une partie de l’opinion
3.2. Détection des thématiques et des opinions
publique, sujet qui a été abordé dans le chapitre 1. Des méthodes originales ont été proposées dans la littérature pour résumer ainsi l’opinion
au sujet de films, d’hôtels, de restaurants, de voyages, de produits (Pang
et al. 2002, Blitzer et al. 2007). Asur et Huberman (2010) ont eux essayé de
prédire, grâce aux opinions, le résultat obtenu par les films au box office.
Dans le domaine de la politique, des auteurs ont cherché à prédire le résultat d’élections, avec plus ou moins de succès (Kim et Hovy 2007). Boullier
et al. (2012) donnent un bon aperçu des nombreux champs d’application
rendus possibles par l’analyse des sentiments et des opinions.
Si l’on restreint l’analyse d’opinion à un problème de classification,
c’est-à-dire prédire l’orientation d’un texte (objectif vs. subjectif, ou positif
vs. négatif) à partir des mots qui sont employés, il existe trois grands types
de méthode (voir à ce sujet l’importante revue réalisée par Liu (2012)).
La première approche consiste à utiliser des algorithmes d’apprentissage automatique supervisé, tels que le classifieur bayésien naïf (NB pour
Naive Bayes) ou les machines à vecteur support (SVM pour Support Vector
Machines). La difficulté réside alors dans la bonne sélection ou construction
des attributs (features) qui sont utilisés pour décrire les textes et les classifier. Pour la classification binaire positif vs. négatif, Pang et al. (2002) ont
ainsi obtenu des résultats de l’ordre de 82% de réussite avec un SVM utilisant une pondération binaire (présence/absence de mots) sur des textes
jugeant la qualité des films (movie reviews). La prise en compte de la nature
grammaticale des mots (POS pour Part-Of-Speech), c’est-à-dire s’il s’agit
d’un nom, d’un verbe, d’un adjectif. . . est clairement un atout dans la
réussite de la tâche de classification. Certains comme Esuli et Sebastiani
(2005) font appel à des bases de connaissances lexicales pour améliorer
les résultats de la classification. Le désavantage de ce type de méthode est
qu’elle requiert de vastes corpus de données annotées, tels que le MultiDomain Sentiment dataset (Blitzer et al. 2007) ou plus récemment ceux fournis dans le cadre de la compétition SemEval (Nakov et al. 2013).
La deuxième approche, parfois qualifiée de sémantique ou linguistique, est basée sur des ensembles de règles (Brun 2011). Les règles d’analyse des phrases sont construites à la main pour prendre en compte toutes
les subtilités de la langue concernée : négation, co-références, ironie, etc.
Elles ont été utilisées pour capturer le sentiment exprimé au sujet de produits et, plus récemment, sur les couples (produit, attribut). Kennedy et
Inkpen (2006), par exemple, ont réussi à améliorer les résultats obtenus
avec un SVM pour atteindre une F-Mesure d’environ 85%, notamment en
prenant en compte des phénomènes comme la négation ou certains modificateurs (« very », « deeply », « rather »). Ces méthodes ont l’avantage
de ne pas nécessiter de corpus annoté et de pouvoir prendre en compte
des notions subtiles liées au langage, mais elles sont très dépendantes du
contexte (domaine d’application, langue) et coûteuses à mettre en place.
Ces dernières années, des approches hybrides sont développées afin, précisément, de résoudre les inconvénients des approches purement linguistiques (Jin et al. 2009).
Enfin, la troisième approche consiste à estimer la polarité positive ou
négative des mots, puis à utiliser ce lexique pour prédire la polarité des
textes. La méthode employée consiste typiquement à partir d’un lexique
préétabli de mots déjà classés dans les catégories ‘positif’ et ‘négatif’. Il
43
44
Chapitre 3. Analyse des thématiques et des opinions
s’agit ensuite de lier les autres mots du vocabulaire entre eux et à ce
lexique, avant d’utiliser une technique issue de l’apprentissage non supervisé pour distinguer les deux groupes d’opinion. Hatzivassiloglou et
McKeown (1997), par exemple, construisent un graphe de termes reliés
en fonction de leur relation dans les textes et font appel à un algorithme
de clustering de graphe pour faire émerger une catégorie étiquetée ‘positive’ et une catégorie étiquetée ‘négative’. Turney et Littman (2003) partent
d’une liste racine (seed list) de 14 mots positifs et négatifs à priori (comme
« good », « nice ». . . et « bad », « nasty ». . . ) puis ils calculent des similarités entre les mots à l’aide de mesures comme l’information mutuelle
(PMI pour Point-wise Mutual Information) et une mesure dérivée du modèle
LSA (Latent Semantic Analysis, évoqué dans la section 3.1.1). Kamps et al.
(2004), quant à eux, utilisent l’information sur les adjectifs dans WordNet
pour calculer cette similarité. Le principal inconvénient de ce type d’approche est que la polarité des mots est souvent contextuelle et nécessite
donc d’être adaptée au domaine de l’application visée. Cela ne résout bien
sûr pas des problèmes subtils comme celui de l’humour ou de l’ironie. Je
présente justement dans la suite de ce document une contribution que
nous avons réalisée sur une méthode hybride de classification supervisée
utilisant des lexiques à priori de mots d’opinion.
Analyse jointe des opinions et des thématiques – L’analyse des thématiques et des opinions a longtemps été traitée de manière séparée. Cependant, il semble naturel de ne pas se restreindre à une opinion générale,
mais plutôt de trouver sur quoi porte l’opinion. Il peut s’agir de l’objet luimême (mettons un film ou un événement) ou d’un attribut de cet objet (le
scénario du film ou la vitesse d’une imprimante). On parle alors d’analyse
d’opinion orientée thématique ou aspect (topic-based ou aspect-based opinion mining). Ainsi, les premiers travaux de ce type ont concerné l’analyse
de messages où les internautes évaluent des produits (Hu et Liu 2004).
L’analyse fine des revues permet de comprendre que l’opinion est plutôt
positive sur tel aspect du produit (par exemple la vitesse d’impression
d’une imprimante) mais négative sur tel autre aspect (par exemple son
prix). Il existe deux manières de procéder : sérier le processus (extraire
les aspects ou thématiques, puis calculer les opinions afférentes) ou extraire les couples thématique-opinion de manière simultanée. Je découpe
ma présentation de quelques-unes des méthodes de la littérature selon ces
deux approches.
Hu et Liu (2004) se placent parmi les travaux pionniers qui ont adopté
l’approche qui consiste à évaluer l’opinion relative à un certain nombre
de caractéristiques fixées à l’avance. Ils ont construit des résumés à partir d’expressions fréquemment utilisées par les internautes (par exemple,
« battery life » ou « picture quality ») qu’ils ont étiquetées par une opinion
calculée à partir d’une liste racine (seed list) et d’une mesure de similarité
sémantique issue de WordNet. On peut également citer le système PULSE
proposé par Gamon et al. (2005). Ce système extrait les caractéristiques associées à des voitures à partir d’une base de connaissances puis il adopte
une approche de classification semi-supervisée afin d’estimer l’opinion attachée à ces caractéristiques. Le système OPINE proposé par Popescu et al.
(2005), quant à lui, identifie des groupes nominaux à l’aide de techniques à
3.2. Détection des thématiques et des opinions
base de règles issues du TAL et de WordNet, puis adoptent une approche
similaire à celle de Hu et Liu (2004). De nombreux autres travaux ont
cherché depuis à extraire des opinions orientées aspects ou thématiques
(Popescu et Etzioni 2007, Kobayashi et al. 2007, Stoyanov et Cardie 2008).
Les approches citées précédemment ne tirent aucunement partie de la
relation qui peut exister entre thématiques et opinions. Ainsi, les thématiques extraites peuvent justement profiter de la structure des opinions, en
particulier de ses contrastes. D’autre part, l’accumulation de techniques
de traitement automatique des textes peut ne pas s’avérer complètement
satisfaisante. Ainsi, la deuxième approche consiste-t-elle à développer des
modèles permettant d’extraire les deux simultanément. C’est le cas du modèle probabiliste TSM (pour Topic Sentiment Mixture) qui étend le modèle
pLSA en ajoutant une nouvelle couche afin de capturer l’opinion (Mei
et al. 2007). En particulier, les auteurs ajoutent deux variables aléatoires
pour générer les mots positifs et négatifs dans les textes. Ce modèle souffre
des mêmes limitations que pLSA, en particulier le problème de l’inférence
sur de nouveaux documents et le danger de sur-apprentissage. Le modèle JST (pour Joint Sentiment Topic model) proposé par Lin et al. (2012) se
base plutôt sur LDA pour traiter les opinions en ajoutant une couche avant
celle thématique. Ainsi, lorsqu’un mot est généré par le modèle, l’étiquette
d’opinion est d’abord tirée avant de générer le mot à partir de celle-ci. Le
modèle a été étendu par les mêmes auteurs avec Reverse-JST qui échange
les couches d’opinion et de thématiques, puis avec Dynamic-JST par He
et al. (2013) afin de prendre en compte la dimension temporelle. Plusieurs
autres modèles ont été proposés dans la littérature (Li et al. 2010; 2013),
mais la plupart ne prennent pas en compte la dimension temporelle. En
particulier, le modèle ASUM de Jo et Oh (2011) est remarquable car il
cherche à distinguer les opinions au niveau de la phrase. Il sera utilisé
dans nos expériences, comme le modèle JST, pour comparer les performances de notre modèle.
3.2.2 Contributions
J
e décris ci-dessous deux contributions que nous avons pu réaliser dans
le cadre de la thèse de M. Dermouche sur la problématique de l’analyse
d’opinion. L’analyse jointe des thématiques et des opinions fait le lien avec
la section précédente, et la prise en compte de la dimension temporelle
avec la section qui suit.
Approche hybride pour la classification d’opinion – La première contribution consiste à étendre le classifieur bayésien naïf (NB pour Naive Bayes)
en prenant une connaissance à priori sur les mots. Le choix de ce classifieur, alors que d’autres obtiennent déjà de bons résultats pour cette tâche
(par exemple le SVM), a été dicté par des considérations pragmatiques
(simplicité et rapidité d’implémentation, intégration dans la solution de
l’entreprise) mais également par le fait qu’il s’agit d’une méthode largement utilisée dans la littérature qui a prouvé ses bonnes performances
à de nombreuses reprises. Pour une étude théorique des raisons qui expliquent ces « superbes » performances, j’invite le lecteur à aller voir le
travail de Zhang (2004). L’idée principale consiste ici à rééquilibrer le score
45
Chapitre 3. Analyse des thématiques et des opinions
46
p(w/c) attribué au mot w pour la classe c (par exemple positif, neutre ou
négatif). Pour ce faire, nous avons proposé deux heuristiques basées sur
l’intégration d’une liste racine (seed list). Je fais remarquer que l’heuristique que nous envisageons pour fixer automatiquement le paramètre γ
(cf. section 7.2) suit la même logique.
La première heuristique, intitulée “add and remove” consiste à rajouter
artificiellement des occurrences du mot w dans la classe indiquée dans la
liste racine, et à en supprimer dans les autres classes. Ainsi, si le mot
« excellent » est considéré comme positif à priori, on augmente le score
basé sur p(w/c+) et on diminue les autres. Cela revient à calculer le score
de w pour la classe c de la manière suivante :
1
× [nb(w, c) + αc .scorec (w).nb(w̄, c) − β c .scorec̄ (w).nb(w, c)]
nb(c)
(3.2)
où nb(c) compte le nombre de textes attribués à la classe c, nb(w, c) (resp.
nb(w̄, c)) compte le nombre d’occurrence de w (resp. l’absence de w) dans
les documents de la classe c, scorec (w) (resp. scorec̄ (w)) le score attribué
par la liste racine (1 si le mot appartient à la classe c, resp. c̄, 0 sinon) et
αc , β c deux paramètres réels positifs compris entre 0 et 1.
La deuxième heuristique, intitulée “transfer”, consiste cette fois à
transférer des occurrences d’un mot w d’une classe vers une autre. Cette
deuxième approche garantit que le nombre d’occurrences transférées ne
pourra pas être plus grand que l’effectif total de ce mot dans la classe d’origine et que le score est borné par 1. Le nombre maximum d’occurrences
à transférer max (w, c) étant égal à min{nb(w, c̄), nb(w̄, c)}, on définit le
score s(w, c) de la manière suivante :
s(w, c) =
1
× [nb(w, c) + αc .scorec (w).max (w, c) − αc .scorec̄ (w).max (w, c̄)]
nb(c)
(3.3)
On constate que, contrairement à la méthode précédente, le nombre d’occurrences ajoutées à la classe indiquée par le lexique est égale au nombre
supprimé de l’autre classe.
La classification se fait de la même manière que pour NB en attribuant
finalement la classe qui maximise le score. La liste racine d’opinion en
anglais est celle de Ding et al. (2008) enrichie avec des mots du langage
informel (smileys, abréviations, etc.) collectés sur Urban Dictionary, ce qui
conduit à un lexique composé de 7720 mots (2475 positifs pour 5245 négatifs). La liste racine d’opinion en français a été réalisée manuellement en
annotant 3927 mots (2697 positifs pour 1230 négatifs). Les performances
de ces deux heuristiques ont été testées sur plusieurs corpus : Motive Reviews (MR) composé de 2000 critiques de film en anglais (Pang et Lee
2004), SemEval composé de 14 217 tweets en anglais et Critiques composé
de 5034 critiques de films, livres et hôtels en français (Vincent et Winterstein 2013). Le prétraitement a consisté à supprimer les mots outils et à se
ramener à la racine des mots (stemming). Les deux heuristiques que nous
proposons ont été comparées à NB et à un SVM avec un noyau linéaire
(SVM-L) et polynomial (SVM-P).
Le résultat de réussite dans le cas binaire (positif vs. négatif) est donné
dans la figure 3.3 p.47. Les (méta-)paramètres de nos deux approches, αc et
s(w, c) =
3.2. Détection des thématiques et des opinions
Approche
NB
SVM-L
SVM-P
Add & Remove
Transfer
MR
73,06%
74,56%
84,64%
80,57%
75,53%
TW
74,07%
49,79%
49,74%
76,05%
76,00%
47
Critiques
75,88%
79,89%
86,67%
86,58%
80,01%
Figure 3.3 – Scores de succès pour la classification des opinions (positif vs. négatif).
β c , ont été optimisés manuellement afin d’obtenir les meilleurs résultats.
Bien que ceux-ci influencent nécessairement le résultat et dépendent du
jeu de données, une étude plus approfondie semble indiquer que cette influence reste minime. Trouver automatiquement les paramètres les plus indiqués est une perspective de nos travaux. Il faut noter que le deuxième jeu
de données a été acquis à l’occasion de la campagne SemEval 2013, compétition où notre algorithme s’est classé 6ème sur 35 participants pour la
tâche 2B, alors que les étiquettes réelles nous étaient inconnues. Ces résultats ont donné lieu à une publication dans l’atelier international consacré
à cette campagne d’évaluation (Dermouche et al. 2013a). L’article donne
des résultats sur le jeu de données SMS, sur le cas à trois classes (incluant
la polarité neutre) et étudie l’influence des paramètres. Le système a été
amélioré depuis (notamment sur la sélection des attributs et la prise en
compte de la négation), et il a participé à la nouvelle campagne SemEval
de 2014. Cela a permis d’atteindre une performance de 70,09% de bonne
classification pour trois polarités sur le même jeu de tweets qu’en 2013
et un score de 66,55% pour le nouveau jeu de données fourni en 2014 ;
notre système s’est classé 12ème sur 46 participants. Pour information, la
moyenne obtenue par l’ensemble des participants est de 60,57% et le gagnant a atteint 70,96% de bonne classification.
Extraction jointe des thématiques et des opinions dans le temps – Dans
cette contribution, nous cherchons à construire un modèle génératif qui
prend en compte à la fois les thématiques et les opinions, tout en cherchant
à estimer l’évolution de ces couples dans le temps. Dans la littérature, la
plupart des modèles existants ne prennent pas en compte cette dimension temporelle. Vis-à-vis des rares approches existantes, nous adoptons
une démarche différente dans le sens où nous cherchons à estimer de
manière rétrospective comment le volume des couples (thématique, opinion) évolue. Cette manière de traiter la dimension temporelle est similaire
à un modèle d’évolution des thématiques comme TOT (pour Topic Over
Time) proposé par Wang et McCallum (2006). L’objectif est d’extraire pour
chaque thématique un versant positif et un versant négatif, puis de pouvoir observer leur évolution relative dans le temps, en terme du volume
de documents concernés. A notre connaissance, cette manière de procéder
n’a pas d’équivalent dans les autres travaux existants.
Nous proposons de décrire un modèle probabiliste génératif appelé
TTS pour Time-aware Topic-Sentiment model. Les notations nécessaires pour
comprendre les explications qui vont suivre ont été regroupées dans le tableau de la figure 3.4 p.48. Le modèle probabiliste TTS est donné à droite
48
Chapitre 3. Analyse des thématiques et des opinions
Figure 3.4 – Notations pour le modèle Time-aware Topic-Sentiment (extrait de Dermouche et al. (2014)).
3.2. Détection des thématiques et des opinions
Figure 3.5 – Modèles graphiques : LDA (a) et TTS (b) (extrait de Dermouche et al.
(2014)).
de la figure 3.5 à côté du modèle LDA de Blei et al. (2003) dont il s’inspire.
Les caractéristiques du modèle TTS se résument en quatre points. Premièrement, le temps est modélisé conjointement pour les thématiques et les
opinions, avec l’objectif de fournir une analyse quantitative de leur évolution. Deuxièmement, les opinions sont extraites pour tout le corpus à la
fois et non pour chaque document pris séparément. Cela permet une visualisation globale des associations thématiques-opinions. Troisièmement,
aucun post-traitement n’est nécessaire pour faire correspondre les thématiques similaires aux différentes polarités de l’opinion. Quatrièmement,
il faut rappeler que, contrairement aux approches supervisées présentées
dans la section précédente, les étiquettes correspondant à des polarités
d’opinion ne sont pas connues. Ainsi, seules les co-occurrences statistiques
avec des mots positifs et négatifs provenant d’un lexique donné à priori
sont utilisées (principe de l’amorçage ou bootstrap).
Le processus génératif du modèle TTS est le suivant :
1. Tirer T × S multinomiales φz,s ∼ Dir ( β).
2. Tirer T × S multinomiales ψz,s ∼ Dir (µ).
3. Tirer T multinomiales πz ∼ Dir (γ).
4. Pour chaque document d, tirer une multinomiale θd ∼ Dir (α), puis
pour chaque mot wi dans d :
(a) Tirer une thématique zi ∼ θd .
(b) Tirer une polarité d’opinion si ∼ πzi .
(c) Tirer un mot wi ∼ φzi ,si .
(d) Tirer une étiquette de temps ti ∼ ψzi ,si .
où Dir est la distribution de Dirichlet, généralisation de la Béta appartenant à la famille des distributions exponentielles. Soulignons que la polarité d’opinion s est bien dépendante de la thématique, et non le contraire
comme c’est le cas pour certains modèles. Autre fait qui peut paraître curieux à première vue : une étiquette temporelle est générée pour chaque
mot et, ainsi, un texte pourrait comporter des mots aux étiquettes différentes. Dans la pratique cette difficulté est gommée puisque, le processus
génératif étant une vue de l’esprit, on considère que l’on observe bien une
même étiquette temporelle pour un même document avant d’inférer nos
variables latentes que sont les thématiques et les opinions. Une démarche
49
Chapitre 3. Analyse des thématiques et des opinions
50
similaire a d’ailleurs été adoptée par Wang et McCallum (2006) pour le
modèle TOT qui a servi d’inspiration à TTS. Enfin, nous avons remarqué
qu’il était nécessaire de corriger l’influence de la variable temporelle en
utilisant une stratégie utilisée dans le domaine de la reconnaissance vocale : un hyperparamètre est introduit sous la forme d’un coefficient n1d
pour pondérer les contributions issues des deux modalités (le temps et les
mots). Ce paramètre est introduit dans le calcul des probabilités à postériori de l’équation 3.7.
Une fois le modèle établi, la principale difficulté consiste à estimer
les paramètres du modèle TTS à partir des observations réalisées sur un
corpus de documents. Pour cela, nous adoptons une méthode de MonteCarlo appelée Gibb’s sampling (échantillonnage de Gibb’s) qui est largement utilisée dans la littérature pour estimer les paramètres des modèles
probabilistes. L’un des défauts de cette méthode est un temps de calcul
qui peut s’avérer long, mais cela n’est pas un vrai problème dans notre
cas puisque nous travaillons de manière rétrospective et non en temps
réel. Je ne présente ci-dessous que les principales formules et j’invite le
lecteur à se référer à Dermouche et al. (2014) s’il souhaite trouver le détail
des calculs.
Tout d’abord, en utilisant les règles de simplification permises grâce
aux probabilités conditionnelles, on peut factoriser la probabilité jointe de
la manière suivante :
p(w, t, s, z/α, β, γ, µ) = p(w/s, z, β).p(t/s, z, µ).p(s/z, γ).p(z/α)
(3.4)
Le premier facteur est calculé en intégrant par rapport à φ et en utilisant
le fait que la distribution de Dirichlet est conjuguée à la multinomiale, ce
qui conduit à la formule suivante :
∏i Γ(ni,j,k + β)
Γ(V.β) T.S
p(w/s, z, β) =
(3.5)
∏
∏
V
Γ( β)
Γ(n j,k + V.β)
j
k
où Γ est la fonction Gamma. Les indices i, j, k et h sont utilisés pour
itérer sur les mots, les thématiques, les opinions et les étiquettes de temps.
Les autres facteurs de l’équation 3.4 sont calculés de manière similaire.
La distribution à postériori recherchée est estimée en échantillonnant les
variables z et s en considérant que l’on connaît toutes les autres variables.
Si l’on pose − p comme désignant toutes les données à l’exclusion du mot
situé à la position p du document courant d, celle-ci peut être estimée à
partir de la distribution jointe comme suit :
p(z p = j, s p = k/w, t, s− p , z− p , α, β, γ, µ)
−p
−p
∝
nd,j + α j
−p
nd,j + ∑ j0 α j0
×
nw p ,j,k + β
−p
n j,k + V.β
−p
−p
×
n j,k + γk
−p
nj
+ ∑ k 0 γk 0
L’introduction de l’hyperparamètre de pondération
teur conduit à l’équation suivante :
n j,k,t p + µ
×
1
nd
(3.6)
−p
n j,k + I.µ
sur le dernier fac-
p(z p = j, s p = k/w, t, s− p , z− p , α, β, γ, µ)
−p
−p
∝
nd,j + α j
−p
nd,j + ∑ j0 α j0
×
nw p ,j,k + β
−p
n j,k + V.β
−p
×
n j,k + γk
−p
nj
+ ∑ k 0 γk 0

×
−p
 n1
−p

n j,k,t p + µ
n j,k + I.µ
d
(3.7)
3.2. Détection des thématiques et des opinions
51
Les échantillons obtenus sont ensuite utilisés pour estimer les distributions φ, θ et ψ comme suit :
ni,j,k + β
n j,k + V.β
n j,k + γk
=
n j + ∑ k 0 γk 0
φj,k,i =
π j,k
nd,j + α j
n d + ∑ j0 α j0
n j,k,h + µ
ψj,k,h
n j,k + I.µ
θd,j
(3.8)
Comme nous nous plaçons dans un cadre d’apprentissage automatique peu supervisé, puisque l’on ne prend en compte que l’étiquette temporelle et un lexique à priori d’opinions, l’évaluation de notre modèle est
rendue plus difficile que dans la contribution précédente sur la classification supervisée d’opinion. Suivant une démarche largement adoptée dans
la littérature, nous avons choisi de procéder en deux étapes.
La première étape consiste à réaliser une analyse comparative de notre
modèle avec deux autres modèles de la littérature sur la base de critères
quantitatifs. Les modèles choisis ont été brièvement présentés plus tôt
dans le document ; il s’agit des modèles JST (Lin et al. 2012) et ASUM
(Jo et Oh 2011). Pour calculer nos critères, nous avons choisi un jeu de
données issu de la littérature appelé MDS (pour Multi-Domain Sentiment
dataset, voir Blitzer et al. (2007)). Ce jeu de données consiste en une collection de revues sur des produits vendus sur Amazon de 1996 à 2007, de
laquelle nous avons extrait 29 379 messages décrits par un total de 43 834
mots. L’avantage est qu’il nous permet d’avoir une forme de vérité terrain puisqu’il fournit, en plus des textes et des étiquettes temporelles, une
classification thématique (des produits, comme les books ou les toys and
games) et une classification suivant deux polarités d’opinion (négatif et
positif). L’association entre les thématiques et les opinions, ainsi que leur
variation dans le temps, peut ainsi être extraite à postériori, avant d’être
comparée aux sorties calculées sur la base des trois modèles. Il s’agit d’une
comparaison entre distributions qui peut se baser sur la calcul d’une distance de Kullback-Leibner (Kullback 1987). Deux critères à minimiser sont
proposés : Qs calcule la pertinence statique de l’association thématiquessentiments, alors que Qt est dédiée à la pertinence prenant en compte
l’évolution temporelle de cette association.
La figure 3.6 p.52 montre le résultat obtenu sur ces deux mesures après
500 itérations de l’algorithme d’échantillonnage de Gibb’s. Les scores sont
γ
indiqués en fonction du ratio γneg.
qui représente la proportion comparée
pos.
d’à priori sur la quantité de textes étiquetés négativement et positivement.
Nos expériences ont montré que les résultats étaient peu sensibles aux
autres hyper-paramètres, tels que α, β ou µ, ici fixés respectivement à 50
T,
0,07 et 0,01 en suivant la littérature. On constate sur ces résultats que
le modèle TTS n’est pas aussi efficace que d’autres modèles pour extraire
l’association entre les thématiques et les opinions, mais qu’il permet en général de mieux capturer l’évolution temporelle, ce pourquoi nous l’avons
conçu. Dans cette optique, il est important de donner un poids à priori
plus important à la polarité négative que positive grâce à γ. Une étude
plus poussée de l’influence de ce paramètre nous a permis de proposer récemment une heuristique pour calculer automatiquement sa valeur pour
différents jeux de données. Il faut préciser de plus que le modèle TTS extrait explicitement la relation de chaque thématique avec les deux polarités
52
Chapitre 3. Analyse des thématiques et des opinions
Figure 3.6 – Résultats comparatifs avec les mesures Qs et Qt sur le corpus MDS (extrait
de Dermouche et al. (2014)).
qui peuvent être interprétées comme deux manières opposées de percevoir la thématique. Il s’agit à nos yeux d’un avantage supplémentaire de
TTS sur les autres modèles de la littérature.
La deuxième étape du processus d’évaluation consiste à réaliser une
analyse qualitative des résultats obtenus sur un autre cas d’étude. Il s’agit
à présent de tester notre modèle sur un jeu de données constitué d’articles
de presse relatifs à l’affaire D. Strauss-Kahn durant le mois de mai 2011.
Une chronologie de l’affaire est disponible sur le site de NBC New York et
le jeu de données, provenant de différentes agences de presse en anglais
(Reuters, Forbes, Sify, etc.), a été mis en ligne sur le site de l’UCI. Le jeu
de données est constitué de 10 421 titres décrits avec un vocabulaire de
51 188 mots, récupérés par le système d’AMI Software du 17 au 26 mai
2011. Les hyper-paramètres ont été fixés avec les mêmes valeurs que dans
le cas précédent. Pour faciliter l’analyse des résultats, nous avons estimé
le nombre de documents attribués à chaque couple (thématique, opinion)
afin de pouvoir mieux visualiser l’évolution du volume dans le temps, ce
que l’on peut interpréter comme l’intérêt porté à chaque aspect de l’affaire.
La figure 3.7 p.53 présente l’évolution de quatre des vingt thématiques
extraites par l’algorithme. Par exemple, la thématique z7 fait référence à
l’enquête qui a été réalisée pour juger de la crédibilité des accusations
portées contre D. Strauss-Kahn. On constate une augmentation de l’intérêt
portée à cette thématique au moment du début des investigations (19 mai)
puis au moment où les résultats du test ADN ont été communiquées et
diffusées par la presse (24 mai). Pour une discussion plus poussée, j’invite
le lecteur à lire l’article publié sur le modèle TTS (Dermouche et al. 2014).
3.3. Détection et suivi des images d’opinion
Figure 3.7 – Résultats obtenus pour 4 thématiques extraites par le modèle TTS sur
l’affaire D. Strauss-Kahn.
3.3
Détection et suivi des images d’opinion
D
ans cette dernière partie, je mets un peu de côté la nature textuelle
des données d’opinion afin de me concentrer sur le suivi de l’image
d’entités (par exemple des pays ou des hommes politiques) dans le temps.
L’image est vue ici comme une description typique d’une somme d’objets particuliers, calculée avec un algorithme de classification automatique peu supervisé. Ces travaux ont été initiés dans le contexte du projet
ANR ImagiWeb qui sera présenté plus en détail dans le chapitre 6. Après
avoir donné quelques éléments de bibliographie, je présente une première
contribution qui consiste à réaliser une classification d’entités dont la description évolue dans le temps. Ces travaux ont ensuite été étendus afin de
traiter les données lacunaires issues des données du projet ImagiWeb. Je
termine le chapitre en donnant les tout premiers résultats de cette seconde
approche qui permet d’extraire des catégories homogènes que l’on peut
qualifier d’images de marque ou d’images d’opinion.
3.3.1 Eléments de bibliographie
L
es travaux présentés dans la suite de ce document font référence à la
problématique de l’apprentissage de modèles non ou peu supervisés
capables de prendre en compte la dimension temporelle. Les approches les
plus anciennes sont certainement celles basées sur des mesures de comparaison (distance, similarité) et inspirées d’algorithmes comme celui des
K-Moyennes. Il s’agit par exemple de CluStream de Aggarwal et al. (2003)
qui traite d’un flux de données avec un système en deux passes : une passe
en ligne résume les données au fur et à mesure à l’aide de micro-clusters
et une passe hors ligne applique la catégorisation sur ces nouveaux objets. Plus récemment, Labroche (2014) adopte une approche floue afin de
mieux traiter le recouvrement des clusters et les données aberrantes (outliers) dans le cadre d’une classification en ligne. A contrario, les approches
classées sous l’appellation de clustering évolutionnaire (evolutionary clustering) ne cherchent pas à traiter les données en ligne mais à prendre en
compte le temps de manière rétrospective. Des modèles conçus dans la
lignée des modèles de thématiques (cf. section 3.1) peuvent être ainsi re-
53
Chapitre 3. Analyse des thématiques et des opinions
54
cyclés tel que le modèle DTM (Dynamic Topic Model) proposé par Blei et
Lafferty (2006). Cependant, ce type d’approche a été initiée par Chakrabarti et al. (2006) avec un certain point de vue, à savoir que les catégories
ne doivent pas changer trop brutalement dans le temps. Ainsi, les modèles
proposés par Chi et al. (2007) avec une approche de clustering spectral ou
par Xu et al. (2012) avec des modèles graphiques suivent la même philosophie dont je discuterai dans la dernière partie de ce chapitre. Remarquons
que l’écrasante majorité des modèles et algorithmes présentés nécessitent
de découper la chronologie en fenêtres temporelles de longueurs équivalentes, stratégie que je remets (au moins en partie) en cause dans mes
travaux.
Un deuxième aspect important est le fait que nous cherchons à intégrer
de la connaissance supplémentaire au processus de catégorisation. Nous
nous plaçons ainsi dans un cadre de clustering semi-supervisé, à ne pas
confondre avec l’apprentissage semi-supervisé. Dans cette lignée, il nous
faut citer les travaux de Basu et al. (2002) qui ajoute des contraintes de
type must-link et cannot-link aux objets ciblés par le processus de catégorisation. Concrètement, la fonction objectif se voit augmentée d’un terme de
pénalité lorsque les objets qui doivent se trouver dans la même catégorie
sont placés séparément, et réciproquement. D’autres approches adaptent
la mesure de comparaison afin de prendre les informations supplémentaires en compte (Klein et al. 2002). Des algorithmes temporels ont suivi la
même philosophie, comme dans les travaux de Lin et Hauptmann (2006).
De la Torre et Agell (2007), par exemple, ajoutent des contraintes afin de
pénaliser des changements trop brutaux dans l’affectation des catégories
aux objets. En général, ces techniques traitent d’une unique entité dont la
description évolue dans le temps. Dans la contribution présentée dans la
prochaine section, nous souhaitons traiter de l’évolution simultanée de la
description de plusieurs entités aux trajectoires similaires.
3.3.2 Contribution
J
e détaille à présent les deux contributions réalisées sur la catégorisation
d’entités dont la description évolue dans le temps. La première s’inspire
des modèles de clustering contraint, tel que celui proposé par Basu et al.
(2002), alors que la seconde est une extension du modèle de mélange au
cas des données temporelles.
Modèle temporel de catégorisation – Nous nous plaçons dans un cadre
d’apprentissage automatique peu supervisé (weakly supervised), dans lequel nous cherchons à catégoriser la description d’entités qui évoluent au
cours du temps. Il s’agit par exemple de pays dont la description en terme
de population, de régime, de différents indicateurs financiers comme le
PIB, est enregistrée chaque année pour une période donnée. Mais il peut
également s’agir d’internautes dont l’activité varie dans le temps ou de
pages Web dont la structure évolue. L’idée générale est ici de détecter des
descriptions typiques, comme dans le cas d’une technique de clustering habituelle, mais surtout d’organiser ces descriptions en trajectoires car nous
accordons à la dimension temporelle une importance particulière.
3.3. Détection et suivi des images d’opinion
55
Plus formellement, si l’on considère un ensemble d’observations X =
{ xi = (φl , tm , xid )}, où la description xid s’en réfère à l’entité φl prise au
moment tm , l’objectif final consiste à construire un graphe orienté dont
les noeuds sont des regroupements d’observations (clusters) et les arcs
indiquent une transition temporelle entre les clusters. Or, cette structuration temporelle doit répondre à un certain nombre de contraintes, ce qui
explique pourquoi nous faisons appel à des techniques de clustering semisupervisé : a) les descriptions d’un même cluster doivent être similaires
au regard d’une certaine métrique, b) les étiquettes temporelles des observations regroupées dans un même cluster doivent être suffisamment
compactes, c) une même entité (p. ex. un même pays) ne doit pas changer trop souvent de cluster dans le temps. Pour résoudre ce problème,
nous avons procédé en deux étapes. La première consiste à optimiser une
fonction objectif similaire à celle des K-Moyennes, partant d’une formalisation standard mais en prenant en compte la variable temporelle dans
la métrique et en intégrant une contrainte de contiguïté. Le graphe de
transition temporelle est alors construit à postériori. La deuxième étape
consiste à introduire la construction du graphe directement dans la fonction à optimiser, en adoptant une démarche inspirée de l’algorithme des
K-Moyennes floues de Dunn (1973). Seule la première étape est présentée
ci-dessous, la seconde faisant encore l’objet d’une validation expérimentale.
Nous proposons l’algorithme TDCK-Means (pour Temporal-Driven
Constraint K-Means) qui consiste à optimiser la fonction suivante :


I=
∑ ∑
µ j ∈M xi ∈C j


|| xi − µ j || TA +

∑
xk ∈
/Cj
φ


w ( xi , x k ) 

(3.9)
φ
x k = xi
où µ j est le centroïde du cluster C j dans l’ensemble M, ||.|| TA est une mesure de la distance à la fois temporelle et descriptive définie ci-dessous
et w(., .) est la fonction de pénalité qui gère la notion de contiguïté temporelle. La mesure de dissimilarité combine une distance euclidienne sur
l’espace de description multidimensionnel et sur l’espace temporel :
!
!
|| xid − x dj ||2
|| xit − x tj ||2
|| xi − x j ||TA = 1 − 1 − γd
1 − γt
(3.10)
2
∆xmax
∆t2max
où xid et xit sont les descriptions respectivement multidimensionnelle et
temporelle de xi , ∆x et ∆t représentent les étendues maximales, respectivement descriptive et temporelle, observées sur les données, et γd et γt
sont les poids accordés aux deux critères. ||.|| TA n’est pas une distance à
proprement parler, mais elle est normalisée entre 0 et 1 et vérifie les propriétés de séparation (0 si à la fois xid = x dj et xit = x tj ) et de maximalité (1
si || xid − x dj || = ∆xmax et || xit − x tj || = ∆tmax ). La fonction de pénalité, quant
à elle, est régie par l’équation suivante :
w ( xi , x j ) = β × e
− 21
|| xit − x t ||
k
δ
2
1[ x i = x k ]
φ
φ
(3.11)
56
Chapitre 3. Analyse des thématiques et des opinions
où β est un paramètre d’échelle, δ contrôle l’étendue de la fonction de
pénalité et 1 retourne 1 si le test en argument est vérifié, 0 dans le cas
contraire. Cette fonction a une forme qui permet d’attribuer une pénalité
importante lorsqu’une contrainte est violée et que la différence temporelle est faible, mais qui descend ensuite assez rapidement. L’un des avantage de notre approche est qu’elle ne nécessite pas de discrétiser le temps,
comme dans une grande majorité des travaux de la littérature, puisqu’elle
travaille de manière rétrospective et non en ligne (online). Une description
plus précise, accompagnée d’une discussion et des expériences supplémentaires en faisant varier les différentes paramètres (γd , γt , β, γ), est
fournie dans Rizoiu et al. (2014).
L’algorithme TDCK-Means suit la même heuristique que l’algorithme
des K-Moyennes dont il s’inspire afin d’optimiser localement l’équation 3.9, à savoir alterner une étape d’allocation des observations aux centroïdes, en minimisant la somme de la mesure ||.|| TA et de la fonction de
pénalité, et une étape de recentrage des centroïdes. Pour le calcul des centroïdes, une descente du gradient nous permet de trouver l’optimum local
grâce aux formules suivantes :
|| xit −µtj ||2
|| xid −µdj ||2
d
t
∑ xi ∈C j xi × 1 − γt ∆t2max
∑ xi ∈C j xi × 1 − γd ∆xmax
2
d
t
µj =
µ
=
j
|| xit −µtj ||2
|| xid −µdj ||2
∑ xi ∈C j 1 − γt ∆t2
∑ xi ∈C j 1 − γd ∆x2
max
max
(3.12)
Le point important est de noter que la mise à jour est une moyenne pondérée par la dissimilarité de l’autre composante (temporelle ou descriptive, suivant le cas). Autrement dit, les observations plus éloignées dans le
temps contribuent moins à la mise à jour de la description du centroïde, et
réciproquement. La complexité de l’algorithme est en O( pq2 m), où p est le
nombre d’entités, q le nombre d’observations par entité et m le nombre de
clusters, à laquelle il faut éventuellement ajouter un facteur qui compte le
nombre d’itérations jusqu’à la convergence. La structure de graphe entre
clusters est construite à postériori : les centroïdes forment les nœud du
graphe et un arc est créé entre deux nœuds si les centroïdes concernés
se suivent dans le temps et leurs clusters partagent la description d’un
nombre suffisant d’entités.
L’algorithme TDCK-Means a été testé sur un jeu de données en
sciences politiques ; il décrit 23 pays pour la période de 1960 à 2009 à l’aide
de 207 variables politiques, démographiques, sociales et économiques.
Après quelques efforts de normalisation sur les valeurs des variables afin
de rendre comparables des pays de différentes tailles de population, nous
avons appliqué l’algorithme afin de voir s’il existait une structuration des
pays en clusters et des trajectoires typiques. Nous avons fait varier les différents paramètres, et en particulier le nombre de clusters ; je ne présente
ici qu’un échantillon choisi pour son caractère illustratif. La figure 3.8 p.57
présente trois visualisation des résultats obtenus pour huit clusters. La figure (a) permet de visualiser l’étendue temporelle des huit clusters et de
constater que l’algorithme a permis de construire des regroupement temporellement cohérents. La figure (b) donne plus d’information sur la taille
des clusters en terme du nombre de pays dont la description se trouve
dans un cluster à une date donnée. Enfin, la figure (c) permet de montrer
3.3. Détection et suivi des images d’opinion
Figure 3.8 – Résultats obtenus par TDCK-Means pour huit clusters à partir du jeu de
données en sciences politiques (extrait de la thèse de M.A. Rizoiu (2013c)).
Figure 3.9 – Graphe de transitions construit à postériori à partir du résultat de TDCKMeans (extrait de la thèse de M.A. Rizoiu (2013c)).
les trajectoires suivies par chaque pays au sein des clusters. Là encore, on
constate une certaine cohérence dans les transitions, rendue possible grâce
à l’utilisation de la contrainte de contiguïté.
Si on regarde de plus près les descriptions des centroïdes et les trajectoires des pays, les résultats semblent raisonnables car ils confirment
l’intuition. Ainsi, par exemple, le cluster attaché au centroïde µ2 regroupe
les observations relatives à l’Espagne, au Portugal et à la Grèce entre 1960
et 1975. Cela coïncide avec des régimes autoritaires, tel que celui de Franco
ou le régime des Colonels. Les transitions sont mieux visibles sur le graphe
qui a été construit à postériori et qui est affiché dans la figure 3.9. Par
exemple, la trajectoire µ4 → µ5 → µ6 correspond au modèle économique
et social suédois alors que la trajectoire µ1 → µ5 → µ7 regroupe des
pays aux économies similaires comme les USA, l’Allemagne, l’Italie et la
France. Au-delà de cette évaluation purement qualitative, nous avons mis
au point des indicateurs de qualité et nous présentons des résultats comparatifs l’article publié à la conférence ICTAI (Rizoiu et al. 2012) qui a
ensuite été étendu pour la revue IJAIT (Rizoiu et al. 2014).
A la suite de ces travaux, nous avons plus récemment travaillé sur
une extension de cette approche pour construire directement le graphe de
transitions. Nous avons constaté qu’il est possible de dériver une fonction
objectif et d’estimer conjointement la matrice d’adjacence des clusters. Ces
travaux sont encore en cours d’évaluation sur deux jeux de données.
Modèle de détection et de suivi des images – L’algorithme présenté
dans le paragraphe précédent nécessite que l’on connaisse la description
complète et unique des entités à chaque tranche temporelle. Or, ces deux
contraintes ne répondent pas aux exigences du projet ImagiWeb (cf. section 6.2). Tout d’abord, l’image (au sens de la représentation) d’une entité, tel qu’un homme politique ou une entreprise, n’est pas unique : elle
57
Chapitre 3. Analyse des thématiques et des opinions
58
Symbole
T
dt
Dt
| Dt |
V
Ndt
K
t
wd,n
ztd
Zt
D
Z
φkt
πkt
α
Description
nombre de périodes
Instance de d à la période t
ensemble des instances à la période t
nombre d’instances à la période t
nombre de composantes uniques
nombre de composantes de l’instance d à la période t
nombre de clusters
n-ième composante de l’instance d à la période t
cluster assigné à l’instance d à la période t
ensemble des assignements de cluster pour les instances de D t
séquence des ensembles d’instances, D = ( D1 , D2 . . . D T )
séquence des assignements aux clusters, Z = ( Z1 , Z2 . . . Z T )
distribution multinomiale du cluster k sur les composantes à la
période t
probabilité à priori du cluster k à la période t
poids du cluster précédent pour la génération du cluster à la période suivante, 0 < α < 1
Figure 3.10 – Notations pour le modèle Temporal Mixture Model (TMM).
peut se décomposer en plusieurs images en fonction du groupe d’individus concernés par telle ou telle manière de percevoir l’entité. Ensuite, la
description de cette image n’est jamais complète, en particulier dans les
messages courts postés sur les blogs et les microblogs. Au contraire, elle
est lacunaire au sens que chaque message ne comporte qu’une fraction de
la description de l’entité. Ce caractère lacunaire est exactement le même
que celui qui se trouve au cœur de mes travaux précédents (Velcin 2005)
et il concourrait à la construction des stéréotypes. L’algorithme construit
sur le modèle TMM, que je présente brièvement ci-dessous, n’est pas très
éloigné de l’algorithme de clustering par défaut développé alors (voir à ce
sujet Velcin et Ganascia (2005)).
Le modèle que nous proposons pour résoudre ce problème est une
extension du modèle de mélange pour traiter le cas de données temporelles. Il s’inspire du modèle DTM (Blei et Lafferty 2006), mais en affectant chaque objet à une seule catégorie et sans recourir à un lissage entre
les fenêtres temporelles, ce qui revient à chaîner des modèles de mélange
simples (mixture models ou MM). Nous pensons en effet que la philosophie
sous-jacente aux derniers modèles développées dans le cadre du clustering
évolutionnaire n’est pas pleinement satisfaisante dans le contexte qui nous
occupe. En effet, trop vouloir généraliser par un lissage excessif amène
mécaniquement à réduire la compacité des clusters, ce qui peut porter
préjudice aux résultats, en particulier lorsqu’on ne traite pas de données
textuelles et que la dimension de l’espace n’est pas nécessairement élevée.
L’idée que nous suivons ici concernant la dimension temporelle est
plus classique que dans la section précédente puisque nous avons choisi
de découper le temps en périodes homogènes sans recouvrement. Les paramètres du modèle à une période t sont estimés en prenant en compte
les paramètres (donc les catégories) estimés à l’étape précédente t − 1. Les
notations sont présentées dans le tableau de la figure 3.10 et le modèle graphique correspondant se trouve dans la figure 3.11 p.59. La composante w
3.3. Détection et suivi des images d’opinion
59
Figure 3.11 – Modèle graphique de mélange temporel (TMM).
est un trait qui compose la description de l’entité et qui peut être associé
à un poids (comme le nombre d’occurrences), de la même façon qu’un
mot peut l’être pour un texte. Dans le cadre du projet ImagiWeb, il s’agit
des couples (cible, polarité) de l’opinion exprimée envers l’entité, comme
par exemple (‘bilan’, ‘positif’) ou (‘éthique’, ‘très négatif’). L’ensemble des
messages d’une catégorie z est associé à une distribution sur ces composantes, de la même manière que les textes sont associés à une distribution
sur les mots dans le cadre d’un modèle de thématiques (voir la section 3.1
à ce sujet). Pour les hommes politiques, cela permet d’obtenir une sorte de
profil qui correspond à l’opinion émise par un cluster d’auteurs de tweets,
comme celui illustré par la figure 3.12 p.60. J’invite le lecteur à lire l’article
qui détaille le cas d’étude et les cibles d’opinion utilisées pour décrire un
homme politique (Velcin et al. 2014a).
Le processus génératif du modèle TMM est simple car il suit celui du
modèle de mélange. Pour chaque instance i de la période t (t>1) :
1. Tirer un cluster zit−1 avec la probabilité à priori πit−1 .
2. Tirer un cluster zit avec la probabilité à priori πit .
3. Tirer Ndt i composantes (c’est-à-dire une association trait-poids) à partir de p(w/zit−1 , zit ).
On soulignera une fois de plus l’analogie avec les modèles de thématique
présentés dans les sections précédentes. En effet, le “mot” généré par un
algorithme de type LDA est ici appelé une “composante”, d’où l’utilisation
de la même notation w (pour word) souvent employée dans la littérature.
Le processus de génération pour t = 1 est encore plus simple car on n’a
pas besoin de la première étape. Toute la difficulté réside dans l’estimation
des probabilités à postériori, en particulier p(zt−1 , zt /w) car il faut prendre
en compte la dépendance entre le trait w observé au temps t et zt−1 . L’optimisation directe de la fonction paraît difficile et l’on adopte classiquement
dans la littérature une démarche de type Expectation-Maximization (EM),
comme dans le cas du modèle MM. Dans ce cas, si l’on pose une instantiation courante des paramètres à Θold , l’estimation revient à résoudre
le problème d’optimisation local posé dans l’équation 3.13 (voir Bishop
(2006)) :
arg max E(L̃) =
Θ
∑ p(Z|D, Θold ) · log p(D, Z|Θ)
(3.13)
Z
La procédure EM alterne alors deux étapes. La première étape (E-step)
calcule l’espérance des probabilités à postériori p(zit = k/dt = i ) pour
60
Chapitre 3. Analyse des thématiques et des opinions
Figure 3.12 – Exemple de l’opinion émise par une catégorie d’individus (extrait de (Velcin et al. 2014a)).
t=1 et p(zit = k, zit−1 = l/dt = i ) pour t > 1 en considérant Θold comme
fixe. La deuxième étape (M-step) estime les valeurs des paramètres Θ qui
maximisent l’espérance de la log-vraisemblance (équation 3.13). Sans entrer dans le détail, cette estimation sous contraintes (les φ et les π doivent
sommer à 1) se fait en utilisant la méthode des multiplicateurs de Lagrange et en dérivant la formule afin de trouver l’optimum local. Cette
étape nécessite de faire une approximation qui, même si elle semble mener vers des résultats intéressants dans la pratique, n’est pas totalement
satisfaisante. Ce point sera évoqué dans la discussion sur les limites du
modèle menée dans la conclusion du chapitre. Les formules de mise à
jour des paramètres avec le détail des calculs peuvent être consultées dans
l’article qui présente le modèle TMM (Kim et al. 2015).
Les expériences ont été menées sur deux corpus. Le premier corpus
a été produit dans le projet ImagiWeb (voir section 6.2) et consiste en un
ensemble de plus de 11 000 tweets publiés lors des dernières élections
présidentielles en France, entre le 1er mars 2012 et le 31 janvier 2013.
Les messages concernent F. Hollande et N. Sarkozy ; ils ont été annotés
manuellement par les participants du projet en terme de cible (9 cibles
spécifiques ont été sélectionnées plus 2 cibles génériques) et de polarité (6
polarités, de très négatif à très positif en ajoutant une modalité ‘ambigu’).
Comme ces messages sont très courts, ils ne comportent généralement
qu’une seule annotation et ne concernent donc qu’une cible de l’image.
Afin de rendre ce corpus utilisable par l’algorithme de clustering qui nécessite des co-occurrences, nous avons choisi de regrouper les messages
émis par le même individu durant la même période de temps.
Pour évaluer notre approche, nous avons comparé le modèle TMM
avec trois autres modèles génératifs. Nous avons d’abord choisi deux modèles statiques classiques : pLSA et MM, sur lequel repose notre propo-
3.3. Détection et suivi des images d’opinion
homog.
co-occ.
non lisse
auteurs
TMM
moy.
écart
0.86 ± 0.02
± 1.98
123
2.27 ± 0.23
38
± 4.90
DTM
moy.
écart
0.70 ± 0.06
113
± 1.02
1.57 ± 0.10
29
± 2.8
moy.
0.86
122
3.16
32
61
MM
écart
± 0.02
± 0.88
± 0.33
± 3.06
pLSA
moy.
écart
0.67 ± 0.05
111
± 1.48
3.61 ± 0.21
29
± 3.07
Figure 3.13 – Résultats comparés sur le jeu de données ImagiWeb. Tous les critères
doivent être maximisés, à l’exception de “non lisse” qui doit être minimisé (les meilleurs
résultats sont en gras souligné).
sition. Les paramètres de ces modèles ont été estimés indépendamment
sur chaque période avant de relier à postériori les clusters les plus similaires au sens de leur distribution (similarité calculée via la divergence
de Kullback-Leibler). Nous avons également choisi le modèle DTM qui
prend cette fois le temps en compte d’une manière similaire à la nôtre,
avec deux différences importantes : les objets peuvent appartenir à plus
d’une catégorie, à l’instar d’un modèle LDA, et l’évolution des catégories
(thématiques ici) est guidée par un bruit gaussien, ce qui a pour effet de
lisser l’évolution des clusters. Comme nous n’avons pas de vérité terrain,
nous avons proposé quatre critères pour mesurer la qualité des résultats
obtenus en sortie :
1. l’homogénéité des polarités d’opinion, qui calcule la différence entre
le nombre de traits positifs et celui de traits négatifs dans la catégorie,
2. le niveau de co-occurrence réel constaté entre les instances d’une
catégorie et la distribution estimée par le modèle (valeur qui s’approche d’un score de compacité dans la littérature de l’évaluation
du clustering, voir Halkidi et al. (2002)),
3. le caractère non lisse des transitions temporelles entre les clusters,
calculé par une divergence de Kullback-Leibler,
4. la constance des auteurs, qui compte le nombre d’auteurs communs
entre deux clusters reliés de t à t + 1. Les expériences ont été effectuées avec un nombre de catégories constant (ici k = 9) et 10 relances
pour capturer la variabilité des résultats en fonction de l’initialisation
qui est aléatoire pour chacun des modèles employés.
Les résultats quantitatifs sont présentés dans le tableau 3.13. On
constate que le degré de co-occurrences de l’algorithme TMM est comparable à celui de MM pour chaque tranche temporelle et qu’il est supérieur à celui de DTM. A l’inverse, les résultats obtenus par DTM sont
davantage lissés, ce qui était attendu. Cela confirme ce pour quoi TMM a
été construit : obtenir un modèle plus fidèle aux données à chaque étape
de temps, mais en améliorant les transitions temporelles sans pour autant trop les forcer. Des résultats comparables ont été obtenus sur un second jeu de données issu du projet RepLab sur la réputation web (Amigó
et al. 2013). Sur les deux autres critères, on observe que TMM et MM
construisent des catégories homogènes au regard de la polarité (positive ou négative) de l’opinion et que TMM permet des transitions qui
conservent davantage les groupes d’auteurs dans le temps. Il serait inté-
Chapitre 3. Analyse des thématiques et des opinions
62
Figure 3.14 – Exemple de visualisation des résultats de TMM (ici avec k = 3) sous la
forme de diagramme de Sankey. A chaque étape temporelle, le cluster est d’abord visualisé
en utilisant la couleur de polarité dominante, avant de permettre à l’utilisateur de zoomer
sur une catégorie afin de prendre connaissance de la distribution sur les cibles.
ressant de mieux étudier les raisons pour lesquelles TMM obtient de tels
résultats pour des critères qui ne sont pas directement optimisés. En parallèle, l’algorithme a été couplé à un outil de visualisation inspiré des
diagrammes de Sankey (Schmidt 2006). Un exemple est donné dans la
figure 3.14. Cet outil doit être intégré au prototype développé dans le projet ImagiWeb. Il est prévu qu’il soit utilisé pour réaliser une évaluation
qualitative des résultats par des experts avec qui nous collaborons.
Conclusion du chapitre
D
ans ce chapitre, j’ai présenté mes travaux relatifs à l’analyse des thématiques et des opinions exprimées dans les textes, avec un accent
spécial sur la prise en compte de la dynamique temporelle des catégories.
Ils s’inscrivent naturellement dans le projet général d’analyse des représentations induites à partir de grands volumes de textes. Cependant, il
n’est pas difficile d’en percevoir les limites et donc de dresser quelques
perspectives. Les perspectives données ci-dessous ne sont que des esquisses ; elles seront détaillées davantage dans la section 7.2 qui clôt ce
mémoire.
Pour commencer, les différents travaux réalisés sur l’analyse des thématiques nous ont permis de faire plusieurs observations : a) il n’est pas
très simple aujourd’hui de comparer les résultats obtenus par différents algorithmes, surtout s’ils s’inscrivent dans des cadres théoriques différents ;
b) plusieurs catégorisations thématiques peuvent coexister, comme dans
le cas d’une hiérarchie (Blei et al. 2010, Jenatton et al. 2010) ; c) le passage
de la thématique (souvent un ensemble de mots pondérés) au concept est
important et peut être réalisé via la problématique d’étiquetage. L’évaluation est plus simple dans un cadre de recherche d’information, pour lequel
les thématiques peuvent être employées pour améliorer les performances
et l’intérêt de leur apport peut être quantifié (par exemple en terme de
3.3. Détection et suivi des images d’opinion
précision et de rappel). Cependant, il ne peut s’agir de la seule manière
d’évaluer les thématiques car celle-ci est biaisée et les thématiques qui aideront le veilleur ou le spécialiste du domaine ne sont pas forcément les
mêmes. Il existe donc plusieurs jeux de thématiques possibles pour un
même corpus, ce qui n’est guère étonnant et relève du caractère pluriel
des encyclopédies comme pointé par Klinkenberg (2000). Une perspective de mon travail est alors de continuer l’effort consistant à découvrir
des catégories signifiantes (c’est-à-dire inscrites dans un réseau de signes,
telle qu’une ontologie) orientées vers l’exploration des corpus. Cela a pour
conséquence que, loin de ne proposer que des thématiques évidentes (catégories majoritaires et attendues), l’idée serait de permettre la découverte
de thématiques abordant le corpus sous un angle original. Il peut s’agir
précisément de catégories mettant en valeur des contrastes dans les opinions, ce qui motive l’importance de l’extraction jointe débutée avec le
modèle TTS. Il peut aussi s’agir de catégories associées à des dynamiques
temporelles, comme dans le cas des modèles TDCK-Means et TMM.
Bien que le temps soit toujours traité de manière rétrospective, on peut
distinguer les modèles qui découpent la chronologie en segments de taille
identique (modèles TTS et TMM) de l’algorithme TDCK-Means qui s’en
prémunit en intégrant une distance temporelle. Le découpage peut sembler arbitraire et une autre perspective à ce travail consiste à chercher
une manière plus intéressante de découper le temps. Certains auteurs
ont proposé des modèles multi-échelles comme Iwata et al. (2010). Une
autre stratégie consiste à partir à la recherche de points d’inflexion (change
points), c’est-à-dire les moments dans la chronologie où les paramètres des
modèles changent de manière significative (Horváth et Hušková 2012).
On peut considérer cette approche comme le pendant non supervisé des
nombreux travaux réalisés en apprentissage supervisé sur la dérive des
concepts (concept drift). Cette piste a commencé à être explorée dans le
cadre du regroupement conceptuel (Fanizzi et al. 2008). Sur ce sujet, la
principale difficulté consiste à trouver le bon compromis entre la variation
continue (smooth) des catégories, contrainte affichée par les modèles de
clustering évolutionnaire, et la possibilité de capturer des phénomènes de
changement inattendu, tels que les apparitions ou des disparitions de catégories. Les premiers travaux réalisés sur le modèle TMM présenté dans
ce chapitre nous ont ainsi permis de réaliser cette difficulté et une partie
de nos efforts actuels sont orientés vers cette problématique. Les travaux
récents de la communauté sur les modèles non paramétriques et, en particulier, ceux capables de capturer des évolutions (Ahmed et Xing 2010)
sont à ce titre des pistes que j’envisage sérieusement d’explorer à l’avenir.
63
Recommandation de messages
et analyse des rôles dans les
communautés en ligne
4
Sommaire
4.1
Recommandation dans les communautés en ligne . . . .
Eléments d’état de l’art . . . . . . . . . . . . . . . . . . .
Détection de messages-clefs . . . . . . . . . . . . . . . .
4.2 Détection de rôles dans les communautés en ligne .
4.2.1 Eléments d’état de l’art . . . . . . . . . . . . . . . . . . .
4.2.2 Détection des célébrités . . . . . . . . . . . . . . . . . .
4.2.3 Détection de rôles émergents . . . . . . . . . . . . . . .
Conclusion du chapitre . . . . . . . . . . . . . . . . . . . . . . .
4.1.1
4.1.2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
67
67
68
73
73
76
79
82
D
ans ce chapitre, je présente les travaux réalisés en analyse de communautés en ligne. La première partie traite de la recommandation à
froid de messages-clefs, sujet de la thèse d’Anna Stavrianou. La deuxième
partie est centrée sur la détection de rôles dans les discussions en ligne
et regroupe plusieurs travaux. Dans le cadre de la thèse de Mathilde Forestier, je présente essentiellement les travaux sur la détection d’un rôle
établi à priori. La suite du chapitre présente des travaux plus prospectifs
sur la recherche de rôles de manière non (ou peu) supervisée, dans lesquels s’inscrivent la collaboration avec l’entreprise Technicolor et la thèse
en cours d’Alberto Lumbreras. Ces travaux ont mobilisé plusieurs personnes et ont donné lieu à un certain nombre de publications :
Thèse d’Anna Stavrianou : Jean-Hugues Chauchat (directeur). Thèse
de Mathilde Forestier : Djamel A. Zighed (directeur). Thèse d’Alberto
Lumbreras : Bertrand Jouve (directeur), M. Guégan (encadrante entreprise, Technicolor). Stage de Nikolai Anokhin : James Lanagan (coencadrant, Technicolor).
Publications : 1 revues int. (Forestier et al. 2012a), 5 conférences int. (Stavrianou et al. 2009c, Forestier et al. 2011a;b; 2012c;b), 2 workshop int. (Stavrianou et al. 2009a, Anokhin et al. 2012), 1 conférence nationale (Lumbreras et al. 2013), 1 revue nationale (Stavrianou et al. 2009b), 1 chapitre de
livre (Lanagan et al. 2014).
65
4.1. Recommandation dans les communautés en ligne
4.1
Recommandation dans les communautés en ligne
I
nternet est un lieu privilégié de discussions et d’échanges, qu’il s’agisse
de commenter l’actualité, de donner son avis sur le dernier smartphone
ou de disserter sur la meilleure recette d’andouillette. Ces conversations
ont lieu dans des communautés virtuelles qui se forment parfois exclusivement en ligne, sur les sites d’actualité, dans le contexte des jeux massivement multi-joueurs, sur les blogs de passionnés en cinéma ou d’entraide
en programmation (voir à ce sujet la typologie des médias sociaux donnée
dans la figure 2.1 p.20). Depuis longtemps, les sociologues s’intéressent à
ces communautés virtuelles afin d’en comprendre le fonctionnement, les
règles, la dynamique (voir par exemple les travaux de Donath et al. (1999)
sur les forums Usenet ou de Schoberth et al. (2003) sur l’analyse d’internautes participant à une plateforme de discussion sur la finance). Dans
le domaine de l’informatique, beaucoup d’efforts se sont portés sur l’analyse des réseaux sociaux et de quelques médias sociaux phares, tels que
Twitter ou les sites d’actualité. Par contre, les forums de discussion qui
accompagnent les articles d’actualité, de cuisine, de mode, de cinéma, de
sport, de santé, et j’en passe, ont drainé beaucoup moins d’attention de
la part de la communauté des chercheurs. Je vais montrer comment nous
avons utilisé des techniques de fouille de données pour analyser automatiquement ces discussions. L’analyse repose sur une vision duale du problème où cohabitent deux structures : le graphe des messages postés par
les internautes et le graphe sous-jacent des relations entre ces internautes,
que l’on pourrait qualifier de réseau social bien que ces relations ne soient
pas toujours aussi explicites que dans un réseau comme FaceBook.
Dans cette première partie, je vais me concentrer sur les travaux qui
ont été entrepris dans le cadre du projet Conversession (voir à ce sujet
la section 6.1) et dans la thèse d’Anna Stavrianou, en collaboration avec
Jean-Hugues Chauchat. L’objectif consiste à trouver automatiquement les
messages jugés comme étant les plus intéressants, selon un certain nombre
de critères exploitant à la fois le contenu des messages (par exemple la présence d’opinions) et la structure de la discussion (par exemple le nombre
de réactions provoquées par le message). Ces messages sont ensuite proposés à de nouveaux utilisateurs du forum dans un contexte de recommandation “à froid” (cold start). Je donne quelques éléments d’état de l’art
sur la recommandation avant de préciser la nature de nos contributions.
4.1.1 Eléments d’état de l’art
L
’objectif des systèmes de recommandation est de recommander à l’utilisateur des objets (items) dont la nature peut varier suivant l’application visée. Quel film devrait-il aimer regarder ? Quelle page Web pourrait
bien répondre à son intérêt du moment ? Quel tweet ou quel commentaire sur un forum d’information devrait-il lire en premier pour se faire
une idée de la conversation en cours ? A quel expert devrait-il poser la
question qui lui pose problème ? Un tel système peut se baser sur les caractéristiques intrinsèques ou relatives de ces objets (la qualité du script
d’un film ou le prix plus faible d’une imprimante), sur des votes précé-
67
Chapitre 4. Recommandation de messages et analyse des rôles
68
dents exprimés par les internautes (par exemple avec un système de notes
comme un nombre d’étoiles) et, assez souvent, sur une représentation des
préférences de l’utilisateur (par exemple des préférences thématiques). On
distingue généralement trois types de systèmes (Adomavicius et Tuzhilin
2005) :
1. les systèmes basés sur le contenu calculant une similarité de l’objet
avec les objets précédemment bien notés par l’utilisateur,
2. les systèmes de filtrage collaboratif rapprochant l’utilisateur d’une
communauté d’internautes aux préférences similaires,
3. les approches hybrides qui essaient de combiner les avantages des
deux approches précédentes.
Ainsi, Pazzani et Billsus (1997) proposent un système qui recommande
des pages Web en accord avec les préférences thématiques de l’utilisateur.
Le système apprend un profil thématique de l’utilisateur sur une base
de mots-clefs pondérés, puis utilise un classifieur bayésien naïf pour distinguer les pages intéressantes des pages jugées non pertinentes. Parmi
les premières approches collaboratives, citons le travail de Goldberg et al.
(1992) dans lequel un système est mis en place pour filtrer les courriels
et les news correspondant au profil de l’utilisateur. Une autre caractéristique de ce système est d’utiliser les retours (feedback) de l’utilisateur. La
plupart de ces approches nécessite d’avoir une idée des préférences de
l’utilisateur, sous une forme explicite (fournir des mots-clefs) ou implicite
(utiliser l’historique de ses votes). Dans le cas d’un nouvel utilisateur, le
problème, qualifié de “recommandation à froid” (cold start) devient plus
difficile. Une solution consiste à se baser uniquement sur des caractéristiques propres aux objets. Dans le cas des messages dans les discussions en
ligne, il s’agit par exemple de sa popularité (nombre de réponses que l’internaute a provoqué) ou de son entropie (quantité d’information contenue
dans le message). Kohrs et Mérialdo (2001) ont ainsi utilisé l’entropie pour
sélectionner les objets à fournir aux utilisateurs afin d’obtenir des votes qui
maximisent la qualité des recommandations, en particulier destinées aux
nouveaux utilisateurs. Dans nos travaux, nous nous plaçons précisément
dans ce contexte de recommandation à froid. Je décris ci-dessous notre
contribution dans la recommandation de messages-clefs dans les forums
de discussion en ligne.
4.1.2 Détection de messages-clefs
A
près une analyse des pages Web comprenant le forum et son intégration dans une base de données relationnelle, l’objectif est de fournir
une visualisation de la discussion et de calculer un certain nombre de critères pour faire ressortir les messages les plus intéressants. La figure 4.1
p.69 illustre le système qui a été construit dans son ensemble, depuis l’analyse des pages jusqu’à l’interaction avec l’utilisateur final.
Ce travail repose sur la formalisation d’un forum de discussion comme
un graphe appelé PROG (Post-Reply Opinion Graph). Dans sa constitution
initiale, c’est-à-dire sans enrichissement ultérieur avec des relations de citation, il s’agit en réalité d’une forêt car un message (à l’exception des
premiers de chaque fil) ne répond qu’à un seul autre message. Ce graphe
4.1. Recommandation dans les communautés en ligne
Figure 4.1 – Analyse de la discussion à travers une représentation sous forme de graphe
(extrait de la thèse d’A. Stavrianou (2010)).
est orienté et peut être noté G = (V, E), où V contient les messages postés sur le forum et E contient les arcs (v0 , v) qui indiquent une réponse
du message v0 au message v. Un message v est caractérisé par un n-uplet
(mv , opv , uv , tmv ) où mv est le contenu textuel du message, opv la polarité d’opinion du message (par exemple négative, neutre ou positive), uv
l’identité de l’auteur du message et tmv son étiquette temporelle. La polarité de l’opinion peut être calculée automatiquement à l’aide des techniques présentées dans la section précédente (voir section 3.2). On peut
définir le fil de discussion (thread) comme l’ensemble des messages d’une
composante connexe de G postés après un message, et une chaîne de discussion comme un chemin maximal pour l’inclusion, c’est-à-dire la succession des réponses partant d’une racine à une feuille de chacun des
arbres. La figure 4.2 p.70 illustre ce que nous entendons par fil et chaîne
de discussion.
A partir de là, il est facile de calculer différentes mesures pour caractériser les nœuds du graphe, et donc les messages : initiateur d’un fil de discussion, influent, contenant ou provoquant des opinions, etc. L’influence
peut se calculer, par exemple, à partir du degré entrant d’un nœud (critère
populaire) ou bien à partir du nombre de messages contenus dans le fil
initié par ce nœud (critère ordre). La variété des opinions provoquées
par un message, calculée à l’aide d’une entropie de Shannon sur les différentes polarités d’opinion (critère var_op), peut donner une indication
sur la nature controversée du message. Au total, six critères ont été définis :
chacun d’eux estime l’ensemble des messages qui comportent un intérêt
potentiel pour l’utilisateur selon un certain point de vue. Ces critères sont
ensuite testés séparément puis combinés, afin de fournir une recommandation à l’utilisateur. Une brève description des critères est présentée dans
la figure 4.3 p.70.
69
70
Chapitre 4. Recommandation de messages et analyse des rôles
Figure 4.2 – Fil et chaîne de discussion (extrait de la thèse d’A. Stavrianou (2010)).
critère
ordred
racine
populaired
opinion
react_opd
var_opd
définition
nœuds appartenant à un fil de discussion comportant au moins d messages
nœuds débutant un fil de discussion composé
d’au moins 2 messages
nœuds dont le degré entrant (messages répondants) est au moins de d
nœuds dont le message contient des opinions
(c.-à-d. où opv est différent de neutre)
nœuds dont au moins d messages répondants
contiennent une opinion (positive ou neutre)
nœuds qui ont provoqué une réaction variée en
terme d’opinion (estimée par une entropie de
Shannon supérieure à un seuil d)
Figure 4.3 – Liste des six critères utilisés pour la recommandation de messages-clefs.
4.1. Recommandation dans les communautés en ligne
L’évaluation des systèmes de recommandation est toujours un problème difficile, ne serait-ce que parce que la qualité d’une recommandation dépend souvent de la personne à qui elle s’adresse (Herlocker et al.
2004). Dans notre situation, nous avons choisi d’évaluer les performances
de notre système sur la base du jugement humain en deux étapes : a)
demander à des personnes d’évaluer quels messages ils jugeaient intéressants à priori sans les influencer sur les critères de choix, puis calculer
des indicateurs habituels en recherche d’information, et b) demander à
des personnes d’évaluer à postériori la sortie produite par le système. Les
données analysées sont constitués de huit forums en français extraits du
site d’actualité Liberation.fr. Cela représente un total de 1147 messages
comprenant 510 fils de discussion. Puisqu’il s’agit d’un corpus en français
et qu’il n’existait pas de méthode automatique performante à l’époque,
l’annotation des opinions en trois polarités (négative, neutre, positive) a
été réalisée manuellement ; cela correspond à un total de 187 messages.
Il est déjà intéressant de noter que l’accord inter-annotateurs, estimée par
une corrélation de Pearson, conduit à une valeur située entre 0,09 et 0,45.
Cela confirme la difficulté de la tâche d’évaluation déjà signalée dans la
littérature et la nécessité de procéder également à une évaluation à posteriori.
Le tableau 4.4 p.72 présente les résultats obtenus en moyenne pour les
huit forums et les six annotateurs, ventilés selon les critères pris séparément, mais aussi agrégés linéairement (un poids identique est attribué à
chaque critère). Les mesures d’évaluation sont celles utilisées habituellement en recherche d’information : la précision, qui calcule la proportion
de messages effectivement intéressants dans l’ensemble retourné par le
système, le rappel, qui calcule la proportion totale de messages intéressants effectivement retournés, et la F-Mesure qui calcule une moyenne
harmonique de ces deux mesures. Le domaine de variation des mesures
est situé entre 0 (plus mauvais résultat) et 1 (meilleur résultat). Les résultats présentés ont été obtenus avec les paramètres de seuil 0,2, 0,2, 0,1 et 0,6
respectivement sur les critères ordre, populaire, react_op et var_op.
Ces valeurs ont été obtenues en normalisant d par la valeur maximale observée sur les données. Une discussion approfondie sur l’influence des
paramètres et sur le choix des meilleures valeurs se trouve dans la thèse
d’Anna Stavrianou (2010). La principale observation est qu’une simple
agrégation permet d’améliorer les résultats de manière importante. Les
résultats présentés dans la thèse montrent aussi que les valeurs peuvent
être bien différentes d’un annotateur à l’autre car ils n’ont pas la même appréhension de ce qui fait l’intérêt d’un message. Intégrer des éléments de
personnalisation permettrait certainement d’améliorer les scores obtenus,
mais nous ferait sortir du contexte de recommandation à froid.
Le tableau 4.5 p.72 présente les résultats de l’évaluation réalisée à posteriori sur un total de quinze forums. La stratégie consiste cette fois à présenter à des êtres humains un nombre réduit de vingt messages et à leur
demander de qualifier le message recommandé à l’aide d’une des trois
modalités suivantes : a) utile (useful), b) peu utile/indifférent (indifferent),
c) inutile (useless). Les messages sont donnés dans un ordre aléatoire afin
de limiter le biais introduit par l’ordre de présentation de la recommandation. Afin d’identifier l’influence de la taille de l’échantillon de messages
71
Chapitre 4. Recommandation de messages et analyse des rôles
72
Rap.
0,71
Rap.
0,59
ordre
Préc.
0,14
opinion
Préc.
0,22
F-M
0,22
F-M
0,28
racine
Rap. Préc.
0,64
0,2
react_op
Rap. Préc.
0,31 0,36
F-M
0,26
F-M
0,3
populaire
Rap. Préc. F-M
0,44 0,27 0,29
var_op
Rap. Préc. F-M
0,2
0, 53 0,27
agrégation linéaire
Rap. Préc. F-M
0,82 0,37 0,48
Figure 4.4 – Résultats obtenus sur les 8 forums par les 6 critères et par leur agrégation
(extrait de la thèse d’A. Stavrianou (2010)).
Figure 4.5 – Résultats de l’évaluation des messages recommandés (extrait de la thèse
d’A. Stavrianou (2010)).
retournés à l’utilisateur, les résultats sont présentés par groupes de 5 selon
que le système propose 5, 10, 15 ou 20 messages. Ces résultats semblent
conforter les résultats précédents en précision avec, grosso modo, un peu
plus d’un tiers des messages recommandés jugés comme utiles. Des expériences plus poussées et une analyse détaillée des raisons de l’échec
de certaines recommandations ont été réalisées. Entre autres raisons, on
trouve par exemple le fait que certains utilisateurs ne sont pas en mesure
de réellement comprendre le message à cause d’un problème de langue
(comme un vocabulaire trop cryptique) ou bien parce que leurs connaissances actuelles font que l’information apportée par le message est jugée
redondante. Une discussion plus complète est menée dans la thèse d’Anna
Stavrianou (2010). Ces travaux ont donné lieu à des publications dans un
atelier de la conférence WAINA (Stavrianou et al. 2009a), à la conférence
internationale ASONAM (Stavrianou et al. 2009c), dans un chapitre d’ouvrage (Stavrianou et al. 2010) et dans une revue francophone (Stavrianou
et al. 2009b).
4.2. Détection de rôles dans les communautés en ligne
4.2
Détection de rôles dans les communautés en ligne
D
ans cette deuxième partie, j’expose les différents travaux dont l’objectif consiste à étudier la communauté des individus qui composent la
communauté virtuelle afin d’identifier les rôles joués par ces individus à
partir de leur comportement. Ces travaux résultent de plusieurs collaborations et s’articulent en deux étapes. La première étape, réalisée dans le
cadre de la thèse de Mathilde Forestier (2012), co-encadrée avec Djamel
A. Zighed, a consisté à extraire le réseau des interactions (incluant les citations) entre les internautes, puis à y chercher un rôle particulier qu’est
celui de célébrité en adoptant une approche descendante. Ils ont mené à
une deuxième étape initiée avec Philippe Schmouker et James Lanagan
de l’entreprise Technicolor. Contrairement aux travaux précédents, l’extraction de rôle est vue comme un processus émergent (approche ascendante). Après le départ de James, les travaux continuent avec la thèse d’Alberto Lumbreras que je co-encadre avec Bertrand Jouve. Avant de détailler
les principales contributions que nous avons réalisées sur l’extraction des
rôles, je donne un aperçu de l’état de l’art que le lecteur pourra trouver de
manière plus détaillée dans un passage en revue que nous avons publiée
sur ce sujet dans le journal WIAS (Forestier et al. 2012a).
4.2.1 Eléments d’état de l’art
L
e concept de rôles a drainé de nombreux travaux dans le domaine de
la sociologie depuis le début du vingtième siècle, divisant la communauté en deux écoles : celle des structuralistes qui considèrent que le rôle
de l’individu est généré par la position de l’individu dans la structure
sociale, et celle des interactionnistes pour lesquels ce sont les individus
et leurs interactions qui génèrent les rôles ainsi que la structure sociale.
Bien que ces écoles ne soient pas totalement orthogonales et qu’elles aient
tendance à se rejoindre en de multiples occasions, cela explique la raison
pour laquelle il n’existe pas de définition universelle de ce qu’est un rôle.
Pour une introduction plus détaillée, j’invite le lecteur à consulter l’article de Lumbreras et al. (2013). Partant des travaux de Borgatti et Everett
(1992), nous choisissons de distinguer la position, c’est-à-dire la place de
l’individu dans la structure sociale, du rôle, qui représente l’ensemble des
attentes (droits, devoirs) associées à la position occupée. Goffman (1959)
donne l’exemple des positions parent et enfant, pour lesquels le rôle
de parent correspond au comportement que celui-ci est censé avoir vis-àvis de son enfant. Les positions et les rôles forment un système social qui
génère des relations sociales : ensemble d’attitudes, de comportements,
d’interactions. . . que l’on peut observer, voire mesurer. Suivant cette logique, des individus associés à un même rôle partagent des caractéristiques communes et des schémas de relations identiques, même s’ils ne
partagent pas nécessairement de relation directe (Schwartz et Sprinzen
1984). Les sociologues ont alors cherché à développer des outils mathématiques et informatiques afin de retrouver les rôles joués par des individus
à partir de l’observation de ces derniers, de leurs caractéristiques, de leurs
comportements et de leurs interactions.
73
74
Chapitre 4. Recommandation de messages et analyse des rôles
Une manière de structurer la nombreuse littérature sur le sujet consiste
à distinguer deux types d’approche que l’on trouve classiquement en
fouille de données (cf. section 2.2) : une approche descendante (top-down)
qui revient à chercher des rôles définis à l’avance, et une approche ascendante (bottom-up) qui permet de faire émerger des rôles de manière non
supervisée, c’est-à-dire sans (trop de) connaissance à priori. Je donne cidessous quelques éléments de repère sur chacune de ces deux approches.
Recherche de rôles explicites – Cette famille de travaux regroupe les cas
qui relèvent de la recherche d’information et pour lesquels une définition
du ou des rôles recherchés est connue, ou alors pour lesquels des exemples
d’individus jouant ces rôles sont connus. La tâche la plus connue est certainement l’identification d’experts dans des communautés pouvant être très
diverses : forums d’entraide en programmation, systèmes de QuestionsRéponses, réseaux sociaux comme FaceBook ou Twitter, etc. Il s’agit par
exemple des travaux d’Adamic et al. (2008), qui cherchent à trouver des
schémas typiques pour caractériser le comportement des experts pour des
données issues de Yahoo! Answers. Pour ce faire, ils se basent sur de nombreux concepts issus de l’analyse des graphes : degrés entrants et sortants,
réseaux égocentriques, composantes connexes, motifs récurrents. Ils ont
notamment montré que les individus les plus concentrés sur une seule
thématique avaient des réponses mieux notées. Sur la base de l’intranet
d’une organisation, Balog et al. (2006) ont cherché à découvrir le profil des
experts. Ils ont utilisé principalement des techniques issues de la fouille de
textes avec, par exemple, l’idée que le nom d’un expert sera plus souvent
cité dans les documents associés à sa thématique d’expertise. Plus récemment, des chercheurs ont développé des travaux sur la détection précoce
d’experts dans les communautés de Questions-Réponses (Pal et al. 2011)
et celle d’experts thématiques sur Twitter (Pal et Counts 2011).
Un autre type de rôles souvent recherché est celui de personne influente (influencer), autrement dit capable d’influencer les décisions ou les
pensées des autres individus, par exemple dans le domaine du marketing. Citons notamment les travaux d’Agarwal et al. (2008) qui utilisent
des critères pour identifier ce type de personne, comme le niveau de reconnaissance de la communauté (proportionnel au degré entrant du nœud
dans le graphe) ou l’activité de l’individu mesurée par le nombre de messages postés, la longueur des messages, etc. Kim et Han (2009) utilisent
le degré de centralité qui représente la popularité de l’individu et l’historique de participation au blog. Scripps et al. (2007) combinent des critères comme la popularité, le nombre d’amis, l’appartenance au groupe, le
nombre d’interactions. . . le tout associé à un algorithme de type PageRank
afin d’identifier les personnes influentes. Enfin, des travaux considèrent
l’influence des personnes dans la diffusion de l’information dans un réseau, comme ceux de Massa et Avesani (2007). D’autres types de rôles ont
attiré l’attention : les spammers (Yardi et al. 2009), les “capitalistes sociaux”
(Dugué et Perez 2013), etc.
Emergence non supervisée de rôles – Les travaux de la littérature présentés dans cette partie cherchent à découvrir les rôles joués par les internautes sans (trop d’) idées à priori. Autrement dit, on souhaite voir
4.2. Détection de rôles dans les communautés en ligne
apparaître les rôles qui émergent à partir des comportements observés sur
les individus et leurs interactions. Les premiers travaux relevant de cette
approche ascendante peuvent être qualifiés d’ethnologiques, en ce qu’ils
consistent essentiellement à réaliser une étude qualitative fine des communautés en ligne par une analyse de l’intérieur de la communauté. Il s’agit
par exemple de la typologie construite par Viégas et Smith (2004) sur les
newsgroups qui distingue des personnes répondantes (answer people), des
débatteurs (debater), des trouble-fêtes (spammer-like behavior), des nouveaux
utilisateurs (newcomers and question askers), etc. De manière analogue, les
travaux de Golder et Donath (2004) sur Usenet ont permis de construire
une typologie comprenant des célébrités (celebrity), des nouveaux utilisateurs (newbie), des rôdeurs (lurker), des troubles-fêtes (troll), etc.
Plus récemment, des approches plus automatiques ont vu le jour afin
d’extraire des rôles à partir de forums de discussion sur la base de caractéristiques (features) mesurant l’activité des internautes. A partir de vingt
forums extraits du jeu de données Boards.ie, Chan et al. (2010) utilisent
des mesures comme le degré entrant et sortant, la longueur moyenne des
messages postés, le taux de fils de discussion initiés, le taux de réciprocité
(pourcentage de liens bi-directionnels entre deux internautes) et quelques
autres, mesures qui leur permettent de filtrer les internautes avant d’utiliser un algorithme classique de clustering hiérarchique ascendant pour
trouver des profils typiques d’individus. Le nombre de catégories est fixé
à l’aide de cinq mesures objectives de qualité, comme l’indice de Rand et la
Silhouette (voir à ce sujet Halkidi et al. (2002)). A l’issue du processus, ils
trouvent huit profils typiques qu’ils appellent des rôles tels que l’initiateur
populaire (popular initiator), le taciturne (taciturn), le soutien (supporter) ou
l’élitiste (elitist). A partir de cette typologie, ils montrent que les rôles sont
distribués en proportions bien différentes en fonction du forum étudié. Les
travaux que je présente dans la section 4.2.3 se placent dans cette lignée,
en essayant de prendre en compte la dimension temporelle.
Il est indispensable ici de citer les travaux liés aux modèles par blocs
(blockmodels). Ces modèles mathématiques ont été initialement développés
dans le domaine de la sociologie pour étudier les rôles en se basant sur la
matrice carrée des relations entre individus (White et Reitz 1983, Borgatti
et Everett 1992). Ils ont notamment été utilisés pour trouver des blocs
(catégories) d’individus occupant une position similaire et pour construire
un graphe de relation entre les positions, en utilisant différentes mesures
d’équivalence (structurelle, régulière, etc.). Ces modèles ont ensuite été
étendus aux modèles stochastiques afin de prendre en compte l’incertitude
sur les données (Wang et Wong 1987, Handcock et al. 2007) et l’on a vu
apparaître de nombreuses variantes, comme par exemple celle de Wolfe
et Jensen (2004) qui permet à un individu de jouer plusieurs rôles ou
celle de Fu et al. (2009) pour traiter de l’aspect dynamique des rôles. Pour
terminer ce passage en revue, il faut noter la tendance actuelle qui consiste
à fusionner les caractéristiques relationnelles telles qu’elles peuvent être
mesurées sur un graphe (ce qui est majoritairement le cas dans les modèles
par blocs), et les caractéristiques textuelles des messages échangés, par
exemple à l’aide de modèles de thématiques (McCallum et al. 2005).
75
Chapitre 4. Recommandation de messages et analyse des rôles
76
4.2.2 Détection des célébrités
D
ans cette partie, je présente deux contributions réalisées dans le cadre
de la thèse de Mathilde Forestier (2012) dont l’objectif consiste à retrouver automatiquement les individus considérés comme des célébrités
à partir de forums de discussion. La principale originalité de ce travail
est qu’il s’appuie sur des travaux de la littérature en sociologie pour développer des méthodes automatiques de détection. La première contribution
formalise la définition proposée par Golder et Donath (2004) à l’aide de
caractéristiques ; ces dernières servent de base à un algorithme qui est
ensuite testé sur un grand nombre de forums de discussion en anglais
extraits du Huffington Post. La seconde contribution met en place une approche plus systématique basée sur un algorithme d’apprentissage automatique supervisé afin de tester s’il est possible d’améliorer nos résultats
en utilisant des informations obtenues à partir d’une vérité terrain.
Première approche pour détecter les célébrités – Sur la base des travaux de Golder et Donath (2004), nous définissons la célébrité de la manière suivante : il s’agit d’une « figure centrale prototypique d’une communauté. Les célébrités sont des contributeurs prolifiques qui dépensent
beaucoup de temps et d’énergie à leur communauté. Du fait de leur forte
participation, tout le monde les connaît ». Les critères de participation et
de réputation ont été traduits à l’aide de conditions nécessaires décrites
dans le langage de la théorie des graphes, après avoir appliqué une méthode originale de détection des citations entre les messages (Forestier
et al. 2011a). Par exemple, la « forte contribution dans une discussion »
est vérifiée si le nombre de messages postés est supérieur à la moyenne
des messages postés par les individus. La « compétence de communication » est vérifiée si le degré entrant et sortant est supérieur à un certain
seuil, et ainsi de suite. Comme indiqué dans la figure 4.6 p.77, ces conditions nécessaires permettent de filtrer la population des internautes afin
d’obtenir une sous-population de célébrités potentielles, qui sont ensuite
ordonnées selon des méta-critères. Le méta-critère 1 ordonne les candidats suivant le nombre de messages postés ; le méta-critère 2 prend en
compte la participation moyenne sur plusieurs forums de discussion liés
à la même thématique (par exemple des forums sur la politique ou sur les
médias) ; le méta-critère 3 pondère suivant le nombre de citations reçues
par les autres internautes. Enfin, la baseline ordonne les internautes suivant le nombre de messages postés mais sans utiliser cette fois le filtre des
conditions dérivées de Golder et Donath (2004).
Des expériences ont été réalisées sur une population de 14 443 internautes ayant rédigé plus de 35 000 messages sur 57 forums de discussion
extraits du site du Huffington Post selon trois thématiques : la politique,
les médias et le mode de vie. Dans l’optique d’évaluer nos résultats, nous
avons choisi de considérer le nombre de fans indiqué sur le site d’information comme une vérité terrain, à savoir un indicateur externe considéré
comme objectif du niveau de célébrité de l’individu. Dans cette première
approche, nous avons opté pour une classification binaire dans l’une ou
l’autre des classes célèbre et non célèbre. Sur la base de statistiques
descriptives, nous avons choisi de fixer à 800 fans le seuil au-delà duquel
4.2. Détection de rôles dans les communautés en ligne
Figure 4.6 – Cadre expérimental de détection des célébrités (extrait de la thèse de M.
Forestier (2012)).
un internaute est considéré comme célèbre. Cette question difficile de la
vérité terrain sera discutée en conclusion (section 4.2.3). Globalement, les
résultats n’ont pas été à la hauteur de nos attentes car la baseline l’emporte sur l’application des filtres et des méta-critères. Cependant, un examen plus attentif permet de constater qu’un agrandissement de la courbe
ROC sur les premiers individus du classement, visible sur la figure 4.7
p.78, montre une légère supériorité de notre approche en tête de classement. Ce phénomène semble davantage présent dans certains types de
forums (médias, politique). Toutefois, en calculant un score de précision
sur les tout premiers individus (par exemple 20), on peut constater des
écarts avec la solution de référence pouvant aller jusqu’à 26% en faveur
de notre approche. On constate également que la prise en compte des citations (méta-critère 3) n’améliore en rien la détection des célébrités, du
moins si l’on se base sur la vérité terrain choisie, résultat contraire à ce
que nous attendions. Une analyse plus détaillée permet de constater que
le nombre de forums différents sur lesquels un internaute s’exprime est un
facteur important pour obtenir de nombreux fans et donc être considéré
comme une célébrité si on suit notre hypothèse. Notons que les différents
paramètres de notre algorithme ont été, jusqu’à présent, fixés manuellement. Dans l’approche qui suit, nous avons donc décidé d’étudier s’il était
possible d’apprendre le poids des différents critères candidats à l’aide de
techniques d’apprentissage automatique supervisé.
Seconde approche pour détecter les célébrités – Dans cette nouvelle approche, l’objectif consiste à changer le problème afin de a) nous passer du
choix d’un seuil pour déterminer la vérité terrain, b) apprendre automatiquement le poids des critères qui classeront ou non un individu comme
une célébrité. Ainsi, nous visons une tâche de régression dont le but est de
prédire le nombre de fans observés à partir de critères comme le nombre
77
78
Chapitre 4. Recommandation de messages et analyse des rôles
Figure 4.7 – Agrandissement de la courbe ROC sur le début du classement (extrait de
la thèse de M. Forestier (2012)).
de messages postés, le nombre de forums dans lesquels un individu est
impliqué, le nombre de citations reçues, etc. Au total, 18 mesures ont été
définies pour décrire le comportement d’un internaute sur les forums de
discussion. A partir de ces mesures et du score indiqué par le nombre de
fans, nous avons divisé le jeu de données en deux sous-ensembles pour
apprendre les paramètres d’un modèle de régression (deux tiers des données) et tester le modèle (un tiers des données). Un système de filtrage
avant et durant l’apprentissage a été mis en place, telle que la méthode
M5 permettant de retirer les critères durant le processus d’apprentissage
(voir Witten et Frank (2005) pour les détails de l’heuristique).
Pour ces nouvelles expériences, nous avons travaillé sur les mêmes
données mais en supprimant les auteurs qui se sont désinscrits du site
Web durant la période d’étude, ce qui réduit le nombre de 14 443 à 10 720
individus. Une première analyse de régression linaire a montré qu’aucun
des critères n’était significativement corrélé à lui seul avec le nombre de
fans, la corrélation de Pearson la plus forte étant observée avec le nombre
de messages (score de 0,39) puis le nombre de forums (score de 0,38).
Après avoir testé plusieurs scénarios de filtrage, nous obtenons un score
de 0,425 avec la régression multiple. Les poids les plus élevés sont associés aux deux critères du nombre de messages et du nombre de forums
de discussion, ce qui confirme les précédents résultats, mais sans nous
permettre d’aller beaucoup plus loin. Au-delà de ces résultats un peu décevants, plusieurs observations ont pu être réalisées comme par exemple
le fait que la longueur moyenne des messages ne semble pas être un bon
critère pour reconnaître les célébrités. Cela contredit les observations de
Golder et Donath (2004), mais n’oublions pas que ces derniers ont étudié Usenet, qui a un fonctionnement vraisemblablement différent de celui
des forums du Huffington Post. D’autres observations plus étonnantes
ont été faites, comme par exemple le fait que citer le texte d’autres mes-
4.2. Détection de rôles dans les communautés en ligne
sages est un point négatif pour devenir une célébrité. Une discussion plus
détaillée est menée dans la thèse de Forestier (2012), mais l’une des principales conclusions est qu’il s’agit d’un problème difficile et que la prise en
compte de la dimension temporelle pourrait s’avérer un élément déterminant dans sa résolution. Ces travaux ont conduit à des publications dans
les conférences ISMIS (Forestier et al. 2011b), ASONAM (Forestier et al.
2011a) et ICDS (Forestier et al. 2012c).
4.2.3 Détection de rôles émergents
A
lors que les efforts précédents concernaient la recherche d’un rôle
déterminé à l’avance, en l’occurrence celui de célébrité, je vais présenter les premiers travaux que nous avons réalisés en essayant d’imposer
le moins d’à priori dans la nature des rôles recherchés. Il s’agit également
d’une première contribution qui prend en compte la dimension temporelle. Les expériences ont été réalisées sur des forums de discussion en anglais au sujet de séries américaines (par exemple Dr House ou Mad Men).
Ces travaux ont été entrepris en collaboration avec l’entreprise Technicolor. Ils ont débuté avec le stage de Master de Nicolas Anokhin, co-encadré
avec James Lanagan. Ils se poursuivent actuellement avec la thèse d’Alberto Lumbreras, co-encadrée avec Bertrand Jouve et Marie Guégan (voir
les perspectives en section 7.2).
Description de la démarche – L’objectif de ce travail est double : a)
réaliser une analyse diachronique du comportement d’internautes dans
des discussions en ligne en nous appuyant sur la période d’intérêt qui
concentre le plus d’activité, b) extraire des motifs de comportement de
manière non supervisée et voir s’il existe des relations entre ces “rôles” et
le déroulement des discussions. Pour ce faire, la stratégie a tout d’abord
consisté à recenser un certain nombre d’indicateurs d’activité (comme le
nombre de réponses, quantifié par le degré des nœuds du graphe), à en
imaginer de nouveaux (comme le “pouvoir catalytique d’un message” qui
estime récursivement l’influence locale, inspirée par le H-index utilisé en
bibliométrie) et à les traduire pour être en mesure de traiter des flux de
données dans le temps. Afin de traiter l’aspect temporel, nous avons lissé
les données sur la base du jour (24 observations avec une observation
par heure) à l’aide d’une extraction des tendances et d’une suppression
des effets saisonniers (comme le cycle circadien). Ces opérations sont très
classiques dans l’analyse des séries temporelles (Stuart et al. 1983) et permettent d’obtenir un lissage comme celui présenté dans la figure 4.8 p.80.
Une étude descriptive permet de constater un pic d’activité se déroulant
juste après la diffusion des épisodes de la série, ce qui paraît naturel, mais
suivant différentes formes et différents degrés. Notre objectif consiste à ne
conserver que les messages issus de cette forte période d’activité et de voir
s’il est possible de prédire le volume d’activité à long terme à partir de là.
Pour ce faire, nous avons supposé que l’activité de certains internautes
joue un rôle important dans le devenir de la discussion. Il me semble qu’il
s’agit d’une idée prometteuse qui est actuellement explorée dans la thèse
d’Alberto Lumbreras et que je présente brièvement dans les perspectives.
79
80
Chapitre 4. Recommandation de messages et analyse des rôles
Figure 4.8 – Evolution temporelle du nombre de messages pour les forums “House”, la
tendance générale étant affichée en orange (extrait de Lanagan et al. (2014)).
Dans ce travail préliminaire, nous avons choisi d’adopter une stratégie
simple inspirée par les travaux de Chan et al. (2010), à savoir appliquer
un algorithme des K-Moyennes à des variables décrivant l’activité des internautes. En plus des mesures habituelles telles que celles déjà évoquées
dans la section 4.2.2, nous avons défini une nouvelle mesure inspirée par le
H-index, appelée le pouvoir catalytique (catalytic power) qui permet d’estimer l’impact des messages postés par un internaute, au-delà des premiers
nœuds voisins. Ces mesures ont été calculées sur des fenêtres de temps
adaptatives afin de prendre en compte des périodes de plus grande activité (suite à la diffusion d’un épisode) ou de moindre activité (durant l’été,
pour les données qui nous intéressent). Chaque internaute est alors représenté par une série temporelle décrite par 7 variables avec le jour comme
granularité. Un algorithme de clustering robuste inspiré par Ayad et Kamel
(2005) est ensuite utilisé afin d’extraire des catégories de comportements
typiques. Les résultats obtenus sont présentés dans le paragraphe qui suit.
Résultats obtenus – Les expériences ont été réalisées sur des données de
forum traitant de 7 séries télévisées américaines à succès, pour lesquelles
chaque épisode est diffusé une fois par semaine et initie un ou plusieurs
fils de discussion. Je rappelle que l’idée globale consiste à vérifier si les
données issues du pic d’intérêt suffisent à estimer l’impact global mesuré
sur l’épisode, en particulier en prenant en compte les différents rôles joués
par les internautes. Ces données ont été extraites du site TWOP sur l’année 2007-2008 pour un total de 878 épisodes, 278 037 messages rédigés par
25 384 auteurs. Des prétraitements ont été nécessaires, en particulier pour
reconstruire l’arbre de réponses en utilisant un système d’expressions régulières et une distance de Levenshtein. Les expériences sont découpées
en trois étapes : i) vérifier si la période du pic d’intérêt observé suffit à
regrouper les épisodes dans des catégories similaires, ii) regrouper les in-
4.2. Détection de rôles dans les communautés en ligne
N˚
InOutdegree degree
In-gindex
Out-gindex
Catalytic
power
1
2
3
4
5
6
7
0.070
0,010
0,291
0,428
0,242
0,008
0,012
2,26e-4
0
0,322
0,447
0,277
0
0
0,052
0
0
0,445
0,335
0
0,308
1,59e-01
7,97e-05
2,34e-01
3,65e-01
1,93e-01
0
2,74e-05
0.075
0,221
0,048
0,429
0,305
0
0,271
81
Crossthread
entropy
1,98e-01
5,98e-03
7,52e-02
1,80e-01
5,52e-03
2,43e-16
8,07e-03
Activity
0.300
0,205
0,241
0,445
0,287
0,171
0,231
Figure 4.9 – 7 centroïdes résultants de l’algorithme de clustering ensembliste (extrait
de Lanagan et al. (2014)).
ternautes adoptant un comportement semblable et essayer de dégager les
rôles importants de manière qualitative, iii) mesurer la perte d’information
lorsqu’on n’observe que le pic d’intérêt au regard de ces rôles.
Suivant d’autres travaux de la littérature (Fisher et al. 2006), nous décrivons les fils de discussion avec 5 attributs mesurant le volume de la
discussion, mais également l’intensité des échanges : nombre d’auteurs
distincts, nombre total de messages, nombre de messages initiant un nouveau fil, nombre de réponses, taille moyenne d’un message (en nombre
de caractères). L’algorithme de clustering est alors exécuté sur l’ensemble
des fils de discussion, d’une part, et ensuite uniquement sur la période
d’intérêt. Les résultats sont comparés à l’aide de l’index de Rand ajusté
(ARI), qui évalue l’accord entre deux partitions par une valeur entre -1
(désaccord complet) et 1 (accord parfait). On constate une valeur située
entre 0 pour American Idol (50% environ des messages se trouvent dans
le pic) et 0,33 pour The Office (32% des messages environ se trouvent
dans le pic), ce qui semble être une valeur raisonnable et tend à montrer
qu’une grande partie de l’information utile se trouve dans la période qui
suit immédiatement la diffusion de l’épisode.
La deuxième série d’expériences a consisté à catégoriser automatiquement les internautes en fonction de leur comportement mesuré selon la méthodologie brièvement présentée dans le paragraphe précédent.
Rappelons que chaque internaute est décrit par 730 vecteurs (un vecteur
pour chaque jour) selon 7 caractéristiques calculées selon la structure du
graphe. Nous avons supprimé les individus de faible activité lorsqu’ils
avaient écrit moins de 10 messages. Cela représente toujours un total de
139 474 vecteurs décrivant 1959 individus. Après de nombreux essais en
faisant varier les paramètres de l’algorithme de clustering ensembliste,
nous avons finalement construit une typologie de 7 catégories associées
aux centroïdes présentés dans le tableau de la figure 4.9. La suite est question d’interprétation des valeurs associées à ces comportements considérés
comme typiques. Par exemple, le groupe n˚3 correspond à des individus
qui participent à de nombreux fils de discussion (faible entropie) et qui
reçoivent de nombreuses réponses (in-degree élevé) de la part d’individus
importants (in-g-index élevé). Il semble qu’il s’agisse d’individus qui ne
sont pas centraux, mais capables d’attirer l’attention et de provoquer des
Chapitre 4. Recommandation de messages et analyse des rôles
82
chaînes de discussion (catalytic power plutôt élevé). Le groupe n˚2 correspond à des individus qui essaient d’intervenir dans la conversation, mais
sans succès (in/out-g-index et catalytic power faibles). On peut continuer
l’interprétation avec les autres groupes. A la lumière de ces résultats, une
première analyse permet de constater que les individus les plus influents
semblent être regroupés dans les catégories n˚4 et 5.
La dernière étape de nos expériences consiste à observer la quantité de
messages conservés dans le pic d’activité suivant les différents groupes de
comportements que nous venons d’extraire. Mise à part la série Dexter,
pour laquelle le pic semble avoir été mal classé, entre 79% et 100% des
messages produits par les individus des groupes n˚4 et n˚5 sont conservés.
Bien qu’il s’agisse de travaux préliminaires, ce résultat semble confirmer
qu’il est possible de ne considérer qu’une période assez courte suivant la
diffusion de l’épisode pour réaliser les analyses, car la plus grande partie
de l’information est apportée à ce moment-là par les internautes les plus
influents. Une discussion plus fournie se trouve dans (Lanagan et al. 2014).
Conclusion du chapitre
J
’ai présenté dans ce chapitre plusieurs travaux réalisés sur l’analyse des
forums de discussion en ligne. Qu’il s’agisse d’un système de recommandation de messages-clefs ou d’un algorithme permettant d’identifier
les rôles joués par les internautes, ces travaux s’inscrivent naturellement
dans mon projet de recherche global, car les messages intéressants ou
l’identité des auteurs de ces messages participent activement à la manière
dont la conversation est perçue par l’individu. Plus encore, ils influent sur
la dynamique de la discussion et sur la manière dont les représentations
sont véhiculées. Sur l’analyse des rôles, les travaux qui ont été réalisés
jusqu’à présent montrent vite leurs limites, ce qui permet d’envisager de
nombreuses perspectives.
Tout d’abord, l’un des plus importants problèmes auxquels nous avons
été confrontés est celui de l’évaluation des rôles automatiquement induits
par nos algorithmes. La vérité terrain utilisée dans les travaux sur les célébrités, vérité constituée du nombre de fans extrait du site web du Huffington Post, est on ne peut plus discutable ; il y a fort à parier que cette
valeur diffère de la manière dont Golder et Donath (2004) percevaient ce
type de rôle dans leur étude ethnographique. A vrai dire, il paraît tout autant légitime d’affirmer que certains rôles existent bel et bien, tels que ceux
dans les communautés Usenet ou les experts dans Yahoo! Answers, que
de remettre en cause leur existence à d’autres endroits du Web. Qui nous
prouve que de tels rôles existent sur les sites d’actualité qui connaissent
un turn-over important, ou même que le terme de communauté s’applique
partout de la même manière ? L’une des perspectives de recherche, profondément pluridisciplinaire car aussi bien informatique que sociologique,
est de s’interroger sur la nature même de communauté, intimement liée
à la notion de rôles, et de chercher les conditions de son existence. La
prise en compte de la dimension temporelle pourrait être l’une des clefs
permettant de répondre à ce type de questions.
Plus précisément, une autre perspective à notre travail concerne la dy-
4.2. Détection de rôles dans les communautés en ligne
namique des discussions et l’influence du comportement de certains individus. Ainsi, se donner comme objectif de prédire, même à très court
terme, la manière dont une discussion va évoluer, permet de contourner
le verrou relatif à l’évaluation des rôles. L’idée est alors de développer
des modèles supervisés qui prédisent non pas le comportement particulier des individus dans leurs réponses aux messages des forums, mais
plutôt la forme générale que peut prendre la conversation (s’agit-il d’un
fil très court ou au contraire d’un fil enclin à se diversifier ?). Dans ce
contexte, les comportements des individus seraient limités à un rôle utilitaire dans le sens où ils permettraient de mieux prédire l’évolution de la
conversation, ce qui conduirait à développer des modèles d’apprentissage
semi-supervisé. Ces thématiques se trouvent au cœur de la thèse d’Alberto
Lumbreras et elles sont détaillées dans la section 7.2.
83
Construction semi-supervisée
du vocabulaire
5
Sommaire
5.1
Construction du vocabulaire visuel . . . . . . . . . . . . .
87
Construire une représentation numérique de type « sacde-caractéristiques » . . . . . . . . . . . . . . . . . . . . . . 88
5.1.2 Enrichir la sémantique d’une représentation numérique de
type BoF en utilisant des connaissances externes . . . . . . 88
5.1.3 Evaluation des deux approches . . . . . . . . . . . . . . . . 91
5.2 Reconstruction du vocabulaire sémantique . . . . . . . . 94
5.2.1 Pourquoi construire un nouvel ensemble d’attributs ? . . . 95
5.2.2 Propositions : uFRINGE et uFC . . . . . . . . . . . . . . . . 96
5.2.3 Mesures d’évaluation et quelque résultats . . . . . . . . . . 99
Conclusion du chapitre . . . . . . . . . . . . . . . . . . . . . . . . . 102
5.1.1
D
ans ce chapitre, je présente les travaux centrés sur la recherche d’un
bon espace de représentation, notamment avec comme objectif de
réaliser une tâche de classification ultérieure. La première partie consiste
à construire l’espace de représentation sur la base de descripteurs de
bas niveau décrivant des images (descripteurs SIFT). La deuxième partie consiste à redécrire une base d’images déjà étiquetées par des métadonnées sémantiques en essayant de réduire la redondance de l’information qu’elles fournissent. Ces travaux se sont déroulés dans le cadre de la
thèse de M.A. Rizoiu et ils ont donné lieu à deux publications :
Thèse de Marian-Andréi Rizoiu : Stéphane Lallich (directeur).
Publications : 2 revues internationales (Rizoiu et al. 2013; 2015).
85
5.1. Construction du vocabulaire visuel
5.1
Construction du vocabulaire visuel
C
ette première partie concerne l’utilisation de connaissances sémantiques lors de l’analyse de données complexes. Nous nous intéressons en particulier aux données de type image et, pour être plus précis,
nous cherchons à construire une représentation numérique des images
avec une sémantique enrichie. Cette approche s’inscrit clairement dans la
démarche d’enrichissement de la représentation des données afin d’augmenter les possibilités d’analyse au-delà de l’utilisation de descripteurs
de bas niveau, tels que les pixels qui constituent les images. Elle participe
donc à la palette des outils rendus possible grâce à la science des données,
thème esquissé dans la section 2.2 de ce mémoire.
L’une des analyses ultérieures possibles correspond à la classification
supervisée de ces images sur la base de leur contenu. C’est une tâche particulièrement difficile, surtout parce que les caractéristiques de bas niveau
utilisées pour décrire numériquement les images ne permettent généralement pas de capturer leur sémantique. Dans notre travail, nous choisissons
d’aborder ce problème en enrichissant la sémantique associée à la représentation des images à l’aide de connaissances externes. L’hypothèse sousjacente est que la création d’une représentation basée sur une sémantique
enrichie permet d’obtenir des performances en apprentissage plus élevées, et ce sans qu’il soit nécessaire de modifier les algorithmes d’apprentissage eux-mêmes. Pour tester notre hypothèse, nous appliquons notre
proposition à la tâche de classification supervisée basée sur le contenu, et
nous montrons que l’enrichissement sémantique de la représentation des
images améliore les performances en classification.
Le format habituel pour stocker des images sur un support informatique est une matrice composée de pixels. Or, ce genre de caractéristiques
de bas niveau apporte très peu d’information concernant le contenu sémantique de l’image. L’une des représentations qui présente des résultats très prometteurs est la représentation en « sac-de-caractéristiques »
(en anglais bag-of-features ou BoF), inspirée de la représentation textuelle
« sac-de-mots » que nous avons employée dans la section 3.1.1. Notre proposition consiste à utiliser l’information experte, fournie sous la forme
d’annotations non positionnelles, afin d’améliorer la sémantique d’une
représentation de type BoF. Nous introduisons cette information additionnelle au niveau de la construction du vocabulaire visuel. Pour cela,
nous proposons deux nouvelles contributions qui s’appuient sur des informations sémantiques externes et qui permettent au vocabulaire visuel
de cerner plus précisément la sémantique qui peut être associée à une
collection d’images. La première proposition porte sur l’introduction de
l’information supplémentaire tôt dans la création du vocabulaire visuel,
ce qui permet de construire un vocabulaire visuel dédié aux images annotées avec une classe donnée. Dans la deuxième proposition, nous ajoutons
une phase de filtrage comme prétraitement dans la construction du vocabulaire visuel. L’idée est d’éliminer les points d’intérêt qui ont de faibles
chances d’appartenir à un objet donné et d’augmenter ainsi la précision
du processus de classification qui suit.
87
Chapitre 5. Construction semi-supervisée du vocabulaire
88
5.1.1 Construire une représentation numérique de type « sac-decaractéristiques »
T
ypiquement, la construction d’une représentation BoF est un processus
composé de quatre phases, comme le montre la figure 5.1. A partir
d’une collection P contenant n images, le but est de plonger ces images
dans un espace numérique dans lequel les algorithmes sont les plus efficaces. Dans la phase 1, chaque image pi ∈ P est échantillonnée et li caractéristiques 1 sont extraites. Les techniques d’échantillonnage les plus populaires sont celles basées sur une grille dense (Fei-Fei et Perona 2005, Vogel
et Schiele 2007) et des détecteurs de points d’intérêt (Csurka et al. 2004,
Fei-Fei et Perona 2005, Sivic et al. 2005). Dans la phase 2, en utilisant un
descripteur local, comme le SIFT (Lowe 2004) ou le SURF (Bay et al. 2006),
chaque caractéristique est décrite à l’aide d’un vecteur à h dimensions 2 .
Par conséquent, après cette phase, chaque image pi est décrite numériquement par Vi ⊂ Rh , l’ensemble des vecteurs à h dimensions décrivant les
caractéristiques échantillonnées à partir de pi .
Image
Dataset
Image
Sampling
Feature
Description
1
2
Visual Vocabulary
Construction
3
Assign Features
to Visual Words
4
“Bag-offeatures”
representation
Figure 5.1 – Schéma de construction d’une représentation numérique de type « sac-decaractéristiques » pour décrire des images (extrait de la thèse de M.A. Rizoiu (2013c)).
Ensuite, sur la base des caractéristiques extraites dans les phases antérieures, la phase 3 consiste à construire le vocabulaire visuel. La technique
employée est généralement un algorithme de type clustering. Le vocabulaire visuel est une collection de M mots visuels ; ces mots sont décrits
dans le même espace numérique que celui des caractéristiques visuelles et
ils servent de bases à l’espace numérique dans lequel les images sont plongées. Plus précisément, les centroïdes des clusters créés par l’algorithme
de clustering servent de mots visuels. Dans la phase 4, chaque caractéristique échantillonnée est affectée à l’un de ces mots visuels. Par conséquent,
chaque image est décrite comme une distribution sur les mots visuels en
utilisant l’un des systèmes de pondération de termes inspirés de la fouille
de textes (par exemple, TF, TF-IDF, etc.). La description numérique qui en
résulte peut ensuite être utilisée pour une indexation ou des tâches plus
complexes comme la classification automatique.
5.1.2 Enrichir la sémantique d’une représentation numérique de type
BoF en utilisant des connaissances externes
A
présent, je décris brièvement deux contributions réalisées dans le
cadre de la thèse de M.A. Rizoiu sur ce sujet. Il s’agit de nouvelles
1. li dépend du contenu de l’image (nombre d’objets, forme, etc.) et de l’algorithme
d’extraction utilisés. li peut varier de quelques centaines de caractéristique allant jusqu’à
plusieurs dizaines de milliers.
2. par exemple, pour le descripteur SIFT h = 128.
5.1. Construction du vocabulaire visuel
méthodes qui s’appuient sur des informations sémantiques externes, fournies sous la forme d’étiquettes d’objet non positionnelles, afin d’enrichir la
sémantique du vocabulaire visuel. Notre travail se situe dans un contexte
de faible supervision, similaire à celui défini par Zhang et al. (2007), où
chaque étiquette signale la présence d’un objet donné dans une image
mais pas sa position, ni sa forme ou sa taille. De plus, seule une fraction
de l’ensemble des images est étiquetée et nous utilisons, tout à la fois, les
images étiquetées et non étiquetées pour construire la représentation associée à une sémantique enrichie. Par conséquent, notre travail se positionne
clairement dans un contexte semi-supervisé.
Pour chacune des étiquettes, nous construisons un vocabulaire visuel
dédié qui se base uniquement sur les images associées à une étiquette en
particulier. Il a été montré (Perronnin et al. 2006, Jianjia et Limin 2011)
que ce type d’approche améliore la précision par rapport à un vocabulaire
généraliste. Cela est dû au fait que les vocabulaires spécialisés contiennent
des mots visuels capables de décrire de manière plus appropriée les objets qui apparaissent dans la collection d’images. Pour notre deuxième
approche, nous améliorons encore la précision en proposant une phase
de prétraitement qui filtre les caractéristiques visuelles susceptibles de
ne pas être associées à un objet donné. Cette proposition suit l’idée de
l’algorithme de reconnaissance d’objets proposé par Lowe (2004). On utilise en effet un ensemble d’exemples positifs et un ensemble d’exemples
négatifs, construits chacun sur la base des informations d’étiquette. Le
prétraitement de filtrage est finalement combiné avec la construction des
vocabulaires visuels dédiés. Nos expériences montrent que cette approche
permet d’obtenir systématiquement un gain de précision, à la fois avec un
vocabulaire spécialisé (sans filtrage) et avec un vocabulaire généraliste.
Construire un vocabulaire visuel dédié – L’idée qui se trouve derrière
l’utilisation d’une représentation de type BoF est que les mots visuels ont
un pouvoir prédictif pour certains objets. La qualité des mots visuels (et
leur pouvoir prédictif) peut être améliorée s’ils sont construits seulement à
partir des caractéristiques extraites de leurs objets respectifs. Cela permet
d’éliminer les éléments caractéristiques du fond de l’image ou d’autres
objets. Dans un contexte de faible supervision, le contour des objets est inconnu ; mais pouvoir sélectionner uniquement les images qui contiennent
un certain objet (information connue grâce à l’étiquette) augmente le rapport entre le nombre de caractéristiques pertinentes et le bruit. Par conséquent, les mots visuels construits de cette manière permettent d’obtenir
des descriptions plus précises pour les objets désignés par les étiquettes.
C’est pourquoi nous proposons de construire un vocabulaire visuel dédié
pour chaque étiquette ti ∈ T , c’est-à-dire généré à partir des caractéristiques extraites des images marquées avec l’étiquette ti .
Nous distribuons les m mots visuels de manière uniforme entre les
étiquettes et nous construisons k vocabulaires spécialisés, chacun contenant m/k mots visuels. Chaque vocabulaire dédié est créé en utilisant une
approche BoF standard, comme expliqué dans la section 5.1.1. Pour une
étiquette donnée ti , nous créons Ci l’ensemble de toutes les caractéristiques
89
90
Chapitre 5. Construction semi-supervisée du vocabulaire
extraites des images marquées avec ti , ce qui donne :
Ci =
n1
[
Vj
(5.1)
j =1
y j,i =1
où Vj est l’ensemble des caractéristiques extraites de l’image p j , n1 est le
nombre total d’images étiquetées et y j,i est un indicateur binaire de la présence ou de l’absence de l’objet j dans l’image pi . L’ensemble des mots
visuels qui en résulte est plus représentatif pour décrire l’objet désigné
par l’étiquette ti . A la fin de l’algorithme, nous fusionnons les vocabulaires spécialisés pour obtenir un vocabulaire visuel général unique. Cette
construction garantit que le vocabulaire visuel généré contient les mots
visuels représentatifs pour tous les objets annotés avec les étiquettes de T .
Filtrage des points d’intérêt – Dans cette partie, nous détaillons un mécanisme de filtrage pour augmenter encore davantage le ratio entre les caractéristiques pertinentes et le bruit. Nous l’appliquons comme une phase
de prétraitement à la technique de construction des vocabulaires dédiés
présentée précédemment : nous filtrons ainsi les caractéristiques visuelles
qui sont susceptibles de ne pas être reliées à l’objet en question. Étant donnée une image pi ∈ P1 , nous construisons deux collections d’images auxiliaires : l’ensemble des exemples positifs qui contient uniquement les images
étiquetées de manière identique à pi , et l’ensemble des exemples négatifs qui
contient les images qui ne partagent aucune annotation commune avec
pi . Nous définissons alors KPpi comme l’ensemble des caractéristiques
échantillonnées à partir des images qui se trouvent dans l’ensemble des
exemples positifs et KNpi comme l’ensemble des caractéristiques extraites
de l’ensemble des exemples négatifs :
KPpi = { f + ∈ Vj | ∀ tl ∈ T pour laquelle yi,l = 1 =⇒ y j,l = 1}
KNpi = { f − ∈ Vj | ∀ tl ∈ T pour laquelle yi,l = 1 =⇒ y j,l = 0}
Prenons le cas d’une caractéristique visuelle extraite à partir de l’image
pi ( f ∈ Vi ) qui est davantage similaire aux caractéristiques de l’ensemble
des exemple négatifs ( f − ∈ KNpi ) qu’aux caractéristiques de l’ensemble
des exemples positifs ( f + ∈ KPpi ). Cette caractéristique a plus de chances
d’appartenir à l’arrière plan de l’image pi qu’à l’un des objets annotés dans l’image ; elle peut, par conséquent, être filtrée. Nous utilisons
la distance euclidienne pour mesurer la similarité entre deux caractéristiques visuelles,
q décrites numériquement à l’aide d’un descripteur SIFT :
|| f 1 − f 2 || = Σih=1 ( f 1,i − f 2,i )2 . Formellement, pour une caractéristique f
extraite à partir de l’image pi , nous avons :
f ∈ Vi est filtrée ⇔ @ f + ∈ KPpi tel que || f − f + || ≤ δ
avec δ = α × min || f − f − ||
f ∈KNpi
(5.2)
où δ est un seuil de filtrage et α ∈ R+ est un paramètre qui permet de
régler ce seuil de filtrage. Ces valeurs correspondent à la distance entre
5.1. Construction du vocabulaire visuel
(a)
91
(b)
(c)
Figure 5.2 – (a) Image avec l’annotation ‘moto’, (b) image appartenant à l’ensemble des
exemples positifs et (c) image appartenant à l’ensemble des exemples négatifs (extrait de
la thèse de M.A. Rizoiu (2013c)).
la caractéristique f et la caractéristique la plus proche provenant de l’ensemble des exemples négatifs. La caractéristique f est considérée comme
similaire à une caractéristique f + ∈ KPpi de l’ensemble des exemples positifs si et seulement si la distance || f − f + || est plus petite que le seuil de
filtrage. Par conséquent, une caractéristique f est filtrée quand elle n’a pas
de caractéristique similaire dans l’ensemble des exemples positifs.
Prenons l’exemple d’une collection d’images représentées dans la figure 5.2. Les images 5.2a et 5.2b sont étiquetées avec ‘moto’, tandis que
l’image 5.2c est annotée avec ‘ville’. L’image cible 5.2a possède des bâtiments en arrière plan et toutes les caractéristiques échantillonnées de
cette région ne seront pas pertinentes pour l’objet ‘moto’. L’image 5.2b
fait office d’ensemble des exemples positifs (ensemble contenant ici une
unique image), tandis que 5.2c fait office d’ensemble des exemples négatifs. Prenons l’exemple de deux caractéristiques de l’image cible : f 1 ,
échantillonnée à partir de la roue de la moto (en vert), et f 2 , prélevée à
partir des bâtiments situés en arrière-plan (en rouge). Pour f 1 , il existe
au moins une caractéristique similaire dans l’ensemble des exemples positifs, tandis que f 2 n’a pas de caractéristique similaire dans cet ensemble.
En conséquence de quoi f 2 est éliminée car elle n’est pas jugée pertinente
pour l’objet ‘moto’.
5.1.3 Evaluation des deux approches
Protocole expérimental – Le but du protocole d’évaluation est de quantifier le gain de performance obtenu en enrichissant la sémantique d’une
représentation des images de type « BoF baseline » (comme celui présenté
dans la section 5.1.1) et en utilisant des connaissances expertes. L’évaluation est réalisée dans le contexte d’une tâche d’apprentissage de classifi-
92
Chapitre 5. Construction semi-supervisée du vocabulaire
cation supervisée des images basée sur le contenu. Pour chaque image,
nous construisons plusieurs représentations numériques, correspondant
chacune à une technique particulière. Ensuite, le même algorithme de classification, utilisant les mêmes paramètres, est appliqué sur chacune de ces
représentations. La différence constatée dans les performances est alors
imputée à la pertinence des représentations.
Construction de représentations numériques – Nous construisons
chaque représentation numérique en suivant le processus présenté dans
la figure 5.1 p.88. Les phases 1, 2 et 4 sont identiques pour chaque représentation. Dans la phase 1, nous extrayons les caractéristiques visuelles en
utilisant un détecteur de régions Hessian-Affines et chaque caractéristique
est décrite dans la phase 2 à l’aide de descripteurs SIFT. La phase 3 diffère
suivant la représentation employée : le vocabulaire visuel est construit soit
(a) en utilisant des caractéristiques tirées au hasard (cas appelé random),
(b) à l’aide d’un algorithme simple de clustering (méthode « baseline »
random+km), (c) avec notre proposition de construction des vocabulaires
visuels dédiés (appelé model), ou (d) avec nos propositions de filtrage et
de construction du vocabulaire visuel dédié (appelé filt+model). Dans la
phase 4, chaque caractéristique visuelle est associée à un mot visuel ; la
représentation BoF est construite et nous appliquons ensuite un classifieur
SVM (Cortes et Vapnik 1995) ou un classifieur à base de clustering pour
classer les images sur la base de leur contenu.
Jeux de données – Nous évaluons nos propositions sur trois
bases d’images issues de la littérature : Caltech101 (Fei-Fei et al.
2007), RandCaltech101 (Kinnunen et al. 2010) et Caltech101-3.
RandCaltech101 est une version de Caltech101 dans laquelle l’arrière
plan de chaque image et l’orientation des objets plan ont été modifiés
au hasard afin de rendre la classification plus difficile. Nous avons créé
Caltech101-3 en conservant uniquement les 3 classes les plus importantes de Caltech101 et ce, afin d’éliminer le déséquilibre présent dans
le jeu de données initial.
Figure 5.3 – Exemples d’images appartenant aux classes « faciles à apprendre » (rangée
du haut) et des classes « difficiles à apprendre » (rangée du bas) (extrait de la thèse de
M.A. Rizoiu (2013c)).
Evaluation qualitative – Dans une tâche de classification, certaines
classes sont naturellement plus faciles à apprendre que d’autres. Dans
la figure 5.3, nous présentons des exemples d’images appartenant aux
5.1. Construction du vocabulaire visuel
93
Table 5.1 – Des classes « faciles à apprendre » et des classes « difficiles à apprendre » sur
Caltech101 et RandCaltech101 (extrait de la thèse de M.A. Rizoiu (2013c)).
classes « faciles »
Caltech101
RandCaltech101
airplanes
car_side
dalmatian
dollar_bill
Faces_easy
garfield
grand_piano
Leopards
metronome
Motorbikes
panda
scissors
snoopy
soccer_ball
stop_sign
tick
watch
windsor_chair
yin_yang
accordion
airplanes
car_side
dalmatian
dollar_bill
Faces_easy
garfield
laptop
Motorbikes
panda
snoopy
soccer_ball
stop_sign
watch
windsor_chair
yin_yang
classes « difficiles »
Caltech101
RandCaltech101
beaver
buddha
butterfly
ceiling_fan
cougar_body
crab
crayfish
cup
dragonfly
ewer
ferry
flamingo
flamingo_head
ibis
kangaroo
lamp
lobster
mandolin
mayfly
minaret
pigeon
platypus
pyramid
rhino
saxophone
schooner
sea_horse
stapler
strawberry
wild_cat
wrench
bass
binocular
brontosaurus
buddha
butterfly
crab
crayfish
crocodile
cup
dragonfly
ewer
flamingo
flamingo_head
gerenuk
helicopter
ibis
kangaroo
lamp
lobster
mandolin
mayfly
metronome
minaret
okapi
pigeon
platypus
saxophone
sea_horse
stapler
wrench
classes « faciles à apprendre » (une bonne précision est obtenue en classification) et de classes « difficiles à apprendre » (on obtient une précision
plus basse). Les objets appartiennent à la classe facile soit parce qu’ils apparaissent toujours dans la même posture (p. ex. airplanes, garfield), soit
parce qu’ils ont un motif de couleur facile à reconnaître (p. ex. yin_yang,
soccer_ball ou dalmatian).
Le tableau 5.1 montre des classes faciles et difficiles à apprendre pour
Caltech101 et RandCaltech101 en soulignant les classes différentes
en gras. Nous observons que la plupart des classes n’ont pas changé
de difficulté malgré les modifications réalisées dans RandCaltech101.
Cela montre que, tout en rendant les images plus difficiles à discriminer,
RandCaltech101 ne change pas fondamentalement la difficulté relative
entre les classes.
Evaluation quantitative – Du point de vue quantitatif, nous avons fait
varier les différents paramètres de nos algorithmes et nous avons comparé
les résultats en terme de précision, Fscore et True Positive Rate. La figure 5.4
Chapitre 5. Construction semi-supervisée du vocabulaire
94
FScore for different vocabulary creation techniques
FScore for different vocabulary creation techniques
0.17
0.12
0.16
0.11
0.14
FScore value
FScore value
0.15
0.13
0.12
0.11
0.1
0.09
0.08
0.1
0.08
100
0.07
model
filt+model
random+km
random
0.09
200
300
500 700 1000
2300 3300
0.06
100
5300
Visual vocabulary size (log)
(a)
model
filt+model
random+km
random
200
300
500 700 1000
2300 3300
5300
Visual vocabulary size (log)
(b)
Figure 5.4 – Fscore obtenu par le classifieur à base de clustering sur Caltech101 (a)
et sur RandCaltech101 (b) (extrait de la thèse de M.A. Rizoiu (2013c)).
présente les résultats que nous avons obtenus dans nos expériences sur
Caltech101 (figure 5.4a) et sur RandCaltech101 (figure 5.4b). Nous
observons que nos propositions obtiennent constamment de meilleurs résultats en terme de Fscore que l’approche « baseline ». Cela montre que le
fait d’introduire un peu de sémantique dans la représentation des images
rend la représentation plus adaptée pour décrire les images, et permet
donc d’améliorer les résultats d’un algorithme de classification sans avoir
besoin de changer l’algorithme lui-même. Une discussion plus détaillée
se trouve dans la thèse de Marian-Andréi Rizoiu (2013c). Ces travaux ont
donné lieu à une publication dans la revue IDA (Rizoiu et al. 2015).
5.2
Reconstruction du vocabulaire sémantique
C
omme cela a été montré lors de l’introduction de ce mémoire, l’une des
problématiques abordées dans mes recherches consiste à travailler sur
la représentation de l’information et son possible enrichissement. Contrairement aux autres contributions qui tiraient parti du contenu, soit des
données textuelles (voir sections 3.1 et 3.2), soit des données image (voir
section 5.1 précédente), le travail présenté dans cette section manipule l’information sémantique constituée par des descripteurs étiquetant les données. L’opération de redescription des images effectuée sur la base des corrélations entre ces méta-données constitue à mes yeux une manière d’enrichir l’information issue de certains médias sociaux. Cet enrichissement
participe à la palette des techniques proposées par la science des donnée
pour l’analyse du Web, thème qui a été esquissé dans la section 2.2.
Dans le contexte de l’apprentissage automatique, pour qu’un attribut
décrivant une observation soit utile, celui-ci doit apporter des informations nouvelles par rapport aux autres attributs. Les attributs corrélés
n’apportent donc pas d’information mais leur co-occurrence est souvent
le résultat d’une relation sémantique entre ceux-ci. Par conséquent, notre
travail concernant la reconstruction de la représentation des données a
deux missions : (a) améliorer l’espace de représentation en enlevant les
corrélations entre les attributs et (b) découvrir des liens sémantiques entre
ces derniers en analysant les co-occurrences dans les données. Pour ré-
5.2. Reconstruction du vocabulaire sémantique
Figure 5.5 – Exemples d’images annotées avec des attributs de l’ensemble { groupes,
route, b âtiment, intérieur } (extrait de la thèse de M.A. Rizoiu (2013c)).
pondre à ces défis, nous proposons un nouvel algorithme non supervisé,
uFC, qui améliore l’espace de représentation en réduisant la corrélation
totale entre les attributs, tout en découvrant les liens sémantiques entre
ces derniers en construisant de nouveaux attributs. Les paires d’attributs
initiaux affichant une forte corrélation sont remplacées par des conjonctions booléennes et les co-occurrences sémantiquement présentes dans le
jeu de données initial sont mises en évidence.
5.2.1 Pourquoi construire un nouvel ensemble d’attributs ?
U
n attribut p j qui est hautement corrélé avec un autre attribut pi n’apporte aucune information nouvelle puisque la valeur de p j peut être
déduite de celle de pi . Par conséquent, nous pouvons filtrer ces attributs
jugés comme non pertinents avant d’appliquer un algorithme de classification. Mais si on supprime simplement certains attributs, on court le risque
de perdre de l’information sur les liens sémantiques entre ces derniers ;
c’est la raison pour laquelle nous avons choisi de construire de nouveaux
attributs au lieu de simplement filtrer ceux corrélés.
Nous avons choisi de travailler sur des données décrites par des attributs booléens qui expriment la présence (valeur vrai) ou l’absence (valeur
faux) d’un objet dans une image. Avec de tels objets (p. ex. ‘eau’, ‘cascade’, ‘manifestation’, ‘urbain’, ‘groupes’ et ‘intérieur’), une partie de la
structure sémantique de l’ensemble des attributs peut être devinée facilement. En effet, les relations de type “c’est un” ou “partie de” sont intuitives car elles dérivent d’une structuration taxonomique des objets : la
cascade “est un” type d’eau, la patte est une “partie de” animal, etc. Mais
certaines relations peuvent être induites de la sémantique même des données (les images dans notre exemple). Par exemple, on peut y observer
une co-occurrence entre ‘manifestation’ et ‘urbain’ car les manifestations
ont généralement lieu dans la ville. La figure 5.5 montre un jeu de données d’images décrites en utilisant les attributs { groupes, route, bâtiment,
intérieur }. Certains attributs peuvent sembler redondants voire non informatifs (p. ex. l’attribut ‘groupes’ est présent pour tous les individus).
95
96
Chapitre 5. Construction semi-supervisée du vocabulaire
Compte tenu de ces co-occurrences entre les attributs, nous pourrions en
créer de nouveaux plus éloquents tels que “personnes à l’intérieur et non
sur la route” (groupes ∧¬ route ∧ intérieur, décrivant la rangée du haut)
et “personnes sur la route avec des bâtiments sur le fond” (groupes ∧
route ∧ bâtiment, décrivant la rangée du bas). Notre idée consiste à créer
un ensemble d’attributs qui dépendent des données, de telle sorte que les
nouveaux présentent un faible taux de co-occurrence.
5.2.2 Propositions : uFRINGE et uFC
Pour améliorer les résultat des algorithmes d’apprentissage automatique,
des approches existent dans la littérature (comme par exemple le truc du
noyau dans les SVM (Cortes et Vapnik 1995)) qui traitent le problème
des attributs non tout à fait adéquats en modifiant l’espace de description. Le principal inconvénient de ces approches est qu’elles fonctionnent
comme une boîte noire, où le nouvel espace de représentation est soit
caché (pour les SVM), soit totalement synthétique et difficilement compréhensible pour l’utilisateur humain (cas de l’ACP). La littérature propose
également des algorithmes qui construisent des nouveaux attributs basés sur des primitives. Mais, à notre connaissance, tous ces algorithmes
construisent un nouvel espace de représentation d’une manière supervisée, c’est-à-dire en utilisant l’information de classe fournie avec les données.
Par rapport aux solutions existant dans la littérature, celles que nous
proposons ont deux avantages : en plus de construire un espace de représentation dans lequel les variables co-occurrent moins, (a) elles produisent
de nouveaux attributs compréhensibles pour l’utilisateur humain et (b)
elles fonctionnent sans exemple pré-classé en adoptant une approche non
supervisée. Le premier algorithme que nous proposons est une adaptation d’un algorithme supervisé. Pour le deuxième algorithme, nous avons
développé une nouvelle heuristique qui choisit, à chaque itération, des
paires d’attributs fortement corrélés et qui les remplace par des conjonctions de littéraux. Comme résultat, la redondance globale de l’ensemble
des attributs est réduite. Les itérations ultérieures créent des formules booléennes plus complexes, pouvant contenir des négations. Nous utilisons
des techniques statistiques (tests d’hypothèses) pour déterminer automatiquement la valeur des paramètres en fonction de l’ensemble de données,
avant d’évaluer notre approche à l’aide d’une méthode inspirée du front
du Pareto (Sawaragi et al. 1985).
uFRINGE – Nous proposons uFRINGE, une version non supervisée de
FRINGE proposée par Pagallo et Haussler (1990), algorithme qui construit
des nouveaux attributs en utilisant la sortie d’un algorithme d’arbre de décision, comme ID3 (Quinlan 1986) ou C4.5 (Quinlan 1993). Pour rendre
FRINGE non supervisé, nous remplaçons l’algorithme d’induction des
arbres de décision par un algorithme non supervisé qui construit des
arbres de clustering (Blockeel et al. 1998).
Cependant, uFRINGE a quelques inconvénients ; en particulier, les attributs construits ont tendance à être redondants. Les attributs nouvellement construits sont ajoutés à l’ensemble des attributs et sont utilisés dans
5.2. Reconstruction du vocabulaire sémantique
f1
f3
97
f3
f1^f2
f1^f2
f1^f2
f2
f4
f4
f5
f5
(a)
(b)
f1^f2
f1^f2^f3
(f1^f2)^f3
f1^f2
f4
f5
(c)
Figure 5.6 – Représentation graphique du processus de construction des nouveaux attributs en utilisant des diagrammes de Venn. (a) Iter. 0 : variables initiales (les primitives),
(b) Iter. 1 : combinaisons de f 1 et f 2 and (c) Iter. 2 : Combinaisons de f 1 ∧ f 2 et f 3 (extrait
de la thèse de M.A. Rizoiu (2013c)).
les itérations ultérieures à côté des anciennes variables. Ces dernières ne
sont jamais retirées de l’ensemble des attributs et peuvent être combinées
à plusieurs reprises, ce qui entraîne l’apparition de doublons dans l’ensemble. C’est pour répondre à ces problèmes que je décris à présent une
autre méthode intitulée uFC.
uFC, une heuristique gloutonne – Nous dépassons les limitations
d’uFRINGE en proposant un deuxième algorithme innovant appelé uFC.
Notre approche réduit la corrélation globale entre les attributs en remplaçant, d’une façon itérative, les paires d’attributs fortement corrélés par des
conjonctions de littéraux. Nous utilisons une stratégie de recherche gloutonne afin d’identifier les variables qui sont fortement corrélées entre elles
et, par la suite, nous utilisons un opérateur de construction pour créer
de nouveaux attributs. A partir de deux attributs corrélés f i et f j , nous
créons trois nouvelles variables : f i ∧ f j , f i ∧ f j et f i ∧ f j . Ensuite, f i et f j
sont tous deux retirés de l’ensemble des attributs. L’algorithme s’arrête
lorsqu’il n’y a plus de nouvelles variables créées ou lorsqu’il a effectué un
nombre maximum d’itérations fixé à l’avance.
La figure 5.6 illustre visuellement, à l’aide de diagrammes de Venn,
comment l’algorithme remplace les anciennes variables par de nouvelles
variables. Les attributs sont représentés par des rectangles, chacun contenant les individus ayant un certain nombre d’attributs avec la valeur vrai.
Naturellement, les individus situés à l’intersection de deux rectangles ont
les deux attributs fixés à vrai. La figure 5.6a montre la configuration ini-
98
Chapitre 5. Construction semi-supervisée du vocabulaire
tiale de l’ensemble des attributs : f 1 et f 2 ont une grande intersection, ce
qui signifie qu’ils apparaissent souvent ensemble. Au contraire, f 2 et f 5 en
ont une petite, ce qui suggère que leur co-occurrence est inférieure à celle
due au hasard (corrélation négative). f 3 est inclus dans l’intersection de f 1
et f 2 , tandis que f 4 n’a pas d’élément en commun avec les autres ( f 4 est
incompatible avec tous les autres attributs). Le but de l’algorithme est de
construire un nouvel ensemble d’attributs, pour lequel il n’y a pas d’intersection entre les diagrammes de Venn correspondants. A la première
itération (cf. figure 5.6b), f 1 et f 2 sont combinés et 3 nouvelles variables
sont créées : f 1 ∧ f 2 , f 1 ∧ f 2 et f 1 ∧ f 2 . Ces nouvelles variables vont remplacer les attributs originaux f 1 et f 2 . Lors de la deuxième itération (cf. figure 5.6c), f 1 ∧ f 2 est combiné avec f 3 . Comme f 3 est contenu dans f 1 ∧ f 2 ,
la variable f 1 ∧ f 2 ∧ f 3 aura un support égal à zéro et elles sera supprimée. Notez que f 2 et f 5 ne sont jamais combinés car ils sont considérés
comme non corrélés. Le nouvel ensemble d’attributs sera donc le suivant :
{ f 1 ∧ f 2 , f 1 ∧ f 2 ∧ f 3 , f 1 ∧ f 2 ∧ f 3 , f 1 ∧ f 2 , f 4 , f 5 }.
Chercher les paires d’attributs corrélés – Pour trouver les paires corrélées, l’algorithme effectue une énumération intelligente de toutes les paires
( f i , f j ) ∈ F × F. Afin de mesurer la corrélation entre deux variables, nous
utilisons le coefficient de corrélation de Pearson (r), mesure classique pour
évaluer la dépendance linéaire entre deux attributs. Cette mesure prend
ses valeurs entre -1 et 1 ; une valeur de 0 indique une absence de corrélation linéaire entre les deux variables. Quand la corrélation d’une paire
de variables est supérieure à un certain seuil λ, les deux attributs sont jugés comme corrélés et ils sont ajoutés à l’ensemble des paires corrélées O.
Formellement, nous avons :
O = ( f i , f j ) ∈ F × F, i 6= j r(( f i , f j )) > λ
(5.3)
où le paramètre λ sert à régler le nombre des paires sélectionnées. Nous
proposons, dans le paragraphe suivant, une méthode basée sur un test
d’hypothèse statistique afin de déterminer automatiquement la meilleure
valeur pour λ.
Construction et filtrage des attributs – Après avoir construit l’ensemble
O de paires corrélées, on les parcourt toutes en suivant l’ordre décroissant du score de corrélation. A partir d’une paire ( f i , f j ), nous construisons trois nouveaux attributs : f i ∧ f j , f i ∧ f j et f i ∧ f j . Ces nouveaux attributs sont garantis, par construction, d’être corrélés négativement. f i et f j
peuvent être soit des attributs initiaux, soit des attributs plus complexes
construits lors des itérations précédentes. Chaque itération construit des
attributs à l’aide d’opérateurs très simples (conjonction de deux littéraux).
Cependant, des attributs complexes et plus riches d’un point de vue sémantique apparaissent au fil des itérations.
Après avoir construit les nouveaux attributs, nous enlevons de l’ensemble O la paire ( f i , f j ) et toutes les autres paires contenant f i ou f j . A la
fin de chaque itération, nous filtrons l’ensemble des attributs construits
pour enlever : (a) les attributs qui ont un support de zéro (ceux qui
prennent la valeur faux pour tous les exemples), et (b) les attributs qui
5.2. Reconstruction du vocabulaire sémantique
99
ont participé à la construction des nouveaux attributs (les nouveaux remplacent les anciens). Autrement dit :
remplacé par
{ f i , f j ∈ F |( f i , f j ) ∈ O} −−−−−−−→ { f i ∧ f j , f i ∧ f j , f i ∧ f j }
(5.4)
Choix automatique du paramètre λ – Le paramètre λ, introduit dans
l’équation 5.3, est très dépendant du jeu de données considéré et difficile à déterminer de manière générale. Nous proposons de le supprimer
en introduisant une technique qui choisit seulement les paires d’attributs
pour lesquelles la corrélation est jugée significative d’un point de vue statistique. Nous utilisons pour chaque paire d’attributs candidate une méthode statistique, le test d’hypothèse, où nous confrontons l’hypothèse
d’indépendance H0 à l’hypothèse de corrélation positive H1 . Pour effectuer le test statistique, nous choisissons d’utiliser le coefficient de corrélation de Pearson. Formellement, nous testons les hypothèses H0 : ρ = 0 et
H1 : ρ > 0, où ρ est le coefficient théorique de corrélation entre les deux
attributs candidats. On peut montrer que, dans le cas d’attributs booléens,
la valeur observée du χ2 d’indépendance est χ2obs = n × r2 (n est la taille
du jeu de données). Par conséquent, en considérant comme vraie l’hypothèse H0 , n × r2 suit approximativement une distribution
du χ2 avec un
√
degré de liberté
(n × r2 ∼ χ21 ). Comme résultat r n suit une distribution
√
normale (r n ∼ N (0, 1)).
En conséquence, nous
√ rejetons l’hypothèse H0 en faveur de l’hypothèse
H1 si et seulement si r n ≥ u1−α , où u1−α est la valeur critique à droite
de la distribution normale. Les deux attributs candidats sont considérés
comme significativement corrélés quand r ( f i , f j ) ≥ u√1−nα . Le niveau de significativité α représente le risque de rejeter l’hypothèse d’indépendance
H0 alors qu’elle était vraie en réalité.
5.2.3 Mesures d’évaluation et quelque résultats
Corrélation totale d’un ensemble d’attributs – Afin d’évaluer la corrélation totale d’un ensemble d’attributs, valeur que l’on souhaite minime,
nous proposons une mesure inspirée de la formule de Poincaré (Feller
1950). Dans sa forme booléenne, cette formule est utilisée pour calculer
la cardinalité d’une réunion finie d’ensembles finis, et cela en fonction du
nombre d’éléments de ces ensembles et de leurs intersections. Étant donné
un ensemble d’attributs F = { f 1 , f 2 , ..., f m }, sa formulation généralisée est
comme suit :
!
m
p( f 1 ∨ f 2 ∨ ... ∨ f m ) =
∑
(−1)k−1
∑
p( f i1 ∧ f i2 ∧ ... ∧ f ik )
1≤i1 <...<ik ≤m
k =1
(5.5)
En nous basant sur cette formule, nous proposons l’indice de recouvrement (OI pour Overlapping Index) comme suit :
OI ( F ) =
∑im=1 p( f i ) − 1
m−1
où OI ( F ) ∈ [0, 1] doit être minimisé.
(5.6)
100
Chapitre 5. Construction semi-supervisée du vocabulaire
Complexité d’un ensemble d’attributs – Souvent, réduire la corrélation totale d’un ensemble d’attributs revient à augmenter la taille de
cet ensemble. Si l’on considère que la paire ( f i , f j ) est corrélée, à l’exception du cas où f i ⊇ f j ou f i ⊆ f j , alors l’algorithme remplacera
{ f i , f j } par { f i ∧ f j , f i ∧ f j , f i ∧ f j } en augmentant le nombre total des attributs. Comme le nombre maximal des attributs pouvant être construits
est limité par le nombre des individus qui composent le jeu de données
(| F | ≤ unique( I ) ≤ | I |), nous proposons la mesure suivante pour évaluer
la complexité d’un ensemble d’attributs :
C0 ( F ) =
| F | − | P|
unique( I ) − | P|
(5.7)
où P est l’ensemble des attributs dits primitifs (ceux initiaux) et unique( I )
correspond aux nombre de descriptions uniques observées dans les données. C0 ( F ) ∈ [0, 1] doit être minimisé.
Recherche d’un compromis entre deux critères opposés – La corrélation totale d’un ensemble de données (mesurée par OI) et sa complexité
(mesurée par C0 ) sont associées à des critères opposés qu’il n’est pas possible d’optimiser simultanément. Obtenir un compromis entre des critères
opposés est un problème classique dans le domaine de l’optimisation multicritère. Nous choisissons d’utiliser le concept d’optimalité de Pareto (Sawaragi et al. 1985) afin de déterminer notre solution. Une solution est
considérée comme Pareto optimale si et seulement s’il n’existe pas une
autre solution avec à la fois un meilleur score de corrélation et un meilleur
score de complexité. L’ensemble des solutions Pareto optimales forment
le front de Pareto.
En pratique, nous faisons varier les paramètres du système et nous
plongeons les solutions obtenues dans le plan défini par OI et C0 . Ensuite,
nous utilisons deux heuristiques afin de choisir la solution optimale : (a)
heuristique dite du “point le plus proche”, où nous choisissons sur le front
de Pareto la solution la plus proche du point idéal déterminé par les coordonnées (0; 0) ; (b) heuristique “basée sur le risque”, où nous combinons la
méthode pour choisir la valeur du paramètre λ avec une condition d’arrêt
fixée sur le nombre d’itérations : les mesures OI et C0 sont combinées dans
un seul indicateur en utilisant la moyenne quadratique, avant d’itérer tant
que la valeur de cette moyenne quadratique continue à diminuer.
Evaluation quantitative Le tableau 5.2 p.101 montre une comparaison
quantitative entre les deux heuristiques proposées ci-dessus. Nous utilisons un risque de 0,001 pour le jeux de données hungarian et 0,0001
pour spect et street (à cause de la dimension du jeu de données). On
constate tout d’abord que les deux algorithmes ont le comportement souhaité, à savoir réduire la redondance au prix d’un vocabulaire un peu plus
complexe. Ensuite, les ensembles d’attributs construits par les deux heuristiques sont très similaires ; non seulement les différences pour l’OI, le
C0 , la longueur moyenne des attributs et la dimension de l’ensemble de ces
derniers sont négligeables mais la plupart de ceux créés sont identiques.
Pour hungarian, 19 attributs des 21 créés par les heuristiques sont identiques. Cela montre que l’heuristique “basée sur le risque” arrive à des
5.2. Reconstruction du vocabulaire sémantique
101
Table 5.2 – Heuristiques dites “point le plus proche” et “basée sur le risque” (extrait de
la thèse de M.A. Rizoiu (2013c)).
limititer # f eat #common length
hung.
λ
Primitives
uFC*(0.194, 2) 0.194
uFCα (0.001)
0.190
2
2
13
21
22
spect street
Strategy
Primitives
uFC*(0.446, 3) 0.446
uFCα (0.0001) 0.150
3
1
66
87
90
Primitives
uFC*(0.432, 3) 0.432
uFCα (0.0001) 0.228
3
2
22
36
39
19
33
19
OI
C0
1.00
2.95
3.18
0.235 0.000
0.076 0.069
0.071 0.078
1.00
2.14
1.84
0.121 0.000
0.062 0.038
0.060 0.060
1.00
2.83
2.97
0.279 0.000
0.086 0.071
0.078 0.086
Table 5.3 – Ensemble des attributs construits par uFC avec les heuristiques « point le
plus proche » et « basée sur le risque » (extrait de la thèse de M.A. Rizoiu (2013c)).
primitives
uFC*(0.194, 2)
uFCα (0.001)
person
groups
groups ∧ road ∧ interior
groups ∧ road ∧ interior
groups ∧ road ∧ interior
groups ∧ road ∧ interior
water
cascade
sky
tree
grass
groups ∧ road ∧ interior
water ∧ cascade ∧ tree ∧ f orest
water ∧ cascade ∧ tree ∧ f orest
water ∧ cascade ∧ tree ∧ f orest
sky ∧ building ∧ tree ∧ f orest
groups ∧ road ∧ interior
water ∧ cascade ∧ tree ∧ f orest
water ∧ cascade ∧ tree ∧ f orest
water ∧ cascade ∧ tree ∧ f orest
sky ∧ building ∧ tree ∧ f orest
f orest
statue
building
road
sky ∧ building ∧ tree ∧ f orest
sky ∧ building ∧ tree ∧ f orest
sky ∧ building ∧ panorama
sky ∧ building ∧ panorama
sky ∧ building ∧ tree ∧ f orest
sky ∧ building ∧ tree ∧ f orest
sky ∧ building ∧ panorama
sky ∧ building ∧ panorama
interior
sky ∧ building ∧ panorama
panorama groups ∧ road ∧ person
groups ∧ road ∧ person
groups ∧ road ∧ person
water ∧ cascade
sky ∧ building
tree ∧ f orest
groups ∧ road
grass
statue
sky ∧ building ∧ panorama
groups ∧ road ∧ person
groups ∧ road ∧ person
groups ∧ road ∧ person
sky ∧ building ∧ groups ∧ road
sky ∧ building ∧ groups ∧ road
sky ∧ building ∧ groups ∧ road
water ∧ cascade
tree ∧ f orest
grass
statue
résultats très similaires à ceux créés avec le “point le plus proche”, sans
avoir besoin de faire varier les paramètres et de ré-exécuter l’algorithme
uFC un grand nombre de fois. C’est précisément l’effet recherché et cela
permet de gagner un temps considérable dans l’exécution.
Evaluation qualitative – Dans le tableau 5.3, nous montrons l’ensemble
des attributs qui peuvent être construits avec notre proposition à par-
Chapitre 5. Construction semi-supervisée du vocabulaire
102
tir d’un ensemble de primitives. uFC*(0.194, 2) représente l’exécution de
notre algorithme avec les paramètres choisis en utilisant l’heuristique du
“point le plus proche” et uFCα (0.001) est l’exécution avec l’heuristique
“basée sur le risque” et un risque de 0,001. Nous avons mis en gras les
attributs qui différent entre les deux exécutions. On peut se convaincre,
images à l’appui, que les descripteurs construits présentent une sémantique plus riche que celle portée par les primitives. Là encore, une discussion plus avancée est menée dans la thèse de Marian-Andréi Rizoiu
(2013c) et j’invite le lecteur à s’y reporter. Ces travaux ont donné lieu à
une publication dans la revue JIIS (Rizoiu et al. 2013).
Conclusion du chapitre
L
es travaux présentés dans ce chapitre nous ont permis de travailler sur
des descripteurs d’images, qu’ils soient de bas niveau (descripteurs
SIFT dans la section 5.1) ou davantage sémantiques car attribués par des
êtres humains (attributs dans la section 5.2). On cherche, dans les deux cas,
à trouver le meilleur espace de représentation des images, qu’il s’agisse
uniquement d’optimiser une tâche ultérieure de classification ou de trouver une description qui peut s’avérer utile au spécialiste du domaine étudié. Bien que ces travaux puissent sembler bien différents de ceux des
chapitres précédents, je pense qu’ils participent à l’effort de traiter le cas
de données de différentes natures, c’est-à-dire de tendre vers le traitement
de données complexes. Il paraît clair aujourd’hui que l’analyse des données issues du Web, mais aussi des autres grands gisements de données
tels que les fonds documentaires ou historiques, doit être en mesure de
traiter à la fois de contenus textuels et de contenus d’autres natures, telles
que des images ou des étiquettes sémantiques attribuées par des humains.
Ce travail entrepris à l’occasion de la thèse de Marian-Andréi Rizoiu avait
pour objectif initial la structuration de documents historiques comportant
tous ces types de données à la fois (textes, images, attributs). La structuration est alors vue comme un processus de clustering semi-supervisé,
c’est-à-dire un processus qui tire profit des régularités observées dans les
données et de connaissances apportées par les spécialistes (ici les historiens). De nombreuses perspectives de travail subsistent.
La première perspective qui s’impose consiste à combiner les descripteurs de bas niveau et ceux issus des attributs avec des descripteurs associés au contenu textuel (par exemple les thématiques qui constituent le
cœur du chapitre 3) dans le but d’aider à structurer les collections de documents historiques, telles celles manipulées par les historiens du LARHRA.
Cet objectif à long terme est un pas de plus vers une meilleure indexation
des données de notre patrimoine, effort qui s’inscrit clairement dans les
grandes orientations prises par les humanités numériques. Une autre perspective, plus prosaïque, consiste à améliorer l’algorithme de construction
d’attributs afin qu’il prenne en compte la dimension temporelle en plus
de la sémantique du jeu de données. Cette prise en compte peut se faire
en étendant la corrélation de deux valeurs à une fenêtre temporelle, ce qui
ouvre un champ d’investigation intéressant avec des liens vers les modèles
temporels abordés dans les chapitres précédents. Enfin, l’information is-
5.2. Reconstruction du vocabulaire sémantique
sue des attributs étiquetant nos images est considérée comme complète, ce
qui signifie que l’absence d’une valeur est équivalente à sa négation. Or,
ce n’est clairement pas le cas pour les tags attribués par des internautes
dans un contexte de crowd sourcing. Une autre perspective serait alors de
modifier notre approche afin de prendre en considération cette nouvelle
contrainte. Cela ouvrirait évidemment des horizons riches en nouveaux
jeux de données afin de tester la pertinence de notre approche.
103
Implication dans des projets
de recherche
6
Sommaire
6.1 Analyse des conversations en ligne . . . . . . . . . . . . . . 107
6.2 Projet Imagiweb . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
Conclusion du chapitre . . . . . . . . . . . . . . . . . . . . . . . . . 113
D
ans ce chapitre, je présente différents projets de recherche dans lesquels je me suis investi ces dernières années. Je réserve une attention
particulière au projet ImagiWeb car il occupe une place importante dans
mon activité scientifique. Ces projets ont donné lieu à des publications
plus appliquées, telles que :
Publications : 1 conférence internationale (Velcin et al. 2014a), 1 revue
nationale (Velcin et al. 2014b).
105
6.1. Analyse des conversations en ligne
6.1
Analyse des conversations en ligne
C
ette partie récapitule l’ensemble des projets dans lesquels je me suis
investi ces dernières années sur l’analyse des conversations en ligne.
Ce travail a débuté à l’occasion de la thèse d’Anna Stavrianou (2010) et
de l’incubation d’une jeune start-up dans le cadre du projet Conversession. Il a permis de se familiariser avec le type de données que constituent
les forums de discussion et avec les problématiques afférentes : analyse
de la structure (graphe de réponses, citations), analyse du contenu textuel
(fouille de textes et d’opinion), prise en compte du réseau social sousjacent (rôles, communautés). La thèse de Mathilde Forestier (2012), bien
que n’étant pas directement associée au projet, a profité de l’expérience accumulée et de l’infrastructure logicielle mise en place. Dans la continuité,
un projet sur l’analyse des controverses, en partenariat avec le laboratoire
ELICO, a été financé par le Bonus Qualité Recherche (BQR) de l’Université Lyon 2. Il a notamment permis d’avancer sur les problématiques de
l’extraction et du nommage des thématiques avec les stages de MarianAndréi Rizoiu et Claudiu Musat. Enfin, un nouveau projet a été financé
par le BQR de l’Université sur l’analyse du vocabulaire, en partenariat
avec le laboratoire CRTT. Il a permis d’acquérir un serveur appelé MediaMining sur lequel ont été portées les différentes réalisations logicielles
produites durant ces projets. Ce serveur propose notamment le logiciel
CommentWatcher qui permet d’extraire automatiquement des forums de
discussions à partir de sites Web et d’y appliquer des outils de fouille de
données, tels que l’extraction de thématiques et leur visualisation au fil
du temps. Pour terminer ce tour d’horizon, le partenariat avec l’entreprise
Technicolor et la thèse d’Alberto Lumbreras se situent dans la droite ligne
de ces travaux puisqu’ils visent à analyser les rôles et leur dynamique
dans les communautés virtuelles.
Je donne à présent quelques détails sur les différents projets que je
viens rapidement d’évoquer.
Projet Conversession (2007-2009) – Le projet Conversession, porté par
Robin Coulet et financé par CREALYS, consistait à créer une entreprise innovante sur la mise en place et l’analyse des débats citoyens en ligne. Plus
particulièrement, il s’agissait de mettre en place une plateforme de gestion
d’un débat entre deux personnalités politiques (comme des élus locaux).
L’originalité du projet consistait à permettre aux citoyens non seulement
d’assister au débat en ligne, mais surtout d’intervenir dans ce dernier en
posant des questions en direct. Cela supposait de disposer d’un outil efficace de modération afin de sélectionner les questions les plus pertinentes à
partir du contenu mais aussi de la communauté des internautes impliqués
dans l’événement. Le rôle du laboratoire a consisté à accompagner l’entrepreneur dans l’élaboration de cet outil, en particulier en construisant avec
lui des méthodes innovantes de sélection des textes jugés les plus intéressants à partir de la structure et du contenu. Il était prévu que ces textes
intéressants remontent aux deux débateurs qui avaient ainsi l’opportunité
de répondre en direct à leurs concitoyens. Cela explique que l’extraction
107
108
Chapitre 6. Implication dans des projets de recherche
Figure 6.1 – Copie d’écran du premier prototype pour l’analyse des discussions (extrait
de la thèse d’A. Stavrianou (2010)).
de messages dits clefs constitue le cœur de la thèse d’Anna Stavrianou
(2010).
Outre les contributions scientifiques réalisées dans la thèse, ce projet a
permis la réalisation d’un prototype logiciel en Java qui affiche l’ensemble
de la discussion sous forme de deux graphes conjoints, celui des messages
et celui des utilisateurs, puis calcule différentes mesures sur ces graphes.
Les mesures consistent en des mesures standards en analyse de réseaux
(p. ex. le degré des nœuds) mais aussi en des critères d’intérêt tels que
ceux définis dans la section 4.1. Un aperçu de l’interface fournie par ce
premier prototype d’analyse des forums est donné dans la figure 6.1.
Je précise que Robin Coulet a finalement créé en 2011 l’entreprise
Conversationnel, agence de communication spécialisée dans les médias
et réseaux sociaux du Web.
Projet ERIC-ELICO (2010-2011) – Financé par le BQR de l’Université
Lyon 2, ce projet a été piloté conjointement par Jean-Hugues Chauchat
du laboratoire ERIC et Jean-Claude Soulage du laboratoire ELICO. L’objectif de ce projet était une analyse conjointe, réalisée par des spécialistes
en science de l’information et de la communication (laboratoire ELICO)
et par des spécialistes en informatique et fouille de données (laboratoire
ERIC), des débats publics tels qu’ils se déroulent dans les médias. Plus
précisément, l’idée était qu’ELICO se charge d’analyser les médias dits
traditionnels (journal TV, presse) et qu’ERIC se charge de certains médias numériques (forums, blogs). La mission des chercheurs du laboratoire ERIC consistait donc à procéder à une analyse des articles publiés sur
6.1. Analyse des conversations en ligne
des sites de presse en ligne (Liberation.fr, Mediapart, Rue89, etc.) et surtout des commentaires postés quotidiennement par les internautes. Après
avoir dû réorienter le sujet d’étude initialement imaginé qui portait sur
les dernières élections européennes, l’analyse a porté sur les deux sujets
de l’actualité de cette période qu’étaient la « loi Hadopi » et le débat sur
« l’identité nationale ». Poursuivant les travaux préalablement réalisés au
laboratoire dans le cadre du projet Conversession et de la thèse d’Anna
Stavrianou, ce projet a permis d’élaborer un système complet pour récupérer automatiquement les articles publiés sur un certain nombre de ces
sites Web et de les stocker dans une base de données relationnelle afin de
les rendre disponibles pour des analyses ultérieures.
Il faut ici souligner que la tâche n’était pas triviale car la structure des
sites change régulièrement. A l’occasion d’un projet orienté recherche du
M1 Data Mining and Knowledge Management (DMKM), des étudiants
nous ont aidé à mettre au point un système à base de règles (patrons) afin
de faciliter la mise à jour des analyseurs existants et le développement de
nouveaux. A partir de cette base d’articles, il était alors possible de calculer quelques statistiques (mots les plus fréquemment employés, quantité
d’articles par source, etc.) et de faire une classification automatique non
supervisée pour en extraire les sous-thématiques abordées. Le travail sur
l’extraction de thématiques a été réalisé avec la collaboration de MarianAndréi Rizoiu (2013c), dans le cadre de son stage de Master et de sa thèse,
et celle de Claudiu Musat en séjour scientifique au laboratoire. Ces sousthématiques permettent d’étudier les sujets à un degré plus fin, mais sans
aller toutefois jusqu’à une granularité au niveau du mot (ex. : « les réseaux
pair à pair » pour la « loi Hadopi »). Une interface graphique a également
été développée afin d’étudier ces statistiques au niveau temporel. Elle a
été ultérieurement intégrée au logiciel CommentWatcher de la plateforme
MediaMining. Enfin, il faut préciser que c’est à cette époque que j’ai commencé à construire des relations avec le milieu industriel (société AMI
Software, centre de recherche de Xerox à Grenoble) et académique (visite
d’une semaine en juillet 2010 à l’invitation de Marc El-Bèze au LIA d’Avignon) au sujet de l’analyse des opinions. Ce sujet sera décrit plus en détail
dans la section 6.2. Il est à déplorer cependant que le projet ERIC-ELICO
n’ait finalement pas abouti dans le sens où l’analyse qualitative réalisée
par les spécialistes en science de l’information et de la communication et
l’analyse quantative réalisée par nos soins (analyse des textes, extraction
des thématiques) n’ont jamais été mises en corrélation.
Projet ERIC-CRTT (2013-2014) – Ce projet récent a, là encore, financé
par le BQR de l’Université Lyon 2. Il était piloté par François Maniez du
CRTT, aidé par Jean-Hughes Chauchat et moi-même du côté du laboratoire ERIC. L’objectif du projet était d’étudier le langage utilisé dans un
domaine spécifique (ici, la médecine nucléaire) en combinant un point
de vue informatique et linguistique. En particulier, nous avons choisi de
réaliser une étude diastratique en comparant le vocabulaire employé par
différents groupes de population. Les chercheurs du CRTT sont des spécialistes des questions de terminologie, spécialistes avec lesquels il a été
possible d’identifier des problématiques pouvant bénéficier des outils développés par les informaticiens et les statisticiens du laboratoire ERIC.
109
Chapitre 6. Implication dans des projets de recherche
110
D’un point de vue pratique, nous avons identifié un sujet d’étude (la
« médecine nucléaire »), un ensemble de quatre populations (étudiants,
chercheurs en médecine, techniciens, internautes non spécialisés) et les
lieux où nous pouvions recueillir des textes rédigés par ces populations.
Il s’agissait d’articles scientifiques pour les médecins et de forums de discussion spécifiques à une population (par exemple E-carabin pour les étudiants en médecine et I-Manip pour les techniciens). La principale contribution du laboratoire a consisté à mettre à disposition des linguistes les
données récupérées grâce à la plateforme MediaMining. Le stage de Master de Bamba Kane a également permis de proposer et de tester plusieurs
mesures afin de déterminer automatiquement quels étaient les termes (certaines suites de mots) employés plus fréquemment dans une population
que dans l’ensemble des textes disponibles. Parmi les mesures essayées se
trouvent des mesures classiques, telles que le Z-score ou une mesure inspirée de TF-IDF, mais également une proposition de mesure sémantique
utilisant sur une base de connaissance (en l’occurrence DBPedia). Les collègues linguistes sont encore en train d’analyser les données fournies et la
classification des termes issue des mesures statistiques.
6.2
Projet Imagiweb
Contexte – Le Projet ImagiWeb repose sur l’intérêt que je porte à l’analyse des nouveaux médias sociaux et s’inscrit dans la continuité des travaux de recherche entamés à l’Université de Paris 6 durant ma thèse sous
la direction de Jean-Gabriel Ganascia. La constitution du consortium et de
la problématique a été réalisée de manière incrémentale. Elle trouve très
certainement son origine dans mes travaux de thèse sur l’analyse des stéréotypes (Velcin 2005), puis dans le séjour de recherche que j’ai effectué en
juillet 2010 au Laboratoire Informatique d’Avignon (LIA) sur l’invitation
de Marc El-Bèze et dans les discussions que nous avons eues au sujet de
l’analyse d’opinion. Les contacts que j’avais avec la société AMI Software
d’un côté et avec le centre Xerox d’autre part, où Anna Stavrianou avait
été embauchée après sa thèse ont fait le reste. Le laboratoire CEPEL collaborait déjà avec AMI et EDF R&D était partie prenante du projet DoXa.
J’ai déposé la proposition en tant que coordinateur principal auprès du
programme CONTINT (CONTenu et INTeraction) de l’ANR à l’automne
2011. Celui-ci a été retenu avec un financement sur trois ans de 872 000
euros, comprenant l’abondement supplémentaire attribué par la labellisation de trois pôles de compétitivité. Il a ensuite été étendu à 42 mois, pour
des raisons à la fois administratives et scientifiques.
Je décris ci-dessous les objectifs du projet et les contributions collectives réalisées jusqu’à présent.
Objectif du projet – Internet joue un rôle très important sur la manière dont nous percevons le monde qui nous entoure. En particulier, de
nombreuses entités nous parviennent uniquement par l’intermédiaire de
l’existence virtuelle qu’elles mènent sur la toile et dans les médias, qu’il
s’agisse d’un film, d’une personnalité, d’une entreprise, d’une marque.
L’enjeu du projet ImagiWeb, financé par l’ANR (2012-2015), est de dévoi-
6.2. Projet Imagiweb
ler les mécanismes qui procèdent à la production, la diffusion et l’évolution des opinions des internautes relativement à ces entités, ce que nous
appelons l’image de marque. Pour cela, l’idée est de mêler une approche
informatique, mettant notamment en œuvre des techniques d’analyse automatique des textes d’expressions postés sur Internet (blogs, tweets) et
une approche sociologique afin de déterminer l’identité des producteurs
d’opinion. Le projet donnera lieu à l’élaboration d’un prototype qui permettra de visualiser et d’interroger les images d’entités suivant deux cas
d’étude. Le premier cas traite de l’image de Nicolas Sarkozy et de François
Hollande autour de la période de l’élection présidentielle de 2012. Nous
avons ainsi pu recueillir plus de 10 millions de tweets qui fournissent un
commentaire sur l’un ou l’autre des candidats avant et après l’élection.
Le deuxième cas traite de l’image de l’entreprise EDF sur le thème du
nucléaire, pour lequel nous disposons de plus de 9339 messages postés
sur 1262 blogs. Afin de capturer l’image véhiculée par les médias sociaux,
il est nécessaire de développer des outils capables de traiter ce type de
grands volumes de données qui évoluent au fil du temps. Je décris brièvement dans la suite la méthodologie que nous avons adoptée avant de
donner les tout premiers résultats obtenus dans le projet.
Méthodologie mise en œuvre – L’un des principaux atouts du projet est
de combiner une analyse automatique des messages textuels produits sur
le Web afin d’en extraire les images avec une étude sociologique pour
caractériser au plus près les émetteurs des opinions à l’origine de ces
images. L’analyse automatique des textes contenant les opinions est un
verrou qui peut tirer partie d’annotations manuelles reflétant la connaissance des experts. Cette analyse est réalisée en utilisant à la fois des techniques issues du traitement automatique des langues, permettant une analyse fine des textes (syntaxe, négations, co-références. . . ), mais également
des techniques basées sur la co-occurrence statistique, afin de proposer
de nouvelles méthodes hybrides pour l’extraction des opinions. Ces techniques explorent notamment l’approche dite active qui permet de déterminer les messages les plus pertinents pour l’apprentissage et de demander
à l’expert de nouvelles annotations afin d’améliorer les performances finales. Les images, résultat de l’agrégation des opinions émises dans les
messages, sont reconstruites à l’aide d’algorithmes d’apprentissage automatique non supervisé s’inspirant du clustering évolutionnaire afin de
prendre en compte leur dimension temporelle (le modèle TMM développé
est présenté dans la section 3.3.2). Une fois ces images (re)constituées, différentes techniques peuvent être mises en place pour les interroger de manière conviviale : système de question-réponse, visualisation, navigation
en ligne, etc.
La représentativité de ces images et de leurs émetteurs est un verrou important. Pour aborder ce problème, nous avons choisi de découper
notre ensemble de messages en trois échantillons : un échantillon de messages tirés aléatoirement sur la base d’une requête par mots-clefs, un autre
tiré d’un panel d’internautes représentatifs et un dernier tiré d’internautes
avec une forte audience. Les deux derniers panels ont été sélectionnés par
les experts en sciences politiques du CEPEL pour le cas d’étude sur les
élections et les membres qui les constituent ont été annotés à l’aide d’in-
111
112
Chapitre 6. Implication dans des projets de recherche
formations socio-démographiques. Ces panels permettent de collecter les
publications émises par les individus puis de les analyser au fil du temps
en connaissant les caractéristiques de leurs auteurs.
Premiers résultats – Le projet est toujours en cours. Je présente à présent les contributions qui ont été réalisées à mi-parcours. Les perspectives
seront évoquées dans la conclusion du chapitre.
Plusieurs objectifs ont déjà été atteints à mi-parcours du projet. Tout
d’abord, les données brutes associées au cas d’étude des hommes politiques ont pu être extraites d’Internet et mises à la disposition des partenaires. Dans le cadre du projet, une plateforme d’annotation complète
a été réalisée afin de pouvoir sélectionner des passages à l’intérieur des
textes, préciser la polarité avec 6 modalités différentes (très négatif, négatif, neutre, ambigu, positif, très positif), mais également préciser la cible de
l’opinion (s’agit-il du bilan économique du candidat, de ses talents d’orateurs, de sa vie privée ?). A la fin d’une première campagne d’annotation,
nous avons réalisé 11 527 annotations à partir des 10 millions de tweets
mis à notre disposition. Cela correspond à 7283 tweets uniques, annotés
chacun entre 1 et 3 fois par une vingtaine de membres du consortium.
Nous avons calculé de nombreuses autres statistiques concernant la distribution des opinions sur les cibles ou dans le temps, mais aussi sur l’accord
entre les annotateurs. La plateforme d’annotation est disponible en open
source. La procédure complète d’annotation et quelques statistiques sont
données dans un article récemment accepté (Velcin et al. 2014a). Il est
prévu de mettre ces données annotées à disposition de la communauté
après une opération de pseudonymisation afin de garantir la vie privée
des émetteurs d’opinion, en accord avec la CNIL. En parallèle, nous avons
pu rassembler un ensemble de données issues de sondages officiels (p. ex.
CSA, IPSOS) mais également des caractéristiques socio-démographiques
des deux panels d’internautes représentatifs et de forte audience. En plus
des tweets recueillis initialement, nous avons recueilli 100 000 nouveaux
messages environ par ce nouveau biais. L’un des objectifs du projet est de
parvenir à classer automatiquement les opinions sur la totalité des tweets
en utilisant ceux qui ont été annotés et une approche d’apprentissage automatique actif. Il sera ensuite possible de comparer les résultats automatiques avec ceux affichés par les baromètres d’opinion pour détecter s’il
existe des corrélations.
Les recherches traitant de l’annotation automatique des messages
d’opinion ont été entamées selon trois approches : linguistique (principalement un système à base de règles), statistique (techniques d’apprentissage automatique supervisé) et hybride (mélange des deux approches
précédentes). Les algorithmes développés seront intégrés via des services
Web afin d’obtenir un prototype complet qui permettra de valider notre
approche selon les deux cas d’études envisagés. Enfin, un important travail d’investigation a été réalisé afin de définir précisément ce qu’est une
image. Cela se concrétise par une première description utilisant les technologies du Web sémantique, puis par une définition plus formelle qui servira de base aux futurs algorithmes et à leur utilisation tout au long des
scénarii prévus dans le projet. Pour résumer, une image est vue comme
une distribution des polarités émises par un groupe d’individus aux opi-
6.2. Projet Imagiweb
nions similaires selon les différents attributs qui caractérisent l’entité. Un
modèle original de classification peu supervisée est actuellement mis au
point afin d’extraire une structuration temporelle de ces images (voir le
modèle TMM dans la section 3.3.2). Le modèle est en cours de validation
mais il a déjà été montré qu’il permet d’obtenir des catégories d’opinion
plus stables et davantage fidèles aux opinions réellement exprimées dans
les tweets.
Pour le deuxième cas d’étude, c’est-à-dire l’image de l’entreprise EDF
sur le nucléaire, un ensemble de 9339 billets de blog provenant de sources
diverses a été mis à notre disposition par la société et un cahier des charges
de l’annotation a été mis au point, précisant notamment les cibles de l’opinion (tarifs, stratégie de l’entreprise, etc.). L’annotation proprement dite
est en cours et permettra d’aboutir à un jeu de données comportant environ 1000 paragraphes étiquetés. En parallèle, une analyse sémiologique
a été réalisée sur l’image de l’entreprise ; les résultats obtenus constituent
une autre contribution du projet. L’analyse a été réalisée manuellement
selon deux axes : l’image que souhaite émettre l’entreprise au sujet du nucléaire et celle perçue par les internautes au travers des billets de blog. L’un
des objectifs du projet consiste alors à comparer l’analyse automatique de
l’opinion issue des billets de blog avec cette analyse sémiologique, et ce
afin de mieux cerner l’apport des techniques automatiques dans l’analyse
de l’image de l’entreprise.
Conclusion du chapitre
Ces dernières années m’ont donné de multiples occasions de participer à
des projets appliqués en lien avec mes recherches. La plateforme MediaMining, qui résulte de l’agrégation de plusieurs projets financés de taille
modeste mais également de l’implication d’étudiants en Master et en Doctorat, n’est encore qu’une vitrine en devenir. Le logiciel CommentWatcher
est aujourd’hui utilisé pour acquérir facilement des corpus de forums de
discussion, mais il souffre du problème récurrent de modification du code
des sites Web qu’il permet d’analyser. Le méta-langage qui a été mis au
point pour accélérer le développement des analyseurs n’est pas une solution totalement pérenne à ce problème et une perspective serait de migrer vers des méthodes plus, si ce n’est totalement, automatiques. Mais le
risque encouru est de perdre en précision pour gagner en rappel.
Le projet Projet ImagiWeb est certainement le plus avancé car il résulte d’un effort prolongé dans la droite lignée de mes travaux débutés
en thèse sur la question des représentations véhiculées par les médias.
Plus de deux ans après son commencement, un certain nombre d’objectifs
ont été atteints : acquisition des données, mise en place d’une procédure
d’annotation, annotation proprement dite, mise au point d’algorithmes de
classification des cibles et des polarités d’opinion. Un premier modèle de
clustering temporel a été élaboré et il semble donner des premiers résultats
intéressants, couplés à une interface de visualisation. Comme cela a été expliqué à la fin du chapitre correspondant, ce modèle nécessite aujourd’hui
d’être mieux évalué au regard de l’état de l’art et probablement d’être
amélioré pour en lever certaines limitations. L’algorithme d’extraction des
groupes d’opinion, comme ceux développés dans les autres tâches du pro-
113
114
Chapitre 6. Implication dans des projets de recherche
jet, doivent ensuite être intégrés à un prototype logiciel afin de permettre
au spécialiste d’interroger ces images de manière conviviale : présentation résumée des images, système de questions-réponses, navigation en
ligne, etc. Dans un cadre de veille informationnelle, ce système devra permettre de mieux comprendre l’opinion des internautes exprimée au sujet
d’entités de natures diverses (dans notre cas : deux hommes politiques et
une entreprise). En ce qui concerne les sciences humaines et sociales, la
réussite du projet permettra de redéfinir la manière dont les sociologues
définissent et exploitent des panels sur le Web. Il sera ainsi possible de caractériser les populations d’internautes qui expriment les opinions constitutives des images, ce qui n’est à l’heure actuelle que peu, voire jamais,
réalisé de manière systématique.
Conclusion sur l’activité de
recherche et perspectives
7
Sommaire
7.1
7.2
Bilan général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
Perspectives de recherche . . . . . . . . . . . . . . . . . . . . 117
7.2.1
7.2.2
Agrégation d’opinion semi-supervisée . . . . . . . . . . . . 117
Conversations et rôles dans les communautés du Web . . 119
D
ans ce chapitre, je vais au-delà des conclusions partielles tirées dans
les chapitres qui précèdent afin de donner une vision plus globale des
travaux de recherches menés ces dernières années et d’imaginer les pistes
que je pourrai emprunter dans les années à venir. Certaines de ces pistes
sont d’ailleurs en cours d’investigation mais elles n’ont pas encore donné
de résultats suffisamment aboutis pour être présentés dans ce mémoire.
115
7.1. Bilan général
7.1
Bilan général
Les travaux présentés dans ce mémoire ont été menés au sein du laboratoire ERIC avec un souci constant d’allier des recherches théoriques reposant sur l’élaboration de modèles et d’algorithmes originaux à l’expérimentation du fruit de ces recherches sur des jeux de données du monde
réel et/ou issus de la littérature du domaine et à leur application dans des
projets variés. La plupart de ces projets ont été entrepris en collaboration
avec des acteurs des SHS : historiens, linguistes, sociologues. Sur le plan
local, la plateforme MediaMining illustre bien une volonté de valoriser
l’effort investi à travers plusieurs projets de taille modeste (stages, thèses,
projets BQR) afin de ne pas perdre le bénéfice de l’expérience accumulée
jusque-là. Sur le plan national, le Projet ImagiWeb illustre cette fois une
volonté de construire des collaborations durables en cherchant les compétences complémentaires requises pour répondre à des défis sociétaux
importants.
Du point de vue applicatif, j’ai choisi jusqu’ici de privilégier la capture des représentations véhiculées par les nouveaux médias sociaux. En
effet, il s’agit d’un sujet que je porte depuis ma thèse et qui me paraît
important à plus d’un titre. Je pense par exemple qu’une société comme
la nôtre doit se doter d’outils efficaces pour lutter contre toute forme de
manipulation et d’embrigadement, dérives de l’influence qui pourrait être
imputée, à tort ou à raison, aux médias et à Internet. Toutefois, le type
de méthodes que je développe peut être employé pour d’autres applications, comme cela avait été prévu dans le cadre d’un début de partenariat
avec les chercheurs en histoire du LARHRA, comme par exemple l’indexation de fonds documentaires historiques dont le volume déjà important ne
cesse de croître.
Sur le fond, mes recherche s’inscrivent clairement dans le développement de nouveaux outils pour structurer automatiquement les données
complexes. Ces outils privilégient des modèles d’apprentissage non ou
peu supervisé, modèles que l’on retrouve sous le vocable scientifique de
semi-supervised clustering, même si ceux-ci seraient plus justement nommées semi-supervised structuring (voir le titre donné par Rizoiu (2013b)
pour sa participation à la session doctorale d’IJCAI). Outre l’intégration
de connaissances et de contraintes, la prise en compte de la dimension
temporelle réalisée de manière rétrospective constitue peut-être l’une des
principales contributions de mon travail. C’est pourquoi je dédie un axe
des perspectives à cette dimension qui me paraît fondamentale pour résoudre bon nombre de problèmes.
7.2
Perspectives de recherche
7.2.1 Agrégation d’opinion semi-supervisée
Les travaux engagés dans plusieurs thèses et dans le cadre du Projet ImagiWeb m’ont permis de me familiariser avec la thématique de l’analyse des
opinions. J’ai pu constater que beaucoup d’efforts ont été fournis pour
travailler à l’échelle du message, voire de l’individu, mais moins à plus
grande échelle. Selon moi, des perspectives passionnantes résident dans
117
118
Chapitre 7. Conclusion sur l’activité de recherche et perspectives
l’agrégation des traces d’opinion, notamment lorsqu’il s’agit de la situer,
que ce soit dans l’espace (groupes d’opinion sur Twitter, domaines sur Internet) ou dans le temps. Prendre en compte une “géographie” des lieux
émettant les messages, mais également des indicateurs qualifiant ces lieux,
constitue un pas supplémentaire vers la caractérisation des sources d’opinion, dans une démarche ambitieuse de sociologie du Web. Déontologiquement, cela pose bien sûr des questions liées à l’accès aux données et
au respect de la vie privée, questions que l’on ne peut ignorer mais qui
ne doivent pas paralyser le développement d’outils qui permettraient de
mieux comprendre les débats qui agitent notre société numérique. Au-delà
d’une étude superficielle des représentations, de tels outils pourraient permettre par exemple de distinguer les avis véritablement exprimés par les
individus de manipulations visant des produits (dans une optique marketing), mais aussi des sujets de société tels que l’aménagement du territoire
(voir le projet Senterritoire, Kergosien et al. (2014)).
D’un point de vue technique, cette perspective soulève un certain
nombre de verrous. Je ne compte pas travailler spécifiquement sur les
problèmes d’acquisition ou de stockage des données, problèmes certes
importants mais qui accaparent déjà l’attention de nombreuses équipes
de recherche. Mon idée réside plutôt dans le développement de nouveaux modèles d’apprentissage automatique semi-supervisé dont l’objectif n’est pas tant de placer les objets (textes, individus, sites Web, etc.)
dans des classes prédéfinies que de proposer des manières de structurer
utilement l’information. Il s’agit de prendre en compte à la fois des structures qui émergent des données dans une approche classique ascendante
(bottom-up), mais aussi des connaissances partielles sur le problème que
l’on souhaite traiter. Ces connaissances peuvent être fournies sous forme
de lexiques (cf. section 3.2.2), de contraintes (cf. section 3.3.2) ou simplement reposer sur la présence de dates clefs permettant de découper la frise
chronologique d’une affaire. Cela me place clairement dans une optique
de weakly-supervised clustering, qui peut être vue comme une implémentation moderne de questions sur la catégorisation des objets du monde
et la création d’encyclopédies. L’une des pistes originales que je souhaite
explorer concerne la manière de traiter la dimension temporelle. En effet, la majorité des algorithmes de clustering temporel, du moins ceux qui
cherchent à agréger l’information de manière rétrospective, tels que les
modèles de clustering évolutionnaire, se contentent de discrétiser le temps
de manière uniforme. Cela peut sembler arbitraire et des solutions alternatives commencent à voir le jour.
Dans mon projet de recherche, je souhaite explorer les approches
multi-échelles pour le clustering qui travaillent à plusieurs niveaux de granularité. L’algorithme CluStream de Aggarwal et al. (2003), ou plus récemment des travaux de Iwata et al. (2010) en topic modeling, suivent cette
philosophie, mais en procédant de manière incrémentale et non rétrospective. Une autre piste m’a été inspirée par les travaux de Jaromir Antoch
à l’occasion de sa visite au laboratoire début 2014. L’idée est de trouver
automatiquement des moments précis où les catégories changent de manière significative. En apprentissage automatique supervisé, on trouve de
nombreux travaux sous l’expression « dérive de concepts » (concept drift),
mais les contributions se font plus rares lorsqu’on se place dans une pers-
7.2. Perspectives de recherche
pective de structuration de type clustering (voir par exemple les travaux de
Chen et al. (2009)). Une piste qui semble prometteuse et que je souhaite
explorer est celle de la détection des « points de rupture » ou change points
(Horváth et Hušková 2012).
Du point de vue méthodologique, deux éléments me paraissent essentiels pour mener ce projet à bien. Tout d’abord, j’envisage de continuer
à travailler de manière rétrospective, c’est-à-dire sans investir (du moins
personnellement) le domaine du traitement des données en ligne et volumineuses. Cela peut sembler contraire au contexte de big data que j’ai
brièvement décrit en introduction à ce mémoire. En effet, je pense que les
problèmes que je souhaite aborder ne seront pas nécessairement résolus
en travaillant sur des algorithmes économes ou sur la parallélisation des
processus mis en place. Au contraire, je suis de plus en plus persuadé
que la clef réside dans la sélection intelligente des données les plus adéquates, soit grâce à un échantillonnage soigneusement construit comme
dans le cas du projet ImagiWeb, soit par l’emploi de méthodes actives.
Il s’agit alors de reconstruire les données nécessaires à l’apprentissage
et d’abandonner l’illusion de données totalement observables. Bourigault
et al. (2014), par exemple, prennent le contre-pied de la plupart des méthodes de diffusion d’information, qui présupposent une topologie du
graphe connue, et se contentent d’utiliser les seules données observées
pour reconstruire des trajectoires. Le deuxième élément qui me semble
essentiel est le suivant : de la même manière que des algorithmes classiques de clustering ont pu s’inspirer des travaux réalisés en psychologie
cognitive (notion de prototype pour les K-Moyennes, Category Utility de
COBWEB), je crois fortement que l’élaboration de modèles de clustering
pour capturer des représentations de groupe devrait s’inspirer des travaux
réalisés en psychologie sociale, comme par exemple ceux sur la théorie du
noyau central (Michel 1999, Abric 2003). A minima, l’élaboration de ces
algorithmes devrait s’accomplir en partenariat étroit avec les spécialistes
de ces domaines qui étudient ce genre de phénomènes depuis des années. Cette démarche est profondément pluridisciplinaire et s’inscrit dans
le contexte développé tout au long du chapitre 2.
7.2.2 Conversations et rôles dans les communautés du Web
Un deuxième axe de recherche se situe dans la droite ligne du projet
MediaMining et des travaux sur l’analyse des forums de discussion, tels
qu’ils ont été présentés dans le chapitre 4. De nombreuses questions restent sans réponses sur l’émergence des communautés en ligne, sur leurs
caractéristiques et leurs dynamiques, sur une possible typologie de ces
lieux virtuels, sur les rôles joués par les internautes et leur influence. Ces
questions sont au cœur de ce que certains appellent la science des réseaux
(network science), qui se nourrit d’une formidable énergie déployée depuis
l’apparition d’Internet dans l’analyse des réseaux, l’étude des systèmes
complexes, la recherche d’information, etc. Elles interrogent notre société
et ses nouveaux modes de communication. L’étude des forums de discussion, en particulier, n’attire une attention significative de la communauté
informatique que depuis peu, si on la compare aux travaux pléthoriques
sur l’étude des réseaux sociaux (on pense notamment à Twitter).
119
120
Chapitre 7. Conclusion sur l’activité de recherche et perspectives
Une piste passionnante est l’étude de la dynamique des conversations
qui se déroulent au sein des forums de discussion. En effet, de nombreux
sites Web traitant de sujets aussi divers que l’actualité, la médecine, la
programmation, le bricolage, la mode, le sport, mais également une partie de la blogosphère, se sont dotés de services permettant aux individus de réagir aux articles en postant de simples commentaires, des avis
plus fournis, voire des jugements très argumentés. On peut se demander
si l’observation d’un volume suffisant de discussions permet à un modèle d’apprentissage automatique de prévoir comment l’une d’entre elles
peut évoluer. Prévoir la dynamique d’une conversation sur un forum est
une tâche qui peut se décliner de différentes manières, qui va de la plus
simple (le fil de discussion va-t-il “réussir”, par exemple en impliquant
plus de deux individus ?) à la plus difficile (quel internaute a le plus de
chance d’être le prochain à poster un message ? combien de messages au
total seront postés sur le sujet ?). Cette tâche peut être abordée comme
une tâche de classification ou de régression, mais elle peut aussi intégrer
des composantes non supervisées (voir ci-dessous). Les données sont de
nature complexe (texte, auteur du message, date, lien entre les messages)
et nécessitent d’être contextualisées. Le développement d’outils de fouille
de données pour faciliter leur analyse devient hautement stratégique pour
de nombreux acteurs de la société (spécialistes du marketing, sociologues
et linguistes, élus, etc.) car ils permettraient de mieux prendre le pouls de
la population, ou au moins d’une frange de celle-ci.
D’un point de vue technique, l’idée première est d’élaborer des modèles d’apprentissage automatique semi-supervisé basés sur des caractéristiques aussi bien structurelles (issues du graphe des messages ou des
auteurs, par exemple) que textuelles (analyse des thématiques et des opinions). Mais contrairement à une grande partie de la littérature, l’originalité consiste à introduire un aspect non supervisé de type clustering en
faisant l’hypothèse que le rôle joué par les internautes est un élément déterminant dans la manière dont la discussion va évoluer. Une autre originalité réside dans la manière d’aborder l’extraction des rôles en favorisant
une approche qui privilégie l’interaction et ses caractéristiques (comme le
message véhiculé, par exemple). Cela permet de faire un lien avec mes
travaux précédents sur les rôles tout en fixant un objectif clairement supervisé, ce qui différencie cet axe de recherche de l’axe précédent. Il s’agit
donc bien d’introduire un modèle de clustering, mais au sein d’un cadre
prédictif clairement défini, comme par exemple prédire la réussite ou non
d’un fil de discussion (classification binaire) ou le nombre de messages
qui composeront le fil (régression). Sur l’introduction des rôles, plusieurs
types de modèles peuvent être envisagés, tels que les modèles par blocs
évoqués dans la section 4.2.1. Cependant, le premier verrou à lever sera de
résoudre le problème lié à la taille de la matrice d’interactions car celle-ci
peut s’avérer très grande dans notre cas. Parmi les autres difficultés, on
peut citer la fixation du nombre de catégories, problème pour lequel nous
songeons à développer des modèles graphiques non paramétriques, ou
celui du caractère dynamique des rôles, car les individus peuvent changer de rôle (passer de newbie arrivant sur un forum à expert) et les rôles
eux-mêmes peuvent évoluer dans le temps.
Bibliographie
Douglas Aberdeen, Ondrej Pacovsky, et Andrew Slater. The learning behind gmail priority inbox. Dans LCCC : NIPS 2010 Workshop on Learning
on Cores, Clusters and Clouds, 2010. (cité page 6)
J.C. Abric. Méthodes d’étude des représentations sociales. Erès [Methods
for the study of social representations]. Ramonville Saint-Agne, France,
2003. (cité page 119)
Lada A Adamic, Jun Zhang, Eytan Bakshy, et Mark S Ackerman. Knowledge sharing and yahoo answers : everyone knows something. Dans
Proceedings of the 17th international conference on World Wide Web, pages
665–674. ACM, 2008. (cité page 74)
Gediminas Adomavicius et Alexander Tuzhilin. Toward the next generation of recommender systems : A survey of the state-of-the-art and
possible extensions. Knowledge and Data Engineering, IEEE Transactions
on, 17(6) :734–749, 2005. (cité page 68)
Nitin Agarwal, Huan Liu, Lei Tang, et Philip S Yu. Identifying the influential bloggers in a community. Dans Proceedings of the 2008 international
conference on web search and data mining, pages 207–218. ACM, 2008. (cité
page 74)
Charu C Aggarwal, Jiawei Han, Jianyong Wang, et Philip S Yu. A framework for clustering evolving data streams. Dans Proceedings of the 29th
international conference on Very large data bases-Volume 29, pages 81–92.
VLDB Endowment, 2003. (cité pages 53 et 118)
Divyakant Agrawal, Sudipto Das, et Amr El Abbadi. Big data and cloud
computing : current state and future opportunities. Dans Proceedings of
the 14th International Conference on Extending Database Technology, pages
530–533. ACM, 2011. (cité page 18)
Rakesh Agrawal, Ramakrishnan Srikant, et al. Fast algorithms for mining
association rules. Dans Proc. 20th int. conf. very large data bases, VLDB,
volume 1215, pages 487–499, 1994. (cité page 18)
Amr Ahmed et Eric P. Xing. Timeline : A dynamic hierarchical dirichlet
process model for recovering birth/death and evolution of topics in text
stream. pages 20–29, 2010. (cité page 63)
Enrique Amigó, Jorge Carrillo De Albornoz, Irina Chugur, Adolfo Corujo, Julio Gonzalo, Tamara Martín, Edgar Meij, Maarten De Rijke, et
121
122
Bibliographie
Damiano Spina. Overview of replab 2013 : Evaluating online reputation monitoring systems. Dans Information Access Evaluation. Multilinguality, Multimodality, and Visualization, pages 333–352. Springer, 2013.
(cité page 61)
Nikolay Anokhin, James Lanagan, et Julien Velcin. Social citation : finding roles in social networks. an analysis of tv-series web forums. Dans
Proceedings of the Second International Workshop on Mining Communities
and People Recommenders (COMMPER), pages 49–56, Bristol, UK, 2012.
collocated with ECML/PKDD. (cité page 65)
Sitaram Asur et Bernardo A Huberman. Predicting the future with social
media. Dans Web Intelligence and Intelligent Agent Technology (WI-IAT),
2010 IEEE/WIC/ACM International Conference on, volume 1, pages 492–
499. IEEE, 2010. (cité pages 19 et 43)
Hanan G. Ayad et Mohamed S. Kamel. Cluster-based cumulative ensembles. Dans Multiple Classifier Systems, pages 236–245. Springer, 2005.
(cité page 80)
Franz Baader. The description logic handbook : theory, implementation, and
applications. Cambridge university press, 2003. (cité page 24)
Georges Balandier. Le dépaysement contemporain, l’immédiat et l’essentiel. Dans Entretiens avec Joël Birman et Claudine Haroche. Presses Universitaires de France, 2009. (cité page 15)
Krisztian Balog, Leif Azzopardi, et Maarten De Rijke. Formal models for
expert finding in enterprise corpora. Dans Proceedings of the 29th annual
international ACM SIGIR conference on Research and development in information retrieval, pages 43–50. ACM, 2006. (cité page 74)
Sugato Basu, Arindam Banerjee, et Raymond J Mooney. Semi-supervised
clustering by seeding. Dans ICML, volume 2, pages 27–34, 2002. (cité
page 54)
Sugato Basu, Mikhail Bilenko, et Raymond J Mooney. A probabilistic framework for semi-supervised clustering. Dans Proceedings of the tenth
ACM SIGKDD international conference on Knowledge discovery and data mining, pages 59–68. ACM, 2004. (cité page 38)
Herbert Bay, Tinne Tuytelaars, et Luc Van Gool. Surf : Speeded up robust
features. Computer Vision–ECCV 2006, pages 404–417, 2006. (cité page 88)
Jean-Léon Beauvois, Gabriel Mugny, et Dominique Oberlé. Relations humaines, groupe et influence sociale. Presses universitaires de Grenoble,
1995. coll. “Psychologie sociale” (1ère édition). (cité page 26)
Jean-Paul Benzécri et L Bellier. L’analyse des données, volume 2. Dunod
Paris, 1976. (cité pages 18 et 27)
Christopher M. Bishop. Pattern Recognition and Machine Learning (Information Science and Statistics). Springer-Verlag New York, Inc., Secaucus, NJ,
USA, 2006. (cité page 59)
Bibliographie
David M Blei, Thomas L Griffiths, et Michael I Jordan. The nested chinese restaurant process and bayesian nonparametric inference of topic
hierarchies. Journal of the ACM (JACM), 57(2) :7, 2010. (cité pages 36
et 62)
David M Blei et John D Lafferty. Dynamic topic models. Dans Proceedings of the 23rd international conference on Machine learning, pages 113–
120. ACM, 2006. (cité pages 54 et 58)
David M Blei et Jon D McAuliffe. Supervised topic models. arXiv preprint
arXiv :1003.0783, 2010. (cité page 36)
David M Blei, Andrew Y Ng, et Michael I Jordan. Latent dirichlet allocation. the Journal of machine Learning research, 3 :993–1022, 2003. (cité
pages 27, 30, 36, 37 et 49)
John Blitzer, Mark Dredze, et Fernando Pereira. Biographies, bollywood,
boom-boxes and blenders : Domain adaptation for sentiment classification. Dans ACL, volume 7, pages 440–447, 2007. (cité pages 43 et 51)
Hendrik Blockeel, Luc De Raedt, et Jan Ramon. Top-down induction of
clustering trees. Dans Proceedings of the 15th International Conference on
Machine Learning, pages 55–63, 1998. (cité page 96)
Stephen P. Borgatti et Martin G. Everett. Notions of position in social network analysis. Sociological methodology, 22(1) :1–35, 1992. (cité pages 73
et 75)
Dominique Boullier, Audrey Lohard, et al. Opinion mining et ? Sentiment
analysis. OpenEdition Press, 2012. http://books.openedition.
org/oep/204. (cité pages 19, 42 et 43)
Simon Bourigault, Cedric Lagnier, Sylvain Lamprier, Ludovic Denoyer, et
Patrick Gallinari. Learning social network embeddings for predicting information diffusion. Dans Proceedings of the 7th ACM international conference on Web search and data mining, pages 393–402. ACM, 2014. (cité
page 119)
Caroline Brun. Un système de détection d’opinions fondé sur l’analyse
syntaxique profonde. Dans Actes de la conférence TALN, 2011. (cité
page 43)
Deepayan Chakrabarti, Ravi Kumar, et Andrew Tomkins. Evolutionary
clustering. Dans Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining, pages 554–560. ACM, 2006.
(cité page 54)
Jeffrey Chan, Conor Hayes, et Elizabeth Daly. Decomposing discussion
forums using common user roles. Dans Proceedings of the Fourth International AAAI Conference on Weblogs and Social Media, 2010. (cité pages 75
et 80)
Jonathan Chang, Sean Gerrish, Chong Wang, Jordan L Boyd-graber, et David M Blei. Reading tea leaves : How humans interpret topic models.
123
124
Bibliographie
Dans Advances in neural information processing systems, pages 288–296,
2009. (cité pages 37, 39 et 40)
Francis Chateauraynaud. Prospero, une méthode d’analyse des controverses publiques, 2002. URL http://psycho.univ-lyon2.fr/
sites/psycho/IMG/pdf/doc-1392-2.pdf. Entretien avec Philippe
Blanchard et Thomas Ribémont. (cité page 16)
Francis Chateauraynaud. Prospéro, une technologie littéraire pour les sciences
humaines. CNRS Paris, 2003. (cité pages 5 et 30)
Shixi Chen, Haixun Wang, et Shuigeng Zhou. Concept clustering of evolving data. Dans Data Engineering, 2009. ICDE’09. IEEE 25th International
Conference on, pages 1327–1330. IEEE, 2009. (cité page 119)
Yun Chi, Xiaodan Song, Dengyong Zhou, Koji Hino, et Belle L Tseng.
Evolutionary spectral clustering by incorporating temporal smoothness.
Dans Proceedings of the 13th ACM SIGKDD international conference on
Knowledge discovery and data mining, pages 153–162. ACM, 2007. (cité
page 54)
Jason Chuang, Christopher D Manning, et Jeffrey Heer. Termite : visualization techniques for assessing textual topic models. Dans Proceedings
of the International Working Conference on Advanced Visual Interfaces, pages
74–77. ACM, 2012. (cité page 38)
Guillaume Cleuziou. Okm : une extension des k-moyennes pour la recherche de classes recouvrantes. Dans Egc, volume 7, pages 691–702,
2007. (cité page 38)
Corrina Cortes et Vladimir Vapnik. Support-vector networks. Machine
learning, 20(3) :273–297, 1995. (cité pages 92 et 96)
Joseph A Cruz et David S Wishart. Applications of machine learning in
cancer prediction and prognosis. Cancer informatics, 2 :59, 2006. (cité
page 6)
Gabriela Csurka, Christopher R. Dance, Lixin Fan, Jutta Willamowski, et
Cédric Bray. Visual categorization with bags of keypoints. Dans Workshop on statistical learning in computer vision, ECCV, volume 1, pages 1–22,
2004. (cité page 88)
Fernando De la Torre et Carlos Agell. Multimodal diaries. Dans Multimedia and Expo, 2007 IEEE International Conference on, pages 839–842. IEEE,
2007. (cité page 54)
Scott C. Deerwester, Susan T Dumais, Thomas K. Landauer, George W.
Furnas, et Richard A. Harshman. Indexing by latent semantic analysis.
JASIS, 41(6) :391–407, 1990. (cité page 36)
Robert Deliège et al. Une histoire de l’anthropologie : écoles, auteurs et théories.
Seuil, Paris, 2006. (cité page 13)
Bibliographie
Mohamed Dermouche, Leila Khouas, Sabine Loudcher, et Julien Velcin.
Analyse d’opinions dans un cadre de veille sur le web. Dans Actes de
la 15ème Conférence Extraction et Gestion des Connaissances (EGC), Luxembourg, 2015. papier démo. (cité page 33)
Mohamed Dermouche, Leila Khouas, Julien Velcin, et Sabine Loudcher.
Ami&eric : How to learn with naive bayes and prior knowledge : an
application to sentiment analysis. Dans Second Joint Conference on Lexical and Computational Semantics (*SEM), Volume 2 : Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval 2013), pages
364–368, Atlanta, Georgia, USA, June 2013a. Association for Computational Linguistics. URL http://www.aclweb.org/anthology/
S13-2059. (cité pages 33 et 47)
Mohamed Dermouche, Julien Velcin, Sabine Loudcher, et Leila Khouas.
Une nouvelle mesure pour l’évaluation des méthodes d’extraction de
thématiques : la vraisemblance généralisée. Dans Actes de la 13ème Conférence francophones en Extraction et Gestion des Connaissances (EGC), pages
317–328, 2013b. (cité pages 33, 41 et 42)
Mohamed Dermouche, Julien Velcin, Sabine Loudcher, et Leila Khouas. A
joint model for topic-sentiment evolution over time. Dans Proceedings
of the IEEE International Conference on Data Mining (ICDM), Shenzhen,
China, 2014. (cité pages 33, 48, 49, 50 et 52)
Chris HQ Ding, Xiaofeng He, et Horst D Simon. On the equivalence of
nonnegative matrix factorization and spectral clustering. Dans Proceedings of SIAM International Conference on Data Mining (SDM), volume 5,
pages 606–610, 2005. (cité page 36)
Xiaowen Ding, Bing Liu, et Philip S Yu. A holistic lexicon-based approach
to opinion mining. Dans Proceedings of the 2008 International Conference
on Web Search and Data Mining, pages 231–240. ACM, 2008. (cité page 46)
Judith S. Donath et al. Identity and deception in the virtual community.
Communities in cyberspace, 1996 :29–59, 1999. (cité page 67)
Leonard W Doob. Public opinion and propaganda. Henry Holt, New York,
1948. (cité page 26)
G. Dowek. L’explosion mémorielle change la donne. Pour La Science, (433),
2013. (cité page 14)
Hubert L Dreyfus. What computers still can’t do : a critique of artificial reason.
The MIT Press, 1992. (cité page 28)
Nicolas Dugué et Anthony Perez. Detecting social capitalists on twitter using similarity measures. Dans Complex Networks IV, pages 1–12.
Springer, 2013. (cité pages 31 et 74)
Joseph C Dunn. A fuzzy relative of the isodata process and its use in
detecting compact well-separated clusters. Journal of Cybernetics, 1973.
(cité pages 35 et 55)
125
126
Bibliographie
Émile Durkheim. Représentations individuelles et représentations collectives. Revue de Métaphysique et de Morale, 6(3) :273–302, 1898. (cité
page 25)
Andrea Esuli et Fabrizio Sebastiani. Determining the semantic orientation
of terms through gloss classification. Dans Proceedings of the 14th ACM
international conference on Information and knowledge management, pages
617–624. ACM, 2005. (cité page 43)
Nicola Fanizzi, Claudia d ?Amato, et Floriana Esposito. Conceptual clustering and its application to concept drift and novelty detection. Dans
Proceedings of the European Semantic Web Conference (ESWC), pages 318–
332. Springer, 2008. (cité page 63)
Li Fei-Fei, Rob Fergus, et Pietro Perona. Learning generative visual models
from few training examples : An incremental bayesian approach tested
on 101 object categories. Computer Vision and Image Understanding, 106
(1) :59–70, 2007. ISSN 1077-3142. (cité page 92)
Li Fei-Fei et Pietro Perona. A bayesian hierarchical model for learning
natural scene categories. Dans Computer Vision and Pattern Recognition,
IEEE Computer Society Conference on, volume 2 de CVPR 2005, pages 524–
531. IEEE, 2005. (cité page 88)
W. Feller. An introduction to probability theory and its applications. Vol. I.
Wiley, 1950. (cité page 99)
Danyel Fisher, Marc Smith, et Howard T. Welser. You are who you talk
to : Detecting roles in usenet newsgroups. Dans System Sciences, 2006.
HICSS’06. Proceedings of the 39th Annual Hawaii International Conference
on, volume 3, pages 59b–59b. IEEE, 2006. (cité page 81)
Douglas H Fisher. Knowledge acquisition via incremental conceptual clustering. Machine learning, 2(2) :139–172, 1987. (cité page 30)
Mathilde Forestier. Extraction automatique de réseaux sociaux enrichis pour
l’analyse des rôles sociaux dans les forums de discussion en ligne. PhD thesis,
Université Lumière Lyon 2, 2012. (cité pages 73, 76, 77, 78, 79 et 107)
Mathilde Forestier, Anna Stavrianou, Julien Velcin, et Djamel A Zighed.
Roles in social networks : Methodologies and research issues. Web Intelligence and Agent Systems (WIAS), 10(1) :117–133, 2012a. (cité pages 65
et 73)
Mathilde Forestier, Julien Velcin, Anna Stavrianou, et Djamel Zighed. Extracting celebrities from online discussions. Dans Proceedings of the International Conference on Advances in Social Networks Analysis and Mining
(ASONAM), pages 322–326, Istanbul, Turkey, 2012b. IEEE Computer Society. (cité page 65)
Mathilde Forestier, Julien Velcin, et Djamel Zighed. Extracting social networks to understand interaction. Dans International Conference on Advances in Social Networks Analysis and Mining (ASONAM), pages 213–219,
Kaohsiung, Taiwan, 2011a. IEEE. (cité pages 65, 76 et 79)
Bibliographie
Mathilde Forestier, Julien Velcin, et Djamel A. Zighed. Extracting social
networks enriched by using text. Dans Proceedings of the International
Symposium on Methodologies for Intelligent Systems (ISMIS), pages 140–
145. Springer, 2011b. (cité pages 65 et 79)
Mathilde Forestier, Julien Velcin, et Djamel A. Zighed. Analyzing social
roles using enriched social network on on-line sub-communities. Dans
Proceedings of the Sixth International Conference on Digital Society (ICDS),
pages 17–22, Valencia, Spain, 2012c. (cité pages 65 et 79)
Ricardo Fraiman, Badih Ghattas, et Marcela Svarc. Interpretable clustering
using unsupervised binary trees. Advances in Data Analysis and Classification, pages 1–21, 2013. (cité page 27)
Wenjie Fu, Le Song, et Eric P. Xing. Dynamic mixed membership blockmodel for evolving networks. Dans Proceedings of the 26th annual international conference on machine learning, pages 329–336. ACM, 2009. (cité
page 75)
Benjamin CM Fung, Ke Wang, et Martin Ester. Hierarchical document
clustering using frequent itemsets. Dans Proceedings of SIAM international conference on data mining, pages 59–70, 2003. (cité page 37)
Michael Gamon, Anthony Aue, Simon Corston-Oliver, et Eric Ringger.
Pulse : Mining customer opinions from free text. Dans Advances in Intelligent Data Analysis VI, pages 121–132. Springer, 2005. (cité page 44)
J.-G. Ganascia. Expérimentations in silico. Les nouvelles d’Archimède, 51 :
18–19, 2009. (cité pages 13 et 16)
Jean-Gabriel Ganascia. Epistemology of AI Revisited in the Light of the
Philosophy of Information. Knowledge, Technology & Policy, 23(1-2) :57–
73, 2010a. (cité page 29)
Jean-Gabriel Ganascia. The generalized sousveillance society. Social Science
Information, 49(3) :489–507, 2010b. (cité page 32)
Eric Gaussier et Cyril Goutte. Relation between plsa and nmf and implications. Dans Proceedings of the 28th annual international ACM SIGIR
conference on Research and development in information retrieval, pages 601–
602. ACM, 2005. (cité page 36)
Lise Getoor. Link mining : a new data mining challenge. ACM SIGKDD
Explorations Newsletter, 5(1) :84–89, 2003. (cité page 18)
M.A. Gluck et J.E. Corter. Information, uncertainty and the utility of categories. Dans Proceedings of the Seventh Annual Conference on Cognitive
Science Society, pages 283–287, Irvine, CA, 1985. Lawrence Erlbaum Associates. (cité page 30)
Erving Goffman. The presentation of self in everyday life. Anchor Books, 1959.
(cité page 73)
127
128
Bibliographie
André Gohr, Myra Spiliopoulou, et Alexander Hinneburg. Visually summarizing the evolution of documents under a social tag. Dans Proceedings of the International Conference on Knowledge Discovery and Information
Retrieval (KDIR), pages 85–94, 2010. (cité page 38)
André Gohr, Myra Spiliopoulou, et Alexander Hinneburg. Visually summarizing semantic evolution in document streams with topic table.
Dans Proceedings of the International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management (IC3K), pages
136–150. Springer, 2013. (cité page 27)
David Goldberg, David Nichols, Brian M Oki, et Douglas Terry. Using
collaborative filtering to weave an information tapestry. Communications
of the ACM, 35(12) :61–70, 1992. (cité page 68)
Scott A. Golder et Judith Donath. Social roles in electronic communities.
Internet Research, 5 :19–22, 2004. (cité pages 75, 76, 78 et 82)
Doris Appel Graber. Mass media and American politics. CQ Press Washington, DC, 1997. (cité page 32)
Brynjar Gretarsson, John O’donovan, Svetlin Bostandjiev, Tobias Höllerer,
Arthur Asuncion, David Newman, et Padhraic Smyth. Topicnets : Visual
analysis of large text corpora with topic modeling. ACM Transactions on
Intelligent Systems and Technology (TIST), 3(2) :23, 2012. (cité page 38)
Adrien Guille, Cécile Favre, Hakim Hacid, Djamel Abdelkader Zighed,
et al. Sondy : An open source platform for social dynamics mining
and analysis. Dans Proceedings of the 2013 ACM SIGMOD International
Conference on Management of Data, 2013. (cité page 19)
Pritam Gundecha et Huan Liu. Mining social media : A brief introduction.
Tutorials in Operations Research, 1(4), 2012. (cité pages 19 et 20)
Volker Haarslev et Ralf Möller. Racer : A core inference engine for the semantic web. Dans Proceedings of the 2nd International Workshop on Evaluation of Ontology-based Tools (EON 2003), volume 87, pages 27–36, Sanibel
Island, Florida, USA, 2003. (cité page 24)
Maria Halkidi, Yannis Batistakis, et Michalis Vazirgiannis. Cluster validity
methods : part i & ii. ACM Sigmod Record, 31(2), 2002. (cité pages 36, 61
et 75)
Jiawei Han, Micheline Kamber, et Jian Pei. Data mining : concepts and techniques. Morgan kaufmann, 2006. (cité page 17)
Mark S. Handcock, Adrian E. Raftery, et Jeremy M. Tantrum. Model-based
clustering for social networks. Journal of the Royal Statistical Society : Series
A (Statistics in Society), 170(2) :301–354, 2007. (cité page 75)
Vasileios Hatzivassiloglou et Kathleen R McKeown. Predicting the semantic orientation of adjectives. Dans Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and Eighth Conference of
the European Chapter of the Association for Computational Linguistics, pages
174–181. Association for Computational Linguistics, 1997. (cité page 44)
Bibliographie
Yulan He, Chenghua Lin, Wei Gao, et Kam-Fai Wong. Dynamic joint
sentiment-topic model. ACM Transactions on Intelligent Systems and Technology (TIST), 5(1) :6, 2013. (cité page 45)
Jonathan L Herlocker, Joseph A Konstan, Loren G. Terveen, et John T.
Riedl. Evaluating collaborative filtering recommender systems. ACM
Transactions on Information Systems (TOIS), 22(1) :5–53, 2004. (cité
page 71)
Peter D. Hoff, Adrian E. Raftery, et Mark S. Handcock. Latent space approaches to social network analysis. Journal of the american Statistical
association, 97(460) :1090–1098, 2002. (cité page 23)
Thomas Hofmann. Probabilistic latent semantic indexing. Dans Proceedings of the 22nd annual international ACM SIGIR conference on Research
and development in information retrieval, pages 50–57. ACM, 1999. (cité
pages 23, 27 et 36)
Lajos Horváth et Marie Hušková. Change-point detection in panel data.
Journal of Time Series Analysis, 33(4) :631–648, 2012. (cité pages 63 et 119)
Minqing Hu et Bing Liu. Mining and summarizing customer reviews.
Dans Proceedings of the tenth ACM SIGKDD international conference on
Knowledge discovery and data mining, pages 168–177. ACM, 2004. (cité
pages 44 et 45)
Ioana Hulpus, Conor Hayes, Marcel Karnstedt, et Derek Greene. Unsupervised graph-based topic labelling using dbpedia. Dans Proceedings of
the sixth ACM international conference on Web search and data mining, pages
465–474. ACM, 2013. (cité page 37)
Xiaoming Huo, Xuelei Sherry Ni, et Andrew K Smith. A survey of
manifold-based learning methods. Mining of Enterprise Data, 2007. (cité
pages 23 et 27)
Tomoharu Iwata, Takeshi Yamada, Yasushi Sakurai, et Naonori Ueda. Online multiscale dynamic topic models. Dans Proceedings of the 16th ACM
SIGKDD international conference on Knowledge discovery and data mining,
pages 663–672. ACM, 2010. (cité pages 63 et 118)
Radwan Jalam. Apprentissage automatique et catégorisation de textes multilingues. PhD thesis, Université Lumière - Lyon 2, 2003. (cité page 6)
Rodolphe Jenatton, Julien Mairal, Francis R Bach, et Guillaume R Obozinski. Proximal methods for sparse hierarchical dictionary learning.
Dans Proceedings of the 27th International Conference on Machine Learning
(ICML), pages 487–494, 2010. (cité pages 36 et 62)
Zhang Jianjia et Luo Limin. Combined category visual vocabulary : A
new approach to visual vocabulary construction. Dans Image and Signal
Processing, 4th International Congress on, volume 3 de CISP 2011, pages
1409–1415, Octobre 2011. (cité page 89)
129
130
Bibliographie
Wei Jin, Hung Hay Ho, et Rohini K Srihari. Opinionminer : a novel machine learning system for web opinion mining and extraction. Dans
Proceedings of the 15th ACM SIGKDD international conference on Knowledge
discovery and data mining, pages 1195–1204. ACM, 2009. (cité page 43)
Yohan Jo et Alice H Oh. Aspect and sentiment unification model for online review analysis. Dans Proceedings of the fourth ACM international
conference on Web search and data mining, pages 815–824. ACM, 2011. (cité
pages 45 et 51)
Denise Jodelet et Serge Moscovici. Folies et représentations sociales. Presses
universitaires de France, 1989. (cité pages 14, 25 et 28)
Nikos Kalampalikis et Serge Moscovici. Une approche pragmatique de
l’analyse alceste. Les cahiers internationaux de psychologie sociale, (2) :15–
24, 2005. (cité page 30)
Jaap Kamps, MJ Marx, Robert J Mokken, et Maarten De Rijke. Using
wordnet to measure semantic orientations of adjectives. pages 1115–
1118, 2004. (cité page 44)
Andreas M Kaplan et Michael Haenlein. Users of the world, unite ! the
challenges and opportunities of social media. Business horizons, 53(1) :
59–68, 2010. (cité page 19)
Alistair Kennedy et Diana Inkpen. Sentiment classification of movie reviews using contextual valence shifters. Computational Intelligence, 22(2) :
110–125, 2006. (cité page 43)
E. Kergosien, B. Laval, M. Roche, et M. Teisseire. Are opinions expressed
in land-use planning documents ? International Journal of Geographical
Information Science, 2014. To appear. (cité page 118)
Erica Suyeon Kim et Steve Sangki Han. An analytical way to find influencers on social networks and validate their effects in disseminating social
games. Dans Social Network Analysis and Mining, 2009. ASONAM’09.
International Conference on Advances in, pages 41–46. IEEE, 2009. (cité
page 74)
Soo-Min Kim et Eduard H Hovy. Crystal : Analyzing predictive opinions
on the web. Dans EMNLP-CoNLL, pages 1056–1064, 2007. (cité page 43)
Young-Min Kim, J. Velcin, S. Bonnevay, et M. A. Rizoiu. Temporal Multinomial Mixture for Instance-oriented Evolutionary Clustering. Dans Proceedings of the European Conference on Information Retrieval (ECIR), Vienna,
Austria, 2015. (cité pages 33 et 60)
Teemu Kinnunen, Joni Kristian Kamarainen, Lasse Lensu, Jukka Lankinen, et Heikki Kälviäinen. Making visual object categorization more
challenging : Randomized caltech-101 data set. Dans 2010 International Conference on Pattern Recognition, pages 476–479. IEEE, 2010. (cité
page 92)
Bibliographie
Dan Klein, Sepandar D Kamvar, et Christopher D Manning. From
instance-level constraints to space-level constraints : Making the most
of prior knowledge in data clustering. 2002. (cité page 54)
Jean-Marie Klinkenberg. Précis de sémiotique générale. Le Seuil, 2000. (cité
pages 24, 26, 30 et 63)
Nozomi Kobayashi, Kentaro Inui, et Yuji Matsumoto. Extracting aspectevaluation and aspect-of relations in opinion mining. Dans EMNLPCoNLL, pages 1065–1074, 2007. (cité page 45)
Teuvo Kohonen. Self-organized formation of topologically correct feature
maps. Biological cybernetics, 43(1) :59–69, 1982. (cité page 27)
Arnd Kohrs et Bernard Mérialdo. Improving collaborative filtering for
new-users by smart object selection. Dans ICME 2001, International
Conference on Media Futures, 8-9 May 2001, Florence, Italy, Florence, ITALIE, 05 2001. URL https://www.eurecom.fr/publication/670.
(cité page 68)
Solomon Kullback. Letter to the editor : The kullback-leibler distance.
American Statistician, 41(4) :340–340, 1987. (cité page 51)
Nicolas Labroche. Online fuzzy medoid based clustering algorithms. Neurocomputing, 126 :141–150, 2014. (cité page 53)
John D Lafferty et David M Blei. Correlated topic models. Dans Advances in neural information processing systems, pages 147–154, 2005. (cité
page 36)
George Lakoff. Women, fire, and dangerous things : What categories reveal about the mind. 1987. (cité page 25)
James Lanagan, Nikholai Anokhin, et Julien Velcin. Early stage conversation catalysts on entertainment-based web forums. Dans Fazli Can, Tansel Ozyer, et Faruk Polat, éditeurs, State of the Art Applications of Social
Network Analysis, pages 97–118. Springer, 2014. ISBN 978-3-319-05912-9.
(cité pages 65, 80, 81 et 82)
Aurélien Lauf, Mathieu Valette, et Leila Khouas. Analyse du graphe des
cooccurrents de deuxième ordre pour la classification non-supervisée
de documents. Dans Actes des 11èmes Journées Internationales d ?Analyse
statistique des Données Textuelles (JADT), pages 577–589, Liège, 2012. (cité
page 35)
Julien Lecomte. Médias : influence, pouvoir et fiabilité : A quoi peut-on se fier ?
Editions L’Harmattan, 2012. (cité page 31)
Claire Lemercier et ZALC Claire. Méthodes quantitatives pour l’historien. la
Découverte, 2010. (cité pages 29 et 30)
Claude Levi Strauss. Les structures élémentaires de la parenté. Paris,
Presses Universitaires, 1949. (cité page 14)
131
Bibliographie
132
Chengtao Li, Jianwen Zhang, Jian-Tao Sun, et Zheng Chen. Sentiment
topic model with decomposed prior. Dans Proceedings of the SIAM International Conference on Data mining (SDM). SIAM, 2013. (cité page 45)
Fangtao Li, Minlie Huang, et Xiaoyan Zhu. Sentiment analysis with global
topics and local dependency. Dans AAAI Conference on Artificial Intelligence. AAAI Press, 2010. (cité page 45)
Chenghua Lin, Yulan He, Richard Everson, et Stefan Ruger. Weakly supervised joint sentiment-topic detection from text. Knowledge and Data
Engineering, IEEE Transactions on, 24(6) :1134–1145, 2012. (cité pages 45
et 51)
Wei-Hao Lin et Alexander Hauptmann. Structuring continuous video recordings of everyday life using time-constrained clustering. Dans Electronic Imaging 2006, pages 60730D–60730D. International Society for Optics and Photonics, 2006. (cité page 54)
Carolus Linnaeus et al. Systema naturae per regna tria naturae, secundum classes, ordines, genera, species, cum characteribus, differentiis, synonymis, locis. 1758. URL http://gallica.bnf.fr/ark:/12148/
bpt6k6468158v.r=Systema+natur%C3%A6.langFR. (cité page 30)
Walter Lippmann. Public opinion.
pages 25, 26 et 28)
Transaction Publishers, 1922.
(cité
Bing Liu. Sentiment analysis and opinion mining. Synthesis Lectures on
Human Language Technologies, 5(1) :1–167, 2012. (cité page 43)
Liu Huan Liu et Hiroshi Motoda. Feature extraction, construction and selection : A data mining perspective. Springer, 1998. (cité pages 23 et 27)
Francois Lorrain et Harrison C. White. Structural equivalence of individuals in social networks. The Journal of mathematical sociology, 1(1) :49–80,
1971. (cité page 15)
David G. Lowe. Distinctive image features from scale-invariant keypoints.
International Journal of Computer Vision, 60(2) :91–110, 2004. (cité pages 88
et 89)
Alberto Lumbreras, James Lanagan, Julien Velcin, et Bertrand Jouve. Analyse des rôles dans les communautés virtuelles : définitions et premières
expérimentations sur IMDb. 2013. Travail sélectionné et présenté lors
de la 4ième conférence sur les Modèles et l’Analyse des Réseaux : Approches Mathématiques et Informatiques (MARAMI). (cité pages 65
et 73)
James MacQueen et al. Some methods for classification and analysis of
multivariate observations. Dans Proceedings of the fifth Berkeley symposium
on mathematical statistics and probability, volume 1, page 14. California,
USA, 1967. (cité page 30)
Davide Magatti, Silvia Calegari, Davide Ciucci, et Fabio Stella. Automatic
labeling of topics. Dans Intelligent Systems Design and Applications, 2009.
Bibliographie
ISDA’09. Ninth International Conference on, pages 1227–1232. IEEE, 2009.
(cité page 37)
Bronislaw Malinowski, André Devyver, Simone Devyver, James G Fraser,
Michel Panoff, et Charles Lénars. Les argonautes du Pacifique occidental.
1922. traduction française en 1963. (cité page 14)
Paolo Massa et Paolo Avesani. Trust metrics on controversial users : Balancing between tyranny of the majority. International Journal on Semantic
Web and Information Systems (IJSWIS), 3(1) :39–64, 2007. (cité page 74)
Andrew McCallum, Andres Corrada-Emmanuel, et Xuerui Wang. Topic
and role discovery in social networks. Computer Science Department Faculty Publication Series, page 3, 2005. (cité page 75)
Maxwell E McCombs et Donald L Shaw. The agenda-setting function of
mass media. Public opinion quarterly, 36(2) :176–187, 1972. (cité page 31)
Qiaozhu Mei, Xu Ling, Matthew Wondra, Hang Su, et ChengXiang Zhai.
Topic sentiment mixture : modeling facets and opinions in weblogs.
Dans Proceedings of the 16th international conference on World Wide Web,
pages 171–180. ACM, 2007. (cité page 45)
Yelena Mejova, Padmini Srinivasan, et Bob Boynton. Gop primary season
on twitter : popular political sentiment in social media. Dans Proceedings
of the sixth ACM international conference on Web search and data mining,
pages 517–526. ACM, 2013. (cité page 21)
G. Michel. L’évolution des marques : approche par la théorie du noyau
central. Recherche et applications en marketing, pages 33–53, 1999. (cité
page 119)
George A Miller. Wordnet : a lexical database for english. Communications
of the ACM, 38(11) :39–41, 1995. (cité page 39)
Jacob L. Moreno et Helen Hall Jennings. Who shall survive ? a new approach to the problem of human interrelations. 1934. (cité page 15)
Serge Moscovici. La psychanalyse, son image et son public : étude sur la représentation sociale de la psychanalyse. Presses universitaires de France, 1961.
(cité pages 6, 25 et 28)
Fabrice Muhlenbach et Stéphane Lallich. Discovering research communities by clustering bibliographical data. Dans Web Intelligence and Intelligent Agent Technology (WI-IAT), 2010 IEEE/WIC/ACM International Conference on, volume 1, pages 500–507. IEEE, 2010. (cité page 23)
Claudiu Cristian Musat, Julien Velcin, Marian-Andrei Rizoiu, et Stefan
Trausan-Matu. Concept-based topic model improvement. Dans Proceedings of the International Symposium on Methodologies for Intelligent Systems
(ISMIS), pages 133–142. Springer, 2011a. Industrial track. (cité pages 33
et 40)
133
134
Bibliographie
Claudiu Cristian Musat, Julien Velcin, Stefan Trausan-Matu, et MarianAndrei Rizoiu. Improving topic evaluation using conceptual knowledge. Dans Proceedings of the Twenty-Second International Joint Conference
on Artificial Intelligence (IJCAI), pages 1866–1871. AAAI Press, 2011b.
(cité pages 33 et 40)
Preslav Nakov, Zornitsa Kozareva, Alan Ritter, Sara Rosenthal, Veselin
Stoyanov, et Theresa Wilson. Semeval-2013 task 2 : Sentiment analysis
in twitter. 2013. (cité page 43)
Brendan O’Connor, Ramnath Balasubramanyan, Bryan R Routledge, et
Noah A Smith. From tweets to polls : Linking text sentiment to public opinion time series. ICWSM, 11 :122–129, 2010. (cité page 21)
Stanisław Osiński, Jerzy Stefanowski, et Dawid Weiss. Lingo : Search results clustering algorithm based on singular value decomposition. Dans
Intelligent information processing and web mining, pages 359–368. Springer,
2004. (cité page 38)
Pentti Paatero et Unto Tapper. Positive matrix factorization : A nonnegative factor model with optimal utilization of error estimates of data
values. Environmetrics, 5(2) :111–126, 1994. (cité pages 27 et 36)
Giulia Pagallo et David Haussler. Boolean feature discovery in empirical learning. Machine learning, 5(1) :71–99, 1990. ISSN 0885-6125. (cité
page 96)
Lawrence Page, Sergey Brin, Rajeev Motwani, et Terry Winograd. The pagerank citation ranking : Bringing order to the web. 1999. (cité page 22)
Aditya Pal et Scott Counts. Identifying topical authorities in microblogs.
Dans Proceedings of the fourth ACM international conference on Web search
and data mining, pages 45–54. ACM, 2011. (cité page 74)
Aditya Pal, Rosta Farzan, Joseph A. Konstan, et Robert E. Kraut. Early
detection of potential experts in question answering communities. Dans
User Modeling, Adaption and Personalization, pages 231–242. Springer,
2011. (cité page 74)
Bo Pang et Lillian Lee. A sentimental education : Sentiment analysis using
subjectivity summarization based on minimum cuts. Dans Proceedings
of the 42nd Annual Meeting on Association for Computational Linguistics
(ACL’04), pages 271–278, Barcelona, Catalonia, Spain, 2004. ACL. URL
http://dl.acm.org/citation.cfm?id=1218990. (cité page 46)
Bo Pang, Lillian Lee, et Shivakumar Vaithyanathan. Thumbs up ? : sentiment classification using machine learning techniques. Dans Proceedings of the ACL-02 conference on Empirical methods in natural language
processing-Volume 10, pages 79–86. Association for Computational Linguistics, 2002. (cité page 43)
Tan Pang-Ning, Michael Steinbach, Vipin Kumar, et al. Introduction to
data mining. Dans Library of Congress, 2006. (cité page 17)
Bibliographie
Michael Pazzani et Daniel Billsus. Learning and revising user profiles :
The identification of interesting web sites. Machine Learning, 27(3) :313–
331, 1997. (cité page 68)
Florent Perronnin, Christopher R. Dance, Gabriela Csurka, et Marco Bressan. Adapted vocabularies for generic visual categorization. Computer
Vision–ECCV 2006, pages 464–475, 2006. (cité page 89)
Aurora Pons-Porrata, Rafael Berlanga-Llavori, et José Ruiz-Shulcloper.
Building a hierarchy of events and topics for newspaper digital libraries. Dans Advances in Information Retrieval, pages 588–596. Springer,
2003. (cité page 35)
Ana-Maria Popescu et Orena Etzioni. Extracting product features and
opinions from reviews. Dans Natural language processing and text mining,
pages 9–28. Springer, 2007. (cité page 45)
Ana-Maria Popescu, Bao Nguyen, et Oren Etzioni. Opine : Extracting product features and opinions from reviews. Dans Proceedings of
HLT/EMNLP on interactive demonstrations, pages 32–33. Association for
Computational Linguistics, 2005. (cité page 44)
Erik Qualman. Socialnomics : How social media transforms the way we live and
do business. John Wiley & Sons, 2012. (cité pages 19 et 26)
John Ross Quinlan. Induction of decision trees. Machine learning, 1(1) :
81–106, 1986. (cité pages 18 et 96)
John Ross Quinlan. C4.5 : programs for machine learning. Morgan Kaufmann,
1993. (cité page 96)
Max Reinert. Alceste une méthodologie d’analyse des données textuelles
et une application : Aurelia de gerard de nerval. Bulletin de méthodologie
sociologique, 26(1) :24–54, 1990. (cité pages 5 et 30)
Heinrich Rickert. Kulturwissenschaft und Naturwissenschaft. J.C.B. Mohr,
Tubingen, 1921. 5ème édition. (cité page 13)
Marian-Andrei Rizoiu. Semi-supervised structuring of complex data. PhD
thesis, Université Lyon 2, 2013a. (cité page 17)
Marian-Andrei Rizoiu. Semi-supervised structuring of complex data.
Dans Proceedings of the Twenty-Third International Joint Conference on Artificial Intelligence (IJCAI), pages 3239–3240. AAAI Press, 2013b. (cité
page 117)
Marian-Andrei Rizoiu, J. Velcin, et S. Lallich. How to use temporal-driven
constrained clustering to detect typical evolutions. International Journal
on Artificial Intelligence Tools (IJAIT), 23(4), 2014. (cité pages 33, 56 et 57)
Marian-Andrei Rizoiu et Julien Velcin. Topic extraction for ontology learning. Dans Wilson Wong, Wei Liu, et Mohammed Bennamoun, éditeurs,
Ontology Learning and Knowledge Discovery Using the Web : Challenges and
Recent Advances, pages 38–61. IGI Global, 2011. (cité page 33)
135
136
Bibliographie
Marian-Andrei Rizoiu, Julien Velcin, et Jean-Hugues Chauchat. Regrouper les données textuelles et nommer les groupes à l’aide des classes
recouvrantes. Dans Actes de la 10ème Conférence Extraction et Gestion
des Connaissances (EGC), Hammamet, Tunisie, pages 561–572, 2010. (cité
pages 33 et 39)
Marian-Andrei Rizoiu, Julien Velcin, et Stéphane Lallich. Structuring typical evolutions using temporal-driven constrained clustering. Dans Proceedings of the 24th International Conference on Tools with Artificial Intelligence (ICTAI), volume 1, pages 610–617, Athens, Greece, 2012. IEEE. (cité
pages 33 et 57)
Marian-Andrei Rizoiu, Julien Velcin, et Stéphane Lallich. Unsupervised
feature construction for improving data representation and semantics.
Journal of Intelligent Information Systems (JIIS), 40(3) :501–527, 2013. (cité
pages 85 et 102)
Marian-Andrei Rizoiu, Julien Velcin, et Stéphane Lallich. Semanticenriched visual vocabulary construction in a weakly supervised context.
Intelligent Data Analysis (IDA), 19(1) :161–185, 2015. (cité pages 85 et 94)
Marian-Andréi Rizoiu. Semi-supervised structuring of complex data. PhD
thesis, Université Lumière Lyon 2, 2013c. (cité pages 40, 57, 88, 91, 92,
93, 94, 95, 97, 101, 102 et 109)
Thomas N Robinson, Dina LG Borzekowski, Donna M Matheson, et Helena C Kraemer. Effects of fast food branding on young children’s taste
preferences. Archives of Pediatrics & Adolescent Medicine, 161(8) :792, 2007.
(cité page 31)
Eleanor Rosch. Principles of categorization. Concepts : core readings, pages
189–206, 1999. (cité pages 6, 25 et 30)
Eleanor H Rosch. Natural categories. Cognitive psychology, 4(3) :328–350,
1973. (cité page 25)
Steven C Rosenbaum. Curation Nation : How to Win in a World where Consumers are Creators : why the Future of Content is Context. McGraw-Hill, 2011.
(cité page 28)
Gerard Salton, Anita Wong, et Chung-Shu Yang. A vector space model for
automatic indexing. Communications of the ACM, 18(11) :613–620, 1975.
(cité page 35)
Y. Sawaragi, H. Nakayama, et T. Tanino. Theory of multiobjective optimization, volume 176. Academic Press New York, 1985. (cité pages 96 et 100)
Mario Schmidt. Der einsatz von sankey-diagrammen im stoffstrommanagement. Rapport Technique 124, Beiträge der Hochschule Pforzheim,
2006. (cité page 62)
Thomas Schoberth, Jennifer Preece, et Armin Heinzl. Online communities : A longitudinal analysis of communication activities. Dans System
Sciences, 2003. Proceedings of the 36th Annual Hawaii International Conference on, pages 10–pp. IEEE, 2003. (cité page 67)
Bibliographie
Joseph E. Schwartz et Merle Sprinzen. Structures of connectivity. Social
Networks, 6(2) :103–140, 1984. (cité page 73)
Jerry Scripps, Pang-Ning Tan, et Abdol-Hossein Esfahanian. Node roles
and community structure in networks. Dans Proceedings of the 9th
WebKDD and 1st SNA-KDD 2007 workshop on Web mining and social network analysis, pages 26–35. ACM, 2007. (cité page 74)
Claude E Shannon. Key papers in the development of information theory.
Bell Syst. Tech. J, 27 :623–656, 1948. (cité page 26)
Josef Sivic, Bryan C. Russell, Alexei A. Efros, Andrew Zisserman, et
William T. Freeman. Discovering objects and their location in images.
Dans Computer Vision, Tenth IEEE International Conference on, volume 1
de ICCV 2005, pages 370–377. IEEE, 2005. (cité page 88)
Anna Stavrianou. Modeling and Mining of Web Discussions. PhD thesis,
Université Lumière Lyon 2, 2010. (cité pages 69, 70, 71, 72, 107 et 108)
Anna Stavrianou, Periklis Andritsos, et Nicolas Nicoloyannis. Overview
and semantic issues of text mining. ACM Sigmod Record, 36(3) :23–34,
2007. (cité page 18)
Anna Stavrianou, J-H Chauchat, et Julien Velcin. A content-oriented framework for online discussion analysis. Dans Advanced Information Networking and Applications Workshops, 2009. WAINA’09. International Conference on, pages 721–726. IEEE, 2009a. (cité pages 65 et 72)
Anna Stavrianou, Julien Velcin, et Jean-Hugues Chauchat. A combination
of opinion mining and social network techniques for discussion analysis. Revue des Nouvelles Technologies de l’Information (RNTI), pages 25–44,
2009b. (cité pages 65 et 72)
Anna Stavrianou, Julien Velcin, et Jean-Hugues Chauchat. Definition and
measures of an opinion model for mining forums. Dans International
Conference on Advances in Social Network Analysis and Mining (ASONAM),
pages 188–193, Athens, Greece, 2009c. IEEE. (cité pages 65 et 72)
Anna Stavrianou, Julien Velcin, et Jean-Hugues Chauchat. PROG : A Complementary Model to the Social Networks for Mining Forums. Dans
From Sociology to Computing in Social Networks. Springer-Verlag, 2010.
ISBN 978-3-7091-0293-0. (cité page 72)
Veselin Stoyanov et Claire Cardie. Topic identification for fine-grained
opinion analysis. Dans Proceedings of the 22nd International Conference on
Computational Linguistics-Volume 1, pages 817–824. Association for Computational Linguistics, 2008. (cité page 45)
A. Stuart, M. Kendall, et J. Keith Ord. The advanced theory of statistics. Vol.
3 : Design and analysis and time-series. Griffin, 1983. (cité page 79)
Andranik Tumasjan, Timm Oliver Sprenger, Philipp G Sandner, et Isabell M Welpe. Predicting elections with twitter : What 140 characters reveal about political sentiment. ICWSM, 10 :178–185, 2010. (cité page 21)
137
138
Bibliographie
Peter D Turney et Michael L Littman. Measuring praise and criticism :
Inference of semantic orientation from association. ACM Transactions on
Information Systems (TOIS), 21(4) :315–346, 2003. (cité page 44)
Julien Velcin. Extraction automatique de stéréotypes à partir de données symboliques et lacunaires. PhD thesis, Université de Paris 6, 2005. (cité pages 58
et 110)
Julien Velcin et Jean-Gabriel Ganascia. Stereotype extraction with default
clustering. Dans Proceedings of the Twenty-Second International Joint Conference on Artificial Intelligence (IJCAI), pages 883–888, 2005. (cité page 58)
Julien Velcin et Jean-Gabriel Ganascia. Topic extraction with AGAPE. Dans
Advanced Data Mining and Applications, pages 377–388. Springer, 2007.
(cité page 35)
Julien Velcin, Y.M. Kim, C. Brun, J.Y. Dormagen, E. SanJuan, L. Khouas,
A. Peradotto, S. Bonnevay, C. Roux, J. Boyadjian, A. Molina, et M. Neihouser. Investigating the image of entities in social media : Dataset design and first results. Dans Proceedings of the 9th International Conference
on Language Resources and Evaluation (LREC), pages 818–822, Reykjavik,
Iceland, 2014a. (cité pages 59, 60, 105 et 112)
Julien Velcin, A. Peradotto, L. Khouas, J.V. Cossu, J.Y. Dormagen, et
C. Brun. Analyser l’image de marque d’entités sur le web : revue du
projet imagiweb. Ingénierie des Systèmes d’Information (ISI), 19(3) :159–
162, 2014b. numéro spécial big data. (cité page 105)
Fernanda B. Viégas et Marc Smith. Newsgroup crowds and authorlines :
Visualizing the activity of individuals in conversational cyberspaces.
Dans System Sciences, 2004. Proceedings of the 37th Annual Hawaii International Conference on, pages 10–pp. IEEE, 2004. (cité page 75)
Marc Vincent et Grégoire Winterstein. Construction et exploitation d ?un
corpus français pour l ?analyse de sentiment. Dans Actes de la 20ème
conférence sur le Traitement Automatique des Langues Naturelles (TALN), numéro 2007, pages 764–771, 2013. (cité page 46)
Julia Vogel et Bernt Schiele. Semantic modeling of natural scenes for
content-based image retrieval. International Journal of Computer Vision,
72(2) :133–157, 2007. (cité page 88)
Xuerui Wang et Andrew McCallum. Topics over time : a non-markov
continuous-time model of topical trends. Dans Proceedings of the 12th
ACM SIGKDD international conference on Knowledge discovery and data mining, pages 424–433. ACM, 2006. (cité pages 36, 47 et 50)
Yuchung J. Wang et George Y. Wong. Stochastic blockmodels for directed
graphs. Journal of the American Statistical Association, 82(397) :8–19, 1987.
(cité page 75)
Christian Wartena et Rogier Brussee. Topic detection by clustering keywords. Dans Database and Expert Systems Application, 2008. DEXA’08.
19th International Workshop on, pages 54–58. IEEE, 2008. (cité page 37)
Bibliographie
Furu Wei, Shixia Liu, Yangqiu Song, Shimei Pan, Michelle X Zhou, Weihong Qian, Lei Shi, Li Tan, et Qiang Zhang. Tiara : a visual exploratory
text analytic system. Dans Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining, pages 153–162.
ACM, 2010. (cité pages 27 et 38)
Zhihua Wei, Duoqian Miao, Jean-Hugues Chauchat, et Caiming Zhong.
Feature selection on chinese text classification using character n-grams.
Dans Rough Sets and Knowledge Technology, pages 500–507. Springer,
2008. (cité page 7)
Douglas R. White et Karl P. Reitz. Graph and semigroup homomorphisms
on networks of relations. Social Networks, 5(2) :193–234, 1983. (cité
page 75)
Shimon Whiteson et Daniel Whiteson. Machine learning for event selection in high energy physics. Engineering Applications of Artificial Intelligence, 22(8) :1203–1217, 2009. (cité page 6)
William Foote Whyte. Street corner society. the social structure of an italian
slum. 1943. (cité page 14)
Janyce Wiebe, Theresa Wilson, et Claire Cardie. Annotating expressions
of opinions and emotions in language. Language resources and evaluation,
39(2-3) :165–210, 2005. (cité page 42)
Christine Williams et Girish Gulati. What is a social network worth ? facebook and vote share in the 2008 presidential primaries. Dans Annual
Meeting of the American Political Science Association, volume 54, 2008. (cité
page 21)
Ian H. Witten et Eibe Frank. Data Mining : Practical machine learning tools
and techniques. Morgan Kaufmann, 2005. (cité page 78)
Ian H Witten, Eibe Frank, et Mark A Hall. Data Mining : Practical Machine Learning Tools and Techniques : Practical Machine Learning Tools and
Techniques. Elsevier, 2011. (cité page 17)
Ludwig Wittgenstein, Gertrude Elizabeth Margaret Anscombe, et Marion
Cumming. Philosophical investigations, volume 255. Blackwell Oxford,
1958. (cité page 25)
A.P. Wolfe et David Jensen. Playing multiple roles : Discovering overlapping roles in social networks. Dans ICML-04 Workshop on Statistical
Relational Learning and its Connections to Other Fields, 2004. (cité page 75)
Tianbing Xu, Zhongfei Zhang, Philip S Yu, et Bo Long. Generative models
for evolutionary clustering. ACM Transactions on Knowledge Discovery
from Data (TKDD), 6(2) :7, 2012. (cité page 54)
Sarita Yardi, Daniel Romero, Grant Schoenebeck, et al. Detecting spam in
a twitter network. First Monday, 15(1), 2009. (cité page 74)
Dan Zarrella. The social media marketing book. O’Reilly, 2010. (cité page 32)
139
140
Bibliographie
Harry Zhang. The optimality of Naive Bayes. Dans Proceedings of the
7th International Florida Artificial Intelligence Research Society Conference
(FLAIRS), pages 562–567, Miami Beach, Florida, USA, 2004. AAAI Press.
(cité page 45)
Jianguo Zhang, Marcin Marszałek, Svetlana Lazebnik, et Cordelia Schmid.
Local features and kernels for classification of texture and object categories : A comprehensive study. International Journal of Computer Vision,
73(2) :213–238, 2007. (cité page 89)
Djamel A. Zighed. Les Humanités Numériques : la révolution en Sciences
Humaines et Sociales. Revue des Nouvelles Technologies de l’Information
(RNTI), pages 01–28, 2014. Modèles et Apprentissage en Sciences Humaines et Sociales (MASHS-2). (cité pages 16 et 29)
Djamel A Zighed, Shusaku Tsumoto, Zbigniew W Ras, et Hakim Hacid.
Mining complex data, volume 165. Springer, 2009. (cité pages 5 et 17)
Webographie
Abiteboul, 2012. Sciences des données : de la logique du premier ordre à la
toile. URL http://books.openedition.org/cdf/529?lang=fr.
Leçon inaugurale prononcée au Collège de France le jeudi 8 mars 2012
(accédé le 15 juillet 2014).
American Idol.
American idol – wikipedia.
URL http://fr.
wikipedia.org/wiki/American_Idol. Accédé le 24 juin 2014.
AMI EI. Ami enterprise intelligence software. URL http://www.amisw.
com/fr. Accédé le 13 décembre 2013.
AMI Software. Ami software - logiciel de veille stratégique, market intelligenceami software. URL http://www.amisw.com/fr. Accédé le 23
mai 2014.
Apopsis. Un détecteur d’opinions qui explore les tweets sur le sujet
qui vous intéresse ! URL http://taln.lina.univ-nantes.fr/
apopsis. Accédé le 6 décembre 2013.
ASU Coordination Tracker. ASU Coordination Tracker : Non-profit organization need to distribute aid effectively. URL http://alive-dev.
asu.edu/homepage. Accédé le 6 décembre 2013.
BnF. Bibliothèque nationale de france. URL http://www.bnf.fr/fr/
acc/x.accueil.html. Accédé le 16 juillet 2014.
Boards.ie. ICWSM-12 - Submitting - Datasets. URL http://www.icwsm.
org/2012/submitting/datasets. Accédé le 18 avril 2014.
BradFrost. Brad Frost Web : Web Design, Speaking, Consulting, Music
and Art. URL http://bradfrostweb.com. Accédé le 12 novembre
2013.
CALO. Cognitive Assistant that Learns and Organizes. URL http://
www.calosystem.org. Accédé le 6 décembre 2013.
CEPEL. Centre d’etudes politiques de l’europe latine (cepel) / unités de
recherche / recherche / université montpellier 1 - université montpellier 1. URL http://www.univ-montp1.fr/recherche/unites_
de_recherche/centre_d_etudes_politiques_de_l_europe_
latine_cepel. Accédé le 23 mai 2014.
CREALYS. Incubateur crealys. URL http://www.crealys.com. Accédé le 23 mai 2014.
141
142
Webographie
CRTT.
Université lyon 2 - centre de recherche en
terminologie
et
traduction
(crtt).
URL
http://
www.univ-lyon2.fr/recherche/laboratoires/
centre-de-recherche-en-terminologie-et-traduction-crtt--305727.
kjsp?RH=WWW303. Accédé le 23 mai 2014.
Data Mining and Knowledge Management (DMKM). Erasmus mundus
master course in data mining and knowledge management, a european
master. URL http://www.em-dmkm.eu. Accédé le 23 mai 2014.
DBPedia. Dbpédia en français. URL http://fr.dbpedia.org. Accédé
le 23 mai 2014.
Dexter. Dexter – wikipedia. URL http://fr.wikipedia.org/wiki/
Dexter_(série_télévisée). Accédé le 24 juin 2014.
Dr House. Dr house – wikipedia. URL http://fr.wikipedia.org/
wiki/Dr_House. Accédé le 24 juin 2014.
E-carabin. E-carabin - le forum officiel des étudiants en médecine de
france. URL http://www.e-carabin.net. Accédé le 23 mai 2014.
EDF R&D. Espace innovation et recherche du groupe edf. URL http:
//innovation.edf.com. Accédé le 23 mai 2014.
ELICO. Elico, équipe de recherche de lyon en sciences de l’information
et de la communication. URL http://www.elico-recherche.eu.
Accédé le 23 mai 2014.
FaceBook. Réseau social Facebook. URL https://www.facebook.com.
Accédé le 6 décembre 2013.
Google. Moteur de recherche Google. URL https://www.google.fr.
Accédé le 6 décembre 2013.
Google Actualité. Google actualité. URL https://news.google.fr.
Accédé le 10 décembre 2013.
Huffington Post. Journal : Le Huffington Post. URL http://www.
huffingtonpost.fr. Accédé le 6 décembre 2013.
I-Manip. Association i-manip. URL http://www.c2k-manip.com. Accédé le 23 mai 2014.
IBM. IBM Avec plus de données, on voit mieux - France. URL http:
//www.ibm.com/fr/big-data. Accédé le 25 mars 2014.
ICRL.
International
conference
on
learning
representations
2013.
URL
https://sites.google.com/site/
representationlearning2013. Accédé le 6 décembre 2013.
IMDb. IMDb - Movies, TV and Celebrities. URL http://www.imdb.
com. Accédé le 6 décembre 2013.
INA. Ina.fr : vidéo, audio, radio et publicité – actualités, archives de la
radio et de la télévision en ligne. URL http://www.ina.fr. Accédé
le 16 juillet 2014.
Webographie
143
Laboratoire Informatique d’Avignon (LIA). Laboratoire informatique
d’avignon. URL http://lia.univ-avignon.fr. Accédé le 23 mai
2014.
LARHRA. Laboratoire de recherche historique rhône-alpes. URL http:
//larhra.ish-lyon.cnrs.fr. Accédé le 15 juillet 2014.
Le Monde. Journal Le Monde. URL http://lemonde.fr. Accédé le 6
décembre 2013.
L’Express. Journal L’Express. URL http://www.lexpress.fr. Accédé
le 6 décembre 2013.
Liberation.fr.
Site d’actualité liberation.fr.
liberation.fr/.
URL http://www.
Linkfluence. Linkfluence : Social media intelligence. URL http://
linkfluence.com/fr. Accédé le 13 décembre 2013.
liste exhaustive des voyages. Voyage d’exploration scientifique. URL
http://fr.wikipedia.org/wiki/Voyage_d%27exploration_
scientifique. Accédé le 14 mai 2014.
Mad Men. Mad men – wikipedia. URL http://fr.wikipedia.org/
wiki/Mad_Men. Accédé le 24 juin 2014.
MediaMining. Eric laboratory online media mining project. URL http:
//mediamining.univ-lyon2.fr. Accédé le 23 mai 2014.
Mediapart. Site d’information français d’actualités indépendant et participatif en ligne | mediapart. URL http://www.mediapart.fr. Accédé
le 2 septembre 2014.
Meetic. Meetic.fr – site de rencontres et chat pour célibataires. URL http:
//www.meetic.fr. Accédé le 15 juillet 2014.
MySpace. Réseau social MySpace. URL https://myspace.com. Accédé
le 6 décembre 2013.
NBC New York.
A Timeline of the Dominique Strauss-Kahn
Case.
URL http://www.nbcnewyork.com/news/local/
DSK-Dominique-Strauss-Kahn-Case-Timeline-124854459.
html. Accédé le 28 février 2014.
OGMS. Ontology for General Medical Science. URL http://code.
google.com/p/ogms. Accédé le 6 décembre 2013.
Open Diary. Open Diary of the oldest interactive diary community. URL
http://www.opendiary.com. Accédé le 6 décembre 2013.
Panoptinet. Prism : vrai ou faux scandale ? Comment préserver sa vie privée sur Internet ? URL http://www.panoptinet.com/archives/
11359. Article du 13 juin 2013.
Planetoscope. Planetoscope : Statistiques mondiales en temps réel. URL
http://www.planetoscope.com. Accédé le 12 novembre 2013.
Webographie
144
plateforme d’annotation. Plate-forme d’annotation d’opinion imagweb.
URL http://dev.termwatch.es/~molina/imagiweb2/static/
systeme_description.html. Accédé le 23 mai 2014.
Projet ImagiWeb. Projet anr imagiweb. URL http://mediamining.
univ-lyon2.fr/people/velcin/imagiweb. Accédé le 23 mai
2014.
Qwant. Moteur de recherche Qwant. URL http://www.qwant.com.
Accédé le 6 décembre 2013.
Rue89. Rue89. URL http://rue89.nouvelobs.com. Accédé le 2 septembre 2014.
SAS.
What is Big Data.
URL http://www.sas.com/en_us/
insights/big-data/what-is-big-data.html.
Accédé le 25
mars 2014.
SemEval 2013. Semeval-2013 : Semantic evaluation exercises. international
workshop on semantic evaluation. URL http://www.cs.york.ac.
uk/semeval-2013. Accédé le 21 février 2014.
SYSTRAN. Systran – translation technologies.
systransoft.com. Accédé le 15 juillet 2014.
URL http://www.
Technicolor. Technicolor – Société axée sur les technologies innovantes.
URL http://www.technicolor.com/fr. Accédé le 2 septembre
2014.
The Office. The office – wikipedia. URL http://fr.wikipedia.org/
wiki/The_Office_(série_télévisée,_2005). Accédé le 24 juin
2014.
Tom’s Guide. Vie privée : les 12 scandales majeurs de Facebook.
URL http://www.tomsguide.fr/article/facebook-faille,
2-1153.html. Article du 1er juin 2010.
Twitter. Twitter. URL https://twitter.com. Accédé le 5 septembre
2014.
TWOP. Television without pity – television reviews. URL http://www.
televisionwithoutpity.com. Accédé le 24 juin 2014.
UCI. NYSK data set. URL http://archive.ics.uci.edu/ml/
datasets/NYSK. Accédé le 28 février 2014.
Urban Dictionary.
The urban dictionary.
URL http://www.
urbandictionary.com. Accédé le 21 février 2014.
Usenet. Usenet & Newsgroups Access. URL http://www.usenet.net.
Accédé le 18 avril 2014.
W3C. World wide web consortium. URL http://www.w3.org. Accédé
le 13 décembre 2013.
Wikipedia BBS. Bulletin board system. URL http://fr.wikipedia.
org/wiki/Bulletin_board_system. Accédé le 27 novembre 2013.
Wikipédia.
Wikipédia, l’encyclopédie libre.
wikipedia.org. Accédé le 6 décembre 2013.
URL http://fr.
Xerox. Xerox research centre europe (xrce). URL http://www.xrce.
xerox.com. Accédé le 23 mai 2014.
Yahoo ! Answers. Yahoo ! answers. URL https://answers.yahoo.
com. Accédé le 28 mars 2014.
Titre Contributions à la science des données : Fouille de données textuelles appliquée à l’analyse des médias sociaux
Résumé L’augmentation phénoménale du volume des données disponibles depuis l’avènement du Web et la mise à disposition de données toujours plus abondantes (archives, fonds documentaires, open data) conduit
au constat que le développement de techniques modernes de fouille de
données complexes est aujourd’hui une question cruciale. Ces techniques
attribuées à la nouvelle science des données sont en passe de devenir de
formidables outils pour le spécialiste dans les Sciences de l’Homme et de
la Société (SHS) et plus largement pour le citoyen de ce nouvel univers
numérique. Dans ce mémoire, je passe en revue les travaux dans lesquels
j’ai été impliqué sur ce sujet au sein de l’équipe Data Mining et Décision
(DMD) au laboratoire ERIC de l’Université de Lyon. Plus particulièrement,
je décris trois contributions originales pour le traitement des données complexes (en particulier textuelles) que l’on trouve de manière abondante sur
Internet ou dans les grandes bases de données. L’approche que je privilégie dans mes travaux est le développement de modèles d’apprentissage
automatique non ou peu supervisés (weakly-supervised clustering).
La première contribution traite de l’analyse des thématiques et des
opinions, en particulier à partir de corpus textuels. Dans cette partie, je
montre qu’il est possible de construire des modèles capables de prendre
en compte la dimension temporelle des données afin de capturer la dynamique générale des opinions exprimées dans un corpus. La deuxième
contribution s’intéresse de plus près aux internautes qui s’investissent
dans les conversations virtuelles ainsi qu’au réseau social que ces derniers tissent sur la toile. Dans cette partie, je montre qu’il est possible de
recourir à des techniques de recherche d’information et d’apprentissage
automatique pour recommander des messages-clefs ou pour trouver les
rôles que jouent les internautes dans les discussions. La troisième contribution est centrée sur un travail autour des représentations portant sur
des données d’image. Cette partie permet de montrer qu’il est possible de
modifier ou d’enrichir la représentation de ce type de données pour des
tâches de classification automatique.
Le mémoire se termine par une description de deux projets sur lesquels j’ai été investi ces dernières années et qui illustrent les recherches
entreprises jusqu’à présent. Le premier de ces projets porte sur l’analyse
des conversations en ligne. Fruit de nombreuses collaborations, il a permis de mettre au point une plateforme d’analyse des forums de discussion pour tester les algorithmes développés dans l’équipe. Le second est
le projet ImagiWeb dont l’objectif consiste à étudier les images (au sens
des représentations) véhiculées par les médias sociaux, et plus particulièrement les données issues de Twitter et de messages de blogs. Ce projet
financé par l’ANR sur trois ans implique six partenaires. Il nous permet
de montrer qu’une analyse temporelle fine des opinions exprimées sur Internet est possible. Pour finir, le mémoire se termine par un bilan général
de mes recherches et par des perspectives qui portent sur l’analyse des
représentations véhiculées par les médias sociaux.
Téléchargement