1.1 Projet de recherche
L’analyse de données complexes est un très vaste domaine, qui touche au traitement des images,
au traitement du langage naturel, à l’intelligence artificielle et même à la sociologie (par exemple,
la construction et l’analyse des réseaux sociaux en ligne). Nous avons donc dérivé les deux grandes
problématiques de recherche et nous nous sommes concentré sur des tâches plus spécifiques, qui
varient de la détection des évolutions typiques àla reconstruction sémantique de l’espace de repré-
sentation des données ou à l’intégration des informations externes dans la description numérique
des images. Le projet de recherche sous-jacent à cette thèse a été construit progressivement, au tra-
vers d’une relation dialectique entre la théorie et la pratique. Les projets ou contrats de recherche
dans lesquels j’ai été impliqué au fil de cette thèse ont soulevé plusieurs problèmes spécifiques
(comme ceux mentionnées auparavant), qui ont souvent nécessité de traiter des données complexes
(données hétérogènes de différentes natures, par exemple, texte, image) et l’intégration d’informa-
tions supplémentaires dans le processus d’apprentissage.
Les différents travaux de cette thèse sont illustrés et structurés de manière conceptuelle par la
figure 1. Nous commençons, sur la partie gauche du schéma, avec un sous-ensemble de types de
données complexes (i.e., nous nous sommes intéressé aux données de type texte, image et numé-
rique, ainsi qu’aux données ayant une dimension temporelle). Dans nos travaux, nous analysons
chaque type de données indépendamment. Sur la partie droite du schéma sont illustrées les appli-
cations finales et abstraites de notre travail, par exemple, l’accès à l’information, l’extraction des
connaissances à partir des données, l’analyse des réseaux sociaux ou CommentWatcher, un ou-
til open-source pour l’analyse de média en ligne, qui est le résultat de nos travaux appliqués. Au
milieu, nous présentons, de droite à gauche (plus précisément depuis l’objet de notre travail, i.e., de
la sortie vers l’entrée), (a) les tâches plus spécifiques sur lesquelles nous avons axé notre travail, (b)
le enjeux de recherche qui en découlent dans les tâches spécifiques et (c) les méthodes et les outils
que nous avons privilégiés afin d’atteindre les buts de notre recherche.
1.2 Parties constitutives de cette thèse
Compte tenu de la grande diversité des sujets abordés, nous présentons les travaux en quatre
parties distinctes, pourtant complémentaires. Les quatre parties s’intéressent, respectivement, (a)
à la dimension temporelle, (b) à la représentation sémantique des données, (c) aux données de
type image et (d) aux données de type texte. Les différentes partie peut être considérées comme
autonomes, tout en restant connectées entre eux par les lignes directrices, les liens transversaux
et l’articulation conceptuelle. Par la suite, nous détaillons chacun de ces concepts.
Lignes directrices Les principaux enjeux de notre recherche sont traduits en lignes directrices,
qui se retrouvent tout au long de notre travail : (i) compréhension des résultats par un utilisateur,
(ii) plongement des données de natures différentes dans un espace de description sémantique et
(iii) conception des algorithmes et des méthodes qui incorporent la sémantique et la dimension
temporelle.
Dans chacune de nos propositions, nous considérons comme crucial de générer des résultats
compréhensible par un utilisateur humain. Pour de nombreux problèmes , il existe des approches
de type boîte noire (par exemple, l’analyse de composantes principales est une solution pour réorga-
niser l’espace de description), mais la signification sémantique de leur résultat est rarement évidente
et, par conséquent, ces derniers sont difficiles à interpréter. Nos propositions sont développées pour
être intelligibles par un esprit humain.
Une autre ligne directrice de nos travaux est de plonger des données de natures différentes
dans un espace de description sémantique. La construction d’un tel espace de description généra-
lement consiste à (a) ramener les données dans un format numérique commun, après avoir capturé
les informations présentes dans le format natif, et à (b) utiliser efficacement des informations ex-
ternes pour améliorer cette représentation numérique.
4