Introduction
Contexte et problématique
La structuration de jeux de données par classification non supervisée (=clustering) est
une tâche classique et centrale, en bases de données comme en apprentissage automa-
tique. Dans la démarche usuelle, on dispose d’un jeu de données, on lui applique un
algorithme de clustering qu’on espère performant et on obtient un résultat. La littérature
en la matière est très riche.
En classification supervisée, un axe de recherche également établi, depuis 15 ans,
concerne les techniques dites d’ «ensemble» : de bonnes propriétés théoriques ont été
établies concernant la possibilité de construire des classifieurs très performants, par com-
binaison de classifieurs «faibles», c.a.d. de performance modeste. Des algorithmes pra-
tiques et de très bons résultats ont été montrés pour des applications diverses [1].
Si, sur ce point, la classification non supervisée ne dispose pas encore d’un bagage
théorique aussi établi que la classification supervisée, la question de l’exploitation conjointe
de plusieurs résultats de clusterings est un réel enjeu, et de travaux fondateurs [2] et de
progrès plus récents [3,4]. La diversité des méthodes disponibles pour faire du clustering
et de la diversité de leur paramétrisations résultent, pour un même jeu de données, des
résultats de clustering potentiellement assez variés.
L’objectif général de ce travail de thèse est de chercher à tirer profit de la diversité de
résultats de clustering disponibles pour un même jeu de données.
Problèmes et opportunités
Une des raisons de construire plusieurs clusterings sur un même jeu de données, puis de
les combiner, est d’espérer améliorer les performances générales de l’opération. Néan-
moins, parce chaque algorithme de clustering fait ses propres hypothèses sur ce qu’est
un «bon clustering» et pose son propre modèle sur les données, une réflexion sur la défi-
nition de cette «performance», dans le cas de combinaison de clusterings menés par des
techniques diverses, sera d’ailleurs à mener au cours de la thèse. Comment combiner les
clusterings («clustering» ici plus général que «partition», car les natures mathématiques
des résultats de clustering peuvent être diverses) ? Quelles sont les propriétés souhai-
tables sur la diversité des clusterings ? Comment tirer parti de cette diversité, de manière
plus riche que la recherche d’un unique clustering consensuel ?
On s’intéressera en particulier aux cas suivants :
•les clusterings individuels sont réalisés sur le même ensemble d’individus, mais me-
nés séparément sur différentes variables. Cette situation peut être motivée par des
problèmes de confidentialité sur les données, une volonté de performance de cal-
cul, la malédiction de la dimension, ou encore la construction de clusterings multi-
objectifs difficilement atteignables par un examen conjoint des variables, selon un
3