Exploitation de clustering multiples sur un jeu de données

publicité
L ABORATOIRE D ’I NFORMATIQUE DE N ANTES -ATLANTIQUE
UMR 6241
É COLE DOCTORALE STIM, N . 503
« Sciences et technologies
de l’information et des mathématiques »
Sujet de thèse pour 2011
Exploitation de clustering multiples sur un jeu de données
Directeur de thèse
N OM, Prénom
: GELGON, Marc
Équipe d’accueil
: GRIM
Unité de recherche
: LINA (UMR 6241)
Unité de rattachement
: Univ. Nantes
Courriel
: prenom.nom (at) univ-nantes.fr
Téléphone
: (+33/0) 2 40 68 32 02
Taux d’encadrement
: 40 %
Nombre de thèses en cours : 2
Co-encadrant
N OM, Prénom
: R ASCHIA, Guillaume
Taux d’encadrement
: 30 %
Nombre de thèses en cours : 1
Co-encadrant
N OM, Prénom
: P IGEAU, Antoine
Taux d’encadrement
: 30 %
Nombre de thèses en cours : 1
Financement prévu : MESR, CNRS-Région
Sujet de thèse pour 2011
Exploitation de clustering multiples sur un jeu de données
Résumé.
Le clustering (classification non supervisée) de données est une tâche centrale en bases de données et apprentissage automatique. Cette thèse propose d’avancer dans la voie de recherche
connue sur le nom d’ ensemble clustering, cherchant à exploiter conjointement des processus ou
résultats de clusterings multiples. On recherche, par cette voie de travail, des clusterings plus
fiables et utiles, et en même temps, pouvoir traiter des situations présentant des contraintes de
confidentialité sur les données.
Mots clés. Bases de données, apprentissage automatique, classification non supervisée, clusterings multiples.
Ph. D. Proposal for 2011
Ensemble clustering
Abstract.
Data clustering (unsupervised classification) is a classical task in data management and machine
learning. This thesis proposal wishes to explore the work direction known as ensemble clustering,
which aims at processing jointly a set of clustering results, with a view to improving the reliability
of results. We shall also consider cases motivated by confidentiality constraints on data.
Keywords. Data management, machine learning, clustering, ensemble clustering.
2
Introduction
Contexte et problématique
La structuration de jeux de données par classification non supervisée (=clustering) est
une tâche classique et centrale, en bases de données comme en apprentissage automatique. Dans la démarche usuelle, on dispose d’un jeu de données, on lui applique un
algorithme de clustering qu’on espère performant et on obtient un résultat. La littérature
en la matière est très riche.
En classification supervisée, un axe de recherche également établi, depuis 15 ans,
concerne les techniques dites d’ «ensemble» : de bonnes propriétés théoriques ont été
établies concernant la possibilité de construire des classifieurs très performants, par combinaison de classifieurs «faibles», c.a.d. de performance modeste. Des algorithmes pratiques et de très bons résultats ont été montrés pour des applications diverses [1].
Si, sur ce point, la classification non supervisée ne dispose pas encore d’un bagage
théorique aussi établi que la classification supervisée, la question de l’exploitation conjointe
de plusieurs résultats de clusterings est un réel enjeu, et de travaux fondateurs [2] et de
progrès plus récents [3,4]. La diversité des méthodes disponibles pour faire du clustering
et de la diversité de leur paramétrisations résultent, pour un même jeu de données, des
résultats de clustering potentiellement assez variés.
L’objectif général de ce travail de thèse est de chercher à tirer profit de la diversité de
résultats de clustering disponibles pour un même jeu de données.
Problèmes et opportunités
Une des raisons de construire plusieurs clusterings sur un même jeu de données, puis de
les combiner, est d’espérer améliorer les performances générales de l’opération. Néanmoins, parce chaque algorithme de clustering fait ses propres hypothèses sur ce qu’est
un «bon clustering» et pose son propre modèle sur les données, une réflexion sur la définition de cette «performance», dans le cas de combinaison de clusterings menés par des
techniques diverses, sera d’ailleurs à mener au cours de la thèse. Comment combiner les
clusterings («clustering» ici plus général que «partition», car les natures mathématiques
des résultats de clustering peuvent être diverses) ? Quelles sont les propriétés souhaitables sur la diversité des clusterings ? Comment tirer parti de cette diversité, de manière
plus riche que la recherche d’un unique clustering consensuel ?
On s’intéressera en particulier aux cas suivants :
• les clusterings individuels sont réalisés sur le même ensemble d’individus, mais menés séparément sur différentes variables. Cette situation peut être motivée par des
problèmes de confidentialité sur les données, une volonté de performance de calcul, la malédiction de la dimension, ou encore la construction de clusterings multiobjectifs difficilement atteignables par un examen conjoint des variables, selon un
3
procédé usuel. Au delà d’un traitement à posteriori, on examinera, dans cette situation, les possibilités et l’opportunité de faire collaborer (guider/contraindre) les
processus de clustering, sur les différentes variables, en cours de route.
• le cas où les clusterings sont menés sur les axes spatial et temporel d’un même jeu
de données. On s’intéressera, dans ce cas, aux données dites "sociales" (enjeu des
systèmes de partage de données personnelles).
• Enfin, on proposera des outils d’interrogation des clusterings ainsi produits (langage, algèbre).
Ce travail de thèse pourrait exploiter des acquis importants de l’équipe GRIM en
matière d’agrégation de clustering [5,6,7], de traitement de données spatio-temporelles
[8], et s’articuler avec des travaux en cours sur l’anonymisation de données.
Refs :
[1] Rokach, L. (2010). "Ensemble-based classifiers". Artificial Intelligence Review 33
[2] Alexander Strehl and J. Ghosh, Cluster ensembles – a knowledge reuse framework for
[3] Alexander Topchy, Anil K. Jain, William Punch. Clustering Ensembles: Models of Con
[4] Hongjun Wang, Hanhuai Shan, Arindam Banerjee. Bayesian Cluster Ensembles, SIAM Int
[5] Mounir Bechchi, Guillaume Raschia, Noureddine Mouaddib: Merging distributed databa
[6] Pierrick Bruneau, Marc Gelgon, Fabien Picarougne: Parsimonious reduction of Gaussi
[7] Mounir Bechchi, Guillaume Raschia, Noureddine Mouaddib, Joining Distributed Databa
[8] Antoine Pigeau: MyOwnLife: incremental and hierarchical classification of a person
Candidats
Compétences
Bases de données, apprentissage automatique.
4
CV du directeur de thèse
Marc Gelgon est professeur à Polytech’Nantes et responsable de l’équipe GRIM du LINA.
5
CV du co-encadrant
Guillaume Raschia est maître de conférences à Polytech’Nantes.
6
CV du co-encadrant
Antoine Pigeau est maître de conférences à Polytech’Nantes.
7
Téléchargement