Exploitation de clustering multiples sur un jeu de données

Téléchargement

LABORATOIRE D’INFORMATIQUE DE NANTES-ATLANTIQUE

UMR 6241

ÉCOLE DOCTORALE STIM, N. 503

« Sciences et technologies

de l’information et des mathématiques »

Sujet de thèse pour 2011

Exploitation de clustering multiples sur un jeu de données

Directeur de thèse

NOM, Prénom : GELGON, Marc

Équipe d’accueil : GRIM

Unité de recherche : LINA (UMR 6241)

Unité de rattachement : Univ. Nantes

Courriel : prenom.nom (at) univ-nantes.fr

Téléphone : (+33/0) 2 40 68 32 02

Taux d’encadrement : 40 %

Nombre de thèses en cours : 2

Co-encadrant

NOM, Prénom : RASCHIA, Guillaume

Taux d’encadrement : 30 %

Nombre de thèses en cours : 1

Co-encadrant

NOM, Prénom : PIGEAU, Antoine

Taux d’encadrement : 30 %

Nombre de thèses en cours : 1

Financement prévu : MESR, CNRS-Région

Sujet de thèse pour 2011

Exploitation de clustering multiples sur un jeu de données

Résumé.

Le clustering (classiﬁcation non supervisée) de données est une tâche centrale en bases de don-

nées et apprentissage automatique. Cette thèse propose d’avancer dans la voie de recherche

connue sur le nom d’ ensemble clustering, cherchant à exploiter conjointement des processus ou

résultats de clusterings multiples. On recherche, par cette voie de travail, des clusterings plus

ﬁables et utiles, et en même temps, pouvoir traiter des situations présentant des contraintes de

conﬁdentialité sur les données.

Mots clés. Bases de données, apprentissage automatique, classiﬁcation non supervisée, cluste-

rings multiples.

Ph. D. Proposal for 2011

Ensemble clustering

Abstract.

Data clustering (unsupervised classiﬁcation) is a classical task in data management and machine

learning. This thesis proposal wishes to explore the work direction known as ensemble clustering,

which aims at processing jointly a set of clustering results, with a view to improving the reliability

of results. We shall also consider cases motivated by conﬁdentiality constraints on data.

Keywords. Data management, machine learning, clustering, ensemble clustering.

Introduction

Contexte et problématique

La structuration de jeux de données par classiﬁcation non supervisée (=clustering) est

une tâche classique et centrale, en bases de données comme en apprentissage automa-

tique. Dans la démarche usuelle, on dispose d’un jeu de données, on lui applique un

algorithme de clustering qu’on espère performant et on obtient un résultat. La littérature

en la matière est très riche.

En classiﬁcation supervisée, un axe de recherche également établi, depuis 15 ans,

concerne les techniques dites d’ «ensemble» : de bonnes propriétés théoriques ont été

établies concernant la possibilité de construire des classiﬁeurs très performants, par com-

binaison de classiﬁeurs «faibles», c.a.d. de performance modeste. Des algorithmes pra-

tiques et de très bons résultats ont été montrés pour des applications diverses [1].

Si, sur ce point, la classiﬁcation non supervisée ne dispose pas encore d’un bagage

théorique aussi établi que la classiﬁcation supervisée, la question de l’exploitation conjointe

de plusieurs résultats de clusterings est un réel enjeu, et de travaux fondateurs [2] et de

progrès plus récents [3,4]. La diversité des méthodes disponibles pour faire du clustering

et de la diversité de leur paramétrisations résultent, pour un même jeu de données, des

résultats de clustering potentiellement assez variés.

L’objectif général de ce travail de thèse est de chercher à tirer proﬁt de la diversité de

résultats de clustering disponibles pour un même jeu de données.

Problèmes et opportunités

Une des raisons de construire plusieurs clusterings sur un même jeu de données, puis de

les combiner, est d’espérer améliorer les performances générales de l’opération. Néan-

moins, parce chaque algorithme de clustering fait ses propres hypothèses sur ce qu’est

un «bon clustering» et pose son propre modèle sur les données, une réﬂexion sur la déﬁ-

nition de cette «performance», dans le cas de combinaison de clusterings menés par des

techniques diverses, sera d’ailleurs à mener au cours de la thèse. Comment combiner les

clusterings («clustering» ici plus général que «partition», car les natures mathématiques

des résultats de clustering peuvent être diverses) ? Quelles sont les propriétés souhai-

tables sur la diversité des clusterings ? Comment tirer parti de cette diversité, de manière

plus riche que la recherche d’un unique clustering consensuel ?

On s’intéressera en particulier aux cas suivants :

•les clusterings individuels sont réalisés sur le même ensemble d’individus, mais me-

nés séparément sur différentes variables. Cette situation peut être motivée par des

problèmes de conﬁdentialité sur les données, une volonté de performance de cal-

cul, la malédiction de la dimension, ou encore la construction de clusterings multi-

objectifs difﬁcilement atteignables par un examen conjoint des variables, selon un

procédé usuel. Au delà d’un traitement à posteriori, on examinera, dans cette si-

tuation, les possibilités et l’opportunité de faire collaborer (guider/contraindre) les

processus de clustering, sur les différentes variables, en cours de route.

•le cas où les clusterings sont menés sur les axes spatial et temporel d’un même jeu

de données. On s’intéressera, dans ce cas, aux données dites "sociales" (enjeu des

systèmes de partage de données personnelles).

•Enﬁn, on proposera des outils d’interrogation des clusterings ainsi produits (lan-

gage, algèbre).

Ce travail de thèse pourrait exploiter des acquis importants de l’équipe GRIM en

matière d’agrégation de clustering [5,6,7], de traitement de données spatio-temporelles

[8], et s’articuler avec des travaux en cours sur l’anonymisation de données.

Refs :

[1] Rokach, L. (2010). "Ensemble-based classifiers". Artificial Intelligence Review 33: 1–39.

[2] Alexander Strehl and J. Ghosh, Cluster ensembles – a knowledge reuse framework for combining multiple partitions, Journal on Machine Learning Research (JMLR) 2002.

[3] Alexander Topchy, Anil K. Jain, William Punch. Clustering Ensembles: Models of Consensus and Weak Partitions, IEEE Trans. PAMI, 2006.

[4] Hongjun Wang, Hanhuai Shan, Arindam Banerjee. Bayesian Cluster Ensembles, SIAM International Conference on Data Mining, SDM 09.

[5] Mounir Bechchi, Guillaume Raschia, Noureddine Mouaddib: Merging distributed database summaries. ACM CIKM 2007: 419-428

[6] Pierrick Bruneau, Marc Gelgon, Fabien Picarougne: Parsimonious reduction of Gaussian mixture models with a variational-Bayes approach. Pattern Recognition 43(3): 850-858 (2010)

[7] Mounir Bechchi, Guillaume Raschia, Noureddine Mouaddib, Joining Distributed Database Summaries, Rapport de recherche INRIA N 6728, Hal http://hal.archives-ouvertes.fr/docs/00/34/65/28/PDF/RR-6768.pdf

[8] Antoine Pigeau: MyOwnLife: incremental and hierarchical classification of a personal image collection on mobile devices. Multimedia Tools Appl. 46(2-3): 289-306 (2010)

Candidats

Compétences

Bases de données, apprentissage automatique.

CV du directeur de thèse

Marc Gelgon est professeur à Polytech’Nantes et responsable de l’équipe GRIM du LINA.

1 / 7 100%

Documents connexes

La numérisation croissante de notre société alimente entre autres

Clustering

Calcul d`itinéraires ferroviaires. - Lim.univ

Calcul d`itinéraires ferroviaires.

stage2017fr - Pierre Chainais

workshop_lamsade_ceremade ( PDF - 155.6 ko)

Un tableau de bord pour les besoins exprimés

Structuration semi-supervisé des données complexes

Clustering

Évaluation en cascade d`algorithmes de clustering

reconnaissance de formes - UFR de Mathématiques et Informatique

Sujet : Détection automatique d`anomalies dans les données

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d'utilisation

Exploitation de clustering multiples sur un jeu de données

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Exploitation de clustering multiples sur un jeu de données

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib