Apprentissage non supervisé à partir de similarité pour l`analyse de

Téléchargement

Stage de recherche rémunéré (Master 2 / Ingénieur A3)

Apprentissage non supervisé à partir de similarité

pour l'analyse de données massives et complexes

Contexte :

Dans de nombreuses applications, les observations ne sont pas naturellement représentées sous forme

d’un nombre fixé de valeurs numériques, i.e., sous forme de vecteurs. Les données réelles peuvent en effet

être de taille variable, être décrites par des variables qui ne sont pas directement comparables, ne pas être

numériques, etc. On peut évoquer par exemple les données textuelles ou les données symboliques

(intervalles, distributions, etc.). Or, beaucoup de méthodes d’analyse de données ont été construites pour des

données représentés dans un espace vectoriel. Pour être appliquées à des données non vectorielles, les

méthodes en question doivent être modifiées et adaptées. Une approche particulièrement fructueuse consiste

à s’appuyer sur la définition de mesures de (dis)similarités entre données complexes. L’avantage évident de

cette stratégie est de séparer la construction d’algorithmes d’analyse et le choix de la représentation des

données. Cela permet de proposer une implémentation unique d’un algorithme d’analyse qui pourra être

utilisée avec toute sorte de données, à condition de pouvoir calculer une (dis)similarités entre les

observations. L’algorithme et son implémentation deviennent alors universels.

Cependant, ce type de méthodes s'adapte difficilement aux données massives, malgré une augmentation

très rapide de la taille des jeux de données due aux nouvelles technologies. Le problème vient de

l’impossibilité de placer l'ensemble de ces données en mémoire vive. Les données doivent être traitées une

par une ou par « paquets ». Or, dans les méthodes à base de similarité, les données (ou leurs représentants)

sont décrites par leurs distances à toutes les autres données, ce qui est impossible si on ne conserve pas en

mémoire l'ensemble des données. Il est donc nécessaire de proposer de nouveaux algorithmes d'analyse de

données à base de similarité qui soient adaptés à ce type de problème.

L’objectif de ce stage sera de développer une nouvelle méthode d'apprentissage non supervisé

(clustering) pour données massives complexes. La méthode mise au point se basera sur une mesure de

similarité entre objets pour apprendre une représentation synthétique de la structure des données, sous la

forme de clusters. L'idée sera de calculer un ensemble de représentants (prototypes), qui seront définis selon

leurs distances à un groupe restreint de données sélectionné et mis à jour par l'algorithme, de façon à limiter

le temps de calcul et l'utilisation de la mémoire.

Objectifs du stage :

•Étudier l’état de l’art sur les méthodes d’analyse de données à partir de similarité.

•Développer une méthode de classification adapté à l'analyse de données massives et complexes.

•Valider la méthode sur différents jeux de données.

Compétences souhaitées :

•Formation en Apprentissage Automatique et Data Mining

•Développement en Python et/ou Matlab

Durée du stage : 6 mois

Lieu du stage : LIPN, UMR 7030, Sorbonne Paris Cité, Université Paris 13, Villetaneuse

Rémunération : Ce stage sera gratifié sur toute sa durée à hauteur d'environ 530 euros par mois

Contact : Guénaël Cabanes ([email protected])

Bibliographie :

Cabanes, G., Bennani, Y., Verde, R., Irpino, A.: A topological clustering method for histogram data. Proceeding of

the 5th Workshop on Symbolic Data Analysis, (SDA'15), Orléans, France (2015).

Cottrell, M., Olteanu, M., Rossi, F., Rynkiewicz, J., Villa-Vialaneix, N. : Neural Networks for Complex Data. KI -

Künstliche Intelligenz, 26 (4), pp.373-380 (2012)

Hammer, B., Hasenfuss, A., Rossi, F., Strickert, M. : Topographic processing of relational data. In Proceedings of the

6th International Workshop on Self-Organizing Maps (WSOM 07), Bielefeld (Germany), 9 (2007)

Gartner, T., Lloyd, J.W., Flach, P.A.: Kernels and distances for structured data. Machine Learning 57(3), 205–232

(2004)

1 / 1 100%

Documents connexes

Deep Learning Relationnel pour le clustering de données

Représentation barycentrique pour l`apprentissage non

Sujet de TME : télécharger le pdf

Lorenceau CoursVisionIntro

un algorithme qui compte en tirant au sort

Organigramme - SAC

view

L`algorithme Suffixe Tree Clustering

algorithme algorithme -bases -une

Apprentissage topologique semi-supervisé multi-labels

Classification à partir d`une collection de matrices

algorithme de Clustering

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d'utilisation

Apprentissage non supervisé à partir de similarité pour l`analyse de

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Apprentissage non supervisé à partir de similarité pour l`analyse de

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib