Deep Learning Relationnel pour le clustering de données

Téléchargement

Stage de recherche rémunéré (Master 2 / Ingénieur A3)

Deep Learning Relationnel

pour le clustering de données massives et complexes

Contexte :

L’apprentissage profond (ou Deep Learning) est un ensemble de méthodes d’apprentissage

automatique tentant de modéliser des connaissances avec un haut niveau d’abstraction grâce à des

architectures hiérarchiques de neurones artificiels. Ces techniques ont permis des progrès

importants et rapides dans les domaines de l’analyse du signal sonore ou visuel et notamment de

la reconnaissance faciale, de la reconnaissance vocale, de la vision par ordinateur, du traitement

automatisé du langage. En 2016, le programme alphaGo, ayant appris à jouer au jeu de go par la

méthode de l’apprentissage profond, a battu le champion du monde Lee Sedol. Cet exploit, qui

semblait impossible il y a quelques années seulement étant donné la complexité du jeu de go, a

démontré les formidables capacités d’apprentissage et d’abstraction des méthodes profondes.

Nous nous intéresserons dans ce stage à l’apprentissage profond appliqué aux données non-

vectorielles. En effet, dans de nombreuses applications, les observations ne sont pas

naturellement représentées sous forme d’un nombre fixé de valeurs numériques, i.e., sous forme

de vecteurs. Les données réelles peuvent en effet être de taille variable, être décrites par des

variables qui ne sont pas directement comparables, ne pas être numériques, etc. On peut évoquer

par exemple les données textuelles ou les données symboliques (intervalles, distributions, etc.).

Or, beaucoup de méthodes d’analyse de données ont été construites pour des données

représentées dans un espace vectoriel. Pour être appliquées à des données non vectorielles, les

méthodes en question doivent être modifiées et adaptées. Une approche particulièrement

fructueuse consiste à s’appuyer sur la définition de mesures de (dis)similarités entre données

complexes. L’avantage évident de cette stratégie est de séparer la construction d’algorithmes

d’analyse et le choix de la représentation des données. Cela permet de proposer une

implémentation unique d’un algorithme d’analyse qui pourra être utilisée avec toute sorte de

données, à condition de pouvoir calculer une (dis)similarités entre les observations. L’algorithme

et son implémentation deviennent alors universels.

Cependant, ce type de méthodes s’adapte difficilement aux données massives, malgré une

augmentation très rapide de la taille des jeux de données due aux nouvelles technologies. Le

problème vient de l’impossibilité de placer l’ensemble de ces données en mémoire vive. Les

données doivent être traitées une par une ou par « paquets ». Or, dans les méthodes à base de

similarité, les données (ou leurs représentants) sont décrites par leurs distances à toutes les autres

données, ce qui est impossible si on ne conserve pas en mémoire l’ensemble des données. Il est

donc nécessaire de proposer de nouveaux algorithmes d’analyse de données à base de similarité

qui soient adaptés à ce type de problème.

L’objectif de ce stage sera de développer une nouvelle méthode d’apprentissage profond pour

données massives et complexes. La méthode mise au point se basera sur une mesure de similarité

entre objets pour apprendre une nouvelle représentation des données sous la forme de

pondérations qui formeront la couche d’entrée du réseau de neurone profond. Ces pondérations

seront mises à jour e temps réel par l’algorithme au cours de l’apprentissage, de façon à limiter le

temps de calcul et l’utilisation de la mémoire. Les performances de l’approche proposées seront

testés expérimentalement sur des jeux de données artificiels et réels.

Objectifs du stage :

• Étudier l’état de l’art sur le Deep Learning et les méthodes d’analyse de données

relationnelles.

• Développer une méthode de Deep Learning adaptée à l’analyse de données massives et

complexes.

• Valider la méthode sur différents jeux de données.

Compétences souhaitées :

• Formation en Apprentissage Automatique et Data Mining

• Développement en Python.

•

Durée du stage : 6 mois

Lieu du stage : LIPN, UMR 7030, Sorbonne Paris Cité, Université Paris 13, Villetaneuse

Rémunération : Ce stage sera gratifié sur toute sa durée à hauteur d’environ 530 euros par mois

Contact : Basarab Matei ([email protected])

1 / 2 100%

Documents connexes

Apprentissage non supervisé à partir de similarité pour l`analyse de

Sujet de stage Master inter équipes Vertigo

Représentation barycentrique pour l`apprentissage non

Management de l`Innovation Technologique « MIT

NOTE - ENSTA ParisTech

DEKHTIAR Jonathan

apprentissage machine et deep learning

Machine Learning : application à la finance

Proposition de stage de Master 2 Recherche Informatique

Comment répartir des points « uniformément » dans l`espace

Green AI : Présentation de l'IA durable

Le deep learning

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d'utilisation

Deep Learning Relationnel pour le clustering de données

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Deep Learning Relationnel pour le clustering de données

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib