1
Titre du sujet : Transport Optimal pour la Classification de données Structurées
Titre
Transport Optimal pour la Classification de données Structurées
Contexte
Dans de nombreuses applications, les données ne sont pas vectorielles mais structurées : elles sont décrites par un ensemble de parties qui ont des
relations on contraintes entre elles. Par exemple, une image peut être représentée à plusieurs échelles sous forme arborescente ; les séries temporelles
ont de façon inhérente une structure interne qui doit être prise en compte. Une conséquence de la présence de structure dans les données est que les
méthodes classiques d’apprentissage en général, de classification en particulier, ne peuvent pas directement s’appliquer. Deux solutions sont alors
traditionnellement appliquées pour résoudre ce problème :
- des transformations sont appliquées en amont sur les données afin de se ramener au cas vectoriel (par exemple, en extrayant des attributs pertinents
dans le contexte des séries temporelles ou en concaténant tous les attributs des nœuds lorsque l’on traite un arbre). Cependant, la définition de tels
attributs n’est pas évidente ;
- des mesures de similarités entre les différentes parties de la structure sont calculées, ensuite combinées (en utilisant un noyau de convolution par
exemple). Cette stratégie souffre de forts coûts de calcul, empêchant la méthode d’être utilisée lorsque la taille des données est importante.
Dans le même temps, le transport optimal a émergé comme étant un outil puissant pour calculer des distances (a.k.a. distance de Wassertein ou earth
mover) entre des distributions empiriques des données, en utilisant des schémas calculatoires qui permettent le calcul du transport réalisable. Il a de
larges applications dans la communauté de la vision par ordinateur, les statistiques, l’imagerie et a été récemment introduit dans la communauté de
l’apprentissage automatique pour résoudre efficacement des problèmes de classification ou d’adaptation de domaine. L’avantage du transport optimal
est qu’il permet de comparer des distributions de probabilités potentiellement en grande dimension, en prenant en compte la géométrie des espaces
métriques considérés et des mesures discrètes.
Objectifs identifiés
L’objectif de la thèse est de définir un paradigme unifié pour la classification de données structurées en s’appuyant sur la théorie du transport optimal.
Deux directions seront explorées :
- l’intégration directe de l’information portée par la structure directement dans le problème du transport optimal. En particulier, la piste de la finition
d’un terme de régularisation adapté sera explorée ;
- l’intégration de la structure directement dans la matrice de distance entre les données, en s’appuyant sur la notion de la distance de Gromov-
Wasserstein par exemple.
Le but est de définir un cadre unifié pour un large ensemble de données structurées, en intégrant les spécificités du problème dans la forme de la
régularisation ou des distances. Un soin particulier devra être donné au développement de solutions efficaces, capables de gérer de gros jeux de
données.
Du point de vue applicatif, une attention particulière sera donnée sur des jeux de données de télédétection. En effet, les représentations hiérarchiques
sont de plus en plus utilisées pour modéliser le contenu d’une image, fournissant un cadre efficace pour la classification d’image. De plus, avec le
lancement de nouveaux satellites, les résolutions spatiales et temporelles des images ont explosé, appelant au développement d’algorithmes efficaces.
2
Caractère novateur
Le caractère novateur du projet tient dans la synergie entre le transport optimal et la classification de données structurées. Traiter de telles données
implique aujourd’hui la finition de thodes ad-hoc, dépendantes du type des variables traitées, du type de structure etc. Le transport optimal a été
récemment introduit dans la communauté de l’apprentissage automatique avec des performances prometteuses. Le projet novateur permettra de definir
un cadre unifié pour plusieurs types de données structurées, avec des attentes élévées en terme de généralisation et de passage à l’échelle.
3 publications du (des)
porteur(s) de projet dans le
domaine sur les 5 dernières
années
- N. Courty, R. Flamary, D. Tuia, and A. Rakotomamonjy « Optimal transport for domain adaptation, » IEEE Transactions on Pattern Analysis and
Machine Intelligence, 2016.
- Y. Cui, L. Chapel, and S. Lefèvre, « Scalable bag of subpaths kernel for learning on hierarchical image representations and multi-source remote
sensing data classication, » Remote sensing, vol. 9, no. 3, 2017
- A. Bailly, S. Malinowski, R. Tavenard, L. Chapel, and T. Guyet, « Dense bag-of-temporal-sift-words for time series classication, » in Lecture Notes in
Articial Intelligence. Springer, 2016.
Collaborations nationales
et internationales
L'étudiant pourra bénéficier des collaborations de l'équipe, en particulier avec les membres d'un projet ANR sur le transport optimal qui a édéposé
cette année.
Retombées
Les attendus de ce projet sont un nouveau paradigme pour la classification de données structurées en s’appuyant sur la théorie du transport optimal,
avec des applications dans le domaine de la télédétection, qui traite de données structurées à très grande échelle.
Tous les développements seront réalisés sous Python et intégrés dans la toolbox python pour le transport optimal POT (https://github.com/rflamary/POT)
développée par des membres de l’équipe.
Les cibles des publications sont des journaux ou des conférences dans le domaine de l’apprentissage automatique et de la télédétection.
3
Directeur de thèse
HdR obligatoire
Co-encadrant (s’il y a lieu)
HdR non-obligatoire
NOM, Prénom
COURTY, Nicolas
CHAPEL, Laetitia
Email
Tél.
02 97 01 72 51
Titre
MCF HDR
MCF
Laboratoire
Equipe interne
IRISA
Equipe Obélix
IRISA
Equipe Obélix
Section CNU/CNRS
27
27
1 / 3 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !