relations on contraintes entre elles. Par exemple, une image peut être représentée à plusieurs échelles sous forme arborescente ; les séries temporelles
ont de façon inhérente une structure interne qui doit être prise en compte. Une conséquence de la présence de structure dans les données est que les
méthodes classiques d’apprentissage en général, de classification en particulier, ne peuvent pas directement s’appliquer. Deux solutions sont alors
traditionnellement appliquées pour résoudre ce problème :
- des transformations sont appliquées en amont sur les données afin de se ramener au cas vectoriel (par exemple, en extrayant des attributs pertinents
dans le contexte des séries temporelles ou en concaténant tous les attributs des nœuds lorsque l’on traite un arbre). Cependant, la définition de tels
attributs n’est pas évidente ;
- des mesures de similarités entre les différentes parties de la structure sont calculées, ensuite combinées (en utilisant un noyau de convolution par
exemple). Cette stratégie souffre de forts coûts de calcul, empêchant la méthode d’être utilisée lorsque la taille des données est importante.
Dans le même temps, le transport optimal a émergé comme étant un outil puissant pour calculer des distances (a.k.a. distance de Wassertein ou earth
mover) entre des distributions empiriques des données, en utilisant des schémas calculatoires qui permettent le calcul du transport réalisable. Il a de
larges applications dans la communauté de la vision par ordinateur, les statistiques, l’imagerie et a été récemment introduit dans la communauté de
l’apprentissage automatique pour résoudre efficacement des problèmes de classification ou d’adaptation de domaine. L’avantage du transport optimal
est qu’il permet de comparer des distributions de probabilités potentiellement en grande dimension, en prenant en compte la géométrie des espaces
métriques considérés et des mesures discrètes.
Deux directions seront explorées :
- l’intégration directe de l’information portée par la structure directement dans le problème du transport optimal. En particulier, la piste de la définition
d’un terme de régularisation adapté sera explorée ;
- l’intégration de la structure directement dans la matrice de distance entre les données, en s’appuyant sur la notion de la distance de Gromov-
Wasserstein par exemple.
Le but est de définir un cadre unifié pour un large ensemble de données structurées, en intégrant les spécificités du problème dans la forme de la
régularisation ou des distances. Un soin particulier devra être donné au développement de solutions efficaces, capables de gérer de gros jeux de
données.
Du point de vue applicatif, une attention particulière sera donnée sur des jeux de données de télédétection. En effet, les représentations hiérarchiques
sont de plus en plus utilisées pour modéliser le contenu d’une image, fournissant un cadre efficace pour la classification d’image. De plus, avec le
lancement de nouveaux satellites, les résolutions spatiales et temporelles des images ont explosé, appelant au développement d’algorithmes efficaces.