Apprendre le petit Robert des graphes L’apprentissage de dictionnaire vise à synthétiser un petit nombre de descripteurs pertinents (un dictionnaire) pour représenter un large volume de données existantes. Une fois identifié, le dictionnaire peut être utilisé pour recoder les données sous une forme plus compacte et plus intelligible. Cette technique, largement utilisée pour traiter des données vectorielles, a de nombreuses applications en fouille de données et en apprentissage automatique. En revanche, il n’existe pas d’approche convaincante capable de traiter des données sous forme de graphes. Dans ce stage nous proposons de développer une première approche d’apprentissage de dictionnaire pour les données de graphes. Cette nouvelle approche permettra d’identifier des sous-structures pertinentes dans un large volume de données. Par exemple, étant donné un ensemble de plans architecturaux représentés sous forme de graphes (Fig. 1(a)), cette approche permettra d’identifier les objets récurrents, les plus présents dans les données (Fig. 1(b)). (a) A B C D E F G H I J K L M N O (b) Figure 1 – (a) Plans (d’appartements) représentés sous forme de graphes [1], (b) dictionnaire appris à partir des plans. 1 Pour les données vectorielles, l’apprentissage de dictionnaire est une généralisation de la décomposition d’éléménts dans une base [2]. Dans ce cas général, la base n’est pas fixée a priori mais apprise à partir des données (généralement en minimisant l’erreur de représentation). Si l’on parle de dictionnaire, c’est aussi que la notion de famille génératrice (propre à une base) est relaxée et que la possibilité d’une redondance entre éléments d’un dictionnaire est introduite. L’étape de représentation des éléments dans un dictionnaire devient une étape de codage et, compte-tenu de la redondance, devient plus complexe qu’un simple produit scalaire avec les éléments d’une base. Pour apprendre un dictionnaire à partir de données de graphes, nous proposons de suivre l’approche décrite dans la Fig. 2. Ainsi, apprendre un dictionnaire pour des graphes nécessite de faire face à plusieurs défis théoriques et pratiques. Comment définir la décomposition d’un graphe en éléments de base ? Comment rendre les approches envisagées efficaces sur de grandes masses de données ? Deux axes peuvent être envisagés quant au stage : un aspect d’implémentation (à partir des données proposées dans [1]), ou un aspect plus théorique (comment trouver/apprendre un bon dictionnaire ? comment représenter un graphe à partir d’un dictionnaire donné ?). graph dataset vector representation of the graphs graph dictionary learning graph coding on the dictionary dictionary of subgraphs Figure 2 – Exemple d’un ensemble de graphes, d’un dictionnaire et de la représentation associée. Encadrement Benjamin Negrevergne, Florian Sikora et Florian Yger {benjamin.negrevergne,florian.sikora,florian.yger}@dauphine.fr, LAMSADE, Université Paris Dauphine, Paris. Références [1] P. Héroux, P. Le Bodic, and S. Adam. Datasets for the evaluation of substitution-tolerant subgraph isomorphism. In International Workshop on Graphics Recognition, pages 240–251. Springer, 2013. [2] J. Mairal, F. Bach, and J. Ponce. Task-driven dictionary learning. IEEE Transactions on Pattern Analysis and Machine Intelligence, 34(4) :791–804, 2012. 2