Apprendre le petit Robert des graphes - LAMSADE

publicité
Apprendre le petit Robert des graphes
L’apprentissage de dictionnaire vise à synthétiser un petit nombre de descripteurs pertinents (un
dictionnaire) pour représenter un large volume de données existantes. Une fois identifié, le dictionnaire
peut être utilisé pour recoder les données sous une forme plus compacte et plus intelligible. Cette technique, largement utilisée pour traiter des données vectorielles, a de nombreuses applications en fouille de
données et en apprentissage automatique. En revanche, il n’existe pas d’approche convaincante capable
de traiter des données sous forme de graphes.
Dans ce stage nous proposons de développer une première approche d’apprentissage de dictionnaire
pour les données de graphes. Cette nouvelle approche permettra d’identifier des sous-structures pertinentes dans un large volume de données. Par exemple, étant donné un ensemble de plans architecturaux
représentés sous forme de graphes (Fig. 1(a)), cette approche permettra d’identifier les objets récurrents,
les plus présents dans les données (Fig. 1(b)).
(a)
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
(b)
Figure 1 – (a) Plans (d’appartements) représentés sous forme de graphes [1], (b) dictionnaire appris à
partir des plans.
1
Pour les données vectorielles, l’apprentissage de dictionnaire est une généralisation de la décomposition d’éléménts dans une base [2]. Dans ce cas général, la base n’est pas fixée a priori mais apprise à
partir des données (généralement en minimisant l’erreur de représentation). Si l’on parle de dictionnaire,
c’est aussi que la notion de famille génératrice (propre à une base) est relaxée et que la possibilité d’une
redondance entre éléments d’un dictionnaire est introduite. L’étape de représentation des éléments dans
un dictionnaire devient une étape de codage et, compte-tenu de la redondance, devient plus complexe
qu’un simple produit scalaire avec les éléments d’une base.
Pour apprendre un dictionnaire à partir de données de graphes, nous proposons de suivre l’approche
décrite dans la Fig. 2. Ainsi, apprendre un dictionnaire pour des graphes nécessite de faire face à plusieurs
défis théoriques et pratiques. Comment définir la décomposition d’un graphe en éléments de base ?
Comment rendre les approches envisagées efficaces sur de grandes masses de données ?
Deux axes peuvent être envisagés quant au stage : un aspect d’implémentation (à partir des données
proposées dans [1]), ou un aspect plus théorique (comment trouver/apprendre un bon dictionnaire ?
comment représenter un graphe à partir d’un dictionnaire donné ?).
graph dataset
vector representation
of the graphs
graph dictionary
learning
graph coding
on the dictionary
dictionary of
subgraphs
Figure 2 – Exemple d’un ensemble de graphes, d’un dictionnaire et de la représentation associée.
Encadrement Benjamin Negrevergne, Florian Sikora et Florian Yger
{benjamin.negrevergne,florian.sikora,florian.yger}@dauphine.fr,
LAMSADE, Université Paris Dauphine, Paris.
Références
[1] P. Héroux, P. Le Bodic, and S. Adam. Datasets for the evaluation of substitution-tolerant subgraph
isomorphism. In International Workshop on Graphics Recognition, pages 240–251. Springer, 2013.
[2] J. Mairal, F. Bach, and J. Ponce. Task-driven dictionary learning. IEEE Transactions on Pattern
Analysis and Machine Intelligence, 34(4) :791–804, 2012.
2
Téléchargement