Formalisation et Apprentissage de Métriques Relationnelles

publicité
L ABORATOIRE D ’I NFORMATIQUE DE N ANTES -ATLANTIQUE
É COLE DOCTORALE STIM, N . 503
UMR 6241
« Sciences et technologies
de l’information et des mathématiques »
Sujet de thèse pour 2016
Formalisation et Apprentissage de Métriques Relationnelles
Résumé. Ce sujet a pour cadre général l’analyse de données, et en particulier l’apprentissage
automatique sur des données relationnelles. L’explosion en terme de disponibilités et d’usage de
ce type de données nécessite de se doter d’algorithmes performants pour des taches de prédiction,
de regroupement, de recommandation. Il s’avère que de nombreux algorithmes se fondent sur une
notion de distance pour parvenir à produire une décision, mais qu’en pratique la distance utilisée
n’est pas adaptée à la spécificité de ces données. Une solution consiste à apprendre cette distance
en fonction de la structure intrinsèque des observations, et des liens que l’on peut connaître entre
ces observations. L’aspect relationnel de données n’a jamais été considéré dans ces approches, et
l’objectif de ce sujet est de proposer des méthodes permettant d’apprendre des distances tirant
parti de cette information supplémentaire, sans ajout de supervision ou de connaissance expert,
dans un but de classification, recommandation et visualisation de ces objets.
Mots clés. Apprentissage relationnel, Métrique, Similarité, Classification supervisée et non supervisée, Recommandation
Directeur de thèse .
Co-encadrant
N OM, Prénom :
Équipe d’accueil :
Courriel
:
Téléphone
:
. N OM, Prénom :
Équipe d’accueil :
Téléphone
:
L ERAY, Philippe
DUKe
philippe.leray (at) univ-nantes.fr
02 40 68 30 38
L E C APITAINE, Hoel
DUKe
02 40 68 32 57
Introduction
Contexte et problématique
Le cadre général de ce sujet se situe en sciences des données, dans le domaine de l’analyse et la fouille de données, plus spécifiquement de données relationnelles. Les
champs d’activité et applications où l’on rencontre ce type de données sont aujourd’hui
très nombreux. Sans exhaustivité, on pourra citer les systèmes à recommandation, le
web sémantique, la bio-informatique, l’épidémiologie, la détection de fraudes, les sciences humaines et sociales, etc . . .
La multiplication de ces données a donc poussé les chercheurs à proposer de nombreux modèles spécifiques à ces données, ouvrant un nouveau domaine en apprentissage:
l’apprentissage statistique relationnel. Au sein de cette communauté très active, on peut
retrouver les méthodes de programmation logique inductive [Mug92], les modèles relationnels probabilistes [Get07, CLLC15], les réseaux logiques de Markov [RD06], ou
encore les champs conditionnels aléatoires.
Par ailleurs, de nombreux algorithmes d’analyse de données ou de prédiction se
fondent sur la notion de proximité, ou de différence, entre les entités (objets) décrivant
les observations du monde réel. En fonction des données que l’on considère, il est maintenant clairement établi [Kul12] que la façon dont on compare les objets a un impact
très important sur les performances d’algorithmes de prédiction ou de regroupement
(par exemple plus proches voisins et centres mobiles, respectivement). En particulier, en
fonction de l’objectif applicatif, le résultat de la comparaison entre deux entités doit pouvoir être différent, ce qui implique l’apprentissage de cette comparaison. Dans le cadre
de l’équipe, ce comportement adaptatif est un moyen aisé de prendre en compte le ou
les utilisateurs du système. En effet, chaque utilisateur peut avoir ses propres critères
de comparaison, qui doivent être respectés lorsqu’ils sont utilisés dans un processus de
classification ou de recommandation par exemple.
Les multiples modalités et points de vue des utilisateurs sont difficilement pris en
compte dans les algorithmes classiques d’aide à la décision, et construire des modèles
adaptés à chacun est important dans de nombreuses applications. Ce sujet est ainsi au
cœur des problématiques de l’équipe DUKe, qui s’intéresse à l’apprentissage et la découverte de connaissances par le biais d’utilisateurs interagissant avec le système. Ce sujet
constitue également la suite de travaux au sein de l’équipe portant sur l’apprentissage de
similarité [LC12] et l’apprentissage relationnel [CLLC15, BILBA15].
Il s’inscrit également dans la stratégie de rayonnement à l’international de l’équipe
par la volonté d’organiser un atelier international sur ce sujet lors de conférences clés du
domaine (ECML, ICML, NIPS, ICDM).
Problèmes et opportunités
Une première approche, naïve, pour gérer ces points de vue multiples consiste à sélectionner, pour chaque objectif, un sous-ensemble, ou une combinaison d’attributs, mais
l’effort serait très important pour chaque tâche, et non généralisable. Une alternative
plus intéressante, proposée il y a maintenant une dizaine d’années [XJRN02], consiste à
apprendre la façon dont on va comparer les données en fonction de l’objectif applicatif.
Plus spécifiquement, on cherche à déterminer une nouvelle distance, potentiellement
non Euclidienne, de telle sorte que celle-ci permette de comparer les données de manière
plus pertinente, puisqu’elle est dépendra d’information permettant de lier (ou non) les
données entre elles.
Dans le cadre de l’apprentissage de métrique, l’objectif est d’apprendre des transformations de l’espace descriptif d’origine en se servant des contraintes sur les observations
(appartenance à des classes identiques ou différentes, réunies ou séparées par l’utilisateur, retour utilisateur, etc . . . ). Une formulation usuelle de l’apprentissage de métrique
est la suivante : à partir d’une distance d(x, y) entre deux objets x et y, et une information supervisée par rapport à une distance idéale entre ces deux objets, l’objectif est
de construire une nouvelle distance δ(x, y) respectant au mieux la relation entre ces objets. Cette information supervisée est très souvent modélisée sous la forme de distances
relatives : un objet x est plus proche de y que de z [LC12], et correspond finalement à
l’approche qu’aurait un utilisateur lambda pour trier des objets. En pratique, la plupart
des approches se fondent sur l’apprentissage d’une distance δ de la forme d(f (x), f (y)),
où f est une fonction de projection des objets dans un nouvel espace de description.
L’apprentissage de métriques est aujourd’hui bien ancré dans la communauté apprentissage, comme l’en atteste le nombre du publications sur le sujet dans les conférences
ICML, NIPS ou encore ECML-PKDD. D’autre part, ces méthodes sont particulièrement
utilisées dans les domaines applicatifs de vision par ordinateur [CSSB10] ou en biologie [HYZ15], montrant ainsi leur intérêt pratique sur des données potentiellement large
échelle.
Enfin, elles apparaissent aussi dans une communauté naissante s’intéressant à l’apprentissage de représentations (ICLR1 ). Bien que ces représentations proviennent majoritairement de méthodes dites profondes, l’apprentissage de métriques apparaît comme complémentaire à ces approches.
Actuellement, l’ensemble des approches d’apprentissage de métrique s’appliquent à
des jeux de données dits plats, c’est à dire qu’un objet est décrit par un certain nombre
d’attributs (disons p), et que l’on observe plusieurs (disons n) de ces objets, si bien que
l’on peut agréger ces données sous la forme d’une matrice (ou table) de dimension n × p,
que l’on notera M . Aujourd’hui, de nombreux cas d’applications pratiques nécessitent
l’utilisation de bases de données relationnelles, où ces données sont regroupées dans
plusieurs matrices Mi , liées entre elles par des associations. La profusion de ce type de
données amène donc nécessairement à concevoir des méthodes d’apprentissage [Get07]
et de fouille [Dže03] adaptées.
L’apprentissage d’une métrique dans ce contexte est tout à fait adapté, puisque les
données sont constituées par un ensemble de données dites plates. Pour autant, n’utiliser
que les informations d’une table, et indépendamment des autres, pour comparer deux ob1
http://www.iclr.cc
jets fait perdre beaucoup de l’intérêt de la base de données relationnelle dont on dispose.
Les problématiques liées à ce type de données sont variées, mais dans de nombreux cas, il
s’agit de prendre en compte la nature structurelle de celles-ci. Ainsi, les réseaux sociaux
sont modélisés par des graphes, les systèmes à recommandation utilisent des graphes
bipartites. Le recours à cette modélisation pousse donc la communauté à s’intéresser aux
méthodes de clustering de graphes (que ce soit par approche communautaire [New06],
spectrale [NJW+ 02] ou encore de factorisation de matrices [CLCL15]).
En interprétant ces données relationnelles comme des graphes dans lesquels les nœuds
sont des entités, et les liens représentent les relations entre ces entités, on peut se servir
pour l’apprentissage d’une part des attributs décrivant chacun des nœuds (c’est à dire
l’approche classique), et d’autre part des liens reliant ces nœuds. C’est sur ces états de
fait que repose le principe de ce sujet de thèse, posant deux questions qui n’ont pour le
moment jamais été abordées : d’une part, que peut apporter l’apprentissage de métrique
dit classique aux problématiques (classification, recommandation) liées à des jeux de
données relationnels, et, d’autre part, peut-on définir et apprendre une métrique tirant
parti de l’apport d’information de ces données (structurées) spécifiques.
Travail demandé
Objectifs
L’objectif principal de ce sujet est un travail théorique sur la définition, l’apprentissage
et l’évaluation d’une mesure de comparaison entre objets dans le contexte d’une base de
données relationnelles. En particulier, il s’agit d’être capable de modéliser les spécificités
des objets dans ce type de données, et en quoi l’aspect relationnel de l’information permet
d’obtenir une description, et donc une comparaison, plus précise de ces données. Il s’agit
donc d’utiliser de l’information inter-objets (un objet est décrit par ces attributs, mais
également par ces relations aux autre objets) pour calculer des métriques sur des objets
d’une même table (intra-objets), et potentiellement sur des objets de tables différentes
(inter-objets).
Plus particulièrement, les objectifs premiers de cette thèse sont
• d’introduire de l’information inter-objets lors du calcul de la distance intra-objets
• d’être capable de calculer des distances inter-objets
• d’évaluer la qualité de ces distances à travers des tâches de classification ou de
recommandation
• d’utiliser ces distances afin de projeter, et visualiser ces données relationnelles.
Information inter-objets
La prise en compte d’information autre que les seuls attributs d’un objet pour l’analyse
de données relationnelles est relativement classique aujourd’hui [CLCL15], mais n’a pas
encore été abordé dans le cadre de l’apprentissage de métrique. Il existe de nombreuses
techniques permettant de prendre en compte des attributs supplémentaires. Lors de
cette thèse, nous privilégierons une approche fondée sur la modélisation en graphe de
données relationnelles : elle repose sur des bases théoriques solides et a prouvé sa performance et sa capacité de passage à l’échelle dans de nombreuses applications. L’approche
pourra par exemple s’inspirer de récents travaux portant sur de la factorisation en appariement de graphes [ZDlT15] ou d’entités de représentations [BGWB14], et utiliser des
techniques classiques d’optimisation pour déterminer quels sont les attributs et tables les
plus pertinents pour ces problèmes. De plus, à la différence de ce qui a pu être proposé
dans la littérature, l’objectif sera de faire porter les contraintes liées à l’apprentissage non
pas sur l’appartenance des objets à des groupes, mais sur les liens qui peuvent exister et
être trouvés via les relations de la base. Cet apport rend l’approche non supervisée et
permet donc une utilisation plus aisée et plus généralisable en pratique.
Distance inter-objets
Une piste intéressante est la possibilité de comparer des objets provenant de tables différentes. Naturellement, ces objets ne sont absolument pas comparables en l’état, mais
l’objectif serait de définir ou d’apprendre des transformations différentes pour chacun de
ces objets, mais les projetant dans un même espace Euclidien. Une fois la projection faite,
une distance usuelle peut alors être utilisée. Les transformations peuvent donc s’interpréter comme des éléments permettant de faire la traduction entre domaines différents,
et on pourra ainsi considérer une distance entre entités structurellement différentes. Le
principal verrou scientifique dans cette tâche est bien sûr la définition de ces fonctions
de transformation (ou de projection). Il pourra être intéressant de partir de travaux portant sur la minimisation d’écart entre distribution des deux espaces pour apprendre ces
métriques de transfert [DKJ+ 07], ou encore s’inspirer de travaux récents sur l’apprentissage par transfert [PY10].
Projection
Ces deux premiers types de métriques permettent de définir des transformations, c’est-àdire des projections, des objets, mais sans spécifications sur les caractéristiques (dimension, espace Euclidien) de l’espace de projection. Afin de visualiser ces objets, qui sont
potentiellement initialement de grande dimension, il devient intéressant de cumuler les
avantages de l’apprentissage de métrique et des projections induites pour visualiser ces
objets dans un espace de dimension réduite (typiquement deux ou trois). Ces projections
particulières pourront étendre des approches se fondant sur des factorisation de matrices [CLCL15] et tenseurs [KCL15], ou de la minimisation de distorsion de distribution
de probabilités [VdMH12].
Implémentation et évaluation
Les propositions théoriques évoquées ci-dessus mèneront à la conception d’une librairie
les implémentant. Les méthodes de l’état de l’art seront également inclues dans cette librairie dans un souci de comparaison. Il n’est pas prévu un domaine applicatif particulier,
dans une volonté de généricité des modèles produits, mais il existe de nombreux de jeux
de données de test disponibles 2 . Ces données concernent, sans exhaustivité, des jeux de
données pour de la classification, du clustering, ou encore de la recommandation.
Plan de travail prévisionnel de l’étude
La première partie du travail concernera la prise de connaissance approfondie des domaines liés à la problématique : métriques et leur apprentissage (sur données simples et
structurées), apprentissage relationnel, appariement de graphes. Cette première étude
débouchera sur la rédaction d’un premier rapport. De façon parallèle, les différents jeux
de données qui seront utilisés pour l’évaluation du système seront identifiés, et de premières analyses statistiques viendront étayer le rapport initial. Le temps consacré à cette
partie est de l’ordre de 10 à 14 mois.
La seconde partie du travail consistera à formaliser le concept de métrique relationnelle, puis de proposer de nouvelles définitions et mesures de distance pour ce type d’objet, prenant en compte leur structuration et leur topologie. Dans un second temps des
méthodes et algorithmes d’apprentissage de ces métriques relationnelles seront développés, puis évalués sur des aspects de performance, de vitesse et d’interprétations possibles
sur un ensemble varié de jeux de données. Cette seconde partie devrait occuper l’étudiant pour une période de 14 à 20 mois.
La dernière partie du travail portera sur la rédaction du mémoire de thèse et la soutenance de celle-ci. Cette dernière partie devrait être réalisée entre 3 et 6 mois.
Candidats
Compétences
Le candidat devra être titulaire d’un master en informatique, et avoir des connaissances
dans le domaine de l’apprentissage automatique, de l’analyse de données et des statistiques. De bonnes compétences en programmation sont également attendues.
2
voir par exemple https://relational.fit.cvut.cz, ou le classique UCI.
Bibliography
[BGWB14] Antoine Bordes, Xavier Glorot, Jason Weston, and Yoshua Bengio. A semantic
matching energy function for learning with multi-relational data. Machine
Learning, 94(2):233–259, 2014.
[BILBA15] Mouna Ben Ishak, Philippe Leray, and Nahla Ben Amor. Probabilistic relational model benchmark generation: Principle and application. Intelligent
Data Analysis, 20(3):à–paraitre, 2015.
[CLCL15]
Anthony Coutant, Hoel Le Capitaine, and Philippe Leray. On the equivalence
between regularized nmf and similarity-augmented graph partitioning. In
23th European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning (ESANN 2015), 2015.
[CLLC15]
Anthony Coutant, Philippe Leray, and Hoel Le Capitaine. Probabilistic relational models with clustering uncertainty. In Neural Networks (IJCNN), 2015
International Joint Conference on, pages 1–8, July 2015.
[CSSB10] Gal Chechik, Varun Sharma, Uri Shalit, and Samy Bengio. Large scale online learning of image similarity through ranking. The Journal of Machine
Learning Research, 11:1109–1135, 2010.
[DKJ+ 07] Jason V Davis, Brian Kulis, Prateek Jain, Suvrit Sra, and Inderjit S Dhillon.
Information-theoretic metric learning. In Proceedings of the 24th international conference on Machine learning, pages 209–216. ACM, 2007.
[Dže03]
Sašo Džeroski. Multi-relational data mining: an introduction. ACM SIGKDD
Explorations Newsletter, 5(1):1–16, 2003.
[Get07]
Lise Getoor. Introduction to statistical relational learning. MIT press, 2007.
[HYZ15]
K. Hua, Q. Yu, and R. Zhang. A guaranteed similarity metric learning framework for biological sequence comparison. Computational Biology and Bioinformatics, IEEE/ACM Transactions on, PP(99):1–1, 2015.
[KCL15]
Volodymyr Kuleshov, Arun Tejasvi Chaganty, and Percy Liang. Tensor factorization via matrix factorization. In Proceedings of the Eighteenth International
Conference on Artificial Intelligence and Statistics - AISTATS, 2015.
7
[Kul12]
Brian Kulis. Metric learning: A survey. Foundations and Trends in Machine
Learning, 5(4):287–364, 2012.
[LC12]
Hoel Le Capitaine. A relevance-based learning model of fuzzy similarity
measures. Fuzzy Systems, IEEE Transactions on, 20(1):57–68, 2012.
[Mug92]
S. Muggleton. Inductive Logic Programming. Academic Press, London, 1992.
[New06]
Mark EJ Newman. Modularity and community structure in networks. Proceedings of the National Academy of Sciences, 103(23):8577–8582, 2006.
[NJW+ 02] Andrew Y Ng, Michael I Jordan, Yair Weiss, et al. On spectral clustering:
Analysis and an algorithm. Advances in neural information processing systems,
2:849–856, 2002.
[PY10]
Sinno Jialin Pan and Qiang Yang. A survey on transfer learning. Knowledge
and Data Engineering, IEEE Transactions on, 22(10):1345–1359, 2010.
[RD06]
Matthew Richardson and Pedro Domingos. Markov logic networks. Machine
learning, 62(1-2):107–136, 2006.
[VdMH12] Laurens Van der Maaten and Geoffrey Hinton. Visualizing non-metric similarities in multiple maps. Machine learning, 87(1):33–55, 2012.
[XJRN02] Eric P Xing, Michael I Jordan, Stuart Russell, and Andrew Y Ng. Distance
metric learning with application to clustering with side-information. In Advances in neural information processing systems, pages 505–512, 2002.
[ZDlT15]
F. Zhou and F. De la Torre. Factorized graph matching. Pattern Analysis and
Machine Intelligence, IEEE Transactions on, PP(99):1–1, 2015.
Téléchargement