L ABORATOIRE D ’I NFORMATIQUE DE N ANTES -ATLANTIQUE É COLE DOCTORALE STIM, N . 503 UMR 6241 « Sciences et technologies de l’information et des mathématiques » Sujet de thèse pour 2016 Formalisation et Apprentissage de Métriques Relationnelles Résumé. Ce sujet a pour cadre général l’analyse de données, et en particulier l’apprentissage automatique sur des données relationnelles. L’explosion en terme de disponibilités et d’usage de ce type de données nécessite de se doter d’algorithmes performants pour des taches de prédiction, de regroupement, de recommandation. Il s’avère que de nombreux algorithmes se fondent sur une notion de distance pour parvenir à produire une décision, mais qu’en pratique la distance utilisée n’est pas adaptée à la spécificité de ces données. Une solution consiste à apprendre cette distance en fonction de la structure intrinsèque des observations, et des liens que l’on peut connaître entre ces observations. L’aspect relationnel de données n’a jamais été considéré dans ces approches, et l’objectif de ce sujet est de proposer des méthodes permettant d’apprendre des distances tirant parti de cette information supplémentaire, sans ajout de supervision ou de connaissance expert, dans un but de classification, recommandation et visualisation de ces objets. Mots clés. Apprentissage relationnel, Métrique, Similarité, Classification supervisée et non supervisée, Recommandation Directeur de thèse . Co-encadrant N OM, Prénom : Équipe d’accueil : Courriel : Téléphone : . N OM, Prénom : Équipe d’accueil : Téléphone : L ERAY, Philippe DUKe philippe.leray (at) univ-nantes.fr 02 40 68 30 38 L E C APITAINE, Hoel DUKe 02 40 68 32 57 Introduction Contexte et problématique Le cadre général de ce sujet se situe en sciences des données, dans le domaine de l’analyse et la fouille de données, plus spécifiquement de données relationnelles. Les champs d’activité et applications où l’on rencontre ce type de données sont aujourd’hui très nombreux. Sans exhaustivité, on pourra citer les systèmes à recommandation, le web sémantique, la bio-informatique, l’épidémiologie, la détection de fraudes, les sciences humaines et sociales, etc . . . La multiplication de ces données a donc poussé les chercheurs à proposer de nombreux modèles spécifiques à ces données, ouvrant un nouveau domaine en apprentissage: l’apprentissage statistique relationnel. Au sein de cette communauté très active, on peut retrouver les méthodes de programmation logique inductive [Mug92], les modèles relationnels probabilistes [Get07, CLLC15], les réseaux logiques de Markov [RD06], ou encore les champs conditionnels aléatoires. Par ailleurs, de nombreux algorithmes d’analyse de données ou de prédiction se fondent sur la notion de proximité, ou de différence, entre les entités (objets) décrivant les observations du monde réel. En fonction des données que l’on considère, il est maintenant clairement établi [Kul12] que la façon dont on compare les objets a un impact très important sur les performances d’algorithmes de prédiction ou de regroupement (par exemple plus proches voisins et centres mobiles, respectivement). En particulier, en fonction de l’objectif applicatif, le résultat de la comparaison entre deux entités doit pouvoir être différent, ce qui implique l’apprentissage de cette comparaison. Dans le cadre de l’équipe, ce comportement adaptatif est un moyen aisé de prendre en compte le ou les utilisateurs du système. En effet, chaque utilisateur peut avoir ses propres critères de comparaison, qui doivent être respectés lorsqu’ils sont utilisés dans un processus de classification ou de recommandation par exemple. Les multiples modalités et points de vue des utilisateurs sont difficilement pris en compte dans les algorithmes classiques d’aide à la décision, et construire des modèles adaptés à chacun est important dans de nombreuses applications. Ce sujet est ainsi au cœur des problématiques de l’équipe DUKe, qui s’intéresse à l’apprentissage et la découverte de connaissances par le biais d’utilisateurs interagissant avec le système. Ce sujet constitue également la suite de travaux au sein de l’équipe portant sur l’apprentissage de similarité [LC12] et l’apprentissage relationnel [CLLC15, BILBA15]. Il s’inscrit également dans la stratégie de rayonnement à l’international de l’équipe par la volonté d’organiser un atelier international sur ce sujet lors de conférences clés du domaine (ECML, ICML, NIPS, ICDM). Problèmes et opportunités Une première approche, naïve, pour gérer ces points de vue multiples consiste à sélectionner, pour chaque objectif, un sous-ensemble, ou une combinaison d’attributs, mais l’effort serait très important pour chaque tâche, et non généralisable. Une alternative plus intéressante, proposée il y a maintenant une dizaine d’années [XJRN02], consiste à apprendre la façon dont on va comparer les données en fonction de l’objectif applicatif. Plus spécifiquement, on cherche à déterminer une nouvelle distance, potentiellement non Euclidienne, de telle sorte que celle-ci permette de comparer les données de manière plus pertinente, puisqu’elle est dépendra d’information permettant de lier (ou non) les données entre elles. Dans le cadre de l’apprentissage de métrique, l’objectif est d’apprendre des transformations de l’espace descriptif d’origine en se servant des contraintes sur les observations (appartenance à des classes identiques ou différentes, réunies ou séparées par l’utilisateur, retour utilisateur, etc . . . ). Une formulation usuelle de l’apprentissage de métrique est la suivante : à partir d’une distance d(x, y) entre deux objets x et y, et une information supervisée par rapport à une distance idéale entre ces deux objets, l’objectif est de construire une nouvelle distance δ(x, y) respectant au mieux la relation entre ces objets. Cette information supervisée est très souvent modélisée sous la forme de distances relatives : un objet x est plus proche de y que de z [LC12], et correspond finalement à l’approche qu’aurait un utilisateur lambda pour trier des objets. En pratique, la plupart des approches se fondent sur l’apprentissage d’une distance δ de la forme d(f (x), f (y)), où f est une fonction de projection des objets dans un nouvel espace de description. L’apprentissage de métriques est aujourd’hui bien ancré dans la communauté apprentissage, comme l’en atteste le nombre du publications sur le sujet dans les conférences ICML, NIPS ou encore ECML-PKDD. D’autre part, ces méthodes sont particulièrement utilisées dans les domaines applicatifs de vision par ordinateur [CSSB10] ou en biologie [HYZ15], montrant ainsi leur intérêt pratique sur des données potentiellement large échelle. Enfin, elles apparaissent aussi dans une communauté naissante s’intéressant à l’apprentissage de représentations (ICLR1 ). Bien que ces représentations proviennent majoritairement de méthodes dites profondes, l’apprentissage de métriques apparaît comme complémentaire à ces approches. Actuellement, l’ensemble des approches d’apprentissage de métrique s’appliquent à des jeux de données dits plats, c’est à dire qu’un objet est décrit par un certain nombre d’attributs (disons p), et que l’on observe plusieurs (disons n) de ces objets, si bien que l’on peut agréger ces données sous la forme d’une matrice (ou table) de dimension n × p, que l’on notera M . Aujourd’hui, de nombreux cas d’applications pratiques nécessitent l’utilisation de bases de données relationnelles, où ces données sont regroupées dans plusieurs matrices Mi , liées entre elles par des associations. La profusion de ce type de données amène donc nécessairement à concevoir des méthodes d’apprentissage [Get07] et de fouille [Dže03] adaptées. L’apprentissage d’une métrique dans ce contexte est tout à fait adapté, puisque les données sont constituées par un ensemble de données dites plates. Pour autant, n’utiliser que les informations d’une table, et indépendamment des autres, pour comparer deux ob1 http://www.iclr.cc jets fait perdre beaucoup de l’intérêt de la base de données relationnelle dont on dispose. Les problématiques liées à ce type de données sont variées, mais dans de nombreux cas, il s’agit de prendre en compte la nature structurelle de celles-ci. Ainsi, les réseaux sociaux sont modélisés par des graphes, les systèmes à recommandation utilisent des graphes bipartites. Le recours à cette modélisation pousse donc la communauté à s’intéresser aux méthodes de clustering de graphes (que ce soit par approche communautaire [New06], spectrale [NJW+ 02] ou encore de factorisation de matrices [CLCL15]). En interprétant ces données relationnelles comme des graphes dans lesquels les nœuds sont des entités, et les liens représentent les relations entre ces entités, on peut se servir pour l’apprentissage d’une part des attributs décrivant chacun des nœuds (c’est à dire l’approche classique), et d’autre part des liens reliant ces nœuds. C’est sur ces états de fait que repose le principe de ce sujet de thèse, posant deux questions qui n’ont pour le moment jamais été abordées : d’une part, que peut apporter l’apprentissage de métrique dit classique aux problématiques (classification, recommandation) liées à des jeux de données relationnels, et, d’autre part, peut-on définir et apprendre une métrique tirant parti de l’apport d’information de ces données (structurées) spécifiques. Travail demandé Objectifs L’objectif principal de ce sujet est un travail théorique sur la définition, l’apprentissage et l’évaluation d’une mesure de comparaison entre objets dans le contexte d’une base de données relationnelles. En particulier, il s’agit d’être capable de modéliser les spécificités des objets dans ce type de données, et en quoi l’aspect relationnel de l’information permet d’obtenir une description, et donc une comparaison, plus précise de ces données. Il s’agit donc d’utiliser de l’information inter-objets (un objet est décrit par ces attributs, mais également par ces relations aux autre objets) pour calculer des métriques sur des objets d’une même table (intra-objets), et potentiellement sur des objets de tables différentes (inter-objets). Plus particulièrement, les objectifs premiers de cette thèse sont • d’introduire de l’information inter-objets lors du calcul de la distance intra-objets • d’être capable de calculer des distances inter-objets • d’évaluer la qualité de ces distances à travers des tâches de classification ou de recommandation • d’utiliser ces distances afin de projeter, et visualiser ces données relationnelles. Information inter-objets La prise en compte d’information autre que les seuls attributs d’un objet pour l’analyse de données relationnelles est relativement classique aujourd’hui [CLCL15], mais n’a pas encore été abordé dans le cadre de l’apprentissage de métrique. Il existe de nombreuses techniques permettant de prendre en compte des attributs supplémentaires. Lors de cette thèse, nous privilégierons une approche fondée sur la modélisation en graphe de données relationnelles : elle repose sur des bases théoriques solides et a prouvé sa performance et sa capacité de passage à l’échelle dans de nombreuses applications. L’approche pourra par exemple s’inspirer de récents travaux portant sur de la factorisation en appariement de graphes [ZDlT15] ou d’entités de représentations [BGWB14], et utiliser des techniques classiques d’optimisation pour déterminer quels sont les attributs et tables les plus pertinents pour ces problèmes. De plus, à la différence de ce qui a pu être proposé dans la littérature, l’objectif sera de faire porter les contraintes liées à l’apprentissage non pas sur l’appartenance des objets à des groupes, mais sur les liens qui peuvent exister et être trouvés via les relations de la base. Cet apport rend l’approche non supervisée et permet donc une utilisation plus aisée et plus généralisable en pratique. Distance inter-objets Une piste intéressante est la possibilité de comparer des objets provenant de tables différentes. Naturellement, ces objets ne sont absolument pas comparables en l’état, mais l’objectif serait de définir ou d’apprendre des transformations différentes pour chacun de ces objets, mais les projetant dans un même espace Euclidien. Une fois la projection faite, une distance usuelle peut alors être utilisée. Les transformations peuvent donc s’interpréter comme des éléments permettant de faire la traduction entre domaines différents, et on pourra ainsi considérer une distance entre entités structurellement différentes. Le principal verrou scientifique dans cette tâche est bien sûr la définition de ces fonctions de transformation (ou de projection). Il pourra être intéressant de partir de travaux portant sur la minimisation d’écart entre distribution des deux espaces pour apprendre ces métriques de transfert [DKJ+ 07], ou encore s’inspirer de travaux récents sur l’apprentissage par transfert [PY10]. Projection Ces deux premiers types de métriques permettent de définir des transformations, c’est-àdire des projections, des objets, mais sans spécifications sur les caractéristiques (dimension, espace Euclidien) de l’espace de projection. Afin de visualiser ces objets, qui sont potentiellement initialement de grande dimension, il devient intéressant de cumuler les avantages de l’apprentissage de métrique et des projections induites pour visualiser ces objets dans un espace de dimension réduite (typiquement deux ou trois). Ces projections particulières pourront étendre des approches se fondant sur des factorisation de matrices [CLCL15] et tenseurs [KCL15], ou de la minimisation de distorsion de distribution de probabilités [VdMH12]. Implémentation et évaluation Les propositions théoriques évoquées ci-dessus mèneront à la conception d’une librairie les implémentant. Les méthodes de l’état de l’art seront également inclues dans cette librairie dans un souci de comparaison. Il n’est pas prévu un domaine applicatif particulier, dans une volonté de généricité des modèles produits, mais il existe de nombreux de jeux de données de test disponibles 2 . Ces données concernent, sans exhaustivité, des jeux de données pour de la classification, du clustering, ou encore de la recommandation. Plan de travail prévisionnel de l’étude La première partie du travail concernera la prise de connaissance approfondie des domaines liés à la problématique : métriques et leur apprentissage (sur données simples et structurées), apprentissage relationnel, appariement de graphes. Cette première étude débouchera sur la rédaction d’un premier rapport. De façon parallèle, les différents jeux de données qui seront utilisés pour l’évaluation du système seront identifiés, et de premières analyses statistiques viendront étayer le rapport initial. Le temps consacré à cette partie est de l’ordre de 10 à 14 mois. La seconde partie du travail consistera à formaliser le concept de métrique relationnelle, puis de proposer de nouvelles définitions et mesures de distance pour ce type d’objet, prenant en compte leur structuration et leur topologie. Dans un second temps des méthodes et algorithmes d’apprentissage de ces métriques relationnelles seront développés, puis évalués sur des aspects de performance, de vitesse et d’interprétations possibles sur un ensemble varié de jeux de données. Cette seconde partie devrait occuper l’étudiant pour une période de 14 à 20 mois. La dernière partie du travail portera sur la rédaction du mémoire de thèse et la soutenance de celle-ci. Cette dernière partie devrait être réalisée entre 3 et 6 mois. Candidats Compétences Le candidat devra être titulaire d’un master en informatique, et avoir des connaissances dans le domaine de l’apprentissage automatique, de l’analyse de données et des statistiques. De bonnes compétences en programmation sont également attendues. 2 voir par exemple https://relational.fit.cvut.cz, ou le classique UCI. Bibliography [BGWB14] Antoine Bordes, Xavier Glorot, Jason Weston, and Yoshua Bengio. A semantic matching energy function for learning with multi-relational data. Machine Learning, 94(2):233–259, 2014. [BILBA15] Mouna Ben Ishak, Philippe Leray, and Nahla Ben Amor. Probabilistic relational model benchmark generation: Principle and application. Intelligent Data Analysis, 20(3):à–paraitre, 2015. [CLCL15] Anthony Coutant, Hoel Le Capitaine, and Philippe Leray. On the equivalence between regularized nmf and similarity-augmented graph partitioning. In 23th European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning (ESANN 2015), 2015. [CLLC15] Anthony Coutant, Philippe Leray, and Hoel Le Capitaine. Probabilistic relational models with clustering uncertainty. In Neural Networks (IJCNN), 2015 International Joint Conference on, pages 1–8, July 2015. [CSSB10] Gal Chechik, Varun Sharma, Uri Shalit, and Samy Bengio. Large scale online learning of image similarity through ranking. The Journal of Machine Learning Research, 11:1109–1135, 2010. [DKJ+ 07] Jason V Davis, Brian Kulis, Prateek Jain, Suvrit Sra, and Inderjit S Dhillon. Information-theoretic metric learning. In Proceedings of the 24th international conference on Machine learning, pages 209–216. ACM, 2007. [Dže03] Sašo Džeroski. Multi-relational data mining: an introduction. ACM SIGKDD Explorations Newsletter, 5(1):1–16, 2003. [Get07] Lise Getoor. Introduction to statistical relational learning. MIT press, 2007. [HYZ15] K. Hua, Q. Yu, and R. Zhang. A guaranteed similarity metric learning framework for biological sequence comparison. Computational Biology and Bioinformatics, IEEE/ACM Transactions on, PP(99):1–1, 2015. [KCL15] Volodymyr Kuleshov, Arun Tejasvi Chaganty, and Percy Liang. Tensor factorization via matrix factorization. In Proceedings of the Eighteenth International Conference on Artificial Intelligence and Statistics - AISTATS, 2015. 7 [Kul12] Brian Kulis. Metric learning: A survey. Foundations and Trends in Machine Learning, 5(4):287–364, 2012. [LC12] Hoel Le Capitaine. A relevance-based learning model of fuzzy similarity measures. Fuzzy Systems, IEEE Transactions on, 20(1):57–68, 2012. [Mug92] S. Muggleton. Inductive Logic Programming. Academic Press, London, 1992. [New06] Mark EJ Newman. Modularity and community structure in networks. Proceedings of the National Academy of Sciences, 103(23):8577–8582, 2006. [NJW+ 02] Andrew Y Ng, Michael I Jordan, Yair Weiss, et al. On spectral clustering: Analysis and an algorithm. Advances in neural information processing systems, 2:849–856, 2002. [PY10] Sinno Jialin Pan and Qiang Yang. A survey on transfer learning. Knowledge and Data Engineering, IEEE Transactions on, 22(10):1345–1359, 2010. [RD06] Matthew Richardson and Pedro Domingos. Markov logic networks. Machine learning, 62(1-2):107–136, 2006. [VdMH12] Laurens Van der Maaten and Geoffrey Hinton. Visualizing non-metric similarities in multiple maps. Machine learning, 87(1):33–55, 2012. [XJRN02] Eric P Xing, Michael I Jordan, Stuart Russell, and Andrew Y Ng. Distance metric learning with application to clustering with side-information. In Advances in neural information processing systems, pages 505–512, 2002. [ZDlT15] F. Zhou and F. De la Torre. Factorized graph matching. Pattern Analysis and Machine Intelligence, IEEE Transactions on, PP(99):1–1, 2015.