LABORATOIRE D’INFORMATIQUE DE NANTES-ATLANTIQUE
UMR 6241
ÉCOLE DOCTORALE STIM, N. 503
« Sciences et technologies
de l’information et des mathématiques »
Sujet de thèse pour 2016
Formalisation et Apprentissage de Métriques Relationnelles
Résumé. Ce sujet a pour cadre général l’analyse de données, et en particulier l’apprentissage
automatique sur des données relationnelles. L’explosion en terme de disponibilités et d’usage de
ce type de données nécessite de se doter d’algorithmes performants pour des taches de prédiction,
de regroupement, de recommandation. Il s’avère que de nombreux algorithmes se fondent sur une
notion de distance pour parvenir à produire une décision, mais qu’en pratique la distance utilisée
n’est pas adaptée à la spécificité de ces données. Une solution consiste à apprendre cette distance
en fonction de la structure intrinsèque des observations, et des liens que l’on peut connaître entre
ces observations. L’aspect relationnel de données n’a jamais été considéré dans ces approches, et
l’objectif de ce sujet est de proposer des méthodes permettant d’apprendre des distances tirant
parti de cette information supplémentaire, sans ajout de supervision ou de connaissance expert,
dans un but de classification, recommandation et visualisation de ces objets.
Mots clés. Apprentissage relationnel, Métrique, Similarité, Classification supervisée et non su-
pervisée, Recommandation
Directeur de thèse .NOM, Prénom : LERAY, Philippe
Équipe d’accueil : DUKe
Courriel : philippe.leray (at) univ-nantes.fr
Téléphone : 02 40 68 30 38
Co-encadrant .NOM, Prénom : LECAPITAINE, Hoel
Équipe d’accueil : DUKe
Téléphone : 02 40 68 32 57
Introduction
Contexte et problématique
Le cadre général de ce sujet se situe en sciences des données, dans le domaine de l’-
analyse et la fouille de données, plus spécifiquement de données relationnelles. Les
champs d’activité et applications où l’on rencontre ce type de données sont aujourd’hui
très nombreux. Sans exhaustivité, on pourra citer les systèmes à recommandation, le
web sémantique, la bio-informatique, l’épidémiologie, la détection de fraudes, les sci-
ences humaines et sociales, etc . . .
La multiplication de ces données a donc poussé les chercheurs à proposer de nom-
breux modèles spécifiques à ces données, ouvrant un nouveau domaine en apprentissage:
l’apprentissage statistique relationnel. Au sein de cette communauté très active, on peut
retrouver les méthodes de programmation logique inductive [Mug92], les modèles re-
lationnels probabilistes [Get07,CLLC15], les réseaux logiques de Markov [RD06], ou
encore les champs conditionnels aléatoires.
Par ailleurs, de nombreux algorithmes d’analyse de données ou de prédiction se
fondent sur la notion de proximité, ou de différence, entre les entités (objets) décrivant
les observations du monde réel. En fonction des données que l’on considère, il est main-
tenant clairement établi [Kul12] que la façon dont on compare les objets a un impact
très important sur les performances d’algorithmes de prédiction ou de regroupement
(par exemple plus proches voisins et centres mobiles, respectivement). En particulier, en
fonction de l’objectif applicatif, le résultat de la comparaison entre deux entités doit pou-
voir être différent, ce qui implique l’apprentissage de cette comparaison. Dans le cadre
de l’équipe, ce comportement adaptatif est un moyen aisé de prendre en compte le ou
les utilisateurs du système. En effet, chaque utilisateur peut avoir ses propres critères
de comparaison, qui doivent être respectés lorsqu’ils sont utilisés dans un processus de
classification ou de recommandation par exemple.
Les multiples modalités et points de vue des utilisateurs sont difficilement pris en
compte dans les algorithmes classiques d’aide à la décision, et construire des modèles
adaptés à chacun est important dans de nombreuses applications. Ce sujet est ainsi au
cœur des problématiques de l’équipe DUKe, qui s’intéresse à l’apprentissage et la décou-
verte de connaissances par le biais d’utilisateurs interagissant avec le système. Ce sujet
constitue également la suite de travaux au sein de l’équipe portant sur l’apprentissage de
similarité [LC12] et l’apprentissage relationnel [CLLC15,BILBA15].
Il s’inscrit également dans la stratégie de rayonnement à l’international de l’équipe
par la volonté d’organiser un atelier international sur ce sujet lors de conférences clés du
domaine (ECML, ICML, NIPS, ICDM).
Problèmes et opportunités
Une première approche, naïve, pour gérer ces points de vue multiples consiste à sélec-
tionner, pour chaque objectif, un sous-ensemble, ou une combinaison d’attributs, mais
l’effort serait très important pour chaque tâche, et non généralisable. Une alternative
plus intéressante, proposée il y a maintenant une dizaine d’années [XJRN02], consiste à
apprendre la façon dont on va comparer les données en fonction de l’objectif applicatif.
Plus spécifiquement, on cherche à déterminer une nouvelle distance, potentiellement
non Euclidienne, de telle sorte que celle-ci permette de comparer les données de manière
plus pertinente, puisqu’elle est dépendra d’information permettant de lier (ou non) les
données entre elles.
Dans le cadre de l’apprentissage de métrique, l’objectif est d’apprendre des transfor-
mations de l’espace descriptif d’origine en se servant des contraintes sur les observations
(appartenance à des classes identiques ou différentes, réunies ou séparées par l’utilisa-
teur, retour utilisateur, etc . . . ). Une formulation usuelle de l’apprentissage de métrique
est la suivante : à partir d’une distance d(x, y)entre deux objets xet y, et une infor-
mation supervisée par rapport à une distance idéale entre ces deux objets, l’objectif est
de construire une nouvelle distance δ(x, y)respectant au mieux la relation entre ces ob-
jets. Cette information supervisée est très souvent modélisée sous la forme de distances
relatives : un objet xest plus proche de yque de z[LC12], et correspond finalement à
l’approche qu’aurait un utilisateur lambda pour trier des objets. En pratique, la plupart
des approches se fondent sur l’apprentissage d’une distance δde la forme d(f(x), f(y)),
fest une fonction de projection des objets dans un nouvel espace de description.
L’apprentissage de métriques est aujourd’hui bien ancré dans la communauté appren-
tissage, comme l’en atteste le nombre du publications sur le sujet dans les conférences
ICML, NIPS ou encore ECML-PKDD. D’autre part, ces méthodes sont particulièrement
utilisées dans les domaines applicatifs de vision par ordinateur [CSSB10] ou en biolo-
gie [HYZ15], montrant ainsi leur intérêt pratique sur des données potentiellement large
échelle.
Enfin, elles apparaissent aussi dans une communauté naissante s’intéressant à l’appren-
tissage de représentations (ICLR1). Bien que ces représentations proviennent majoritaire-
ment de méthodes dites profondes, l’apprentissage de métriques apparaît comme complé-
mentaire à ces approches.
Actuellement, l’ensemble des approches d’apprentissage de métrique s’appliquent à
des jeux de données dits plats, c’est à dire qu’un objet est décrit par un certain nombre
d’attributs (disons p), et que l’on observe plusieurs (disons n) de ces objets, si bien que
l’on peut agréger ces données sous la forme d’une matrice (ou table) de dimension n×p,
que l’on notera M. Aujourd’hui, de nombreux cas d’applications pratiques nécessitent
l’utilisation de bases de données relationnelles, où ces données sont regroupées dans
plusieurs matrices Mi, liées entre elles par des associations. La profusion de ce type de
données amène donc nécessairement à concevoir des méthodes d’apprentissage [Get07]
et de fouille [Dže03] adaptées.
L’apprentissage d’une métrique dans ce contexte est tout à fait adapté, puisque les
données sont constituées par un ensemble de données dites plates. Pour autant, n’utiliser
que les informations d’une table, et indépendamment des autres, pour comparer deux ob-
1http://www.iclr.cc
jets fait perdre beaucoup de l’intérêt de la base de données relationnelle dont on dispose.
Les problématiques liées à ce type de données sont variées, mais dans de nombreux cas, il
s’agit de prendre en compte la nature structurelle de celles-ci. Ainsi, les réseaux sociaux
sont modélisés par des graphes, les systèmes à recommandation utilisent des graphes
bipartites. Le recours à cette modélisation pousse donc la communauté à s’intéresser aux
méthodes de clustering de graphes (que ce soit par approche communautaire [New06],
spectrale [NJW+02] ou encore de factorisation de matrices [CLCL15]).
En interprétant ces données relationnelles comme des graphes dans lesquels les nœuds
sont des entités, et les liens représentent les relations entre ces entités, on peut se servir
pour l’apprentissage d’une part des attributs décrivant chacun des nœuds (c’est à dire
l’approche classique), et d’autre part des liens reliant ces nœuds. C’est sur ces états de
fait que repose le principe de ce sujet de thèse, posant deux questions qui n’ont pour le
moment jamais été abordées : d’une part, que peut apporter l’apprentissage de métrique
dit classique aux problématiques (classification, recommandation) liées à des jeux de
données relationnels, et, d’autre part, peut-on définir et apprendre une métrique tirant
parti de l’apport d’information de ces données (structurées) spécifiques.
Travail demandé
Objectifs
L’objectif principal de ce sujet est un travail théorique sur la définition, l’apprentissage
et l’évaluation d’une mesure de comparaison entre objets dans le contexte d’une base de
données relationnelles. En particulier, il s’agit d’être capable de modéliser les spécificités
des objets dans ce type de données, et en quoi l’aspect relationnel de l’information permet
d’obtenir une description, et donc une comparaison, plus précise de ces données. Il s’agit
donc d’utiliser de l’information inter-objets (un objet est décrit par ces attributs, mais
également par ces relations aux autre objets) pour calculer des métriques sur des objets
d’une même table (intra-objets), et potentiellement sur des objets de tables différentes
(inter-objets).
Plus particulièrement, les objectifs premiers de cette thèse sont
d’introduire de l’information inter-objets lors du calcul de la distance intra-objets
d’être capable de calculer des distances inter-objets
d’évaluer la qualité de ces distances à travers des tâches de classification ou de
recommandation
d’utiliser ces distances afin de projeter, et visualiser ces données relationnelles.
Information inter-objets
La prise en compte d’information autre que les seuls attributs d’un objet pour l’analyse
de données relationnelles est relativement classique aujourd’hui [CLCL15], mais n’a pas
encore été abordé dans le cadre de l’apprentissage de métrique. Il existe de nombreuses
techniques permettant de prendre en compte des attributs supplémentaires. Lors de
cette thèse, nous privilégierons une approche fondée sur la modélisation en graphe de
données relationnelles : elle repose sur des bases théoriques solides et a prouvé sa perfor-
mance et sa capacité de passage à l’échelle dans de nombreuses applications. L’approche
pourra par exemple s’inspirer de récents travaux portant sur de la factorisation en ap-
pariement de graphes [ZDlT15] ou d’entités de représentations [BGWB14], et utiliser des
techniques classiques d’optimisation pour déterminer quels sont les attributs et tables les
plus pertinents pour ces problèmes. De plus, à la différence de ce qui a pu être proposé
dans la littérature, l’objectif sera de faire porter les contraintes liées à l’apprentissage non
pas sur l’appartenance des objets à des groupes, mais sur les liens qui peuvent exister et
être trouvés via les relations de la base. Cet apport rend l’approche non supervisée et
permet donc une utilisation plus aisée et plus généralisable en pratique.
Distance inter-objets
Une piste intéressante est la possibilité de comparer des objets provenant de tables dif-
férentes. Naturellement, ces objets ne sont absolument pas comparables en l’état, mais
l’objectif serait de définir ou d’apprendre des transformations différentes pour chacun de
ces objets, mais les projetant dans un même espace Euclidien. Une fois la projection faite,
une distance usuelle peut alors être utilisée. Les transformations peuvent donc s’inter-
préter comme des éléments permettant de faire la traduction entre domaines différents,
et on pourra ainsi considérer une distance entre entités structurellement différentes. Le
principal verrou scientifique dans cette tâche est bien sûr la définition de ces fonctions
de transformation (ou de projection). Il pourra être intéressant de partir de travaux por-
tant sur la minimisation d’écart entre distribution des deux espaces pour apprendre ces
métriques de transfert [DKJ+07], ou encore s’inspirer de travaux récents sur l’apprentis-
sage par transfert [PY10].
Projection
Ces deux premiers types de métriques permettent de définir des transformations, c’est-à-
dire des projections, des objets, mais sans spécifications sur les caractéristiques (dimen-
sion, espace Euclidien) de l’espace de projection. Afin de visualiser ces objets, qui sont
potentiellement initialement de grande dimension, il devient intéressant de cumuler les
avantages de l’apprentissage de métrique et des projections induites pour visualiser ces
objets dans un espace de dimension réduite (typiquement deux ou trois). Ces projections
particulières pourront étendre des approches se fondant sur des factorisation de matri-
ces [CLCL15] et tenseurs [KCL15], ou de la minimisation de distorsion de distribution
1 / 8 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !