Formalisation et Apprentissage de Métriques Relationnelles

Téléchargement

LABORATOIRE D’INFORMATIQUE DE NANTES-ATLANTIQUE

UMR 6241

ÉCOLE DOCTORALE STIM, N. 503

« Sciences et technologies

de l’information et des mathématiques »

Sujet de thèse pour 2016

Formalisation et Apprentissage de Métriques Relationnelles

Résumé. Ce sujet a pour cadre général l’analyse de données, et en particulier l’apprentissage

automatique sur des données relationnelles. L’explosion en terme de disponibilités et d’usage de

ce type de données nécessite de se doter d’algorithmes performants pour des taches de prédiction,

de regroupement, de recommandation. Il s’avère que de nombreux algorithmes se fondent sur une

notion de distance pour parvenir à produire une décision, mais qu’en pratique la distance utilisée

n’est pas adaptée à la spéciﬁcité de ces données. Une solution consiste à apprendre cette distance

en fonction de la structure intrinsèque des observations, et des liens que l’on peut connaître entre

ces observations. L’aspect relationnel de données n’a jamais été considéré dans ces approches, et

l’objectif de ce sujet est de proposer des méthodes permettant d’apprendre des distances tirant

parti de cette information supplémentaire, sans ajout de supervision ou de connaissance expert,

dans un but de classiﬁcation, recommandation et visualisation de ces objets.

Mots clés. Apprentissage relationnel, Métrique, Similarité, Classiﬁcation supervisée et non su-

pervisée, Recommandation

Directeur de thèse .NOM, Prénom : LERAY, Philippe

Équipe d’accueil : DUKe

Courriel : philippe.leray (at) univ-nantes.fr

Téléphone : 02 40 68 30 38

Co-encadrant .NOM, Prénom : LECAPITAINE, Hoel

Équipe d’accueil : DUKe

Téléphone : 02 40 68 32 57

Introduction

Contexte et problématique

Le cadre général de ce sujet se situe en sciences des données, dans le domaine de l’-

analyse et la fouille de données, plus spéciﬁquement de données relationnelles. Les

champs d’activité et applications où l’on rencontre ce type de données sont aujourd’hui

très nombreux. Sans exhaustivité, on pourra citer les systèmes à recommandation, le

web sémantique, la bio-informatique, l’épidémiologie, la détection de fraudes, les sci-

ences humaines et sociales, etc . . .

La multiplication de ces données a donc poussé les chercheurs à proposer de nom-

breux modèles spéciﬁques à ces données, ouvrant un nouveau domaine en apprentissage:

l’apprentissage statistique relationnel. Au sein de cette communauté très active, on peut

retrouver les méthodes de programmation logique inductive [Mug92], les modèles re-

lationnels probabilistes [Get07,CLLC15], les réseaux logiques de Markov [RD06], ou

encore les champs conditionnels aléatoires.

Par ailleurs, de nombreux algorithmes d’analyse de données ou de prédiction se

fondent sur la notion de proximité, ou de différence, entre les entités (objets) décrivant

les observations du monde réel. En fonction des données que l’on considère, il est main-

tenant clairement établi [Kul12] que la façon dont on compare les objets a un impact

très important sur les performances d’algorithmes de prédiction ou de regroupement

(par exemple plus proches voisins et centres mobiles, respectivement). En particulier, en

fonction de l’objectif applicatif, le résultat de la comparaison entre deux entités doit pou-

voir être différent, ce qui implique l’apprentissage de cette comparaison. Dans le cadre

de l’équipe, ce comportement adaptatif est un moyen aisé de prendre en compte le ou

les utilisateurs du système. En effet, chaque utilisateur peut avoir ses propres critères

de comparaison, qui doivent être respectés lorsqu’ils sont utilisés dans un processus de

classiﬁcation ou de recommandation par exemple.

Les multiples modalités et points de vue des utilisateurs sont difﬁcilement pris en

compte dans les algorithmes classiques d’aide à la décision, et construire des modèles

adaptés à chacun est important dans de nombreuses applications. Ce sujet est ainsi au

cœur des problématiques de l’équipe DUKe, qui s’intéresse à l’apprentissage et la décou-

verte de connaissances par le biais d’utilisateurs interagissant avec le système. Ce sujet

constitue également la suite de travaux au sein de l’équipe portant sur l’apprentissage de

similarité [LC12] et l’apprentissage relationnel [CLLC15,BILBA15].

Il s’inscrit également dans la stratégie de rayonnement à l’international de l’équipe

par la volonté d’organiser un atelier international sur ce sujet lors de conférences clés du

domaine (ECML, ICML, NIPS, ICDM).

Problèmes et opportunités

Une première approche, naïve, pour gérer ces points de vue multiples consiste à sélec-

tionner, pour chaque objectif, un sous-ensemble, ou une combinaison d’attributs, mais

l’effort serait très important pour chaque tâche, et non généralisable. Une alternative

plus intéressante, proposée il y a maintenant une dizaine d’années [XJRN02], consiste à

apprendre la façon dont on va comparer les données en fonction de l’objectif applicatif.

Plus spéciﬁquement, on cherche à déterminer une nouvelle distance, potentiellement

non Euclidienne, de telle sorte que celle-ci permette de comparer les données de manière

plus pertinente, puisqu’elle est dépendra d’information permettant de lier (ou non) les

données entre elles.

Dans le cadre de l’apprentissage de métrique, l’objectif est d’apprendre des transfor-

mations de l’espace descriptif d’origine en se servant des contraintes sur les observations

(appartenance à des classes identiques ou différentes, réunies ou séparées par l’utilisa-

teur, retour utilisateur, etc . . . ). Une formulation usuelle de l’apprentissage de métrique

est la suivante : à partir d’une distance d(x, y)entre deux objets xet y, et une infor-

mation supervisée par rapport à une distance idéale entre ces deux objets, l’objectif est

de construire une nouvelle distance δ(x, y)respectant au mieux la relation entre ces ob-

jets. Cette information supervisée est très souvent modélisée sous la forme de distances

relatives : un objet xest plus proche de yque de z[LC12], et correspond ﬁnalement à

l’approche qu’aurait un utilisateur lambda pour trier des objets. En pratique, la plupart

des approches se fondent sur l’apprentissage d’une distance δde la forme d(f(x), f(y)),

où fest une fonction de projection des objets dans un nouvel espace de description.

L’apprentissage de métriques est aujourd’hui bien ancré dans la communauté appren-

tissage, comme l’en atteste le nombre du publications sur le sujet dans les conférences

ICML, NIPS ou encore ECML-PKDD. D’autre part, ces méthodes sont particulièrement

utilisées dans les domaines applicatifs de vision par ordinateur [CSSB10] ou en biolo-

gie [HYZ15], montrant ainsi leur intérêt pratique sur des données potentiellement large

échelle.

Enﬁn, elles apparaissent aussi dans une communauté naissante s’intéressant à l’appren-

tissage de représentations (ICLR1). Bien que ces représentations proviennent majoritaire-

ment de méthodes dites profondes, l’apprentissage de métriques apparaît comme complé-

mentaire à ces approches.

Actuellement, l’ensemble des approches d’apprentissage de métrique s’appliquent à

des jeux de données dits plats, c’est à dire qu’un objet est décrit par un certain nombre

d’attributs (disons p), et que l’on observe plusieurs (disons n) de ces objets, si bien que

l’on peut agréger ces données sous la forme d’une matrice (ou table) de dimension n×p,

que l’on notera M. Aujourd’hui, de nombreux cas d’applications pratiques nécessitent

l’utilisation de bases de données relationnelles, où ces données sont regroupées dans

plusieurs matrices Mi, liées entre elles par des associations. La profusion de ce type de

données amène donc nécessairement à concevoir des méthodes d’apprentissage [Get07]

et de fouille [Dže03] adaptées.

L’apprentissage d’une métrique dans ce contexte est tout à fait adapté, puisque les

données sont constituées par un ensemble de données dites plates. Pour autant, n’utiliser

que les informations d’une table, et indépendamment des autres, pour comparer deux ob-

1http://www.iclr.cc

jets fait perdre beaucoup de l’intérêt de la base de données relationnelle dont on dispose.

Les problématiques liées à ce type de données sont variées, mais dans de nombreux cas, il

s’agit de prendre en compte la nature structurelle de celles-ci. Ainsi, les réseaux sociaux

sont modélisés par des graphes, les systèmes à recommandation utilisent des graphes

bipartites. Le recours à cette modélisation pousse donc la communauté à s’intéresser aux

méthodes de clustering de graphes (que ce soit par approche communautaire [New06],

spectrale [NJW+02] ou encore de factorisation de matrices [CLCL15]).

En interprétant ces données relationnelles comme des graphes dans lesquels les nœuds

sont des entités, et les liens représentent les relations entre ces entités, on peut se servir

pour l’apprentissage d’une part des attributs décrivant chacun des nœuds (c’est à dire

l’approche classique), et d’autre part des liens reliant ces nœuds. C’est sur ces états de

fait que repose le principe de ce sujet de thèse, posant deux questions qui n’ont pour le

moment jamais été abordées : d’une part, que peut apporter l’apprentissage de métrique

dit classique aux problématiques (classiﬁcation, recommandation) liées à des jeux de

données relationnels, et, d’autre part, peut-on déﬁnir et apprendre une métrique tirant

parti de l’apport d’information de ces données (structurées) spéciﬁques.

Travail demandé

Objectifs

L’objectif principal de ce sujet est un travail théorique sur la déﬁnition, l’apprentissage

et l’évaluation d’une mesure de comparaison entre objets dans le contexte d’une base de

données relationnelles. En particulier, il s’agit d’être capable de modéliser les spéciﬁcités

des objets dans ce type de données, et en quoi l’aspect relationnel de l’information permet

d’obtenir une description, et donc une comparaison, plus précise de ces données. Il s’agit

donc d’utiliser de l’information inter-objets (un objet est décrit par ces attributs, mais

également par ces relations aux autre objets) pour calculer des métriques sur des objets

d’une même table (intra-objets), et potentiellement sur des objets de tables différentes

(inter-objets).

Plus particulièrement, les objectifs premiers de cette thèse sont

•d’introduire de l’information inter-objets lors du calcul de la distance intra-objets

•d’être capable de calculer des distances inter-objets

•d’évaluer la qualité de ces distances à travers des tâches de classiﬁcation ou de

recommandation

•d’utiliser ces distances aﬁn de projeter, et visualiser ces données relationnelles.

Information inter-objets

La prise en compte d’information autre que les seuls attributs d’un objet pour l’analyse

de données relationnelles est relativement classique aujourd’hui [CLCL15], mais n’a pas

encore été abordé dans le cadre de l’apprentissage de métrique. Il existe de nombreuses

techniques permettant de prendre en compte des attributs supplémentaires. Lors de

cette thèse, nous privilégierons une approche fondée sur la modélisation en graphe de

données relationnelles : elle repose sur des bases théoriques solides et a prouvé sa perfor-

mance et sa capacité de passage à l’échelle dans de nombreuses applications. L’approche

pourra par exemple s’inspirer de récents travaux portant sur de la factorisation en ap-

pariement de graphes [ZDlT15] ou d’entités de représentations [BGWB14], et utiliser des

techniques classiques d’optimisation pour déterminer quels sont les attributs et tables les

plus pertinents pour ces problèmes. De plus, à la différence de ce qui a pu être proposé

dans la littérature, l’objectif sera de faire porter les contraintes liées à l’apprentissage non

pas sur l’appartenance des objets à des groupes, mais sur les liens qui peuvent exister et

être trouvés via les relations de la base. Cet apport rend l’approche non supervisée et

permet donc une utilisation plus aisée et plus généralisable en pratique.

Distance inter-objets

Une piste intéressante est la possibilité de comparer des objets provenant de tables dif-

férentes. Naturellement, ces objets ne sont absolument pas comparables en l’état, mais

l’objectif serait de déﬁnir ou d’apprendre des transformations différentes pour chacun de

ces objets, mais les projetant dans un même espace Euclidien. Une fois la projection faite,

une distance usuelle peut alors être utilisée. Les transformations peuvent donc s’inter-

préter comme des éléments permettant de faire la traduction entre domaines différents,

et on pourra ainsi considérer une distance entre entités structurellement différentes. Le

principal verrou scientiﬁque dans cette tâche est bien sûr la déﬁnition de ces fonctions

de transformation (ou de projection). Il pourra être intéressant de partir de travaux por-

tant sur la minimisation d’écart entre distribution des deux espaces pour apprendre ces

métriques de transfert [DKJ+07], ou encore s’inspirer de travaux récents sur l’apprentis-

sage par transfert [PY10].

Projection

Ces deux premiers types de métriques permettent de déﬁnir des transformations, c’est-à-

dire des projections, des objets, mais sans spéciﬁcations sur les caractéristiques (dimen-

sion, espace Euclidien) de l’espace de projection. Aﬁn de visualiser ces objets, qui sont

potentiellement initialement de grande dimension, il devient intéressant de cumuler les

avantages de l’apprentissage de métrique et des projections induites pour visualiser ces

objets dans un espace de dimension réduite (typiquement deux ou trois). Ces projections

particulières pourront étendre des approches se fondant sur des factorisation de matri-

ces [CLCL15] et tenseurs [KCL15], ou de la minimisation de distorsion de distribution

1 / 8 100%

Documents connexes

comprendre et intégrer la démarche marketing

Management de l`Innovation Technologique « MIT

Machine Learning

Semaine 3 Le Social Learning, de quoi parle-t-on - Fun-Mooc

Entreprise 29 - Offre 141

Poster de la Journée scientifique 2014 - ARC 6 - Région Rhône

Télécharger le programme complet

*2cmMachine Learning : enjeux et opportunités

DEKHTIAR Jonathan

Réseau des Learning Labs Jean POULY jean - Sup

Machine Learning : application à la finance

Faculté de pharmacie Étudiant à la maitrise ou au doctorat

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Formalisation et Apprentissage de Métriques Relationnelles

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Formalisation et Apprentissage de Métriques Relationnelles

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib