l’effort serait très important pour chaque tâche, et non généralisable. Une alternative
plus intéressante, proposée il y a maintenant une dizaine d’années [XJRN02], consiste à
apprendre la façon dont on va comparer les données en fonction de l’objectif applicatif.
Plus spécifiquement, on cherche à déterminer une nouvelle distance, potentiellement
non Euclidienne, de telle sorte que celle-ci permette de comparer les données de manière
plus pertinente, puisqu’elle est dépendra d’information permettant de lier (ou non) les
données entre elles.
Dans le cadre de l’apprentissage de métrique, l’objectif est d’apprendre des transfor-
mations de l’espace descriptif d’origine en se servant des contraintes sur les observations
(appartenance à des classes identiques ou différentes, réunies ou séparées par l’utilisa-
teur, retour utilisateur, etc . . . ). Une formulation usuelle de l’apprentissage de métrique
est la suivante : à partir d’une distance d(x, y)entre deux objets xet y, et une infor-
mation supervisée par rapport à une distance idéale entre ces deux objets, l’objectif est
de construire une nouvelle distance δ(x, y)respectant au mieux la relation entre ces ob-
jets. Cette information supervisée est très souvent modélisée sous la forme de distances
relatives : un objet xest plus proche de yque de z[LC12], et correspond finalement à
l’approche qu’aurait un utilisateur lambda pour trier des objets. En pratique, la plupart
des approches se fondent sur l’apprentissage d’une distance δde la forme d(f(x), f(y)),
où fest une fonction de projection des objets dans un nouvel espace de description.
L’apprentissage de métriques est aujourd’hui bien ancré dans la communauté appren-
tissage, comme l’en atteste le nombre du publications sur le sujet dans les conférences
ICML, NIPS ou encore ECML-PKDD. D’autre part, ces méthodes sont particulièrement
utilisées dans les domaines applicatifs de vision par ordinateur [CSSB10] ou en biolo-
gie [HYZ15], montrant ainsi leur intérêt pratique sur des données potentiellement large
échelle.
Enfin, elles apparaissent aussi dans une communauté naissante s’intéressant à l’appren-
tissage de représentations (ICLR1). Bien que ces représentations proviennent majoritaire-
ment de méthodes dites profondes, l’apprentissage de métriques apparaît comme complé-
mentaire à ces approches.
Actuellement, l’ensemble des approches d’apprentissage de métrique s’appliquent à
des jeux de données dits plats, c’est à dire qu’un objet est décrit par un certain nombre
d’attributs (disons p), et que l’on observe plusieurs (disons n) de ces objets, si bien que
l’on peut agréger ces données sous la forme d’une matrice (ou table) de dimension n×p,
que l’on notera M. Aujourd’hui, de nombreux cas d’applications pratiques nécessitent
l’utilisation de bases de données relationnelles, où ces données sont regroupées dans
plusieurs matrices Mi, liées entre elles par des associations. La profusion de ce type de
données amène donc nécessairement à concevoir des méthodes d’apprentissage [Get07]
et de fouille [Dže03] adaptées.
L’apprentissage d’une métrique dans ce contexte est tout à fait adapté, puisque les
données sont constituées par un ensemble de données dites plates. Pour autant, n’utiliser
que les informations d’une table, et indépendamment des autres, pour comparer deux ob-
1http://www.iclr.cc