CAp 2011
différencie notre approche de celle de (Kumar et al., 2009) qui se concentre
uniquement sur une approximation fidèle de la matrice de Gram, sans viser
de tâche particulière. D’autre part, pour résoudre le problème d’optimisation
convexe associé à notre modèle, nous proposons une nouvelle procédure d’op-
timisation stochastique s’inspirant de (Nesterov, 2010). Ses caractéristiques
sont : i) le calcul des mises à jour est peu coûteux (grâce à l’usage d’approxi-
mations de rang 1) et ii) la convergence est démontrée. Afin d’évaluer notre
procédure d’apprentissage, nous menons des expérimentations sur des jeux
de données benchmark, qui valident la pertinence de notre approche.
La section 2 introduit le cadre d’apprentissage qui nous intéresse, le pro-
blème d’optimisation que nous traitons ainsi que la paramétrisation du noyau
de rang faible au centre de notre approche. La section 3 décrit notre procé-
dure d’optimisation stochastique et en établit des garanties de convergence.
La section 4 propose une discussion sur les hyper-paramètres entrant en jeu
dans notre méthode et fournit des éléments sur la complexité de l’algorithme
proposé. Dans la section 5, nous présentons des résultats obtenus à partir de
simulations numériques sur des jeux de données benchmark.
2 Modèle proposé
Notations L’espace Xest l’espace d’entrée, k:X × X → Rla fonction
noyau (positive) dont nous disposons et φ:X → H le plongement φ(x) :=
k(x,·)allant de Xvers l’espace de Hilbert à noyau reproduisant Hassocié à
k. Il vient k(x,x0) = hφ(x), φ(x0)i, où h·,·i est le produit scalaire de H.
L’ensemble d’apprentissage est noté : L:= {(xi, yi)}n
i=1 ∈(X × R)n, où
yiest la valeur cible associée à xi;K= (k(xi,xj))1≤i,j≤nest la matrice de
Gram associée à krelative à L. Pour m= 1, . . . , n,cmest le vecteur
cm:= 1
pk(xm,xm)[k(x1,xm), . . . , k(xn,xm)]>.
2.1 Noyaux paramétrisés par les données
Pour m= 1, . . . , n,˜
φm:X → ˜
Hmest le plongement défini par :
˜
φm(x) := hφ(x), φ(xm)i
k(xm,xm)φ(xm).(1)