Apprentissage Stochastique de Noyau de Rang Faible pour la Régression
Apprentissage Stochastique de Noyau de Rang
Faible pour la Régression
Pierre Machart1,3, Thomas Peel1,2, Liva Ralaivola1, Sandrine Anthoine2,
Hervé Glotin3
1LIF, CNRS, Aix-Marseille Université,
39, rue F. Joliot Curie, F-13013 Marseille, France [email protected]
2LATP, CNRS, Aix-Marseille Université,
39, rue F. Joliot Curie, F-13013 Marseille, France [email protected]
3LSIS, CNRS, Université Sud Toulon Var,
F-83957 La Garde, France [email protected]
Résumé : Nous présentons une approche pour l’apprentissage de fonctions de régres-
sion à noyau. Elle est basée sur l’utilisation de combinaisons coniques de noyaux pa-
ramétrés et sur une nouvelle procédure stochastique d’optimisation convexe dont la
convergence est garantie. La procédure d’apprentissage a les propriétés suivantes : a)
la combinaison conique est spécifiquement apprise pour la tâche de régression et b) les
mises à jour de chaque étape de la procédure d’optimisation sont peu coûteuses. Afin
de mettre en lumière la pertinence de notre stratégie d’apprentissage, nous présentons
des résultats d’expériences menées sur des jeux de données variés.
Mots-clés : Optimisation stochastique, noyaux, approximations de rang faible.
1 Introduction
Notre objectif est d’apprendre une fonction de régression à noyau en s’at-
taquant conjointement à deux problèmes : l’apprentissage d’un noyau adapté
à la tâche et la possibilité de traiter efficacement les problèmes où la taille de
la matrice de Gram ne permet pas son stockage en mémoire. Notons que bien
que cette étude se place dans le cadre de la régression, la plupart des résultats
présentés s’étendent facilement à la classification.
Nous présentons deux contributions. D’une part, nous construisons des
combinaisons coniques d’approximations de Nyström de rang 1 dont les co-
efficients sont trouvés de manière à servir la tâche de régression — ce qui
CAp 2011
différencie notre approche de celle de (Kumar et al., 2009) qui se concentre
uniquement sur une approximation fidèle de la matrice de Gram, sans viser
de tâche particulière. D’autre part, pour résoudre le problème d’optimisation
convexe associé à notre modèle, nous proposons une nouvelle procédure d’op-
timisation stochastique s’inspirant de (Nesterov, 2010). Ses caractéristiques
sont : i) le calcul des mises à jour est peu coûteux (grâce à l’usage d’approxi-
mations de rang 1) et ii) la convergence est démontrée. Afin d’évaluer notre
procédure d’apprentissage, nous menons des expérimentations sur des jeux
de données benchmark, qui valident la pertinence de notre approche.
La section 2 introduit le cadre d’apprentissage qui nous intéresse, le pro-
blème d’optimisation que nous traitons ainsi que la paramétrisation du noyau
de rang faible au centre de notre approche. La section 3 décrit notre procé-
dure d’optimisation stochastique et en établit des garanties de convergence.
La section 4 propose une discussion sur les hyper-paramètres entrant en jeu
dans notre méthode et fournit des éléments sur la complexité de l’algorithme
proposé. Dans la section 5, nous présentons des résultats obtenus à partir de
simulations numériques sur des jeux de données benchmark.
2 Modèle proposé
Notations L’espace Xest l’espace d’entrée, k:X × X Rla fonction
noyau (positive) dont nous disposons et φ:X H le plongement φ(x) :=
k(x,·)allant de Xvers l’espace de Hilbert à noyau reproduisant Hassocié à
k. Il vient k(x,x0) = hφ(x), φ(x0)i, où ,·i est le produit scalaire de H.
L’ensemble d’apprentissage est noté : L:= {(xi, yi)}n
i=1 (X × R)n, où
yiest la valeur cible associée à xi;K= (k(xi,xj))1i,jnest la matrice de
Gram associée à krelative à L. Pour m= 1, . . . , n,cmest le vecteur
cm:= 1
pk(xm,xm)[k(x1,xm), . . . , k(xn,xm)]>.
2.1 Noyaux paramétrisés par les données
Pour m= 1, . . . , n,˜
φm:X → ˜
Hmest le plongement défini par :
˜
φm(x) := hφ(x), φ(xm)i
k(xm,xm)φ(xm).(1)
Apprentissage Stochastique de Noyau de Rang Faible pour la Régression
Il suit que ˜
kmdéfini par :
x,x0 X ,˜
km(x,x0) := h˜
φm(x),˜
φm(x0)i=k(x,xm)k(x0,xm)
k(xm,xm)(2)
est bien un noyau positif. En conséquence, les noyaux ˜
kmdonnent lieu à une
famille de matrices de Gram (˜
Km)1mnde la forme suivante :
˜
Km= (˜
km(xi,xj))1i,jn=cmcT
m,(3)
qui peuvent s’interpréter comme des approximations de Nyström de rang 1 de
la matrice de Gram K(Williams & Seeger, 2001; Drineas & Mahoney, 2005).
Comme proposé par Kumar et al. (2009), il est raisonnable de considé-
rer comme substitut de Kune combinaison convexe de ˜
Kmsi ceux-ci sont
de rang très faible. Suivant cette idée, nous allons étudier l’utilisation d’une
matrice de Gram paramétrique de la forme :
˜
K(µ) = X
m∈S
µm˜
Kmavec µm0,(4)
Sest un ensemble d’indices correspondant aux approximations de rang 1
spécifiquement utilisées. Notons qu’en considérant une combinaison conique
de ˜
Km, elle-mêmes semi-définies positives, ˜
K(µ)l’est également. Doréna-
vant, on notera Mle cardinal de Set m0le nombre de composantes non-
nulles de µ(appelé aussi pseudo-norme 0 de µ).
2.2 Kernel Ridge Regression
La Kernel Ridge Regression (KRR) est la version à noyau de la méthode
de régression ridge (Hoerl & Kennard, 1970). Elle pose le problème d’opti-
misation suivant :
min
w
λkwk2+
n
X
i=1
(yi− hw, φ(xi)i)2,(5)
λ > 0est un paramètre de régularisation.
En désignant par Ila matrice identité, on peut considérer la formulation
duale suivante :
max
αRnFKRR(α) := yTα1
4λαT(λI +K)α,(6)
CAp 2011
la solution αde ce problème concave et w, celle du problème (5), étant
liées par :
w=1
2λ
n
X
i=1
α
iφ(xi),(7)
αs’obtient en annulant le gradient de FKRR :
α= 2(I+1
λK)1y.(8)
La valeur de la fonction objectif, évaluée en α, est alors
FKRR(α) = yT(I+1
λK)1y,(9)
et la fonction de régression associée est donnée par :
f(x) = 1
2λ
n
X
i=1
α
ik(xi,x).(10)
2.3 Notre problème d’optimisation convexe
Il est possible de résoudre le problème de KRR en inversant le système
linéaire (λI +K)α= 2λy, pour un coût de O(n3)opérations. Cela peut être
prohibitif pour de grandes valeurs de n, d’autant plus que la matrice λI +K
peut ne pas tenir en mémoire. Pour contourner ce problème, nous considé-
rons ˜
K(µ)(voir Eq. (4)) plutôt que la matrice de Gram K. Cela permet non
seulement de contourner le problème de stockage mais aussi de définir une
procédure d’apprentissage où on cherche à la fois la fonction de régression et
µ. C’est une approche similaire au paradigme MKL (Rakotomamonjy et al.,
2008) où on apprend les paramètres du noyau en même temps que la fonction
cible. En ce sens, notre approche diffère de celle développée dans (Suykens
et al., 2002), Fixed-Size LS-SVM. Cette dernière vise en effet à remplacer
la matrice de Gram utilisée dans le processus d’apprentissage de la fonction
cible par une approximation de Nyström de rang M, obtenue au préalable en
s’appuyant sur une décomposition en valeurs singulières.
Pour définir notre problème d’optimisation, nous procédons de la même
manière que (Rakotomamonjy et al., 2008). Pour m= 1, . . . , n, on définit
l’espace de Hilbert ˜
H0
mcomme :
˜
H0
m:= nf˜
Hm
kfk˜
Hm
µm<o.(11)
Apprentissage Stochastique de Noyau de Rang Faible pour la Régression
On peut montrer (Aronszajn, 1950) que ˜
H=L˜
H0
mest le RKHS associé
à˜
k=Pµm˜
km. En reproduisant le raisonnement de (Rakotomamonjy et al.,
2008), on peut écrire notre problème primal de la façon suivante :
min
{fm},µ
λX
m∈S
1
µm
kfmk2
˜
H0
m+
n
X
i=1
(yiX
m∈S
fm(xi))2
s. c. X
m∈S
µmn1, µm0,(12)
n1est un paramètre contrôlant la norme 1 de µ.
Comme ce problème est aussi convexe en µ, en utilisant les résultats pré-
cédents sur le problème de KRR, (12) équivaut à :
min
µ
max
α
yTα1
4λαT(λI +˜
K(µ))α= min
µ
λyT(λI +˜
K(µ))1y
s. c. X
m∈S
µmn1, µm0.(13)
Enfin, en tirant parti de l’équivalence entre les méthodes de régularisation
de Thikhonov et Ivanov (Vasin, 1970), on aboutit au problème d’optimisation
convexe et dérivable qui nous intéresse :
min
µ0{F(µ) := yT(I+1
λ˜
K(µ))1y+νX
m
µm}.(14)
Un minimiseur µdu problème précédent et un vecteur de poids α, obte-
nus en adaptant (8) au cas K=K(µ), tels que
α= 2 I+˜
K(µ
λ)1
y,(15)
nous permettent, en utilisant (1), de produire la fonction de régression sui-
vante :
˜
f(x) = 1
2λ
n
X
i=1
α
i˜
k(xi,x) = 1
2λX
m∈S
µ
m
n
X
i=1
α
i˜
km(xi,x)
=1
2λX
m∈S
˜α
mk(xm,x)(en utilisant (2)),
(16)
avec
˜α
m:= µ
m
c>
mα
pk(xm,xm).(17)
1 / 16 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !