Notions de gradient stochastique.

publicité
Quelques notions sur
le gradient stochastique
Présentation du problème
min
u∈U ad ⊂U
J(u) avec J(u) = E j u, w
La variable u n’est pas aléatoire : la même valeur de u s’applique à
toutes les valeurs prises par la variable aléatoire w : boucle ouverte.
Si on est prêt à calculer des espérances, on retombe exactement sur
le cas de l’optimisation déterministe sur un ensemble admissible.
Mais on veut souvent éviter de tels calculs de l’espérance. . .
Exemple : calcul par Monte Carlo E [w] = arg min 21 E (u − w)2 .
u∈R
u (k+1) =
1
k +1
=u
(k)
−
k+1
X
w (l)
l=1
´
1 ` (k)
u − w (k+1)
k +1
I u (k) − w (k+1) : gradient de la fonction sous l’espérance ;
I 1 :
pas k de l’algorithme (k → 0 “pas trop vite”).
k+1
Algorithme du gradient stochastique
Onremplace l’évaluation
du gradient de la fonction J au point u (k)
(E ∇u j u (k) , w ) par une évaluation du gradient de la fonction j
pour une valeur w (k+1) de l’aléa (∇u j u (k) , w (k+1) ).
Algorithme.
1. Choisir u (0) ∈ U ad et {(k) }k∈N suite de réels positifs.
2. À l’itération k, effectuer un tirage aléatoire w (k+1) de w,
indépendamment des tirages précédents (w (1) , . . . , w (k) ).
3. Remettre à jour u à l’aide du gradient de j en (u (k) , w (k+1) ) :
h
i
u (k+1) = projU ad u (k) − (k) ∇u j u (k) , w (k+1) .
4. Incrémenter l’indice k de 1 et retourner à l’étape 2.
Mise en œuvre.
I Test d’arrêt de l’algorithme.
I Choix des coefficients (k) .
Propriétés du gradient stochastique
Convergence.
La suite des u(k) (vues comme des variables aléatoires dépendant
des tirages w (k) ) converge presque-sûrement vers la solution u ]
(déterministe) du problème. Les conditions sur les pas sont :
X
(k) = +∞
X
et
k∈N
I
Exemple standard : (k) =
(k)
2
< +∞ .
k∈N
α
k +β
γ
avec γ ∈
1
2, 1
.
Vitesse asymptotique (U ad = U : pas de projection !).
On dispose d’un théorème de la limite centrale :
1 (k)
L
√
u − u ] −→ N 0, Σ ,
(k)
La vitesse maximale est obtenue pour γ = 1
((k) =
α
k+β ).
Efficacité asymptotique et moyennisation
Algorithme de type Newton.
Dans la classe des algorithmes à gain matriciel :
A
∇u j u (k) , w (k+1) ,
k +β
−1
le minimum Σ? de la covariance Σ est atteint en A = ∇2 J(u ] )
u (k+1) = u (k) −
Algorithme moyenné.
L’algorithme de gradient stochastique moyenné :
u (k+1) = u (k) − (k) ∇u j(u (k) , w (k+1) ) ,
k+1
b(k+1) =
u
1 X (l)
u ,
k +1
l=1
atteint la covariance minimale Σ? , avec (k) = k γα+β ,
√ (k)
L
b − u ] −→ N 0, Σ? .
k u
1
2
<γ<1:
Gradient stochastique en boucle fermée
On considère le problème (en apparence très proche) :
min J(u) avec J(u) = E j u, w ,
u∈U ad ⊂U
où u est maintenant une variable aléatoire.
A priori, la solution de ce problème ne peut pas être obtenue par
la méthode du gradient stochastique : en effet, le gradient de J
ne correspond pas à une espérance. . .
Et pourtant, on arrive à appliquer à ce problème des techniques
de gradient stochastique (pour plus de précisions, on consultera
K. Barty – P. Girardeau – J. S. Roy – C. Strugarek).
Téléchargement