Quelques notions sur le gradient stochastique Présentation du problème min u∈U ad ⊂U J(u) avec J(u) = E j u, w La variable u n’est pas aléatoire : la même valeur de u s’applique à toutes les valeurs prises par la variable aléatoire w : boucle ouverte. Si on est prêt à calculer des espérances, on retombe exactement sur le cas de l’optimisation déterministe sur un ensemble admissible. Mais on veut souvent éviter de tels calculs de l’espérance. . . Exemple : calcul par Monte Carlo E [w] = arg min 21 E (u − w)2 . u∈R u (k+1) = 1 k +1 =u (k) − k+1 X w (l) l=1 ´ 1 ` (k) u − w (k+1) k +1 I u (k) − w (k+1) : gradient de la fonction sous l’espérance ; I 1 : pas k de l’algorithme (k → 0 “pas trop vite”). k+1 Algorithme du gradient stochastique Onremplace l’évaluation du gradient de la fonction J au point u (k) (E ∇u j u (k) , w ) par une évaluation du gradient de la fonction j pour une valeur w (k+1) de l’aléa (∇u j u (k) , w (k+1) ). Algorithme. 1. Choisir u (0) ∈ U ad et {(k) }k∈N suite de réels positifs. 2. À l’itération k, effectuer un tirage aléatoire w (k+1) de w, indépendamment des tirages précédents (w (1) , . . . , w (k) ). 3. Remettre à jour u à l’aide du gradient de j en (u (k) , w (k+1) ) : h i u (k+1) = projU ad u (k) − (k) ∇u j u (k) , w (k+1) . 4. Incrémenter l’indice k de 1 et retourner à l’étape 2. Mise en œuvre. I Test d’arrêt de l’algorithme. I Choix des coefficients (k) . Propriétés du gradient stochastique Convergence. La suite des u(k) (vues comme des variables aléatoires dépendant des tirages w (k) ) converge presque-sûrement vers la solution u ] (déterministe) du problème. Les conditions sur les pas sont : X (k) = +∞ X et k∈N I Exemple standard : (k) = (k) 2 < +∞ . k∈N α k +β γ avec γ ∈ 1 2, 1 . Vitesse asymptotique (U ad = U : pas de projection !). On dispose d’un théorème de la limite centrale : 1 (k) L √ u − u ] −→ N 0, Σ , (k) La vitesse maximale est obtenue pour γ = 1 ((k) = α k+β ). Efficacité asymptotique et moyennisation Algorithme de type Newton. Dans la classe des algorithmes à gain matriciel : A ∇u j u (k) , w (k+1) , k +β −1 le minimum Σ? de la covariance Σ est atteint en A = ∇2 J(u ] ) u (k+1) = u (k) − Algorithme moyenné. L’algorithme de gradient stochastique moyenné : u (k+1) = u (k) − (k) ∇u j(u (k) , w (k+1) ) , k+1 b(k+1) = u 1 X (l) u , k +1 l=1 atteint la covariance minimale Σ? , avec (k) = k γα+β , √ (k) L b − u ] −→ N 0, Σ? . k u 1 2 <γ<1: Gradient stochastique en boucle fermée On considère le problème (en apparence très proche) : min J(u) avec J(u) = E j u, w , u∈U ad ⊂U où u est maintenant une variable aléatoire. A priori, la solution de ce problème ne peut pas être obtenue par la méthode du gradient stochastique : en effet, le gradient de J ne correspond pas à une espérance. . . Et pourtant, on arrive à appliquer à ce problème des techniques de gradient stochastique (pour plus de précisions, on consultera K. Barty – P. Girardeau – J. S. Roy – C. Strugarek).