
TABLE DES MATIÈRES 5
πt+1ht+1 −πtht⩽ε2
tA2πt+1
d’où πq+1hq+1 −πphp⩽
q
X
t=p
ε2
tA2πt+1 ⩽
q
X
t=p
ε2
tA2Π⩽
q
X
t=p
ε2
tA2Π−→
t−→∞ 0
Comme la série P
t
(πt+1ht+1 −πtht)vérifie le critère de Cauchy, elle est convergente. Par conséquent :
lim
q→∞πq+1hq+1 = 0 = lim
q→∞Πhq+1
D’où :
lim
q→∞hq= 0 (0.2)
Partie C (démonstration de 0.2)
La série P
t
(ht+1 −ht)est convergente car Πht∼πtht.
P
t⩾0
ε2
tk∇g(Wt)k2l’est aussi (d’après H3).
D’après (0.1), la série P
t⩾0
εt(Wt−W∗)0∇g(Wt)est donc convergente. Or d’après les hypothèses (H2, H4),
elle ne peut l’être que si :
lim
t→∞Wt=W∗(0.3)
(0.2) u
t
Ce théorème peut être étendu dans le cas où la fonction gn’a plus un seul minimum global mais plusieurs
minima locaux (voir [?]), dans ce cas, la suite (Wt)converge vers un mimimum local. Une généralisation
de ce théorème est présentée dans [?].
Si ce théorème prouve la convergence de la méthode de Newton, il ne précise pas à quelle vitesse cette
convergence s’effectue et celle-ci peut parfois être très lente. Plusieurs variantes ont été développées regrou-
pées sous le terme de méthodes de quasi-Newton, ou méthodes du second ordre, dans le but d’améliorer
la vitesse de convergence.
0.0.3 Méthode du second ordre
L’algorithme 0.1 fournit le canevas des méthodes d’optimisation du second ordre. Seule la mise à jour des
coefficients (étape B) est différente : elle prend en compte les dernières valeurs des coefficients ainsi que
les derniers gradients calculés. Ce passé va être utilisé pour estimer une direction de recherche pour le
minimum différente de celle du gradient, cette direction est appelée gradient conjugué (voir [?]).
La figure 0.2 est couramment employée pour illustrer l’intérêt des méthodes d’optimisation du second ordre
ou méthode de gradient conjugué. Le problème consiste à trouver le minimum d’une fonction quadratique,
par exemple, G(x, y)=3x2+y2. Tandis que le gradient est orthogonal aux lignes de niveaux de la fonction
G, le gradient conjugué se dirige plus sûrement vers le minimum global.
Ces techniques sont basées sur une approximation du second degré de la fonction à minimiser. On note
toujours g:ℝd−→ ℝla fonction à minimiser. Au voisinage de x0, un développement limité donne :
g(x) = g(x0) + ∂g (x0)
∂x (x−x0)+(x−x0)0∂2g(x0)
∂x2(x−x0) + okx−x0k2