Universit´e Paris Dauphine iup.gmi
Tous les algorithmes de gradient sont sensibles aux changements d’´echelle (cf. exemples 6.2 et
6.3 page 29) qui modifient le conditionnement de la Hessienne, et donc le taux de convergence de
l’algorithme. Cette sensibilit´e induit en pratique un probl`eme souvent d´elicat de choix des ´echelles.
L’algorithme de Newton est au contraire invariant par changement d’´echelle.
Th´eor`eme 8.1 Si Dest une matrice diagonale, de termes diagonaux non nuls, les algorithmes :
Newton(f,x0, tolerance) et : Newton(g,y0, tolerance), o`u : y0=D x0, et : f(x) = g(D x)
sont de mˆeme nature : tous deux divergents ou tous deux convergents. Lorsqu’ils convergent, leurs
tests d’arrˆet respectifs sont v´erifi´es apr`es un mˆeme nombre d’it´erations et les suites xket ykcon-
struites par les deux algorithmes se d´eduisent l’une de l’autre par changement d’´echelle : yk=D xk.
Preuve : Si : y=D x, on a : ∇f(x) = D∇g(y), et : ∇2f(x) = D∇2g(y)D. Supposons qu’apr`es
kit´erations : yk=D xk, d’o`u :
∇f(xk)T∇2f(xk)−1∇f(xk) = ∇g(yk)TD D−1∇2g(yk)−1D−1D∇g(yk)
=∇g(yk)T∇2g(yk)−1∇g(yk)
Ou bien la valeur commune : ∇f(xk)T∇2f(xk)−1∇f(xk) = ∇g(yk)T∇2g(yk)−1∇g(yk) est inf´erieure
`a tolerance, et les deux algorithmes s’arrˆetent apr`es la k`eme it´eration, ou bien les directions de
Newton : uk=−∇2f(xk)−1∇f(xk) , et : vk=−∇2g(yk)−1∇g(yk) v´erifient :
D uk=−D∇2f(xk)−1∇f(xk) = −D D−1∇2g(yk)D−1D∇g(yk)
=− ∇2g(yk)−1∇g(yk) = vk
En posant : ϕ(t) = f(xk+t uk) et : ψ(t) = g(yk+t vk), on a dans le second cas :
ϕ0(t) = ∇f(xk+t uk)Tuk=∇g[D(xk+t uk)]TD uk=∇g(yk+t vk)Tvk=ψ0(t)
donc le mˆeme pas tkest optimal au point xkdans la direction uket au point ykdans la direction
vk, et : yk+1 =yk+tkvk=D xk+t D uk=D(xk+tkuk) = D xk+1.
2
8.3 Convergence de l’algorithme de Newton
Th´eor`eme 8.2 Si Ωest un bassin d’ellipticit´e de f, l’algorithme de Newton converge, pour toute
initialisation x0dans Ωvers l’unique minimum x?de fdans Ω.
Preuve : La d´emonstration reprend le plan de la d´emonstration du th´eor`eme de convergence de
l’algorithme du gradient `a pas optimal. Pour tout point xkconstruit par l’algorithme, on pose,
pour simplifier les notations :
gk=∇f(xk), Hk=∇2f(xk),et : uk=−H−1
kgk
Par construction, la suite fkest strictement d´ecroissante. La suite des points construits par l’algo-
rithme reste ainsi contenue, `a partir de tout rang : k≥0, dans l’ensemble convexe compact Skde
niveau fkde fdans Ω, et il existe donc, pour tout indice k≥0, des constantes cet Ktelles que :
∀x∈Skc Id ≤ ∇2f(x)≤K Id(1)
gmi1.opti. G.L. cours – 02/05 p. 45