Universit´e Paris Dauphine iup.gmi
Elle d´efinit donc une direction de descente en tout point non critique. Les m´ethodes de gradient
sont ainsi des m´ethodes robustes : tant que l’algorithme n’a pas trouv´e un point critique, la valeur
du crit`ere d´ecroˆıt strictement `a chaque it´eration. Mais elles sont lentes : leur vitesse de convergence
est lin´eaire.
La strat´egie de Newton calcule la direction uqui minimise l’approximation quadratique :
ϕ(0) + t ϕ0(0) + t2
2ϕ00(0) = f(x) + t∇f(x)Tu+t2
2uT∇2f(x)u
de : ϕ(t) = f(x+t u) et retourne la direction : u=−∇2f(x)−1∇f(x), pour laquelle :
ϕ0(0) = ∇f(x)Tu=−uT∇2f(x)u
C’est une direction de descente d`es que ∇2f(x) est d´efinie positive, ce qui sera toujours v´erifi´e si x
est suffisamment proche d’un minimum local non d´eg´en´er´e de f.
Lorsqu’ils convergent, les algorithmes Newtonniens ont une vitesse de convergence quadratique.
Ils sont donc plus rapides que les algorithmes de gradient. Mais ils sont plus cˆouteux, et surtout
moins robustes : (( loin )) d’un minimum local, la direction de Newton n’est plus n´ecessairement une
direction de descente :
Exemple 3.3 Le point (1,1) est un minimum local strict non d´eg´en´er´e de : f=x4+y4−4x y.
La Hessienne de fau point (0.5,0.5) est inversible, mais la direction de Newton en ce point n’est
pas une direction de descente pour f.
La situation est pire encore dans le cas d’un minimum d´eg´en´er´e : il peut alors exister des points
arbitrairement voisins du minimum en lesquels la Hessienne est inversible mais la direction de
Newton n’est pas une direction de descente :
Exemple 3.4 f= 1000 (x3−x y)2+ (x3+x y)2+y6admet un minimum local strict d´eg´en´er´e au
point (0,0). Le long de l’axe y= 0, la matrice Hessienne de fest toujours inversible, sauf en (0,0),
mais la direction de Newton n’est jamais une direction de descente pour f.
3.5 Choix du pas
Le choix du pas obeit `a deux objectifs souvent contradictoires :
•Trouver le meilleur pas possible.
•Effectuer le moins de calculs possibles.
Ils conduisent `a deux strat´egies dominantes :
– Les algorithmes `a pas optimal minimisent, `a chaque ´etape, la fonction : ϕ(t) = f(x+tu) en
utilisant une proc´edure unidimensionnelle pour rechercher le meilleur pas possible.
– Les algorithmes `a pas fixe au contraire se satisfont d’un pas constant, pass´e pour param`etre
`a la proc´edure. Le choix du pas, effectu´e une fois pour toutes, d´epend alors, en g´en´eral, d’une
analyse de convergence de l’algorithme utilis´e et des propri´et´es du crit`ere `a minimiser.
L’exp´erience montre que ces strat´egies radicales sont le plus souvent mauvaises :
•il est dangeureux d’utiliser un pas constant.
•il est inutile de calculer `a chaque ´etape le pas optimal
En pratique, on se contentera d’un pas permettant de faire d´ecroˆıtre raisonnablement le crit`ere
`a minimiser.
gmi1.opti. G.L. cours – 02/05 p. 14