Chp. 3. G´en´eralit´es sur les algorithmes
3.1 Directions de descente
D´efinition 8 On dit qu’un vecteur ude IR nest une direction de descente pour une fonction fde
nvariables au point xsi : s > 0t]0, s[f(x+t u)< f(x)
Th´eor`eme 3.1 Supposons fd´erivable au point x. Si : f(x)Tu < 0,uest une direction de
descente pour fau point x.
Preuve : Si ϕ(t) = f(x+t u), ϕ0(0) = f(x)Tu < 0.
2
Si x?est un minimum local de f, il n’existe aucune direction de descente pour fau point x?
.
R´eciproquemment, s’il n’existe aucune direction de descente pour fau point x?,x?est un point
critique de f. Si en outre x?est non d´eg´en´er´e, c’est un minimum local strict.
Attention! En un point critique d´eg´en´er´e, il peut n’y avoir aucune direction de descente sans
pour autant que ce point soit un minimum local. Ce r´esultat peut paraˆıtre paradoxal.
Contre-exemple 3.1 f= 2 x43x2y+y2n’admet aucune direction de descente en (0,0), bien
que (0,0) ne soit pas un minimum local de f.
3.2 Algorithmes de descente
Partant d’un point x0qui lui sera initialement pass´e pour argument, un algorithme de descente
actualise un point courant xde fa¸con `a r´eduire, `a chaque ´etape, la valeur du crit`ere `a minimiser.
Le scema g´en´eral est le suivant :
AlgoGene(f,x0,test d’arr^et)
xx0
Tant que : test d’arr^et=False
Calculer une direction de descente uau point x
Calculer un pas ttel que : f(x+t u)< f(x)
xx+tu
Un algorithme de descente est essentiellement d´etermin´e par :
La strat´egie de choix des directions de descente successives.
La strat´egie de choix du pas qui sera effectu´e, `a chaque ´etape, dans la direction choisie.
Universit´e Paris Dauphine iup.gmi
3.3 Convergence des algorithmes
Un algorithme du type AlgoGene est dit convergent s’il existe un minimum local x?du crit`ere
qui lui est pass´e pour argument pour lequel l’une des deux ´eventualit´es suivantes serait ealis´ee en
choisissant : x== x?pour test d’arrˆet :
1. l’algorithme s’arrˆete apr`es un nombre fini kd’it´erations.
2. il construit th´eoriquement (en supposant tous les calculs exacts et la capacit´e de calcul il-
limit´ee) une suite infinie x1, . . . , xk. . . de points de IR nconvergeant vers x?
.
En pratique, le test d’arrˆet pass´e pour argument devra ˆetre choisi pour garantir que l’algorithme
s’arrˆete toujours apr`es un nombre fini d’it´erations et que le dernier point calcul´e est suffisamment
proche de x?
. Lorsque l’algorithme converge, on dit que sa vitesse de convergence est d’ordre ps’il
existe une constante τtelle que :
lim
k7→+kxk+1 x?k
kxkx?kp< τ
La constante τest le taux de convergence de l’algorithme. En particulier, la convergence est dite :
lin´eaire lorsque : p= 1.
superlin´eaire lorsque : p= 1 et τ= 0.
quadratique lorsque : p= 2.
Exemple 3.2 La fonction : f=x48x+ 1 atteint son minimum sur IR au point : x?=3
2. Pour
calculer une valeur approch´ee de x?avec six chiffres significatifs exacts, `a partir de l’estimation
grossi`ere x0= 1 , il faut :
vingt it´erations `a l’algorithme : xk+1 =xkx3
k
3+2
3, dont la convergence est lin´eaire, de taux :
τ'0.6
quatre seulement pour l’algorithme : xk+1 =xk1
33
4(x3
k2) dont la convergence est su-
perlin´eaire, ou pour l’algorithme : xk+1 =2
3Ãxk+1
x2
k!, dont la convergence est quadratique.
Attention! La convergence ´eventuelle d’un algorithme de descente d´ependra toujours des pro-
pri´et´es du crit`ere qui lui sera pass´e pour argument et, en g´en´eral, du choix de l’initialisation x0. Il
n’existe aucun algorithme universel dont la convergence soit garantie quels que soient le crit`ere ou
l’initialisation qui lui seront pass´es pour argument.
3.4 Choix de la direction de descente
Il existe deux grandes strat´egies de choix de la direction de descente uau point x:
la strat´egie de Cauchy : u=−∇f(x).
la strat´egie de Newton : u=−∇2f(x)1f(x)
La premi`ere conduit aux algorithmes de gradient , la seconde aux algorithmes Newtonniens. La
strat´egie de Cauchy calcule la direction qui minimise, `a norme constante, la d´eriv´ee : f(x)Tude
ϕ(t) = f(x+t u), et retourne la direction : u=−∇f(x), pour laquelle : f(x)Tu=kf(x)k2.
gmi1.opti. G.L. cours – 02/05 p. 13
Universit´e Paris Dauphine iup.gmi
Elle d´efinit donc une direction de descente en tout point non critique. Les m´ethodes de gradient
sont ainsi des m´ethodes robustes : tant que l’algorithme n’a pas trouv´e un point critique, la valeur
du crit`ere d´ecroˆıt strictement `a chaque it´eration. Mais elles sont lentes : leur vitesse de convergence
est lin´eaire.
La strat´egie de Newton calcule la direction uqui minimise l’approximation quadratique :
ϕ(0) + t ϕ0(0) + t2
2ϕ00(0) = f(x) + tf(x)Tu+t2
2uT2f(x)u
de : ϕ(t) = f(x+t u) et retourne la direction : u=−∇2f(x)1f(x), pour laquelle :
ϕ0(0) = f(x)Tu=uT2f(x)u
C’est une direction de descente d`es que 2f(x) est d´efinie positive, ce qui sera toujours v´erifi´e si x
est suffisamment proche d’un minimum local non d´eg´en´er´e de f.
Lorsqu’ils convergent, les algorithmes Newtonniens ont une vitesse de convergence quadratique.
Ils sont donc plus rapides que les algorithmes de gradient. Mais ils sont plus cˆouteux, et surtout
moins robustes : (( loin )) d’un minimum local, la direction de Newton n’est plus n´ecessairement une
direction de descente :
Exemple 3.3 Le point (1,1) est un minimum local strict non d´eg´en´er´e de : f=x4+y44x y.
La Hessienne de fau point (0.5,0.5) est inversible, mais la direction de Newton en ce point n’est
pas une direction de descente pour f.
La situation est pire encore dans le cas d’un minimum d´eg´en´er´e : il peut alors exister des points
arbitrairement voisins du minimum en lesquels la Hessienne est inversible mais la direction de
Newton n’est pas une direction de descente :
Exemple 3.4 f= 1000 (x3x y)2+ (x3+x y)2+y6admet un minimum local strict d´eg´en´er´e au
point (0,0). Le long de l’axe y= 0, la matrice Hessienne de fest toujours inversible, sauf en (0,0),
mais la direction de Newton n’est jamais une direction de descente pour f.
3.5 Choix du pas
Le choix du pas obeit `a deux objectifs souvent contradictoires :
Trouver le meilleur pas possible.
Effectuer le moins de calculs possibles.
Ils conduisent `a deux strat´egies dominantes :
Les algorithmes `a pas optimal minimisent, `a chaque ´etape, la fonction : ϕ(t) = f(x+tu) en
utilisant une proc´edure unidimensionnelle pour rechercher le meilleur pas possible.
Les algorithmes `a pas fixe au contraire se satisfont d’un pas constant, pass´e pour param`etre
`a la proedure. Le choix du pas, effectu´e une fois pour toutes, d´epend alors, en g´en´eral, d’une
analyse de convergence de l’algorithme utilis´e et des propri´et´es du crit`ere `a minimiser.
L’exp´erience montre que ces strat´egies radicales sont le plus souvent mauvaises :
il est dangeureux d’utiliser un pas constant.
il est inutile de calculer `a chaque ´etape le pas optimal
En pratique, on se contentera d’un pas permettant de faire d´ecroˆıtre raisonnablement le crit`ere
`a minimiser.
gmi1.opti. G.L. cours – 02/05 p. 14
1 / 3 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !