Petits exposés variés Xavier Dupré http ://www.xavierdupre.fr/

Petits exposés variés
Xavier Dupré
http ://www.xavierdupre.fr/
Table des matières
0.0.1 Enoncé .......................................... 2
0.0.2 Algorithme et convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
0.0.3 Méthodedusecondordre ................................ 5
0.0.4 Minimisation avec gradient stochastique . . . . . . . . . . . . . . . . . . . . . . . . 7
0.0.5 Premier exemple : optimisation d’une fonction quadratique . . . . . . . . . . . . . 9
0.0.6 Court rappel sur l’estimateur du maximum de vraisemblance . . . . . . . . . . . . 9
0.0.7 Second exemple : proportion de mâles chez les poissons . . . . . . . . . . . . . . . . 13
0.0.8 Correction......................................... 14
0.0.9 Premier exemple, fonction quadratique . . . . . . . . . . . . . . . . . . . . . . . . . 14
0.0.10 Second exemple, proportion de mâles et de femelles chez les poissons . . . . . . . . 17
0.0.11 Simulation d’une série (Xi)i............................... 17
0.0.12 Estimation des paramètres avec une méthode du premier degré . . . . . . . . . . . 18
0.0.13 Estimation des paramètres avec une méthode du second degré . . . . . . . . . . . . 22
Index 25
0.0.1 Enoncé
Lorsqu’on doit trouver le minimum d’une fonction définie sur un espace vectoriel, le premier réflexe consiste
à dériver la fonction puis à l’annuler de manière à obtenir un système d’équation. Il reste ensuite à
déterminer si les zéros de la dérivée correspondent à un minimum ou à un maximum. Cependant, il n’est
pas toujours possible de résoudre le système d’équation obtenu. Par exemple, la fonction f(x) = cos(x)+ex
a pour dérivée f0(x) = sin(x) = ex. Résoudre l’équation f0(x)=0est impossible.
C’est pourquoi il existe des méthodes de résolution approchées qui déterminent numériquement le minimum
de la fonction. Il existe des algorithmes permettant de trouver une solution approchée à condition toutefois
que la fonction à maximiser ou minimiser soit dérivable. Plusieurs variantes sont proposées regroupées
sous le terme de descente de gradient ou méthode de Newton. Par la suite, on cherchera à minimiser une
fonction g. Maximiser cette même fonction revient à minimiser la fonction g.
0.0.2 Algorithme et convergence
Soit g:dune fonction dérivable dont il faut trouver
x= arg min
x
g(x). L’algorithme suivant
propose une méthode permettant à partir d’un x0dquelconque de se rapprocher petit à petit du
TABLE DES MATIÈRES 3
minimum xcomme le montre le schéma 0.1 dans le cas où g(x) = x2.
Algorithme 0.1 : descente de gradient de Newton
Soit g:dune fonction dérivable et minorée. On cherche à déterminer le minimum de la
fonction g. Soit x0d. Soit (t)t0une suite réelle positive vérifiant :
X
t=0
t=et
X
t=0
2
t<
Etape A : initialisation
t0
Etape B : mise à jour
tt+ 1
xtxt1tg
x (xt)
Etape C : condition d’arrêt
Si f(xt)f(xt1), l’algorithme s’arrête, sinon on retourne à l’étape B.
On note xtl’abscisse à l’itération t.
On note g (xt)
x le gradient de g(x) = x2.
L’abscisse à l’itération t+ 1 sera :
xt+1 =xtεtg (xt)
x
εtest le pas de gradient à l’itération t.
Figure 0.1 : Minimisation par descente de gradient. A chaque itération, on se déplace dans le sens opposé à celui
du gradient, direction le minimum est susceptible de se trouver.
L’étape C détermine si l’algorithme doit continuer à chercher le minimum de la fonction gou si la valeur
approchée est satisfaisante puisque, aux alentours de ce minimum, le gradient est presque nul et la suite (xt)
presque constante. La condition f(xt)f(xt1)peut par exemple être interprétée comme une différence
relative d’une itération à la suivante :
f(xt)f(xt1)
f(xt1)< A Aest une constante positive petite. Plus elle
est petite, plus la précision sera grande. Il est aussi possible d’arrêter l’algorithme dès que f(xt)> f (xt1)
mais la suite (f(xt))tn’est pas toujours décroissante, c’est pourquoi la condition d’arrêt précédente est
préférable.
La suite (t)tdoit vérifier quelques contraintes comme la suite t=0
1+t. Ces contraintes assurent la
TABLE DES MATIÈRES 4
convergence de l’algorithme vers un minimum de la fonction comme le montre le théorème suivant.
Théorème 0.2 : convergence de la méthode de Newton (Bottou1991)
Soit une fonction continue g:WM, de classe C1. On suppose les hypothèses suivantes
vérifiées :
H1 arg min
Wq
g(W) = {W}est un singleton
H2 ε > 0,inf
|WW|(WW)0.g(W)>0
H3 (A, B)2tels que Wp,k∇g(W)k2A2+B2kWWk2
H4 la suite (εt)t0vérifie, t > 0, εt
+et P
t0
εt= +,P
t0
ε2
t<+
Alors la suite (Wt)t0construite de la manière suivante :
W0Met t0, Wt+1 =Wtεtg(Wt)
vérifie lim
t+Wt=W
L’hypothèse H1 implique que le minimum de la fonction gest unique et l’hypothèse H2 implique que le
demi-espace défini par l’opposé du gradient contienne toujours le minimum de la fonction g.
Démonstration (théorème 0.2) :
Partie A (démonstration de 0.2)
Soit la suite ut= ln 1 + ε2
tx2avec x,comme P
t0
ε2
t<+, utε2
tx2,on a P
t0
ut<+
Par conséquent, si vt=eutalors
T
Q
t=1
vt
T→∞
D
Partie B (démonstration de 0.2)
On pose ht=kWtWk2
Donc :
ht+1 ht=kWtεtg(Wt)Wk2− kWtWk2(0.1)
Par conséquent :
ht+1 ht=2εt(WtW)0g(Wt)
| {z }
>0
+ε2
tkC(Wt)k2ε2
tkg(Wt)k2ε2
tA2+B2ht
D’où :
ht+1 ht1 + ε2
tB2ε2
tA2
On pose πt=
t
Y
k=1 1 + ε2
kB21alors, en multipliant des deux côtés par πt+1,on obtient :
TABLE DES MATIÈRES 5
πt+1ht+1 πthtε2
tA2πt+1
d’où πq+1hq+1 πphp
q
X
t=p
ε2
tA2πt+1
q
X
t=p
ε2
tA2Π
q
X
t=p
ε2
tA2Π
t→∞ 0
Comme la série P
t
(πt+1ht+1 πtht)vérifie le critère de Cauchy, elle est convergente. Par conséquent :
lim
q→∞πq+1hq+1 = 0 = lim
q→∞Πhq+1
D’où :
lim
q→∞hq= 0 (0.2)
Partie C (démonstration de 0.2)
La série P
t
(ht+1 ht)est convergente car Πhtπtht.
P
t0
ε2
tkg(Wt)k2l’est aussi (d’après H3).
D’après (0.1), la série P
t0
εt(WtW)0g(Wt)est donc convergente. Or d’après les hypothèses (H2, H4),
elle ne peut l’être que si :
lim
t→∞Wt=W(0.3)
(0.2) u
t
Ce théorème peut être étendu dans le cas où la fonction gn’a plus un seul minimum global mais plusieurs
minima locaux (voir [?]), dans ce cas, la suite (Wt)converge vers un mimimum local. Une généralisation
de ce théorème est présentée dans [?].
Si ce théorème prouve la convergence de la méthode de Newton, il ne précise pas à quelle vitesse cette
convergence s’effectue et celle-ci peut parfois être très lente. Plusieurs variantes ont été développées regrou-
pées sous le terme de méthodes de quasi-Newton, ou méthodes du second ordre, dans le but d’améliorer
la vitesse de convergence.
0.0.3 Méthode du second ordre
L’algorithme 0.1 fournit le canevas des méthodes d’optimisation du second ordre. Seule la mise à jour des
coefficients (étape B) est différente : elle prend en compte les dernières valeurs des coefficients ainsi que
les derniers gradients calculés. Ce passé va être utilisé pour estimer une direction de recherche pour le
minimum différente de celle du gradient, cette direction est appelée gradient conjugué (voir [?]).
La figure 0.2 est couramment employée pour illustrer l’intérêt des méthodes d’optimisation du second ordre
ou méthode de gradient conjugué. Le problème consiste à trouver le minimum d’une fonction quadratique,
par exemple, G(x, y)=3x2+y2. Tandis que le gradient est orthogonal aux lignes de niveaux de la fonction
G, le gradient conjugué se dirige plus sûrement vers le minimum global.
Ces techniques sont basées sur une approximation du second degré de la fonction à minimiser. On note
toujours g:dla fonction à minimiser. Au voisinage de x0, un développement limité donne :
g(x) = g(x0) + g (x0)
x (xx0)+(xx0)02g(x0)
x2(xx0) + okxx0k2
1 / 27 100%

Petits exposés variés Xavier Dupré http ://www.xavierdupre.fr/

La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !