Chp.6 Premiers outils du Calcul Différentiel

publicité
Premiers outils du Calcul Différentiel
Prologue
Ce chapître introduit les premiers outils du Calcul Différentiel : cône tangent
à une partie d’un espace de dimension finie , dérivées de Dini , dérivées directionnelles , Gateaux- dérivabilité (1), et présente trois applications importantes :
1. La règle de Fermat (2) qui permet de déterminer les éventuels « extrema
locaux », ou « extrema libres », de fonctions f ∶ D ⊂ Rn ↦ R de plusieurs
variables réelles, à valeurs réelles, mais aussi, plus généralement, de fonctions f ∶ D ⊂ E ↦ R à valeurs réelles, définies sur un espace de dimension
finie quelconque, paradigme (3) fondamental de l’optimisation.
2. Le théorème des accroissements finis qui permet un calcul explicite des
constantes de Lipschitz de fonctions à valeurs réelles, localement Lipschitziennes, définies sur un ouvert d’un espace de dimension finie. On
prouve en particulier que toute fonction à valeurs réelles de n variables
réelles, définie sur un ouvert O de Rn , qui admet en tout point de O des
dérivées partielles majorées, en valeur absolue, par une même constante
réelle, est Lipschitzienne.
3. La caractérisation de la projection Euclidienne sur une partie convexe
fermée d’un espace Euclidien (E , <, >) d’un point donné dans E , archétype du problème consistant à minimiser une fonction à valeurs réelles
définie sur une partie convexe fermée d’un espace de dimension finie,
autre paradigme classique de l’optimisation. On énonce une condition
nécessaire d’optimalité, vérifiée par les solutions d’un tel problème, qui
généralise la règle de Fermat.
1. - René Eugène Gateaux, 1889-1914, Mathématicien Français. Pour découvrir sa biographie :
http://www-groups.dcs.st-andrews.ac.uk/history/Mathematicians/Gateaux.html.
2. - Pierre de Fermat, 1601-1665, Mathématicien Français, « inventeur » du calcul infinitésimal, au-.
teur du recueil : « Methodus ad disquirendam maximam et minimam ». Pour découvrir sa biographie :http://www-groups.dcs.st-andrews.ac.uk/history/Biographies/Fermat.html
3. « Paradigme » : choix de problèmes à étudier et des techniques propres à leur étude :
www.larousse.fr/dictionnaires/français/paradigme/ .
6.1. CÔNE DES VACTEURS TANGENTS
135
La notion centrale du chapître est la notion de Gateaux-dérivabilité d’une
fonction à valeurs réelles f ∶ D ⊂ E ↦ R définie sur une partie D d’un espace de
dimension finie E , en un point de l’intérieur de D . Pourquoi « Gateaux-dérivabilité » et pas simplement dérivabilité ? Parce ce que dès que E est de dimension
au moins égale à deux, il convient de distinguer plusieurs notions de dérivabilité. La Gateaux-dérivabilité, ou dérivabilité « au sens de Gateaux » est la plus
simple d’entre-elles. Si la plupart des fonctions rencontrées dans la pratique de
la modélisation mathématique sont partout - ou presque partout - dérivables en
un sens plus fort : « Fréchet-dérivables (4) », ou même « continument dérivables »,
leur « dérivée » est toujours leur dérivée « au sens de Gateaux », et c’est sur la définition de la Gateaux-dérivée que repose le principe du calcul formel de dérivées. Un exemple typique est la calcul de la dérivée d’une fonction quadratique
(Exercice 6.6). On donne dans ce chapître une interprétation géométrique de
la notion de Gateaux-dérivée, qui sera développée et complétée ultérieurement
dans l’étude de la dérivée « au sens de Fréchet ».
6.1 Cône des vecteurs tangents en un point à une partie
d’un espace de dimension finie
Soient E un espace de dimension finie quelconque, et S une partie quelconque de E .
Définition 6.1.1 On dit qu’un vecteur v de E est « tangent » à S en point a adhérent à S si, pour tout réel : t > 0, et tout voisinage V de v dans E :
( a +] 0, t [ V ) ∩ S ≠ ∅
(6.1)
De manière équivalente, v est tangent à S au point a s’il existe une suite t (k ) de
réels strictement positifs et une v (k ) de vecteurs de E telles que :
E
t (k ) ↓ 0, v (k ) → v, et : a + t (k ) v (k ) ∈ S
(6.2)
On note TS (a ) l’ensemble des vecteurs tangents à S au point a.
○
Proposition 6.1.1 Pour tout a dans S : TS (a ) = E .
4. - Maurice René Fréchet, 1878-1973, Mathématicien Français. Pour découvrir sa biographie :
http://www-groups.dcs.st-andrews.ac.uk/history/Biographies/Frechet.html.
136
CHAPITRE 6. PREMIERS OUTILS DU CALCUL DIFFÉRENTIEL
Proposition 6.1.2 Pour tout a dans ∂S, TS (a ) est un cône fermé de sommet 0E :
{
v ∈ T S ( a ), λ ≥ 0 ⇒ λ v ∈ T S ( a )
(en particulier : 0E ∈ TS (a ))
E
v ( k ) ∈ T S ( a ), v ( k ) → v ⇒ v ∈ T S ( a )
(6.3)
La figure 6.1 représente aléatoirement plusieurs vecteurs tangents dans R2
en un point du bord d’un carré ou d’un disque, suggèrant l’allure du cône des
vecteurs tangents en ce point.
Fig. 6.1 – Exemples de vecteurs tangents dans R2 en différents points
du bord d’un carré ou d’un disque
Cône tangent à un convexe
Proposition 6.1.3 Si S est convexe, TS (a ) est l’adhérence du cône de sommet 0E
« engendré » par S − a :
T S ( a ) = ⋃ t (S − a )
(6.4)
t ≥0
Preuve : - Si S est convexe, il contient : a + t (x − a ) = t x + (1 − t ) a pour tout
x dans S et tout réel t dans [0, 1], donc TS (a ) contient x − a pour tout x dans
S. Ainsi TS (a ) contient le cône ⋃t ≥0 t (S − a ) engendré par S − a. Comme il est
fermé, il contient également son adhérence : ⋃t ≥0 t (S − a ) ⊂ TS (a ) .
- Réciproquemment, pour tout v dans TS (a ), il existe une suite de réels strictement positifs t (k ), convergeant vers zéro, et une suite de vecteurs v (k ) dans
E , convergeant vers v, telles que : a + t (k ) v (k ) ∈ S , de sorte que :
v (k ) ∈ t (k )−1 (S − a ) ⊂ ⋃ t (S − a ) ⇒ v ∈ ⋃ t (S − a )
t ≥0
donc : TS (a ) ⊂ ⋃ t (S − a ).
t ≥0
t ≥0
6.2. FONCTIONS RÉELLES D’UNE VARIABLE RÉELLE
137
6.2 Fonctions réelles d’une variable réelle
Dérivées de Dini
Soit ϕ ∶ I ⊂ R ↦ R une fonction réelle d’une variable réelle définie sur une
partie quelconque I de R.
- Supposons que I contienne un intervalle de la forme [ t , t + s [ ( s > 0) :
Définition 6.2.1 On appelle « dérivées de Dini (5) » de ϕ au point t , respectivement « inférieure droite » et « supérieure droite » les deux éléments de R :
D + ϕ(t ) = lim inf s −1 [ϕ(t + s ) − ϕ(t )]
s↓0
et : D + ϕ(t ) = lim sup s −1 [ϕ(t + s ) − ϕ(t )]
s↓0
(6.5)
Lorsque : D + ϕ(t ) = D + ϕ(t ) , on dit que ϕ a une « demi-dérivée à droite » au point
t , et on note :
ϕ′d (t ) = D + ϕ(t ) = D + ϕ(t ) = lim s −1 [ϕ(t + s ) − ϕ(t )]
s↓0
(6.6)
- Lorsque I contient un intervalle de la forme ] t + s, t ] (s < 0), on définit de
manière analogue les dérivées de Dini « à gauche » de ϕ au point t :
Définition 6.2.2 On appelle « dérivées de Dini inférieure gauche » (resp. « supérieure gauche ») de ϕ au point t l’éléments de R :
D − ϕ(t ) = lim inf s −1 [ϕ(t + s ) − ϕ(t )]
et :
−
s↑0
D ϕ(t ) = lim sup s −1 [ϕ(t + s ) − ϕ(t )] )
s↑0
(6.7)
Lorsque : D − ϕ(t ) = D − ϕ(t ) , on dit que ϕ a une « demi-dérivée à gauche » au
point t , et on note :
ϕ′g (t ) = D − ϕ(t ) = D − ϕ(t ) = lim s −1 [ϕ(t + s ) − ϕ(t )]
s↑0
(6.8)
Rappelons enfin que ϕ ∶ I ⊂ R ↦ R est dérivable au point t si I est voisinage
de t , et si le taux d’accroissement t −1 [ f (t + s ) − f (t )] à une limite finie lorsque
s tend vers zéro. Cette limite est alors appelée dérivée de ϕ au point t , et notée
5. - Ulisse Dini, 1845-1918, mathématicien Italien. Pour découvrir sa biographie :
http://www-groups.dcs.st-andrews.ac.uk/history/Mathematicians/Dini.html
138
CHAPITRE 6. PREMIERS OUTILS DU CALCUL DIFFÉRENTIEL
ϕ′ (t ). On peut donc énoncer :
Proposition 6.2.1 ϕ ∶ I ⊂ R ↦ R est « dérivable » au point t si I est voisinage de t ,
et si ϕ admet des demi-dérivées à gauche et à droite égales en ce point, et finies. La
dérivée ϕ′ (t ) de ϕ au point t est alors la valeur commune de ϕ′g (t ) et de ϕ′d (t ) :
ϕ′ (t ) = ϕ′g (t ) = ϕ′d (t ) = lim s −1 [ϕ(t + s ) − ϕ(t )]
s →0
Dérivabilité
Il est habituel de représenter le graphe d’une fonction ϕ ∶ I ⊂ R ↦ R en assimilant la direction de l’axe des ordonnées à la verticale, et de considérer que
ϕ est dérivable en un point t lorsque son graphe : G (ϕ) = {( t , ϕ(t )) ∣ t ∈ I } admet au point (t , f (t )) une tangente non verticale . Transcrite dans un langage
rigoureux au moyen de la définition 6.1.1, cette règle empirique devient le :
Théorème 6.2.1 ϕ ∶ I ⊂ R ↦ R est dérivable en point t de l’intérieur de I si et
seulement si :
1. Elle est continue en t .
2. Le cône TG (ϕ) ( t , ϕ(t )) des vecteurs tangents au graphe de ϕ au point
( t , ϕ(t )) est une droite vectorielle dirigée par un vecteur non colinéaire
au vecteur (0, 1) (6).
Dans ce cas : TG (ϕ) ( t , ϕ(t )) = V ec t {(1, ϕ′ (t )} .
(a)
(b) :
(c)
Fig. 6.2 – Vecteurs tangents en un point au graphe d’une fonction ϕ ∶ I ⊂ R ↦ R
Preuve : - Supposons ϕ ∶ I ⊂ R ↦ R dérivable en un point t de l’intérieur de I ,
donc a fortiori continue en t . Dire qu’un couple (r, s ) appartient au cône tangent au graphe G (ϕ) de ϕ au point ( t , ϕ(t )) , c’est dire qu’il existe trois suites
réelles : r (k ), s (k ) et : t (k ) telles que :
t (k ) ↓ 0, r (k ) → r, s (k ) → s, et :
ϕ ( t + t (k ) r (k )) = ϕ(t ) + t (k ) s (k )
6. C’est à dire une droite vectorielle « non verticale ».
6.2. FONCTIONS RÉELLES D’UNE VARIABLE RÉELLE
139
de sorte que :
ϕ(t ) + t (k ) s (k ) = ϕ(t ) + t (k ) r (k ) ϕ′ (t ) + o (t (k ) r (k ))
qui implique : s (k ) = ϕ′ (t ) r (k ) + o (1) , et, par passage à la limite : s = ϕ′ (t ) r ,
donc :
TG (ϕ) ( t , ϕ(t )) ⊂ V ect {(1, ϕ′ (t ))}
(6.9)
Réciproquement :
2k [ϕ(t + 2−k ) − ϕ(t )] → ϕ′ (t ), et : 2k [ϕ(t − 2−k ) − ϕ(t )] → −ϕ′ (t )
impliquent :
(1, ϕ′ (t )) ∈ TG (ϕ ( t , ϕ(t )) , et : (1, −ϕ′ (t )) ∈ TG (ϕ ( t , ϕ(t ))
et, puisque TG (ϕ) ( t , ϕ(t )) est un cône :
V ect {(1, ϕ′ (t ))} ⊂ TG (ϕ) ( t , ϕ(t ))
(6.10)
En combinant (6.9) et (6.10), il vient :
TG (ϕ) ( t , ϕ(t )) = V ect {(1, ϕ′ (t ))}
(6.11)
- Supposons maintenant que TG (ϕ) ( t , ϕ(t )) soit une droite vectorielle dirigée par un vecteur non colinéaire au vecteur (0, 1), ce qui équivaut à supposer :
TG (ϕ) ( t , ϕ(t )) = V ect {(1, c )}
(6.12)
et que ϕ soit continue en t . Prouver que ϕ est dérivable au point t et : ϕ′ (t ) = c ,
c’est prouver que, pour toute suite s (k ) de réels non nuls convergeant vers zéro :
r (k ) =
ϕ ( t + s (k )) − ϕ(t )
s (k )
→c
(6.13)
Mais, pour toute valeur d’adhérence r de la suite r (k ) :
ϕ ( t + s (k )) = ϕ(t ) + s (k ) r (k ), et :
s (k ) → 0
impliquent : (1, r ) ∈ TG (ϕ) ( t , ϕ(t )) . De (6.13), il résulte que la suite r (k ) a au
plus une valeur d’adhérence c . Pour prouver qu’elle converge vers c , il suffit
donc de prouver qu’elle est bornée (Théorème 3.4.3). Sinon elle devrait contenir
une sous-suite r ○ ψ(k ) telle que :
∣ r ○ ψ(k )∣ → +∞, et : r ○ ψ(k ) s ○ ψ(k ) = ϕ ( t + s ○ ψ(k )) − ϕ(t ) → 0
En posant, pour k suffisament grand :
−1
θ (k ) = σ ○ ψ(k ), et : ρ (k ) = (r ○ ψ(k ))
on aurait alors :
θ (k ) → 0, ρ (k ) → 0, et : ϕ ( t + θ (k ) ρ (k )) = ϕ(t ) + θ (k )
impliquant : (0, 1) ∈ TG (ϕ) ( t , ϕ(t )) qui contredirait (6.12).
(6.14)
140
CHAPITRE 6. PREMIERS OUTILS DU CALCUL DIFFÉRENTIEL
Points de non dérivabilité des fonctions réelles d’une variable réelle
Toute fonction ϕ ∶ I ⊂ R ↦ R possède, en chaque point t de l’intérieur de
son domaine quatre dérivées de Dini, finies ou non. Si elle n’est pas dérivable au
point t , trois cas sont possibles :
1. D − ϕ(t ) ≠ D − ϕ(t ), et/ou : D + ϕ(t ) ≠ D + ϕ(t ) :
Lorsque la restriction de ϕ à un voisinage de t est continue, son graphe
présente alors un comportement oscillatoire à gauche et/ou à droite du
point ( t , ϕ(t )). Un exemple classique est fourni par la fonction continue :
⎧
si : t = 0
⎪
⎪ 0
ϕ∶ R↦ R∶t ↦⎨
1
t sin ( ) sinon
⎪
⎪
⎩
t
(Fig. 6.2 : c) dont les dérivées de Dini au point : t = 0 sont :
D − ϕ(0) = D + ϕ(0) = −1, et : D − ϕ(0) = D + ϕ(0) = 1
2. ϕ admet au point t des demi-dérivées à gauche et à droite égales mais
infinies. C’est, par exemple, le cas de la fonction :
ϕ∶ R↦ R∶t ↦
√
3
t
(Fig. 6.2 : b) pour laquelle : ϕ′g (0) = ϕ′d (0) = +∞
3. ϕ admet au point t des demi-dérivées à gauche et à droite distinctes :
Soit l’une au moins est infinie, soit les deux sont finies. Ce dernier cas
est le plus fréquent en pratique. Toute fonction convexe ou concave, par
exemple, admet nécessairement des demi-dérivées finies à gauche et à
droite en tout point de l’intérieur de son domaine, et ne présente un défaut de dérivabilité que lorsque ces deux demi-dérivées diffèrent. C’est le
cas, par exemple, des fonctions convexes :
ϕ ∶ R ↦ R ∶ t ↦ ∣ t ∣ ou ∶ ϕ ∶ R ↦ R ∶ t ↦ max(0, t )
(6.15)
dont les demi-dérivées à gauche et à droite en zéro diffèrent.
t Un résultat publié par G.C. Young (7)en 1914 affirme que, pour toute fonction ϕ ∶ R ↦ R :
D + ϕ( t ) ≤ D − ϕ( t )
et ∶
D − ϕ( t ) ≤ D + ϕ( t )
(6.16)
sauf aux points t d’un ensemble au plus dénombrable . En conséquence, toute fonction admettant, en tout point de l’intérieur de son domaine, des demi-dérivées finies à
gauche et à droite, et, en particulier, toute fonction ϕ ∶ D ⊂ R ↦ R convexe ou concave,
est dérivable en tout point de l’intérieur de son domaine, sauf, au plus, aux points d’un
ensemble dénombrable .
6.3. FONCTIONS RÉELLES D’UNE VARIABLE VECTORIELLE
141
6.3 Fonctions réelles d’une variable vectorielle
Dérivées de Dini
La notion de dérivée de Dini se généralise sans peine à toute fonction à valeurs réelles définie sur une partie quelconque d’un espace vectoriel E .
Soient E un espace vectoriel, D une partie quelconque de E , f ∶ D ⊂ E ↦ R
une fonction à valeurs réelles définie sur D , a un point donné dans D , et υ
un vecteur donné dans E . Les variations de f (x ) lorsque x décrit la droite issue de a et dirigée par υ se transcrivent dans le graphe de la fonction réelle
d’une variable réelle ϕ , composée de f avec la restriction de l’application linéaire L ∶ R ↦ E ∶ t ↦ a + t υ à L −1 (D ) .
ϕ = f ○ L ∣ L − 1 ( D ) ∶ t ∈ L − 1 (D ) ⊂ R À a + t υ ∈ D ⊂ E À f ( a + t υ )
L
(6.17)
f
t Cette fonction joue un rôle central dans la pratique du calcul différentiel et dans l’étude
des algorithmes d’optimisation. Elle indique comment varie f lorsqu’on déplace son
argument, à partir du point a , d’un pas t dans la direction du vecteur υ .
Définition 6.3.1 Sous réserve d’existence, on appelle « dérivées de Dini », respectivement « inférieure droite » et « supérieure droite », de f au point a « dans la
direction du vecteur υ », et on note respectivement D − f (a, υ) et D + f (a, υ) , les
éléments de R :
D + f (a, υ) = D + ϕ(0) = lim inf t −1 [ f (a + t υ) − f (a )]
(6.18)
D + f (a, υ) = D + ϕ(0) = lim sup t −1 [ f (a + t υ) − f (a )]
(6.19)
t ↑0
et :
t ↑0
où ϕ est la fonction définie en (6.17).
t En pratique, la fonction ϕ s’avère souvent dérivable en zéro. Les dérivées de Dini
D + f (a, υ) et D + f (a, υ) coïncident alors simplement avec ϕ′ (0), et leur calcul se résume à dériver une fonction d’une variable réelle :
7. "A note on derivates and differential coefficients," Acta Math. Vol. 37 (1914), no. 1,141-154.
- Grace Chisholm Young, 1818-1944. Pour découvrir sa biographie :
http://www-groups.dcs.st-andrews.ac.uk/history/Mathematicians/Chisholm− Young..html
142
CHAPITRE 6. PREMIERS OUTILS DU CALCUL DIFFÉRENTIEL
Exemple 6.3.1 Pour tout réel : p > 1 , les dérivées de Dini de la norme :
n
p 1/ p
N p ∶ Rn ↦ R ∶ x = (x 1 , . . . , x n ) ↦ ( ∑ ∣ x i ∣ )
i =1
en un point a = (a 1 , . . . , a n ) autre que le zéro de Rn , dans la direction de tout
vecteur υ = (υ1 , . . . , υn ) , sont égales :
D + N p (a, υ) = D + N p (a, υ) =
p −2
υi
∑ni=1 a i ∣ a i ∣
(∑ni=1 ∣ a i ∣p )
(6.20)
1/ q
où q est le réel conjugué de p (Définition ??).
Preuve : la fonction :
n
p 1/ p
ϕ ∶ R ↦ R ∶ t ↦ N p ( a + t υ ) = ( ∑ ∣ a i + t υi ∣ )
i =1
est dérivable en zéro. Il suffit de calculer sa dérivée en zéro en appliquant les
règles usuelles de calcul des dérivées et en se souvenant que, pour : p > 1 :
ψ ∶ R ↦ R ∶ x ↦ ∣x ∣
p
est partout dérivable, et que sa dérivée est ψ′ ∶ R ↦ R ∶ x ↦ p x ∣ x ∣
p −2
.
t On pourrait définir de manière analogue les dérivées de Dini « à gauche » de f au point
a dans la direction du vecteur v comme les dérivées de Dini « à gauche » de la fonction
d’une variable ϕ définie par (6.17). Mais il s’avère que l’utilisation de dérivées unilatérales suffit à contrôler les variations de de f (Théorème 6.6.2), et il est plus naturel de
ne considérer que des dérivées « à droite » pour lesquelles les limites supérieure et inférieure du taux d’accroissement t −1 [ f (a + t v ) − f (a )] seront calculées pour t tendant
vers zéro par valeurs positives, plutôt que des dérivées « à gauche » pour lesquelles les
mêmes limites devraient être calculées pour t tendant vers zéro par valeurs négatives.
Pour cette raison, on ne considère habituellement que des dérivées de Dini « à droite ».
Dérivées directionnelles
Soient E un espace vectoriel quelconque, D une partie quelconque de E , a
un élément de D , et υ un vecteur quelconque donné dans E .
Définition 6.3.2 On dit qu’une fonction f ∶ D ⊂ E ↦ R admet une « demi-dérivée
directionnelle » « au point a », « dans la direction du vecteur υ », si :
D + f (a, υ) = D + f (a, υ)
On appelle alors « demi-dérivée directionnelle de f », « au point a », « dans la direction du vecteur υ », et on note D f (a, υ) leur valeur commune :
D f (a, υ) = lim t −1 [ f (a + t υ) − f (a )]
t ↓0
(6.21)
6.3. FONCTIONS RÉELLES D’UNE VARIABLE VECTORIELLE
143
t La fonction f admet une demi-dérivée directionnelle au point a dans la direction du
vecteur υ si et seulement si la fonction ϕ définie par (6.17) admet une demi-dérivée à
droite, et, dans ce cas : D f (a, υ) = ϕ′d (0).
Définition 6.3.3 On dit que f admet une « dérivée directionnelle » « au point a »,
« dans la direction du vecteur υ », si elle admet des demi-dérivées directionnelles
opposées, au point a, dans les directions des vecteurs υ et −υ :
D f (a, −υ) = −D f (a, υ)
(6.22)
t Pourquoi ; D f (a, −υ) = −D f (a, υ) et non : D f (a, −υ) = D f (a, υ) ? Parce que la fonction
f admet une dérivée directionnelle au point a dans la direction du vecteur υ lorsque la
fonction ϕ définie par (6.17) est dérivable en zéro, c’est-à-dire : ϕ′g (0) = ϕ′d (0) . Or, sous
réserve d’existence : D f (a, υ) = ϕ′d (0) , alors que :
D f (a, −υ) = lim t −1 [ f (a − t υ) − f (a )] = − lim t −1 [ f (a + t υ) − f (a )] = −ϕ′g (0)
t ↓0
t ↑0
Finalement ϕ est dérivable en zéro si et seulement si : D f (a, −υ) = −D f (a, υ) .
Exemple 6.3.2 Pour tout réel : p > 1 , la norme :
n
p 1/ p
N p ∶ Rn ↦ R ∶ x = (x 1 , . . . , x n ) ↦ ( ∑ ∣ x i ∣ )
i =1
admet en tout point de Rn une dérivée directionnelle :
⎧
N p (υ )
⎪
⎪
⎪
⎪
⎪
D N p (a, υ) = ⎨ ∑n a i ∣ a i ∣p −2 υi
i =1
⎪
⎪
⎪
⎪
p 1/ q
n
⎪
⎩ (∑i =1 ∣ ai ∣ )
si : a = 0 Rn
(6.23)
sinon
Preuve : Pour : a ≠ 0 Rn , c’est une simple interprétation de (6.20), et si : a = 0 Rn :
D N p (0 Rn , υ) = lim t −1 [ N p (t υ) − N p (0 Rn ] = N p (υ)
t ↓0
(6.24)
Proposition 6.3.1 Si f ∶ D ⊂ E ↦ R admet une demi dérivée directionnelle au
point a dans la direction d’un vecteur υ, elle admet également une demi-dérivée
directionnelle dans la direction de tout vecteur colinéaire à υ et de même sens, et,
pour tout réel : λ > 0 , D (a, λ v ) = λ D f (a, v ) .
t En particulier, si f admet au point a une demi-dérivée directionnelle dans la direction
de tout vecteur υ de E , la fonction D f (a ) ∶ E ↦ R ∶ υ ↦ D f (a, υ) est homogène de degré
un.
144
CHAPITRE 6. PREMIERS OUTILS DU CALCUL DIFFÉRENTIEL
Corollaire 6.3.1 Une fonction ϕ ∶ I ⊂ R ↦ R est dérivable en a , et sa dérivée en ce
point est ϕ′ (a ) , si et seulement si elle admet une dérivée directionnelle en a dans
la direction de tout réel υ , et : Dϕ(a, υ) = ϕ′ (a ) υ .
Preuve : Sous réserve d’existence : Dϕ(a, 1) = ϕ′d (a ) , et : Dϕ(a, −1) = −ϕ′g (a ) .
Donc ϕ admet une dérivée directionnelle dans la direction du vecteur 1 de R si
et seulement si ϕ est dérivable en a , et, dans ce cas, pour tout réel υ positif :
{
Dϕ(a, υ) = υ Dϕ(a, 1) = ϕ′ (a ) υ
Dϕ(a, −υ) = υ Dϕ(a, −1) = −ϕ′ (a ) υ
6.4 Gateaux-dérivabilité
Soient E un espace vectoriel quelconque, D une partie quelconque de E , et
a un point de l’intérieur de D .
Définition 6.4.1 On dit que f ∶ D ⊂ E ↦ R est « dérivable au sens de Gateaux »,
ou « Gateaux-dérivable » en a si :
1. Elle admet une dérivée directionnelle D f (a, υ) au point a dans la direction de tout vecteur υ de E .
2. L’application L ∶ E ↦ R ∶ υ ↦ D f (a, υ) est linéaire.
On dit alors que L est la « dérivée au sens de Gateaux », ou « Gateaux-dérivée »de
f au point a , et on la note f ′ (a ).
t Une fonction réelle ϕ ∶ D ⊂ R ↦ R d’une variable réelle sera Gateaux-dérivable en un
point a si et seulement si elle est dérivable, au sens usuel, en ce point. Sa Gateauxdérivée au point a sera alors l’application linéaire : L ∶ R ↦ R ∶ υ ↦ ϕ′ (a ) v , identifiée,
via le théorème de Riesz (Théorème 2.4.1), au nombre dérivé ϕ′ (a ) . C’est une conséquence directe de la définition 6.4.1 et du corollaire 6.3.1
Exemple 6.4.1 Toute forme linéaire ` ∶ E ↦ R est Gateaux-dérivable et sa propre
dérivée en tout point.
Preuve : Pour tout point a et tout vecteur υ dans E : t −1 [`(a + t v ) − `(a )] = `(v ) .
Exemple 6.4.2 Pour tout réel : p > 1 , la norme :
n
p 1/ p
N p ∶ Rn ↦ R ∶ x = (x 1 , . . . , x n ) ↦ ( ∑ ∣ x i ∣ )
i =1
est Gateaux-dérivable en tout point a ≠ 0 Rn .
6.4. GATEAUX-DÉRIVABILITÉ
145
Preuve : C’est une relecture de (6.23) : sa Gateaux-dérivée N p′ (a ) peut être identifiée, via le théorème de Riesz (Théorème 2.4.1), avec le vecteur de coordonnées :
ai ∣ ai ∣
p −2
1− p
Np
(a )
( 1 ≤ i ≤ n)
t Elle n’est par contre jamais Gateaux-dérivable au point 0 Rn , puisque sa dérivée directionnelle : D N p (0 Rn , υ) = N p (υ) en ce point dans la direction d’un vecteur υ ne dépend
pas linéairement de υ .
Première règles de calcul différentiel
Des règles de dérivation des fonctions d’une variable réelle, on déduit facilement :
Proposition 6.4.1 Si f ∶ D ⊂ E ↦ R et g ∶ D ⊂ E ↦ R admettent une demi-dérivée
directionnelle (resp. une dérivée directionnelle) au point a dans la direction d’un
vecteur υ , il en est de même de leur somme et de leur produit, et :
1. D ( f + g )(a, υ) = D f (a, υ) + D g (a, υ)
2. D ( f g )(a, υ) = f (a ) D g (a, υ) + g (a ) D f (a, υ)
Si en outre g (a ) ≠ 0 , le quotient f /g admet également une demi-dérivée direcf
g (a ) D f (a, υ) − f (a ) D g (a, υ)
tionnelle au point a , et : D ( )(a, υ) =
g
g ( a )2
Corollaire 6.4.1 Si Si f ∶ D ⊂ E ↦ R et g ∶ D ⊂ E ↦ R sont Gateaux-dérivables au
point a :
1. ( f + g )′ (a ) = f ′ (a ) + g ′ (a )
2. ( f g )′ (a ) = g (a ) f ′ (a ) + f (a ) g ′ (a )
f ′
3. Si en outre g (a ) ≠ 0 : ( ) (a ) =
g
g (a ) f ′ (a ) − f (a ) g ′ (a )
g ( a )2
En combinant en particulier le corollaire 6.4.1 avec l’exemple 6.4.1, on obtient :
Corollaire 6.4.2 Toute fonction polynôme P ∶ Rn ↦ R est partout Gateauxdérivable, et toute fonction fonction rationnelle :
R ∶ Rn /Q −1 (0) ↦ R ∶ x ↦
P (x )
Q (x )
où P et Q sont des polynômes de n variables réelles, est Gateaux-dérivable en tout
point de son domaine de définition.
146
CHAPITRE 6. PREMIERS OUTILS DU CALCUL DIFFÉRENTIEL
Preuve : : Toute fonction polynôme P ∶ Rn ↦ R est une somme de produits de
projections p i ∶ Rn ↦ R ∶ x = (x 1 , . . . , x n ) ↦ x i ( 1 ≤ i ≤ n), et toute fonction rationnelle est le quotient de deux fonctions polynômes.
Théorème 6.4.1 Si f ∶ D ⊂ E ↦ R est Gateaux-dérivable en a , ϕ ○ f l’est aussi
pour toute fonction ϕ ∶ S ⊂ R ↦ R dérivable en b = f (a ) , et :
∀υ ∈ E ,
(ϕ ○ f )′ (a )(υ) = ϕ′ (b ) f ′ (a )(υ)
(6.25)
Preuve : Par définition : f ′ (a )(υ) = D f (a, υ) = lim t ↑ 0 t −1 [ f (a + t υ) − f (a )] ,
ce qui s’écrit :
f (a + t υ) = f (a ) + t f ′ (a )(υ) + o (t ) = b + t f ′ (a )(υ) + o (t )
de sorte que :
ϕ ○ f (a + t υ) − ϕ ○ f (a ) = ϕ [b + t f ′ (a )(υ) + o (t )] − ϕ(b )
= t ϕ′ (b ) f ′ (a )(υ) + o (t )
donc : t −1 [ϕ ○ f (a + t υ) − ϕ ○ f (a )] = ϕ′ (b ) f ′ (a )(υ) + o (1) → ϕ′ (b ) f ′ (a )(υ) .
Dérivées partielles
Soient D une partie quelconque de Rn , a un point de D , et B = {e (1), . . . , e (n )}
la base naturelle de Rn .
Définition 6.4.2 Sous réserve d’existence, on appelle « i ème dérivée partielle »
d’une fonction f ∶ D ⊂ Rn ↦ R au point a , et on note : «
rectionnelle :
∂f
∂x i
∂f
∂x i
(a ) », la dérivée di-
(a ) = D f ( a, e (i ))
(6.26)
de f au point a , dans la direction du i ème vecteur de la base B .
Exemple 6.4.3 Les dérivées partielles de la fonction :
f ∶ R2 ↦ R ∶ (x 1 , x 2 ) ↦ x 13 x 2
en tout point (a 1 , a 2 ) de R2 sont :
∂f
∂x 1
(a1 , a2 ) = 3 a12 a2 , et :
∂f
∂x 2
(a1 , a2 ) = a13 .
6.4. GATEAUX-DÉRIVABILITÉ
147
Définition 6.4.3 On dit qu’une fonction f ∶ D ⊂ Rn ↦ R « admet des dérivées partielles au point a » lorsque toutes ses dérivées partielles sont bien définies. On appelle alors « gradient » de f au point a le vecteur :
∇ f (a ) = (
∂f
∂x 1
( a ), . . . ,
∂f
∂x n
(a ))
(6.27)
Proposition 6.4.2 Lorsque f ∶ D ⊂ Rn ↦ R est Gateaux-dérivable au point a :
∀υ ∈ Rn
f ′ (a )(υ) = < ∇ f (a ), υ > = ∇ f (a )′ ⋆ υ
(6.28)
Preuve : Par linéarité de f ′ (a ) :
n
n
n
n
∂f
υ = ∑ υi e (i ) ⇒ f ′ (a )( ∑ υi e (i )) = ∑ υi f ′ (a )[e (i )] = ∑ υi
(a ))
i =1
i =1
i =1
i =1
∂x i
t En identifiant ∇ f (a ) à une matrice colonne n × 1, sa transposée ∇ f (a )′ est, dès que f
est Gateaux-dérivable, la matrice de l’application linéaire f ′ (a ) ∶ Rn ↦ R dans la base
naturelle de Rn .
Le point de vue géométrique
Soient I et J deux intervalles ouverts de R, et f ∶ I × J ⊂ R2 ↦ R une fonction
continue définie sur le produit I × J . Une représentation 3D du graphe :
G ( f ) = {(x 1 , x 2 , x 3 ) ∈ R3 ∣ (x 1 , x 2 ) ∈ I × J , x 3 = f (x 1 , x 2 )}
de f montre une nappe régulière, paramétrée par les coordonnées (x 1 , x 2 ) d’un
point courant de l’ouvert I × J (Fig. 6.3) : une « surface » dans le langage des mathématiques. Lorsque que la fonction considérée est continue, cette surface est
d’un seul tenant et ne présente aucune déchirure.
Dans une telle représentation, il est commode d’assimiler la direction du
vecteur w = (0, 0, 1) à la « verticale », et d’identifier l’espace R2 au plan d’équation x 3 = 0 via l’isomorphisme Λ ∶ R2 ↦ R3 ∶ (x 1 , x 2 ) ↦ (x 1 , x 2 , 0) .
Si a est un point quelconque de I × J , et (D ) une droite de R2 passant par
a et dirigée par un vecteur υ , identifiée via l’isomorphisme Λ à une droite du
plan d’équation x 3 = 0 , l’intersection du graphe de f par un plan vertical (P )
contenant (D ) est une courbe (C ). Dans le repère cartésien (a, υ, w ) de (P ),
c’est le graphe de de la fonction :
ϕ ∶ { t ∈ R ∣ a + t υ ∈ I × J } ⊂ R ↦ R ∶ t ↦ f ( a + t υ)
148
CHAPITRE 6. PREMIERS OUTILS DU CALCUL DIFFÉRENTIEL
Fig. 6.3 – Graphe de f ∶] − 3, 3 [×] − 3, 3 [⊂ R2 ↦ R ∶ (x 1 , x 2 ) ↦ x 13 x 2 .
dont la dérivée en zéro est, sous réserve d’existence, la dérivée directionnelle
de f au point a dans la direction du vecteur υ . La tangente à (C ) au point
A = (a, f (a )) est donc dirigée par le vecteur ( v, D f (a, v )) (Théorème 6.2.1), de
sorte qu’un point ( x 1 , x 2 , x 3 ) de R3 appartient à cette tangente si et seulement
si il existe un réel Λ tel que :
x i − a i = Λ υi (i = 1, 2), et :
x 3 − f (a ) = Λ D f (a, υ) = D f (a, Λ υ)
c’est-à-dire si et seulement si :
x 3 = f (a ) + D f (a, x − a ), où :
x = (x 1 , x 2 )
(6.29)
On peut donc énoncer :
Théorème 6.4.2 Si f est Gateaux-dérivable au point a , toute section du graphe
de f par un plan vertical (P ) passant par A = ( a, f (a )) est une courbe tracée
dans (P ), admettant au point A une tangente contenue dans le plan passant par
A orthogonal au vecteur (∇ f (a ), −1) . En particulier :
{(∇ f (a ), −1)}⊥ ⊂ TG ( f ) ( a, f (a ))
Preuve : (6.29) se récrit :
∂f
∂x 1
(a1 , a2 )(x 1 − a1 ) +
∂f
∂x 2
(a1 , a2 )(x 2 − a2 ) − ( x 3 − f (a1 , a2 )) = 0
(6.30)
6.4. GATEAUX-DÉRIVABILITÉ
149
Fig. 6.4 – Coupe du graphe de f ∶] − 3, 3 [×] − 3, 3 [⊂ R2 ↦ R ∶ (x 1 , x 2 ) ↦ x 13 x 2
par un plan vertical contenant la droite (D ) passant par a = (2, 2)
et dirigée par υ = (1, −1).
et tout vecteur tangent à la section du graphe de f par un plan vertical est a
fortiori tangent au graphe de f , d’où (6.30).
Exemple 6.4.4 Lorsque f est la fonction polynôme :
f ∶] − 3, 3 [×] − 3, 3 [⊂ R2 ↦ R ∶ (x 1 , x 2 ) ↦ x 13 x 2
dont le graphe est représenté sur la figure 6.3, et : a = (2, 2) , A = (2, 2, 16) et la
tangente à toute section verticale du graphe de f passant par A est contenue dans
le plan d’équation : 24 x 1 + 8 x 2 − x 3 = 48 . Un jeu d’équations de la tangente en A à
la section du graphe de f par le plan vertical représenté sur la figure 6.4 est donc :
24 x 1 + 8 x 2 − x 3 = 48, et :
x1 + x2 = 4
B Pour des fonctions suffisamment « régulières », comme la fonction polynôme :
f ∶] − 3, 3 [×] − 3, 3 [⊂ R2 ↦ R ∶ (x 1 , x 2 ) ↦ x 13 x 2
on pourra montrer qu’en fait : {(∇ f (a ), −1)}⊥ = TG ( f ) ( a, f (a )) . Ce n’est pas vrai en
général, et l’inclusion (6.30) peut être stricte (Exercice 6.2).
Plus généralement, le graphe de toute fonction continue f ∶ D ⊂ E ↦ R définie sur une partie D d’un espace vectoriel E de dimension n est une hypersurface de l’espace E × R , paramétrée par les coordonnées d’un point courant de
150
CHAPITRE 6. PREMIERS OUTILS DU CALCUL DIFFÉRENTIEL
D . En appelant encore « verticale » la direction du vecteur (0E , 1) de E × R , l’intersection du graphe de f avec tout plan « vertical » (P ) passant par ( a, f (a ))
sera une courbe plane, tracée dans (P ). Lorsque f sera Gateaux-dérivable en a ,
cette courbe admettra une tangente au point ( a, f (a )), contenue dans l’hyperplan de E × R d’équation :
x n +1 = f (a ) + f ′ (a )(x − a )
A fortiori , le sous-jacent {(∇ f (a ), −1)}⊥ de cet hyperplan sera contenu dans le
cône TG ( f ) ( a, f (a )) des vecteurs tangents au graphe de f au point ( a, f (a )) ,
et dès que f sera assez régulière, on aura : {(∇ f (a ), −1)}⊥ = TG ( f ) ( a, f (a )) .
6.5 Minimisation sur un convexe
Le problème type
On s’intéresse dans cette section au problème consistant à minimiser une
fonction à valeurs réelles f ∶ C ⊂ E ↦ R , définie sur une partie convexe C d’un
espace de dimension finie E , problème que l’on écrit formellement :
(P)
Min
f (x )
s.c. x ∈ C
Une « solution » du problème (P) est un point a de C tel que :
x ∈ C ⇒ f (a ) ≤ f (x )
On note indifféremment « arg min (P) », ou : « arg minx ∈S f (x ) » l’ensemble (éventuellement vide) des solutions de (P). On dit qu’une solution a de (P) est un
« minimiseur de f sur C », ou, qu’elle « minimise f sur C ».
Théorème 6.5.1
a ∈ arg min (P), x ∈ C ⇒ D + f (a, x − a ) ≥ 0
Preuve : Pour tout x dans C , et tout réel t dans ] 0, 1 ] :
a + t (x − a ) = t x + (1 − t ) a ∈ C ⇒ f (a ) ≤ f ( a + t (x − a ))
donc : D + f (a, x − a ) = lim inf t −1 [ f ( a + t (x − a )) − f (a )] ≥ 0
t ↓0
(6.31)
6.5. MINIMISATION SUR UN CONVEXE
151
Extrema locaux
Soient E un espace de dimension finie, D une partie quelconque de E , et
f ∶ D ⊂ E ↦ R une fonction à valeurs réelles définie sur D .
Définition 6.5.1 On dit qu’un point a est un « minimum local » (resp. un « maximum local » ) de f s’il existe un voisinage V de a dans E , contenu dans D , tel
que :
x ∈ V ⇒ f (a ) ≤ f (x )
(resp. f (x ) ≤ f (a ))
(6.32)
Définition 6.5.2 On dit que a est un « extremum local » de f si c’est un minimum
ou un maximum local de f .
Théorème 6.5.2 Pour tout minimum local a de f ∶ D ⊂ E ↦ R :
∀υ ∈ E ,
D + f (a, υ) ≥ 0
(6.33)
Preuve : C’est une conséquence directe du théorème 6.5.1, appliqué à la restriction de f à une boule ouverte de centre a , associée à une norme quelconque, de
rayon : r > 0 assez petit pour qu’elle soit contenue dans V .
Corollaire 6.5.1 Soit a un extremum local de f ∶ D ⊂ E ↦ R :
1. Si f admet une dérivée directionnelle au point a dans la direction du vecteur υ de E : D f (a, v ) = 0 .
2. Si f est Gateaux-dérivable en a : f ′ (a ) = 0 .
Preuve : - Si a est un minimum local de f , et f admet une dérivée directionnelle en a dans la direction du vecteur υ, (6.33) implique : D f (a, v ) ≥ 0 , et :
−D f (a, v ) = D f (a, −v ) ≥ 0 , d’où, nécessairement : D f (a, v ) = 0 .
- Si f est Gateaux-dérivable en a , elle admet pour dérivée directionnelle
f ′ (a )(υ) dans la direction de tout vecteur υ (Définition 6.4.1).
- Si a est un maximum local, on obtient les mêmes conclusions en remplaçant f par − f .
Corollaire 6.5.2 (Règle de Fermat Si f ∶ D ⊂ Rn ↦ R admet des dérivées partielles
au point a et a est un extremum local de f : ∇ f (a ) = 0 Rn .
Preuve : Les dérivées partielles de f au point a sont les dérivées directionnelles
de f au point a dans les directions des n vecteurs de la base naturelle de Rn .
152
CHAPITRE 6. PREMIERS OUTILS DU CALCUL DIFFÉRENTIEL
Définition 6.5.3 On dit qu’un point a en lequel f ∶ D ⊂ Rn ↦ R admet des dérivées partielles et : ∇ f (a ) = 0 Rn est un « point critique » de f .
On peut donc reformuler le corollaire 6.5.2 en énonçant : « tout extremum
local de f ∶ D ⊂ Rn ↦ R en lequel f admet des dérivées partielles est point critique
de f » .
Exemple 6.5.1 La fonction f ∶ R2 ↦ R ∶ (1 , x 2 ) ↦ x 14 + x 24 − 4 x 1 x 2 atteint son minimum sur R2 en exactement deux points : (1, 1) , et : (−1, −1) .
Preuve : Elle est coercive (Exemple 5.6.6), et donc atteint son minimum sur R2 .
Tout point en lequel ce minimum est atteint est a fortiori un minimum local ,
donc un point critique de f . Le calcul donne :
∇ f (x 1 , x 2 ) = 4(x 13 − x 2 , x 23 − x 1 ) = 0 R2 ⇒ (x 1 , x 2 ) = (1, 1), (0, 0), ou :(−1, −1)
Or : f (1, 1) = f (−1, −1) = −2 , alors que : f (0, 0) = 0
Projection sur un convexe
Soit (E , <, >) un espace Euclidien, et C une partie convexe fermée de E . On
considère le problème :
(P)
1
Min
s.c. x ∈ C
2
∣ x − a ∣2
(6.34)
consistant à projeter un point a donné dans E sur C . On sait que ce problème a
une unique solution (Théorème 4.5.2).
Théorème 6.5.3 (Projection Euclidienne sur un convexe fermé) La projection
de a sur C est l’unique point p vérifiant :
∀q ∈ C ,
< p − a, q − p > ≥ 0
(6.35)
Preuve : On vérifie facilement que f ∶ E ↦ R ∶ x ↦
1
2
∣ x − a ∣2 est partout Gateaux-
dérivable et que sa Gateaux-dérivée en tout point x de E est la forme linéaire :
f ′ (x ) ∶ E ↦ R ∶ υ ↦< x − a, υ >
identifiée, via le théorème de Riesz, au vecteur x −a de E . En effet : D f (x, υ) = ϕ′ (0) ,
où :
ϕ∶ R↦ R∶t ↦
1
2
∣ x + t υ − a ∣2 −
1
2
∣ x − a ∣2 =
t2
2
∣ υ ∣2 + t < x − a, υ >
6.6. LE THÉORÈME DES ACCROISSEMENTS FINIS
153
La projection p de a sur C doit donc vérifier (6.35) (Théorème 6.5.1). Mais si p 1
et p 2 sont deux points de C vérifiant (6.35), on aura :
< p 1 − a, p 2 − p 1 > ≥ 0, et : < p 2 − a, p 1 − p 2 > ≥ 0
d’où :
∣ p 2 − p 1 ∣2 = < p 2 − a, p 2 − p 1 > + < a − p 1 , p 2 − p 1 > = . . .
. . . = − < p 2 − a, p 1 − p 2 > − < p 1 − a, p 2 − p 1 > ≤ 0
qui implique : p 1 = p 2 . Donc la projection de a sur C est l’unique point p de C
vérifiant (6.35).
Corollaire 6.5.3 La fonction pC ∶ (E , ∣ ∣) ↦ (E , ∣ ∣) qui, à tout point x d’un espace Euclidien (E , <, >) associe sa projection sur un convexe fermé C de E est
1-Lipschitzienne.
Preuve : Soient p et q les projections respectives de deux points x et y de
E . En invoquant deux fois la caratérisation de la projection Euclidienne sur un
convexe fermé, on peut écrire :
∣ p − q ∣2 ≤ < p − x, p − q > + < x − y, p − q > + < y − q, p − q > ≤ . . .
. . . ≤ − < p − x, q − p > + < x − y, p − q > − < q − y, p − q > ≤ < x − y, p − q >
2
d’où, en vertu de l’inégalité de Cauchy-Schwarz : ∣ p − q ∣ ≤ ∣ x − y ∣ ∣ p − q ∣ . Le
résultat valant pour tout couple (x, y ) de points de E , pC ∶ (E , ∣ ∣) ↦ (E , ∣ ∣) est
1-Lipschitzienne.
Exemple 6.5.2 La projection Euclidienne d’un point a = (a 1 , . . . , a n ) de R n , muni
de son produit scalaire usuel, sur le cône positif C de Rn est le point p de coordonnées : p i = max(0, a i ) ( 1 ≤ i ≤ n ) dans la base naturelle de Rn .
Preuve : q = (q 1 , . . . , q n ) ∈ C ⇒ < p − a, q − p > = ∑ni=1 (p i − a i )(q i − p i ) ≥ 0
6.6 Le théorème des accroissements finis
Le théorème des accroissements finis, que les anglophones appellent « mean
value theorem », affirme, dans sa forme élémentaire, que, si f ∶ [ a, b ] ⊂ R ↦ R
est une fonction continue, dérivable en tout point de l’intervalle ouvert ] a, b [ ,
il existe nécessairement un réel c , strictement compris entre a et b, tel que :
f (b ) − f (a ) = f ′ (c )(b − a )
154
CHAPITRE 6. PREMIERS OUTILS DU CALCUL DIFFÉRENTIEL
L’appellation « théorème de la valeur moyenne » trouve son origine dans le fait
que, pour a et b distincts :
f ′ (c ) =
f (b ) − f ( a )
b−a
est précisément la valeur moyenne de l’accroissement de f entre les points a et
b . L’expression « accroissements finis » rappelle que la variation de f entre les
points a et b est controlée par les valeurs prises par sa dérivée sur l’intervalle
[ a, b ] . La notion de dérivée directionnelle, permet d’étendre sans difficulté ce
résultat au cas d’une fonction à valeurs réelles définie sur un espace de dimension finie quelconque.
Soient E un espace de dimension finie, D une partie de E , f ∶ D ⊂ E ↦ R une
fonction continue, à valeurs réelles, définie sur D , et [ a, b ] un segment contenu
dans D . Notons, par commodité : ] a, b [= [ a, b ] /{a, b } :
Théorème 6.6.1 (Théorème des accroissements finis) Si f admet, en tout point
de ] a, b [ une dérivée directionnelle dans la direction du vecteur b − a :
∃ c ∈] a, b [ ,
f (b ) − f (a ) = D f (c, b − a )
(6.36)
Preuve : La fonction :
ϕ ∶ [ 0, 1 ] ⊂ R ↦ R ∶ t ↦ ϕ(t ) = f ( t b + (1 − t ) a ) − t f (b ) − (1 − t ) f (a )
vérifie : ϕ(1) = ϕ(0) , donc admet nécessairement un extremum local dans l’intervalle ] 0, 1 [ . Mais, pour tout t dans ] 0, 1 [ :
ϕ′ (t ) = D f ( t b + (1 − t ) a, b − a ) − f (b ) + f (a )
et si : ϕ′ (t ) = 0 , c = t b + (1 − t ) a vérifie (6.36).
Corollaire 6.6.1 Si f est Gateaux-dérivable en tout point de ] a, b [ , alors pour
toute norme N sur E :
∣ f (b ) − f (a )∣ ≤
sup N ⋆ [ f ′ (c )] N (b − a )
c ∈ ] a,b [
(6.37)
où N ⋆ est la norme sur L (E , R) subordonnée aux normes N sur E et ∣ ∣ sur R (8).
t Lorsque (E , <, >) est un espace Euclidien, et f ′ (c ) est identifiée, via le théorème de
Riesz, à un élément de E , N ⋆ est la norme duale de N (Définition 5.3.2).
8. Définition 5.3.1).
6.6. LE THÉORÈME DES ACCROISSEMENTS FINIS
155
Corollaire 6.6.2 Soient O un ouvert convexe de E , N une norme quelconque sur
E , et N ⋆ la norme sur L (E , R), subordonnée aux normes N sur E et ∣ ∣ sur R.
Une fonction f ∶ O ⊂ E ↦ R , Gateaux-dérivable en tout point de O , est Lipschitzienne si et seulement si :
K = sup N ⋆ ( f ′ (x )) < +∞
x ∈O
(6.38)
et K est alors la plus petite constante telle que :
x, y ∈ O ⇒ ∣ f (x ) − f ( y )∣ ≤ K N (x − y )
(6.39)
Preuve : Du corollaire 6.6.1, il résulte évidemment que (6.38) implique (6.39).
Réciproquemment, (6.39) implique, pour tout point x dans O , tout vecteur υ
dans E , et tout réel t strictement positif suffisamment petit :
∣ t −1 [ f (x + t υ) − f (x )]∣ ≤ K N (v )
d’où, par passage à la limite lorsque t tend vers zéro : ∣ f ′ (x )(υ)∣ ≤ K N (υ) , et,
par conséquent :
N ⋆ [ f ′ (x )] = sup ∣ f ′ (x )(υ)∣ ≤ K
N (υ)≤1
Ainsi (6.39) implique (6.38).
Exemple 6.6.1 f ∶ R2 ↦ R ∶ (x 1 , x 2 ) ↦ ln(1 + x 12 + x 22 ) est LIpschitzienne.
Preuve : Elle est partout Gateaux-dérivable, comme composée de la fonction
logarithme, dérivable sur ] 0, +∞[ , avec une fonction polynôme à valeurs dans
] 0, +∞[ (Théorème 6.4.1 et corollaire 6.4.2), et : N2 [∇ f (x 1 , x 2 )] ≤ 1 .
Utilisation des dérivées de Dini
Dans sa version classique, le théorème des accroissements finis n’est toutefois pas complètement satisfaisant. La raison est que de nombreuses fonctions
apparaissant naturellement dans les modèles mathématiques présentent des
points de non dérivabilité. Or, comme le montre l’exemple suivant, l’existence
d’un seul point de non dérivabilité suffit à proscrire l’usage du théorème 6.6.1 :
Exemple 6.6.2 f ∶ [ 0, 1 ] ⊂ R ↦ R ∶ x ↦ min(t , 1 − t ) est partout dérivable sur
l’intervalle ] 0, 1 [ , sauf en : t = 1/2, mais il n’existe aucun point c dans l’intervalle
] 0, 1 [ tel que : f (1) − f (0) = f ′ (c )
156
CHAPITRE 6. PREMIERS OUTILS DU CALCUL DIFFÉRENTIEL
Il est cependant possible d’énoncer un résultat général, reposant uniquement sur la notion de dérivée de Dini, qui s’applique encore à une situation
analogue à celle de l’exemple 6.6.2, :
Théorème 6.6.2 Pour toute fonction continue f ∶ D ⊂ E ↦ R et tout segment
[ a, b ] contenu dans D :
∃ c ∈] a, b [ ,
f (b ) − f (a ) ≤ D + f (c, b − a )
(6.40)
Preuve : on commence par démontrer le :
Lemme 6.6.1 Pour toute fonction continue ϕ ∶ [ 0, 1 ] ⊂ R ↦ R telle que :
ϕ(1) = ϕ(0) = 0 , il existe un point t de l’intervalle ] 0, 1 [ tel que : 0 ≤ D + ϕ(t ) .
Pour cela, remarquons d’abord que l’on peut toujours trouver des points t 0 et t 1
dans ] 0, 1 [ tels que :
0 < t 0 < t 1 < 1, et : ϕ(t 0 ) = ϕ(t 1 )
(6.41)
C’est évident si ϕ est identiquement nulle, et une conséquence élémentaire du
théorème des valeurs intermédiaires sinon. Il suffit alors de trouver un point t
dans [ t 0 , t 1 [ tel que :
t < s < t 1 ⇒ ϕ( t ) ≤ ϕ( s )
Si t 0 ne convient pas, il existe un point t 2 dans ] t 0 , t 1 [ tel que : ϕ(t 2 ) < ϕ(t 0 ) .
Si t 2 ne convient pas, il existe au moins un t dans l’intervalle ] t 2 , t 1 [ tel que
ϕ(t ) < ϕ(t 2 ) . On considère alors :
θ = sup{t ∈ [ t 2 , t 1 [ ∣ ϕ(t ) < ϕ(t 2 )}
Par continuité de ϕ : ϕ(θ ) ≤ ϕ(t 2 ) < ϕ(t 1 ) , donc : θ < t 1 . Dans ce cas θ convient
nécessairement. Sinon il existerait t dans ] θ, t 1 [ tel que : ϕ(t ) < ϕ(θ ) ≤ ϕ(t 2 ) ,
ce qui contredirait la définition de θ.
On démontre alors le théorème 6.6.2 en appliquant le lemme à la fonction :
ϕ ∶ [ 0, 1 ] ⊂ R ↦ R ∶ t ↦ f ( t b + (1 − t ) a ) − t f (b ) − (1 − t ) f (a )
en remarquant encore que : ϕ(1) = ϕ(0) , et, pour tout t dans ] 0, 1 [ :
D + ϕ(t ) = D + f ( t b + (1 − t ) a, b − a ) − f (b ) + f (a )
6.6. LE THÉORÈME DES ACCROISSEMENTS FINIS
157
Application au calcul de constantes de Lipschitz
Soient E un espace de dimension finie, et B = {e (1), . . . , e (n )} une base de
E . On munit E des normes : N∞ ∶ E ↦ [ 0, +∞[∶ x = ∑ni=1 x i e (i ) ↦ maxni=1 ∣ x i ∣,
et : N1 ∶ E ↦ [ 0, +∞[∶ x = ∑ni=1 x i e (i ) ↦ ∑ni=1 ∣ x i ∣, et on suppose :
(H1 ) O un ouvert convexe de E , et f ∶ O ⊂ E ↦ R une fonction définie sur O .
(H2 ) Pour tout indice i ( 1 ≤ i ≤ n), f admet, en tout point de O , une demidérivée directionnelle dans les directions des deux vecteurs e (i ) et −e (i ) .
(H3 ) Il existe une constante réelle C telle que :
x ∈ O ⇒ ∣ max [D f + ( x, e (i )) , D f + ( x, −e (i ))]∣ ≤ C (9)
Théorème 6.6.3 Sous les hypothèses ( H1 ) à ( H3 ), f ∶ (E , N1 ) ↦ ( R, ∣ ∣) est
C -Lipschitzienne.
Preuve : On procède en deux étapes. Dans une première étape, on démontre le
résultat en supposant que O est une boule ouverte :
B ∞ (a, r ) = {x ∈ Rn ∣ N∞ (x − a ) < r }
contenue dans O , de centre a et de rayon : r > 0, associée à la norme N∞ . Dans
une seconde étape, on démontre le résultat général.
Etape 1 : On suppose : O = B ∞ (a, r )
Pour a = ∑ni=1 a i e (i ), et : b = ∑ni=1 b i e (i ) donnés dans O, on construit un
chemin de a à b suivant les directions des vecteurs de base(Figure 6.5) :
x (0) = a, x (n ) = b, et :
k
n
i =1
i =k +1
x (k ) = ∑ b i e (i ) + ∑ a i e ( i ) ( 1 ≤ k ≤ n − 1 )
En remarquant que tous les points x (k ) ( 0 ≤ k ≤ n) restent dans B ∞ (a, r ), et :
x (k ) − x (k − 1 ) = (b k − a k ) e ( k )
( 1 ≤ k ≤ n)
on déduit alors du théorème 6.6.2 en invoquant la proposition 6.3.1 :
n
n
k =1
k =1
f (b )− f (a ) = ∑ [ f ○x (k )− f ○x (k −1)] ≤ ∑ ∣ b (k ) − a (k )∣ D + f (c (k ), δ(k ) e (k ))
où : δ(k ) = ±1, et tous les points c (k ) (1 ≤ k ≤ n) appartiennent à B ∞ (a, r ), de
sorte que ( H3 ) implique :
n
f (b ) − f (a ) ≤ ∑ C ∣ b (k ) − a (k )∣ = C N1 (b − a )
k =1
9. C’est-à-dire : les demi-dérivées directionnelles dans les directions des vecteurs de la base
B et de leurs opposés sont toutes majorées, en valeur absolue, par une même constante réelle C .
158
CHAPITRE 6. PREMIERS OUTILS DU CALCUL DIFFÉRENTIEL
Fig. 6.5 – Chemin d’un point a à un point b dans R3 suivant
les directions des vecteurs de base.
Finalement, en permutant les rôles de a et b , on déduit :
n
∣ f (b ) − f (a )∣ ≤ ∑ C ∣ b (k ) − a (k )∣ = C N1 (b − a )
k =1
Le résultat valant pour tout couple (a, b ) donné dans B ∞ (a, r ), la restriction de
f à la boule B ∞ (a, r ) est C -Lipschitzienne de (E , N1 ) dans ( R, ∣ ∣) .
Etape 2 : Démontrons maintenant le résultat général :
Etant donnés deux points a et b dans O, l’ensemble :
T = { t ∈ [ 0, 1 ] ∣ ∣ f ( t b + (1 − t ) a ) − f (a )∣ ≤ C t N1 (b − a ) } .
est non vide - il contient zéro - et majoré par un. Soit θ sa borne supérieure.
On va prouver, par l’absurde, que θ = 1 . On commence par remarquer que le
résultat de l’étape 1 implique, en particulier, la continuité de f en tout point de
l’ouvert convexe O, et, a fortiori , en tout point du segment [ a, b ] . On déduit
que T est fermé , donc contient sa borne supérieure :
∣ f (θ b + (1 − θ ) a ) − f (a )∣ ≤ C θ N1 (b − a )
(6.42)
Mais, le résultat de l’étape 1, à nouveau, montre que la restriction de f à un
voisinage de θ b + (1 − θ ) a est C -Lipschitzienne de (E , N1 ) dans ( R, ∣ ∣) . Si :
θ < 1, on aura donc, pour tout t strictement supérieur à θ, suffisamment voisin
de θ :
∣ f ( t b − (1 − t ) a ) − f (θ b − (1 − θ ) a )∣ ≤ C (t − θ ) N1 (b − a )
(6.43)
6.6. LE THÉORÈME DES ACCROISSEMENTS FINIS
159
d’où, en combinant (6.42) et (6.43) :
∣ f ( t b + (1 − t ) a ) − f (a )∣ ≤ . . .
. . . ≤ ∣ f ( t b + (1 − t ) a ) − f (θ b + (1 − θ ) a )∣ + ∣ f (θ b + (1 − θ ) a ) − f (a )∣ ≤ . . .
. . . ≤ C ( t − θ ) N 1 ( b − a ) + C θ N 1 (b − a ) = C t N 1 (b − a )
contredisant la définition de θ. Donc, nécessairement :
θ = 1, et : ∣ f (b ) − f (a )∣ ≤ C N1 (b − a )
Le résultat valant pour tout couple(a, b ) de points de O, f est C -Lipschitzienne
de (E , N1 ) dans ( R, ∣ ∣) .
Fonctions localement Lipschitziennes
Soient E un espace de dimension finie, et O un ouvert de E .
Définition 6.6.1 On dit qu’une fonction f ∶ O ⊂ E ↦ R est localement Lipschitzienne si sa restriction à un voisinage de tout point de O est Lipschitzienne.
Théorème 6.6.4 Si f ∶ O ⊂ E ↦ R admet, en tout point de O des dérivées directionnelles dans les directions des n vecteurs e (i ) ( 1 ≤ i ≤ n) d’une base quelconque
de E , et si les n fonctions :
DF i ∶ O ⊂ E ↦ R ∶ x ↦ D f ( x, e (i ))
( 1 ≤ i ≤ n)
sont continues, alors f est localement Lipschitzienne.
Preuve : Par hypothèse, tout point a de O admet un voisinage V contenu dans
O tel que :
x ∈ V ⇒ ∣ D f ( x, e (i ))∣ = ∣ D f ( x, −e (i ))∣ ≤ ∣ D f ( a, e (i ))∣ + 1
et, puisque la topologie usuelle de E est engendrée par les boules ouvertes de
rayon strictement positif associée à une quelconque norme sur E , V contient
une boule ouverte de centre a et de rayon strictement positif qui est un ouvert convexe contenant a en tout point x duquel les dérivées directionnelles
D f ( x, e (i )) , et ,D f ( x, −e (i )) ( 1 ≤ i ≤ n) sont toutes majorées par :
n
C = max ∣ D f ( a, e (i ))∣ + 1 < + ∞
i =1
Le résultat est donc conséquence du théorème 6.6.3.
Exemple 6.6.3 det ∶ M R (n ) ↦ R ∶ A ↦ det A est localement Lipschitzienne.
160
CHAPITRE 6. EXERCICES
Preuve : Ses dérivées directionnelles dans les directions des n 2 vecteurs de la
base naturelle de M R (n ) sont les dérivées de fonctions polynômes d’une variable réelle.
Corollaire 6.6.3 Soit O un ouvert de Rn . Si f ∶ O ⊂ Rn ↦ R admet des dérivées
partielles en tout point de O , et si les n fonctions :
∂f
∂x i
∶ O ⊂ Rn ↦ R ∶ x ↦
∂f
∂x i
(x )
sont continues, f est localement Lipschitzienne.
Exemple 6.6.4 Toute fonction polynôme de n variables réelles est localement
P (x )
,
Lipschitzienne sur Rn , et toute fonction rationnelle R ∶ Rn /Q −1 (0) ↦ R ∶ x ↦
Q (x )
où P et Q sont des polynômes, est localement Lipschitzienne sur son domaine de
définition.
Exercices
Exercice 6.1
1. Prouver que la fonction :
⎧
0
⎪
⎪
⎪
f ∶ R ↦ R ∶ (x 1 , x 2 ) ↦ ⎨ x 1 x 23
⎪
⎪
6
2
⎪
⎩ x1 + x2
2
si : (x 1 , x 2 ) = (0, 0)
sinon
est discontinue en (0, 0).
2. Vérifier néanmoins qu’elle est Gateaux-dérivable en (0, 0).
Exercice 6.2
On considère la fonction f ∶ R2 /{(0, 0)} ↦ R ∶ (x 1 , x 2 ↦
x 12 x 24
7
4
x1 + ∣ x2 ∣
1. Vérifier que f se prolonge par continuité en (0, 0) en posant : f (0, 0) = 0.
√
4
t indication: Poser : y = ∣ x 2 ∣7 .
2. Vérifier que le prolongement par continuité de f est Gateaux-dérivable en
(0, 0), et que sa Gateaux-dérivée en (0, 0) est le zéro de L ( R2 , R).
3. Déduire que la tangente à toute section du graphe de f par un plan vertical
est horizontale.
CHAPITRE 6. EXERCICES
161
4. Calculer f ( t 3 , t 7/4 ) pour t réel strictement positif. Déduire que (0, 0, 1) est
tangent au graphe de f en (0, 0, 0). Quel est l’ensemble TG ( f ) (0, 0, 0) ?
Exercice 6.3
Trouver tous les points critiques de la fonction :
f ∶ R2 ↦ R ∶ (x 1 , x 2 ) ↦ x 14 + x 24 + 6 x 12 x 22 − 8 x 12 + 8 x 22
Prouver qu’elle atteint son minimum sur R2 . En quel(s) point(s)
Exercice 6.4
1
Trouver la valeur minimale de √
x1
+√
1
2 x2
+√
1
3 x3
sachant que x 1 , x 2 , et
x 3 sont trois nombres réels strictement positifs dont la somme est un.
Exercice 6.5
Soient E et F deux espaces de dimensions finies, et L ∶ E ↦ F une application linéaire de E dans F .
1. Prouver que si f ∶ D ⊂ F ↦ R est Gateaux-dérivable au point b = L (a ) :
F ○ L ∶ L − 1 (D ) ⊂ E ↦ R
est Gateaux-dérivable en a et déterminer (F ○ L )′ (a ) .
2. Soient A est une m × n matrice réelle, et b un vecteur de Rm donnés. Si
f ∶ D ⊂ Rm ↦ R Gateaux-dérivable au point b , et A ⋆ x = b , calculer ∇g (x )
où : g ∶ A −1 (D ) = {x ∈ Rn ∣ A ⋆ x ∈ D } ↦ R ∶ x ↦ f ( A ⋆ x ) .
Exercice 6.6
On considère la fonction quadratique :
f ∶ Rn ↦
1 ′
x ⋆Q ⋆ x − r ′ ⋆ x
2
où Q est une n × n matrice réelle, et r un vecteur de Rn donnés.
1. Vérifier que f est partout Gateaux-dérivable, et calculer sa Gateaux-dérivée
en tout point x de Rn .
2. Retrouver ainsi l’expression du minimum global de f lorsque Q est DP.
3. Si A est une m ×n matrice réelle, et b un vecteur de Rm , quelle est la Gateaux2
dérivée de la fonction f ∶ Rn ↦ R ∶ x ↦ ∣ A ⋆ x − b ∣ ?
162
CHAPITRE 6. EXERCICES
Exercice 6.7 ( ∗)
1. Prouver que la fonction det ∶ M R (n ) ↦ R ∶ A ↦ det A est partout Gateauxdérivable.
t indication: Considérer l’isomorphisme Λ ∶ Rn ×n ↦ M R (n ) associé à la base naturelle de
M R (n ) et utiliser l’exercice 6.5.
2. Vérifier que sa dérivée directionnelle dans la direction de la matrice M (i , j )
dont tous les coefficients sont nuls, sauf celui situé sur la i ème ligne et la j ème
j
colonne qui vaut un, est le cofacteur de A i .
3. Déduire que la dérivée en zéro de la fonction ϕ ∶ λ ↦ det( A + λ I ) , où I désigne la matrice identité d’ordre n , est la trace de la comatrice de A (Voir :
Exemple 3.2.5).
t indication: Interpréter ϕ′ (0) comme une dérivée directionnelle.
Exercice 6.8 ( ∗)
Soient E un espace de dimension finie, et N ∶ E ↦ [ 0, +∞[ une norme quelconque sur E .
1. Justifier l’existence de la demi-dérivée directionnelle D N (a, υ) de N , en
tout point a de E , dans la direction de tout vecteur υ de E .
t indication: Toute fonction convexe ϕ ∶ R ↦ R d’une variable réelle admet en tout point
une dérivée à gauche et une dérivée à droite.
2. Calculer D N (0E , υ), et conclure qu’aucune norme sur E ne peut être Gateauxdérivable au point 0E .
3. Etablir, pour tout point a et tout vecteur υ : D N (a, υ) ≤ N (υ) .
Exercice 6.9 ( ∗)
1. Représenter graphiquement l’ensemble :
S = {(r cos θ, r sin θ ) ∈ R2 ∣ 0 ≤ r ≤ θ ≤ 2 π}
t indication: essayer par exemple la commande O CTAVE :
t = 0 : . 01 : 1 ; x = t .⋆ cos( t ) ; y = t .⋆ sin( t ) ; plot( [ x’ t’ ] , [ y’ t’⋆ 0 ] , ’b’ )
N’oubliez pas les points !
2. Vérifier que TS (0, 0) = R2 bien que (0, 0) ne soit pas dans l’intérieur de S.
CHAPITRE 6. EXERCICES
163
3. Prouver que la fonction :
f ∶ R2 ↦ R ∶ x ↦ {
1 si : x ∈ D
0 sinon
est Gateau-dérivable en (0, 0) .
Exercice 6.10 (Cône des vecteurs tangents à un ensemble de niveau)
Soient E un espace de dimension finie, D une partie quelconque de E , et a
un point de l’intérieur de D . On suppose donnée une fonction f ∶ D ⊂ E ↦ R ,
Gateaux-dérivable en a , dont la Gateaux-dérivée f ′ (a ) au point a n’est pas
identiquement nulle , et on considère l’ensemble de niveau c = f (a ) de f :
S c ( f ) = {x ∈ E ∣ f (x ) ≤ c }
1. Prouver :
f ′ (a )(υ) < 0 ⇒ υ ∈ TS c ( f ) (a )
2. Déduire :
f ′ (a )(υ) ≤ 0 ⇒ υ ∈ TS c ( f ) (a )
3. Conclure que, si en outre la restriction de f à un voisinage de a , contenu
dans D , est Lipschitzienne :
TS c ( f ) (a ) = {υ ∈ E ∣ f ′ (a )(υ) ≤ 0}
Quelle est la nature de cet ensemble ?
4. On suppose la restriction de f à un voisinage de a , contenu dans D , Lipschitzienne. Prouver que :
T ∂S c ( f ) (a ) = ker f ′ (a )
Quelle est la nature de cet ensemble ?
5. Prouver que l’ensemble K = {(x 1 , x 2 ) ∈ R2 ∣ 2 x 12 + 3 x 22 + 4 x 1 x 2 ≤ 1} est un
convexe compact de R2 . Quel est son bord ?
6. Application : vérifier qu’en tout point (a, b ) de ∂K : T∂K (a, b ) est une droite
vectorielle de R2 . En quels points est-elle verticale ? horizontale ? Déduire
l’allure générale de K .
Exercice 6.11 ( ∗)
On considère le problème :
(P)
(x 1 + x 2 )
Min
s.c.
2 x 12 + 3 x 22 + 4 x 1 x 2
≤1
164
CHAPITRE 6. EXERCICES
Quel argument simple garantit l’existence d’au moins une solution ? La calculer.
t indication: Utiliser pour le calcul les résultats de l’exercice 6.10. On pourra s’aider d’un
dessin.
Exercice 6.12 (Solution positive d’un système d’équations linéaires)
On considère le problème :
(P)
Min
s.c. x ≥ 0
1
2
∣ A ⋆x −b∣
où A est une m ⋆ n matrice réelle, et b un vecteur de Rm donnés. Ce problème, qui consiste à projeter b sur l’image par A du cône positif de Rn ,
admet toujours une unique solution x (Exercice 4.7).
1. Prouver que, pour tout y dans le cône positif de Rn :
( y − x )′ ⋆ A ′ ⋆ ( A ⋆ x − b ) ≥ 0
2. Déduire :
A ′ ⋆ ( A ⋆ x − b ) ≥ 0, et : x ′ ⋆ A ′ ⋆ ( A ⋆ x − b ) = 0
3. Conclure qu’il existe un unique vecteur Λ de Rn tel que :
{
A′ ⋆ ( A ⋆ x − b) + Λ = 0
Λ ≤ 0, et : Λ′ ⋆ x = 0
4. Calculer la solution de (P) si : A = (
1 1
1
) , et : b = ( ) .
1 −1
1
Exercice 6.13 (Projection sur un polyèdre)
On considère le problème :
(P)
Min
s.c.
A⋆x ≤b
1
2
∣ x − a ∣2
où A est une m × n matrice réelle, et b un vecteur de Rm donnés. On note :
1
2
S = {x ∈ Rn ∣ A ⋆ x ≤ b }, et : µ = inf
∣x −a∣
x ∈S 2
On introduit les m fonctions :
g j ∶ Rn ↦ R ∶ x ↦ ϕ ○ p j ( A ⋆ x − b )
(1 ≤ j ≤ m )
CHAPITRE 6. EXERCICES
165
où : ϕ ∶ R ↦ R ∶ x ↦ max(0, x )2 , et :
p j ∶ Rm ↦ R ∶ y = ( y 1 , . . . , y m ) ↦ y j
(1 ≤ j ≤ m )
et on définit, pour tout entier k :
f k ∶ Rn ↦ R ∶ x ↦
1
2
m
∣ x − a ∣2 + k ∑ g j (x )
j =1
1. Vérifier que ϕ est partout dérivable. Quelle est sa dérivée ?
2. Déduire que les g j ( 1 ≤ j ≤ m) sont partout Gateaux-dérivables, et déterminer leurs gradients en tout point x de Rn .
3. Pour tout entier k , la fonction f k atteint son minimum sur Rn . Pourquoi ?
4. On suppose donné, pour tout entier k : x (k ) ∈ arg minx ∈ Rn f k (x ) . Etablir
successivement :
a.
1
2
∣ x (k ) − a ∣2 ≤ f k [x (k )] ≤ µ
b. x (k ) converge vers l’unique projection x de a sur S .
c. Si A (x ) désigne la matrice obtenue en supprimant de A les lignes correspondant aux contraintes du problème (P) non saturées au point x (10),
il existe, pour tout entier k suffisamment grand , Λ(k ) ≤ 0, tel que :
x (k ) = a + A (x )′ ⋆ Λ(k )
5. Conclure que, si x est la projection Euclidienne de a sur S , il existe un vecteur Λ dans Rm vérifiant :
{
x = a + A′ ⋆ Λ
Λ ≤ 0, et : Λ′ ⋆ ( A ⋆ x − b ) = 0
6. Application : Calculer la projection du point (1, 2.4, 3, 1.7, 0.9) de R5 sur le
simplexe : S = {x = (x 1 , . . . , x 5 ) ∈ R5 ∣ ∑5i =1 x i ≤ 1, x i ≥ 0 ( 1 ≤ i ≤ 5)} .
10. La matrice des contraintes saturées au point x .
166
CHAPITRE 6. EXERCICES
Exercice 6.14 ( ∗) (Estimateur du maximum de vraisemblance)
Une variable aléatoire X est supposée suivre une loi normale : X ↝ N (µ, σ) .
On souhaite estimer les paramètres µ et σ de cette loi à partir d’un échantillon de N réalisations : x (1), x (2), . . . , x (N ) de X . L’estimateur du maximum de vraisemblance retourne :
(µ̂, σ̂) = arg min(µ,σ)∈ R× ] 0,+∞ [ f (µ, σ)
où : f ∶ R×] 0, +∞[↦ R ∶ (µ, σ) ↦ N ln σ +
1
2 σ2
∑iN=1 ( x (i ) − µ)
2
On suppose deux au moins des x (i ) ( 1 ≤ i ≤ N ) distincts.
1. Vérifier que la fonction : ϕ ∶ R ↦ R ∶ µ ↦ ∑iN=1 (x (i ) − µ)2 est coercive et
montrer que la valeur m de son minimimum est strictement positive.
2. Vérifier que, pour tout réel : a > 0, la fonction :
ψa ∶] 0, +∞[↦ R ∶ σ ↦ N ln σ +
a
2 σ2
est coercive et calculer la valeur de son minimum.
3. Déduire : f (µ, σ) ≥
N
4
(1 − ln N ) +
N
4
2
ln (∑iN=1 [ x (i ) − µ] ) +
1
2
ψm (σ).
4. Conclure que f atteint son minimum en un point unique (µ̂, σ̂). Le déterminer.
Exercice 6.15
∗
Pour résoudre numériquement le problème de traitement d’image (Exemple
2.6.2) on doit programmer sous O CTAVE le calcul de la Gateaux-dérivée du
« smoother » :
n m −1
j
j 2
n −1 m
j +1
S ∶ M R (m, n ) ↦ R ∶ ∑ ∑ ∣ Zi +1 − Zi ∣ + ∑ ∑ ∣ Zi
j =1 i =1
j =1 i =1
j 2
− Zi ∣
1. Vérifier que :
S( Z ) = NF2 ( A ⋆ Z ) + NF2 ( Z ⋆ B )
où A et B sont des matrices creuses que l’on déterminera, de format respectifs : (m − 1) × m, et : n × (n − 1), et NF est la norme de Frobenius :
NF ∶ M R (m, n ) ↦ [ 0, +∞[∶ A ↦ tr ( A ′ ⋆ A )
CHAPITRE 6. EXERCICES
167
2. Déduire que :
f ∶ M R (m, n ) ↦ R ∶ Z ↦ NF2 ( A ⋆ Z )
est partout Gateaux-dérivable, et que sa Gateaux-dérivée en tout point Z
peut être identifiée, via le théorème de Riesz, à la matrice A ′ ⋆ A ⋆ Z sur
3. Sachant que la commande : sparse(i,j,v,M,N) construit une matrice creuse
de format M × N dont les termes non nuls sont listés dans v, et leurs indices
de ligne et de colonne respectifs dans i et j , vérifier que la fonction suivante
calcule la dérivée du smoother :
function G=derivS(Z)
(M,N)=size(Z);G=makeT(M)⋆Z+Z⋆makeT(N);
function T=makeT(M)
k=1:M-1;j=k+1;v=ones(1,M-1);
i=[k,j];j=[k,k];v=[v,-v];
A=sparse(i,j,v,M-1,M);T=A’⋆A
Quelle commande devra-t-on alors utiliser pour calculer : S ′ ( Z )(M ), si M
est une m × n matrice quelconque donnée ?
Exercice 6.16 ( ∗) (Règle d’Ekeland (11))
La règle d’Ekeland peut être vue comme une généralisation de la règle de
Fermat. Soit f ∶ Rn ↦ R une fonction continue admettant des dérivées partielles en tout point et telle que : infx ∈ Rn f (x ) soit fini. Si f atteint son minimum sur Rn en un point a , ∇ f (a ) = 0 Rn . C’est la règle de Fermat. Mais
même si le minimum n’est pas atteint, il existe toujours des points x en lesquels f (x ) est arbitrairement proche du minimum, et ∇ f (x ) arbitrairement
voisin du zéro de Rn : c’est la règle d’Ekeland .
On suppose donnés un réel : ² > 0, et un point a dans Rn tels que :
f (a ) ≤ infn f (x ) + ²2
(6.44)
x∈ R
1. Prouver que : S (a, ²) = {x ∈ Rn ∣ f (x ) + ² ∣ x − a ∣ ≤ f (a )} est un compact
non vide.
2. Prouver : b ∈ arg minx ∈S (a, ²) f (x ) ⇒ b ∈ arg minx ∈ Rn ( f (x ) + ² ∣ x − b ∣) .
3. Déduire : b ∈ arg minx ∈S (a, ²) f (x ) ⇒ N∞ (∇ f (b )) ≤ ² .
4. Déduire que, pour tout point a vérifiant (6.44), il existe un point b tel que :
∣ b − a ∣ < ², f (b ) ≤ infn f (x ) + ²2 , et :
x∈ R
N∞ (∇ f (b )) ≤ ²
(6.45)
5. Conclure que, pour toute suite minimisante x (k ) de f , il existe une suite
minimisante y (k ) telle que :
∣ y (k ) − x (k )∣ → 0, et : ∇ f [ y (k )] → 0 Rn
11. - Ivar Ekeland, 1944- , Mathématicien français, www.ceremade.dauphine.fr /∼ekeland / .
Téléchargement