2007-08.cours.chapitre-5.convexite.mdr2017-04-27

publicité
EFREI
2007-2008
Chapitre 05 :
Convexité.
1
Convexité des fonctions d’une variable réelle
Soit I un intervalle de R.
1.1
Définition et interprétation géométrique
Définition 1.1 — Soit f : I → R.
1. On dit que f est convexe lorsque :
∀(x1 , x2 ) ∈ I 2 , ∀α ∈ [0, 1],
f (αx1 + (1 − α)x2 ) ≤ αf (x1 ) + (1 − α)f (x2 ).
2. Lorsque −f est convexe, on dit que f est concave.
– Remarque – Ceci signifie que tous les points de l’arc « M1 M2 » sont situés sous la corde [M1 M2 ] :
Exemple 1.1 – Les fonctions affines, la fonction carré x 7→ x2 , la fonction x 7→ |x|.
1.2
Inégalités de convexité
Proposition 1.1 — (Inégalité de Jensen) Soit n ≥ 2 et f : I → R une fonction convexe. Alors :
!
n
n
n
X
X
X
n
n
∀(λ1 , . . . , λn ) ∈ R+ ,
λi = 1, ∀(x1 , . . . , xn ) ∈ I , f
λ i xi ≤
λi f (xi ).
i=1
i=1
i=1
Démonstration — Récurrence sur n.
1. Pour n = 2, c’est la définition de la convexité.
2. Supposons le résultat vrai au rang n et vérifions-le au rang n + 1. Soit donc (λ1 , . . . , λn+1 ) ∈ Rn+1
tels que
+
Pn+1
λi = 1 et (x1 , . . . , xn+1 ) ∈ I n+1 .
Si λn+1 = 1, alors tous les autres λi sont nuls donc l’inégalité est une trivialité, c’est même une égalité.
i=1
Sinon, remarquons que
f
n+1
X
λ i xi
i=1
Pn
!
=f
n
X
λi xi + λn+1 xn+1
!
.
i=1
Pn
λi
. Ainsi pour tout i µi ≥ 0 et i=1 µi = 1 ; y est alors un barycentre
1 − λn+1
à coefficients positifs des xi donc y ∈ I. On a
!
n+1
X
f
λi xi = f ((1 − λn+1 )y + λn+1 xn+1 )
Posons y =
i=1
µi xi et pour tout i µi =
i=1
d’où, par convexité de f :
f
n+1
X
i=1
λ i xi
!
≤ (1 − λn+1 )f (y) + λn+1 f (xn+1 ),
c’est-à-dire
f
n+1
X
λ i xi
!
≤ (1 − λn+1 )f
n
X
i=1
µ i xi
!
+ λn+1 f (xn+1 ).
i=1
D’après l’hypothèse de récurrence :
!
n+1
n
n+1
X
X
X
λi xi ≤ (1 − λn+1 )
µi f (xi ) + λn+1 f (xn+1 ) =
λi f (xi ),
f
i=1
i=1
i=1
ce qui achève la récurrence. 1.3
Caractérisation géométrique
Soit f : I → R.
Proposition 1.2 — f est convexe si et seulement si son épigraphe E = {(x, y) ∈ I × R ; y ≥ f (x)} est un ensemble
convexe du plan : ∀(M, N ) ∈ E, [M, N ] ⊂ E.
Démonstration —
=⇒ Supposons f convexe et soit E son épigraphe. Soit M (x1 , y1 ) ∈ E, N (x2 , y2 ) ∈ E et A(x, y) ∈ [M, N ]. Alors il
existe α ∈ [0, 1] tel que x = αx1 + (1 − α)x2 et y = αy1 + (1 − α)y2 . Par convexité de f :
f (x) = f (αx1 + (1 − α)x2 ) ≤ αf (x1 ) + (1 − α)f (x2 ).
Or (M, N ) ∈ E 2 donc αf (x1 ) + (1 − α)f (x2 ) ≤ αy1 + (1 − α)y2 . D’où f (x) ≤ y, c’est-à-dire A ∈ E.
⇐= Supposons que E est convexe. Soit (x1 , x2 ) ∈ I 2 et M , N les deux points du graphe de f d’abscisses respectives
x1 et x2 . D’après l’hypothèse, [M N ] ∈ E.
Soit alors α ∈ [0, 1] et x = αx1 + (1 − α)x2 . Posons y = αf (x1 ) + (1 − α)f (x2 ). On a B(x, y) ∈ [M N ], donc B ∈ E,
d’où f (x) ≤ y, et ainsi f (αx1 + (1 − α)x2 ) ≤ αf (x1 ) + (1 − α)f (x2 ) : c’est la définition de la convexité. Proposition 1.3 — f est convexe (respectivement concave) sur I si et seulement si :
∀(x, y, z) ∈ I 3 ,
x < y < z =⇒
f (x) − f (z)
f (y) − f (z)
f (x) − f (y)
≤
≤
x−y
x−z
y−z
(respectivement ≥).
Démonstration —
=⇒ Soit (x, y, z) ∈ I 3 tel que x < y < z. Il existe α ∈ [0, 1] tel que y = αx + (1 − α)z. Donc y − x = (α − 1)(x − z)
et y − z = α(x − z). Or f est convexe d’où f (y) ≤ αf (x) + (1 − α)f (z). Ainsi
f (x) − f (y)
(α − 1)(f (x) − f (z))
≤
x−y
(α − 1)(x − z)
et
f (z) − f (y)
−α(f (x) − f (z))
≤
,
z−y
−α(z − y)
d’où la double inégalité recherchée.
f (y) − f (z)
f (x) − f (y)
<
(on n’a pas besoin de plus). Soit (x1 , x2 ) ∈
x−y
y−z
2
I , α ∈]0, 1[ et x = αx1 + (1 − α)x2 ∈ I. Alors x1 < x < x2 donc
⇐= Supposons que pour tous (x, y, z) ∈ I 3 ,
f (x1 ) − f (x)
f (x) − f (x2 )
≤
.
x1 − x
x − x2
Or x1 − x = (1 − α)(x1 − x2 ) et x − x2 = α(x1 − x2 ), d’où
f (x1 ) − f (x)
f (x) − f (x2 )
≤
,
(1 − α)(x1 − x2 )
α(x1 − x2 )
soit
α(f (x1 ) − f (x)) ≥ (1 − α)(f (x) − f (x2 )),
et ainsi f (x) ≤ αf (x1 ) + (1 − α)f (x2 ). Par conséquent f est bien convexe. Exemple 1.2 – f est convexe et concave sur I si et seulement si la fonction (x, y) 7→
I × I, c’est-à-dire si et seulement si f est une fonction affine.
f (x) − f (y)
est constante sur
x−y
1.4
Caractérisation des fonctions convexes dérivables
Proposition 1.4 — Soit f : I → R dérivable. f est convexe (resp. concave) sur I si et seulement si f 0 est croissante
(resp. décroissante).
Démonstration —
=⇒ Supposons f convexe et soit (x1 , x2 ) ∈ I 2 tel que x1 ≤ x2 . Alors pour tous (x01 , x02 ) ∈ i2 tel que x01 ≤ x1 et
x2 ≤ x02 , on a
f (x1 ) − f (x01 )
f (x2 ) − f (x02 )
≤
x1 − x01
x2 − x02
par transitivité de la relation ≤. On passe alors à la limite successivement lorsque x01 tend vers x1 puis x02 vers x2 ,
obtenant ainsi que f 0 (x1 ) ≤ f 0 (x2 ). Par conséquent f 0 est croissante et f est convexe.
⇐= Soit (x, y, z) ∈ I 3 tel que x < y < z. D’après le théorème des accroissements finis, il existe c1 ∈]x, y[ et c2 ∈]y, z[
f (y) − f (z)
f (y) − f (z)
f (x) − f (y)
f (x) − f (y)
= f 0 (c1 ) et
= f 0 (c2 ). Grâce à la croissance de f 0 ,
≤
, ce qui
tels que
x−y
y−z
x−y
y−z
nous donne la convexité de f d’après la démonstration de la proposition 3.2. Exemple 1.3 – ln est concave sur R∗+ et exp est convexe sur R.
Corollaire 1.1 — Soit f : I → R deux fois dérivable.
1. f est convexe sur I si et seulement si f 00 ≥ 0 sur I.
2. f est concave sur I si et seulement si f 00 ≤ 0 sur I.
1.5
Position de la courbe par rapport à la tangente
Proposition 1.5 — Soit f : I → R dérivable. f est convexe sur I si et seulement si son graphe est situé au-dessus
de chacune de ses tangentes, c’est-à-dire :
∀(x, a) ∈ I 2 ,
f (x) ≥ f (a) + (x − a)f 0 (a).
Démonstration —
=⇒ D’après le théorème des accroissements finis, il existe c compris entre a et x tel que f (x) = f (a) + (x − a)f 0 (c).
D’après la convexité de f , la dérivée f 0 est croissante donc :
• si a ≤ c ≤ x alors f 0 (c) ≥ f 0 (a) ; or x − a ≥ 0, d’où f (x) ≥ f (a) + (x − a)f 0 (a) ;
• si x ≤ c ≤ a alors f 0 (c) ≤ f 0 (a) ; or x − a ≤ 0, d’où f (x) ≥ f (a) + (x − a)f 0 (a).
⇐= Pour tous (a, b) ∈ I 2 , on a f (b) ≥ f (a) + (b − a)f 0 (a) et f (a) ≥ f (b) + (a − b)f 0 (b). En sommant ces deux
inégalités on obtient 0 ≥ (b − a)(f 0 (a) − f 0 (b)), donc f 0 est croissante, d’où f est convexe. Exemple 1.4 – ∀x ∈ R, ex ≥ 1 + x
2
et
∀x > −1, ln(1 + x) ≤ x.
Convexité des fonctions de plusieurs variables réelles
2.1
Définition
Définition 2.1 — Une partie Ω de Rn est convexe si ∀(M, N ) ∈ Ω2 , [M N ] ⊂ Ω.
Exemple 2.1 – Sont convexes dans Rn : les boules, les sous-espaces vectoriels.
Dans toute la suite de la section, Ω désignera une partie ouverte et convexe de Rn .
Définition 2.2 — Soit f : Ω → R.
1. On dit que f est convexe lorsque :
∀(x, y) ∈ Ω2 , ∀t ∈ [0, 1],
f (αx + (1 − α)y) ≤ αf (x) + (1 − α)f (y).
2. Lorsque −f est convexe, on dit que f est concave.
Pn
Exemple 2.2 – 1. Les formes linéaires f : Rn → R, x 7→ i=1 ai xi , sont convexes.
Pn
2. Soit p > 2 et f : Rn → R définie pour tout x = (x1 , . . . , xn ) ∈ Rn par f (x) = i=1 |xi |p . Alors f est convexe.
Proposition 2.1 — Soit f : Ω → R. f est convexe sur Ω si et seulement si pour tous (x, y) ∈ Ω2 la fonction
fx,y : [0, 1] → R définie par fx,y (t) = f ((1 − t)x + ty) est convexe.
Démonstration —
=⇒ Soit (x, y) ∈ Ω2 , (s, t) ∈ [0, 1]2 et α ∈ [0, 1]. Alors :
fx,y (1 − α)t + αs
= f x + ((1 − α)t + αs)(y − x) = f (1 − α)(x + t(y − x)) + α(x + s(y − x))
≤ (1 − α)f (x + t(y − x)) + αf (x + s(y − x)) = (1 − α)fx,y (t) + αfx,y (s),
donc fx,y est bien convexe.
⇐= Soit (x, y) ∈ ω et t ∈ [0, 1]. Alors :
f ((1 − t)x + ty) = fx,y (t) = fx,y ((1 − t) × 0 + t × 1) ≤ (1 − t)fx,y (0) + tfx,y (1) = (1 − t)f (x) + tf (y),
donc f est bien convexe. 2.2
Caractérisation des fonctions convexes différentiables
Définition
— Soit f : Ω → R une fonction de classe C 2 sur Ω. La hessienne de f en a ∈ Ω est la matrice
2.3
2
∂ f
Hf (a) =
(a)
∈ Mn (R). D’après le théorème de Schwarz, cette matrice est symétrique.
∂xi ∂xj
1≤i,j≤n
Proposition 2.2 — Soit f : Ω → R une fonction de classe C 2 sur Ω. Alors f est convexe sur Ω si et seulement si
pour tout a ∈ Ω la hessienne Hf (a) est une matrice positive (au sens de la définition 3.2).
Démonstration — Pour tout (x, y) ∈ Ω2 , l’application fx,y est de classe C 2 sur [0, 1] et on a pour tout t ∈ [0, 1] :
0
fx,y
(t)
00
fx,y
(t)
00
fx,y
(t)
n
X
∂f
=
((1 − t)x + ty)(yj − xj )
∂x
j
j=1
−−→
= grad(f )((1 − t)x + ty) · (y − x),


n
n
2
X
X
∂ f

=
((1 − t)x + ty)(yj − xj ) (yi − xi )
∂x
i ∂xj
i=1
j=1
=
t
(y − x) Hf ((1 − t)x + ty) (y − x).
=⇒ Supposons d’abord que f est convexe sur Ω. Soit a ∈ Ω et u ∈ Rn . Si ε > 0 est tel que a + εu ∈ Ω, alors
d’après la proposition 2.1 l’application fa,a+εu est convexe. Par conséquent d’après le corollaire 2.1 :
00
0 ≤ fa,a+εu
(0) = t (a + εu − a) Hf (a) (a + εu − a) = ε2 t u Hf (a) u
et ainsi la matrice Hf (a) est positive pour tout a ∈ Ω.
⇐= Supposons que pour tout a ∈ Ω, Hf (a) est positive. Soit (x, y) ∈ Ω et t ∈ [0, 1]. Alors
00
fx,y
(t) = t (y − x) Hf ((1 − t)x + ty) (y − x) ≥ 0
00
donc fx,y
est convexe sur [0, 1] et ainsi d’après la proposition 2.1 l’application f est convexe sur Ω. Exemple 2.3 – Soit f : R3 → R définie pour tout (x, y, z) ∈ R3 par f (x, y, z) = x2 + 9y 2 − 6xy + z 2 . Alors la
hessienne de f en a ∈ R3 est :

2


Hf (a) =  −6

0
−6 0
18
0



0 ,

2
et ses mineurs principaux sont :
|2| = 2,
donc f est convexe sur R3 .
2 −6 = 0,
−6 18 2 −6 0 −6 18 0 = 0,
0
0 2 
Téléchargement