EFREI 2007-2008 Chapitre 05 : Convexité. 1 Convexité des fonctions d’une variable réelle Soit I un intervalle de R. 1.1 Définition et interprétation géométrique Définition 1.1 — Soit f : I → R. 1. On dit que f est convexe lorsque : ∀(x1 , x2 ) ∈ I 2 , ∀α ∈ [0, 1], f (αx1 + (1 − α)x2 ) ≤ αf (x1 ) + (1 − α)f (x2 ). 2. Lorsque −f est convexe, on dit que f est concave. – Remarque – Ceci signifie que tous les points de l’arc « M1 M2 » sont situés sous la corde [M1 M2 ] : Exemple 1.1 – Les fonctions affines, la fonction carré x 7→ x2 , la fonction x 7→ |x|. 1.2 Inégalités de convexité Proposition 1.1 — (Inégalité de Jensen) Soit n ≥ 2 et f : I → R une fonction convexe. Alors : ! n n n X X X n n ∀(λ1 , . . . , λn ) ∈ R+ , λi = 1, ∀(x1 , . . . , xn ) ∈ I , f λ i xi ≤ λi f (xi ). i=1 i=1 i=1 Démonstration — Récurrence sur n. 1. Pour n = 2, c’est la définition de la convexité. 2. Supposons le résultat vrai au rang n et vérifions-le au rang n + 1. Soit donc (λ1 , . . . , λn+1 ) ∈ Rn+1 tels que + Pn+1 λi = 1 et (x1 , . . . , xn+1 ) ∈ I n+1 . Si λn+1 = 1, alors tous les autres λi sont nuls donc l’inégalité est une trivialité, c’est même une égalité. i=1 Sinon, remarquons que f n+1 X λ i xi i=1 Pn ! =f n X λi xi + λn+1 xn+1 ! . i=1 Pn λi . Ainsi pour tout i µi ≥ 0 et i=1 µi = 1 ; y est alors un barycentre 1 − λn+1 à coefficients positifs des xi donc y ∈ I. On a ! n+1 X f λi xi = f ((1 − λn+1 )y + λn+1 xn+1 ) Posons y = i=1 µi xi et pour tout i µi = i=1 d’où, par convexité de f : f n+1 X i=1 λ i xi ! ≤ (1 − λn+1 )f (y) + λn+1 f (xn+1 ), c’est-à-dire f n+1 X λ i xi ! ≤ (1 − λn+1 )f n X i=1 µ i xi ! + λn+1 f (xn+1 ). i=1 D’après l’hypothèse de récurrence : ! n+1 n n+1 X X X λi xi ≤ (1 − λn+1 ) µi f (xi ) + λn+1 f (xn+1 ) = λi f (xi ), f i=1 i=1 i=1 ce qui achève la récurrence. 1.3 Caractérisation géométrique Soit f : I → R. Proposition 1.2 — f est convexe si et seulement si son épigraphe E = {(x, y) ∈ I × R ; y ≥ f (x)} est un ensemble convexe du plan : ∀(M, N ) ∈ E, [M, N ] ⊂ E. Démonstration — =⇒ Supposons f convexe et soit E son épigraphe. Soit M (x1 , y1 ) ∈ E, N (x2 , y2 ) ∈ E et A(x, y) ∈ [M, N ]. Alors il existe α ∈ [0, 1] tel que x = αx1 + (1 − α)x2 et y = αy1 + (1 − α)y2 . Par convexité de f : f (x) = f (αx1 + (1 − α)x2 ) ≤ αf (x1 ) + (1 − α)f (x2 ). Or (M, N ) ∈ E 2 donc αf (x1 ) + (1 − α)f (x2 ) ≤ αy1 + (1 − α)y2 . D’où f (x) ≤ y, c’est-à-dire A ∈ E. ⇐= Supposons que E est convexe. Soit (x1 , x2 ) ∈ I 2 et M , N les deux points du graphe de f d’abscisses respectives x1 et x2 . D’après l’hypothèse, [M N ] ∈ E. Soit alors α ∈ [0, 1] et x = αx1 + (1 − α)x2 . Posons y = αf (x1 ) + (1 − α)f (x2 ). On a B(x, y) ∈ [M N ], donc B ∈ E, d’où f (x) ≤ y, et ainsi f (αx1 + (1 − α)x2 ) ≤ αf (x1 ) + (1 − α)f (x2 ) : c’est la définition de la convexité. Proposition 1.3 — f est convexe (respectivement concave) sur I si et seulement si : ∀(x, y, z) ∈ I 3 , x < y < z =⇒ f (x) − f (z) f (y) − f (z) f (x) − f (y) ≤ ≤ x−y x−z y−z (respectivement ≥). Démonstration — =⇒ Soit (x, y, z) ∈ I 3 tel que x < y < z. Il existe α ∈ [0, 1] tel que y = αx + (1 − α)z. Donc y − x = (α − 1)(x − z) et y − z = α(x − z). Or f est convexe d’où f (y) ≤ αf (x) + (1 − α)f (z). Ainsi f (x) − f (y) (α − 1)(f (x) − f (z)) ≤ x−y (α − 1)(x − z) et f (z) − f (y) −α(f (x) − f (z)) ≤ , z−y −α(z − y) d’où la double inégalité recherchée. f (y) − f (z) f (x) − f (y) < (on n’a pas besoin de plus). Soit (x1 , x2 ) ∈ x−y y−z 2 I , α ∈]0, 1[ et x = αx1 + (1 − α)x2 ∈ I. Alors x1 < x < x2 donc ⇐= Supposons que pour tous (x, y, z) ∈ I 3 , f (x1 ) − f (x) f (x) − f (x2 ) ≤ . x1 − x x − x2 Or x1 − x = (1 − α)(x1 − x2 ) et x − x2 = α(x1 − x2 ), d’où f (x1 ) − f (x) f (x) − f (x2 ) ≤ , (1 − α)(x1 − x2 ) α(x1 − x2 ) soit α(f (x1 ) − f (x)) ≥ (1 − α)(f (x) − f (x2 )), et ainsi f (x) ≤ αf (x1 ) + (1 − α)f (x2 ). Par conséquent f est bien convexe. Exemple 1.2 – f est convexe et concave sur I si et seulement si la fonction (x, y) 7→ I × I, c’est-à-dire si et seulement si f est une fonction affine. f (x) − f (y) est constante sur x−y 1.4 Caractérisation des fonctions convexes dérivables Proposition 1.4 — Soit f : I → R dérivable. f est convexe (resp. concave) sur I si et seulement si f 0 est croissante (resp. décroissante). Démonstration — =⇒ Supposons f convexe et soit (x1 , x2 ) ∈ I 2 tel que x1 ≤ x2 . Alors pour tous (x01 , x02 ) ∈ i2 tel que x01 ≤ x1 et x2 ≤ x02 , on a f (x1 ) − f (x01 ) f (x2 ) − f (x02 ) ≤ x1 − x01 x2 − x02 par transitivité de la relation ≤. On passe alors à la limite successivement lorsque x01 tend vers x1 puis x02 vers x2 , obtenant ainsi que f 0 (x1 ) ≤ f 0 (x2 ). Par conséquent f 0 est croissante et f est convexe. ⇐= Soit (x, y, z) ∈ I 3 tel que x < y < z. D’après le théorème des accroissements finis, il existe c1 ∈]x, y[ et c2 ∈]y, z[ f (y) − f (z) f (y) − f (z) f (x) − f (y) f (x) − f (y) = f 0 (c1 ) et = f 0 (c2 ). Grâce à la croissance de f 0 , ≤ , ce qui tels que x−y y−z x−y y−z nous donne la convexité de f d’après la démonstration de la proposition 3.2. Exemple 1.3 – ln est concave sur R∗+ et exp est convexe sur R. Corollaire 1.1 — Soit f : I → R deux fois dérivable. 1. f est convexe sur I si et seulement si f 00 ≥ 0 sur I. 2. f est concave sur I si et seulement si f 00 ≤ 0 sur I. 1.5 Position de la courbe par rapport à la tangente Proposition 1.5 — Soit f : I → R dérivable. f est convexe sur I si et seulement si son graphe est situé au-dessus de chacune de ses tangentes, c’est-à-dire : ∀(x, a) ∈ I 2 , f (x) ≥ f (a) + (x − a)f 0 (a). Démonstration — =⇒ D’après le théorème des accroissements finis, il existe c compris entre a et x tel que f (x) = f (a) + (x − a)f 0 (c). D’après la convexité de f , la dérivée f 0 est croissante donc : • si a ≤ c ≤ x alors f 0 (c) ≥ f 0 (a) ; or x − a ≥ 0, d’où f (x) ≥ f (a) + (x − a)f 0 (a) ; • si x ≤ c ≤ a alors f 0 (c) ≤ f 0 (a) ; or x − a ≤ 0, d’où f (x) ≥ f (a) + (x − a)f 0 (a). ⇐= Pour tous (a, b) ∈ I 2 , on a f (b) ≥ f (a) + (b − a)f 0 (a) et f (a) ≥ f (b) + (a − b)f 0 (b). En sommant ces deux inégalités on obtient 0 ≥ (b − a)(f 0 (a) − f 0 (b)), donc f 0 est croissante, d’où f est convexe. Exemple 1.4 – ∀x ∈ R, ex ≥ 1 + x 2 et ∀x > −1, ln(1 + x) ≤ x. Convexité des fonctions de plusieurs variables réelles 2.1 Définition Définition 2.1 — Une partie Ω de Rn est convexe si ∀(M, N ) ∈ Ω2 , [M N ] ⊂ Ω. Exemple 2.1 – Sont convexes dans Rn : les boules, les sous-espaces vectoriels. Dans toute la suite de la section, Ω désignera une partie ouverte et convexe de Rn . Définition 2.2 — Soit f : Ω → R. 1. On dit que f est convexe lorsque : ∀(x, y) ∈ Ω2 , ∀t ∈ [0, 1], f (αx + (1 − α)y) ≤ αf (x) + (1 − α)f (y). 2. Lorsque −f est convexe, on dit que f est concave. Pn Exemple 2.2 – 1. Les formes linéaires f : Rn → R, x 7→ i=1 ai xi , sont convexes. Pn 2. Soit p > 2 et f : Rn → R définie pour tout x = (x1 , . . . , xn ) ∈ Rn par f (x) = i=1 |xi |p . Alors f est convexe. Proposition 2.1 — Soit f : Ω → R. f est convexe sur Ω si et seulement si pour tous (x, y) ∈ Ω2 la fonction fx,y : [0, 1] → R définie par fx,y (t) = f ((1 − t)x + ty) est convexe. Démonstration — =⇒ Soit (x, y) ∈ Ω2 , (s, t) ∈ [0, 1]2 et α ∈ [0, 1]. Alors : fx,y (1 − α)t + αs = f x + ((1 − α)t + αs)(y − x) = f (1 − α)(x + t(y − x)) + α(x + s(y − x)) ≤ (1 − α)f (x + t(y − x)) + αf (x + s(y − x)) = (1 − α)fx,y (t) + αfx,y (s), donc fx,y est bien convexe. ⇐= Soit (x, y) ∈ ω et t ∈ [0, 1]. Alors : f ((1 − t)x + ty) = fx,y (t) = fx,y ((1 − t) × 0 + t × 1) ≤ (1 − t)fx,y (0) + tfx,y (1) = (1 − t)f (x) + tf (y), donc f est bien convexe. 2.2 Caractérisation des fonctions convexes différentiables Définition — Soit f : Ω → R une fonction de classe C 2 sur Ω. La hessienne de f en a ∈ Ω est la matrice 2.3 2 ∂ f Hf (a) = (a) ∈ Mn (R). D’après le théorème de Schwarz, cette matrice est symétrique. ∂xi ∂xj 1≤i,j≤n Proposition 2.2 — Soit f : Ω → R une fonction de classe C 2 sur Ω. Alors f est convexe sur Ω si et seulement si pour tout a ∈ Ω la hessienne Hf (a) est une matrice positive (au sens de la définition 3.2). Démonstration — Pour tout (x, y) ∈ Ω2 , l’application fx,y est de classe C 2 sur [0, 1] et on a pour tout t ∈ [0, 1] : 0 fx,y (t) 00 fx,y (t) 00 fx,y (t) n X ∂f = ((1 − t)x + ty)(yj − xj ) ∂x j j=1 −−→ = grad(f )((1 − t)x + ty) · (y − x), n n 2 X X ∂ f = ((1 − t)x + ty)(yj − xj ) (yi − xi ) ∂x i ∂xj i=1 j=1 = t (y − x) Hf ((1 − t)x + ty) (y − x). =⇒ Supposons d’abord que f est convexe sur Ω. Soit a ∈ Ω et u ∈ Rn . Si ε > 0 est tel que a + εu ∈ Ω, alors d’après la proposition 2.1 l’application fa,a+εu est convexe. Par conséquent d’après le corollaire 2.1 : 00 0 ≤ fa,a+εu (0) = t (a + εu − a) Hf (a) (a + εu − a) = ε2 t u Hf (a) u et ainsi la matrice Hf (a) est positive pour tout a ∈ Ω. ⇐= Supposons que pour tout a ∈ Ω, Hf (a) est positive. Soit (x, y) ∈ Ω et t ∈ [0, 1]. Alors 00 fx,y (t) = t (y − x) Hf ((1 − t)x + ty) (y − x) ≥ 0 00 donc fx,y est convexe sur [0, 1] et ainsi d’après la proposition 2.1 l’application f est convexe sur Ω. Exemple 2.3 – Soit f : R3 → R définie pour tout (x, y, z) ∈ R3 par f (x, y, z) = x2 + 9y 2 − 6xy + z 2 . Alors la hessienne de f en a ∈ R3 est : 2 Hf (a) = −6 0 −6 0 18 0 0 , 2 et ses mineurs principaux sont : |2| = 2, donc f est convexe sur R3 . 2 −6 = 0, −6 18 2 −6 0 −6 18 0 = 0, 0 0 2