Fonctions convexes Prologue Ce chapître développe les propriétés des fonctions convexes f ∶ C ⊂ E ↦ R définies sur une partie convexe C d’un espace de dimension finie E . Si, fondamentalement, la convexité est une propriété unidimensionnelle - une fonction f ∶ C ⊂ E ↦ R est convexe si et seulement si, pour toute droite affine (D) de E , sa restriction à (D) ∩ C est convexe - l’exigence que cette propriété soit vérifiée dans toutes les directions, c’est-à-dire pour toute droite affine (D) , contraint la fonction f à une certaine régularité globale. On prouve par exemple que toute fonction convexe f ∶ C ⊂ E ↦ R est localement Lipschitzienne sur l’intérieur de son domaine C (Corollaire 9.4.1), et qu’elle est Fréchet-dérivable en tout point a de l’intérieur de C en lequel elle admet des directionnelles dans les directions des n vecteurs d’une quelconque base B = {e (1), . . . , e (n )} de E . En particulier, f ∶ C ⊂ Rn ↦ R est Fréchet-dérivable en un point a de l’intérieur de C , dès qu’elle admet des dérivées partielles en a (Corollaire 9.4.2). On caractérise les fonctions convexes f ∶ C ⊂ E ↦ R deux-fois Fréchet-dérivables sur un ouvert convexe C comme les fonctions dont la dérivée seconde, en tout point de C , est une forme bilinéaire SDP , et on énonce alors une condition nécessaire et suffisante pour qu’une telle fonction f soit strictement convexe (Corollaire 9.5.1). La convexité joue un rôle central en optimisation pour au moins deux raisons fondamentales. La première est que l’on sait écrire, pour tout problème d’optimisation convexe, c’est-à-dire tout problème consistant à minimiser une fonction convexe sur un ensemble convexe, des conditions nécessaires et suffisantes d’optimalité (Théorème 9.3.2). La seconde, plus pragmatique, est que, s’il existe des algorithmes bien adaptés à la résolution numérique des problèmes convexes, les problèmes non convexes s’avèrent extrèmement difficiles à résoudre numériquement, et nécessitent le recours à des heuristiques (1)ou à des méthodes stochastiques (2). 1. Heuristique : du grec : ²υρισκω : « je trouve » : méthode de calcul fournissant en temps polynômial une solution réalisable non nécessairement optimale d’un problème d’optimisation. 2. Stochastique : Se dit des phénomènes relevant du hasard, et faisant l’objet d’une analyse statistique : http : // larousse.fr/dictionnaires/français/stochastique/74742 . 224 CHAPITRE 9. FONCTIONS CONVEXES t Avertissement : Dans toute cette partie, E désigne toujours un espace de dimension finie, D une partie quelconque de E , et C une partie convexe de E , contenue dans D . On rappelle qu’une partie C de E est « convexe » si et seulement si : a, c ∈ C , , 0 ≤ t ≤ 1 ⇒ t b + (1 − t ) a ∈ C 9.1 Fonctions convexes et fonctions affines Fonctions convexes Définition 9.1.1 f ∶ C ⊂ E ↦ R est dite « convexe » (resp. « concave ») si, pour tout couple de points distincts a et b de C , et tout réel t strictement compris entre zéro et un : f ( t b + ( 1 − t ) a ) ≤ t f (b ) + ( 1 − t ) f ( a ) (resp. ≥) (9.1) et « strictement convexe » (resp. « strictement concave ») si : f ( t b + ( 1 − t ) a ) < t f (b ) + ( 1 − t ) f ( a ) (resp. >) (9.2) f ∶ D ⊂ E ↦ R est dite « convexe (resp. concave, strictement convexe, strictement concave) sur C », si C est une partie convexe contenue dans D, et si la restriction de f à C est convexe (resp. concave, strictement convexe, strictement concave) t f est donc concave (resp. strictement concave) si et seulement si (-f ) est convexe (resp. strictement convexe). Proposition 9.1.1 Si f ∶ C ⊂ E ↦ R est convexe, stous es ensembles de niveau : S c ( f ) = {x ∈ C ∣ f (x ) ≤ c } (c ∈ R) (9.3) sont convexes (éventuellement vides). Preuve : C’est une conséquence directe de (9.1). Fonctions affines Définition 9.1.2 Une fonction f ∶ C ⊂ E ↦ F est dite « affine » si, pour tout couple de points distincts a et b de C , et tout réel t strictement compris entre zéro et un : f ( t b + ( 1 − t ) a ) = t f ( b ) + (1 − t ) f ( a ) (9.4) Une fonction f ∶ D ⊂ E ↦ F est dite « affine sur C » si C est une partie convexe contenue dans D, et si la restriction de f à C est affine. t Une fonction affine à valeurs réelles est une fonction à la fois convexe et concave. 9.1. FONCTIONS CONVEXES ET FONCTIONS AFFINES 225 Proposition 9.1.2 (Admise) Une fonction f ∶ C ⊂ E ↦ F est affine si et seulement si on peut trouver une application linéaire L ∶ E ↦ F et un élément y dans F tels que, pour tout x dans C : g (x ) = L (x )+ y. Lorsque C est d’intérieur non vide dans E , L et y sont définis de manière unique. t Toute fonction affine définie sur une partie convexe C de Rn , à valeurs dans Rm , est de la forme : f ∶ C ⊂ R n ↦ Rm ∶ x ↦ A ⋆ x + b où A est une m × n matrice réelle, et b un vecteur de Rm donnés. Lorsque C est d’intérieur non vide, A et b sont définis de manière unique. Inégalité de Jensen Théorème 9.1.1 (Inégalité de Jensen (3)) Si f ∶ C ⊂ E ↦ R est convexe : n n k =1 k =1) f ( ∑ α(k ) a (k )) ≤ ∑ α(k ) f ( a (k )) (9.5) pour toute suite finie de points a (k ) ( 1 ≤ k ≤ n ) de C , et toute combinaison n convexe : ∑ α(k ) a (k ) des a (k ) . k =1 Preuve : Pour tout entier n , et toute suite a (k ) ( 1 ≤ k ≤ n ) de points de C , posons : n Σ(n ) = {α = (α(1), . . . , α(n )) ∣ α(i ) = 0 ( i ≤ 1 ≤ n ), ∑ α(k ) = 1} k =1 et : n n k =1 k =1 C ( a (1), . . . , a (n )) = {α ∈ Σ(n ) ∣ f ( ∑ α(k ) a (k )) ≤ ∑ α(k ) f ( a (k ))} Il s’agit de prouver que, pour tout entier n , et toute suite a (k ) ( 1 ≤ k ≤ n ) de points de C : C ( a (1), . . . , a (n )) = Σ(n ) . Mais C ( a (1), . . . , a (n )) est convexe, 3. - Johan Ludwig Jensen, 1859-1925, Mathématicien amateur Danois, essentiellement autodidacte, employé par la succursale Danoise de l’International Bell Telephone Company. L’inégalité de Jensen apparait pour la première fois en 1906 dans un article publié par Jensen dans la revue Acta Mathematica. Pour découvrir sa biographie : http://www-groups.dcs.standrews.ac.uk/history/Biographies/Jensen.html. 226 CHAPITRE 9. FONCTIONS CONVEXES puisque : α, β ∈ Σ(n ), α ≠ β , et : 0 < t < 1 impliquent : n n n f ( ∑ ( t α(k ) + (1 − t ) β(k )) a (k )) = f ( t ∑ α(k ) a (k ) + (1 − t ) ∑ β(k ) a (k )) k =1 k =1 k =1 n n . . . ≤ t f ( ∑ α(k ) a (k )) + (1 − t ) f ( ∑ β(k ) a (k )) k =1 k =1 n n k =1 k =1) . . . ≤ t ∑ α(k ) f ( a (k )) + (1 − t ) ∑ α(k ) f ( a (k )) n . . . = ∑ ( t α(k ) + (1 − t ) β(k )) f ( a (k )) k =1 et contient tous les sommets de Σ(n ) , donc : C ( a (1), . . . , a (n )) = Σ(n ) . Opérations sur les fonctions convexes Proposition 9.1.3 Si f ∶ C ⊂ E ↦ R et g ∶ C ⊂ E ↦ R sont convexes (resp. concaves) : f + g ∶ C ⊂ E ↦ R ∶ x ↦ f (x ) + g (x ) l’est aussi. Si en outre f ou g est strictement convexe (resp. strictement concave), f + g l’est également. Proposition 9.1.4 (Composition à gauche) Si : f ∶ C ⊂ E ↦ R est convexe (resp. concave), f (C ) est contenu dans un intervalle I de R, et ϕ ∶ I ⊂ R ↦ R est convexe (resp. concave) croissante : ϕ○ f ∶C ⊂ E ↦ R est convexe. Si en outre f est strictement convexe (resp. strictement concave) et ϕ strictement croissante , g ○ f est strictement convexe (resp. strictement concave). Exemple 9.1.1 Pour toute n × n matrice réelle symétrique Q, et tout vecteur r de Rn , O = {x ∈ Rn ∣ x ′ ⋆ Q ⋆ x − r ′ ⋆ x < 0} est un ouvert convexe de Rn , et : f ∶ O ⊂ Rn ↦ R ∶ x ↦ ln (r ′ ⋆ x − x ′ ⋆ Q ⋆ x ) est concave (resp. strictement concave) dès que Q est SDP (resp. DP) (Exercice 9.5). B Le produit de deux fonctions convexes sur C n’est pas en général une fonction convexe sur C . 9.2. EXISTENCE DE DEMI-DÉRIVÉES DIRECTIONNELLES 227 Exemple 9.1.2 f ∶ R2 ↦ R ∶ (x 1 x 2 ) ↦ x 1 x 2 est le produit de deux fonctions linéaires mais n’est convexe sur aucun ouvert convexe de R2 . Proposition 9.1.5 (Composition à droite) Si g ∶ C ⊂ E ↦ F est affine, et f ∶ g (C ) ⊂ F ↦ R est convexe, f ○ g ∶ C ⊂ E ↦ R est convexe (resp. concave). Si en outre g est injective et f strictement convexe, (resp. strictement concave) f ○ g est strictement convexe (resp. strictement concave). Exemple 9.1.3 Pour toute suite finie de N vecteurs : p (k ) (1 ≤ k ≤ N ) de R n , et toute suite de N réels q (k )i (1 ≤ k ≤ N ), la fonction : N f ∶ C ⊂ Rn ↦ R ∶ x ↦ ∑ ln(q (k ) − p (k )′ ⋆ x ) k =1 où : C = {x ∈ Rn ∣ p (k )′ ⋆ x < q (k ) (1 ≤ k ≤ N )} , est concave. Elle est strictement concave sur C lorsque le rang du système des N vecteurs p (k ) est : n ≤ N . 9.2 Existence de demi-dérivées directionnelles Théorème 9.2.1 Soit f ∶ C ⊂ E ↦ R une fonction convexe, et a un point de l’intérieur de C . 1. f admet une « demi-dérivée directionnelle » : D f (a, υ) = lim t −1 ([ f (a + t υ) − f (a )] t →0 + (9.6) au point a dans la direction de tout vecteur υ de E . 2. D f (a ) ∶ E ↦ R ∶ υ ↦ D f (a, υ) est une fonction convexe, homogène de degré un. 3. Pour tout point x dans C : f (a ) + D f (a, x − a ) ≤ f (x ) (9.7) et l’inégalité est stricte dès que f est strictement convexe et x distinct de a . Preuve : - 1. Soient υ un vecteur quelconque de E et t un réel strictement positif assez petit pour que : 0 < s < t ⇒ a + s υ ∈ C (un tel t existe toujours puisque a est supposé appartenir à l’intérieur de C ). Pour tout couple de réels s et r de l’intervalle ouvert ] 0, t [ , tels que : s < r , il existe un réel θ , strictement compris entre zéro et un, tel que : s = θ r , d’où : f (a + s υ) = f (a + θ r υ) = f ((1 − θ ) a + θ (a + r υ)) ≤ (1 − θ ) f (a )+ θ f (a + r υ) 228 CHAPITRE 9. FONCTIONS CONVEXES impliquant : s −1 [ f (a + s υ) − f (a )] . . . ≤ θ s −1 [ f (a + r υ) − f (a )] = r −1 [ f (a + r υ) − f (a )] (9.8) Ainsi la fonction : ϕ ∶] 0, t [⊂ R ↦ R ∶ s ↦ s −1 [ f (a + s υ) − f (a )] décroît, donc a une limite - finie ou non - lorsque : s → 0+ . De plus, pour tout réel s strictement compris entre zéro et t , la convexité de f entraîne : f (a ) ≤ 1 2 f ( a + t υ) + 1 2 f ( a − t υ) , donc : 0 < s ≤ r < t ⇒ 0 ≤ s −1 [ f (a + s υ) − f (a )] + s −1 [ f (a − s υ) − f (a )] . . . ≤ s −1 [ f (a + s υ) − f (a )] + r −1 [ f (a − r υ) − f (a )] (9.9) d’où, en passant à la limite lorsque : s → 0+ : lim s −1 [ f (a + s d ) − f (a )] ≥ r −1 [ f (a ) − f (a − r υ)] > − ∞ s →0 + qui prouve que la limite est finie, donc l’existence de la demi-dérivée directionnelle D f (a, υ) . - 2 Pour tous vecteurs υ1 et υ2 dans E , on peut encore choisir t strictement positif tel que : 0 < s < t ⇒ a + s υi ∈ C ( i = 1, 2 ). Pour tout réel s strictement compris entre zéro et t , et tout réel θ strictement compris entre zéro et un : f [ a + s (θ υ2 + (1 − θ ) υ1 )] − f (a ) = f [(a + θ s υ2 ) + (1 − θ )(a + s υ1 )] − f (a ) ≤ θ [ f (a + s υ2 ) − f (a )] + (1 − θ ) [ f (a + s υ1 ) − f (a )] (9.10) qui, en passant à la limite lorsque : s → 0+ , donne : D f ( a, θ υ2 + (1 − θ ) υ1 ) ≤ θ D f (a, υ2 ) + (1 − θ ) D f (a, υ1 ) . Le résultat valant pour tout couple de vecteurs υ1 et υ2 de E , et tout réel θ strictement compris entre zéro et un, D f (a ) ∶ E ↦ R ∶ υ ↦ D f (a, υ) est convexe. - 3 Finalement, pour tout point x dans C , la décroissance de : ϕ ∶ [ 0, 1 ] ⊂ R ↦ R ∶ t ↦ t −1 [ f ( a + t (x − a )) − f (a )] implique : 0 < s < 1 ⇒ s −1 [ f ( a + s (x − a )) − f (a )] = ϕ(s ) ≤ ϕ(1) = f (x ) − f (a ) 9.3. PROBLÈMES D’OPTIMISATION CONVEXES 229 d’où, en passant à la limite lorsque : s → 0+ : D f (a, x − −a ) ≤ f (x ) − f (a ) , et, si f est strictement convexe, et x distinct de a : D f (a )(b − a ) = 2 D f (a )( a +b 2 − a) ≤ 2 [ f ( 1 1 2 2 . . . < 2 [ f (b ) + a +b 2 ) − f (a )] f (a ) − f (a )] = f (b ) − f (a ) (9.11) Corollaire 9.2.1 Si f ∶ D ⊂ E ↦ R est convexe sur une partie convexe C contenue dans D , et Gateaux-dérivable en un point a de l’intérieur de C , le graphe : G = {(x, ξ) ∈ C × R ∣ f (x ) = ξ} de f « au dessus » de C est tout entier contenu dans le demi-espace : (H)+ = {(x, ξ) ∈ E × R ∣ ξ ≥ f (a ) + f ′ (a )(x − a )} (9.12) délimité par l’hyperplan affine : (H) = {(x, ξ) ∈ E × R ∣ ξ = f (a ) + f ′ (a )(x − a )} (9.13) t Lorsque : E = Rn , (H) est l’hyperplan affine passant par ( a, f (a )) , orthogonal au gradient de f au point a . 9.3 Problèmes d’optimisation convexes Définition 9.3.1 Le problème d’optimisation : (P) Min f (x ) (9.14) s.c. x ∈ C est dit « convexe » lorsque : 1. « L’ensemble admissible » C de (P) est une partie convexe de E . 2. Le « critère » f ∶ C ⊂ E ↦ est convexe. Exemple 9.3.1 Le problème consistant à déterminer la projection Euclidienne d’un point a d’un espace Euclidien (E , <, >) sur une partie convexe fermée de E est un problème convexe. 230 CHAPITRE 9. FONCTIONS CONVEXES Solutions d’un problème convexe Théorème 9.3.1 L’ensemble des solutions de tout problème convexe : (P) f (x ) Min s.c. x ∈ C est une partie convexe (éventuellement vide !) de l’ensemble admissible C . Si en outre le critère f ∶ C ⊂ E ↦ R du problème (P) est strictement convexe, l’ensemble des solutions de (P) est vide ou réduit à un point. Preuve : Pour tout couple de solutions distinctes a et b , et tout t strictement compris entre zéro et un, t b + (1 − t ) a est admissible, et : f ( t b + (1 − t ) a ) ≤ t f ( b ) + (1 − t ) f ( a ) = . . . . . . = t inf P + (1 − t ) inf P = inf(P) (9.15) donc t b + (1 − t ) a est encore solution, et si f est strictement convexe, il ne peut y avoir deux solutions a et b distinctes car l’inégalité dans (9.15) devrait alors être stricte. Exemple 9.3.2 (Maximum d’entropie (4)) Le problème : n (P) Min s.c. ∑ni=1 p i = 1 p i ≥ 0 (1 ≤ i ≤ n ) ∑ p i ln p i i =1 est un problème convexe, qui admet au moins une solution (5). Le critère étant strictement convexe, la solution est unique, et puisque le problème est invariant par toute permutation des p i , l’unique solution est : p i = 1/n ( 1 ≤ i ≤ n). Suffisance des conditions nécessaires d’optimalité Rappelons que, si C est une partie convexe quelconque d’un espace de dimension finie E , tout minimiseur a d’une quelconque fonction f ∶ C ⊂ E ↦ R doit vérifier la condition nécessaire d’optimalité : ∀x ∈ C D + f (a, x − a ) ≥ 0 (9.16) (Théorème 6.5.1). Lorsque f est convexe, la dérivée de Dini D + f (a, x − a ) est en fait une demi-dérivée directionnelle D f (a, x − a ) (Théorème 9.2.1). Réciproquement : 4. L’entropie d’une distribution de probabilité discrète p 1 , . . . , p n est : E = ∑n i =1 −p i ln p i . Voir : http ://fr.wikipedia.org/wiki/Entropie_de_Shannon 5. On minimise une fonction continue sur un compact. 9.4. RÉGULARITÉ DES FONCTIONS CONVEXES 231 Théorème 9.3.2 Lorsque f ∶ C ⊂ E ↦ R est convexe, tout point a de C vérifiant la condition nécessaire d’optimalité : ∀x ∈ C D f (a, x − a ) ≥ 0 (9.17) est un minimiseur de f sur C . Si en outre f est strictement convexe, c’est l’unique minimiseur de f sur C . Preuve : C’est une conséquence directe du théorème 9.2.1 puisque : x ∈ C ⇒ D f (a, x − a ) ≤ f (x ) − f (a ) l’inégalité étant stricte si f est strictement convexe et x distinct de a . Corollaire 9.3.1 Si f ∶ D ⊂ Rn ↦ R est convexe sur une partie convexe C de E , contenue dans D : 1. Tout point critique de f appartenant à l’intérieur de C minimise f sur C . 2. Si f est strictement convexe sur C , elle a au plus un point critique dans l’intérieur de C . 9.4 Régularité des fonctions convexes Un lemme préliminaire Soient f ∶ C ⊂ E ↦ R une fonction convexe, et a un point de l’intérieur de C . La clé des propriétés de régularité de f est le : Lemme 9.4.1 Soit B = {e (1), . . . , e (n )} une base quelconque de E . Pour tout réel : ² > 0 donné, il existe un voisinage de a dans E , contenu dans C , en tout point x duquel : n − ∑(x i − ai ) θi D f ( a, −θi e (i )) ≤ f (x ) − f (a ) ≤ . . . i =1 n n i =1 i =1 . . . ≤ ∑(x i − a i ) θi D f ( a, θi e (i )) + ² ∑ ∣ x i − a i ∣ (9.18) où : θi (x i − a i ) = ∣ x i − a i ∣ ( 1 ≤ i ≤ n ) Preuve : Par définition des demi-dérivées directionnelles, on peut choisir : r > 0 assez petit pour que : 0 < s < r implique : a + s θi e (i ) ∈ C , et : s −1 [ f ( a + s θi e (i )) − f (a )] ≤ D f ( a, θi e (i )) + ² (1 ≤ i ≤ n ) (9.19) 232 CHAPITRE 9. FONCTIONS CONVEXES Pour tout x dans le voisinage V = {x ∈ E ∣ ∑ni=1 ∣ x i − a i ∣ < r } de a , on pose alors : n s = ∑ ∣ x i − a i ∣ < r, et : α(i ) = s −1 ∣ x i − a i ∣ (1 ≤ i ≤ n ) i =1 de sorte que : α(i ) ≥ 0 ( 1 ≤ i ≤ n ), et : ∑ni=1 α(i ) = 1 . - On commence par majorer, en invoquant l’inégalité de Jensen : n n i =1 i =1 f (x ) = f ( a + ∑ α(i ) θi s e (i )) ≤ ∑ α(i ) f ( a + s θi e (i )) , d’où : n f (x ) − f (a ) ≤ s ∑ α(i ) s −1 [ f ( a + s θi e (i )) − f (a )] i =1 n . . . ≤ s ∑ α(i ) D f ( a, θi e (i )) + ² s i =1 qui, compte tenu de : s αi = ∣ x i − a i ∣ = θi (x i − a i ) se récrit : n n i =1 i =1 f (x ) − f (a ) − ∑(x i − a i ) θi D f ( a, θi e (i )) ≤ ² ∑ ∣ x i − a i ∣ - Dans un second temps, on minore en invoquant deux fois le théorème 9.2.1. Une première fois pour déduire : 0 = D f (a, 0) ≤ 1 2 D f (a, x − a ) + 1 2 D f (a, a − x ) donc : −D f (a, a − x ) ≤ D f (a, x − a ) (9.20) Une seconde fois, combinée à l’homogénéité de la fonction : D f (a ) ∶ E ↦ R ∶ υ ↦ D f (a, υ) pour écrire : n D f (a, a − x ) = D f ( a, −s ∑ α(i ) θi e (i )) i =1 n . . . ≤ s ∑ αi D f ( a, −θi e (i )) i =1 (9.21) 9.4. RÉGULARITÉ DES FONCTIONS CONVEXES 233 De (9.20), (9.21), et de la relation : s αi = ∣ x i − a i ∣ = θi (x i − a i ) ( 1 ≤ i ≤ n ) , on déduit : n − ∑(x i − ai ) θi D f (a )(− θi e (i )) ≤ − D f (a )(a − x ) i =1 . . . ≤ D f (a )(x − a ) ≤ f (x ) − f (a ) Continuité Théorème 9.4.1 Pour toute fonction convexe f ∶ C ⊂ E ↦ R , et tout point a dans l’intérieur de C , il existe un voisinage V de a dans E , contenu dans C , tel que : sup ∣ f (x )∣ < + ∞ (9.22) x ∈V Preuve : Soient B = {e (1), . . . , e (n )} une base quelconque de E , V un voisinage de a dans E , contenu dans C , en tout point x duquel (9.18) est vérifiée avec : ² = 1 , et : θi ∣ x i − a i ∣ = x i − a i ( 1 ≤ i ≤ n ) (Lemme 9.4.1), et r un réel strictement positif assez petit pour que la boule de centre a et de rayon r associée à la norme : n n i =1 i =1 N1 ∶ E ↦ [ 0, +∞[∶ x = ∑ x i e (i ) ↦ ∑ ∣ x i ∣ soit contenue dans V . De (9.18), on déduit : sup x ∈ B N1 (a, r ) ∣ f (x )∣ ≤ ∣ f (a )∣ + (K + 1) r < + ∞ où : n K = max max (D f ( a, e (i )) , D f ( a, −e (i ))) i =1 Corollaire 9.4.1 Toute fonction convexe f ∶ C ⊂ E ↦ R est localement Lipschitzienne sur l’intérieur de C . Preuve : Soient N une norme quelconque sur E , et V un voisinage de a dans E , contenu dans C tel que : sup ∣ f (x )∣ = K < +∞ x ∈V 234 CHAPITRE 9. FONCTIONS CONVEXES (Théorème 9.4.1). De la continuité de la fonction linéaire : L ∶ E × E ↦ E ∶ (x, y ) ↦ x + y il résulte l’existence d’un voisinage W de a , contenu dans V , et d’un réel strictement positif r tels que : x ∈ W, y ∈ E , N ( y ) < r ⇒ x + y ∈ V De (9.7), on déduit, pour tout point x dans W , tout vecteur υ de E de norme N (υ) = r , et tout nombre réel θ strictement compris entre zéro et un : D f (x, θ υ) ≤ f (x + θ υ) − f (x ) ≤ 2 K d’où, pour tout x dans W : sup D f (x, υ) ≤ 2 K N (υ)=r et, puisque D f (x ) ∶ E ↦ R est homogène degré un : f (x ) − f ( y ) ≤ D f (x, x − y ) ≤ 2 K r N (x − y ) pour tout couple (x, y ) de points de W . Ainsi la restriction de f à W est 2 K r Lipschitzienne. B Une fonction convexe f ∶ C ⊂ E ↦ R n’est pas nécessairement continue aux points du bord de C . Exemple 9.4.1 La fonction f ∶ [ 0, 1 ] ⊂ R ↦ R définie par : f (t ) = { 1 si : t = 1 ou : t = 0 0 sinon est convexe. Dérivabilité Théorème 9.4.2 Pour toute fonction convexe f ∶ C ⊂ E ↦ R, tout point a de l’intérieur de C , et toute base : B = {e (1), e (2), . . . , e (n )} de E , les assertions suivantes sont équivalentes : 1. D f (e (i )) = − D f (a )(− e (i )) ( 1 ≤ i ≤ n ). 2. f est Gateaux-dérivable en a . 3. f est Fréchet-dérivable a . Preuve : Il suffit de vérifier : 1 ⇒ 3 . Mais si 1 est vérifiée, (9.18) se récrit : n n i =1 i =1 0 ≤ f (x ) − f (a ) − ∑(x i − a i ) D f (a )(e (i )) ≤ ² ∑ ∣ x i − a i ∣ . 9.5. CARACTÉRISATIONS DES FONCTIONS CONVEXES DÉRIVABLES 235 et (9.4.1) garantit, pour tout réel ² strictement positif fixé, l’existence d’un réel : r strictement positif tel que : n n n i =1 i =1 i =1 ∑ ∣ x i − ai ∣ < r ⇒ ∣ f (x )− f (a )− ∑(x i − ai ) D f (a )(e (i ))∣ ≤ ² ∑ ∣ x i − ai ∣ et donc : f (x ) = f (a ) + ∑ni=1 (x i − a i ) D f (a )(e (i )) + o (x − a ). Ainsi f est dérivable en a, et sa dérivée est l’application linéaire : n n i =1 i =1 f ′ (a ) ∶ E ↦ R ∶ υ = ∑ υi e (i ) ↦ ∑ υi D f (a )(e (i )) Corollaire 9.4.2 Toute fonction convexe f ∶ C ⊂ Rn ↦ R admettant des dérivées partielles en point donné a de l’intérieur de C est Fréchet-dérivable en a . 9.5 Caractérisations des fonctions convexes dérivables Soient C un ouvert convexe de E , et f ∶ C ⊂ E ↦ R une fonction dérivable en tout point de C . Théorème 9.5.1 Les assertions suivantes sont équivalentes : 1. f est convexe (resp. strictement convexe) sur C . 2. x, y ∈ C , x ≠ y ⇒ f (x ) + f ′ (x )( y − x ) ≤ f ( y ) (resp. <) (9.23) 3. x, y ∈ C , x ≠ y ⇒ ( f ′ (x ) − f ′ ( y ))(x − y ) ≥ 0 (resp. >) (9.24) Preuve : - 1 ⇒ 2 est conséquence directe du Théorème 9.2.1. - 2 ⇒ 3 : Pour tout couple de (x, y ) de points distincts de C , (9.24) se déduit de la combinaison de (9.23) avec l’inégalité analogue obtenue en permutant les rôles de x et de y . - 3 ⇒ 2 : Pour tout couple de (x, y ) de points distincts de C , on déduit du théorème des accroissements finis : f ( y )− f (x )− f ′ (x )( y − x ) = [ f ′ (θ y +(1 − θ ) x )− f ′ (x )]( y − x ) ≥ 0 (resp. >) où θ est un réel de l’intervalle ] 0, 1 [ . - 2 ⇒ 1 : Pour tout couple de (x, y ) de points distincts de C , et tout réel t strictement compris entre zéro et un, on obtient, en invoquant deux fois (9.23) : f ( t y + (1 − t ) x ) + (1 − t ) f ′ ( t y + (1 − t ) x )( y − x ) ≤ f ( y ) (resp. <) (9.25) 236 CHAPITRE 9. FONCTIONS CONVEXES et : f ( t y + (1 − t ) x ) + t f ′ ( t y + (1 − t ) x )(x − y ) ≤ f (x ) (resp. <) (9.26) En combinant les inégalités obtenues en multipliant (9.25) et (9.26) par t et (1 − t ) respectivement, on déduit : f ( t y + (1 − t ) x ) ≤ t f ( y ) + ( 1 − t ) f ( y ) (resp. <) qui prouve que f est convexe (resp. strictement convexe sur C . Corollaire 9.5.1 Si f est deux fois dérivable en tout point de C , elle est convexe sur C si et seulement si : x, y ∈ C ⇒ f ′′ (x )( y − x, y − x ) ≥ 0 (9.27) et strictement convexe sur C si et seulement si elle y est convexe, et : x, y ∈ C , x ≠ y ⇒ sup f ′′ ( t y + (1 − t ) x )( y − x, y − x ) > 0 0<t <1 (9.28) Preuve : Soient x et y deux points distincts de C . Par hypothèse, la fonction : ϕ ∶ [ 0, 1 ] ⊂ R ↦ R ∶ t ↦ [ f ′ ( t y + (1 − t ) x ) − f ′ (x )]( y − x ) est nulle en zéro, dérivable sur ] 0, 1[, et , pour tout t dans ] 0, 1 [ : ϕ′ (t ) = f ′′ ( t y + (1 − t ) x )( y − x, y − x ) Si f est convexe sur C , le théorème 9.5.1 ( 1 ⇒ 3 ) montre que ϕ est toujours positive, et, puisque : ϕ(0) = 0 : ϕ′ (0) = f ′′ (x )( y − x, y − x ) ≥ 0 Le résultat valant pour tout couple (x, y ) de points distincsts de C , (9.27) est vérifiée. - Réciproquemment, (9.27) implique que ϕ′ est toujours positive, et, puisque : ϕ (0 ) = 0 : ϕ(1) = [ f ′ ( y ) − f ′ (x )]( y − x ) ≥ 0 Le résultat valant pour tout couple (x, y ) de points distincts de C , le théorème 9.5.1 ( 3 ⇒ 1 ) montre que f est convexe sur C . - Lorsque f est convexe sur C , elle y est strictement convexe si et seulement si, pour tout couple (x, y ) de points distincts de C , la fonction : ψ ∶ [ 0, 1 ] ⊂ R ↦ R ∶ t ↦ f ( t y + (1 − t ) x ) − t f ( y ) − (1 − t ) f (x ) (9.29) 9.5. CARACTÉRISATIONS DES FONCTIONS CONVEXES DÉRIVABLES 237 nulle aux deux extrémités de l’intervalle [ 0, 1 ] , est strictement négative sur l’intérieur ] 0, 1 [ de cet intervalle. A contrario , f sera convexe mais ne sera pas strictement convexe sur C , si et seulement si, la fonction ψ défine par (9.29) est négative ou nulle pour tout couple (x, y ) de points distincts de C , et si pour au moins un couple de points x et y distincts de C , elle s’annule en un point de l’intervalle ] 0, 1 [ . Si ψ est toujours négative et s’annule en un point de l’intervalle ] 0, 1 [ , alors ce point doit être un maximum local, donc un point critique, de ψ. Mais, si f est convexe sur C , ψ l’est aussi, comme somme : ψ = f ○ ξ + ζ de la composée f ○ ξ de la fonction affine : ξ ∶ [ 0, 1 ⊂ R ↦ E ∶ t ↦ t y + (1 − t ) x avec f , et de la fonction affine : ζ ∶ [ 0, 1 ] ⊂ E ↦ R ∶ t ↦ t [ f (x ) − f ( y )] − f (x ) (Propositions 9.1.3 et 9.1.5), et tout point critique de ψ dans l’intervalle ] 0, 1 [ minimise nécessairement ψ sur [ 0, 1 ] (Corollaire 9.3.1). La fonction ψ ne peut donc s’annuler en un point de l’intervalle ] 0, 1 [ que si elle est identiquement nulle sur l’intervalle [ 0, 1 ] . Finalement, la fonction f sera convexe mais ne sera pas strictement convexe sur C si et seulement si on peut trouver deux points distincts x et y , de C tels que la fonction ψ définie par (9.29), nulle, par construction, aux deux extrémités de l’intervalle [ 0, 1 ] , soit en fait nulle en tout point de l’intervalle [ 0, 1 ] , c’està-dire tels que sa dérivée seconde : ψ′′ (t ) = f ′′ ( t y + (1 − t ) x )( y − x, y − x ) soit nulle en tout point de l’intervalle ]∣0, 1 [ (6). Elle sera donc strictement convexe sur C si et seulement si (9.28) est vérifiée. Exemple 9.5.1 Si Q est une n × n matrice symétrique SDP , et r un vecteur de Rn quelconques, la fonction quadratique : f ∶ Rn ↦ R ∶ x ↦ x ′ ⋆ Q ⋆ x − r ′ ⋆ x est convexe. Elle est strictement convexe lorsque Q est DP. 6. Si ψ est identiquement nulle sur [ 0, 1 ] , sa dérivée seconde est nulle en tout point de ] 0, 1 [ . Réciproquemment, si ψ′′ est identiquement nulle sur ] 0, 1 [ , ψ′ est constante sur ] 0, 1 [ , et donc ψ est une fonction affine, nulle au deux extrémités de l’intervalle [ 0, 1 ] , c’est-à-dire identiquement nulle sur [ 0, 1 ] . 238 CHAPITRE 9. EXERCICES Corollaire 9.5.2 Une fonction f ∶ D ⊂ Rn ↦ R , deux fois dérivable en tout point d’un ouvert convexe C contenu dans l’intérieur de D , est : 1. Convexe sur C si et seulement si sa matrice Hessienne ∇2 f (x ) est SDP en tout point x de C 2. Strictement convexe sur C si et seulement si elle est convexe sur C et si, pour tout couple de points distincts x et y de C , il existe au moins un point z = t y + (1 − t ) x ( 0 < t < 1 ) tel que : ( y − x )′ ⋆ ∇ 2 f ( z ) ⋆ ( y − x ) > 0 Exemple 9.5.2 La fonction f ∶ R2 ↦ R ∶ (x 1 , x 2 ) ↦ x 14 + x 24 est strictement convexe. Preuve : - Sa Hessienne : ∇2 f (x 1 , x 2 )( 12 x 12 0 0 ) est partout SDP, et, pour 12 x 22 tout couple de points distincts x = (x 1 , x 2 ) et ( y 1 , y 2 ) de R2 , la fonction : ϕ ∶ [ 0, 1 ] ⊂ R ↦ R ∶ t ↦ ( y − x )′ ⋆ ∇2 f ( t y + (1 − t ) x ) ⋆ ( y − x ) = ′ 2 2 . . . = 12 ( t y 1 + (1 − t ) x 1 ) ( y 1 − x 1 )2 + 12 ( t y 2 + (1 − t ) x 2 ) ( y 2 − x 2 )2 est positive, et non identiquement nulle puisque sa dérivée seconde ϕ′′ (t ) = 24 ( y 1 − x 1 )4 + 24 ( y 2 − x 2 )4 ne s’annule jamais. t On notera que, dans l’exemple 9.5.2, f est strictement convexe, bien que sa Hessienne ne soit DP en aucun point des droites d’équation : x 1 = 0 , et : x 2 = 0 . Exercices Exercice 9.1 Dans chacun des cas suivants, dire si f ∶ C ⊂ R2 ↦ R est convexe, strictement convexe, concave, strictement concave, et si elle atteint son maximum ou son minimum sur C . 1. C = {(x 1 , x 2 ) ∈ R2 ∣ x 1 x 2 > 1, x i > 0 (i = 1, 2)} , et : f ∶ C ⊂ R2 ↦ R ∶ ( x 1 , x 2 ) ↦ x 1 + x 2 + x1 + x2 1 − x1 x2 CHAPITRE 9. EXERCICES 239 2. C = {(x 1 , x 2 ) ∈ R2 ∣ x 12 + x 22 + x 1 x 2 < 1} , et : f ∶ C ⊂ R2 ↦ R ∶ (x 1 , x 2 ) ↦ x 1 + x 2 + ln(1 − x 12 − x 22 − x 1 x 2 ) 3. C = {(x 1 , x 2 ) ∈ R2 ∣ x 22 ≤ x 1 } , et : f ∶ C ⊂ R2 ↦ R ∶ (x 1 , x 2 ) ↦ x 1 (x 1 + x 22 ) 4. C = R2 , et : f ∶ R2 ↦ R ∶ (x 1 , x 2 ) ↦ 2 x 12 + x 22 − 2 x 1 x 2 + ∣ x 1 − 4 ∣ . 5. C = R2 , et : f ∶ R2 ↦ R ∶ (x 1 , x 2 ) ↦ ∣ x 1 − 1 ∣ + ∣ x 2 + 1 ∣ + √ x 14 + x 24 Exercice 9.2 On considère lle demi-espace fermé : H + = {(x 1 , x 2 ) ∈ R2 ∣ x 1 + x 2 > 0} , et la fonction : f ∶ H + ⊂ R2 ↦ R ∶ (x 1 , x 2 ) ↦ x 1 + x 2 + 1 − x1 x2 x1 + x2 1. Vérifier que f est strictement convexe. 2. Montrer qu’elle atteint son minimum. Quelle est la valeur de ce minimum ? 3. Déduire que, pour tout point à coordonnées positives (x 1 , x 2 , x√ 3 ) de la sur3 face d’équation : x 1 x 2 + x 2 x 3 + x 3 x 1 = 1 dans R : x 1 + x 2 + x 3 ≥ 3 . Exercice 9.3 Vérifier que la fonction de Cobb-Douglas : β f ∶ C = [ 0, +∞[×[ 0, +∞[⊂ R2 ∶ (x 1 , x 2 ) ↦ C x 1α x 2 (C > 0, α > 0, β > 0), bien connue des économistes, est strictement concave si : α + β < 1 , et encore concave si : α + β = 1, mais qu’ elle n’est ni convexe ni concave sur aucun ouvert convexe de C lorsque : α + β > 1 . Exercice 9.4 On considère le problème d’optimisation : (P) Max s.c. x 12 + x 22 + x 1 x 2 (x 1 + x 2 ) ≤ 1 1. Prouver qu’il admet des solutions. 2. Prouver que la contrainte est nécessairement active à l’optimum. 3. Déduire que la solution est unique, et trouver sans calculs la valeur du maximum. 240 CHAPITRE 9. EXERCICES Exercice 9.5 Prouver que, pour toute n × n matrice réelle symétrique Q, et tout vecteur r de Rn , O = {x ∈ Rn ∣ x ′ ⋆ Q ⋆ x − r ′ ⋆ x < 0} est un ouvert convexe de Rn , et : f ∶ O ⊂ Rn ↦ R ∶ x ↦ ln (r ′ ⋆ x − x ′ ⋆ Q ⋆ x ) est concave (resp. strictement concave) dès que Q est SDP (resp. DP) Exercice 9.6 (Modèle Logit) On considère la fonction : f ∶ Rn × R ↦ R ∶ (p, q ) ↦↦ exp [θ (p ′ ⋆ x + q )] où : θ = ±1 , et x est un vecteur de Rn donné. 1. Vérifier que f est deux fois dérivable sur Rn × R, et que sa matrice Hessienne en tout point (p, q ) de Rn × R s’écrit : ∇2 f (p, q ) = exp [θ (p ′ ⋆ x + q )] ( x ⋆ x′ x′ x ) 1 Déduire que f est convexe. Est-elle strictement convexe ? On cherche à construire un classificateur automatique permettant de classer des points d’un espace Rn (des « clients » identifiés par un jeu de n données numériques : âge, situation familiale, département de résidence, revenu imposable, . . . , etc.) dans l’une ou l’autre de deux catégories disjointes C 1 et C 2 recouvrant l’espace Rn (les « bons » et les « mauvais » clients). Le modèle « Logit » suppose la probabilité d’appartenance à la classe C 1 d’un élément x, donné dans Rn de la forme : P (x ∈ C 1 ) = 1 1 + exp(p ′ ⋆ x + q ) où p et q sont des paramètres inconnus, de sorte que : P (a ∈ C 2 ) = 1 1 + exp(−p ′ ⋆ x − q ) (le vérifier). On cherche alors à estimer les paramètres p et q du modèle à partir d’un échantillon de points a (i ) (1 ≤ i ≤ N ) dans Rn dont la classe est connue - un échantillon « d’apprentissage » - en maximisant la vraisemblance de l’échantillon : N ∏ 1 1 + exp [ θ (i ) ( p ′ ⋆ a (i ) + q )] i =1 CHAPITRE 9. EXERCICES 241 où : θ (i ) est un « marqueur » de la classe du i ème point : θ (i ) = 1 si : a (i ) ∈ C 1 , et : θ (i ) = −1 si : a (i ) ∈ C 2 , problème qui équivaut à minimiser la fonction : N F ∶ Rn × R ↦ R ∶ (p, q )) ↦ ∑ ln (1 + exp [θ (i ) ((p ′ ⋆ a (i ) + q )]) i =1 2. Prouver que F est convexe. 3. Prouver qu’elle est strictement convexe si et seulement si les N points a (i ) n’appartiennent pas tous à un même hyperplan de Rn . t indication: Observer que sa Hessienne est une somme de matrices SDP. A quelle condition est-elle DP ? 4. Prouver qu’elle est coercive si et seulement si il n’existe aucun hyperplan de Rn « séparant » les deux classes, c’est-à-dire aucun couple (p, q ) dans Rn × R, distinct de (0 Rn , 0), tel que : θ (i ) ( p ′ ⋆ a (i ) + q ) ≤ 0 (1 ≤ i ≤ N ) t indication: Raisonner par l’absurde en supposant l’existence d’une suite ( p (k ), q (k )) dans Rn × R telle que : N ( p (k ), q (k )) → +∞, mais : F ( p (k ), q (k )) → / +∞ Invoquer le théorème de Bolzano-Weierstrass pour garantir l’existence d’un point d’accumulation de la suite normalisée obtenue en divisant chaque ( p (k ), q (k )) par sa norme, et montrer qu’un tel point « sépare » nécessairement les classes.. 5. Conclure que, le plus souvent, l’estimateur du maximum de vraisemblance retournera l’unique minimiseur de F . 6. On suppose que les points a (i ) n’appartiennent pas à un même hyperplan de Rn . Montre que s’il existe un hyperplan de Rn séparant les points des deux classes C 1 et C 2 , F n’a aucun point critique. t indication: Observer qu’un hyperplan séparant les deux classes C 1 et C 2 fournit une direction de descente pour F en tout point de Rn × R. Exercice 9.7 (Stricte convexité du carré de la norme N p ) Soientt E un espace de dimension finie, et B = {e (1), e (2), . . . , e (n )} une base quelconque de E . On considère la norme : n n i =1 i =1 p 1/ p N p ∶ E ↦ [ 0, +∞[∶ x = ∑ x i e (i ) ↦ ( ∑ ∣ x i ∣ ) et on se propose de prouver, par l’absurde, que N p2 (1 < p < +∞) est strictement convexe. Pour cela, on suppose qu’il existe deux points distincts x et y dans Rn , et un réel t strictement compris entre 0 et 1, tels que : N p2 ( t y + (1 − t ) x ) = t N p2 ( y ) + (1 − t ) N p2 (x ) 242 CHAPITRE 9. EXERCICES 1. Prouver que : N p (x ) = N p ( y ) = N p ( t y + (1 − t ) x ). t indication: Utiliser la convexité de la norme N p et la stricte convexité de la fonction ϕ2 ∶ R ↦ R ∶ r ↦ r 2. 2. Conclure en invoquant la stricte convexité de la fonction : ϕp ∶ R ↦ R ∶ r ↦ ∣ r ∣ ( p > 1) p Exercice 9.8 ( ∗) On suppose X et Y variables de Bernoulli indépendantes, de paramètres respectifs p et q, de sorte que : Z = X + Y prend les valeurs : 0, 1, et : 2 avec les probabilités respectives : P 0 = (1 − p )(1 − q ), P 1 = p (1 − q ) + q (1 − p ) = p + q − 2 p q, P 2 = p q Sur un échantillon de 20 réalisations de Z , on a obtenu : cinq fois la valeur 0, huit fois la valeur 1, sept fois la valeur 2, et on cherche à estimer p et q en maximisant la log-vraisemblance de l’échantillon : ln (P 05 P 18 P 27 ) = 5 ln (1 − p )+ 5 ln (1 − q )+ 8 ln (p + q − 2 p q )+ 7 ln p + 7 ln q 1. Vérifier que la fonction : f ∶] 0, 1 [×] 0, 1 [⊂ R2 ↦ R ∶ (p, q ) ↦ . . . . . . 5 ln (1 − p ) + 5 ln (1 − q ) + 8 ln (p + q − 2 p q ) + 7 ln p + 7 ln q est de classe C 2 , et calculer sa matrice Hessienne. 2. Etablir l’inégalité : 32 1 (p + q − 2 p q (1 − q ) (p + q − 2 p q )2 ≤ 32 q )2 ≤ q (1 − p )2 q 2 (1 − q ) (1 − p )2 + 32 + 1−q p2 , et déduire : q (1 − q ) 2 p2 < 5 (1 − p )2 + 5 p2 t indication: Utiliser : p + q − 2 p q = p (1 − q ) + q (1 − p ) et la convexité de x ↦ 1/x 2 , puis calculer la valeur de : max q 2 (1 − q ) = max q (1 − q )2 . 3. Conclure que f est strictement concave, et déduire qu’elle atteint son maximum en un point unique (p̂, q̂ ) que l’on déterminera. t indication: Ecrire la matrice Hessienne de f comme la somme d’une matrice diagonale et d’une matrice SDN pour vérifier que f est strictement concave, puis observer que le critère est invariant par permutation de p et de q, et déduire : p̂ = q̂. CHAPITRE 9. EXERCICES 243 Exercice 9.9 ( ∗) On considère la variable aléatoire : X = S ′ ⋆ x = ∑ni=1 S i x i , où : S = (S 1 , . . . , S n ) est un vecteur aléatoire connu de dimension n, et de moyenne : E (S ) = 0 Rn , de sorte que : E ( X ) = E (S )′ ⋆ x = 0 , et on note : D = E (S ⋆ S ′ ) la matrice de j dispersion de S, de terme général : D i = E (S i S j ) ( 1 ≤ i , j ≤ n ). 1. Vérifier que : f ∶ Rn ↦ R ∶ x ↦ E ( X 4 ) = E [(S ′ ⋆ x )4 ] est deux fois dérivable sur Rn et que, pour tout x dans Rn : ∇2 f (x ) = 12 E ((S ⋆ x )2 S ⋆ S ′ ) t indication: ϕ ∶ R ↦ R ∶ t ↦ f (x + t d ) est une fonction polynômiale de degré quatre. 2. Vérifier que, pour tout couple (a, b ) de points de Rn : (b − a )′ ∇2 f (t b + (1 − t ) a ) (b − a ) n’est identiquement nulle que si : S ′ ⋆ (b − a ) = 0 presque sûrement. t indication: ψ ∶ R ↦ R ∶ t ↦ (b − a )′ ∇2 f (t b + (1 − t ) a ) (b − a ) est une fonction polynômiale de degré deux. 3. Déduire que f est toujours convexe sur Rn , et strictement convexe si et seulement si la matrice de dispersion D de S est DP.