Université Paris-Dauphine M1MMD Année 2013/2014 Analyse convexe approfondie Joseph Lehec Table des matières 1 Ensembles convexes 2 2 Théorème de Carathéodory, théorème de Helly 5 3 Propriétés topologiques des convexes 7 4 Fonctions convexes 10 5 Le théorème de Hahn-Banach 12 6 Polarité 15 7 Transformée de Legendre-Fenchel 17 8 Convexité et différentiabilité 21 9 Le théorème de Krein-Milman 24 10 Optimisation convexe 27 11 Le théorème de John 33 12 Espaces en dualité et programmation linéaire 38 Annexe 1. Espaces vectoriels topologiques 42 Annexe 2. Lemme de Zorn 43 Annexe 3. Dualité. Topologies faible et faible ∗ 45 1 1 Ensembles convexes Soit E un espace vectoriel réel. Définition 1. On dit qu’un sous-ensemble A de E est un sous-espace affine s’il contient toutes les droites passant par deux de ses points : (1 − t)x + ty ∈ A, ∀x, y ∈ A, ∀t ∈ R. Un espace P affine est stable par combinaisons affines : si x1 , . . . , xm ∈ A et λ1 , . . . , λm sont des m réels vérifiant i=1 λi = 1 alors m X λi xi ∈ A. i=1 Ceci se déduit de la définition en raisonnant par récurrence sur m. Définition 2. Un sous-ensemble K de E dit convexe si pour tous x, y dans K le segment [x, y] est inclus dans K : ∀x, y ∈ K, ∀t ∈ [0, 1], tx + (1 − t)y ∈ K. Un sous-espace affine est donc un exemple d’ensemble convexe. Exemple. Soit k · k une norme sur E. Les boules de E, ouvertes ou fermées, sont des convexes de E. Un ensemble convexe K estP stable par combinaison convexe : si x1 , . . . , xm ∈ K et λ1 , . . . , λm m sont des réels positifs vérifiant i=1 λi = 1 alors m X λi xi ∈ K. i=1 Il est clair d’après la définition qu’une intersection quelconque d’espaces affines est un espace affine, et qu’une intersection quelconque d’ensembles convexes est un ensemble convexe. Définition 3. Soit A une partie de E. On appelle enveloppe affine de A, notée aff(A) l’intersection de tous les espaces affines contenant A. On appelle enveloppe convexe de A, notée conv(A) l’intersection de tous les sous-ensembles convexes contenant A. Par stabilité par intersection aff(A) est un espace affine. C’est le plus petit espace affine contenant A : si F est un sous-espace affine contenant A alors aff(A) ⊂ F . De même conv(A) est le plus petit ensemble convexe contenant A. Proposition 4. Soit A une partie de E. Alors aff(A) est égal à l’ensemble des combinaisons affines d’éléments de A. De même conv(A) est égal à l’ensemble des combinaisons convexes d’éléments de A. Démonstration. Soit C l’ensemble des combinaisons convexes d’éléments de A. Alors C est convexe et contient A donc conv(A) ⊂ C. Réciproquement, comme conv(A) est convexe et contient A il contient toutes les combinaisons convexes d’éléments de A. La démonstration est la même pour aff(A). Définition 5 (Somme de Minkowski). Soient A, B des sous-ensembles de E, on pose A + B = {a + b, a ∈ A, b ∈ B}. Lemme 6. Soient a, b > 0 et K un ensemble convexe. Alors aK + bK = (a + b)K. 2 Démonstration. Soient x, y ∈ K. Alors par convexité de K a b x+ y ∈ K, a+b a+b et donc ax + by ∈ (a + b)K. Donc aK + bK ⊂ (a + b)K. L’inclusion réciproque est évidente. Remarque. L’inclusion (a+b)K ⊂ aK +bK est vraie sans hypothèse sur K, mais elle est en général stricte. Par exemple si K = [−2, −1] ∪ [1, 2], alors K + K = [−4, 4] et 2K = [−4, −2] ∪ [2, 4]. Si F est un sous-espace affine et x ∈ F alors F − x est un sous-espace vectoriel de E, de plus F − x ne dépend pas de x ∈ F . Définition 7. Soit F un sous-espace affine et x un point de F . On appelle dimension de F , notée dim(F ), la dimension de l’espace vectoriel F − x (ceci ne dépend pas du point x choisi). Définition 8. Une famille (xi )i∈I de point de E est dite affinement indépendante si xi ∈ / aff {xj , j ∈ I\{i}} , ∀i ∈ I. Il est facile de voir que les {xi , i ∈ I} sont affinement indépendants si et seulement si les {xj − xi , j ∈ I\{i}} sont linéairement indépendants (cette propriété ne dépend pas de i). Définition 9. On appelle dimension d’un ensemble convexe K la dimension de l’espace affine engendré par K. Définition 10. On appelle simplexe de dimension n l’enveloppe convexe de n+1 points affinement indépendants. Exemple. Un simplexe de dimension 1 est un segment, un simplexe de dimension 2 est un triangle, un simplexe de dimension 3 est un tétraèdre. Lemme 11. Soit K un convexe de dimension n alors il contient un simplexe de dimension n. Démonstration. Soit x1 . . . , xm une famille affinement indépendante d’éléments de K de cardinal maximal. Alors conv{x1 , . . . , xm } ⊂ K D’autre part, par maximalité K ⊂ aff{x1 , . . . , xm } et donc aff(K) = aff{x1 , . . . , xm }. Par conséquent m = n + 1, ce qui termine la preuve. Exercice 1. Montrer qu’un ensemble convexe est stable par combinaisons convexes. Exercice 2. Soit K ⊂ Rn vérifiant x, y ∈ K ⇒ x+y ∈K 2 pour tous x, y ∈ Rn . 1. Montrer par un exemple que K n’est pas forcément convexe. 2. Montrer que si de plus K est fermé, alors K est convexe. 3 Exercice 3. Soit K ⊂ E un ensemble convexe. On dit que x ∈ K est un point extrémal de K si y+z = x ⇒ y = z = x, 2 ∀y, z ∈ K. Montrer que x est un point extrémal de K si et seulement si K\{x} est convexe. Exercice 4. Soit A ⊂ E et soit x un point extrémal de conv(A), montrer que x ∈ A. Exercice 5. Montrer que la somme de deux sous-espaces affines est un sous-espace affine. Montrer que la somme de deux convexes est convexe. Exercice 6. Soit p ∈ [1, +∞]. Pour x ∈ Rn on pose kxkp = n X !1/p |xi | p , p < +∞ i=1 kxk∞ = max{|xi |; i ≤ n}. 1. Montrer que ceci définit une norme sur Rn . L’espace vectoriel normé (Rn , k · kp ) est noté `np . Sa boule unité fermée est notée Bpn . 2. Montrer que Bpn ⊂ Bqn pour tout p ≤ q. 3. On dit qu’un espace vectoriel normé est strictement convexe si sa norme vérifie x + y < 1. (kxk = kyk = 1 et x 6= y) ⇒ 2 Pour quelles valeurs de p les espaces `np sont-ils strictement convexes ? Exercice 7 (Projection sur un convexe). Soit H un espace de Hilbert et C un convexe fermé de H. Soit x ∈ H. On pose α = inf {ky − xk; y ∈ C} , et on se donne une suite (xn ) d’éléments de C telle que lim kxn − xk = α. n 1. En utilisant l’égalité du parallélogramme, montrer que (xn ) est une suite de Cauchy. 2. En déduire qu’il existe un unique x ∈ C qui minimise la distance à x. Ce point est appelé projeté de x sur C. 3. Montrer que le projeté x de x sur C est caractérisé par la propriété suivante : hx − x, y − xi ≤ 0, 4 ∀y ∈ C. 2 Théorème de Carathéodory, théorème de Helly Théorème 12 (Théorème de Carathéodory). Soit A ⊂ Rn . Toute combinaison convexe d’éléments de A peut s’écrire comme combinaison convexe d’au plus n + 1 éléments de A. Démonstration. Il suffit de montrer que pour tout N ≥ n + 2, toute combinaison convexe de N éléments de A peut en fait P s’écrire comme combinaison convexe de N − 1 éléments. N Soit N ≥ n + 2 et soit x = i=1 αi xi une combinaison convexe de N éléments de A. On considère le système N X βj x j = 0 j=1 N X βj = 0. j=1 d’inconnues β1 , . . . , βN . Comme on a N ≥ n + 2 inconnues et n + 1 équations, il existe une solution non triviale β1 , . . . , βN . Comme les βi sont non tous nuls et de somme nulle, l’ensemble I = {i ≤ N ; βi > 0} est non vide. On pose αi ; i∈I et αi0 = αi − λβi , i ≤ N. λ = min βi Alors x= N X αi0 xi i=1 est une combinaison convexe d’au plus N − 1 éléments de A. Théorème 13 (Théorème de Radon). Soit S ⊂ Rn de cardinal N ≥ n + 2. Il existe des sousensembles A et B de S vérifiant A∩B =∅ et conv(A) ∩ conv(B) 6= ∅. Démonstration. On pose S = {x1 , . . . , xN } et on considère le système linéaire d’inconnues λ1 , . . . , λN N X λj xj = 0 j=1 N X (1) λj = 0. j=1 Il y a n + 1 équations et N > n + 1 inconnues. Le système a donc une P solution non nulle. Soit λ1 , . . . , λN une telle solution. Comme les λi sont non tous nuls et que λi = 0, l’ensemble I = {i ≤ N, λi > 0} est non vide. Posons A = {xi , i ∈ I}. Alors x= P 1 i∈I X λi λi xi i∈I appartient à conv(A). Mais en utilisant (1), on obtient X 1 x= P (−λi )xi . i∈I / (−λi ) i∈I / Donc si B = {xj , j ∈ / I}, alors x ∈ conv(B). 5 Théorème 14 (Théorème de Helly). Si une famille finie de sous-ensembles convexes de Rn est telle que toute sous-famille de cardinal n + 1 est d’intersection non vide alors la famille entière est d’intersection non vide. Démonstration. Soit m ≥ n + 1, et soient K1 , . . . , Km+1 des convexes vérifiant \ Ki 6= ∅, ∀j ≤ m + 1. i6=j Pour tout j il existe donc xj ∈ existe I, J disjoints tels que T i6=j Ki . Comme m + 1 ≥ n + 2, d’après le théorème de Radon il conv{xj , j ∈ I} ∩ conv{xj , j ∈ J} = 6 ∅ Il est ensuite facile de voir que l’intersection précédente est contenue dans l’intersection de tous les Ki . On conclut par récurrence : si toute sous-famille de cardinal n + 1 est d’intersection non vide alors d’après ce qui précède toute sous-famille de cardinal n + 2 est d’intersection non vide, donc toute sous-famille de cardinal n + 3, etc. . . 6 3 Propriétés topologiques des convexes On suppose que E est un espace vectoriel topologique (voir l’annexe 1). ◦ Proposition 15. Soit K un ensemble convexe. Alors son intérieur K et son adhérence K sont aussi convexes. ◦ Démonstration. Soient x, y ∈ K et α ∈ [0, 1]. Alors il existe un ouvert U contenant x et inclus dans K ainsi qu’un ouvert V contenant y et inclus dans K. Alors (1 − α)U + αV est ouvert, contient ◦ (1 − α)x + αy et est inclus dans K (par convexité de K). Donc (1 − α)x + αy ∈ K. Soient x0 , x1 ∈ K et t ∈]0, 1[. Posons xt = (1 − t)x0 + tx1 . Soit Ut un ouvert contenant xt . Alors U0 = Ut − tx1 1−t etU1 = U − (1 − t)x0 t sont deux ouverts contenant x0 et x1 respectivement, ils intersectent donc tous les deux K. Soit y0 ∈ U0 ∩ K et soit y1 ∈ U1 ∩ K. Alors (1 − t)y0 + ty1 ∈ Ut ∩ K. Tout ouvert contenant xt intersecte donc K. Donc xt ∈ K, donc K est convexe. Un ensemble convexe peut très bien être d’intérieur vide, par exemple un segment dans R2 . Définition 16. Soit K un convexe, on appelle intérieur relatif de K, noté ri(K), l’intérieur de K vu comme sous-ensemble de aff(K), c’est-à-dire l’ensemble des x ∈ E tels qu’il existe un ouvert U tel que x ∈ U et U ∩ aff(K) ⊂ K. Exemple. L’ensemble [0, 1] × {0} est un convexe de R2 . Son intérieur est vide, et son intérieur relatif est ]0, 1[×{0}. Lemme 17. L’intérieur relatif d’un convexe est convexe. La démonstration est la même que pour montrer que l’intérieur d’un convexe est convexe. Proposition 18. Soit K un sous-ensemble convexe non vide de Rn . Alors ri(K) 6= ∅. Démonstration. Il suffit de montrer que si K est de dimension n alors K est d’intérieur non vide. Mais K contient alors un simplexe de dimension n, qui est clairement d’intérieur non vide, d’où le résultat. Définition 19. Soit K un convexe contenant 0, on appelle jauge de K la fonction j : E → [0, +∞] définie par j(x) = inf{s > 0; x ∈ sK}, avec la convention inf(∅) = +∞. Remarque. Comme K est convexe et contient 0, l’ensemble K ∩ (R+ x) est un intervalle contenant 0. Alors j(x) est l’inverse de la longueur de cet intervalle. Autrement dit x x ou 0, . K ∩ (R+ x) = 0, j(x) j(x) Exemple. Soit E un espace vectoriel normé et B sa boule. Pour tout x on a kxk = inf{t > 0; x ∈ tB}. Autrement dit la norme de E est égale à la jauge de la boule unité. Proposition 20. Soit K un convexe contenant 0 et j sa jauge. Alors j est une fonction 1homogène : j(tx) = tj(x), ∀t ≥ 0, ∀x ∈ E, et sous-additive : j(x + y) ≤ j(x) + j(y), 7 ∀x, y ∈ E. Démonstration. L’homogénéité est laissée en exercice. Soient x, y ∈ E, soient s, t > 0 tels que x ∈ sK et y ∈ tK. Alors par convexité de K x + y ∈ sK + tK = (s + t)K; ce qui montre que j(x + y) ≤ s + t. En prenant l’infimum sur s et t on obtient j(x + y) ≤ j(x) + j(y). ◦ Proposition 21. Soit K un convexe tel que 0 ∈ K et j sa jauge. Alors j(x) < +∞ pour tout x ∈ E et j est continue sur E. Démonstration. Si K est un voisinage de 0, comme x/t tend vers 0 quand t tends vers l’infini on a x/t ∈ K et donc x ∈ tK pour t assez grand, ce qui montre que j(x) < +∞. Soit xn → 0 et soit > 0. Comme K est aussi un voisinage de 0, on a xn ∈ K et donc j(xn ) ≤ pour n assez grand. Ceci montre que j est continue en 0. La continuité en x 6= 0 se déduit facilement de la continuité en 0 en utilisant la sous-additivité. Proposition 22. Soit K un convexe contenant 0 alors ◦ K ⊂ {j < 1} ⊂ K ⊂ {j ≤ 1} ⊂ K. De plus, si 0 est dans l’intérieur de K la première et la dernière inclusion sont des égalités. ◦ Démonstration. Si x ∈ K, c’est-à-dire si K contient un voisinage de x, comme (1 + 1/n)x → x, il existe n tel que (1 + 1/n)x ∈ K. Donc j(x) ≤ 1 < 1. 1 + 1/n Si j(x) < 1 alors x ∈ K d’après la remarque qui suit la définition de j. Si x ∈ K alors j(x) ≤ 1 par définition. Si j(x) ≤ 1, alors x ∈ (1 + 1/n)K pour tout n ≥ 1. Comme x →x 1 + 1/n quand n tends vers +∞, on obtient x ∈ K. Si 0 est dans l’intérieur de K, on a vu que j était continue. Donc {j < 1} et {j ≤ 1} sont ◦ respectivement ouvert et fermé. Alors {j < 1} est un ouvert coincé entre K et K, ce qui implique ◦ {j < 1} = K. De même {j ≤ 1} = K. Remarquons que j(x) = 0 ⇔ R+ x ⊂ K. Donc si K ne contient pas de demi-droite alors j(x) = 0 ⇔ x = 0. Si de plus K est symétrique par rapport à 0, c’est-à-dire si K = −K alors j est paire. On obtient donc le résultat suivant. Proposition 23. Si K est un convexe d’intérieur non vide vérifiant K = −K et ne contenant pas de demi-droite, alors la jauge de K est une norme. De plus K est la boule unité de E pour cette norme. Exercice 8. Soit E un espace vectoriel topologique, soit K ⊂ E convexe non vide. 1. Soit x ∈ ri(K) et y ∈ K. Montrer que [x, y[⊂ ri(K). 2. En déduire que riK = K. 3. Montrer par un exemple que cette propriété n’est pas vraie sans hypothèse de convexité. 8 Exercice 9. Soit A ⊂ E. Montrer que l’adhérence de conv(A) est le plus petit ensemble convexe fermé contenant A. Exercice 10. 1. Soit A = (x, y) ∈ R2 ; x ≥ 1, 0 ≤ y ≤ 1/x Montrer que A est fermé, mais que conv(A) n’est pas fermé. 2. Montrer que si A est un sous-ensemble fini d’un espace vectoriel topologique E alors conv(A) est fermé. 3. Montrer que si A est un sous-ensemble ouvert d’un espace topologique alors conv(A) est ouvert. 4. Montrer que si A est un sous-ensemble compact de Rn alors conv(A) est compact. Indication : utiliser le théorème de Carathéodory. 9 4 Fonctions convexes On va considérer des fonctions à valeurs dans R ∪ {+∞}. On dira qu’une telle fonction f est propre si elle n’est pas constamment égale à +∞. Définition 24. Soit E un espace vectoriel et K un sous-ensemble convexe de E. Une fonction f : K → R ∪ {+∞} est dite convexe si f ((1 − t)x + ty) ≤ (1 − t)f (x) + tf (y), ∀x, y ∈ K, ∀t ∈ [0, 1]. On dit aussi que f est concave si −f est convexe et que f est affine si elle est convexe et concave, c’est-à-dire si f (1 − t)x + ty) = (1 − t)f (x) + tf (y), ∀x, y ∈ K, ∀t ∈ [0, 1]. On montre facilement par récurrence sur m que si f est convexe alors ! m m X X λi xi ≤ λi f (xi ) f i=1 i=1 pour tous x1 , . . . xm ∈ K et tous λi ≥ 0 tels que Pm i=1 λi = 1. Définition 25. On appelle domaine de f , noté dom(f ), le sous-ensemble de E où f prend des valeurs finies : dom(f ) = {x ∈ K, f (x) < +∞}. L’épigraphe de f est la partie de l’espace produit E × R qui est au-dessus de son graphe epi(f ) = {(x, t) ∈ dom(f ) × R, f (x) ≥ t}. Proposition 26. Le domaine d’une fonction convexe est convexe. Une fonction f est convexe si et seulement si son épigraphe est un sous-ensemble convexe de E × R. La démonstration est laissée en exercice. Proposition 27. (i) Un supremum de fonctions convexes est une fonction convexe. (ii) Soient α ≥ 0 et f une fonction convexe. Alors αf est convexe. (iii) La somme de deux fonctions convexes est convexe. Démonstration. Remarquons que \ epi sup fi = epi(fi ). i∈I i∈I Donc si les fi sont convexes, leurs épigraphes sont convexes et l’épigraphe de sup fi aussi comme intersection d’ensembles convexes. Les autres propriétés sont laissées en exercice. On va aborder les propriétés de continuité des fonctions convexes. On suppose donc désormais que E est un espace vectoriel topologique. Lemme 28. Soit f une fonction convexe et soit x ∈ E. Si f est majorée au voisinage de x alors f est continue en x. Démonstration. Par hypothèse, il existe un voisinage U de 0 et une constante C tels que f ≤ C sur x + U . Quitte à remplacer U par U ∩ (−U ) on peut supposer que U = −U . Soit > 0. Alors V = x + U est un voisinage de x. Soit z = x + u ∈ V . f (z) = f ((1 − )x + (x + u)) ≤ (1 − )f (x) + f (x + u). Donc f (z) − f (x) ≤ −f (x) + C ≤ 2C 0 , 10 en posant C 0 = max{|f (x)|, C}. De plus 1 1 f (x) = f z+ (x − u) ≤ f (z) + f (x − u), 1+ 1+ 1+ 1+ ce qui implique facilement f (x) − f (z) ≤ 2C 0 . On a donc |f (z) − f (x)| ≤ 2C 0 pour tout z dans un voisinage de x, ce qu’il fallait démontrer. Lemme 29. Soit f : Rn 7→ R ∪ {+∞} une fonction convexe. Alors f est localement bornée sur l’intérieur de son domaine : pour tout x dans l’intérieur du domaine de f il existe un voisinage de x sur lequel f est bornée. Démonstration. Soit x dans l’intérieur du domaine de f . Il existe δ > 0 tel que la boule x + δB1n soit incluse dans le domaine de f . Mais la boule x + δB1n est l’enveloppe convexe des 2n points x + δe1 , x − δe1 , . . . , x + δen , x − δen . La fonction f est donc bornée par max(f (x ± ei ), i = 1, . . . , n} sur cette boule (voir l’exercice 13 ci-dessous). Corollaire 30. En dimension finie, une fonction convexe est continue dans l’intérieur de son domaine. Remarque. C’est faux en dimension infinie, on peut par exemple avoir des fonctions linéaires qui ne soient pas continues. Exercice 11. Soit f : E → R ∪ {+∞}. Montrer que si f est convexe alors pour tout a ∈ R son ensemble de niveau {x ∈ E, f (x) ≤ a} est convexe. Montrer que la réciproque est fausse. Une fonction dont tous les ensembles de niveau sont convexes est dite quasi-convexe. Exercice 12. Soit A un sous-ensemble de E montrer que A est convexe si et seulement si − ln(1A ) est une fonction convexe. Exercice 13. Soit f : E → R ∪ {+∞} une fonction convexe et A ⊂ E. Montrer que sup f = sup f. A conv(A) 11 5 Le théorème de Hahn-Banach Théorème 31 (Théorème de Hahn-Banach). Soit E un espace vectoriel, soit j : E → R une fonction 1-homogène et sous-additive, soit F un sous-espace vectoriel de E et φ : F → R une application linéaire dominée par j : φ(x) ≤ j(x), ∀x ∈ F. Alors φ peut être étendue à E tout entier en restant dominée par j : il existe ψ : E → R linéaire vérifiant ψ(x) = φ(x), ∀x ∈ F ψ(x) ≤ j(x), ∀x ∈ E. Remarque. On autorise dans ce théorème la fonction j à prendre des valeurs négatives, en revanche j ne peut pas prendre de valeur infinie. Démonstration. Soit y ∈ E\F . On commence par prolonger φ à F + Ry. Pour tous x, x0 ∈ F φ(x) + φ(x0 ) = φ(x + x0 ) ≤ j(x + x0 ) = j(x + y + x0 − y) ≤ j(x + y) + j(x0 − y). Par conséquent il existe α ∈ R tel que φ(x0 ) − j(x0 − y) ≤ α ≤ j(x + y) − φ(x), ∀x, x0 ∈ F (2) On étend ensuite φ au sous-espace F + Ry en posant φ(y) = α. Montrons que φ reste dominée par j. Soit x ∈ E et t ∈ R, on a φ(x + ty) = φ(x) + tα. Il suffit donc de montrer que pour tout t ∈ R et pour tout x ∈ E φ(x) + tαα ≤ j(x + ty). Ceci se déduit de (2) en distinguant les t = 0, t > 0, t < 0, les détails sont laissés en exercice. En dimension finie, il suffit d’itérer le processus pour terminer la preuve. En dimension infinie, il faut faire appel au lemme de Zorn, on renvoie à l’annexe 2. Corollaire 32. Soit E un espace vectoriel normé, soit F un sous-espace et soit φ une forme linéaire continue sur F . Alors φ s’étend en une forme linéaire continue sur E de même norme que φ : il existe ψ ∈ E ∗ telle que ψ|F = φ et kψkE ∗ = kφkF ∗ . Démonstration. On pose C = kφkF ∗ . Alors φ(x) ≤ Ckxk pour tout x ∈ F . En appliquant HahnBanach avec la fonction j(x) = Ckxk, qui est 1-homogène et sous-additive, on obtient le résultat. Corollaire 33. Soit E un espace vectoriel normé, il existe φ ∈ E ∗ de norme 1 telle que φ(x) = kxk. Autrement dit kxk = max{φ(x), kφkE ∗ ≤ 1} Démonstration. Posons pour φ(tx) = tkxk pour tout t ∈ R. Alors φ est une forme linéaire continue sur Rx de norme 1 et vérifiant φ(x) = kxk. D’après le corollaire précédent φ se prolonge en une forme linéaire continue sur de norme 1 sur E. Sous sa forme géométrique le théorème de Hahn-Banach affirme que deux ensembles convexes disjoints peuvent être séparés par un hyperplan affine. Théorème 34. Soit E un espace vectoriel topologique et soient A, B deux ensembles convexes disjoints. (i) Si A est ouvert il existe φ ∈ E ∗ telle que φ(x) < φ(y), 12 ∀x ∈ A, ∀y ∈ B. (ii) Si l’espace E est localement convexe, si A est compact et B fermé, il existe φ ∈ E ∗ et > 0 tels que φ(x) + < φ(y) ∀x ∈ A, ∀y ∈ B. Démonstration. On commence par le point (i). Soit z un point arbitraire de A − B et soit C = A − B − z. Alors C est un ouvert convexe contenant 0. Soit j la jauge de C. Comme C est un voisinage de 0, on a 0 ≤ j(x) < +∞ pour tout x ∈ E. De plus j est 1-homogène et sous-additive. Pour t ∈ R on pose φ(tz) = t. Comme A ∩ B = ∅, on a z ∈ / C et donc j(z) ≥ 1. Par conséquent φ(tz) = t ≤ tj(z) = j(tz) pour tout t ≥ 0. Pour t < 0 on a bien sûr φ(tz) < 0 ≤ j(tz). Par Hahn-Banach, on prolonge φ de manière linéaire sur E tout entier, en gardant l’inégalité φ ≤ j. Comme C est ouvert, sa jauge j est continue, ce qui implique facilement la continuité de φ. Soient x ∈ A et y ∈ B. Alors x − y + z ∈ C et donc φ(x − y + z) ≤ j(x − y + z) < 1 D’autre part φ(x − y + z) = φ(x) − φ(y) + φ(z) ≥ φ(x) − φ(y) + 1. Donc φ(x) < φ(y), ce qu’il fallait démontrer. Si A est compact, B fermé et E localement convexe, il existe un ouvert convexe U contenant 0 tel que A0 = A + U n’intersecte pas B (voir l’annexe 2). En appliquant le résultat précédent à A0 et B, on trouve φ ∈ E ∗ telle que φ(x + u) < φ(y) pour tout x ∈ A, u ∈ U, y ∈ B. On obtient le résultat cherché en posant par exemple = 1 2 sup{φ(u), u ∈ U }. Corollaire 35 (Hyperplan d’appui). Soit C un convexe fermé d’intérieur non vide et x ∈ ∂C. Alors C admet un hyperplan d’appui en x : il existe φ ∈ E ∗ non nulle telle que φ(y) ≤ φ(x), ∀y ∈ C ◦ Démonstration. Il suffit d’appliquer (i) à A = C et B = {x}. Exercice 14. Soit E un espace vectoriel topologique localement convexe et E ∗ sont dual. Étant donné A ⊂ E on pose A⊥ = {φ ∈ E ∗ ; φ(x) = 0, ∀x ∈ A}. Montrer que vect(A) est dense dans E si et seulement si A⊥ = {0}. Exercice 15. On considère `∞ (N), l’espace des suites réelles bornées muni de la norme kuk∞ = sup |un |. n Soit F l’ensemble des suites qui possèdent une limite finie. Pour u ∈ F on pose φ(u) = lim un . n 1. Montrer que F est un sous-espace vectoriel de `∞ (N) et que φ est une forme linéaire continue sur F . 2. En déduire que `1 (N) n’est pas réflexif (voir l’annexe 3). Exercice 16. On considère l’espace L2 ([−1, 1], B([−1, 1]), λ) où λ est la mesure de Lebesgue, et soit Eα l’ensemble des fonctions continues f sur [−1, 1] vérifiant f (0) = α. Montrer que Eα est un sous-espace affine dense de L2 . En déduire que par exemple E0 et E1 sont deux ensembles convexes disjoints qui ne peuvent pas être séparés par une forme linéaire continue. Exercice 17. Redémontrer la partie (ii) du Théorème 34 dans le cas où E est un espace de Hilbert et A un singleton en utilisant la notion de projection sur un convexe (exercice 7). 13 Exercice 18. Rappelons le théorème de Carathéodory : soit A un sous-ensemble d’un espace vectoriel. Si E = aff(A) est de dimension finie n alors conv(A) est égal à l’ensemble des combinaisons convexes de n + 1 éléments de A. L’objectif de cet exercice est de redémontrer ce théorème. 1. Montrer qu’il suffit de démontrer le résultat pour A fini. 2. On suppose A fini. Soit x ∈ conv(A) et soit y ∈ A, différent de x. Soit D+ la demi-droite issue de y et passant par x. Montrer qu’il existe z ∈ E tel que D+ ∩ conv(A) = [y, z]. 3. Montrer que conv(A) admet un hyperplan d’appui H en z. 4. Montrer que z ∈ conv(A ∩ H). 5. Conclure en raisonnant par récurrence sur n. Exercice 19. Soit E un espace vectoriel quelconque. Soient φ1 , . . . , φm , φ des formes linéaires sur E. Le but de cet exercice est de montrer que les deux propositions suivantes ont équivalentes : φ ∈ vect{φ1 , . . . , φm } m \ ker(φi ) ⊂ ker(φ). i=1 1. Montrer l’implication directe. 2. On suppose que la deuxième proposition est vraie et on pose T : x ∈ E 7→ (φ1 (x), . . . , φm (x)) ∈ Rm . Montrer qu’on définit une forme linéaire ψ sur l’image de T en posant ψ(T (x)) = φ(x) pour tout x ∈ E. 3. Appliquer Hahn-Banach et conclure. Exercice 20 (Lemme de Mazur). Soit E un espace de Banach et soit K un ensemble convexe fermé. Montrer que K est aussi fermé pour la topologie faible. Soit (xn ) une suite d’éléments de E convergeant faiblement vers x ∈ E. Montrer que pour tout n, il existe x0n qui soit une combinaison convexe des xn et tel que x0n → x fortement. 14 6 Polarité Dans cette section on se place en dimension finie. Définition 36. Soit A ⊂ Rn . On appelle polaire de A l’ensemble A◦ = {x ∈ Rn , hx, yi ≤ 1, ∀y ∈ A} Lemme 37. L’ensemble A◦ est convexe, fermé et contient 0. Démonstration. L’ensemble A◦ = \ {hx, yi ≤ 1} y∈A est une intersection de demi-espaces fermés contenant 0. Pour x ∈ A et y ∈ A◦ on a hx, yi ≤ 1. Donc \ {hx, yi ≤ 1} = (A◦ )◦ . A⊂ y∈A◦ Théorème 38. On a A ◦◦ = A si et seulement si A est convexe, fermé et contient 0. Démonstration. On suppose que A est convexe fermé et contient 0. On sait déjà que A ⊂ A◦◦ , montrons l’inclusion réciproque. C’est une conséquence de Hahn-Banach. Soit x ∈ / A. Comme A est convexe fermé on peut séparer strictement x de A par un hyperplan : il existe y ∈ Rn et > 0 tels que hx0 , yi + ≤ hx, yi, ∀x0 ∈ A. En appliquant à x0 = 0 on obtient hx, yi ≥ . Posons y0 = 2y . 2hx, yi − Alors d’une part hx0 , y 0 i ≤ 1 pour tout x0 ∈ A, donc y 0 ∈ A◦ . D’autre part hx, yi > 1 et donc x∈ / A◦◦ . La réciproque est claire : A◦◦ , qui est le polaire de A◦ est toujours un convexe fermé contenant 0. De manière générale on a A◦◦ = conv(A ∪ {0}). En effet si B = conv(A ∪ {0}), alors il est facile de voir que B ◦ = A◦ . De plus B est convexe fermé et contient 0, donc B = B ◦◦ = A◦◦ . Définition 39. Soit A ⊂ Rn . On appelle fonction d’appui de A la fonction hK (y) = sup hx, yi. x∈A Lemme 40. Si 0 ∈ A, la fonction d’appui de A est égale à la jauge de A◦ : hA = jA◦ . Démonstration. Soit x ∈ A et t > 0 tel que y ∈ tA◦ . Alors y/t ∈ A◦ donc hx, yi ≤ t. Ceci montre que hA (y) ≤ jA◦ (y). Réciproquement, comme 0 ∈ A, on a hA (y) ≥ 0. Pour tout t > hA (y) (ce implique t > 0) on a y ∈ tA◦ et donc jA◦ (y) ≤ t. En faisant tendre t vers hA on obtient le résultat cherché. Proposition 41. Soit K un convexe compact d’intérieur non vide (on dit que K est un corps convexe) tel que K = −K. Soit jK sa jauge. Alors E = (Rn , jK ) est un espace vectoriel normé dont la boule unité est K. De plus E ∗ = (Rn , jK ◦ ). Autrement dit, la boule unité de E ∗ est le polaire de K. 15 Démonstration. Soit y ∈ Rn . On a kykE ∗ = sup {hy, xi; x ∈ K} = hK (y) = jK ◦ (y), ce qu’il fallait démontrer. Exemple. Soit p ∈ [1, +∞] rappelons que Bpn est la boule unité de l’espace `np : ( ) n X Bpn = x ∈ Rn ; |xi |p ≤ 1 . i=1 Soit q vérifiant 1/p + 1/q = 1, on a (Bpn )◦ = Bqn . Exercice 21. Soit A un ensemble, à quelle condition sur A a-t-on A = A◦ ? Exercice 22. On dit que C ⊂ Rd est un cône convexe si λx + µy ∈ C, ∀x, y ∈ C, ∀λ, µ ≥ 0. 1. Montrer qu’une intersection de cônes convexes est un cône convexe. 2. Étant donné A ⊂ Rd , on appelle enveloppe conique de A notée co(A) le plus petit cône convexe contenant A. Montrer que co(A) est égal à l’ensemble (m ) X λi xi , xi ∈ A, λi ≥ 0 . i=1 des combinaisons coniques d’éléments de A. 3. On appelle cône dual de A l’ensemble A∗ = {y ∈ Rn ; hy, xi ≥ 0, ∀x ∈ A}. Montrer que A∗ est un cône convexe fermé. 4. Montrer que A = A∗∗ si et seulement si A est un cône convexe fermé. Exercice 23 (Lemme de Farkas). Soient f1 , . . . , fm des formes affines sur Rn , alors les propositions suivantes sont équivalentes : − 1 ∈ co{f1 , . . . , fm } n \ {fi ≥ 0} = ∅. i=1 1. Montrer le sens direct. 2. On suppose que la deuxième proposition est vérifiée. On pose fi (x) = hyi , xi + ai et zi = (yi , ai ) ∈ Rn+1 . Montrer que {z1 , . . . , zm }∗ ⊂ {en+1 }∗ où en+1 est le vecteur (0, . . . , 0, 1) de Rn+1 . 3. En déduire que en+1 ∈ co{z1 , . . . , zm } et conclure. 4. Exemple d’application : montrer que le théorème de Helly, dans le cas où les convexes sont des demi-espaces fermés, se déduit du lemme de Farkas et du théorème de Carathéodory. 16 7 Transformée de Legendre-Fenchel Dans cette section on se place en dimension finie. Définition 42. Une fonction f : Rn → R ∪ {+∞} est dite semi-continue inférieurement si pour tout suite convergente (xn ) d’éléments de Rn on a lim inf f (xn ) ≥ f (lim xn ). n n Lemme 43. Une fonction de Rn dans R ∪ {+∞} est semi-continue inférieurement si et seulement si sont épigraphe est un sous-ensemble fermé de Rn × R. Démonstration. On suppose que f est s.c.i. Si une suite (xn , tn ) d’éléments de epi(f ) converge vers (x, t) ∈ Rn+1 . Alors le caractère s.c.i. de f donne f (x) ≤ lim inf f (xn ) ≤ lim inf tn = t, ce qui montre que (x, t) appartient à epi(f ) qui est donc fermé. La réciproque se démontre de manière similaire. Remarque. Attention le fait que l’épigraphe de f soit fermé n’implique par que le domaine de f le soit. Lemme 44. Un supremum de fonctions semi-continues inférieurement est semi-continu inférieurement. Démonstration. \ epi sup fi = epi(fi ). i∈I i∈I Définition 45. Soit f : Rn → R ∪ {+∞} une fonction propre. On définit la transformée de Legendre-Fenchel de f par f ∗ : y ∈ Rn 7→ sup {hx, yi − f (x)} x∈Rn Lemme 46. La fonction f ∗ est convexe et semi-continue inférieurement. Démonstration. f ∗ est un suprémum de fonctions affines. Définition 47. Soit f : Rn → R ∪ {+∞} une fonction propre et soit x appartenant au domaine de f . On dit que y ∈ Rn est un sous-gradient de f au point x, ce qu’on note y ∈ ∂f (x) si hx0 , yi − f (x0 ) ≤ hx, yi − f (x), ∀x0 ∈ Rn . Autrement dit si f (x) + f ∗ (y) = hx, yi. On peut reformuler la définition ainsi : y ∈ ∂f (x) si la fonction affine x0 7→ hy, x0 − xi + f (x) touche f par en dessous en x. Graphiquement, f admet un sous-gradient en x s’il existe un hyperplan affine qui soit tangent (par en dessous) à l’épigraphe de f . Exemple. Soit f : x ∈ R 7→ |x|. Alors ∂f (x) = {1}, si x > 0 ∂f (x) = {−1}, si x < 0 ∂f (0) = [−1, 1]. Théorème 48. Soit f une fonction convexe propre et x un point appartenant à l’intérieur relatif de son domaine, alors ∂f (x) est non vide. 17 Démonstration. C’est une conséquence de Hahn-Banach. Supposons dans un premier temps que dom(f ) est d’intérieur non vide. Soit x appartenant à l’intérieur du domaine de f . Soit A l’intérieur de l’épigraphe de f , c’est-à-dire l’ensemble des couples (x, t) avec x dans l’intérieur du domaine de f et t > f (x). Alors A est un ouvert convexe non vide de Rn+1 et le point (x, f (x)) n’appartient pas à A. On peut donc séparer (x, f (x)) de A par un hyperplan. Il existe y ∈ Rn et α ∈ R tels que hy, xi + αf (x) < hy, x0 i + αt, pour tout (x0 , t) ∈ A. En appliquant cette inégalité à (x, f (x) + 1), qui appartient à A, on obtient α > 0. Posons y 0 = −y/α, on a donc hy 0 , x0 i − t ≤ hy 0 , xi − f (x), ∀(x0 , t) ∈ A. Comme epi(f ) est un convexe d’intérieur non vide, tout couple (x0 , t) appartenant à epi(f ) est limite d’éléments de son intérieur A (voir l’exercice 8). L’inégalité précédente est donc valable pour tout (x0 , t) ∈ epi(f ). Par conséquent hy 0 , x0 i − f (x0 ) ≤ hy 0 , xi − f (x), pour tout x0 ∈ Rn . Autrement dit y 0 ∈ ∂f (x). Dans le cas général on applique le résultat à la fonction f restreinte à l’espace affine F engendré par dom(f ). Pour tout x appartenant à l’intérieur relatif de dom(f ) il existe une fonction affine ` sur F qui touche f par en dessous en x. Alors n’importe quelle extension affine de ` à Rn aura la même propriété, puisque f = +∞ en dehors de F . Remarque. Attention si x appartient seulement au bord √ relatif du domaine de f alors f n’admet pas forcément de sous-gradient en x. Par exemple x 7→ − x en 0. Corollaire 49. Soit f une fonction convexe et propre, alors f est minorée par une fonction affine. Démonstration. D’après le résultat précédent, il existe x et y tels que y ∈ ∂f (x). C’est-à-dire f (x0 ) ≥ f (x) + hx0 − x, yi pour tout x0 ∈ Rn . Remarquons que la fonction f ∗ est propre si et seulement si f est minorée par une fonction affine. Pour une telle fonction f on peut s’intéresser à f ∗∗ . Comme f (x) + f ∗ (y) ≥ hx, yi pour tous x, y ∈ Rn , on a f (x) ≥ sup {hx, yi − f ∗ (x)} = f ∗∗ (x). y∈Rn Théorème 50. Soit f : Rn → R ∪ {+∞} une fonction propre, minorée par une fonction affine. On a epi(f ∗∗ ) = conv (epi(f )). Une autre manière de formuler ce théorème est la suivante : Si f est minorée par une fonction affine, alors f ∗∗ est la plus grande fonction convexe s.c.i qui soit plus petite que f . L’hypothèse est nécessaire : si f n’est pas minorée par une fonction affine, l’ensemble des fonctions convexes plus petites que f est vide. On dit que f ∗∗ est l’enveloppe convexe s.c.i. de f . Démonstration. On sait déjà que f ∗∗ ≤ f donc epi(f ∗∗ ) ⊃ epi(f ). De plus f ∗∗ étant convexe s.c.i. epi(f ∗∗ ) est convexe fermé, donc epi(f ∗∗ ) ⊃ conv (epi(f )). 18 Réciproquement si un point (x, t) de Rn+1 n’appartient pas à l’enveloppe convexe fermée de epi(f ) alors par Hahn-Banach (x, t) peut-être séparé de epi(f ) de manière stricte par un hyperplan : il existe y ∈ Rn , α ∈ R et > 0 tels que hx, yi + αt ≥ hx0 , yi + αt0 + pour tout (x0 , t0 ) ∈ epi(f ). En faisant tendre t0 vers +∞ on voit que α est nécessairement négatif. Si α < 0 on divise l’inégalité par −α, on pose y 0 = y/(−α) on obtient hx, y 0 i − t ≥ hx0 , y 0 i − f (x0 ) + pour tout x0 ∈ dom(f ). En prenant le sup en x0 il vient f ∗∗ (x) ≥ hx, y 0 i − f ∗ (y 0 ) ≥ t + , et donc (x, t) ∈ / epi(f ∗∗ ). Si α = 0, on obtient hx, yi ≥ hx0 , yi + pour tout x0 ∈ dom(f ). On sait que f est minorée par une fonction affine : il existe a ∈ Rn et b ∈ R tels que f (x) ≥ ha, xi + b, ∀x ∈ Rn . En combinant les deux dernières inégalités, on montre facilement que pour tout t > 0 f ∗ (a + ty) ≤ hx, tyi − tkyk22 − b. Et donc f ∗∗ (x) ≥ hx, a + tyi − f ∗ (a + ty) ≥ tkyk22 + b. En faisant tendre t vers l’infini on obtient f ∗∗ (x) = +∞, ce qui montre que (x, t) ∈ / epi(f ∗∗ ). Corollaire 51. Soit f : Rn → R ∪ {+∞} une fonction propre. Alors f ∗∗ = f si et seulement si f est convexe et semi-continue inférieurement. Démonstration. Le sens direct est clair : f ∗∗ est toujours convexe s.c.i. Réciproquement, supposons f convexe s.c.i. Alors f est minorée par une fonction affine et epi(f ) est convexe et fermé. Dans ce cas le théorème précédent donne epi(f ∗∗ ) = epi(f ), et donc f ∗∗ = f . Si f est convexe s.c.i. on a donc la série d’équivalence suivantes f (x) + f ∗ (y) = hx, yi ⇔ y ∈ ∂f (x) ⇔ x ∈ ∂f ∗ (y). En particulier on a le résultat suivant. Proposition 52. Si f est convexe s.c.i., l’image du domaine de f par ∂f contient l’intérieur du domaine de f ∗ . Exercice 24. À quelle condition sur A l’indicatrice de A est-elle semi-continue inférieurement ? Exercice 25. Soit p ≥ 1. Déterminer la transformée de Legendre de tp si t ≥ 0 p t 7→ +∞ sinon. 19 Exercice 26. Déterminer la transformée de Legendre de la fonction exponentielle. Exercice 27. Soit f : Rn → R ∪ {+∞} une fonction propre. À quelle condition a-t’on f = f ∗ ? Exercice 28. Soit K un corps convexe de Rn contenant 0 dans son intérieur et soit jK sa jauge. 1. Montrer que pour tout t ≥ 0 et pour tout y ∈ Rn sup{hx, yi; jK (x) = t} = t hK (y). 2. En déduire que si φ : R → R ∪ {+∞} est une fonction propre dont le domaine est inclus dans [0, +∞[, alors (φ ◦ jK )∗ = φ∗ ◦ hK . Exercice 29. Soit f une fonction convexe et x un point du domaine de f . Montrer que ∂f (x) est convexe et fermé. Exercice 30. Soit f1 , f2 : Rn → R ∪ {+∞} des fonctions propres. On définit l’inf-convolée de f et g par f1 f2 (x) = inf {f1 (x1 ) + f2 (x2 ); x1 + x2 = x} . 1. Montrer que (f1 f2 )∗ = f1∗ + f2∗ . 2. En déduire que si f1 et f2 sont convexes et s.c.i. (f1 + f2 )∗ = (f1∗ f2∗ )∗∗ 3. Montrer que pour toutes fonctions f1 , f2 on a epi(f1 ) + epi(f2 ) ⊂ epi(f1 f2 ) ⊂ epi(f1 ) + epi(f2 ) Exercice 31. On dit que Γ ⊂ Rn × Rn est cycliquement monotone si m X i=1 hxi , yi i ≥ m X hxi , yσ(i) i i=1 pour tout entier m, pour toute suite finie (xi , yi )m i=1 d’éléments de Γ et pour toute permutation σ ∈ Sm . 1. Soit f : Rn → R ∪ {+∞} une fonction convexe propre. Montrer que le graphe de la sousdifférentielle de φ {(x, y) ∈ Rn × Rn ; y ∈ ∂f (x)} est cycliquement monotone. Réciproquement, soit Γ un ensemble cycliquement monotone non vide, on fixe (x0 , y0 ) ∈ Γ arbitrairement et on pose ( ) m−1 m X X f (x) = sup hx, ym i + hxi , yi+1 i − hxi , yi i , i=0 i=0 le sup étant pris sur toutes les suites finies (xi , yi )m i=1 d’éléments de Γ. 2. Montrer que f (x0 ) = 0. 3. Montrer que f est convexe s.c.i. 4. Montrer que Γ est inclus dans le graphe de la sous-différentielle de f . 20 8 Convexité et différentiabilité Dans cette section, on se place en dimension finie. Définition 53. Soit f une fonction définie au voisinage d’un point x et soit v ∈ Rn . On dit que f admet une dérivée directionnelle en x dans la direction v, notée f 0 (x; v) si f 0 (x; v) = lim t→0+ f (x + tv) − f (x) t existe dans R. Remarque. Si f est différentiable en x alors f 0 (x; v) existe pour toute direction v et on a f 0 (x; v) = h∇f (x), vi. Définition 54. Soit f définie au voisinage d’un point x. On dit que f est Gâteaux-différentiable en x si elle admet des dérivées dans toutes les directions, et s’il existe y ∈ Rn tel que pour tout v f 0 (x; v) = hy, vi. On pose alors y = f 0 (x). Remarque. Si f est différentiable en x alors f est Gâteaux-différentiable en x et f 0 (x) = ∇f (x). Lemme 55. Soit f une fonction convexe et x dans l’intérieur du domaine de f . Alors pour toute direction v, la dérivée directionnelle f 0 (x; v) existe, et il existe y ∈ ∂f (x) tel que f 0 (x; v) = hy, vi. Démonstration. Considérons la fonction t 6= 0 7→ f (x + tv) − f (x) . t Comme x est dans l’intérieur de dom(f ) elle prend des valeurs finies au voisinage de 0. La convexité de f implique qu’elle est croissante sur R\{0}. Elle admet donc une limite à droite en 0. De plus cette limite vérifie tf 0 (x; v) ≤ f (x + tv) − f (x) pour tout t ∈ R. La deuxième partie du lemme est encore une conséquence de Hahn-Banach. Soit A l’intérieur de l’épigraphe de f et soit D la droite affine suivante D = {(x, f (x)) + t(v, f 0 (x; v)), t ∈ R}. L’inégalité précédente montre que D ∩ A = ∅. Comme D est convexe et A convexe ouvert, il existe y ∈ Rn et α ∈ R tels que hy, x0 i + αs < hy, x00 i + αt. (3) pour tout (x0 , s) ∈ A et (x00 , t) ∈ D. En appliquant ceci à (x00 , t) = (x, f (x)) et en raisonnant de la même manière que dans la preuve du Théorème 48 on montre que α > 0 et que y 0 = −y/α ∈ ∂f (x). L’inégalité (3) implique alors −hy 0 , xi + f (x) ≤ −hy 0 , x00 i + t, pour tout (x00 , t) ∈ D. En appliquant ceci à (x + v, f (x) + f 0 (x; v) et (x − v, f (x) − f 0 (x; v) on obtient f 0 (x; v) = hy 0 , vi, ce qu’il fallait démontrer. 21 Au passage on a vu que si f est convexe alors f (x + v) ≥ f (x) + f 0 (x; v) pour tout x, v. Proposition 56. Soit U un ouvert convexe de Rn et soit f : U → R une fonction Gâteauxdifférentiable sur U . Les assertions suivantes sont équivalentes : (i) f est convexe sur U . (ii) f (y) ≥ f (x) + hf 0 (x), y − xi, ∀x, y ∈ U . (iii) hf 0 (y) − f 0 (x), y − xi ≥ 0, ∀x, y ∈ U . Démonstration. On a déjà vu que (i) ⇒ (ii). Réciproquement si (ii) est vraie alors f (x) ≥ f ((1 − t)x + ty) + hf 0 ((1 − t)x + ty) , t(x − y)i f (y) ≥ f ((1 − t)x + ty) + hf 0 ((1 − t)x + ty) , (1 − t)(y − x)i. En multipliant la première inégalité par (1 − t), la deuxième par t et en sommant on obtient (1 − t)f (x) + tf (y) ≥ f ((1 − t)x + ty) , ce qui montre que f est convexe. L’équivalence entre (ii) et (iii) est laissée en exercice. Corollaire 57. Si f est deux fois différentiable sur U et si D2 f (x) ≥ 0 en tout point de U alors f est convexe. Démonstration. D’après la formule de Taylor Z 1 f (y) = f (x) + h∇f (x), y − xi + (1 − t)D2 f ((1 − t)x + ty) (y − x, y − x) dt 0 ≥ f (x) + h∇f (x), y − xi. D’après le lemme précédent f est convexe. Il n’est pas vrai en général qu’une fonction Gâteaux-différentiable est différentiable. On a néanmoins le résultat suivant. Lemme 58. Soit f : Rn → R ∪ {+∞} une fonction convexe et soit x dans l’intérieur du domaine de f . Si f est Gâteaux-différentiable en x alors f est différentiable et f 0 (x) = ∇f (x). Démonstration. Quitte à remplacer f par y 7→ f (x + y) − f (x) − hy, f 0 (x)i on peut supposer que x = 0 et f 0 (0) = 0. On sait alors que f ≥ 0 et que pour toute direction v f (tv) = o(t), quand t → 0. Soit y ∈ Rn , comme y ∈ kyk1 B1n , qui est l’enveloppe convexe des {±kyk1 ei , i ≤ n} , la convexité de f implique f (y) ≤ max {f (±kyk1 ei ) , i ≤ n} . En combinant ceci avec (4), on obtient f (y) = o (kyk1 ) , ce qui montre que f est différentiable en 0 et que son gradient est nul. 22 (4) Proposition 59. Soit f convexe et soit x dans l’intérieur du domaine de f . Alors f est différentiable en x si et seulement si ∂f (x) est un singleton. On a alors ∂f (x) = {∇f (x)}. Démonstration. Supposons que f est différentiable en x. On sait que pour toute direction v f (x + v) − f (x) ≥ f 0 (x; v) = h∇f (x), vi. autrement dit ∇f (x) ∈ ∂f (x). Si y ∈ ∂f (x), on a pour tout v ∈ Rn et t > 0 f (x + tv) − f (x) ≥ thy, vi. En divisant pas t et en faisant tendre t vers 0 on obtient h∇f (x), vi ≤ hy, vi. Comme ceci est valable pour tout v on en déduit y = ∇f (x). Réciproquement, si ∂f (x) = {y} le Lemme 55 montre que f 0 (x; v) existe pour toute direction v et f 0 (x; v) = hv, yi. Autrement dit f est Gâteaux-différentiable en x de dérivée y. Le lemme précédent permet alors de conclure. Exercice 32. Soit f : R → R ∪ {+∞} une fonction convexe propre. Soit I l’intérieur du domaine de f . Pour x ∈ I on pose 0 0 f+ (x) = f 0 (x; 1) et f− (x) = f 0 (x; −1). On appelle D l’ensemble des points de dérivabilité de f . 0 0 0 0 . ≤ f+ sont croissantes sur I et que f− et f− 1. Montrer que f+ 0 0 2. Montrer que f+ est continue à droite et que f− est continue à gauche. 0 0 > 0} est au plus dénombrable. − f− 3. Montrer que l’ensemble {f+ 4. En déduire que le complémentaire de D est au plus dénombrable et que f 0 est continue sur D. Exercice 33. Soit f : Rn → R ∪ {+∞} une fonction convexe et soit x dans l’intérieur de son domaine. 1. Montrer que v ∈ Rn 7→ f 0 (x; v) est 1-homogène et sous-additive. 2. En déduire que si f 0 (x; v) = f 0 (x, −v) pour toute direction v, alors f est dérivable en x. 3. Montrer qu’il suffit même de vérifier cette égalité pour les vecteurs d’une base de Rn . Exercice 34. Soit f : Rn → R ∪ {+∞} une fonction convexe et soit A l’intérieur du domaine de f. 1. Soit v ∈ Rn , on pose B = {x ∈ A; f 0 (x; v) − f 0 (x; −v) > 0} . Montrer que l’intersection de B avec toute droite parallèle à v est au plus dénombrable. 2. En déduire que f 0 (x; v) = f 0 (x; −v) pour presque tout x de A. 3. Montrer que f est dérivable en presque tout point de A. Exercice 35. Soit f : Rn → R ∪ {+∞} une fonction convexe propre. On suppose que f est strictement convexe sur son domaine : x+y f (x) + f (y) ∀x 6= y ∈ dom(f ), f < . 2 2 1. Montrer que la sous-différentielle de f est injective, au sens où ∂f (x) ∩ ∂f (y) = ∅, ∀x 6= y ∈ dom(f ). 2. En déduire que f ∗ est différentiable sur l’intérieur de son domaine. 23 9 Le théorème de Krein-Milman Dans cette section on se place dans un espace vectoriel topologique localement convexe E. Définition 60. Soit K un sous-ensemble convexe de E. On dit que F ⊂ K est une face de K si F est convexe et si (1 − t)x + ty ⇒ x, y ∈ F, pour tous x, y ∈ F et pour tout t ∈]0, 1[. On dit que x ∈ K est un point extrémal de K si pour tout {x} est une face de K, ce qui revient à dire que x ne peut pas s’écrire comme demi-somme de deux points distincts de K. Lemme 61. Soit K un convexe et F une face de K. Si F 0 est une face de F , alors F 0 est une face de K. La démonstration est laissée en exercice. Lemme 62. Soit K un convexe et soit φ une forme linéaire atteignant son maximum sur K. Alors l’ensemble n o F = x ∈ K; φ(x) = max φ K est une face de K. Démonstration. Il est clair que F est convexe. Soient x, y ∈ K et soit t ∈]0, 1[. On a φ(x) ≤ max φ etφ(y) ≤ max φ. K K Si une des deux inégalités est stricte alors φ ((1 − t)x + ty) = (1 − t)φ(x) + tφ(y) < max φ. K On a ainsi montré la contraposée de l’implication voulue. Proposition 63. Soit K un convexe compact non vide, alors K possède au moins un point extrémal. Démonstration. Le résultat est évident si K est un singleton. Si K contient deux points distincts x et y, il existe d’après Hahn-Banach φ ∈ E ∗ telle que φ(x) < φ(y). Comme K est compact et φ continue, φ atteint son maximum sur K. D’après ce qui précède F = {x ∈ K; φ(x) = max φ}. K est une face de K. De plus F est fermée, donc compacte. Si K est de dimension finie n alors F est de dimension n − 1 au plus. En dimension finie on peut donc raisonner par récurrence : F étant un compact convexe de dimension strictement plus petite que K admet un point extrémal z (hypothèse de récurrence). Et comme F est une face de K, le point z est aussi extrémal pour K (voir le lemme ci-dessus). Pour le cas général, on renvoie à l’annexe 2. Théorème 64 (Krein-Milman). Soit K un ensemble convexe compact de E, alors K est l’enveloppe convexe fermée de ses points extrémaux. Démonstration. Soit K 0 l’enveloppe convexe fermée des points extrémaux de K. Alors K 0 est un sous-ensemble convexe compact de K. Supposons par l’absurde que K 0 6= K et donc qu’il existe x ∈ K\K 0 . Par Hahn-Banach, on peut séparer strictement x de K 0 : il existe φ ∈ E ∗ et > 0 tel que φ(y) + < φ(x), ∀y ∈ K 0 . À nouveau, posons F = {x ∈ K; φ(x) = max φ}. K Alors F est un convexe compact non vide. D’après la proposition précédente F admet un point extrémal y, qui est aussi un point extrémal de K puisque F est une face de K. Du coup y ∈ K 0 et on a la contradiction suivante φ(y) < φ(x) ≤ max φ = φ(y). K 24 Remarque. Toutes les hypothèses du théorème sont nécessaires. Par exemple R ou ]0, 1[ sont des sous-ensembles convexes de R qui ne possèdent pas de point extrémal. La demi droite [0, +∞[ possède un seul point extrémal : 0, elle n’est donc pas égale à l’enveloppe convexe fermée de ses points extrémaux. n Exercice 36. Déterminer les points extrémaux de B2n , B1n , B∞ . Exercice 37. Soit K ⊂ Rn un polytope définit par m contraintes affines : K= m \ {x ∈ Rn , hx, yi i ≤ ai } . i=1 Soit x ∈ K et soit I = {i ≤ m, hx, yi i = ai } l’ensemble des contraintes saturées par x. Montrer que x est un point extrémal de K si et seulement si vect(yi , i ∈ I) = Rn . Exercice 38 (Théorème de Birkhoff-Von Neumann). On dit qu’une matrice (aij )i,j≤n est doublement stochastique si ses coefficients sont tous positifs et si n X i=1 n X aij = 1, ∀j ≤ n aij = 1, ∀i ≤ n (5) j=1 On appelle K l’ensemble des matrices doublement stochastiques. 1. Montrer que K est convexe. 2. Montrer que les matrices de permutation sont des points extrémaux de K. 2 3. Montrer que l’ensemble F des matrices vérifiant (5) est un sous-espace affine de Rn de dimension (n − 1)2 . 4. En déduire que si (aij )i,j≤n est un point extrémal de K, alors au moins (n − 1)2 de ses coefficients sont nuls. Indication : Utiliser l’exercice précédent. 5. En déduire qu’il existe (i, j) tels que aij = 1. 6. En raisonnant par récurrence sur n montrer que les points extrémaux de K sont les matrices de permutation. On va maintenant donner quelques exemples d’applications de Krein-Milman en dimension infinie. On utilise la notion de de topologie faible ∗, rappelée en annexe 3. Exercice 39. Soit C l’espace des fonctions continues sur [0, 1], muni de la norme kf k = sup |f (x)|, x∈[0,1] et on appelle B sa boule unité. 1. Soit f ∈ B telle qu’il existe x ∈ R tel que |f (x)| < 1. Montrer que f n’est pas un point extrémal de B. 2. En déduire que B ne possède que deux points extrémaux, et les identifier. 3. En déduire que C n’a pas de prédual : il n’existe pas d’espace de Banach E tel que E ∗ = C. 4. Que se passe-t’il si l’on remplace C par L∞ ([0, 1]) ? Exercice 40. On considère l’espace L1 ([0, 1], B([0, 1]), λ) où λ est la mesure de Lebesgue. Soit B sa boule unité fermée : B = {f ∈ L1 , kf k1 ≤ 1}. 25 1. Soit f ∈ B non nulle. Montrer qu’il existe t ∈ [0, 1] tel que Z t 1 |f | ds = kf k1 . 2 0 2. En déduire que f n’est pas un point extrémal de B. 3. Montrer que la fonction nulle n’est pas non plus un point extrémal de B. 4. À nouveau, en déduire que L1 ([0, 1]) n’a pas de prédual. Exercice 41. On considère à nouveau l’espace C des fonctions continues sur [0, 1] muni de la norme uniforme. Une forme linéaire sur φ sur C est dite positive si elle vérifie f ≥ 0 ⇒ φ(f ) ≥ 0, ∀f ∈ C. On appelle K l’ensemble des formes linéaires φ positives sur C vérifiant φ(1) = 1 (où 1 est simplement la fonction constante égale à 1). 1. On appelle Dirac en t l’application δt : f ∈ C 7→ f (t). Montrer que δt ∈ K. 2. Montrer que si φ est positive alors φ est continue et kφk∗ ≤ φ(1), 3. Montrer que K est un sous-ensemble convexe de C ∗ . 4. Montrer que K est compact pour la topologie faible ∗. 5. Soit t ∈ [0, 1] et soient φ, ψ ∈ K telles que φ+ψ = δt . 2 Soit f ∈ C une fonction atteignant son maximum en t, montrer que φ(f ) = ψ(f ) = f (t). 6. Montrer que toute fonction de C peut s’écrire comme la différence de deux fonctions atteignant leur maximum en t. En déduire que δt est un point extrémal de K. 7. Soit φ un point extrémal de K et soit h ∈ C vérifiant 0 < h < 1. Montrer que f 7→ φ(hf ) φ(h) et f 7→ φ((1 − h)f ) φ(1 − h) appartiennent à K. 8. En déduire que φ(hf ) = φ(h)φ(f ). Montrer que cette égalité reste vraie sans l’hypothèse 0 < h < 1. 9. En déduire que f > 0 ⇒ φ(f ) > 0, ∀f ∈ C. 10. Montrer que toute suite finie f1 , . . .P , fn d’éléments de ker(φ) possède un 0 commun. n Indication : Considérer la fonction i=1 fi2 . 11. En déduire qu’il existe t ∈ [0, 1] tel que ker(φ) ⊂ ker(δt ), puis que φ = δt . On a donc montré que les points extrémaux de K sont exactement les Dirac. 26 10 Optimisation convexe On se donne f, g1 , . . . , gk des fonctions convexes propres sur Rn et h1 , . . . , hl des fonctions affines sur Rn . On s’intéresse au problème suivant (P) minimiser f (x) sous contraintes gi (x) ≤ 0, hi (x) = 0, ∀i ≤ k ∀i ≤ l. On dit que (P) est un problème d’optimisation convexe. Dans la suite on appellera C le domaine de f et on supposera que le domaine des fonctions fi contient C. Ce n’est pas vraiment une restriction, on peut toujours se ramener à cette situation en posant f = +∞ T en dehors de dom(fi ). Comme les fonctions gi sont convexes et les fonctions hi sont affines, l’ensemble des x vérifiant les contraintes gi (x) ≤ 0, i≤k hi (x) = 0, i≤l (6) est convexe. On appelle valeur du problème la quantité α = inf{f (x); x vérifie (6)} et on dit que x est une solution de P si x vérifie les contraintes (6) et f (x) = α. Le but de ce chapitre est de donner un critère pratique permettant de déterminer les solutions de (P). Faisons d’abord quelques remarques sur la minimisation sans contraintes d’une fonction convexe. Soit f : Rn → R ∪ {+∞} une fonction convexe propre. Alors f atteint son minimum en x si et seulement si 0 ∈ ∂f (x). En effet, par définition du sous-gradient 0 ∈ ∂f (x) si et seulement si f (x0 ) ≥ f (x), ∀x0 ∈ Rn . Remarquons aussi que f minorée si et seulement si 0 ∈ dom(f ∗ ). Enfin f atteint son minimum si et seulement si ∂f ∗ (0) 6= ∅, ce qui est le cas en particulier si 0 est dans l’intérieur relatif du domaine de f ∗ . Par exemple f : x 7→ ex est convexe sur R. Elle est minorée mais n’atteint pas son minimum. Sa transformée de Legendre est donnée par y ln(y) − y si y ≥ 0 ∗ f : y 7→ +∞ sinon. En particulier 0 est au bord du domaine de f ∗ et la dérivée à droite de f ∗ en 0 vaut −∞ ce qui montre que le sous-gradient de f ∗ en 0 est vide. Définition 65. Le Lagrangien associé au problème P est la fonction Pk Pl f (x) + i=1 λi gi (x) + i=1 µi hi (x), si λ1 ≥ 0, . . . , λk ≥ 0, n k l L : (x, λ, µ) ∈ R × R × R 7→ −∞, sinon. Remarquons que la fonction L est convexe en x et concave en (λ, µ). Définition 66. Supposons que la valeur du problème (P) n’est pas −∞. On dit que (µ, λ) ∈ Rk ×Rl est un vecteur de Karush-Kuhn-Tucker (noté KKT dans la suite) inf {L(x, λ, µ)} = inf {f (x); x vérifie (6)} . x∈Rn Ceci implique en particulier que les λi sont positifs. 27 Remarque. Soit (λ, µ) tel que les λi soient positifs. Si x vérifie les contraintes (6) alors L(x, λ, µ) ≤ f (x). Par conséquent (λ, µ) est vecteur KKT si et seulement si L(x, λ, µ) ≥ inf {f (x0 ); x0 vérifie (6)} , ∀x ∈ Rn . Il suffit même de vérifier cette inégalité pour les x du domaine C de f puisque L(x, λ, µ) = +∞ en dehors. Proposition 67. Soient (x, λ, µ) ∈ Rn × Rk × Rl , x est solution de (P) et (λ, µ) est un vecteur KKT si et seulement si x vérifie les contraintes (6) et les conditions : ∀i ≤ k λi gi (x) = 0, 0∈∂ f+ k X λi gi + i=1 l X ! µi hi (7) . i=1 Démonstration. Si x est solution de P et (λ, µ) un vecteur KKT alors L(x, λ, µ) ≥ α = f (x). Mais x vérifie aussi les contraintes (6). On obtient donc k X λi gi (x) ≥ 0, i=1 λi gi (x) ≤ 0, 1≤i≤k ce qui implique λi fi (x) = 0, 1 ≤ i ≤ k. De plus x minimise la fonction f+ k X λi gi + i=1 l X µi hi i=1 qui est convexe. On a donc 0∈∂ f+ k X λi gi + l X ! µi hi (x). i=1 i=1 La réciproque se fait de manière similaire. Donc pour chaque contrainte en inégalité, soit x sature la contrainte, soit le multiplicateur correspondant est nul. La deuxième condition se simplifie en ∇f (x) + k X λi ∇gi (x) + i=1 l X µi hi (x) = 0 i=1 lorsque les fonctions f, g1 , . . . , gk sont dérivable en x. Lorsque les fonctions ne sont pas dérivables, on a quand même dans la plupart des cas (voir l’exercice 44 plus loin) ! k l k l X X X X ∂ f+ λi gi + µi hi (x) = ∂f (x) + λi ∂gi (x) + µi ∂hi (x). i=1 i=1 i=1 i=1 Théorème 68. On suppose que la valeur du problème P n’est pas −∞ et que la condition suivante, dite condition de Slater, est vérifiée : Il existe x dans l’intérieur relatif de C vérifiant les contraintes (6) et vérifiant de plus gi (x) < 0 pour tout i tel que la fonction gi ne soit pas affine sur C. Alors le problème (P) admet un vecteur KKT. 28 La démonstration repose sur le lemme de séparation suivant. Lemme 69. Soit K un ensemble convexe quelconque et soit C un cône convexe engendré par un nombre fini de vecteurs. Si C ne rencontre pas l’intérieur relatif de K on peut séparer K de C au sens suivant : il existe y ∈ C ∗ hy, xi ≤ 0, ∀x ∈ K et tel que l’inégalité précédente soit stricte pour au moins un élément de K. Démonstration. Quitte à remplacer K par R+ K on peut supposer que K aussi est un cône (détails laissés en exercice). Soit E l’espace vectoriel engendré par K et soit K0 l’intérieur relatif de K, c’est-à-dire l’intérieur de K vu comme sous-ensemble de E. Vus comme sous-ensemble de E les convexes C ∩ F et K0 sont disjoints et K0 est ouvert. Donc il existe une forme linéaire φ sur E qui sépare E ∩ C de K0 : φ(x) < φ(x0 ), ∀x ∈ K0 , ∀x0 ∈ E ∩ C. Comme E ∩ C est un cône de E il est facile de voir que ceci implique en fait φ(x) < 0, ∀x ∈ K0 et φ(x0 ) ≥ 0, ∀x0 ∈ E ∩ C. On pose H = {φ = 0} et D = H + C. Alors D est un cône engendré par un nombre fini de vecteurs (rappelons que H est de dimension finie), en particulier D est un cône fermé, et D ∩ K0 = ∅ (puisque φ est positive sur D ∩ E et strictement négative sur K0 ). Soit x0 ∈ K0 . Alors x0 ∈ / D et comme D est un cône fermé il existe y ∈ D∗ tel que hx0 , yi < 0. Comme C ⊂ D on a D∗ ⊂ C ∗ donc y ∈ C ∗ . D’autre part comme H ⊂ D et y ∈ D∗ on a hx, yi ≥ 0 pour tout x ∈ H et donc en fait hx, yi = 0 puisque −x appartient aussi à H. Autrement dit, en appelant ψ la forme linéaire sur E définie par ψ(x) = hx, yi, ∀x ∈ E, on obtient ker(φ) ⊂ ker(ψ) et donc ψ = λφ pour un certain réel λ. De plus comme φ(x0 ) et ψ(x0 ) sont strictement négatifs tous les deux, on a forcément λ > 0. On en déduit hx, yi = λφ(x) < 0, ∀x ∈ K0 . Bien sûr, ceci implique l’inégalité large pour tout x ∈ K, ce qui termine la preuve. Démonstration du Théorème 68. On commence par prouver le théorème quand il n’y a pas de contraintes en égalité. On considère donc le problème (P0 ) minimiser f (x) sous contraintes gi (x) ≤ 0, ∀i ≤ k. On suppose que g1 , . . . , gr sont convexes et non-affines, et que gr+1 , . . . , gk sont affines. Soit K l’ensemble des (t, y) ∈ Rk+1 tels qu’il existe x ∈ Rn tel que f (x) − α < t gi (x) < yi , 1≤i≤r gi (x) = yi , r + 1 ≤ i ≤ k, en appelant α la valeur du problème (P0 ). L’ensemble K n’est pas vide, puisque pour tout x dans C et pour tout > 0, le vecteur (t, y) donné par t = f (x) − α + yi = gi (x) + , yi = gi (x), 1≤i≤r r+1≤i≤k 29 appartient à K. En utilisant la convexité des gi pour i ≤ r et le caractère affine des gi pour i ≥ r +1 on montre facilement que K est convexe. De plus par définition de α le convexe K n’intersecte pas C = (R− )k+1 = pos(−e1 , . . . , −ek+1 ), où les ei sont les vecteurs de la base canonique. Comme C ∗ = C le lemme précédent montre qu’il existe (τ, λ) ∈ R × Rk à coordonnées positives et vérifiant τ t + hy, λi ≥ 0, (8) pour tout (t, y) ∈ K, et avec une inégalité stricte pour au moins un élément de K. D’après ce qui précède cette inégalité implique τ (f (x) − α + ) + r X λi (gi (x) + ) + i=1 k X λi hi (x) ≥ 0, i=r+1 pour tout x ∈ C et pour tout > 0. En faisant tendre vers 0 on obtient τ f (x) + k X λi gi (x) ≥ τ α. i=1 pour x ∈ C. Si τ > 0 on en déduit que τ1 λ est un vecteur KKT pour le pour le problème (P0 ). Supposons τ = 0 et (λ1 , . . . , λr ) 6= 0. On obtient k X λi gi (x) ≥ 0 i=1 pour tout x ∈ C. Or, d’après l’hypothèse, il existe x satisfaisant gi (x) ≤ 0 pour tout i ≤ k, avec inégalité stricte si i ≤ r. Comme les (λi )i≤k sont tous négatifs et que l’un au moins des (λi )i≤r est strictement négatif, on en déduit k X λi gi (x) < 0. i=1 On obtient donc une contradiction. Supposons maintenant (τ, λ1 , . . . , λr ) = 0. L’inégalité (8) se ramène alors à k X λi gi (x) ≥ 0, (9) i=r+1 P pour tout x ∈ C avec inégalité stricte pour au moins un x de C. La fonction g = i≥r+1 λi gi est affine et positive sur C. On sait aussi par hypothèse qu’il existe x dans l’intérieur de C tel g(x) ≤ 0. Ceci implique facilement que g est constante égale à 0 sur C. On a donc toujours égalité dans (9) ce qui donne encore une contradiction. Par conséquent on a bien τ > 0, ce qui termine la preuve dans le cas où il n’y que des contraintes en inégalités. Dans le cas où il y a des contraintes en égalité on se ramène au cas précédent en considérant le problème minimiser f (x) sous les contraintes gi (x) ≤ 0, ∀i ≤ k (P1 ) hi (x) ≤ 0, ∀i ≤ l −hi (x) ≤ 0, ∀i ≤ l, qui reste un problème convexe puisque les fonctions hi sont supposées affines. La démonstration qui précède s’applique et on trouve un vecteur KKT (λ1 , . . . , λk , µ1 , . . . , µl , µ01 , . . . , µ0l ) pour (P1 ). Il est ensuite facile de vérifier que (λ1 , . . . , λk , µ1 − µ01 , . . . , µl − µ0l ) est un vecteur KKT pour (P). 30 Corollaire 70. On suppose que le problème (P) vérifie les hypothèses du théorème précédent. Alors x est solution de (P) si et seulement s’il existe (λ, µ) tel que x vérifie les contraintes (6) et les conditions de KKT (7). Exercice 42. Soit A, B deux convexes fermés d’un espace vectoriel topologique localement convexe E. 1. Montrer par un exemple que A + B n’est pas forcément fermé. On appelle cône de récession de A, noté rec(A) l’ensemble des vecteurs v ∈ Rn vérifiant x + v ⊂ A, pour tout x ∈ A. 2. Montrer que rec(A) est un cône convexe. 3. Montrer que si (xn ) est une suite d’éléments de A et (λn ) une suite de réels positifs tendant vers 0 telle que (λn xn ) converge alors lim λn xn ∈ rec(A). n 4. En déduire que si A contient une demi-droite x + R+ v alors v ∈ rec(A). 5. Montrer que si A et −B n’ont pas de direction de récession (non nulle) commune alors A + B est fermé. 6. Montrer qu’en dimension finie rec(A) = {0} si et seulement si A est borné. Exercice 43. Soient f1 , f2 : Rn → R ∪ {+∞} deux fonctions convexes propres. On a vu (exercice 30) que (f1 + f2 )∗ = (f1∗ f2∗ )∗∗ . L’objectif de cet exercice est de donner une condition suffisante pour pouvoir enlever la double étoile de l’égalité précédente. Supposons que f1 et f2 sont convexes s.c.i. et que les intérieurs de leurs domaines sont non vides et ont un point commun x. 1. Montrer que si (v, α) ∈ Rn × R est non nul et appartient au cône de récession de l’épigraphe de f1∗ alors α + hv, xi > 0. Indication : Commencer par le cas x = 0. 2. En utilisant l’exercice 42 montrer que epi(f1∗ ) + epi(f2∗ ) est fermé. 3. En utilisant l’exercice 30 montrer que (f1 + f2 )∗ = f1∗ f2∗ et que pour tout y dans le domaine de f1∗ f2∗ , il existe y1 , y2 tels que y1 + y2 = y et f1∗ (y1 ) + f2∗ (y2 ) = f1∗ f2∗ (y). Exercice 44. Soient f1 , f2 : Rn → R ∪ {+∞} deux fonctions convexes propres. 1. Montrer que pour tout x ∈ Rn ∂f1 (x) + ∂f2 (x) ⊂ ∂(f1 + f2 )(x). 2. Montrer par un exemple que l’inclusion réciproque n’est pas forcément vraie. 3. Montrer que si f1 et f2 vérifient la condition de l’exercice précédent alors pour tout x ∈ Rn ∂(f1 + f2 )(x) = ∂f1 (x) + ∂f2 (x). 31 Exercice 45. Étant données µ, ν deux mesures de probabilité sur {1, . . . , m} et {1, . . . , n} respectivement et une fonction de coût c : {1, . . . , m} × {1, . . . , n} → R+ on veut minimiser X cij πij ij sur l’ensemble des mesures de probabilité π sur le produit {1, . . . , m} × {1, . . . , n} ayant comme première et deuxième marginales µ et ν respectivement (on dit que π est un couplage de µ, ν). 1. Montrer qu’il s’agit d’un problème d’optimisation convexe. 2. Montrer qu’il admet au moins une solution π. 3. Montrer qu’un couplage π de µ, ν est solution du problème si et seulement s’il existe f : {1, . . . , n} → R et g : {1, . . . , n} → R telles que fi + gi ≤ cij , ∀i, j avec égalité pour tout (i, j) appartenant au support de π (égalité π-presque partout). 4. Montrer que la valeur du problème est donnée par m X fi µi + i=1 n X j=1 32 gj νj . 11 Le théorème de John On dit que E ⊂ Rn est un ellipsoïde si E est l’image de la boule euclidienne par une application affine de Rn dans Rn bijective : il existe une matrice inversible A et un vecteur u tels que E = A−1 (B2n ) + u. On a alors x∈E ⇔ kA(x + u)k12 ≤ 1 ⇔ hAT A(x − u), x − ui ≤ 1 ce qui montre que E ne dépend en fait que de AT A. Quitte à remplacer A par √ AT A on peut supposer que A est symétrique définie positive, auquel cas la mesure de Lebesgue de E est proportionnelle à l’inverse du déterminant de A. Quitte à remplacer u par −Au on peut supposer que E = A−1 (B2n − u), auquel cas x∈E ⇔ kAx + uk22 ≤ 1. Étant donné un convexe compact d’intérieur non vide K, on cherche à minimiser la mesure de E parmi les ellipsoïdes contenant K. Ceci revient donc à minimiser − log(det(A)) sous contraintes kAx + uk22 ≤ 1, ∀x ∈ K, avec une contrainte implicite supplémentaire que A doit être une matrice symétrique définie positive. On appellera problème de John ce problème dans la suite. L’ensemble des matrices symétriques est noté Sn c’est un espace vectoriel de dimension n(n + 1)/2. Lemme 71. La fonction A ∈ Sn 7→ − log det(A) si A est définie positive +∞ sinon est strictement convexe. Démonstration. Il s’agit de montrer que pour tout t ∈ (0, 1) et pour toutes matrices A, B définies positives det((1 − t)A + tB) ≥ det(A)1−t det(B)t , avec égalité si et seulement si A = B. En factorisant à droite et à gauche par A−1/2 on se ramène au cas A = id, qui est facile. Les détails sont laissés en exercice. Donc (A, u) 7→ − log(det(A)) est convexe. Comme par ailleurs les fonctions (A, u) 7→ kAx + uk22 sont aussi convexes, le problème de John est un problème d’optimisation convexe avec une infinité de contraintes. Théorème 72. Soit K un convexe compact K d’intérieur non vide. Il existe un unique ellipsoïde contenant K de volume maximal, appelé ellipsoïde de John de K. 33 Démonstration. Il faut minimiser − ln(det(A)) sous les contraintes kAx + uk22 ≤ 1, ∀x ∈ K. Comme K est d’intérieur non vide K contient une boule euclidienne de rayon . Soit z son centre, soit x de norme 1 et soit (A, u) vérifiant la contrainte ci-dessus. Alors z + x et z − x appartiennent à K, et comme 1 1 Ax = (A(z + x) + u) − (A(z − x) + u) 2 2 on a par convexité de la norme 2 kAxk22 ≤ 1 1 kA(z + x) + uk22 + kA(z − x) + uk22 ≤ 1. 2 2 Ceci montre que les valeurs propres de A sont majorées par 1/. En particulier le déterminant de A est majoré et la valeur du problème n’est pas −∞. Soit (An , un ) une suite minimisante pour le problème. D’après ce qui précède les valeurs propres de An sont majorées et le déterminant de An converge vers une constante strictement positive. Ceci montre que les valeurs propres de A sont aussi minorées. Quitte à extraire on peut donc supposer que An converge vers une matrice A définie positive. On déduit alors facilement de la contrainte que la suite (un ) est nécessairement bornée ; donc convergente quitte à extraire à nouveau. La limite de (An , un ) est alors une solution du problème de John. Pour l’unicité, la stricte concavité du déterminant montre que si (A, u) et (B, v) sont deux solutions alors A = B. On a donc K ⊂ A−1 (B2n − u) ∩ A−1 (B2n − v) = A−1 ((B2n − u) ∩ (B2n − v)) . Supposons par l’absurde que u 6= v et posons = ku − vk2 /4 . Il est facile de voir que √ u+v (B2n − u) ∩ (B2n − v) ⊂ 1 − B2n − 2 Par conséquent l’ellipsoïde √ u+v 1 − A−1 B2n − 2 contient K et à un volume strictement plus petit que A−1 (B2n − u), contredisant l’optimalité de (A, u). Remarque. Il est facile de voir que l’ellipsoïde de John est un invariant affine : si E est l’ellipsoïde de John de K et T : Rn → Rn est affine et bijective, alors T E est l’ellipsoïde de John de T K. Par conséquent pour tout K il existe T tel que l’ellipsoïde de John soit la boule Euclidienne. On dit que K est en position de John. Une autre conséquence de cette remarque est que si K admet un centre de symétrie x alors son ellipsoïde de John est aussi centré en x. Théorème 73. Un convexe compact d’intérieur non vide K est en position de John si et seulement si K est contenu dans B2n et il existe r entier, c1 , . . . , cr des réels positifs et x1 , . . . , xr appartenant à ∂K ∩ Sn−1 tels que r X ci xi = 0 i=1 r X (10) T ci xi (xi ) = id. i=1 34 Démonstration. On va se contenter de faire la démonstration dans le cas où K est un polytope : il existe x1 , . . . , xm tels que K = conv{x1 , . . . xm }. Le problème est plus simple dans ce cas puisque la condition K ⊂ E est équivalente à xi ∈ E, 1 ≤ i ≤ m. Le problème de John devient donc (P) minimiser − log(det(A)) sous contraintes kAxi + uk22 ≤ 1, i = 1, . . . , m qui est un problème d’optimisation convexe. La fonction à optimiser est la fonction convexe f : (A, u) ∈ Sn × Rn 7→ − log(det(A)). Les fonctions donnant les contraintes sont les fonctions gi : (A, u) ∈ Sn × Rn 7→ kAxi + uk22 − 1 i = 1, . . . , m qui sont convexes. Le problème (P) vérifie la condition de Slater : soit > 0, alors ( id, 0) est dans l’intérieur du domaine de f et gi (id, 0) = 2 kxi k22 − 1 sera strictement négatif pour tout i ≤ m si est suffisamment petit. Le problème (P) admet donc un vecteur KKT, qu’on note λ. Supposons que K soit en position de John. Alors (id, 0) est solution du problème (P). Par conséquent (id, 0) vérifie les contraintes et les conditions de KKT λi gi (id, 0) = 0, i = 1, . . . , m m X 0 = ∂(f + λi ∇gi )(id, 0). i=1 Soit I = {i ≤ m; λi > 0}. La première condition KKT devient kxi k22 = 1 pour tout i ∈ I. Autrement dit xi est un point de contact entre K et le bord de B2n . Si A et B sont des matrices symétriques le produit scalaire entre A et B s’écrit X hA, Bi = Aij Bij = tr(AB). ij De plus pour toute matrice symétrique H on a det(id + H) = 1 + tr(H) + o(H). Ceci montre que f est dérivable en (id, 0) et que son gradient vaut ∇f (id, 0) = (−id, 0) De manière similaire les fonctions gi sont dérivables en (id, 0) et on a ∇gi (id, 0) = 2(xi (xi )T , xi ), La deuxième condition KKT devient donc X 2 λi xi (xi )T = id, i∈I 2 X λi xi = 0. i∈I On obtient donc la décomposition souhaitée en posant ci = 2λi pour tout i ∈ I. La réciproque est laissée en exercice, il suffit essentiellement de lire la preuve précédente de bas en haut (voir aussi l’exercice 47 plus bas). 35 En prenant la trace de la décomposition de l’identité r X ci xi (xi )T = id i=1 on obtient r X ci = n. i=1 Notons aussi que la décomposition de l’identité se réécrit r X ci hxi , xixi = x, ∀x ∈ Rn . i=1 En reprenant le produit scalaire avec x on obtient r X ci hxi , xi2 = kxk22 , ∀x ∈ Rn . i=1 Corollaire 74. Soit E l’ellipsoïde de John de K et u son centre alors 1 (E − u) + u ⊂ K n Si K est symétrique par rapport à u on a même 1 √ (E − u) + u ⊂ K. n Démonstration. Quitte à faire une transformation affine on peut supposer que K est en position de John. On a alors une décomposition de John (10) où les xi sont des points de contact entre K et la sphère unité et K. Supposons que K est symétrique notons k · kK la norme associée à K. En utilisant la décomposition de l’identité plusieurs fois, l’inégalité triangulaire pour k · kK et l’inégalité de Cauchy-Scwhartz on obtient r r X X kxkK = ci hx, xi ixi ≤ ci |hx, xi i| i=1 i=1 K !1/2 !1/2 r r X X √ ≤ ci ci hx, xi i2 = n kxk2 i=1 i=1 n pour tout x ∈ R . Ceci montre bien que 1 √ B2n ⊂ K. n Si K n’est pas symétrique l’argument précédent ne marche pas parce que la norme associée à K n’est pas symétrique et donc on ne peut pas écrire khx, xi ixi kK = |hx, xi i|. En revanche, comme P ci xi = 0 on a pour tout x ∈ Rn x= r X ci hx, xi ixi = i=1 r X ci (hx, xi i + kxk2 ) xi . i=1 De plus comme xi est un vecteur unitaire hx, xi i + kxk2 ≥ 0. 36 Donc d’après l’inégalité triangulaire kxkK r X = ci (hx, xi i + kxk2 ) xi i=1 ≤ = K r X ci i=1 r X (hx, xi i + kxk2 ) ! ci kxk2 = n kxk2 . i=1 Donc 1 n B ⊂ K, n 2 ce qu’il fallait démontrer. On a donc montré que pour tout convexe compact d’intérieur non vide K, on peut trouver une application affine T telle que 1 n B ⊂ T K ⊂ B2n . n 2 On dit que la distance de Banach-Mazur de K à la boule euclidienne est majorée par n. Cette estimation est optimale : la distance de Banach-Mazur d’un simplexe à la boule √ Euclidienne est effectivement n. Si K est symétrique la distance de K à B2n est majorée par n. À nouveau ce n ceci est optimal : il y égalité pour B1n et B∞ entre autres. Exercice 46. Déterminer l’ellipsoïde de John des boules `p . Exercice 47. Soit K un convexe compact d’intérieur non vide vérifiant la condition de John : K est inclus dans B2n et il existe des points de contact xi et des réels positifs ci tels que X X ci xi (xi )T = id, ci xi = 0, et soit E = A−1 (B2n − u) un ellipsoïde contenant K. 1. Montrer que tr(AT A) ≤ n. 2. En déduire que le volume de E est supérieur ou égal à celui de B2n (sans utiliser le théorème de John). 37 12 Espaces en dualité et programmation linéaire Définition 75. On dit que deux espaces vectoriels E et F sont en dualité s’il existe une application h·, ·i : E × F → R. vérifiant – x 7→ hx, yi est linéaire sur E pour tout y ∈ F . – y 7→ hx, yi est linéaire sur F pour tout x ∈ E. – si hx, yi = 0 pour tout y alors x = 0. – si hx, yi = 0 pour tout x alors y = 0. On parle de forme bilinéaire non dégénérée. Exemple. Soit E = R(N) l’espace des suites réelles nulles à partir d’un certain rang et F = RN l’espace des suites réelles. On muni E, F d’une dualité en posant +∞ X hx, yi = xi yi , ∀x ∈ E, y ∈ F. i=1 Définition 76. Soit E, F deux espaces en dualité. Soit σ(E, F ) la plus petite topologie sur E telle que pour tout y l’application x 7→ hx, yi soit continue. Alors E muni de cette topologie est un espace vectoriel topologique localement convexe. On définit la topologie σ(F, E) sur F de manière analogue. Une base d’ouverts de la topologie σ(E, F ) est donnée par les ensembles de la forme m \ {x ∈ E; hx, yi i < ti } i=1 avec y1 , . . . , ym ∈ F et t1 , . . . , tm ∈ R. Exemple. Si E = F = Rn munis du produit scalaire usuel, la topologie obtenue est la topologie usuelle. Si E est un espace de Banach, F son dual, munis de la dualité naturelle, la topologie σ(E, F ) est la topologie faible sur E et la topologie σ(F ∗ , E) est la topologie faible (∗) sur E ∗ . Théorème 77. Soit φ une forme linéaire sur E. Alors φ est continue pour la topologie σ(E, F ) si et seulement s’il existe y ∈ E tel que φ(x) = hx, yi. Démonstration. Si φ est linéaire continue {φ < 1} est un ouvert σ(E, F ) contenant 0. Il existe donc y1 , . . . , ym ∈ F tels que m \ {x; hx, yi i < 1} ⊂ {φ < 1}. i=1 On pose φi (x) = hx, yi i. On déduit facilement de l’inclusion précédente que ∩m i=1 ker(φi ) ⊂ ker(φ), ce qui implique φ ∈ vect(φ1 , . . . , φm ). Il existe donc λ1 , . . . , λm ∈ R tels que * m + m X X φ(x) = λhx, yi i = x, λi yi , i=1 i=1 ce qu’il fallait démontrer. La réciproque est triviale. Définition 78. Soit C un cône de E. On pose C ∗ = {y ∈ F ; hx, yi ≥ 0, ∀x ∈ C} . C’est un cône fermé de F appelé cône dual. De même si D est un cône de F , le cône dual de D est D∗ = {x ∈ E; hx, yi ≥ 0, ∀y ∈ D} . 38 Théorème 79. Soit C ⊂ E. On a C = (C ∗ )∗ si et seulement si C est un cône fermé. Plus généralement (C ∗ )∗ est l’enveloppe conique fermée de C. Démonstration. On a toujours C ⊂ (C ∗ )∗ . Supposons que C est un cône convexe fermé et soit x ∈ / C. Alors d’une part on peut séparer strictement x de C par une forme linéaire continue, d’autre part on sait que les formes linéaires continues sur E sont de la forme h·, yi. Donc il existe y ∈ F et > 0 tel que hx, yi + < hx0 , yi pour tout x0 ∈ C. En appliquant à x0 = 0 on obtient hx, yi < 0. En appliquant à tx0 et en faisant tendre t vers l’infini on obtient hx0 , yi ≥ 0 pour tout x0 ∈ C et donc y ∈ C ∗ . Donc x ∈ / (C ∗ )∗ , ce qu’il fallait démontrer. Soient (E, F ) et (E1 , F1 ) deux paires d’espaces en dualité et soit A : E → E1 une application linéaire continue pour les topologies σ(E, F ) et σ(E1 , F1 ). Alors par composition x ∈ E 7→ hAx, bi ∈ R est continue. Il existe donc y ∈ F tel que hAx, bi = hx, yi pour tout x ∈ E. On pose y = A∗ b. Il est alors facile de voir que A∗ : F1 → F est linéaire continue. Soit A : E → E1 linéaire continue, C un cône de E, a un élément de E1 et y ∈ F . On s’intéresse au problème suivant minimiser hx, yi sous contraintes Ax = a (P) x ∈ C. On parle de programme linéaire. Encore une fois on appelle valeur du problème l’infimum des hx, yi parmi les x vérifiant les contraintes. On dit que x est solution si cet infimum est atteint en x. Le problème dual associé à (P) est par définition (P 0 ) maximiser ha, bi sous contraintes −A∗ b + y ∈ C ∗ . Lemme 80. Soit α, α0 les valeurs de (P) et (P 0 ) respectivement. On a α0 ≤ α. Démonstration. Soit b ∈ F1 tel que −A∗ b + y ∈ C ∗ et soit x ∈ E tel que Ax = a et x ∈ C. Alors hx, −A∗ b + yi ≥ 0 et donc ha, bi = hAx, bi = hx, A∗ bi ≤ hx, yi, ce qu’il fallait démontrer. Théorème 81. Si l’ensemble des x satisfaisant les contraintes de (P) est non vide et si le cône D = {(Ax, hx, yi); x ∈ C} est fermé (dans E1 × R muni de la topologie produit) alors α = α0 . Si de plus α > −∞, le problème (P) admet une solution. Démonstration. Supposons α > −∞. Soit I = {t ∈ R; (a, t) ∈ D}. 39 Par définition l’infimum de I est la valeur α du problème. Mais puisque D est fermé I l’est aussi, donc l’infimum est atteint. Soit > 0, alors (b, α − ) ∈ / D. Donc il existe (b, s) ∈ D∗ tel que ha, bi + s(α − ) < 0. Comme le point (a, α) appartient à D on a ha, bi + sα ≥ 0. Par conséquent s > 0. On pose b0 = −b/s. On a déjà ha, b0 i > α − . D’autre part comme (b, s) ∈ D∗ on a hAx, bi + shx, yi ≥ 0, ∀x ∈ C. On en déduit facilement que −A∗ b0 + y ∈ C ∗ . Donc α0 > α − , ce qui donne le résultat en faisant tendre vers 0. Attention, il ne suffit pas que C soit fermé pour pouvoir appliquer le théorème. En effet l’image d’un cône fermé par une application linéaire continue n’est pas forcément fermée. En revanche l’image d’un cône engendré par nombre fini de points reste un cône engendré par un nombre fini de points, donc un ensemble fermé. On considère le problème de transport optimal. Soient µ et ν deux mesures de probabilité sur [0, 1] et c : [0, 1]2 → R une fonction continue. On cherche à Z minimiser c dπ [0,1]2 sur les mesures de probabilités π sur [0, 1]2 ayant comme première et deuxième marginales µ et ν respectivement. L’espace E = M([0, 1]2 ) est l’espace des mesures de Radon (= différences de deux mesures finies) sur [0, 1]2 qui est en dualité avec F = C([0, 1]2 ). L’application A : M([0, 1]2 ) → M([0, 1]) × M([0, 1]) associe à une mesure π le couple (π1 , π2 ) formé par ses marginales. Le cône C est le cône des mesures positives sur [0, 1]2 . On voit tout de suite que C ∗ est le cône des fonctions positives sur [0, 1]2 . Déterminons A∗ . Soit (f, g) ∈ C([0, 1]) × C([0, 1]). Par Fubini on a hAπ, (f, g)i = hπ1 , f i + hπ2 , gi Z Z = 0, 1]f dπ1 + 0, 1]g dπ2 [ [ Z = f (x) + g(y) π(dx, dy). [0,1]2 Donc A∗ (f, g) est la fonction sur [0, 1]2 qui à (x, y) associe f (x) + g(y). Le problème dual maximiser h(µ, ν), (f, g)i sous contraintes −A∗ (f, g) + c ∈ C ∗ devient donc R R maximiser f dµ + g dν sous contraintes f (x) + g(y) ≤ c(x, y), ∀x, y Théorème 82 (Théorème de Kantorovitch). Les deux problèmes ont la même valeur : Z Z Z inf c dπ; π1 = µ, π2 = ν = sup f dµ + g dν, f (x) + g(y) ≤ c(x, y) . 40 Démonstration. D’après le théorème précédent, il suffit de montrer que le cône Z D= π1 , π2 , c dπ , π ∈ C est fermé. Soit K l’ensemble des mesures de probabilité sur [0, 1]2 . D’après Banach-Alaoglu (et Riesz) K est compact pour la topologie σ(M, C). De plus on a C = co(K). On pose Z T : π 7→ π1 , π2 , c dπ Alors T est continue, donc T K est compact. De plus si π est une mesure de probabilité sur [0, 1]2 alors π1 est une mesure de probabilité sur [0, 1], en particulier π1 n’est pas nulle. Donc 0 ∈ / T K. En utilisant le lemme ci-dessous, on voit que D = T (co(K)) = co(T K) est fermé. Lemme 83. Soit E un espace vectoriel topologique localement convexe. Soit K ⊂ E un convexe compact ne contenant pas 0. Alors co(K) est fermé. Démonstration. Exercice (pas facile). Exercice 48. On considère le problème suivant d’un certain rang. minimiser sous contraintes sur l’espace R(N) des suites réelles nulles à partir x P1 ∞ kxk = 1, Pk=1 ∞ k=2 xk = 0, xk ≥ 0, ∀k. Déterminer le problème dual, résoudre les deux problèmes et montrer que les deux problèmes n’ont pas la même valeur. Exercice 49. On reprend le problème de transport discret : P minimiser c π Pij ij ij sous contraintes π = µi , ∀i Pj ij π = νi , ∀j ij i πij ≥ 0, ∀ij. 1. Déterminer le problème dual et montrer qu’il a la même valeur que le problème initial. 2. Montrer que les deux problèmes ont une solution. 41 Annexe 1. Espaces vectoriels topologiques Définition 84. On dit que E est un espace vectoriel topologique si E est un espace vectoriel muni d’une topologie vérifiant les propriétés suivantes : (i) La topologie est séparée : pour tous x 6= y dans E il existe deux ouverts disjoints U et V contenant respectivement x et y. (ii) Les opérations d’espace vectoriel : E×E →E R×E →E et (x, y) 7→ x + y (λ, x) 7→ λx sont continues. Proposition 85. Soit E un espace topologique et U un ouvert. Alors pour tout x ∈ E et tout λ 6= 0 l’ensemble x + λU est ouvert. Démonstration. Comme E est un espace vectoriel topologique, la fonction f: E →E y 7→ y−x λ est continue. Donc x + λU = f −1 (U ) est ouvert Remarquons que la propriété implique que si A est ouvert et B quelconque, alors A + B est ouvert. En effet [ A+B = (A + y) y∈B est une union d’ouverts. Définition 86. On dit qu’un espace vectoriel topologique E est localement convexe s’il existe une base de voisinages convexes. Autrement dit, si pour tout x et pour tout voisinage U de x, il existe un voisinage convexe V de x contenu dans U . Proposition 87. Soit E un espace vectoriel topologique localement convexe, soit A un compact et soit B un fermé disjoint de A. Alors il existe un voisinage convexe U de 0 tel que (A + U ) ∩ B = ∅. Démonstration. Soit x ∈ A, comme x ∈ B c il existe un voisinage convexe Ux de 0 tel que (x + Ux ) ∩ B = ∅. Comme A est compact on peut extraire un sous-recouvrement fini des x + Ux /2 : m [ Uxi . A⊂ xi + 2 i=1 On pose m \ Uxi . U= 2 i=1 Alors U est un voisinage convexe de 0 (comme intersection finie de voisinages convexe). De plus m [ Ux A+U ⊂ xi + i + U 2 i=1 m [ Uxi U xi ⊂ xi + + 2 2 i=1 = m [ (xi + Uxi ) i=1 puisque Uxi est convexe pour tout i. Mais comme chacun des x + Ux est disjoint de B, l’ensemble A + U aussi. 42 Annexe 2. Lemme de Zorn Théorème 88 (Lemme de Zorn). Soit (Ω, ≤) un ensemble muni d’une relation d’ordre partiel (les éléments de Ω ne sont pas nécessairement comparables). Si tout sous-ensemble totalement ordonné de E admet un majorant (dans E) alors E admet un élément maximal, c’est-à-dire un élément ω ∈ Ω vérifiant ω ≤ ω 0 ⇒ ω = ω 0 , ∀ω 0 ∈ Ω. Ce résultat est équivalent à l’axiome du choix. Donnons un premier exemple d’application. Théorème 89. Tout espace vectoriel E admet une base algébrique, c’est-à-dire une famille d’éléments de E qui soit à la fois libre et génératrice. Remarque. Si E est de dimension finie, le résultat se montre facilement par récurrence sur la dimension de E. De manière générale, le lemme de Zorn permet de faire des récurrences infinies. Démonstration. Soit E un espace vectoriel et soit Ω l’ensemble des familles libres d’éléments de E. On muni Ω de l’ordre partiel donné par l’inclusion. Soit A ⊂ Ω un sous-ensemble totalement ordonné et A = ∪A. Je prétends que A est une famille libre d’éléments de E. En effet soient x1 , . . . , xm ∈ A. Pour tout i ≤ m il existe Ai ∈ A tel que xi ∈ Ai . Mais comme la famille A est totalement ordonnée, l’ensemble {A1 , . . . , Am } admet un plus grand élément. Il existe donc j ≤ m tel que xi ∈ Ai ⊂ Aj , ∀i ≤ m. Enfin comme Aj ∈ Ω la famille {x1 , . . . xm } est libre, ce qu’il fallait démontrer. De plus, on a B ⊂ A pour tout B ∈ A. Par conséquent A est un majorant de A. D’après le lemme de Zorn, il existe donc une famille libre C, qui soit maximale pour l’inclusion. Alors C est génératrice. En effet, s’il existait x ∈ / vect(C) alors la famille C ∪ {x} serait encore libre et strictement plus grande (pour l’inclusion) que C, contredisant la maximalité de C. Démonstration du théorème de Hahn-Banach. On considère l’ensemble Ω0 des couples (G, ψ) où G est un sous-espace vectoriel de E et ψ une forme linéaire sur G dominée par j : ψ(x) ≤ j(x), ∀x ∈ G. On muni Ω0 de la relation d’ordre (G, ψ) ≤ (G0 , ψ 0 ) si G ⊂ G0 et ψ 0 (x) = ψ(x), ∀x ∈ G. Ensuite on considère l’ensemble Ω = {(G, ψ) ∈ Ω0 ; (F, φ) ≤ (G, ψ)} , qui est non vide puisque (F, φ) ∈ Ω0 . On veut montrer qu’il existe une forme linéaire ψ sur E telle que (E, ψ) ∈ Ω. Il suffit de montrer que Ω admet un élément maximal. En effet la démonstration faite en dimension finie montre qu’étant donné (F, ψ) ∈ Ω et x ∈ E\F , on peut prolonger ψ à F + Rx en restant dominée par j ; autrement dit (F, ψ) n’est pas maximal. D’après le lemme de Zorn, il suffit de montrer que tout sous-ensemble totalement ordonné de Ω admet un majorant. Soit A un sous-ensemble totalement ordonné de Ω. On pose G = {G; ∃ψ, (G, ψ) ∈ A} . Comme A est totalement ordonnée pour l’ordre ≤, la famille G est totalement ordonnée pour l’inclusion. Posons G = ∪G. Alors G est un sous-espace vectoriel de E. En effet soient x1 , x2 ∈ G. Il existe G1 , G2 ∈ G tels que x1 ∈ G1 et x2 ∈ G2 . Mais comme la famille G est totalement ordonnée, on a par exemple G1 ⊂ G2 . Alors toute combinaison linéaire de x1 , x2 appartient à G2 , donc à G. Soit x ∈ G. Il existe (G1 , ψ1 ) ∈ A tel que x ∈ G1 . On pose alors ψ(x) = ψ1 (x). Ceci ne dépend pas du choix de (G1 , ψ1 ). En effet, soit (G2 , ψ2 ) ∈ A tel que x ∈ G2 . Comme A est totalement ordonné on a soit (G1 , ψ1 ) ≤ (G2 , ψ2 ) soit l’inverse. Dans les deux cas ψ1 (x) = ψ2 (x). On montre ensuite facilement que ψ est linéaire dominée par j et que (G1 , ψ) ≤ (G, ψ) pour tout (G1 , ψ1 ) ∈ A. 43 On va maintenant montrer que n’importe quel convexe compact d’un espace vectoriel topologique localement convexe admet un point extrémal. Remarquons d’abord que le lemme de Zorn peut se reformuler de la manière suivante : Soit Ω un ensemble ordonné non vide tel que tout sous-ensemble totalement ordonné admette un minorant, alors Ω admet un élément minimal. Démonstration de la Proposition 63. Soit E espace vectoriel topologique localement convexe. Soit K un sous-ensemble convexe compact de E. Considérons l’ensemble Ω des faces fermées non vides de K, muni de la relation d’inclusion. La démonstration faite en dimension finie montre le fait suivant : si K est un convexe compact contenant au moins deux points alors il admet une face fermée stricte, c’est-à-dire une face fermée F telle que F 6= K. Ceci implique que si F est une face de K contenant au moins deux points alors F n’est pas minimale dans Ω. Il suffit donc de montrer que Ω admet un élément minimal. L’ensemble Ω est non-vide puisque K lui-même appartient à Ω. Soit F une famille totalement ordonnée de faces fermées non vides de K. Soit G un sous-ensemble fini de F. Comme F est totalement ordonnée G admet un minimum G et donc \ G = G 6= ∅. Donc toute intersection finie d’éléments de F est non vide. Comme F est une famille de sousensembles fermés de K qui est compact, on en déduit que \ F = F est non vide. Enfin il est facile de voir qu’une intersection non-vide de face est une face. Donc F ∈ Ω est un minorant de F, ce qui termine la preuve. 44 Annexe 3. Dualité. Topologies faible et faible ∗ Définition 90. Soit E un espace vectoriel toplogique. On appelle espace dual de E, l’espace E ∗ des formes linéaires continues sur E. Remarque. En dimension finie les formes linéaires sont toujours continues mais ce n’est pas forcément le cas si E est de dimension infinie. Définition 91. Si E est un espace vectoriel normé, on définit une norme sur E ∗ en posant kφk∗ = sup {|φ(x)|; kxk ≤ 1} . De plus E ∗ muni de cette norme est un espace de Banach (même si E lui-même n’était pas complet). Proposition 92. Soit E un espace vectoriel normé et soit x ∈ E, l’application i(x) : E ∗ φ →R 7→ φ(x) est une forme linéaire continue sur E ∗∗ . De plus x 7→ i(x) est linéaire et on a ki(x)k∗∗ = kxk. L’application i : E → E ∗∗ est donc une injection isométrique, appelée injection canonique. Définition 93. Quand l’application i est surjective, on dit que E est réflexif. Exemple. Si E est de dimension finie n alors E ∗ est de même dimension, donc E ∗∗ aussi. L’application i est donc surjective par le théorème du rang. Donc E est réflexif. Exemple. Soit H un espace de Hilbert. Le lemme de Riesz affirme qu’une forme linéaire φ sur H est continue si et seulement s’il existe y ∈ H tel que φ(x) = hy, xi, ∀x ∈ H. Ceci implique facilement que jH : H → H ∗ y 7→ (x ∈ H 7→ hy, xi) est une isométrie. En particulier H ∗ est aussi un Hilbert, et on peut lui appliquer le lemme de ∗ Riesz à nouveau. On vérifie alors que i = jH ◦ jH , ce qui montre que i est surjective, donc que H est réflexif. Exemple. Soit (Ω, A, µ) un espace mesuré. Soit p ∈ [1, +∞[ et q = 1 − 1/p ∈]1, +∞]. Si µ est σ-finie l’application : Lq → (Lp )∗ R g 7→ f 7→ Ω f g dµ est une isométrie. On en déduit facilement que si p ∈]1, +∞[ alors Lp est réflexif. Exemple. Considérons l’espace c0 (N) des suites réelles qui tendent vers 0 muni de la norme kuk∞ = sup{|u(k)|, k ∈ N}. L’espace c0 (N) est un Banach. En effet c’est un sous-espace fermé de l’espace `∞ (N). Rappelons que `1 (N) est l’espace des suites sommables muni de la norme X kvk1 = |v(k)|. k∈N Soit v ∈ `1 (N ), l’application j(v) : u ∈ c0 (N) 7→ X k∈N 45 u(k)v(k) est linéaire continue. On montre facilement que kj(v)kc0 (N)∗ = kvk1 . Par conséquent `1 (N) s’injecte isométriquement dans c0 (N)∗ . Montrons que cette injection est surjective, autrement dit que tout élément de c0 (N) est de la forme j(v). Soit φ ∈ c0 (N)∗ . Pour tout entier n, on définit 1 si k = n en (k) = 0 sinon. On définit ensuite v(k) = φ(ek ). On montre facilement que v ∈ `1 (N) et que j(v) = φ. L’application j définit donc une isométrie entre `1 (N) et c0 (N). Avec un léger abus de langage on dit que `1 (N) est le dual de c0 (N). De manière analogue, le dual de `1 (N) s’identifie à l’espace `∞ (N) et l’injection canonique de c0 (N) dans son bidual s’identifie à l’injection de c0 (N) dans `∞ (N). Donc c0 (N) n’est pas réflexif. Définition 94. Soit E un espace de Banach, on appelle topologie faible sur E, la plus petite topologie rendant les éléments de E ∗ continus. De manière équivalente, un ensemble est ouvert pour la topologie faible s’il peut s’écrire comme une union (quelconque) d’ensemble de la forme m \ (φi )−1 (Ui ), i=1 où les Ui sont des ouverts de R et les φi des éléments de E ∗ . On peut montrer que l’espace E muni de la topologie faible est un espace vectoriel topologique (exercice, ne pas oublier la propriété de séparation). C’est même un espace vectoriel topologique localement convexe : on peut supposer que les Ui sont des intervalles dans la définition précédente. Proposition 95. Soit (xn ) une suite d’éléments de E et x ∈ E. On a xn → x faiblement si et seulement si φ(xn ) → φ(x) pour toute φ ∈ E ∗ . Démonstration. Par définition les éléments de E ∗ sont continus pour la topologie faible. Donc si xn → x faiblement, alors φ(xn ) → φ(x) pour toute φ ∈ E ∗ . Réciproquement soit U= m \ (φi )−1 (Ui ) i=1 un voisinage de x. En utilisant le fait que φi (xn ) → φ(x) pour tout i ≤ m on obtient xn ∈ U pour n assez grand, ce qu’il fallait démontrer. Lemme 96. En dimension finie, topologie forte et topologie faible coïncident. Démonstration. Les ouverts faibles sont toujours des ouverts forts. Pour la réciproque il suffit de remarquer que si U est un ouvert de Rn contenant un point x = (x1 , . . . , xn ) alors pour > 0 suffisamment petit m \ {xi − < yi < xi + } i=1 est un ouvert faible contenant x et inclus dans U . Proposition 97. Soit E un Banach, soit (xn ) une suite d’éléments de E, soit x ∈ E. Si xn → x faiblement alors lim inf kxn k ≥ kxk. Autrement dit la norme est semi-continue inférieurement sur E. Démonstration. On a kxk = sup{φ(x); φ ∈ BE ∗ }. La norme est donc s.c.i. comme sup de fonctions continues (pour la topologie faible). 46 Remarque. On peut aussi montrer que dès que E est de dimension infinie, la norme n’est pas continue (pour la topologie faible). Ceci fournit un exemple de fonction convexe sur un espace topologique qui soit finie partout sans être continue. Définition 98. Soit E un Banach et E ∗ sont dual. On appelle topologie faible ∗ sur E ∗ la plus petite topologie telle que topologie telle que pour tout x ∈ E, l’application φ ∈ E ∗ 7→ φ(x) soit continue. On a les propriétés suivantes : – E ∗ muni de la topologie faible ∗ est un espace vectoriel topologique localement convexe. – Une suite φn converge vers φ pour la topologie faible ∗ si et seulement si φn (x) → φ(x) pour tout x ∈ E. – La norme de E ∗ est s.c.i. pour la topologie faible sur E ∗ . Ces propriétés se démontrent de la même manière que pour la topologie faible. Remarquons que l’injection de E dans son bidual E ∗∗ montre que la topologie faible ∗ sur E ∗ est une topologie moins fine (avec moins d’ouverts) que la topologie faible sur E ∗ . Si l’espace E est réflexif, alors les deux topologies coïncident. Exemple. Reprenons l’exemple de c0 (N). On considère la suite (en ) d’éléments de `1 (N) définie plus haut (tous les termes de en sont nuls sauf le n-ième qui vaut 1). Pour tout u ∈ c0 (N) (ju)(en ) = un → 0. Ceci montre que (en ) tend vers 0 (la suite nulle) pour la topologie faible ∗ de `1 (N). D’un autre côté, soit φ l’application linéaire définie sur `1 (N) par X φ : v 7→ v(k). k∈N Alors φ(en ) = 1 pour tout n ∈ N. Ceci montre que (en ) ne tend pas vers 0 pour la topologie faible. Ceci montre même que la suite (en ) ne converge pas. En effet, comme la convergence faible entraine la convergence faible ∗, elle ne pourrait converger que vers 0. Théorème 99 (Théorème de Banach-Alaoglu). Soit E un espace de Banach, la boule unité de E ∗ est compacte pour la topologie faible ∗. Remarque. Dans ce théorème, compact s’entend au sens Borel-Lebesgue : de tout recouvrement par des ouverts on peut extraire un sous-recouvrement fini. Dans les espaces métriques cette notion de compacité est équivalente à la propriété de Bolzano-Weierstrass (toute suite admet une valeur d’adhérence), mais ce n’est pas vrai pour tous les espaces topologiques. Rappelons qu’on dit qu’un Banach E est séparable s’il existe un sous-ensemble dénombrable dense dans E. Lemme 100. Soit E un Banach, si E ∗ est séparable la topologie faible sur E est métrisable : il existe une distance d sur E telle que la topologie associée à d coïncide avec la topologie faible sur E. De manière analogue, si E est séparable, la topologie faible ∗ sur E ∗ est métrisable. Démonstration (idée). Soit (φn )n≥1 une suite dense dans E. Pour x, y ∈ E on pose d(x, y) = ∞ X min{|φn (x − y)|, 1} . 2n n=1 On montre alors que d est une distance et qui métrise la topologie faible sur E. Démonstration de Banach-Alaoglu dans le cas séparable. On suppose que l’espace E est séparable. La topologie faible ∗ de E ∗ est alors métrisable. Il s’agit de montrer que de toute suite bornée (φn ) de E ∗ on peut extraire une sous-suite convergente pour la topologie faible ∗. Soit (xi )i≥1 une suite 47 dénombrable dense dans E. Pour tout i la suite (φn (xi ))n≥1 est une suite bornée de R. Quitte à extraire diagonalement on peut supposer que pour tout i ≥ 1 la suite (φn (xi ))n converge vers un nombre ai ∈ R. Posons E0 = vect{xi , i ≥ 1}. On définit une fonction φ sur E0 en posant X X φ λ i xi = λi ai pour toute combinaison linéaire des xi . On montre facilement que φ est bien définie, linéaire et vérifie φn (x) → φ(x), ∀x ∈ E0 . Comme la suite (φn ) est bornée dans E ∗ , il existe une constante C telle que |φ(x)| = lim |φn (x)| ≤ lim inf kφn k kxk ≤ Ckxk n n pour tout x ∈ E0 . Autrement dit φ est continue sur E0 . Comme E0 est dense dans E, la fonction φ s’étend de manière unique en une forme linéaire continue ψ sur E (exercice). Il reste à montrer que φn (x) → ψ(x), ∀x ∈ E. On sait déjà que ceci est vrai pour x ∈ E0 , on l’obtient pour tout x ∈ E en utilisant la densité de E0 dans E. Exemple. Reprenons l’exemple précédent. Remarquons d’abord que c0 (N) est séparable puisque les suites à coefficients rationnels nulles à partir d’un certain rang sont denses dans c0 (N). La suite (en ) est une suite d’éléments de la boule unité de `1 (N). On a vu qu’elle tendait vers 0 pour la topologie faible ∗, mais qu’elle ne convergeait pas pour la topologie faible. On voit même qu’aucune sous-suite de (en ) ne converge pour la topologie faible. Ceci montre que pour la topologie faible sur `1 (N), la boule unité de `1 (N) ne possède pas la propriété de Bolzano-Weierstrass. Ceci ne permet pas a priori de conclure que la boule unité de `1 (N) n’est pas compacte : l’espace `∞ (N) n’étant pas séparable, on ne peut pas affirmer que la topologie faible sur `1 (N) est métrisable. Néanmoins, on a le résultat suivant. Théorème 101. Soit E un espace de Banach, la boule unité de E est compacte pour la topologie faible si et seulement si E est réflexif. Démonstration (idée). Si E est réflexif, alors (modulo l’injection i) la topologie faible sur E est égale à la topologie faible ∗ sur E vu comme dual de E ∗ . Donc la boule unité de E est compacte d’après Banach-Alaoglu. Pour la réciproque on commence par montrer que (toujours modulo l’injection i) la boule unité de E est toujours dense dans la boule de E ∗∗ pour la topologie faible ∗ sur E ∗∗ (voir ci-dessous). Si de plus elle est compacte pour la topologie faible sur E alors elle est compacte (donc fermée) pour la topologie faible ∗ sur E ∗∗ . Donc BE = BE ∗∗ . Exercice 50. Soit E un espace de Banach et soit y une forme linéaire sur E ∗ . On veut montrer que y est continue pour la topologie faible ∗ si et seulement s’il existe x ∈ E tel que y(φ) = φ(x), ∀φ ∈ E ∗ . 1. Montrer le sens évident. 2. On suppose y continue pour la topologie faible ∗. En utilisant le fait que {y < 1} est un voisinage faible ∗ de 0 montrer qu’il existe x1 , . . . , xm dans E tels que m \ x⊥ i ⊂ ker(y), i=1 où x⊥ désigne l’ensemble des φ ∈ E ∗ nulles en x, qu’on peut aussi voir comme le noyau de x vu comme élément de E ∗∗ . 48 3. Conclure en utilisant l’exercice 19. Exercice 51. Soit E un Banach et i l’injection canonique de E dans E ∗∗ . Soit K l’adhérence de i(BE ) pour la topologie faible ∗ sur E ∗∗ . 1. Montrer que K ⊂ BE ∗∗ . 2. Soit y ∈ E ∗∗ \K. En utilisant Hahn-Banach et l’exercice précédent, montrer que kykE ∗∗ > 1. 3. En déduire que K = BE ∗∗ . 49